Кодировка текстовой информации.



Самый распространенный тип данных в компьютерном мире это текстовые файлы, которые непосредственно в той или иной мере по­нятны для человека, в отличие от бинарных файлов, ориентированных исключительно на компьютерные методы обработки. С использованием текстовых файлов связаны две проблемы.

Первая заключается в сложности единообразного представления символов текста, Для представления английских текстов достаточно ASCII. Для работы с другими языками на основе латинского алфави­та, языками на основе кириллицы и некоторыми другими нужно уже несколько десятков наборов расширенного ASCII. Это означает, что одному и тому же коду, большему 127, в каждом наборе соответствует свой символ. Ситуацию усложняет и то, что для некоторых языков в частности, русского существует несколько наборов ASCII+. Кроме того, необходимо, чтобы все символы каждого языка помещались в один набор, что невозможно для таких языков, как китайский или японский. Таблица кодировки Unicode, предназначенная для постепенной замены ASCII, 32-разрядная. что позволяет представить 65536 кодов. Она широко используется в Linux и Microsoft Windows. Варианты Unicode позволяют использовать 32-разрядное кодирование. Использование Unicode требует переделки всех программ, рассчитанных для работы с текстами ASCII,

Для того чтобы увидеть символы, соответствующие кодам из тек­стового файла, каждому коду нужно сопоставить визуальное представ­ление символа их выбранного шрифта.

Компьютерный шрифт это набор зашифрованных кодами рисун­ков знаков.

Таким образом. чтобы интерактивно работать с текстовым файлом необходимо знать его кодировку (из текстовых файлов, как правило, прямой информации о кодировке получить нельзя ее надо знать или угадать!) и иметь в системе шрифт, соответствующий этой кодировке.

Вторая проблема связана с тем, что такие средства как курсивный, полужирный или подчеркнутый текст, а также графики, диаграммы, примечания, и т.п. элементы электронных документов, вы­ходят за рамки естественных, интуитивных элементов текста и тре­буют соглашений по их использованию, что приводит к возникнове­нию различных форматов текстовых данных. Последние иногда даже не ориентированы на непосредственную работу с ними человека, фак­тически не отличаясь по назначению в таких случаях, от бинарных данных.

Внесение в простой текст дополнительной информации об его оформлении или структуре осуществляется при помощи разметки текста. Различают физическую или процедурную размет­ку и логическую или обобщенную разметку.

При физической разметке точно указывается, что нужно сделать с выбранным фрагментом текста: показать курсивным, приподнять, цен­трировать, сжать, подчеркнуть и т.п. При логической разметке указы­вается структурный смысл выбранного фрагмента: примечание, начало раздела, конец подраздела, ссылка на другой фрагмент и т.п.

Для печати документа на принтере или показе на экране используется физическая разметка. Исторически она появилась первой, но име­ет очевидные недостатки. Например, в Америке и Европе существуют разные стандарты на размер писчей бумаги, наборы шрифтов и раз­мер экрана меняются от системы к системе, подобные обстоятель­ства требуют трудоемкого изменения физической разметки текста при использовании одного и того же документа на разных компьютерах. Кроме того, физическая разметка, как правило, привязана к конкрет­ным программным средствам, время жизни которых ограничено, что не позволяет вести архивы документации без риска через несколько десятков лет остаться без средств для работы с ними.

Логическую разметку всегда можно преобразовать в физическую, используя таблицу стилей, которая представляет собой перечисление способов отображения каждого логического элемента. Таким образом, имея наборы документов в логической разметке можно всегда при печа­ти придавать им наиболее привлекательный вид, своевременно полу­чая от специалистов-дизайнеров новейшие таблицы стилей. Преобра­зование физической разметки в логическую формальными средствами практически невозможно.

Основные форматы текста с разметкой:

1) HTML Hyper Text Markup Language, язык разметки гипертекста.

2) XML  Extensible Markup Language, расширяемый язык разметки.

3) SGML    Standard Generalized Markup Language, стандартный язык обобщенной разметки.

4) PDF    Portable Document Format формат для переносимых доку­ментов, или Acrobat (частично бинарный).

 


Дата добавления: 2022-01-22; просмотров: 31; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!