Первая строка         Расширение              Формат файла



Тема 4. Форматы данных,доступных в компьютерных сетях [1,4,8,9]. Форматы для представления текста и документов: общие сведения о тексте, разметка текста, SGML – международный стандартный язык разметки документов, PostScript – не зависящий от устройств воспроизведения язык описания документов, PDF – язык описания документов для обмена ими в электронном виде, форматы данных текстовых процессоров.                                                                         

О ТЕКСТЕ

       Текстовые файлы— наиболее распространенный тип данных не только в Internet, но и во всем компьютерном мире. Хотя на первый взгляд с ним не должно быть особых проблем, существуют два сильно осложняющих жизнь фактора. Первый— чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII. Важно помнить, что бо­лее 250 символов необходимы только для того, чтобы управиться с парой десятков европейских языков, базирующихся на латинском алфавите. Для поддержки других алфавитов — кириллицы, греческого, иврита, арабского, санскрита и т. д. — дополнительно требуется еще более сотни символов, китайский, японский и корейский языки добавляют к этому списку еще более десяти тысяч иероглифов. Времена, когда в Internet преобладали англоязычные пользователи, проходят. Гибкие разработчики программного обеспечения использовали эту благоприятную возможность для создания многоязычных программ. В следующем разделе описывается история появления различных наборов символов. Кроме того, в нем вы найдете некоторые тонкости разработки и использования разноязычного программного обеспечения.

       Другая сложность заключается в том, что чисто текстовые данные встречаются все реже и реже. Люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Онлайновые документы, в свою очередь, могут включать мультипликацию, ссылки на сетевые базы данных и звуковое сопровождение. В результате комбинации различных типов данных образуются документы мультимедиа. Текстовый формат — так как он обычно используется как базовый — является стартовой точкой многих форматов документов мультимедиа. Многие из тех форматов, о которых пойдет речь в следующих разделах, — не просто текстовые форматы, более корректно их следовало бы называть форматами документа. Подобные форматы предоставляют остов для комбинирования текстовых, графических и других форм данных.

Набор символов

Если вы критически посмотрите на разнообразные статьи о символах и наборах символов, то наверняка в конце концов придете к выводу, что опираться на понятие «символ» крайне сложно. Оно имеет так много различных смысловых оттенков, что я умышленно буду избегать слов «символ» и «набор символов» в тех случаях, когда возможно разночтение.

Большинство пользователей уверены в том, что А и А это один и тот же сим­вол, несмотря на то, что выглядят они по разному. Для уточнения внешнего вида да соответствующего символа типографы используют термин глиф. Так, несмотря на то, что все эти глифы А, А, А, А,А, А, представляют собой один и тот же символ, несложно заметить, что они разные. Говоря более точно, глиф — этоспецифическае визуальное представлениесимвола.

Конечно, мало кого интересует вид отдельно взятого символа или глифа. Зачастую надо, чтобы смотрелся хорошо весь текст в целом, то есть имеет смысл говорить о подборке символов. Даже в американском английском она должна содержать пятьдесят две прописных и строчных симвода, десять цифр и разно-образные знаки пунктуации. Такую подборку называют репертуаром (repertoire), соответствующий набор глифов, по одному для каждого из символов, называют шрифтом.

Существует много различных репертуаров символов. Прежде всего, это многообразие вызвано особенностями алфавитов различных языков, а также особенностями приложений (например, издательских систем).

Конечно, в различных странах и языках используются различные репертуары символов. Удобнее всего использовать для кодирования символов числа от нуля до 255 (всевозможные значения одного байта). Правда,имея в распоряжении только 256 чисел, вы не сможете дать уникальный код любому символу. Поэтому были разработаны различные наборы кодов символов. Упомянутый выше набор кодов символов ISO Latin 1 был создан организацией ISO (International Organization for Standardization, Международная организация по стандартизации) для представления всех символов, необходимых для определенной группы языков (в данном случае — для тех языков Западной Европы, которые используют латинский алфавит). Прочие наборы кодов пытаются охватить другие группы символов. Наиболее популярные компьютерные системы, кроме того, имеют собственные специфические варианты наборов символов (так, например, в MS-DOS и Windows используются «кодовые страницы» фирмы IBM).

       Самый       простой способ кодирования символов базируется на едином наборе кодов символов, содержащим 256 (или менее) кодов. Если в вашем распоряжении имеется текстовый файл, закодированный таким образом, вы можете взять из него любой байт и посмотреть в таблице, какой символ соответствует этому значению байта. Если один текстовый файл использует сразу несколько наборов кодов символов, все несколько усложняется. В этом случае вы имеете специальные коды символов, информирующие программу просмотра файла о том, когда она должна переключиться на другой набор кодов символов. В другом международном стандарте, ISO 2022, описывается один из способов переключения между наборами кодов символов. Отметим, что при этом вы не можете просто посмотреть на байт из середины файла и узнать, что он означает. Чтобы увидеть, есть ли специальная последовательность, указывающая на замену кодовой страницы, необходимо прочесть весь файл целиком с самого начала. И только после этого можно будет определить, какой кодовой страницей пользоваться.

Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Причем при таком кодировании используются разнообразные подходы. В одном из вариантов каждому символу соответствует один байт, а для представления всего спектра символов используется несколько наборов кодов. При другом подходе каждому символу соответствует несколько байтов. Для экономии места зачас­тую эти два подхода комбинируются: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Читать такие файлы (например, с текстом на китайском языке), конечно, сложнее, чем те, которые используют столь распространенный в западных про­граммах подход «один байт — один символ».

       Одной из попыток обобщения этих подходов является стандарт Unicode (который так же известен, как ISO 10646). В Unicode для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты. Многие международные стандарты для обеспечения поддержки нескольких языков стремятся к соблюдению Unicode.

Оформление текста

Многие текстовые файлы передаются в виде простого текста (plain text). К несчастью, «простой» в данном случае вовсе не является синонимом слова несложный. Простой текст трудно сделать привлекательным и легкочитаемым, так как в нем нет шрифтов разных начертаний, графики, заголовков, подзаголовков, примечаний и т. п. Эти дополнительные особенности носят название разметкитекста (markup).

Физическая и логическая разметка текста

Прежде всего необходимо разобраться в разнице между физической (physical) и логической (logical) разметкой текста. При использовании физической разметки указывается точный вид каждого фрагмента текста. Например, «центрованный текст, 14-м кеглем, жирный, сжатый, гарнитура Futura». При логической разметке текста указывается логическое значение данного фрагмента, например, «это заголовок главы».

Эти два способа разметки предназначаются для использования в разных ситуациях. Чтобы распечатать текст на принтере, необходимо использовать физическую разметку. То есть должно быть принято решение о размере полей, формате примечаний, а также о величине абзацного отступа в начале каждого параграфа. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом вы должны были для каждого фрагмента текста указывать его шрифт, размер и стиль.

При обмене информацией с другими людьми на физическое оформление текста накладывается ряд ограничений. Например, стандартный лист бумаги в разных странах имеет различный размер. И то, что неплохо смотрелось на бумаге, соответствующей американским стандартам, будет выглядеть крайне неприглядно на более длинном и узком листе А4, используемом в Европе. С чисто электронными документами, например онлайновой документацией, ситуация обстоит еще хуже. Размер экрана, его разрешение, шрифты и поддержка графики — все эти параметры широко варьируют от системы к системе. Потому лучше всего, если документ можно будет подогнать под имеющийся дисплей, заново его отформатировав.

       По этим причинам все чаще и чаще компьютерные приложения используют логическое оформление текста. При логическом оформлении каждая часть документа связывается с его логическим значением. Например, некоторые слова будут иметь пометку «выделить», либо реже «курсив». При распечатывании документа или выводе его на экран логический формат будет конвертироваться в соответствуюший данной ситуации физический формат. Слова, которые необходимо было выделить на системах, не поддерживающих курсив, будут подчеркнуты. В тех же странах, где принято использовать полужирный шрифт, отмеченные слова будут выделены с его помощью.

В некоторых ситуациях логическое оформление крайне важно. Например, в случае обмена электронными документами типа страниц World Wide Web или при создании и публикации объемных трудов (таких, как книги). Многие изда­тели хранят книги в электронном виде, используя SGML (Standard Generic Markup Language, стандартный обобщенный язык разметки документов). Такой подход помогает упростить процесс создания книги (не надо постоянно следить за тем, чтобы соблюдалась разметка страницы и сохранялись выбранные шриф­ты). Кроме того, он позволяет легко изменять размер книги и ее формат.

Преобразование логической разметки в физическую осуществляется с помощью таблицы стилей (style sheet). В таблице стилей просто перечисляются способы отображения каждого логического элемента. В различных системах управление процессом преобразования может различаться в деталях. В одних случаях логическая разметка задается с помощью текстовых команд, и входной документ обрабатывается для создания выходного документа, содержащего физическую разметку. В других— для логического представления используется двоичный формат текстового процессора, а пользователь редактирует окончательныйвариант физически размеченного документа.

Сохранение разметки

Если вы хотите передать данные на другой компьютер,то проще всего отправить их в текстовом виде. Если же важно сохранить разметку, то можно использовать один из трех подходов.

.Во-первых, можно сохранить разметку, включив ее описание в текст. Например, представив фрагмент текста: «...принять правильное решение ...» в виде «... принять <bold> правильное <endbold> решение...». Преимущество такого подхода в том, что файл по-прежнему остается текстовым (хотя, конечно, выглядит он несколько странно), а следовательно, его легко передавать с компьютера на компьютер. Если у вас есть программное обеспечение, поддерживающее этот формат, вы сможете воссоз­дать документ в исходном виде. Но даже если подходящей программы нет, вы все равно сможете в нем разобраться. Существует немало способов представле­ния разметки текста, в том числе:

• HyperText Markup Language (HTML), использующийсяв Worid Wide Web,

• TROFF, применяющийся в документации Unix,

• SGML (Standard Generic Markup Language).

Во-вторых, сохранить разметку можно, передавая изображение каждой страницы. Таким образом работают факс-машины, они создают графическое изображение каждой страницы и передают его. Уязвимое место такого подхода в том, что получатель в результате имеет только изображение страницы. В следствие чего, чтобы отредактировать содержимое документа, получатель должен заново его набрать. Однако этот недостаток становится достоинством в том случае, когда вы не хотите, чтобы получатель мог легко внести изменения в отправленный вами документ. Два популярных способа предоставления широкого доступа к текстовым документам используют именно такой подход. Факс-модем позволяет передавать документы напрямую с одного компьютера на другой. Популярным форматом для такого представления документов является PostScript. Несмотря на то, что это текстовый формат, его крайне сложно преобразовать таким образом, чтобы содержимое файла можно было отредактировать. Проще набрать все заново.

Третий способ сохранения разметки— разработка особых файлов, содержащих не только текст, но и информацию о том, как он должен быть оформлен. Большинство текстовых процессоров и настольных издательских систем используют такой подход. Основная сложность заключается в том, что в результате почти все текстовые процессоры и настольные издательские системы используют свои форматы. Наиболее дорогие программы обычно могут читать файлы, созданные с помощью программ-конкурентов, но это все, на что вы можете рассчитывать. А потому вряд ли стоит использовать специальные форматы файлов для создания общедоступных документов.

SGML

Идея логической разметки текста не нова. Она появилась еще в конце 60-х годов под названием обобщенного кодирования (generic coding, GenCod). В то время многие уже начали разграничивать содержимое документа и его представление. Эта точка зрения легла в основу работ фирм IBM и других. Они стали четко выделять содержимое документа («это заголовок главы») отдельно от его представления («шрифт Helvetica Oblique, 24 пункта, начать с новой правой страницы, оставить пространство под заголовком в полдюйма»).

Эти различия могут показаться несколько формальными лишь при создании документа на страничку, который сразу же распечатывается и удаляется. Но предположим, вы выполняете заказ военного министерства по разработке документации на линкор. В этом случае, мало того, что объем документа будет исчисляться сотнями, а то и тысячами страниц, вы должны будете убедиться в том, что эта документация сможет служить все время существования судна, то есть не менее пятидесяти лет. Формата текстового редактора будет явно недостаточно. Кто может поручиться, что этот текстовый редактор все еще будет существовать через пятьдесят лет? Не будете же вы при каждом изменении текстового редактора конвертировать все документы, ведь тогда вам придется этим заниматься не реже, чем раз в два roдa. Kpoмe тoгo, могут бьпъ рaзличныe трeбовaния к распечатанным и онлайновым версиям документа. То есть надо будет использовать различные виды представления документации для вывода на экран и для печати. Хуже того, эти требования могут периодически меняться, заставляя вас переформатировать все документы в соответствии с новыми указаниями.

Подобные проблемы возникают и перед многими книгоиздателями. Книжные стили изменяются из года в год, и, переиздавая книги пяти- или десятилетней давности, хочется, с одной стороны, чтобы они выглядели современно, а с другой — чтобы не надо было всю книгу форматировать заново.

Решение кроется в корректном определении трех отдельных частей,так чтобы при необходимости можно было изменить любую из них:

 • Четко определите, какая разметка будет использована в этих документах.

• Создайте сами документы, размеченные таким образом.

• Разработайте способ перевода в визуальное представление разметки доку­мента.

Международный стандартный язык разметки документов

Разработчики фирмы IBM для поддержки разделения содержимого документа и его представления создали систему, получившую название GML (Generic Markup Language, обобщенный язык разметки документов). Позже она была доработана и в 1986 году получила статус международного стандарта SGML (Standard Generic Markup Language, стандартный обобщенный язык разметки документов).

SGML предоставляет способ определения того, какая разметка будет использована в документе. Преобразование описания документа в визуальный формат требует дополнительного программного обеспечения, которое должно понимать используемую вами разметку. На практике при преобразовании документа SGML он может быть конвертирован в форматы TROFF или ТЕХ, а затем при помощи этих программных средств создаются непосредственно те выходные документы, которые можно распечатать.

Этот язык предназначен для создания других языков разметки, т.е. является мета-языком, он определяет допустимый набор тэгов разметки (команд или дескрипторов), их атрибуты и внутреннюю структуру документа. Контроль за правильностью использования дескрипторов осуществляется при помощи специального набора правил, называемых DTD- описаниями, которые используются программой интерпретации при разборе документа. Для каждого класса документов определяется свой набор правил, описывающих грамматику соответствующего языка разметки. С помощью SGML можно описывать структурированные данные, организовывать информацию, содержащуюся в документах, представлять эту информацию в некотором стандартизованном формате.

Если для того, чтобы распечатать результат, необходимо переводить его в другой формат, почему бы сразу не использовать этот формат?

Дело в том, что использование SGML связано с вопросами поддержки документов. SGML был разработан для производственных нужд, так как в этом случае документация хранится длительное время. Через десять или двенадцать лет система, которую вы использовали, может просто выйтииз употребления или измениться настолько,что потребуется приобретать новые версии для всего программного обеспечения. Точное определение разметки документа позволяет при необходимости с меньшими усилиями разрабатывать новое программное обеспечение для его поддержки. При работе над большими проектами объем документации может значительно превосходить объем используемого для его создания программного обеспечения. В результате иногда дешевле полностью заменить программное обеспечение, чем преобразовывать документацию в новый формат.

Подход SGML в создании разметки имеет некоторые преимущества при работе с большим количеством данных. Одно из преимуществ заключается в том, что он позволяет автоматически верифицировать многие документы. Например, можно сканировать сотни мегабайт технической документации, чтобы убедиться в том, что каждый учебник содержит резюме (которое не столь велико), оглавление, библиографию и индекс. Такая автоматическая верификация становится возможной в SGML благодаря тому, что эти компоненты указываются как отдельные элементы. Вы можете пользоваться обширной коллекцией документов SGML как базой данных. Из нее можно при необходимости получать, например, только резюме всех документов или единый индекс для быстрого поиска в группе документов.

Признаки SGML

Имя:         SGML, Standard Generalized Markup Language

Расширения:      . sgml

Используется для: управления большими подборками документации Ссылки:       ISO Standard 8879; Practical SGML [vH94]

                   ЯЗЫК РАЗМЕТКИ ГИПЕРТЕКСТОВ - HTML

HTML  создал Тим Бернерс-Ли в ЦЕРНе средствами SGML при разработке им технологии, получившей название WEB-технологии, самой популярной в настоящее время в Интернет.

Гораздо более простой и удобный, чем SGML, язык HTML позволяет определять оформление элементов документа и имеет некий ограниченный набор инструкций - тэгов, при помощи которых осуществляется процесс разметки. Инструкции HTML, в первую очередь, предназначены для управления процессом вывода содержимого документа на экране программы-клиента и определяют этим самым способ представления документа, но не его структуру. В качестве элемента гипертекстовой базы данных, описываемой HTML, используется текстовый файл, который может легко передаваться по сети с использованием протокола HTTP. Эта особенность, а также то, что HTML является открытым стандартом и огромное количество пользователей имеет возможность применять возможности этого языка для оформления своих документов, безусловно, повлияли на рост популярности HTML и сделали его сегодня главным механизмом представления информации в Web. 

Признаки НТML

Имя:         HTML, HiperText Markup Language

Расширения:      . htm, .html

Используется для: представления документов в Web.

Ссылки: 

XML

Cущественным недостатком HTML можно назвать ограниченность набора его тэгов. DTD- правила для HTML определяют фиксированный набор дескрипторов и поэтому у разработчика нет возможности вводить собственные, специальные тэги. Хотя время от времени появляются новые расширения языка, но долгий путь их стандартизации, сопровождаемый постоянными разногласиями между основными производителями броузеров делают практически невозможной быструю адаптацию языка, его использование для отображения специализированной информации(например, мультимедийной, математических, химических формул и т.д.).

Можно утверждать, что HTML уже сегодня не удовлетворяет в полной мере требованиям, предъявляемым современными разработчиками к языкам подобного рода. И ему на смену был предложен новый язык гипертекстовой разметки, мощный, гибкий, и, одновременно с этим, удобный язык XML. В чем же заключается его достоинства?

XML (Extensible Markup Language[1]) - это язык разметки, описывающий целый класс объектов данных, называемых XML- документами. Этот язык используется в качестве средства для описания грамматики других языков и контроля за правильностью составления документов. Т.е. сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок их создания. Таким образом, если, например, мы считаем, что для обозначения элемента rose в документе необходимо использовать тэг <flower>;, то XML позволяет свободно использовать определяемый нами тэг и мы можем включать в документ фрагменты, подобные следующему:

<flower>rose</flower>

Набор тэгов может быть легко расширен. Если, предположим, мы хотим также указать, что описание цветка должно по смыслу идти внутри описания оранжереи, в которой он цветет, то просто задаем новые тэги и выбираем порядок их следования:

<conservatory><flower>rose</flower></conservatory>

Если мы хотим посадить туда еще несколько цветочков, то должны внести следующие изменения:

<conservatory><flower>rose</flower><flower>tulip</flower><flower>cactus</flower></conservatory>

Как видно, сам процесс создания XML документа очень прост и требует от нас лишь базовых знаний HTML и понимания тех задач, которые мы хотим выполнить, используя XML в качестве языка разметки. Таким образом, у разработчиков появляется уникальная возможность определять собственные команды, позволяющие им наиболее эффективно определять данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа.

Еще одним из очевидных достоинств XML является возможность использования его в качестве универсального языка запросов к хранилищам информации. Кроме того, XML-документы могут выступать в качестве уникального способа хранения данных, который включает в себя одновременно средства для разбора информации и представления ее на стороне клиента. В этой области одним из перспективных направлений является интеграция Java и XML - технологий, позволяющая использовать мощь обеих технологий при построении машинно-независимых приложений, использующих, кроме того, универсальный формат данных при обмене информации.

XML позволяет также осуществлять контроль за корректностью данных, хранящихся в документах, производить проверки иерархических соотношений внутри документа и устанавливать единый стандарт на структуру документов, содержимым которых могут быть самые различные данные. Это означает, что его можно использовать при построении сложных информационных систем, в которых очень важным является вопрос обмена информацией между различными приложениями, работающими в одной системе. Создавая структуру механизма обмена информации в самом начале работы над проектом, менеджер может избавить себя в будущем от многих проблем, связанных с несовместимостью используемых различными компонентами системы форматов данных.

Также одним из достоинств XML является то, что программы-обработчики XML- документов не сложны и уже сегодня появились и свободно распространяются всевозможные программные продукты, предназначенные для работы с XML-документами. XML поддерживается сегодня в Microsoft Internet Explorer 4/0 и в бэта-версиях IE5. Было заявлено о его поддержке в последующих версиях Netscape Communicator, СУБД Oracle, DB-2, в приложениях MS-Office . Все это дает основания предполагать, что, скорее всего, в ближайшем будущем XML станет основным языком обмена информации для информационных систем, заменив собой, тем самым, HTML. На основе XML уже сегодня созданы такие известные специализированные языки разметки, как SMIL, CDF, MathML, XSL, и список рабочих проектов новых языков, находящихся на рассмотрении W3C, постоянно пополняется.

PostScript

       PostScript — полноценный язык программирования, предоставляющий большой набор команд для работы с графикой и шрифтами. Он настолько широко ис­пользуется в принтерах и графических рабочих станциях высшего класса, что его можно считать своеобразным эсперанто современного издательского мира.

Разработанный в 1984 году фирмой Adobe Systems язык PostScript был быст­ро взят на вооружение фирмой Apple Computer, которая использовала его в сво­их принтерах LaserWriter. Затем он был принят многими другими производите­лями и в результате на сегодняшний день стал стандартом для широкого круга печатных устройств, от лазерных принтеров среднего класса до фотонаборных систем. Программная реализация графической подсистемы в виде системы про­граммирования, названной Display PostScript, была принята системами NeXT и X-Windows за основу для вывода данных на экран.

Некоторые пользователи пишут код программ PostScript вручную, однако большинство кодов генерируются машиной. Обычно текстовые процессоры и издательские системы преобразуют документ из своего внутреннего формата в программу на языке PostScript, которая затем пересылается на принтер. Принтер «на лету» интерпретирует программу PostScript и создает графические изображения на одну или несколько страниц.

Признаки PostScript

Имя:          PostScript, Encapsulated PostScript, Type1 Font, Type 3 Font

Расширения: -ps, .eps, .epsf, .pfa, .pfb,.afm, .pfm

Используетсядля: печати, хранения шрифтов, при корректном применении шрифтов может быть использован для обмена отформа­тированными документами

Ссылки:      PostScript Language Reference Manual [Ado90a],AdobeType 1 Font Format [Ado90a].

CD:          Программы предварительного просмотра документов PostScript для Windows, Macintosh

Преимущество формата PostScript заключается в том, что он использует не зависящую от устройств систему воспроизведения (device-independent rendering model). Другими словами файл PostScript содержит описание того, как должна выглядеть страница, не ориентируясь при этом на какой-либо конкретный прин­тер или экран.

Однако такая гибкость имеет и отрицательную сторону. Понять произволь­ный файл PostScript совсем непросто. Интерпретаторы PostScript — сложные программы, и лишь очень немногие приложения могут оправдать дополнитель­ные затраты на полнофункциональный интерпретатор PostScript. Поэтому во многих файлах PostScript используется лишь небольшая часть его возможностей. Например, наиболее распространенные файлы PostScript— файлы шрифтов формата Adobe Type 1 содержат лишь определения свойств шрифтов и кодовый набор векторов, задающих их внешний вид. Этот очень ограниченный формат позволяет писать программы, которые будут читать и понимать файлы шрифтов Type 1, не зная при этом всех тонкостей языка PostScript. Также решить пробле­мы, связанные со сложностью полнофункционального языка PostScript, можно за счет его совместного использования с более простым форматом. Так, файлы «Encapsulated PostScript Files» (EPSF) часто содержат изображения с низким разрешением для предварительного просмотра, которое можно быстро и легко получить.

Распознавание файлов PostScript

PostScript — это язык программирования. Как правило, идентифицировать ис­ходные файлы языка программирования — задача непростая. Файлы PostScript — не исключение. Так как файлы PostScript обычно создаются и ин­терпретируются машиной, фирма Adobe установила соглашение для быстрого распознавания файлов PostScript.

Символ % указывает на комментарии PostScript. Первая строка любого фай­ла PostScript — это строка комментариев, начинающихся с последовательности из двух символов: %!. Эта строка почти всегда позволяет определить тип файла. В табл. 8. 1 приведены другие варианты первых строк и соответствующиеим форматы файлов.

Таблица 8.1. Идентификация файлов PostScript по их первой строке

Первая строка         Расширение              Формат файла

%!                                      .ps                      PostScript

%! PS-Adobe-3.0             . ps                      Structured PostScript

%!PS-Adobe-3.0 EPSF-3.0 .eps, .epsf           Encapsulated PostScript

%!PS-Adobe-1.0              .pfa,.pfb              Type 1 Font

%!FontTypel-1.0              .pfa,.pfb               Type 1 Font

 Существуют два исключения, в которых данные появляются перед началь­ной строкой %!. Во-первых, в двоичных файлах шрифтов формата Type 1. Во-вторых, в файлах PostScript, содержащих изображение предварительного про­смотра для данной платформы.

Файлы шрифтов PostScript

Подход к шрифтам в PostScript очень общий. С точки зрения программного обеспечения шрифт — это набор процедур языка PostScript. Когда возникает не­обходимость воспроизведения одного из символов PostScript, просто выполня­ется соответствующая процедура PostScript. Файлы шрифтов PostScript предоставляют разнообразную информацию о шрифте, процедуру для каждого «глифа», отображающуюся по умолчанию карту кодов символов для каждого из имен глифов и преобразования, которые необходимо выполнить при воспроиз­ведении символа.

Файлы шрифтов PostScript — это программы PostScript, определяющие дос­таточно сложную структуру данных. Первая часть файла всегда текстовая, она предоставляет информацию о названии шрифта, авторских правах и «кодовой странице», используемой этим шрифтом. Вторая часть содержит процедуры, необходимые для отображения каждого конкретного символа.

Шрифты Type 3

PostScript различает несколько типов шрифтов. Наиболее общими являются шрифты Type 3. Шрифты PostScript Type 3 определяют каждый глиф с помощью процедур PostScript. Эти шрифты позволяют использовать впечатляющие эф­фекты, например многоцветные символы или символы, изменяющие свой внеш­ний вид при каждом воспроизведении.

Недостаток их заключается в том, что шрифты Type 3 требуют полного ин­терпретатора PostScript, так как во время воспроизведения символа может по­требоваться фактически любой оператор PostScript. Из-за этого ограничения шрифты Type 3 встречаются достаточно редко. Обычно вместо них используют шрифты, имеющие более ограниченный формат, так как они могут интерпрети­роваться более простыми программами, чем полная реализация PostScript.

Шрифты Type 1

Шрифты Type I — наиболее распространенные шрифты PostScript. Эти шрифты описывают контур каждого символа. Обычно контур заполняется для получения символа, но различные процедуры PostScript могут использовать преимущества векторного представления символов и другим способом. Несмотря на то, что в чем-то Type 1 и бо­лее ограничен, чем Type 3, у него есть ряд преимуществ. Так, наиболее сущест­венное преимущество шрифтов Type 1 заключается в том, что они содержат хинты (hints), которые указывают значение определенных шрифтовых характе­ристик. Эта дополнительная информация позволяет интерпретаторам PostScript слегка корректировать контур шрифтов и получать таким образом лучшее изображение при уменьшении шрифтовили при выводе их на экран с низким раз­решением.

Фактически информация о начертании символов шрифта Type 1 закодиро­вана в плотном двоичном формате и затем зашифрована.

Шрифты Type 1 поставляются в двух вариантах. Файлы PFB ( PostScript Font-Binary) хранят_зашифрованные векторные данные в исходном двоичном формате._Это более компактный формат, но им сложнее управлять. Файлы PFA (PostScript Font-ASCII) хранят зашифрованные векторные данные в шестнадцатеричном формате, им проще управлять, но файлы в этом формате имеют больший размер. Файлы как в одном, так и в другом фор­мате содержат одинаковую информацию, и с помощью широкодоступных бес­платных утилит файлы одного формата могут бытьлегко преобразованы в другой.

Для упрощения программ, работающих со шрифтами Type 1, файлы PFB со­держат двоичные маркеры, которые можно использовать для быстрой иденти­фикации отдельных данных файла. Эти маркеры упрощают процесс загруз­ки шрифтов в принтер, так как файл PFB может быть быстро преобразован в более подходящий для большинства принтеров файл PFA.

Другие шрифты

Другие типы шрифтов задаются с помощью других форматов. Так, для встроен­ных шрифтов некоторых принтеров PostScript используются форматы Type 4 и Type 5.

Для печати шрифтов TrueType на принтерах PostScript используется формат Type 42. Идеи, заложенные в шрифты TrueTypе и Type 1, во многом схожи. Ис­ходно шрифты TrueType были разработаны фирмой Apple, как альтернатива Type 1, затем они были адаптированы фирмой Microsoft для популярной опера­ционной системы Windows.

Дополнительные связанные со шрифтами файлы

Файл PFA или PFB содержит всю информацию, необходимую для использова­ния шрифта, однако во многих ситуациях она оказывается избыточной. Для чернового просмотра издательские системы и текстовые редакторы используют для вывода на экран шрифты низкого разрешения. Однако при выводе конечно­го варианта на принтер необходимо точно знать метрику (metrics) действитель­ных символов PostScript. Для шрифтов PostScript эта метрическая информация (дополняющая данные, содержащиеся в файлах PFA и PFB) находится в файле PFM (PostScript Font Metrics) или AFM (Adobe Font Metrics).

Файлы PFM и AFM содержат мало различающуюся информацию в совер­шенно разных форматах. В файлах PFM данные представлены в двоичном виде. Эти файлы использует операционная система Windows. Файлы AFM текстовые, с ними работает почти все программное обеспечение Unix. (Macintosh использу­ет для метрической информации свой собственный формат.) Так как файлы AFM представлены в текстовом формате, работать с ними легче, чем с файлами PFM. Существует немало утилит, переводящих файлы из одного формата в дру­гой. При покупке шрифтов вы обычно для каждого шрифта получаете как фай­лы РРА и РРВ,так и PFM и АFМ.

Фирма Adobe для разнообразных принтеров также распространяет файлы PPD (PostScript Printer Description). Эти файлы используются системой управле­ния печатью, которая получаетиз них информацию о возможностях соответст­вующего принтера.

Диалекты PostScript

Оригинальный язык PostScript достаточно хорошо удовлетворяет требованиям черно-белой печати. Однако со временем такие фирмы-производители, как Adobe и другие, вынуждены были добавить разнообразные расширения для поддержки цветных принтеров и дисплеев, возможностей систем высококачест­венной печати и более сложной графики. В результате на данныймоментPostScript имеет три основных диалекта.

Исходный язык PostScript теперь называется PostScript Level 1.Он по-прежнему поддерживается многими принтерами и является ядром для создания новых диалектов. Основной недостаток PostScript Level 1 заключается в том, чтоон не поддерживает цветной печати.

Для предоставления программам более широких возможностей для воспро­изведения данных на экране фирма Adobe разработала DPS (Display PostScript). DPS является частью графического интерфейса NeXT и многих коммерческих версий системы X-Window для Unix. DPS добавляет к исходному PostScript Level 1 поддержку цвета и многозадачности, а также интерфейс, позволяющий программам, написанным на разных языках, выполнять фрагменты кода PostScript и возвращать результаты.

Большинство современных принтеров используют обновленный вариант языка PostScript, получивший название PostScript Level 2. Он предоставляет много новых возможностей, в частности, продвинутую поддержку цвета, стан­дартный способ доступа к возможностям систем высококачественнойпечати иновые операторы для упрощения программ PostScript.

Большинство приложений сейчас генерируют выходные данные PostScript, проверяя, поддерживает ли принтер Level 1 или Level 2. Если принтер поддержи­вает Level 2, программа будет использовать предоставляемые им возможности. Если нет, программа будет пытаться их эмулировать. Из-за этого файлы PostScript часто печатаются немного быстрее и качественнее на принтерах, под­держивающих Level 2, чем на сопоставимых с ними принтерах с Level 1.

Проблема с авторскими правами

Файлы PostScript зачастую включают и другие данные. Чаще всегоэто нестан­дартные шрифты. Чтобы распечатать файл, необходимо, чтобы соответствую­щий шрифт либо находился на принтере, либо являлся частью файла PostScript. При передаче файла PostScript кому-либо вы обычно должны включать и соот­ветствующий шрифт, так как вы не всегда знаете, есть ли он у этого человека.

Проблема заключается в том, что на шрифты также имеются авторские пра­ва. Поэтому вы не имеете права передавать их копии другим пользователям. Ес­ли вы включили шрифт в файл PostScript, вы тем самым дали кому-то копию шрифта, так как в простом текстовом редакторе из этого файла можно легко из­влечь всю информацию о шрифте. Таким образом, вы не можете легально вклю­чать шрифт в файл PostScript.

При этом шрифты PostScript считаются программами, а они, как вам наверняка известно, мо­гут быть защищены авторскими правами. Из-за этой двусмысленности зачастую нельзя распространять легально документы

PostScript (так как они содержат защищенные авторским правом шрифты). Хотя вы можете легально распечатывать и раздавать фотокопии этого документа.

Самый простой способ решения этой проблемы кроется в использовании шрифтов, представленных во всех PostScript-совместимых принтерах, а именно Times Roman, Helvetica и Courier. Так как в этом случае вы сможете спокойно распространять электронную версию своего документа, не включая в него файл со шрифтами.

Достоинства и недостатки

Суммируя всю информацию из предыдущего раздела можно сделать следующий вывод: формат PostScript идеально подходит для описания документа, но не очень удобен для обмена документами. Это одна из причин, по которой фирмой Adobe была предпринята попытка разработать формат, специально предназна­ченный для обмена документами. Этот формат получил название Portable Document Format (также известный, как Acrobat), и о нем речь пойдет ниже.

Другой недостаток формата PostScript заключается в его сложности. Так как это полнофункциональный язык программирования, нельзя создать такую про­грамму, которая понимала бы файлы PostScript настолько хорошо, чтобы при необходимости эффективно их скорректировать. В результате лишь считанные приложения пытаются читать и использовать данные файлов PostScript.

Относительно просто создать файлы PostScript, не отвечающие за разреше­ние, поддержку цвета или другие возможности устройства вывода. Однако с помощью PostScript можно включить поддержку растровых изображений, цветной печати и других возможностей, чтобы они по возможности были реали­зованы. Для профессионально сделанных в формате PostScript шрифтов и эле­ментов оформления существует обширный рынок, кроме Того, этот формат активно используется в издательской деятельности.

Файлы PostScript обычно текстовые, поэтому с ними несложно работать, хранить и передавать. Способность принтеров PostScript воспринимать любые распространенные признаки завершения конца строки делают их совместимыми с персональными компьютерами, а также системами Macintosh и Unix.

PDF (Acrobat)

Общий подход, используемый форматом PostScript для описания документа, вполне применим для распространения документов в электронном виде. Распространяемые в электронном виде документы хорошо выглядят при любом разрешении, будь то разрешение экрана или системы высококачествен­ной печати, что является несомненным преимуществом PostScript.

 Однако PostScript сам по себе не очень подходит для распространения доку­ментов в электронном виде. Одна из проблем заключается в том, что из-за авторских прав нельзя включать шрифты в файл PostScript. В результате возни­кают сложности с распространением документов, использующих не широко распространенные шрифты. Другая проблема состоит в том, что для перехода к определенной странице файла PostScript необходимо просмотреть весь документ с самого начала.

Признаки PDF                                    

Имя:        PDF, Portable Document Format, Acrobat

Расширения: •pdf

Используется ДЛЯ: для обмена отформатированными документами

Ссылки:      Portable Document Format Reference Manual [Ado93]

CD:         Программы просмотра Acrobat PDF для Windows,

                    Macintosh; программы просмотра Envoy для Windows,

                 MS-DOS                       

Разработанный фирмой Adobe формат Portable Document Format (PDF) предназначается для разрешения этих проблем. Основные подходы, реализован­ные форматом PDF для описания страниц, аналогичны тем, которые использует формат PostScript. PDF,_так же как PostScript, является текстовым форматом, что упрощает процесс обмена документами. Таким образом, PDF лучше подходит для распространения электронных версий документа, так как он пре­доставляет исчерпывающую информацию о шрифтах, опираясь на которую про­граммы просмотра могут подставлять такой же шрифт. В результате нет необходимости включать реальные векторные шрифты в файл PDF (Формат PDF хранит метрики (metrics) шрифтов, то есть ширину и высоту каждого сим­вола. Они могут быть использованы для масштабирования других шрифтов до нужных размеров. Этой информации недостаточно для специальных символов шрифтов — в этом случае PDF со­храняет векторное представление тех символов, которые необходимы для вывода документа на экран).


Дата добавления: 2018-04-05; просмотров: 246; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!