Первая строка Расширение Формат файла

Стр 1 из 2Следующая ⇒

Тема 4. Форматы данных,доступных в компьютерных сетях [1,4,8,9]. Форматы для представления текста и документов: общие сведения о тексте, разметка текста, SGML – международный стандартный язык разметки документов, PostScript – не зависящий от устройств воспроизведения язык описания документов, PDF – язык описания документов для обмена ими в электронном виде, форматы данных текстовых процессоров.

О ТЕКСТЕ

Текстовые файлы— наиболее распространенный тип данных не только в Internet, но и во всем компьютерном мире. Хотя на первый взгляд с ним не должно быть особых проблем, существуют два сильно осложняющих жизнь фактора. Первый— чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII. Важно помнить, что более 250 символов необходимы только для того, чтобы управиться с парой десятков европейских языков, базирующихся на латинском алфавите. Для поддержки других алфавитов — кириллицы, греческого, иврита, арабского, санскрита и т. д. — дополнительно требуется еще более сотни символов, китайский, японский и корейский языки добавляют к этому списку еще более десяти тысяч иероглифов. Времена, когда в Internet преобладали англоязычные пользователи, проходят. Гибкие разработчики программного обеспечения использовали эту благоприятную возможность для создания многоязычных программ. В следующем разделе описывается история появления различных наборов символов. Кроме того, в нем вы найдете некоторые тонкости разработки и использования разноязычного программного обеспечения.

Другая сложность заключается в том, что чисто текстовые данные встречаются все реже и реже. Люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Онлайновые документы, в свою очередь, могут включать мультипликацию, ссылки на сетевые базы данных и звуковое сопровождение. В результате комбинации различных типов данных образуются документы мультимедиа. Текстовый формат — так как он обычно используется как базовый — является стартовой точкой многих форматов документов мультимедиа. Многие из тех форматов, о которых пойдет речь в следующих разделах, — не просто текстовые форматы, более корректно их следовало бы называть форматами документа. Подобные форматы предоставляют остов для комбинирования текстовых, графических и других форм данных.

Набор символов

Если вы критически посмотрите на разнообразные статьи о символах и наборах символов, то наверняка в конце концов придете к выводу, что опираться на понятие «символ» крайне сложно. Оно имеет так много различных смысловых оттенков, что я умышленно буду избегать слов «символ» и «набор символов» в тех случаях, когда возможно разночтение.

Большинство пользователей уверены в том, что А и А это один и тот же символ, несмотря на то, что выглядят они по разному. Для уточнения внешнего вида да соответствующего символа типографы используют термин глиф. Так, несмотря на то, что все эти глифы А, А, А, А,А, А, представляют собой один и тот же символ, несложно заметить, что они разные. Говоря более точно, глиф — этоспецифическае визуальное представлениесимвола.

Конечно, мало кого интересует вид отдельно взятого символа или глифа. Зачастую надо, чтобы смотрелся хорошо весь текст в целом, то есть имеет смысл говорить о подборке символов. Даже в американском английском она должна содержать пятьдесят две прописных и строчных симвода, десять цифр и разно-образные знаки пунктуации. Такую подборку называют репертуаром (repertoire), соответствующий набор глифов, по одному для каждого из символов, называют шрифтом.

Существует много различных репертуаров символов. Прежде всего, это многообразие вызвано особенностями алфавитов различных языков, а также особенностями приложений (например, издательских систем).

Конечно, в различных странах и языках используются различные репертуары символов. Удобнее всего использовать для кодирования символов числа от нуля до 255 (всевозможные значения одного байта). Правда,имея в распоряжении только 256 чисел, вы не сможете дать уникальный код любому символу. Поэтому были разработаны различные наборы кодов символов. Упомянутый выше набор кодов символов ISO Latin 1 был создан организацией ISO (International Organization for Standardization, Международная организация по стандартизации) для представления всех символов, необходимых для определенной группы языков (в данном случае — для тех языков Западной Европы, которые используют латинский алфавит). Прочие наборы кодов пытаются охватить другие группы символов. Наиболее популярные компьютерные системы, кроме того, имеют собственные специфические варианты наборов символов (так, например, в MS-DOS и Windows используются «кодовые страницы» фирмы IBM).

       Самый       простой способ кодирования символов базируется на едином наборе кодов символов, содержащим 256 (или менее) кодов. Если в вашем распоряжении имеется текстовый файл, закодированный таким образом, вы можете взять из него любой байт и посмотреть в таблице, какой символ соответствует этому значению байта. Если один текстовый файл использует сразу несколько наборов кодов символов, все несколько усложняется. В этом случае вы имеете специальные коды символов, информирующие программу просмотра файла о том, когда она должна переключиться на другой набор кодов символов. В другом международном стандарте, ISO 2022, описывается один из способов переключения между наборами кодов символов. Отметим, что при этом вы не можете просто посмотреть на байт из середины файла и узнать, что он означает. Чтобы увидеть, есть ли специальная последовательность, указывающая на замену кодовой страницы, необходимо прочесть весь файл целиком с самого начала. И только после этого можно будет определить, какой кодовой страницей пользоваться.

Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Причем при таком кодировании используются разнообразные подходы. В одном из вариантов каждому символу соответствует один байт, а для представления всего спектра символов используется несколько наборов кодов. При другом подходе каждому символу соответствует несколько байтов. Для экономии места зачастую эти два подхода комбинируются: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Читать такие файлы (например, с текстом на китайском языке), конечно, сложнее, чем те, которые используют столь распространенный в западных программах подход «один байт — один символ».

       Одной из попыток обобщения этих подходов является стандарт Unicode (который так же известен, как ISO 10646). В Unicode для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты. Многие международные стандарты для обеспечения поддержки нескольких языков стремятся к соблюдению Unicode.

Оформление текста

Многие текстовые файлы передаются в виде простого текста (plain text). К несчастью, «простой» в данном случае вовсе не является синонимом слова несложный. Простой текст трудно сделать привлекательным и легкочитаемым, так как в нем нет шрифтов разных начертаний, графики, заголовков, подзаголовков, примечаний и т. п. Эти дополнительные особенности носят название разметкитекста (markup).

Физическая и логическая разметка текста

Прежде всего необходимо разобраться в разнице между физической (physical) и логической (logical) разметкой текста. При использовании физической разметки указывается точный вид каждого фрагмента текста. Например, «центрованный текст, 14-м кеглем, жирный, сжатый, гарнитура Futura». При логической разметке текста указывается логическое значение данного фрагмента, например, «это заголовок главы».

Эти два способа разметки предназначаются для использования в разных ситуациях. Чтобы распечатать текст на принтере, необходимо использовать физическую разметку. То есть должно быть принято решение о размере полей, формате примечаний, а также о величине абзацного отступа в начале каждого параграфа. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом вы должны были для каждого фрагмента текста указывать его шрифт, размер и стиль.

При обмене информацией с другими людьми на физическое оформление текста накладывается ряд ограничений. Например, стандартный лист бумаги в разных странах имеет различный размер. И то, что неплохо смотрелось на бумаге, соответствующей американским стандартам, будет выглядеть крайне неприглядно на более длинном и узком листе А4, используемом в Европе. С чисто электронными документами, например онлайновой документацией, ситуация обстоит еще хуже. Размер экрана, его разрешение, шрифты и поддержка графики — все эти параметры широко варьируют от системы к системе. Потому лучше всего, если документ можно будет подогнать под имеющийся дисплей, заново его отформатировав.

       По этим причинам все чаще и чаще компьютерные приложения используют логическое оформление текста. При логическом оформлении каждая часть документа связывается с его логическим значением. Например, некоторые слова будут иметь пометку «выделить», либо реже «курсив». При распечатывании документа или выводе его на экран логический формат будет конвертироваться в соответствуюший данной ситуации физический формат. Слова, которые необходимо было выделить на системах, не поддерживающих курсив, будут подчеркнуты. В тех же странах, где принято использовать полужирный шрифт, отмеченные слова будут выделены с его помощью.

В некоторых ситуациях логическое оформление крайне важно. Например, в случае обмена электронными документами типа страниц World Wide Web или при создании и публикации объемных трудов (таких, как книги). Многие издатели хранят книги в электронном виде, используя SGML (Standard Generic Markup Language, стандартный обобщенный язык разметки документов). Такой подход помогает упростить процесс создания книги (не надо постоянно следить за тем, чтобы соблюдалась разметка страницы и сохранялись выбранные шрифты). Кроме того, он позволяет легко изменять размер книги и ее формат.

Преобразование логической разметки в физическую осуществляется с помощью таблицы стилей (style sheet). В таблице стилей просто перечисляются способы отображения каждого логического элемента. В различных системах управление процессом преобразования может различаться в деталях. В одних случаях логическая разметка задается с помощью текстовых команд, и входной документ обрабатывается для создания выходного документа, содержащего физическую разметку. В других— для логического представления используется двоичный формат текстового процессора, а пользователь редактирует окончательныйвариант физически размеченного документа.

Сохранение разметки

Если вы хотите передать данные на другой компьютер,то проще всего отправить их в текстовом виде. Если же важно сохранить разметку, то можно использовать один из трех подходов.

.Во-первых, можно сохранить разметку, включив ее описание в текст. Например, представив фрагмент текста: «...принять правильное решение ...» в виде «... принять <bold> правильное <endbold> решение...». Преимущество такого подхода в том, что файл по-прежнему остается текстовым (хотя, конечно, выглядит он несколько странно), а следовательно, его легко передавать с компьютера на компьютер. Если у вас есть программное обеспечение, поддерживающее этот формат, вы сможете воссоздать документ в исходном виде. Но даже если подходящей программы нет, вы все равно сможете в нем разобраться. Существует немало способов представления разметки текста, в том числе:

• HyperText Markup Language (HTML), использующийсяв Worid Wide Web,

• TROFF, применяющийся в документации Unix,

• SGML (Standard Generic Markup Language).

Во-вторых, сохранить разметку можно, передавая изображение каждой страницы. Таким образом работают факс-машины, они создают графическое изображение каждой страницы и передают его. Уязвимое место такого подхода в том, что получатель в результате имеет только изображение страницы. В следствие чего, чтобы отредактировать содержимое документа, получатель должен заново его набрать. Однако этот недостаток становится достоинством в том случае, когда вы не хотите, чтобы получатель мог легко внести изменения в отправленный вами документ. Два популярных способа предоставления широкого доступа к текстовым документам используют именно такой подход. Факс-модем позволяет передавать документы напрямую с одного компьютера на другой. Популярным форматом для такого представления документов является PostScript. Несмотря на то, что это текстовый формат, его крайне сложно преобразовать таким образом, чтобы содержимое файла можно было отредактировать. Проще набрать все заново.

Третий способ сохранения разметки— разработка особых файлов, содержащих не только текст, но и информацию о том, как он должен быть оформлен. Большинство текстовых процессоров и настольных издательских систем используют такой подход. Основная сложность заключается в том, что в результате почти все текстовые процессоры и настольные издательские системы используют свои форматы. Наиболее дорогие программы обычно могут читать файлы, созданные с помощью программ-конкурентов, но это все, на что вы можете рассчитывать. А потому вряд ли стоит использовать специальные форматы файлов для создания общедоступных документов.

SGML

Идея логической разметки текста не нова. Она появилась еще в конце 60-х годов под названием обобщенного кодирования (generic coding, GenCod). В то время многие уже начали разграничивать содержимое документа и его представление. Эта точка зрения легла в основу работ фирм IBM и других. Они стали четко выделять содержимое документа («это заголовок главы») отдельно от его представления («шрифт Helvetica Oblique, 24 пункта, начать с новой правой страницы, оставить пространство под заголовком в полдюйма»).

Эти различия могут показаться несколько формальными лишь при создании документа на страничку, который сразу же распечатывается и удаляется. Но предположим, вы выполняете заказ военного министерства по разработке документации на линкор. В этом случае, мало того, что объем документа будет исчисляться сотнями, а то и тысячами страниц, вы должны будете убедиться в том, что эта документация сможет служить все время существования судна, то есть не менее пятидесяти лет. Формата текстового редактора будет явно недостаточно. Кто может поручиться, что этот текстовый редактор все еще будет существовать через пятьдесят лет? Не будете же вы при каждом изменении текстового редактора конвертировать все документы, ведь тогда вам придется этим заниматься не реже, чем раз в два roдa. Kpoмe тoгo, могут бьпъ рaзличныe трeбовaния к распечатанным и онлайновым версиям документа. То есть надо будет использовать различные виды представления документации для вывода на экран и для печати. Хуже того, эти требования могут периодически меняться, заставляя вас переформатировать все документы в соответствии с новыми указаниями.

Подобные проблемы возникают и перед многими книгоиздателями. Книжные стили изменяются из года в год, и, переиздавая книги пяти- или десятилетней давности, хочется, с одной стороны, чтобы они выглядели современно, а с другой — чтобы не надо было всю книгу форматировать заново.

Решение кроется в корректном определении трех отдельных частей,так чтобы при необходимости можно было изменить любую из них:

• Четко определите, какая разметка будет использована в этих документах.

• Создайте сами документы, размеченные таким образом.

• Разработайте способ перевода в визуальное представление разметки документа.

Международный стандартный язык разметки документов

Разработчики фирмы IBM для поддержки разделения содержимого документа и его представления создали систему, получившую название GML (Generic Markup Language, обобщенный язык разметки документов). Позже она была доработана и в 1986 году получила статус международного стандарта SGML (Standard Generic Markup Language, стандартный обобщенный язык разметки документов).

SGML предоставляет способ определения того, какая разметка будет использована в документе. Преобразование описания документа в визуальный формат требует дополнительного программного обеспечения, которое должно понимать используемую вами разметку. На практике при преобразовании документа SGML он может быть конвертирован в форматы TROFF или ТЕХ, а затем при помощи этих программных средств создаются непосредственно те выходные документы, которые можно распечатать.

Этот язык предназначен для создания других языков разметки, т.е. является мета-языком, он определяет допустимый набор тэгов разметки (команд или дескрипторов), их атрибуты и внутреннюю структуру документа. Контроль за правильностью использования дескрипторов осуществляется при помощи специального набора правил, называемых DTD- описаниями, которые используются программой интерпретации при разборе документа. Для каждого класса документов определяется свой набор правил, описывающих грамматику соответствующего языка разметки. С помощью SGML можно описывать структурированные данные, организовывать информацию, содержащуюся в документах, представлять эту информацию в некотором стандартизованном формате.

Если для того, чтобы распечатать результат, необходимо переводить его в другой формат, почему бы сразу не использовать этот формат?

Дело в том, что использование SGML связано с вопросами поддержки документов. SGML был разработан для производственных нужд, так как в этом случае документация хранится длительное время. Через десять или двенадцать лет система, которую вы использовали, может просто выйтииз употребления или измениться настолько,что потребуется приобретать новые версии для всего программного обеспечения. Точное определение разметки документа позволяет при необходимости с меньшими усилиями разрабатывать новое программное обеспечение для его поддержки. При работе над большими проектами объем документации может значительно превосходить объем используемого для его создания программного обеспечения. В результате иногда дешевле полностью заменить программное обеспечение, чем преобразовывать документацию в новый формат.

Подход SGML в создании разметки имеет некоторые преимущества при работе с большим количеством данных. Одно из преимуществ заключается в том, что он позволяет автоматически верифицировать многие документы. Например, можно сканировать сотни мегабайт технической документации, чтобы убедиться в том, что каждый учебник содержит резюме (которое не столь велико), оглавление, библиографию и индекс. Такая автоматическая верификация становится возможной в SGML благодаря тому, что эти компоненты указываются как отдельные элементы. Вы можете пользоваться обширной коллекцией документов SGML как базой данных. Из нее можно при необходимости получать, например, только резюме всех документов или единый индекс для быстрого поиска в группе документов.

Признаки SGML

Имя:         SGML, Standard Generalized Markup Language

Расширения:      . sgml

Используется для: управления большими подборками документации Ссылки:      ISO Standard 8879; Practical SGML [vH94]

                   ЯЗЫК РАЗМЕТКИ ГИПЕРТЕКСТОВ - HTML

HTML создал Тим Бернерс-Ли в ЦЕРНе средствами SGML при разработке им технологии, получившей название WEB-технологии, самой популярной в настоящее время в Интернет.

Гораздо более простой и удобный, чем SGML, язык HTML позволяет определять оформление элементов документа и имеет некий ограниченный набор инструкций - тэгов, при помощи которых осуществляется процесс разметки. Инструкции HTML, в первую очередь, предназначены для управления процессом вывода содержимого документа на экране программы-клиента и определяют этим самым способ представления документа, но не его структуру. В качестве элемента гипертекстовой базы данных, описываемой HTML, используется текстовый файл, который может легко передаваться по сети с использованием протокола HTTP. Эта особенность, а также то, что HTML является открытым стандартом и огромное количество пользователей имеет возможность применять возможности этого языка для оформления своих документов, безусловно, повлияли на рост популярности HTML и сделали его сегодня главным механизмом представления информации в Web.

Признаки НТML

Имя:         HTML, HiperText Markup Language

Расширения:      . htm, .html

Используется для: представления документов в Web.

Ссылки:

XML

Cущественным недостатком HTML можно назвать ограниченность набора его тэгов. DTD- правила для HTML определяют фиксированный набор дескрипторов и поэтому у разработчика нет возможности вводить собственные, специальные тэги. Хотя время от времени появляются новые расширения языка, но долгий путь их стандартизации, сопровождаемый постоянными разногласиями между основными производителями броузеров делают практически невозможной быструю адаптацию языка, его использование для отображения специализированной информации(например, мультимедийной, математических, химических формул и т.д.).

Можно утверждать, что HTML уже сегодня не удовлетворяет в полной мере требованиям, предъявляемым современными разработчиками к языкам подобного рода. И ему на смену был предложен новый язык гипертекстовой разметки, мощный, гибкий, и, одновременно с этим, удобный язык XML. В чем же заключается его достоинства?

XML (Extensible Markup Language[1]) - это язык разметки, описывающий целый класс объектов данных, называемых XML- документами. Этот язык используется в качестве средства для описания грамматики других языков и контроля за правильностью составления документов. Т.е. сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок их создания. Таким образом, если, например, мы считаем, что для обозначения элемента rose в документе необходимо использовать тэг <flower>;, то XML позволяет свободно использовать определяемый нами тэг и мы можем включать в документ фрагменты, подобные следующему:
<flower>rose</flower>
Набор тэгов может быть легко расширен. Если, предположим, мы хотим также указать, что описание цветка должно по смыслу идти внутри описания оранжереи, в которой он цветет, то просто задаем новые тэги и выбираем порядок их следования:
<conservatory><flower>rose</flower></conservatory>
Если мы хотим посадить туда еще несколько цветочков, то должны внести следующие изменения:
<conservatory><flower>rose</flower><flower>tulip</flower><flower>cactus</flower></conservatory>
Как видно, сам процесс создания XML документа очень прост и требует от нас лишь базовых знаний HTML и понимания тех задач, которые мы хотим выполнить, используя XML в качестве языка разметки. Таким образом, у разработчиков появляется уникальная возможность определять собственные команды, позволяющие им наиболее эффективно определять данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа.

Еще одним из очевидных достоинств XML является возможность использования его в качестве универсального языка запросов к хранилищам информации. Кроме того, XML-документы могут выступать в качестве уникального способа хранения данных, который включает в себя одновременно средства для разбора информации и представления ее на стороне клиента. В этой области одним из перспективных направлений является интеграция Java и XML - технологий, позволяющая использовать мощь обеих технологий при построении машинно-независимых приложений, использующих, кроме того, универсальный формат данных при обмене информации.

XML позволяет также осуществлять контроль за корректностью данных, хранящихся в документах, производить проверки иерархических соотношений внутри документа и устанавливать единый стандарт на структуру документов, содержимым которых могут быть самые различные данные. Это означает, что его можно использовать при построении сложных информационных систем, в которых очень важным является вопрос обмена информацией между различными приложениями, работающими в одной системе. Создавая структуру механизма обмена информации в самом начале работы над проектом, менеджер может избавить себя в будущем от многих проблем, связанных с несовместимостью используемых различными компонентами системы форматов данных.

Также одним из достоинств XML является то, что программы-обработчики XML- документов не сложны и уже сегодня появились и свободно распространяются всевозможные программные продукты, предназначенные для работы с XML-документами. XML поддерживается сегодня в Microsoft Internet Explorer 4/0 и в бэта-версиях IE5. Было заявлено о его поддержке в последующих версиях Netscape Communicator, СУБД Oracle, DB-2, в приложениях MS-Office . Все это дает основания предполагать, что, скорее всего, в ближайшем будущем XML станет основным языком обмена информации для информационных систем, заменив собой, тем самым, HTML. На основе XML уже сегодня созданы такие известные специализированные языки разметки, как SMIL, CDF, MathML, XSL, и список рабочих проектов новых языков, находящихся на рассмотрении W3C, постоянно пополняется.

PostScript

       PostScript — полноценный язык программирования, предоставляющий большой набор команд для работы с графикой и шрифтами. Он настолько широко используется в принтерах и графических рабочих станциях высшего класса, что его можно считать своеобразным эсперанто современного издательского мира.

Разработанный в 1984 году фирмой Adobe Systems язык PostScript был быстро взят на вооружение фирмой Apple Computer, которая использовала его в своих принтерах LaserWriter. Затем он был принят многими другими производителями и в результате на сегодняшний день стал стандартом для широкого круга печатных устройств, от лазерных принтеров среднего класса до фотонаборных систем. Программная реализация графической подсистемы в виде системы программирования, названной Display PostScript, была принята системами NeXT и X-Windows за основу для вывода данных на экран.

Некоторые пользователи пишут код программ PostScript вручную, однако большинство кодов генерируются машиной. Обычно текстовые процессоры и издательские системы преобразуют документ из своего внутреннего формата в программу на языке PostScript, которая затем пересылается на принтер. Принтер «на лету» интерпретирует программу PostScript и создает графические изображения на одну или несколько страниц.

Признаки PostScript

Имя:          PostScript, Encapsulated PostScript, Type1 Font, Type 3 Font

Расширения: -ps, .eps, .epsf, .pfa, .pfb,.afm, .pfm

Используетсядля: печати, хранения шрифтов, при корректном применении шрифтов может быть использован для обмена отформатированными документами

Ссылки:      PostScript Language Reference Manual [Ado90a],AdobeType 1 Font Format [Ado90a].

CD:          Программы предварительного просмотра документов PostScript для Windows, Macintosh

Преимущество формата PostScript заключается в том, что он использует не зависящую от устройств систему воспроизведения (device-independent rendering model). Другими словами файл PostScript содержит описание того, как должна выглядеть страница, не ориентируясь при этом на какой-либо конкретный принтер или экран.

Однако такая гибкость имеет и отрицательную сторону. Понять произвольный файл PostScript совсем непросто. Интерпретаторы PostScript — сложные программы, и лишь очень немногие приложения могут оправдать дополнительные затраты на полнофункциональный интерпретатор PostScript. Поэтому во многих файлах PostScript используется лишь небольшая часть его возможностей. Например, наиболее распространенные файлы PostScript— файлы шрифтов формата Adobe Type 1 содержат лишь определения свойств шрифтов и кодовый набор векторов, задающих их внешний вид. Этот очень ограниченный формат позволяет писать программы, которые будут читать и понимать файлы шрифтов Type 1, не зная при этом всех тонкостей языка PostScript. Также решить проблемы, связанные со сложностью полнофункционального языка PostScript, можно за счет его совместного использования с более простым форматом. Так, файлы «Encapsulated PostScript Files» (EPSF) часто содержат изображения с низким разрешением для предварительного просмотра, которое можно быстро и легко получить.

Распознавание файлов PostScript

PostScript — это язык программирования. Как правило, идентифицировать исходные файлы языка программирования — задача непростая. Файлы PostScript — не исключение. Так как файлы PostScript обычно создаются и интерпретируются машиной, фирма Adobe установила соглашение для быстрого распознавания файлов PostScript.

Символ % указывает на комментарии PostScript. Первая строка любого файла PostScript — это строка комментариев, начинающихся с последовательности из двух символов: %!. Эта строка почти всегда позволяет определить тип файла. В табл. 8. 1 приведены другие варианты первых строк и соответствующиеим форматы файлов.

Таблица 8.1. Идентификация файлов PostScript по их первой строке

Первая строка         Расширение              Формат файла

%!                                      .ps                      PostScript

%! PS-Adobe-3.0             . ps                      Structured PostScript

%!PS-Adobe-3.0 EPSF-3.0 .eps, .epsf           Encapsulated PostScript

%!PS-Adobe-1.0              .pfa,.pfb              Type 1 Font

%!FontTypel-1.0              .pfa,.pfb               Type 1 Font

Существуют два исключения, в которых данные появляются перед начальной строкой %!. Во-первых, в двоичных файлах шрифтов формата Type 1. Во-вторых, в файлах PostScript, содержащих изображение предварительного просмотра для данной платформы.

Файлы шрифтов PostScript

Подход к шрифтам в PostScript очень общий. С точки зрения программного обеспечения шрифт — это набор процедур языка PostScript. Когда возникает необходимость воспроизведения одного из символов PostScript, просто выполняется соответствующая процедура PostScript. Файлы шрифтов PostScript предоставляют разнообразную информацию о шрифте, процедуру для каждого «глифа», отображающуюся по умолчанию карту кодов символов для каждого из имен глифов и преобразования, которые необходимо выполнить при воспроизведении символа.

Файлы шрифтов PostScript — это программы PostScript, определяющие достаточно сложную структуру данных. Первая часть файла всегда текстовая, она предоставляет информацию о названии шрифта, авторских правах и «кодовой странице», используемой этим шрифтом. Вторая часть содержит процедуры, необходимые для отображения каждого конкретного символа.

Шрифты Type 3

PostScript различает несколько типов шрифтов. Наиболее общими являются шрифты Type 3. Шрифты PostScript Type 3 определяют каждый глиф с помощью процедур PostScript. Эти шрифты позволяют использовать впечатляющие эффекты, например многоцветные символы или символы, изменяющие свой внешний вид при каждом воспроизведении.

Недостаток их заключается в том, что шрифты Type 3 требуют полного интерпретатора PostScript, так как во время воспроизведения символа может потребоваться фактически любой оператор PostScript. Из-за этого ограничения шрифты Type 3 встречаются достаточно редко. Обычно вместо них используют шрифты, имеющие более ограниченный формат, так как они могут интерпретироваться более простыми программами, чем полная реализация PostScript.

Шрифты Type 1

Шрифты Type I — наиболее распространенные шрифты PostScript. Эти шрифты описывают контур каждого символа. Обычно контур заполняется для получения символа, но различные процедуры PostScript могут использовать преимущества векторного представления символов и другим способом. Несмотря на то, что в чем-то Type 1 и более ограничен, чем Type 3, у него есть ряд преимуществ. Так, наиболее существенное преимущество шрифтов Type 1 заключается в том, что они содержат хинты (hints), которые указывают значение определенных шрифтовых характеристик. Эта дополнительная информация позволяет интерпретаторам PostScript слегка корректировать контур шрифтов и получать таким образом лучшее изображение при уменьшении шрифтовили при выводе их на экран с низким разрешением.

Фактически информация о начертании символов шрифта Type 1 закодирована в плотном двоичном формате и затем зашифрована.

Шрифты Type 1 поставляются в двух вариантах. Файлы PFB ( PostScript Font-Binary) хранят_зашифрованные векторные данные в исходном двоичном формате._Это более компактный формат, но им сложнее управлять. Файлы PFA (PostScript Font-ASCII) хранят зашифрованные векторные данные в шестнадцатеричном формате, им проще управлять, но файлы в этом формате имеют больший размер. Файлы как в одном, так и в другом формате содержат одинаковую информацию, и с помощью широкодоступных бесплатных утилит файлы одного формата могут бытьлегко преобразованы в другой.

Для упрощения программ, работающих со шрифтами Type 1, файлы PFB содержат двоичные маркеры, которые можно использовать для быстрой идентификации отдельных данных файла. Эти маркеры упрощают процесс загрузки шрифтов в принтер, так как файл PFB может быть быстро преобразован в более подходящий для большинства принтеров файл PFA.

Другие шрифты

Другие типы шрифтов задаются с помощью других форматов. Так, для встроенных шрифтов некоторых принтеров PostScript используются форматы Type 4 и Type 5.

Для печати шрифтов TrueType на принтерах PostScript используется формат Type 42. Идеи, заложенные в шрифты TrueTypе и Type 1, во многом схожи. Исходно шрифты TrueType были разработаны фирмой Apple, как альтернатива Type 1, затем они были адаптированы фирмой Microsoft для популярной операционной системы Windows.

Дополнительные связанные со шрифтами файлы

Файл PFA или PFB содержит всю информацию, необходимую для использования шрифта, однако во многих ситуациях она оказывается избыточной. Для чернового просмотра издательские системы и текстовые редакторы используют для вывода на экран шрифты низкого разрешения. Однако при выводе конечного варианта на принтер необходимо точно знать метрику (metrics) действительных символов PostScript. Для шрифтов PostScript эта метрическая информация (дополняющая данные, содержащиеся в файлах PFA и PFB) находится в файле PFM (PostScript Font Metrics) или AFM (Adobe Font Metrics).

Файлы PFM и AFM содержат мало различающуюся информацию в совершенно разных форматах. В файлах PFM данные представлены в двоичном виде. Эти файлы использует операционная система Windows. Файлы AFM текстовые, с ними работает почти все программное обеспечение Unix. (Macintosh использует для метрической информации свой собственный формат.) Так как файлы AFM представлены в текстовом формате, работать с ними легче, чем с файлами PFM. Существует немало утилит, переводящих файлы из одного формата в другой. При покупке шрифтов вы обычно для каждого шрифта получаете как файлы РРА и РРВ,так и PFM и АFМ.

Фирма Adobe для разнообразных принтеров также распространяет файлы PPD (PostScript Printer Description). Эти файлы используются системой управления печатью, которая получаетиз них информацию о возможностях соответствующего принтера.

Диалекты PostScript

Оригинальный язык PostScript достаточно хорошо удовлетворяет требованиям черно-белой печати. Однако со временем такие фирмы-производители, как Adobe и другие, вынуждены были добавить разнообразные расширения для поддержки цветных принтеров и дисплеев, возможностей систем высококачественной печати и более сложной графики. В результате на данныймоментPostScript имеет три основных диалекта.

Исходный язык PostScript теперь называется PostScript Level 1.Он по-прежнему поддерживается многими принтерами и является ядром для создания новых диалектов. Основной недостаток PostScript Level 1 заключается в том, чтоон не поддерживает цветной печати.

Для предоставления программам более широких возможностей для воспроизведения данных на экране фирма Adobe разработала DPS (Display PostScript). DPS является частью графического интерфейса NeXT и многих коммерческих версий системы X-Window для Unix. DPS добавляет к исходному PostScript Level 1 поддержку цвета и многозадачности, а также интерфейс, позволяющий программам, написанным на разных языках, выполнять фрагменты кода PostScript и возвращать результаты.

Большинство современных принтеров используют обновленный вариант языка PostScript, получивший название PostScript Level 2. Он предоставляет много новых возможностей, в частности, продвинутую поддержку цвета, стандартный способ доступа к возможностям систем высококачественнойпечати иновые операторы для упрощения программ PostScript.

Большинство приложений сейчас генерируют выходные данные PostScript, проверяя, поддерживает ли принтер Level 1 или Level 2. Если принтер поддерживает Level 2, программа будет использовать предоставляемые им возможности. Если нет, программа будет пытаться их эмулировать. Из-за этого файлы PostScript часто печатаются немного быстрее и качественнее на принтерах, поддерживающих Level 2, чем на сопоставимых с ними принтерах с Level 1.

Проблема с авторскими правами

Файлы PostScript зачастую включают и другие данные. Чаще всегоэто нестандартные шрифты. Чтобы распечатать файл, необходимо, чтобы соответствующий шрифт либо находился на принтере, либо являлся частью файла PostScript. При передаче файла PostScript кому-либо вы обычно должны включать и соответствующий шрифт, так как вы не всегда знаете, есть ли он у этого человека.

Проблема заключается в том, что на шрифты также имеются авторские права. Поэтому вы не имеете права передавать их копии другим пользователям. Если вы включили шрифт в файл PostScript, вы тем самым дали кому-то копию шрифта, так как в простом текстовом редакторе из этого файла можно легко извлечь всю информацию о шрифте. Таким образом, вы не можете легально включать шрифт в файл PostScript.

При этом шрифты PostScript считаются программами, а они, как вам наверняка известно, могут быть защищены авторскими правами. Из-за этой двусмысленности зачастую нельзя распространять легально документы

PostScript (так как они содержат защищенные авторским правом шрифты). Хотя вы можете легально распечатывать и раздавать фотокопии этого документа.

Самый простой способ решения этой проблемы кроется в использовании шрифтов, представленных во всех PostScript-совместимых принтерах, а именно Times Roman, Helvetica и Courier. Так как в этом случае вы сможете спокойно распространять электронную версию своего документа, не включая в него файл со шрифтами.

Достоинства и недостатки

Суммируя всю информацию из предыдущего раздела можно сделать следующий вывод: формат PostScript идеально подходит для описания документа, но не очень удобен для обмена документами. Это одна из причин, по которой фирмой Adobe была предпринята попытка разработать формат, специально предназначенный для обмена документами. Этот формат получил название Portable Document Format (также известный, как Acrobat), и о нем речь пойдет ниже.

Другой недостаток формата PostScript заключается в его сложности. Так как это полнофункциональный язык программирования, нельзя создать такую программу, которая понимала бы файлы PostScript настолько хорошо, чтобы при необходимости эффективно их скорректировать. В результате лишь считанные приложения пытаются читать и использовать данные файлов PostScript.

Относительно просто создать файлы PostScript, не отвечающие за разрешение, поддержку цвета или другие возможности устройства вывода. Однако с помощью PostScript можно включить поддержку растровых изображений, цветной печати и других возможностей, чтобы они по возможности были реализованы. Для профессионально сделанных в формате PostScript шрифтов и элементов оформления существует обширный рынок, кроме Того, этот формат активно используется в издательской деятельности.

Файлы PostScript обычно текстовые, поэтому с ними несложно работать, хранить и передавать. Способность принтеров PostScript воспринимать любые распространенные признаки завершения конца строки делают их совместимыми с персональными компьютерами, а также системами Macintosh и Unix.

PDF (Acrobat)

Общий подход, используемый форматом PostScript для описания документа, вполне применим для распространения документов в электронном виде. Распространяемые в электронном виде документы хорошо выглядят при любом разрешении, будь то разрешение экрана или системы высококачественной печати, что является несомненным преимуществом PostScript.

Однако PostScript сам по себе не очень подходит для распространения документов в электронном виде. Одна из проблем заключается в том, что из-за авторских прав нельзя включать шрифты в файл PostScript. В результате возникают сложности с распространением документов, использующих не широко распространенные шрифты. Другая проблема состоит в том, что для перехода к определенной странице файла PostScript необходимо просмотреть весь документ с самого начала.

Признаки PDF

Имя:        PDF, Portable Document Format, Acrobat

Расширения: •pdf

Используется ДЛЯ: для обмена отформатированными документами

Ссылки:      Portable Document Format Reference Manual [Ado93]

CD:         Программы просмотра Acrobat PDF для Windows,

                    Macintosh; программы просмотра Envoy для Windows,

                 MS-DOS

Разработанный фирмой Adobe формат Portable Document Format (PDF) предназначается для разрешения этих проблем. Основные подходы, реализованные форматом PDF для описания страниц, аналогичны тем, которые использует формат PostScript. PDF,_так же как PostScript, является текстовым форматом, что упрощает процесс обмена документами. Таким образом, PDF лучше подходит для распространения электронных версий документа, так как он предоставляет исчерпывающую информацию о шрифтах, опираясь на которую программы просмотра могут подставлять такой же шрифт. В результате нет необходимости включать реальные векторные шрифты в файл PDF (Формат PDF хранит метрики (metrics) шрифтов, то есть ширину и высоту каждого символа. Они могут быть использованы для масштабирования других шрифтов до нужных размеров. Этой информации недостаточно для специальных символов шрифтов — в этом случае PDF сохраняет векторное представление тех символов, которые необходимы для вывода документа на экран).

Дата добавления: 2018-04-05; просмотров: 246; Мы поможем в написании вашей работы!
Поделиться с друзьями:

12 Следующая ⇒

Мы поможем в написании ваших работ!