Метаданные и семантика XML-документов



Одной из важнейших целей создания платформы XML является привнесение в среду Web метаданных, описывающих свойства поддерживаемых в ней информационных ресурсов, прежде всего, структуры XML-документов и их смыслового содержания (семантики). Благодаря этому обеспечиваются возможности автоматической проверки правильности структуры XML-документов и снижения уровня информационного шума при поиске информационных ресурсов в Web с помощью различных поисковых машин. Явное описание семантики XML-документов необходимо также для разнообразных продвинутых Web-приложений. В частности, становится возможным создание принципиально новых приложений высокого уровня, основанных на интеграции информационных технологий и обеспечивающих интеграцию неоднородных информационных ресурсов. Это направление активно развивается во многих научных центрах разных стран и связано с созданием информационных систем нового класса, функционирующих в среде Web и называемых электронными библиотеками [36].

В стандартах платформы XML предусмотрено несколько средств определения метаданных. Для определения структуры XML-документов специальные синтаксические конструкции предусмотрены в языке XML. Представленные их средствами метаданные называются определением типа документов (Document Type Definition, DTD). В DTD XML-документы данного типа описываются как иерархические структуры, состоящие из их элементов. Это описание может быть встроено в XML-документ или оно хранится где-либо в Web, и в документе дается на него ссылка. Для более утонченного описания структуры XML-документов могут использоваться средства стандарта XML Schema [14-15]. По сравнению с DTD, этот стандарт предоставляет для описания XML-документов дополнительные возможности, в частности более развитую систему типов значений атрибутов элементов.

Семантика XML-документа может быть определена явным или неявным образом (по умолчанию). Явное определение может быть формализовано в различной степени. Простейший способ задания семантики – использование пространства имен. Механизм пространства имен может, как уже отмечалось, определять явным или неявным образом семантику элементов XML-документов различных типов, их атрибутов, а также принимаемых атрибутами значений.

В последнее время начали создаваться сервисы регистрации и поддержки пространств имен в интересах различных сообществ разработчиков и пользователей. Зарегистрированное пространство имен становится своего рода стандартом для сообщества пользователей. В качестве такого согласованного пространства имен может использоваться, например, набор элементов метаданных Дублинского ядра (Dublin Core, DC). Его поддержкой и развитием занимается учрежденная для этих целей организация - Dublin Core Metadata Initiative (DCMI). Текущая версия спецификаций Дублинского ядра - DC 1.1 [37] была принята в июле 1999 г. Она включает 15 элементов метаданных. DCMI опубликовал также спецификации рекомендованных квалификаторов [38], уточняющих смысл элементов метаданных DC и интерпретацию их значений В настоящее время на основе DC 1.1 ведется разработка официального стандарта ANSI/NISO Z39.85 [39].

Более формализованный способ явного описания семантики XML-документов обеспечивается средствами стандарта W3C - Resource Definition Framework (RDF) [16, 17]. Такое описание, называемое RDF-спецификацией, аналогично по своим возможностям концептуальной схеме в системах баз данных. По сравнению с рассмотренными выше средствами, оно представляет собой более высокий уровень семантического описания информационных ресурсов, приблизительно эквивалентный ER-модели.

В RDF-спецификации объявляется некоторое множество ресурсов, для каждого из которых определяются пары "свойство-значение". Информационные ресурсы в RDF - это ресурсы Web, идентифицируемые уникальным образом с помощью их URI. Они могут также представлять собой коллекции других информационных ресурсов или литералов, называемые контейнерами. Допускаются контейнеры типа мультимножества, последовательности и альтернативы. Значения свойств задаются литерально либо ссылками на другие ресурсы, которые представляются, в свою очередь, их свойствами. Таким образом, свойства могут определять и связи между ресурсами. Описание семантики свойств называется схемой. В стандарте RDF не регламентируется способ задания схемы для RDF-спецификации. Достаточно лишь представить ее как некоторый ресурс в WWW, и использовать URI этого ресурса для ссылки на нее в RDF-спецификации. В документации стандарта RDF рассматривается, например, вариант использования для этих целей упоминавшегося выше Дублинского ядра. Во второй части стандарта, называемой Schema Specification [17], предлагается значительно более богатый способ задания схемы. Этот способ основан на объектной модели, в которой используются концепции классов, свойств и ограничений, ассоциируемых с классами и свойствами, поддерживается иерархическое отношение "класс-подкласс". Заметим, что для приложений, нуждающихся в более формальном описании семантики данных, схема в RDF-спецификациях является той “открытой точкой”, которая позволяет интегрировать в среду XML онтологические спецификации предметной области или иные описания семантических свойств информационных ресурсов на уровне систем представления знаний.

В настоящее время уже создано значительное количество свободно распространяемых и коммерческих инструментальных средств для поддержки RDF-спецификаций [40] - синтаксических анализаторов, программного обеспечения репозиториев, реализаций языков запросов RDF и т.д.


Дата добавления: 2015-12-21; просмотров: 14; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!