Практическое задание (к семинарским занятиям)



1 Обсудить и разобрать основные принципы распределенной базы данных, сформулированные К. Дейтом;

2 Обсудить и разобрать основные принципы построения технологии клиент-сервер.

 

Вопросы для обсуждения на семинаре, самостоятельного изучения и проверки знаний студентов

 

1 Дайте понятие распределенной БД.

2 Охарактеризуйте принципы распределенной БД, сформулированные 3 К. Дейтом.

4 В чем состоит сущность технологии клиент-сервер?

5 Назовите преимущества технологии клиент-сервер по сравнению
с технологией файл-сервер.

6 Охарактеризуйте технологию репликации данных.

7 Охарактеризуйте технологию объектного связывания данных.

 

ДОКУМЕНТАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

 

Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, кото­рые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отрабо­таны программно-технические решения по накоплению и физическо­му хранению таких данных, реализованы языки запросов к БД.

Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализу­емой модели представления и обработки данных, как реляционная мо­дель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.

Элементом данных в документальных ИС является документ (в фак­тографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.

Основной задачей документальных информационных систем явля­ется хранение и предоставление пользователю документов, содержа­ние которых соответствуют его информационным потребностям.

Документальная информационная система (ДИС)единое храни­лище документов с инструментарием поиска и выдачи необходимых пользователю документов.

Поисковый характер документальных информационных систем определил еще одно их название — информационно-поисковые систе­мы (ИПС).

Соответствие найденных документов информационным потребно­стям пользователя называется пертинентностью. В силу теоретиче­ских и практических сложностей формализации смыслового содер­жания документов пертинентность относится скорее к качественным понятиям.

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:

системы на основе индексирования;

семантически-навигационные системы.

Семантика (от грсч. semantikos — обозначающий) — значения еди­ниц языка,

В семантически-навигационных (гипертекстовых) системах доку­менты, помещаемые в хранилище документов, оснащаются специаль­ными навигационными конструкциями (гиперссылками), соответ­ствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы поме­щаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключает­ся в присвоении каждому документу некоторого индекса — координа­ты в поисковом пространстве. Формализованное представление ин­декса документа называется поисковым образом документа(ПОД). Пользователь выражает свои информационные потребности, посред­ством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

На основе определенных критериев ДИС осуществляет поиск и вы­дачу документов, поисковые образы которых соответствуют поиско­вым образам запроса пользователя.

Соответствие найденных документов запросу пользователя назы­вается релевантностью.

Информационно-поисковый язык (ИПЯ) представляет собой неко­торую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

Основными элементами ИПЯ являются алфавит, лексика и грам­матика.

Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.

Лексика, или словарный состав, ИПЯ — совокупность слов, слово­сочетаний и выражений, используемых для построения текстов ИПЯ.

Грамматика ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.

Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

Выбор слов определяется их смыслом, обусловленным парадигма­тическими отношениями между предметами и явлениями, которые они определяют.

Парадигматические отношения — это отношения, обусловленные наличием логических связей между предметами и явлениями, обозна­ченными данными словами.

Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, исполь­зуемых в ИПЯ.

Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу.

Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает ве­щество, а также понятие смысла. Оба значения близки по сути.

Синонимия — это совпадение слов по значению и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

Синтагматические отношенияотношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «за­щита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

Многообразие используемых в ИПЯ парадигматических и синта­гматических отношений определяет семантическую силу ИПЯ.

Координатное индексирование — индексирование, при котором ос­новное смысловое содержание текста (документа) или информацион­ного запроса представляется в виде сочетания ключевых слов или де­скрипторов.

Ключевые словаэто наиболее существенные для отображения со­держания документа слова и словосочетания, обладающие назывной функцией.

К классификационным языкам относят:

информационно-поисковый язык иерархического типа;

информационно-поисковый язык фасетного типа;

алфавитно-предметную классификацию.

Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска.

Полнота информационного поиска R определяется отношением числа найденных релевантных документов А к общему числу релевант­ных документов С, имеющихся в системе:

                                           

 

Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу докумен­тов L, выданных па запрос пользователя:

                                             

 

Наличие среди отобранных на запрос пользователя нерелевант­ных документов называется информационным шумом системы. Ко­эффициент информационного шума К определяется отношением числа нерелевантных документов (L - А), выданных в ответе пользователю, к общему числу документов L, выданных на запрос пользова­теля:

 

                                     

Информационно-поисковые каталоги, основанные на классифика­ции сведений по определенной предметной области, были первыми системами информационного поиска документов.

Классификация — это группировка объектов по признакам.

Первоначальные подходы к классификации тематики докумен­тов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная руб­рика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством руб­рик, отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору определяются коды ин­тересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кода­ми. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечисли­тельной классификации.

При систематизированной классификациисписок предметных руб­рик строится как иерархическая структура, в виде перевернутого де­рева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизиро­ванной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношени­ях основных категорий, понятий и классов.

Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархи­ческой классификации позволяют более адекватно отражать содержа­ние документов и обеспечивают большую точность поиска.

 Перечислительный и иерархический подходы к классификации ис­пользуются в алфавитно-предметных каталогах библиотек, Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик - фасет — по семантическому принципу, отража­ющему специфику предметной области.

   Фасеты выступают в роли элементов, из которых можно сконстру­ировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

Основное достоинство фасетной классификации заключается в воз­можности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

В основе построения дескрипторных ИПЯ лежит принцип коорди­натного индексирования, который предполагает, что основное смыс­ловое содержание документа может быть выражено списком ключе­вых слов. К ключевым словам относятся так называемые полнозначные слова - существительные, прилагательные, глаголы, наречия, числи­тельные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

словарь лексических единиц;

правила применения ИПЯ (грамматика), определяющие проце­дуру перевода текстов документов и запросов с естественного
языка на ИПЯ;

правила построения ИПЯ.

Словари лексических единиц делятся па две группы:

основные лексические словари, составляющие лексику ИПЯ;

морфологические словари, обеспечивающие морфологический
анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса си­нонимов. В качестве дескрипторов могут быть использованы код, сло­во или словосочетание.

Разработка дескрипторного языка фактически сводится к разработ­ке информационно-поискового тезауруса (ИПТ).

Тезаурус(от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором пе­речислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения си­нонимии, омонимии, полисемии, определены родо-видовые и ассоци­ативные связи дескрипторов.

Обобщенная структура ИПТ включает как минимум три составля­ющих: словарную часть, семантическую карту, руководство по исполь­зованию.

Приведем ряд определений.

Словарная часть — алфавитный список дескрипторов с их словар­ными статьями.

Семантическая карта — система тематических классов дескрипто­ров, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографиче­ского контроля и редактирования ПОД и ПОЗ, а также правила веде­ния ИПТ.

Отличием информационно-поисковых тезаурусов от информаци­онно-поисковых каталогов на основе предметной иерархической руб­рикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединя­емые под названием классов, рубрик и т. д. В каталогах же присутству­ют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТ ПОД представлен набором дескрипторов. Однако в процессе инде­ксирования документов учитываются семантические отношения меж­ду дескрипторами, что, в конечном счете, обеспечивает более адекват­ный содержанию документа ПОД и повышает эффективность поиска документов.

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с за­данным набором словарей лексических единиц и с правилами приме­нения ИПЯ.

Рассмотрим классификацию систем индексирования.

1 По степени автоматизации процесса индексирования выделяют
системы:

ручного индексирования;

автоматического индексирования;

автоматизированного индексирования.

2 По степени контролируемости различают системы:

без словаря;

с жестким словарем;

со свободным словарем.

3 По характеру алгоритма отбора слов текста выделяют системы:

с последовательным просмотром текста (отбираются все полнозначные слова);

с эвристическими процедурами выбора слов текста (слова от­бираются интуитивно или по заданной процедуре);

со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).

4 По характеру лексикографического контроля различают системы:

    без лексикографического контроля;

    с полным контролем;

    с промежуточным контролем.
    5 Лексикографический контроль предусматривает:

устранение синонимии, полисемии и омонимии на основе норма­тивных словарей лексических единиц с парадигматическими от­ношениями между ними;

нормализацию слов на основе морфологических нормативных
словарей.

6 По характеру морфологического анализа слов различают системы:

с использованием морфологических словарей;

с использованием основных лексических словарей;

с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Инде­ксатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготов­ленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания доку­мента и относить его (индексировать) к тем или иным классам, руб­рикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифици­рованных специалистов-индексаторов. Кроме того, процесс индекси­рования в некоторой мере был субъективным. Поэтому возникла за­дача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Пер­вый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуще­ствляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого ин­декса — прямой и инвертированный (рис. 9.4).

Прямой тип индекса строится по схеме «документ—термины». По­исковое пространство в этом случае представлено в виде матрицы раз­мерностью n x m. Строки этой матрицы представляют поисковые обра­зы документов.

Инвертированный тип индекса строится по обратной схеме — «тер­мин—документы». Поисковое пространство соответственно представ­лено аналогичной матрицей, только в транспонированной форме. По­исковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах.В процессе индексирования в индекс за­носится информация обо всех словах текста документа (отсюда и на­звание «полнотекстовые»).

    Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой ин­формации. Возникла потребность в программном обеспечении, реали­зующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные си­стемы не могли быть в полной мере использованы в массовой персо­нальной автоматизации. Потребовались средства, которые бы в мак­симальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и за­тратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке программных продуктов появились полнотекстовые ИС.

Полнотекстовые ИС строятся на основе информационно-поиско­вых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

хранилище документов;

глобальный словарь системы;

инвертированный индекс документов;

интерфейс ввода документов в систему;

механизм индексирования;

интерфейс запросов пользователя;

механизм поиска документов;

механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая ло­кально сосредоточенная информационная структура в виде специаль­ного файла с текстами документов.

Существенное влияние на эффективность полнотекстовых ИС ока­зывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. сло­ва, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждого нового до­кумента представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответству­ющего двоичного вектора для дополнения индекса системы. Индекс строится но инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по­иска основывается на тех или иных алгоритмах и критериях сравне­ния поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является опреде­ление номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем яв­ляются автоматизированные информационные системы по законода­тельству.

Автоматизированная информационная система по законодатель­ству(АИСЗ) — это программный комплекс, включающий в себя мас­сив правовой информации и инструменты для работы с ним. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных сис­тем.

Справочно-информационные системы общего назначения, ори­ентированные на доступ пользователей к нормативно-правовым
актам. К этим системам относятся «Консультант Плюс», «Га­рант», «Кодекс» и др.

Глобальные информационные службы (хост-системы), предо­ставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юриди­ческой информации, является система LEXIS (США).

Системы информационной поддержки деятельности правотвор­ческих, органов. Спецификой таких систем является необходи­мость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.

В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охва­тила множество городов России. В настоящее время наиболее распро­странена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

На третьем месте находится достаточно популярный продукт — информационно-поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разра­боток».

Существуют два источника получения правовой информации раз­работчиком для включения в систему: официальная рассылка подпи­савшего ведомства и опубликование в периодической печати.

Официальная рассылка— основной источник информации для си­стем «Консультант Плюс», «Гарант» и «Кодекс». Следует заметить, что государственные органы выступают не только в качестве источни­ков информации, но и сами являются пользователями систем, т. е. пря­мо заинтересованы в оперативном и достоверном пополнении инфор­мационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания.

Сеть «Консультант Плюс» имеет прямые договоры об обмене ин­формацией с основными федеральными органами (среди них — Ад­министрация Президента РФ, Министерство финансов РФ, Цен­тральный банк РФ, Федеральная налоговая служба и др.), а также с местными органами власти. Благодаря аналогичным договорам, нор­мативные акты достаточно оперативно попадают и в систему «Гарант».

Юридическая база «Кодекс» ведется при содействии юридического комитета мэрии Санкт-Петербурга. Документы для данной системы поступают в «Центр компьютерных разработок» на основе договоров не напрямую с органами власти, а с их представительствами в Санкт-Петербурге.

Публикации в печатных изданиях.Выделяют три группы таких ис­точников. К первой относятся все издания, в которых публикация нормативных актов считается официальной: «Бюллетень междуна­родных договоров», «Вестник ЦБ РФ», «Российская газета», «Россий­ские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Фи­нансовая газета» и т. д. Наконец, в третью группу входят издания, пуб­ликация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом в среде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др.

Оценка полноты, достоверности и оперативности обновления ин­формации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий, Ее цель — систематизация документов для повышения эффективности их дальнейшего использования.

Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным. Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структу­ра, содержащая все понятия, используемые для описания документов, входящих в информационную базу.

При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на серве­ре разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное пре­имущество работы с такими версиями заключается в том, что пользо­ватель всегда имеет доступ к самым последним данным.

Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком это­го варианта по сравнению с предыдущим является более продолжи­тельный период актуализации информации.

 


Дата добавления: 2018-04-15; просмотров: 262; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!