Документальные системы. Назначение и основные понятия.



Документальные системы служат для работы с документами на естественном языке -монографиями, публикациями в периодике, сообщениями пресс-агенств. текстами зако­нодательных актов. Они обеспечивают их смысловой анализ при неполном, приближен­ном представлении смысла.

Несмотря на то, что принципы хранения данных в системах обработки фактической и документальной информацией схожи, алгоритмы обработки в них заметно различаются.

Наиболее распространенный тип документальных систем - информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальны­ми ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только факто­графическими.

В отличие от традиционных БД, ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой ДИПС является информационное обеспечение потребите­лей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС - проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержа­щих ответ на заданные потребителем вопросы.

Заметим, что в отличие от фактографических информационно-поисковых систем, ко­торые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фак­тов), ДИПС в результате проведения информационного поиска предоставляют потребите­лю совокупность документов, смысловое содержание которых соответствует его запросу.

 


Информационно-поисковые системы.

Наиболее распространенный тип документальных систем - информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальны­ми ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только факто­графическими.

В отличие от традиционных БД, ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой ДИПС является информационное обеспечение потребите­лей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС - проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержа­щих ответ на заданные потребителем вопросы.

Информационный поиск в системе проводится на основе поступившего от потребите­ля запроса на отыскание необходимой ему информации. Потребность человека в опреде­ленной информации в процессе его практической деятельности носит название информа­ционной потребности.

Частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке, и представляет со­бой информационный запрос, с которым пользователь обращается к системе.

Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностью понимается соответст­вие смыслового содержания документа информационной потребности потребителя. До­кументы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержа­ние которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формализации пред­ставления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информаци­онно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДИПС определяется степень соот­ветствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. Л на основе такого сопоставления принимается решение о выдаче документа (он призна­ется релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной реле­вантности — соответствии содержания ПОД и ПП. Фактическая релевантность, пони­маемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.


Дата добавления: 2018-02-15; просмотров: 1656; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!