Документальные информационно-поисковые системы. Информационно-поисковые языки. Система индексирования
Информационно-поисковая система (ИПС) - автоматизированная поисковая система, реализованная на средствах вычислительной техники и предназначенная для нахождения и выдачи ее пользователям информации по заданным критериям.
ИПС представляет собой совокупность информационно-поискового языка, программных средств и правил перевода текстов на этот язык (индексирования), а также обеспечения поиска необходимых документов и/или данных.
Поисковый образ документа получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ. Состоит из:
Банк данных - автоматизированная информационная система централизованного хранения и коллективного использования данных.
Информационный запрос - в широком смысле - текст, выражающий информационную потребность.
Поиск информации - в узком смысле - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу).
Информационно-поисковые системы делятся на два типа.
Фактографическая информационная поисковая система -это система, где, объектом или сущностью есть то, что представляет интерес (сотрудник, договор, изделие и т.п.). хранятся не документы, а факты, относящиеся к какой-либо предметной области.
|
|
Документальные (документографические) ИПС объектом сохранения и обработки есть собственно документы.. Хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа.
Компоненты:
• массив документов (текстов) или фактов, выступающих в качестве объектов хранения и поиска;
• информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;
• правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операция над ними на информационно-поисковом языке;
• комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;
• обслуживающий персонал, включающий администраторабанка документов, системных аналитиков, программистов и индексаторов.
|
|
Банки документов работают обычно в двух режимах:1) избирательного распределения информации, информирование пользователей банка о новых поступлениях документов;2) ретроспективного поиска информации по разовым запросам во всем массиве документов.
Важнейший этап обработки слагается из следующих действий:
1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных потребностей пользователя системы);
2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получения соответствующего поискового образа документа (ПОД).
Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы: • классификационные языки;•дескрипторные;• комбинированные.
Языки классификационного типа: • ИПЯ иерархической структуры;• ИПЯ фасетной структуры;• эмпирические (неиерархические) языки.
Классификационные системы. В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным.
|
|
Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны на методе координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной точностью и полнотой выражено списком ключевых слов, содержащихся в тексте
Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.
По области или по сфере применения информационно-поисковых языков можно выделить:
1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);
2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;
|
|
3. Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.
ИНДЕКСИРОВАНИЕ - Процесс выбора и присвоения документам, их частям, данным и/или отдельным понятиям (терминам) индексов - лексических единиц ИПЯ (в том числе - цифровых или символьных кодов, если они предусмотрены).
В зависимости от характера используемого ИПЯ различают предкоординатное индексирование и координатное (посткоординатное) индексирование, в т.ч. свободное индексирование (разновидность координатного индексирования производимого ключевыми словами, т.е. без использования какого-либо словаря). В зависимости от полноты учета разнородных признаков индексируемого материала (объекта индексирования) различают "одноаспектное" и "многоаспектное" индексирование (см. ниже).
Процесс индексирования включает:
1. Анализ содержания индексируемого материала и выбор из него т.н. номинативных лексических единиц, существенных для его понимания;
2. Формирование перечня ключевых слов, используемых при свободном индексировании;
3. Нормализацию ключевых слов по форме и содержанию при помощи словаря используемого ИПЯ пред- или посткоординатного типа;
4. Избыточное индексирование (см. ниже);
5. Заполнение рабочего листа с введением в него грамматических средств.
В зависимости от объекта и содержания процесса индексирования его результатами являются: поисковый образ документа (ПОД), поисковый образ лексической единицы (ПОЛЕ), поисковый образ запроса (ПОЗ) или поисковое предписание (ПП).
Дата добавления: 2020-01-07; просмотров: 464; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!