Документальные информационно-поисковые системы. Информационно-поисковые языки. Система индексирования



 

Информационно-поисковая система (ИПС) - автоматизированная поисковая система, реализованная на средствах вычислительной техники и предназначенная для нахождения и выдачи ее пользователям информации по заданным критериям.

ИПС представляет собой совокупность информационно-поискового языка, программных средств и правил перевода текстов на этот язык (индексирования), а также обеспечения поиска необходимых документов и/или данных.

Поисковый образ документа получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ. Состоит из:

Банк данных - автоматизированная информационная система централизованного хранения и коллективного использования данных.

Информационный запрос - в широком смысле - текст, выражающий информационную потребность.

Поиск информации - в узком смысле - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу).

Информационно-поисковые системы делятся на два типа.

Фактографическая информационная поисковая система -это система, где, объектом или сущностью есть то, что представляет интерес (сотрудник, договор, изделие и т.п.). хранятся не документы, а факты, относящиеся к какой-либо предметной области.

Документальные (документографические) ИПС объектом сохранения и обработки есть собственно документы.. Хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа.

Компоненты:

• массив документов (текстов) или фактов, выступающих в качестве объектов хранения и поиска;

• информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;

• правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операция над ними на информационно-поисковом языке;

• комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;

• обслуживающий персонал, включающий администраторабанка документов, системных аналитиков, программистов и индексаторов.

Банки документов работают обычно в двух режимах:1) избирательного распределения информации, информирование пользователей банка о новых поступлениях документов;2) ретроспективного поиска информации по разовым запросам во всем массиве документов.

Важнейший этап обработки слагается из следующих действий:

1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных потребностей пользователя системы);

2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получения соответствующего поискового образа документа (ПОД).

Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы: • классификационные языки;•дескрипторные;• комбинированные.

Языки классификационного типа: • ИПЯ иерархической структуры;• ИПЯ фасетной структуры;• эмпирические (неиерархические) языки.

Классификационные системы. В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным.

Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны на методе координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной точностью и полнотой выражено списком ключевых слов, содержащихся в тексте

Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.

По области или по сфере применения информационно-поисковых языков можно выделить:

1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);

2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;

3. Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.

ИНДЕКСИРОВАНИЕ - Процесс выбора и присвоения документам, их частям, данным и/или отдельным понятиям (терминам) индексов - лексических единиц ИПЯ (в том числе - цифровых или символьных кодов, если они предусмотрены).

В зависимости от характера используемого ИПЯ различают предкоординатное индексирование и координатное (посткоординатное) индексирование, в т.ч. свободное индексирование (разновидность координатного индексирования производимого ключевыми словами, т.е. без использования какого-либо словаря). В зависимости от полноты учета разнородных признаков индексируемого материала (объекта индексирования) различают "одноаспектное" и "многоаспектное" индексирование (см. ниже).

Процесс индексирования включает:

1. Анализ содержания индексируемого материала и выбор из него т.н. номинативных лексических единиц, существенных для его понимания;

2. Формирование перечня ключевых слов, используемых при свободном индексировании;

3. Нормализацию ключевых слов по форме и содержанию при помощи словаря используемого ИПЯ пред- или посткоординатного типа;

4. Избыточное индексирование (см. ниже);

5. Заполнение рабочего листа с введением в него грамматических средств.

В зависимости от объекта и содержания процесса индексирования его результатами являются: поисковый образ документа (ПОД), поисковый образ лексической единицы (ПОЛЕ), поисковый образ запроса (ПОЗ) или поисковое предписание (ПП).

 


Дата добавления: 2020-01-07; просмотров: 464; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!