Поиск информации. Формирование запросов на поиск данных.
Говорят, что в Интернете есть все. На самом деле – это не так. Материалы для размещения в сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным опубликовать. Впрочем, река питается ручьями, и, благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в сети ресурсов стала серьезной проблемой. Несмотря на то, что проблемой занимаются тысячи организаций, она не только не приближается к разрешению, но и становится острее. Процент каталогизированных ресурсов неуклонно падает. В последние годы это падение стало катастрофическим. Так, если в 1999 году процент каталогизированных ресурсов приближался к 40%, то всего, лишь за один следующий год он опустился до 25 %.
Вывод простой: пространство Web быстрее наполняется, чем систематизируется.
К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в Интернет можно считать одной из самых трудных задач.
^ Поисковые системы
Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.
Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.
Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.
Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.
Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.
Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.
Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.
Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.
Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.
Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.
В России наиболее распространенными поисковыми системами являются:
Рамблер (www.rambler.ru);
Яндекс (www.yandex.ru);
Мэйл (www.mail.ru).
За рубежом поисковых систем гораздо больше. Самыми популярными являются:
Alta Vista (www.altavista.com);
Fast Search (www.alltheweb.com);
Northern Light (www.northernlight.com).
Яндекс является, пожалуй, наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем, как осуществляется поиск информации.
Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.
Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.
Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить, или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.
https://vuzlit.ru/948728/informatsionno_poiskovye_sistemy
ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете. Терминологически "информационно-поисковая система" (англ. "information retrieval system", IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных. Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.
Функционирование современных ИПС основано на двух предположениях:
документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;
пользователь способен указать этот признак.
Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.
Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля. Когда они являются "информационно-ориентированными", то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создаёт по существу новый, "самостоятельный" проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.
Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие "обеспечивающие" функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причём на уровне как отдельного документа, так и информационных ресурсов в целом
Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс - формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования. ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).
Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:
сравниваются не сами объекты, а описания - так называемые "поисковые образы";
сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.
Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью. При этом, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нём - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных. Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальным автомат для поиска информации - готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами. Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств.
Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.
Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.
Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи. Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска. Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.
Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:
одном пространстве (обычно, тематическом);
иерархически упорядоченном пространстве;
альтернативных пространствах;
динамическом (изменяющемся в процессе поиска) пространстве.
Реализуемый метод построения обеспечивать эффективные способы построения запроса для достижения целей различного типа.
Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.
Средства поиска, с одной стороны, - взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.
Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.
Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.
Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.
Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.
Процесс поиска можно представить в виде следующих основных компонент:
1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запрос на соответствующем ИПЯ;
2) проведение поиска в одной или нескольких поисковых системах;
3)обзор полученных результатов (ссылок);
4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;
5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.
Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.
По используемым поисковым технологиям ИС можно разбить на 4 категории:
1. Тематические каталоги;
2. Специализированные каталоги (онлайновые справочники);
3. Поисковые машины (полнотекстовый поиск);
4. Средства метапоиска.
В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков. Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации.
Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат). Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.
При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).
Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ.
Для формирования запросов используются специальные информационно-поисковые языки. ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их "релевантности", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа.
Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных. ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.
https://studfiles.net/preview/6353773/page:40/
Поиск по контексту позволяет найти документ, когда известен текст или отдельные слова, встречающийся в документе или в его названии. Технология позволяет вести поиск одновременно по нескольким полям контекста — то есть Вы определяете ключевые слова и имеете возможность задать поиск сочетания этих слов, конкретизировав фрагмент: в названии, в предложении, в абзаце или во всем тексте документа. Поиск того или иного раздела в Правовом навигаторе можно осуществлять с помощью контекстного фильтра. Для этого достаточно набрать в произвольной последовательности в поле контекстного фильтра слова из названия раздела нужной тематики. В результате фильтрации в Правовом навигаторе останутся только те разделы, в которых их собственные наименования или наименования их подразделов соответствуют набранному контексту. Поиск набранного контекста происходит тогда, когда кнопка Включить контекстный фильтр нажата. Например: для того, чтобы найти текст Конституции Российской Федерации, нужно из панели навигации выбрать пункт Документы и раскрыть его, нажав на плюсик рядом с ним. Далее пункт Основы государственно-правового устройства, в нем выбрать пункт Конституция РФ и ее субъектов, уставы муниципальных образований и далее выделить пункт с названием Конституция Российской Федерации. После чего в основном окне появится список документов, которые относятся к выбранному пункту. Среди них будет документ с названием Конституция Российской Федерации, это и есть искомый документ. Для того, чтобы ознакомиться с его содержанием, нужно один раз нажать мышкой на его название в основном окне. Можно найти данный документ быстрее, набрав в окне контекстного фильтра слово конституция. Тогда в правовом навигаторе автоматически будут отобраны пункты, содержащие слово конституция в названии.
Дата добавления: 2018-05-09; просмотров: 4397; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!
