Этапы и виды информационного поиска



Федеральное государственное бюджетное образовательное учреждение

высшего образования

« Омский государственный технический университет»

 

Кафедра «Дизайн и технологии медиаиндустрии»

 

Методические указания

По лабораторным работам

рукописный вариант

 

по дисциплине

«Технологии визуализации результатов профессиональной деятельности»

09.04.02 Информационные системы и технологии

 

Лабораторная работа 1. 3

Лабораторная работа 2. 15

Лабораторная работа 3. 22

Лабораторная работа 4. 31

Лабораторная работа 5. 34

Лабораторная работа 6 и 7. 41


Лабораторная работа 1

 

Тема:

Поиск и обработка информации для формирования визуальной модели.

 

Цели:

 

1.Знакомство с понятиями из области информационного поиска: «информационный поиск», «информационно-поисковая система», «поисковым образом документа» и др.

2. Знакомство с типами поисковых систем в сети Интернет.

3. Формирование умения вести поиск профессиональной информации в сети Интернет.

 

Теоретические аспекты:

Современный уровень развития информационной инфраструктуры требует от каждого специалиста умения находить и оценивать профессиональную информацию. Информационная культура личности становится основой его суще­ствования и самореализации.

Под информационной культурой предлагается понимать «оптимальные способы обращения со знаками, данными, информацией и представление их заинтересованному потребителю для решения теоретических и практических задач; механизмы совершенствования технических сред производства, хранения и передачи информации; развитие системы обучения, подготовки человека к эффективному использованию информационных средств и информации»[1]. В настоящее время информационная культура является скорее элементом профессиональной культуры, но стремительное развитие коммуникационных сетей и прогрессивное увеличение доступной каждой личности информации создает предпосылки для того, что информационная культура становится все больше элементом общей культуры.

Информационная культура в перспективном смысле предполагает понимание человеком сути основных процессов получения, обработки и хранения данных, являющихся источником ценной информации.

Она подразумевает наличие умений:

- выбирать и формулировать цели, осуществлять постановку задач;

- легко и быстро решать самые разнообразные задачи на компьютере, находить информацию в различных источниках;

- пользоваться автоматизированными системами поиска, хранения и обработки информации;

- выделять в информации главное и второстепенное;

-  упорядочивать, систематизировать, структурировать данные и знания;

- видеть информацию в целом, а не фрагментарно;

- устанавливать ассоциативные связи между информационными сообщениями;

- интерпретировать информацию;

- переводить визуальную информацию в вербальную знаковую систему и наоборот;

-  широко использовать моделирование для изучения различных объектов и явлений;

-  производить анализ информационных моделей;

-  применять различные виды формализации информации;

- использовать для анализа изучаемых процессов и явлений базы знаний, системы искусственного интеллекта и другие информационные технологии;

- разрабатывать эффективные алгоритмы и реализовывать их на компьютере;

-  интерпретировать и анализировать полученные результаты;

- предвидеть последствия принимаемых решений[2].

Информационные ресурсы

Термин «информация» происходит от латинского informatio – сведения, разъяснение, осведомлённость, изложение. Информация — это само содержание, т. е. смысл сообщения (сигнала) или сведения о чем-либо, рассматриваемые в процессе их передачи и в момент восприятия.

Под сообщением понимают совокупность знаков или первичных сигналов, содержащих информацию. Сообщение – это информация представленная в какой-либо форме.

Сообщение (в том числе визуальное) несет информацию для человека в том случае, когда заключенные в нем сведения являются новыми, то есть, пополняют знания, и понятными, то есть новые сведения логически связаны с уже имеющимися знаниями и представлены в доступной форме. С другой стороны необходимые новые для человека, но одинаковые по смыслу знания могут содержаться в разных сообщениях, различных по своей природе.

Ошибки, допущенные при формировании сообщения, или возможные искажения последнего в процессе передачи или приема приведут к обязательному изменению формы и, чаще всего, объема сообщения, но информация при этом может нисколько не измениться, а может вероятностным образом частично или полностью уничтожиться.

Знание – проверенный практикой результат познания действительности, верное ее отражение в мышлении человека; – идеальное выражение в знаковой форме объективных свойств и связей мира, природного и человеческого; – набор моделей об окружающем нас мире.

Формы и объемы сообщений, содержащих одни и те же знания (одну и ту же информацию), могут быть совершенно разными. При этом одну мысль или знания определенного характера, т.е. одну информацию, можно представить с помощью различных формальных и неформальных языков, с разной степенью подробности, с возможными повторами и т.д. Любое сообщение имеет собственные характеристики своего описания, в том числе количественного.

Итак,

- сообщение – это оболочка, носитель информации. Информация может содержаться в сообщении, а может и отсутствовать;

- количество и качество информации может определить только ее получатель;

- информация всегда есть некие новые знания или сведения, заложенные в сообщении. Сведения не всегда информация, потому что они могут не приносить получателю новых знаний;

- чем больше информации, тем больше знаний, тем лучше представление о мире, тем успешнее будет действие, связанное с объектами окружающего мира.

Информационные ресурсы объединяют первичную информацию, отражающую знания человека об опыте своей деятельности и сведения об окружающей среде, а также всю вторичную информацию, образующуюся в результате обработки и переработки всей получаемой информации.

Собранная определенным образом и целенаправленно обработанная информация порождает новые знания. Таким образом, информация обладает уникальным свойством репродуцировать (воспроизводить) знания и усиливать эффект их накопления (суммирования), что приводит к постоянному росту ИР.

Информационный ресурс — это индивидуальные и коллективные экспертные знания, отдельные документы, отдельные массивы документов, а также документы и их массивы, составляющие базы и банки данных, базы знаний, библиотеки, архивы, фонды, информационные системы и другие системы в определенной предметной тематической области, которые удовлетворяют функциональным потребностям и запросам потребителей информации.

Информационными ресурсами обладают отдельные люди, коллективы людей, организации, территориальные и национальные образования, города, регионы, страны и в целом весь мир.

Цели получения информации:  познавательная, социально-поведенческая, художественно-эстетическая, игровая, управленческая.

Информационный поиск

Информационный поиск – это искусство и наука поиска информации в документах и поиска собственно документов и описывающих документы метаданных в базах данных (в том числе сетевых).

Подмножеством IR является выделение информации в тексте (Text Retrieval, TR) и выделение информации в документах (Document Retrieval, DR). Термин «ИП» ввел в информатику американский математик Кэлвин Муэрс в 1947 году.

Центральная задача ИП – удовлетворить информационную потребность. Информационная потребность формулируются как некоторый запрос, представляющий собой набор ключевых слов, характеризующий то, что ищет пользователь.

Запрос – это формализованный способ выражения информационных потребностей пользователем системы.

Разработки современных информационных технологий позволили придать Интернету ряд сервисных функций, автоматизирующих разнообразные процессы обмена информации и общения между людьми независимо от времени и места их нахождения.

Основные сервисы Интернета объединены в четыре группы:

– сетевые системы передачи информации;

– сетевые системы поиска информации;

– коммуникационные сетевые системы (электронная почта, сетевые новости, социальные сети и т.д.);

– мультимедийные информационные системы.

 

Основные термины и определения в области поиска и распространения информации с помощью автоматизированных информационных систем, а также информационно-поисковых языков регламентированы официальными документами РФ: государственными стандартами ГОСТ 7.73-96 «Поиск и распространение информации» и ГОСТ 7.74-96 «Информационно-поисковые языки».

 

Информационно-поисковая система (ИПС) представляет собой совокупность справочно-информационного фонда и технических средств информационного поиска в нем.

Любая документальная ИПС включает в себя следующие элементы:

- информационно-поисковый язык (ИПЯ),

- правила перевода текстов документов и запросов с естественного языка на ИПЯ,

- формальные правила (алгоритмы) поиска, технические устройства, реализующие алгоритмы поиска,

- фонд документов (или их адресов), записанных на каких-либо носителях информации.

Справочно-информационный фонд (СИФ) – это совокупность ин­формационных массивов (т. е. упорядоченных совокупностей документов, фактов или све­дений о них) и связанного с ними справочно-поискового аппарата (т. е. данных об адресах хранения документов с определенными поисковыми образами документа).

Наиболее эффективный метод поиска документов – прочитать каждый документ некоторой библиотеки. Менее затратным на усилия метод, при котором ИП производится не по самим текстам документов, а по кратким характеристикам содержания или определенным внешним признакам документов.

Каждый документ снабжается поисковым образом документа (ПОД) - характеристикой, в которой кратко выражается основное смысловое содержание документа. Поис­ковый образ документа – это текст, состоящий из лексических единиц информационно-поискового языка (т. е. специального формализованного искусственного языка), выра­жающий основное смысловое содержание документа и предназначенный для реализации информационного поиска.

В виде такой же краткой характеристики - поискового предписания или поискового образа запроса (ПОЗ) - должен быть сформулирован и информационный запрос. Процедура ИП сводится к сопоставлению ПОД с заданным ПОЗ. Если ПОД в необходимой и достаточной степени совпадает с ПОЗ, считается, что этот документ отвечает на информационный запрос. Такое сопоставление оправдано лишь тогда, когда поисковый образ и поисковое предписание формулируются в терминах одного и того же языка, и притом такого, в котором каждая фраза допускает одно и только одно толкование.

Процесс выражения содержания документа на информационно-поисковом языке называется индексированием. Именно поисковый образ документа хранится в индексах ИПС.

Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.

Индексации подвергаются все слова в документе (а теперь и изображения), что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.

Под содержанием документа в данном контексте обычно подразумева­ют не только более или менее краткое изложение того, о чем повествует документ, но и его «библиографические характеристики»: название документа, фамилии его авторов, аннотации, ключевые слова, вы­ходные данные и т. п. Совокупность извлекаемых в процессе индексации характеристик документа вместе с формальным описанием структуры этих характеристик обычно на­зывают метаданными.

Метаданные – это структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентифи­кации, поиска, оценки, управления ими.

Структурирование данных призвано облегчить поиск документов, ибо одно и то же слово (например «Пушкин») может входить в список авторов документа, в его загла­вие, в аннотацию или даже в выходные данные (город Пушкин в Ленинградской области как место издания документа). Эти случаи могут быть разграничены именно благодаря структурированию метаданных.

Документ становится доступным для поиска с помощью той или иной информационно-поисковой системы, если его метаописание (т. е. совокупность мета­данных) попадает в справочно-информационный фонд этой системы.

В ПОД в краткой форме выражается лишь основное смысловое содержание документа. Поэтому такой метод не может обеспечить отыскания в библиотеке всех документов, содержащих требуемую информацию. Кроме того, в числе найденных документов могут быть такие, которые фактически не отвечают на данный информационный запрос. Эти документы образуют так называемый «поисковый шум».

Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. Традиционно результаты поиска в ИПС Интернета предъявля­ются пользователю в виде списка документов, упорядоченного (ран­жированного, сортированного) по степени убывания релевантности найденных документов. В общем можно сказать, что основным критерием при выведении списка найденных документов является релевантность документа.

Релевантность применительно к результатам работы поисковой системы определяется как степень соответствия запроса и найденных материалов. Для этого системой вычисляется «вес» («ранг») документа.

Релевантность в ПС – мера соответствия результатов поиска задаче поставленной в запросе.

Ранжирование – порядок выдачи результатов поиска по какому-либо признаку (дате обновления, времени загрузки, объему, релевантности и др.). В соответствии с вычисленным рангом документы и появляются на странице результатов ИПС. Алгоритмы ранжирования строятся так, чтобы пользователь, просмотрев первые 10-20 ссылок, мог убе­диться в наличии или отсутствии нужной ему информации и принять решение об изменении поискового запроса или о целесообразности дальнейшего поиска.

Для вычисления ранга документа / страницы используется несколько методов:

1.Статистический метод основан на количественной характеристике появления ключевого слова в тексте. Здесь важны частота повторения ключевого слова и процентное соотношение искомого слова к остальному тексту документа / страницы. Алгоритмы современных ПС позволяют производить анализ текста для выявления «мусора», т.е. когда ключевое слово встречается слишком часто (выше определен­ного процента от всего содержимого) на странице. При составлении подобной статистики из текста исключаются стоп-слова, которые не несут смысловой нагрузки (предлоги, союзы и др.)

2.Локальный метод основан на определении места (название, заголовок, основной текст), в котором появляет­ся ключевое слово. В зависимости от того, где встретилось слово, определяется его вес. Так, если слова запроса содержатся в заголовке или первых абзацах, то тогда эта страница мо­жет получить высокую релевантность.

Очень важным является содержание двух метатэгов, предназначенных специально для поисковых систем: description и keywords (располагаются внутри парного тега <head></head> и являются невидимыми для браузеров).

В тег keyword помещают ключевые слова и словосочетания, также можно использовать слова, которые релевантны тематике сайта, но не включены непосредственно в текст страницы. Количество разрешенных ключевых слов в поисковых системах различно (в среднем составляет 200 символов). Рекомендуемое количество повтора слова – три (не больше 7), причем лучше перемешивать их с другими ключевыми словами.

При выдаче результатов поисковые системы помимо заголовка показывают первые 100-200 символов текста со страницы в качестве аннотации. Но первые слова на странице могут не подходить в качестве аннотации. Используя тег description, указывается любое другое описание (желательно уложиться в 200 символов), которое будет привлекательно для пользователя и содержать ключевые слова.

Итак, поисковики оперируют:

- словами;

- ссылками;

- перекрестными ссылками;

- популярностью (google – PageRank, яндекс – тематически индекс цитирования ТИЦ);

- деньгами рекламодателей.

Для вычисления «веса» документа важно также число и авторитетность внешних ссылок на данную страницу с других сайтов.

Технология PageRank , разработанная создателями Google С. Брином и Л. Пэйджем, определяет степень релевантности документа путем анализа ссылок других источников на данный ре­сурс. Когда все другие вышеперечисленные методы учтены, используется PageRank для корректирования результатов поиска, чтобы «важные» сайты поднялись выше среди результатов поиска.

При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

Тематически индекс цитирования тИЦ – индекс цитирования веб-сайтов, составляемый компанией «Яндекс». Заключается в определении качественной характеристики интернет-ресурсов – ссылок на них с других сайтов. Индекс цитирования (тИЦ) никакой роли в поисковой оптимизации не играет. Величина тИЦ определяется суммарным «весом» ссылающихся сайтов. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов. На тИЦ не влияют сайты, на которых любой человек может проставить личную ссылку без ведома администратора ресурса. Данный показатель в первую очередь используется для определения порядка расположения ресурсов в рубриках каталога «Яндекса».

Запрос редко может точно выразить информационную потребность. Поэтому ПС не могут точно определить, соответствует ли тот или иной документ запросу. Для описания соответствия найденного документа запросу и используют также понятие пертинентность.

Релевантность – соответствие полученной информации информационному запросу.

Пертинентность – соответствие полученной информации информационной потребности.

Релевантность определяется «пони­манием» запроса поисковой машиной, т.е. алгоритмами поиска кон­кретной поисковой системы, а пертинентность определяется, с точ­ки зрения пользователя, как степень соответствия между его ожида­ниями и результатами поиска.

Существует субъективное понимание пользователем сути осуществляемого поиска и субъективное ожидание результатов поиска. Поиск должен быть не релевантным, а пертинентным.

 

Этапы и виды информационного поиска

Под влиянием общей тенденции к алгоритмизации технологиче­ских процессов, а также для облегчения процесса обучения и передачи практического опыта в теории и практике библиографии стало развиваться представление о возможности разделения процесса по­иска на этапы, которые позволили бы быстро и эффективно находить любую информацию.

Наиболее оптимальный набор этапов поиска:

1. формулирование задачи поиска и разработка «поискового образа» запроса;

2. разработка алгоритма поиска;

3. реализация поиска (просмотр источников с одновременной оценкой их качества и корректировка перечня источников);

4. упорядочивание собранного материала;

5. оформление результатов поиска.

Этапы поиска:

1. Уточнение информационной потребностей и формулировка запроса.

2. Определение держателей информационных массивов.

3. Извлечение информации из информационных массивов.

4. Оценка результатов поиска и полученной информации.

 

Виды ИП в зависимости от:

- цели: адресный (формально-механический) и семантический (тематический);

- объекта поиска: документный и фактографический;

- степени использования технических средств: ручной или автоматизированный.

- функциональной роли: доминирующие/второстепенные, центральные/периферические, устойчивые/ситуативные потребности.

 

Виды ИП:

1) горизонтальный (универсальный) поиск (поисковые системы). Это не глубокий поиск.

2) вертикальный (тематический) поиск

Горизонтальный поиск

Важной чертой Интернета является то, что пользователь информации сам производит поиск, ведет диалог с поисковой системой, меняя тактику поиска в зависимости от полученных результатов. В связи с этим можно выделить два положительных момента:

1) формируются основы научного мышления, навыки исследовательской работы;

2) выявляется информация, которая не только соответствует запросу, но и может оказаться полезной в будущем.

Поиск информации в сети Интернет рассматривается как процесс решения поисковой задачи, стоящей перед пользователем, нежели как нахождение релевантной запросу информации.

ИП производится при помощи информационно-поисковых систем (ИПС).

ИПС – это комплекс связанных друг с другом отдельных частей, предназначенный для выявления в каком-либо множестве элементов информации, отвечающих на предъявленный информационный запрос.

 

Описание разнообразных поисковых систем Интернета можно найти на сайтах: http://subscribe.ru/catalog/inet.search.poisk164; http:// www.iskati.com и др. На них представлены характеристики иностранных и отечественных поисковых систем и краткие рекомендации по их использованию.

Типы ИПС:

1. Документальные ПС предназначены для выдачи непосредственно требуемой информации, поэтому в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию.

2. Фактографические ПС выдающих библиографические описания (БО) искомых документов.

Типы ИПС в WWW :

1.Каталоги представляют собой электронные справочники, имеющие четкую иерархическую систематическую или логико-тематическую структуру, во многом напоминающую структуру систематического каталога библиотеки.

Наиболее популярные каталоги:

- Yahoo! (www.yahoo.com),

- Open Directory (dmoz.org),

- About (www.about.com).

- Апорт (www.aport.ru),

- List.ru (list.mail.ru),

- Weblist (www.weblist.ru),

- Пингвин (www.pingwin.ru).

 

2. Индексы (поисковые машины, поисковые системы) функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Функции ИПС: хранение информации;   быстрый поиск информации; добавление, удаление и измените информации; вывод в удобном для человека виде.

Популярные поисковые системы:

- Google (www.google.com)

- AlltheWeb (www.alltheweb.com)

- Alta Vista (www.altavista.com)

- Яндекс (www.yandex.ru)

- Rambler (www.rambler.ru)

- Turtle (www.turtle.ru)

- Апорт (www.aport.ru).

 

3. Метапоисковик (МПС) – поисковая машина, которая при получении запроса параллельно опрашивает несколько независимых традиционных ИПС и возвращает их результаты одним, объединенным списком результатов без дублирования ссылок и, по возможности, улучшая частные результаты выдачи. МПС не предназначены для индексирования и накопления данных, их назначение – чистый поиск и обработка результатов поиска.

Метапоисковики со стандартным поиском:

- Dogpile (dogpile.com)

- IxQuick (ixquick.com)

- MetaCrawler (msxml.excite.com)

- Search.com (search.com)

- WebCrawler (webcrawler.com)

- WindSeek (windseek.com)

- ZapMeta (zapmeta.com)

- Draze (draze.com)

- Metabot (metabot.ru/).

- Vivisimo (vivisimo.com)

- Нигма

4.Визуальные поисковики – системы поиска графической информации, осуществляющие распознавание визуальной информации. Наиболее хорошие результаты показывают поисковые системы, анализирующие всю возможную информацию об объекте: учитывают текстовое описание, распознают графические образы, анализируют речь и другую звуковую информацию (в том числе и видеофайл).

Популярные визуальные поисковики:

- Tineye.com

- Like.com

- Tiltomo.com

- Photodate.ru

- Blinkx.com

- Betaface.com

- Eyealike.co

 

Формирование запроса поиска

При поиске информации в Интернет самым важным являются наиболее очевидные и часто используемые пользователями синонимы. При составлении списка таких слов используются частотные (синонимические) словари.

Для составления ключевых слов важны существительные, прилагательные, причастия, реже глаголы.

С помощью словаря можно составить список синонимов, а далее с помощью поисковой системы определить сколько раз встречается каждое из слов. С другой стороны, это не является показателем предпочтений пользователей. Однако на популярных поисковых серверах есть списки «слов поиска» (searchwords), отражающих наиболее популярные запросы за определенный промежуток времени. Например, по адресу https://wordstat.yandex.ru/ Яндекс выдаст статистику на указанный ключевой запрос (слово или словосочетание) и осуществит подбор подобных других запросов, которые делали люди (справа) по данной теме со статистикой.

Важно выбрать синонимы, которые действительно соответствую тематике сайта и являются популярными среди запросов пользователей. В список ключевых слов включать обязательно правильное их написание (хотя можно не исключать тех же слов с наиболее частым ошибочным написанием, как орфографическим, так и обычным пропуском букв).

Еще много по поиску:

Http://refleader.ru/otrbewpolbew.html (источники)

 

 

Практические задания:

 

1. Определить и перечислить направления поиска сведений, которые составят основу поисковой части диссертационной работы. Сформировать интеллект-карту, демонстрирующую основные направления поиска информации.

 

Требования и рекомендации выполнения задания:

 

- к моменту выполнения данной работы студенты уже должны иметь первоначальные теоретические наработки по теме диссертации. При этом могут быть сформированы основные направления поиска в соответствии с планом магистерской работы;

- для составления интеллект-карты нужно использовать специальное свободное или лицензионное ПО. Например, программу XMind, Visio или др., а также можно использовать специализированные онлайн-ресурсы;

- интеллект карта предоставляется в собственном формате соответствующей программы и формате .PDF, а также в печатном виде.

 

2.Составить базу специализированных информационных ресурсов и документов Интернета по теме магистерской диссертации.

 

 

Требования и рекомендации выполнения задания:

 

- при помощи общих ИПС (горизонтальный поиск) необходимо найти ресурсы, которые содержат полезные для написания магистерской работы документы. Далее уже в рамках специализированного ресурса осуществляется поиск документов с указанием типа данных (вертикальный поиск). Это могут быть тексты, изображения, видео, презентации и т.п. Поэтому для документа может быть указан запрос, по которому он был найден в общей ИПС (Яndex, Google или др.), или запрос, по которому он был найден уже в рамках специализированного ресурса;

- база специализированных информационных ресурсов и документов представляется в виде таблицы 1.;

- число информационных ресурсов должно быть не менее 15, а документов не менее 20;

 

Таблица 1.


Дата добавления: 2019-01-14; просмотров: 2514; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!