Язык поисковых запросов



Лабораторная работа №2

Тема: ПОИСКОВЫЕ СИСТЕМЫ, КАТАЛОГИ, РУБРИКАТОРЫ, ПОРТАЛЫ В ИНТЕРНЕТ. ЯЗЫК ЗАПРОСОВ

Поисковые средства справочного типа.

Поисковые средства данной группы, называемые еще каталогами или рубрикаторами представляют собой электронные справочники, имеющие привычную для информационных работников иерархическую систематическую или логико-тематическую структуру, несколько напоминающую структуру систематического каталога библиотеки. Работа со справочниками позволяет ориентироваться в ресурсах Internet в пределах отдельных отраслей знания, углубляясь от общего к частному, менять иерархические ветви и т.д.

Задание 1. Посмотрите и оцените работу следующих справочников:

К наиболее интересным справочникам относятся:

Yahoo! (http://ru.yahoo.com),

Magellan (http://www.opentext.com/2/global.htm),

Galaxy (http://galaxy.einet.net).

 

Среди российских разработок в этой области значатся:

Апорт (http://www.aport.ru),

Созвездие Internet (http://www.stars.ru),

weblist (http://weblist.ru),

Улитка (http://ulitka.ru),

http://www.spravka.net/

 

Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга).

Однако знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск быстрым и эффективным.

Правильный поиск

Успешный поиск - это поиск, который производит человек, точно знающий, чего он хочет. Хотите искать успешно - соблюдайте простые правила:

1. Вводите слова поискового запроса по возможности без ошибок. Если Вы ошиблись в написании слова или словосочетания, Поисковая система поможет Вам скорректировать Ваш запрос при помощи ассоциативных запросов (они расположены справа от результатов запроса и предваряются заголовком "У нас также ищут"). Однако это касается только общеупотребительных слов. Редкие слова и словосочетания в случае их неверного написания могут быть просто не найдены.

2. Используйте синонимы. Если в результатах поиска нет нужных Вам ресурсов, переформулируйте запрос при помощи подбора синонимов. Например, запрос Узкая стиральная машина можно переформулировать как Компактная стиральная машина

3. Уточняйте запрос. Чем точнее будет построен поисковый запрос, тем больше у Вас возможностей найти необходимый сайт с первого раза. Включайте в поисковый запрос уточняющие слова. Например, сравните результаты поиска по запросам заправка и заправка картриджей.

4. В сложных случаях используйте операторы. Поисковые системы поддерживают систему так называемых операторов (служебных символов, которые понимает поисковая машина), позволяющих задавать комбинации различных критериев поиска.

Расширенный поиск

Форма расширенного поиска дает возможность:

- задавать дополнительные параметры поиска;

- редактировать параметры поиска и поля, заданные по умолчанию;

- выбирать наиболее удобную форму показа результатов поиска.

Поиск по тексту всего документа - поиск осуществляется по всему документу, включая его название и заголовки; включено по умолчанию; названия - учитываются только названия документов (тег <title>); гиперссылок - учитываются только гиперссылки внутри документов (тег <a href>).

Искать слова запроса: все ("и") - документ находится только в том случае, если в нем присутствуют все слова запроса; включено по умолчанию; хотя бы одно ("или") - документ находится, если в нем встретилось хотя бы одно слово из запроса; точную фразу - документ находится, если в нем встретились все слова запроса, причем в том же порядке и в тех же формах, что и в запросе; выбор этой опции равнозначен заключению поискового запроса в двойные кавычки.

Расстояние между словами запроса ограничивать - расстояние между словами из запроса в тексте документа не должно быть слишком большим; включено по умолчанию, поскольку повышает точность поиска; не ограничивать - расстояние между словами не играет роли; будут найдены все документы, содержащие слова запроса, вне зависимости от того, на каком расстоянии друг от друга они находятся.

Исключить документы, содержащие следующие слова. Из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле.

Язык документа любой - находятся любые документы, независимо от языка; включено по умолчанию; русский - поиск только по "русскоязычным" (кириллическим) документам; английский - поиск только по "англоязычным" документам (набранным латиницей); украинский - поиск по документам на украинском языке.

Формат документа. В настоящий момент Рамблер умеет искать HTML документы (веб страницы), Файлы Microsoft Word (*.doc), документы Adobe Acrobat PDF (*.pdf).Вы можете искать документ в любом формате или выбрать из трех предложенных.

Дата документа позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только "новыми" (начиная с указанной даты) или "старыми" документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 29/02/2000. По умолчанию находятся любые документы, вне зависимости от даты.

Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования.

Искать документы только на следующих сайтах. Позволяет отбирать только те документы, которые найдены на указанных сайтах. Под сайтом понимается уникальное DNS-имя (домен). Например: top100.rambler.ru, www.lenta.ru.Можно указать несколько сайтов через запятые. По умолчанию в поиске участвуют документы со всех проиндексированных сайтов.

Режим вебмастера. В этом режиме поисковая машина после каждого найденного результата предлагает ссылку на просмотр всех проиндексированных документов с найденного сайта, а также сразу выводит их количество.

Релевантность

Релевантность – это степень соответствия документа Вашему поисковому запросу.

Сортировка результатов поиска по принципу релевантности позволяет поисковой системе демонстрировать пользователю рейтинг страниц, на которых встречается заданная пользователем поисковая строка, на основе анализа содержимого этих страниц.

Анализ включает в себя:

Проверку частотности упоминания заданного слова или словосочетания на страницах: если слово /выражение упоминается чаще, это означает, что сайт, на котором оно расположено, может быть посвящен именно ему.

Цитируемость ресурса: чем больше количество гиперссылок на страницу, содержащую запрашиваемое слово, и ее упоминаний на других сайтах, тем больше вероятность того, что речь идет о популярном, востребованном источнике информации.

Проверку расстояния между словами, если в поисковом запросе введена фраза.

Таким образом, уровень релевантности позволяет поисковой системе интерпретировать полученные результаты, а пользователю - быстрее находить наиболее соответствующие запросу страницы.

Рассмотрим некоторые операторы, используемые при поиске.

Регистр

В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Задание 2. Найдите в любой поисковой системе (Rambler, Google, Yandex и т.д.) словосочетание Ги де Мопассан. Оцените результаты поиска в теперь найдите ги де мопассан. Сравните полученные результаты. Обратите внимание, что при изменении регистра изменяется направленность поиска.

Операторы

Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу 'собака AND кошка' найдутся только те документы, которые содержат и слово 'собака', и слово 'кошка'.

 

Задание 3. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘лингвистика AND межкультурная коммуникация’.

Оцените результаты поиска.

 

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу 'собака OR кошка' найдутся документы, в которых есть хотя бы одно из слов 'собака' или 'кошка' (либо оба эти слова вместе).

 

Задание 4. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘‘лингвистика OR межкультурная коммуникация’. Оцените результаты поиска.

 

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'собака NOT кошка' будут все документы, в которых есть слово 'собака' и нет слова 'кошка'.

 

Задание 5. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘‘компьютерная лингвистика NOT межкультурная коммуникация’. Теперь попробуйте ввести ‘межкультурная коммуникация not компьютерная лингвистика’.

 

Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос 'межкультурная коммуникация' будет истолкован как 'межкультурная AND коммуникация'. На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Операторы AND и OR имеют сокращенные обозначения:

Оператор Сокращенное обозначение
AND &
OR |

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

 

Задание 6. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘межкультурная коммуникация’. Оцените результаты поиска. Теперь попробуйте ввести ‘межкультурная OR коммуникация’.

 

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу 'самолет "заправился" посадка' удовлетворяет документ, содержащий текст '... самолет совершил посадку и заправился...', и не удовлетворяет документ, содержащий '.. самолет совершил посадку, чтобы заправиться...'.

 

Задание 7. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘компьютерная “оценка” знаний’. Оцените результаты поиска. Теперь попробуйте ввести ‘компьютерная “оценивать” знаний’. Сравните результаты поиска.

 

Скобки

При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки.

Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Если запрос без скобок 'машина самолет | аэродром' эквивалентен запросу 'машина AND самолет OR аэродром' и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова 'машина' и 'самолет', либо слово аэродром, то запрос со скобками 'машина (самолет | аэродром)' равносилен запросу 'машина AND (самолет OR аэродром)', что означает "найти документы, содержащие слово 'машина' и одно из слов 'самолет' или 'аэродром'".

 

Задание 8. Введите в любой поисковой системе (Rambler, Google, Yandex и т.д.) сложный запрос ‘информационная (система | технология). Оцените результаты поиска. Теперь попробуйте ввести ‘информационная (система & технология). Сравните результаты поиска.

 


Дата добавления: 2015-12-18; просмотров: 23; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!