File://ftp.ict.nsc.ru/pub/winsite/www/internet.zip

Пример URL адреса директории, в которой лежит файл:

file://ftp.ict.nsc.ru/pub/winsite/www/

Понятно, что URL адрес корневой директории FTP сервера ftp.ict.nsc.ru выглядит вот так:

file://ftp.ict.nsc.ru/

Кстати вместо сетевого имени машины ftp.ict.nsc.ru можно указать ее IP-адрес 193.124.243.76. Это часто бывает полезно для ускорения работы с удаленными системами при невысокой скорости передачи данных.

Методы информационного поиска в Интернет. Схема работы поисковых машин. Правила работы с поисковиками.

По состоянию на начало 2000 года только ресурсы WEB составляли более 850 миллионов WEB-страниц и количество их лавинообразно продолжает увеличиваться, и поэтому, поиск нужной информации очень сложен.

Для поиска информации в Сети используются специальные поисковые службы. Обычно поисковая служба - это компания, имеющая свой сервер, на котором работает некая поисковая система. Услуги большинства поисковых систем бесплатны для конечного пользователя, но по темпам роста это один из самых эффективных бизнесов в мире.

Пример. Мощная поисковая система принимает в сутки 30-50 миллионов посетителей и демонстрирует им сотни миллионов рекламных баннеров. Каждый щелчок пользователя на баннере оценивается примерно 1 центом, т.о. совокупный доход только от рекламных баннеров составляет до 100000 $ в сутки. Это одна из причин огромной прибыли бесплатных услуг.

В Сети поиск обеспечивают специальные поисковые службы. Обращаясь к поисковой системе мы формулируем запрос, в котором описываем, какого рода информацию хотим найти. В ответ мы получаем список гиперссылок, ведущих к ресурсам, соответствующих нашему запросу. Какими из этих ссылок мы воспользуемся - дело наше.

При классификации поисковых систем выделим 3 основных способа:

Поисковые индексы - это полностью автоматизированные системы, которые без участия человека постоянно сканируют информационное пространство Сети и индексируют всё, что им попадается. Результаты своей работы они заносят в базу данных, из которой потом извлекают ответ на запрос пользователя. Такие системы должны постоянно передвигаться по Сети, искать новые документы и обновлять старые. Для этого они должны быть постоянно подключены к Сети через мощные каналы связи. Какое-то время так и было, но взрывной рост объема информации в Сети несколько изменил ситуацию. Поисковые системы просто захлебнулись в лавине информации. Летом 1999 года крупнейшие поисковые индексы преодолели 200-миллионный рубеж (количество WEB-страниц), а 300-миллионный по прогнозам будет взят в 2000 году. Поэтому для сохранения работоспособности такие системы стали индексировать не весь документ, а только его части, например, заголовок. Применяют и другие способы уменьшения объема информации, но ни одна поисковая система не может похвастаться 100% охватом. Ещё одной бедой автоматических индексов является проблема устаревания информации. Одни документы создаются, другие изменяются, а третьи, просто уничтожаются. Не успела поисковая система проиндексировать документ, как его автор уже внёс изменения, а то и уничтожил файл. Когда это документ вновь попадёт под индексацию, неизвестно. Поэтому не стоит удивляться, если вам в качестве ответа выдают гиперссылку, которая никуда не ведёт.

Работа поисковых индексов состоит из 3 этапов:

Сбор информации поисковыми роботами. Создание поисковой системы начинается со специальной программы, способной путешествовать по WEB-узлам Сети, просматривать и копировать их на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «ботами», «краулерами» и т.д. Многообразие названий связано с тем, что каждая поисковая система создаёт свою собственную, неповторимую систему и даёт ей своё имя, впоследствии ставшее нарицательным. Если при чтении WEB-страниц поисковый робот находит на ней ссылки на другие страницы того же WEB-узла он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отдалённые закоулки WWW.

Второй этап работы поисковой системы - индексация. Собрать на центральном сервере образы сотен миллионов WEB-страниц - это одно дело, а вот выбрать из них те, которые нужны клиенту, сформировавшему запрос - совсем другое. Процесс преобразования данных из той формы, в которой они хранятся на WEB-страницах, в другие формы, удобные для быстрого просмотра называется индексацией. В результате индексации и образуется база данных, которую называют поисковым индексом.

У каждой поисковой системы свои способы индексации. Например, перед индексацией документ очищается от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Резервируются также очень распространённые слова, такие как computer, Internet и т.п. На этапе подготовки может происходить нормализация слов за счёт отбрасывания суффиксов и окончаний. Нормализацию проводят не все системы. Например, система Alta Vista не производит нормализацию никогда, и эта её уникальная особенность используется для контекстного поиска.

На основе подготовленных документов создаётся индекс - особая база данных, созданная, чтобы ускорит поиск. Суть метода индексации - это коммерческая тайна поисковой службы.

Третий этап - ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы и немедленно возвращают список ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом: система анализирует ключевые слова, которые клиент использовал в запросе, производит такую же операцию освобождения от зарезервированных слов и нормализацию, после чего выполняет поиск совпадений с содержимым поисковых индексов. По найденным совпадениям формируется итоговый список ссылок. У каждой поисковой системы своя политика формирования результирующего списка. Здесь важно, какие ссылки дать в начале списка, а какие - в конце, то есть, надо выводить какой-то рейтинг. Рейтинг может определяться, например, по таким показателям:

если разыскиваемы слова встречаются неоднократно (но не слишком часто, и не подряд);

если они расположены близко к началу страницы;

если эти слова присутствуют в заголовке страницы;

и т.д.

Второй способ поиска информации в Сети - с помощью Поисковых тематических каталогов, которые с самого начала не ставят перед собой задачу 100% - го охвата. В каталогах вся информация рассортирована по темам, причём это информация, обработанная человеком. Это означает, что по каждому ресурсу Сети (страница, документ, сайт, сервер) составляется краткая справка: содержание, ссылка на другие ресурсы, автор, фирма и т.д. Ценность информации в каталогах значительно выше, чем в автоматических индексах, но её гораздо меньше. Многие каталоги не бесплатны, особенно содержащие коммерческую информацию.

Поисковые каталоги похожи на предметные каталоги библиотек. На начальной странице мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, затем подкатегорию и т.д., пока не получим список рекомендуемых ресурсов. Крупнейшим поисковым каталогом мира на сегодня считается поисковая система YAHOO! Она предоставляет примерно 1 млн ссылок к ресурсам WWW. На YAHOO! Работает 150 редакторов, ежедневно просматривающих ресурсы Сети в поисках наиболее ценных ресурсов. Кроме того, служба использует и информацию, поставляемую WEB-мастерами, но только после тщательной проверки. Скрупулёзность в подборе информации обеспечивает высокую репутацию службы, несмотря на то, что совокупный ресурс её доходов крайне мал.

Гибридные системы В гибридных системах поиска можно воспользоваться как индексной базой данных, так структурированными тематическими каталогами. Примером могут служить системы: Lycos (http://www.lycos.com); Excite (http://www.excite.com); WebCrawler (http://www.webcrawler) .

Дата добавления: 2020-01-07; просмотров: 182; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 15 16 17 18 192021 22 23 24 Следующая ⇒

Мы поможем в написании ваших работ!