Поисковые системы. Описание. Примеры.



Министерство образования и науки РФ

ФГБОУ ВПО

Волгоградский государственный технический университет

Факультет подготовки инженерных кадров

 

 

Контрольная работа по дисциплине

«Лингвистическое и программное обеспечение систем»

 

 

Выполнил:

студент гр. АУЗ 361с

Яковенко Е.В.

№ зачетки 20132413

Проверил:

доцент Розалиев В. Л.

 

Волгоград 2016 г.

Содержание  

 

1. Семантические сети. Описание. Применение для систем анализа текста. Примеры……3

2. Поисковые системы. Описание. Примеры………………………………………………….6

3. Системы анализа речи. Системы. Описание процесса…………………………………….9

4. Системы анализа текста. Системы. Описание процесса………………………………….16

Список использованной литературы ………………………………………………………25

 

Семантические сети. Описание. Применение для систем анализа текста. Примеры.

Семантическая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний.

Понятие семантической сети было впервые введено М. Куиллианом в конце 1960-х гг. и с тех пор активно используется в интеллектуальных системах. При большом разнообразии трактовок и определений суть этой модели остается неизменной — под семанти­ческой сетью понимается неоднородная сеть, т. е. сеть с различ­ными типами вершин и различными типами помеченных дуг.

В качестве вершин могут выступать состояния и ситуации предметной области (как статические, так и динамические), по­нятия (физические и абстрактные), в отдельных случаях — харак­теристики. Наибольший интерес и одновременную сложность представляет описание ситуаций (состояний окружающего мира).

В се­мантической сети выделяют, как правило, три типа основных вершин:

1) вершины-ситуации (состояния, процессы и др.), выража­емые предикатами;

2) вершины-понятия (абстрактные и физические);

3) вершины-характеристики (опционально).

В качестве основных отношений (дуг) между вершинами се­мантической сети используются следующие типы отношений :

1) теоретико-множественные отношения («элемент-множество», «часть-целое», «множество-подмножество» и др.);

2) логические отношения (И, ИЛИ, НЕ);

3) квантифицированные отношения (V, 3);

4) лингвистические отношения;

Наиболее часто для задания лингвистических отношений используются следующие глубинные падежи:

Агент– это то, что (тот, кто) вызывает действие. Агент часто является подлежащим в предложении. Например, «Иванов ударил мяч».

Объект– это то, на что (на кого) направлено действие. В предложении объект часто выполняет роль прямого дополнения. Например, «Робот взял пирамиду».

Инструмент – это средство, которое используется агентом для выполнения действия. Например, «Иванов открыл дверь с помощью ключа».

Соагент – служит как подчиненный партнер главному агенту. Например, «Иванов сдал экзамен с помощью Петрова». Пункт отправления и пункт назначения – это отправная и конечная позиция при перемещении агента или объекта. Например, «Робот переместился от одного станка к другому».

Траектория– это перемещение от пункта отправления к пункту назначения. Например, «Они прошли через дверь по ступенькам на лестницу». Средство доставки – то в чем или на чем происходит перемещение. Например, «Иванов всегда едет домой на машине».

Местоположение– то место, где произошло (происходит, будет происходить) действие. Например, «Он работал за столом».

Потребитель – то лицо, для которого выполняется действие. Например, «Иванов собрал шпаргалки для Кати».

Сырье – это, как правило, материал из которого что-то сделано или состоит. Обычно сырье вводится предлогом из. Например, «Иванов собрал робота из интегральных схем».

Время – указывает на момент совершения действия. Например, «Он закончил работу поздно вечером».

В ряде работ предлагается выделять простые семантические сети (если вершины не имеют собственной внут­ренней структуры) и иерархические сети (если вершины облада­ют некоторой структурой). Важным отличием иерархических се­мантических сетей является возможность разделения сети на подсети (подпространства) и установления отношений не толь­ко между вершинами, но и между подпространствами.

Таким образом, семантическая сеть является одним из способов представления знаний, наряду с толковыми словарями и учебниками. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа — набора вершин, соединённых дугами (рёбрами), которым присвоено некоторое число. В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними.

Выполнение семантического анализа осуществляет Система Понимания Текстов (СПТ). Термины семантический анализ и машинное понимание текста принимаются эквивалентными. При таком подходе процедуры «понимания» и «извлечения знаний» являются идентичными, а результат их выполнения формализуется в виде некоторой семантической структуры.

Лингвистический модуль объединяет этапы непосредственной обработки. На этих этапах происходит первичная формализация предложений входного текста. Каждый этап использует словари лингвистического обеспечения. На этапе графематического анализа выделяются текстовые единицы, такие как слова, предложения и абзацы.

Семантический модуль выполняет смысловую обработку текста, входные данные

представлены V – формулами, полученными лингвистическим модулем. Данный вид обработки называется интерпретацией, поскольку согласно заложенной в словарях семантического обеспечения моделью предметной области выполняется определение формального смысла отдельных формул V – языка. Эта процедура выполняется на этапе семантического анализа. На этапе межфразового семантического анализа производится объединение семантических представлений отдельных предложений в единую семантическую сеть, описывающую смысл всего текста.

Пример №1. семантическая сеть – Заяц.

 

Пример №2. Рассмотрим ситуацию для применения семантических сетей – телефон.

 

 

 

 

Поисковые системы. Описание. Примеры.

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации. Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. По запросу пользователя поисковая система генерирует страницу результатов поиска.

В архитектуру поисковой системы включены: поисковый робот, сканирующий сайты сети Интерет, индексатор, обеспечивающий быстрый поиск, и поисковик — графический интерфейс для работы пользователя.

Цель поисковой системы заключается в том, чтобы находить документы, содержащие либо ключевые слова, либо слова как-либо связанные с ключевыми словами.

 Как работают поисковые системы.

Обычно системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Полезность поисковой системы зависит от релевантности найденных ею страниц.

       Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN».

       Отчет о динамике изменения популярности поисковых систем в России представлен в таблице ниже:

Поисковые системы

май 15

июнь 15

июль 15

август 15

сентябрь 15

октябрь 15

ноябрь 15

декабрь 15 ↑

Яндекс 58,07 57,51 57,10 57,07 57,28 57,50 57,54 57,46
Google 34,31 34,76 35,06 35,09 35,11 35,04 35,07 35,27
Mail.ru 6,34 6,47 6,58 6,56 6,31 6,14 6,07 5,98
Bing 0,64 0,65 0,67 0,71 0,75 0,78 0,80 0,78
Рамблер 0,64 0,61 0,58 0,57 0,56 0,54 0,52 0,51

 

Поисковая система Google

Как работает Google Поиск. Если отправить в Google поисковый запрос, почти мгновенно появляются результаты, найденные по всему Интернету.

Сканирование – это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.

Используется огромная сеть компьютеров, чтобы просканировать содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.

Предоставление результатов. Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них – это рейтинг PageRank для конкретной страницы. PageRank является показателем "важности" страницы и определяется на основе входящих ссылок с других страниц. Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт. Поэтому в руководстве для веб-мастеров описывается ряд оптимальных методов, позволяющих избежать появления распространенных ошибок и повысить рейтинг сайта. Если сайт имеет высокий рейтинг в результатах поиска по ключевому слову, значит алгоритмы Google определили, что его содержание хорошо соответствует запросу.

 Поисковая система Яндекс

Яндекс ведёт параллельный поиск по разным массивам информации, и на странице результатов поиска могут появляться картинки, видео и карты, музыкальный плеер, ссылки на товары на Маркете и другие данные.

Поиск в интернете состоит из двух частей. Первая — поисковик обходит интернет, создавая его слепок на своих серверах. Вторая — пользователь задаёт запрос и получает ответ с серверов поисковика.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск

 


 


Дата добавления: 2018-02-15; просмотров: 535;