Формирование результатов поиска



Для заголовка результата поиска Яндекс чаще всего использует заголовок самого документа. Если он слишком длинный, Яндекс выбирает фрагмент, который больше всего подходит по смыслу к заданному запросу.

Бывает, что у документа нет заголовка или заголовок не соответствует содержанию. Например, названия файлов в формате doc или pdf часто короткие и малоинформативные. В таких случаях Яндекс создаёт заголовок самостоятельно, основываясь на текстах ссылок на документ, заголовках в самом тексте документа и его содержании.

Для формирования описания страницы, которое помещается в сниппете, программа выбирает все фрагменты текста документа со словами из запроса. Каждый из таких фрагментов разбивается ещё на несколько частей — например, со словами из запроса в начале, в конце и в середине. Затем программа сравнивает их все между собой и выбирает лучшие — они и попадают в сниппет.

При выборе программа учитывает несколько десятков факторов. Некоторые из них повышают шансы попадания фрагмента в сниппет, а некоторые — наоборот. Например, если слово содержится в длинном предложении, больше вероятность, что это часть повествования, а не навигационная ссылка. Это хороший фрагмент для сниппета. Также в сниппет скорее попадут фрагменты из разных частей текста — так можно полнее описать содержание страницы. А вот фрагмент, схожий с заголовком текста страницы, вряд ли попадёт в сниппет — чтобы не дублировать информацию.

Для каждого фактора компьютерная система рассчитывает коэффициент. С помощью машинного обучения система учится сама понимать значимость факторов, основываясь на данных от специалистов-асессоров (они просматривают некоторые наборы сниппетов, вручную разделяют их на хорошие и плохие и сообщают эти оценки системе). Затем компьютерная система уже без помощи людей строит формулу, по которой создает сниппеты.


Дата добавления: 2015-12-17; просмотров: 18; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!