Новый алгоритм Яндекса: «Палех»

Яндекс не стоит на месте и постоянно развивается о чем и сообщает в своем блоге. Последней новостью было введение нового алгоритма под название «Палех» который позволяет ему точнее понимать о чем спрашивают люди. Алгоритм создан на основе нейронных сетей, давайте попробуем разобраться что это такое.

Некоторые популярные запросы пользователи вводят в поисковых системах каждую секунду, но есть и такие запросы которые могут быть заданы только один раз. Причем редких вопросов от пользователей чрезвычайно много. Вообще все запросы можно рассмотреть схематично и Яндекс изобразил их в виде птицы, которая имеет:

  • клюв (этих запросов немного, но они высокочастотные),
  • туловище (среднечастотные запросы) и
  • хвост (это как раз те редкие и уникальные вопросы).

Вопросы из длинного хвоста можно также разделить на несколько групп. Среди них, например

  • Запросы от детей, которые только учатся работе за компьютером и порой задают смешные вопросы.
  • Запросы о названии книги или фильма.

Если запросы редкие, то поисковым алгоритмам трудно определить какой сайт имеет подробный ответ на вопрос пользователя (ввиду отсутствия статистики по запросам). В этом случае приходят на помощь нейронные сети.

Использование нейросетей — это способ машинного обучения. Он позволяет распознавать, например, что изображено на картинке или какие ответы содержаться в тексте. Алгоритм анализирует запрос и заголовок страницы и выдает наиболее релевантный результат.

Но на этом Яндекс останавливается не собирается и от анализа запрос заголовок хочет прийти к анализу полного текста на странице. В будущем это позволит Яндексу понимать что находится на странице, примерно так как это делает человек.