Главный специалист «Яндекса» о ранжировании

18 июня 2013 года

Только что прочитал статью на Lenta.ru и хотел бы поделиться с вами некоторыми абзацами из нее.

Вообще говоря, при наличии этих данных можно тестировать самые разные модели поведения пользователя. Например, не очень показательно, если на сайт просто часто переходят по данному запросу — это может говорить о том, что на этом сайте текст (который видит пользователь в поисковой выдаче) и заголовок удачно составлен. Другое дело, как дальше пользователь взаимодействует с этим сайтом и поисковой выдачей — по этим вещам уже можно судить, нашел ли он там то, что искал.

А вы можете отследить, нашел я то, что мне нужно, или просто закрыл сайт?

Это сама по себе нетривиальная задача, и, кроме того, оценка успешности ее решения всегда очень субъективна. У нас есть некоторые модели, которые пытаются на основании графа переходов пользователя понять, нашел ли он то, что ему нужно.

Информацию о переходах вы как получаете?

От браузеров прежде всего. В общем, нам нравится, как работают наши модели предсказания, но точно узнать, нашел ли пользователь то, что ему нужно, совсем не просто.

Какие из последних поправок в формулу вы можете привести в пример?

Самые последние я, к сожалению, не могу назвать, потому что мы их еще не анонсировали. Но вот из недавних, например: мы научились для запросов класса «смотреть онлайн» оценивать вероятность того, что пользователь действительно что-то посмотрел на данной странице. Для видеохостингов — узнавать, сколько процентов данного ролика просмотрел пользователь, прежде чем закрыть вкладку. Понятно ведь, что если ролик не стали смотреть, значит он не очень соответствовал ожиданиям.

Асессоры оценивают странички выдачи поисковой машины или отдельные URL?

Ни то, ни другое — они оценивают пары запрос-URL, причем в запросе подшита информация о географии пользователя, и эта информация учитывается в оценке. Потому что, условно, релевантный для Екатеринбурга сайт по запросу «ресторан суши» будет нерелевантным для Новосибирска, и наоборот.

Чтобы измерить качество поиска, мы пропускаем случайную выборку запросов через асессоров, которые оценивают пары запрос-URL, выставляя им оценки: «витальный», «важный», «релевантный» или «нерелевантный». Каждой из оценок соответствует некая вероятность того, что человек найдет на этом сайте то, что ему нужно.

То есть факторы ранжирования, которые вы находите, имеют весьма ограниченный срок годности?

Конечно. Например, существуют поисковые оптимизаторы, люди, которые пытаются обмануть поисковую машину и поднять определенный URL в выдаче. У нас есть целый отдел для борьбы с таким явлением. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла.

Но главное — что мир меняется, потребности людей сильно меняются. Хорошее ранжирование по сложной формуле образца 2013 года будет плохим для пользователя образца 2005 года. Достаточно сравнить то, как в последние годы поменялись запросы вроде «приложения для телефона». Пользователи меняются, им нужно разное, поэтому и ранжирование будет разным.