Поисковый антиспам Яндекс

19 сентября 2014 года

Практически любой человек ежедневно пользуется той или иной поисковой системой. Каждый день более 50 миллионов человек обращаются к поисковой системе Яндекс, переходя с поиска на различные страницы. Владелец любого сайта заинтересован в увеличении количества посещений, и появлении своего сайта в верхних результатах поиска. К сожалению, для этого иногда используют нечестные методы, одним из которых является так называемый поисковый спам.

Виды поискового спама. Дорвеи

Поисковый спам включает в себя различного рода веб-страниы и их элементы, созданные специально для обмана поисковых систем. Как же происходит этот обман? Рассмотрим простой пример. На сайте размещается невидимый или мелкий текст, содержащий популярные запросы, в результате чего сайт появляется в результатах поиска все чаще. Рассмотренный пример можно отнести к текстовому спаму.

Распространенным видом поискового спама являются и так называемые дорвеи, получившие свое название от английского слова doorway, что в переводе означает «вход, дверной проем». Дорвеи – это промежуточные страницы, целенаправленно созданные мошенниками для перевода пользователей поисковой системы на нужный им сайт, который они хотят нечестно продвинуть.

Все достаточно просто. Нечестные владельцы сайтов создают промежуточные страницы, которые называют и наполняют ключевыми словами. Например, мошенники создают промежуточную страницу с названием и наполнением «купить стиральную машину в Москве». Далее пользователь, желающий приобрести стиральную машину, вводит свой запрос в поисковую систему и ему выдаются результаты поиска, включающие и эту промежуточную страничку. После перехода по ссылке пользователя автоматически переводят на совершенно ненужный ему сайт, либо просят нажать «вход/войти», после чего происходит перенаправление на ненужный ресурс.

Зачастую спамеры используют дорвеи для заражения компьютеров юзеров и получения их личных данных, например, паролей.

Каждый день Яндекс выслеживает и удаляет множество дорвеев.

Поисковый антиспам

Описанный выше спам мешает не только пользователям, которые переходят по множеству бесполезных ссылок, порой рискуя собственной безопасностью, но и самой поисковой системе, которой приходится хранить огромный массив лишней информации.
Яндекс постоянно совершенствует свою систему антиспама, проверяя все сайты, которые он индексирует. Проиндексированные страницы перепроверяются на наличие спама. Если такие страницы все же обнаруживаются, то они согласно Лицензии на пользование поисковой системой Яндекса могут быть понижены в рейтинге или же вовсе исключены из поиска.

Как работает поисковый антиспам?

Система антиспама работает и постоянно обновляется благодаря технологии машинного обучения Матрикснет.

На первом этапе специалисты–асессоры анализируют, насколько результаты поиска соответствуют запросу, находя среди них спам. Далее выявляются признаки, по которым спам был найден – например, процент содержания определенного слова или сочетания слов.

После этого для каждого из видов спама происходит обучающая выборка. На обучающей выборке машина учится распознавать спам и отделять его от «хороших» веб-страниц. Конечно, обучающая выборка происходи сразу на множестве признаков, поскольку один признак не может являться основание для исключения из поиска.

Служба поддержки

Может ли «хорошая» веб-страница оказаться в спаме? К сожалению, да. Если алгоритм действительно ошибся, владельцу сайта необходимо обратиться в службу поддержки, после сего сайт снова появится в результатах поиска. Такие ситуации случайного попадания доброкачественных сайтов в спам тщательно анализируются для дальнейшего усовершенствования системы антиспама.