Гипотеза: Как Яндекс детектит поведенческих ботов в 2023 году

Это фундаментальный вопрос понимания всей науки “Накрутки ПФ”. Без представления базовых вещей: как Яша ранжирует свой поиск, что за система антифрод поиска, и как эта система определяет ботоводность трафика (главный на сегодня вопрос), лезть в накрутку это только поверхностно обучать алгоритмы.

На этих знаниях строится вся логика накрутки, есть хотя бы минимальное понимание, как можно манипулировать алгоритмом ранжирования ПФ.

В чем глобальный смысл данной статьи?

Общаясь со многими вебмастерами пришел к неоднозначному выводу: все хорошо разбираются в инструментариях накрутки, но мало кто понимает как работает антифрод, как поисковик обнаруживает ботов в 2023 году. Парадокс!

Т.е. многие работают по чужим шаблонам (возможно давно старым) без постоянной аналитики работы алгоритмов. У Яндекса нет выхода, ему в любом случае нужно разрабатывать новые ходы по фильтрации ботов в поиске. Но, когда вебмастера не вникают в фундаментальный процесс, чему они противостоят, Яндекс как истовая капиталистическая машина это использует, минуя собственное развитие (поиска).

Как Яндекс использует “знания” накрутчиков ПФ?

Все просто: Яндекс не зря разделяет системы антифрода в поиске (серче), директе и метрике. Очень важно при расчетах итоговой статистики разделять источники трафика и отдельно их анализировать для обучения своих алгоритмов. Следовательно, на генеренного тоннами ботоводного трафика Яша использует для своей статистики успешности использования своего главного сервиса-кормильца – Я.Директ. Интерпретируя данные трафика с Метрики, Яша использует этот “трафик” в своей отчетной статистики, благодаря которой смело объявляет, что они по объему доли присутствия в поисковом и рекламном сегменте до сих пор опережают Google.

Данные с Я.Радара, а конкретно аккумулированные данные со счетчиков Метрики.

Спасибо всем, кто “потел” и создавал миллиардную армию новых “пользователей” – ваш Яндекс.

Другими словами, Яндекс использует патовое положение немеренным наплывом ботов в свое собственное коммерческое благо, чтобы своим акционерам демонстрировать только сверх достижения и способность “влиять” в поисковой среде российского рынка.

А теперь вернемся к вопросу этого блока: какой смысл будет этой статьи?

Наше массовое непонимание работы и обновления алгоритмов ПФ приводит к деградации развития российского поиска. Неспособность грамотно анализировать нововведения, Яндекс это будет использовать в своих коммерческих целях, вместо того, чтобы концентрировать все своих “мозги” на решения реальных проблем с поиском.

А теперь переверните ситуацию, представьте, что большинство вебмастеров корректно изучают все новые “костыли” Яндекса в работе антифрода поиска (и не только поиска) и разрабатывают уникальные тактики, и делают на постоянной основе, опережая все обновления Яши. В этом случае у Яши не будет другого выбора, как начать полномасштабно инвестировать в уровень развития в собственного поиска. Наконец, заново организовать свой поисковый департамент. Работать на технологию, а не на заработок государству. Кто помнит Сегаловича и Воложа в нулевые и десятые года, какие были амбиции и цели у поисковика? А сейчас что…

Возможно, мои читатели, посчитают меня идеалистом. Но это единственный путь, хотя бы начать просвещать многих людей, кто связан с SEO и ПФ, чтобы подтолкнуть текущий менеджмент Я.Поиска хотя бы посмотреть в сторону анализа проблемы большой дыры в своих алгоритмах. Как бы я не ругал отечественный поиск, Яндекс для меня остается родным что ли, простите за сентиментальность.

Антифрод поиска: технология Крипта

Ранее в своих статьях я давал краткую справку по работе антифрода поиска. Теперь пришла пора детальнее показать всю работу анализа профилей со стороны алгоритмов.

Сведем воедино работу уровневых итераций обработок трафика и технологию Крипта

Подробно разберем работу Крипты.

Сразу сообщу, что первоначально (до апреля 2023) данный алгоритм был разработан для того, чтобы интерпретировать данные трафика из Метрики и на основе этого обучать свои рекламные алгоритмы.

Система специально устроена так, что Крипта не получает напрямую идентифицирующую людей информацию и тем более не передаёт её рекламодателям (слабо верится в это) Каждый пользователь для неё — это набор идентификаторов. Крипта может с высокой вероятностью предположить, что пользователю с таким-то идентификатором может быть интересно такое-то предложение, — но кто этот человек, как его зовут и тому подобное, она не знает.

Справка/описание системы

Теперь простыми словами: существует первоначальная группировка поведения, классификация поведения. Крипта изучает все сетевые действия пользователя начиная от анализа кукис, точечного поведение на сервисах Яндекса, кликовое поведение в серче, и заканчивая сопоставлением с данными метрики. В итоге получается многопрофильный набор идентификаторов пользователя, которые собирают конкретные данные по 300 факторам (время суток посещения, какие сайты, сколько сайтов и кликов за сессию и тп.) После сбора данной информации по собранным факторам пользователю присваивается определенный сегмент интересов.

Конечно, есть этапы смены/добавления интересов, поскольку перерасчет факторов происходит ежедневно. Смена интересов это естественная модель поведения пользователя в большинстве случаев. Сегодня ты автолюбитель, завтра ты купил квартиру, построил дом, начал заниматься бизнесом. Т.е. ключевой сегмент интересов пользователя имеет постоянное движение/смена.

Гипотеза детекта профилей

Учитывая всю эту историю с идентификаторами профилей не сложно предположить, что Яндекс пошел по пути полного внедрения Крипты в систему поискового антифрода. Теперь это генеральное направление по детекту ботоводного трафика. Ранее Яндекс цеплялся за аналитику “чистоты” прокси и браузерными фингерпринтами + Canvas (это тоже важно, но уже вторично).

За два последних года вебмастера накрутчики обучили Крипту своими шаблонными “системами” прогрева, что весной 2023 Яндекс полностью смог обновить/внедрить новую технологию детекта ботов в антифрод поиска – Крипта поиска (название неофициальное)

Гипотеза: Нынешня система детекта выглядит следующим образом

Этап 1 – Первое знакомство с профилем

Анализ полученных кукис профиля – сбор информации по поведению/кликов, история поиска – назначения идентификаторов – назначения сегментов интересов – возможная “склейка” профилей по идентификаторам – анализ истории смены сегмента интересов – сопоставления исторических данных с метрики и серча (как формулируются запросы, сколько запросов, время суток посещения, количество сайтов за сессию).

Уже на этом этапе Крипта способна с большой вероятностью в оценочном диапазоне определить ботоводный трафик. И далее, этот трафик будет учитываться, но уже в формате внутреннего обучения своего алгоритма. Другими словами, вы за свои ресурсы обучаете Крипту, не более.

Этап 2 – Анализ сетевого поведения профиля

Назначения генерального сегмента интереса – сопоставление данных исторических данных по поведению/кликов – анализ IP – анализ фингерпринтов – диапазонная оценка профиля

Вывод

Кратко, без афоризмов.

  1. Прогревать по списку сайтов ДИ уже недостаточно
  2. Требуется полноценный анализ ДИ (сегмент интересов) + аффинити-индекс (генеральный сегмент интереса) по отрасли/нише (исторических данных)
  3. Нужно понимание примерного поведения пользователя в нише (как формулируются запросы, сколько запросов, время суток посещения, количество сайтов за сессию)
  4. Внедрение процесса естественной смены сегмента интереса у профиля.
  5. Два уровня сегментов интересов у профиля: Общие сегменты и Нишевый сегмент