Станислав Поломарь: «Многорукие бандиты Яндекса»
20 декабря 2015 — 18:49
Взгляд со стороны поиска
Значимую роль в современном ранжировании играют поведенческие факторы. В том числе, факторы, связанные с переходами из выдачи по конкретному запросу. Но в таком случае, огромное количество сайтов оказывается без каких-либо значений соответствующих факторов. Дело в том, что основная часть кликов приходит на первые результаты выдачи, как можно видеть на графике ниже, где представлено распределение CTR vs Позиция по большой выборке коммерческих запросов по региону Москва.
Таким образом, если рассматривать именно эти метрики, то происходит постепенная «консервация» первых мест выдачи.
Возможно, в том числе по этим причинам, сотрудники Яндекса последние 2-3 года проводят активные исследования в области онлайн-экспериментов в выдаче. Так, на https://research.yandex.ru можно найти более 20 публикаций, которые так или иначе связаны с этим вопросом, более 10 из которых относятся к этому году.
Первое, что приходит в голову в ходе решения задачи по получению значений для этих метрик и для большего числа сайтов – это ротация выдачи.
Вот, что пишет на этот счет Яндекс: «Поэтому имеет смысл периодически показывать в области видимости документы, по которым пользовательской информации недостаточно для принятия решения о полезности документа; при этом априорная релевантность такого документа может оказаться не самой высокой».
Понятно, что эта ротация не должна приводить к ухудшению качества выдачи, т.е. Яндекс должен уметь:
- хорошо предсказывать, какие документы стоит «подкинуть»;
- быстро определять, как то или иное изменение выдачи влияет на ее качество.
В статье «Gathering Additional Feedback on Search Results by Multi-Armed Bandits with Respect to Production Ranking», которую рекомендует к ознакомлению Яндекс, рассматривается подход к подобному «подмешиванию». Вот как оценивается алгоритм в публикации: «Finally, we applied the whole scheme to several SMAB algorithms and experimentally demonstrated that it enables to notably increase the performance of a major search system in terms of NDCG measure averaged over a 10 day period».
Не так давно Яндекс представил доклад «Практика детерминированного хаоса», в котором подробней рассказал про механизм ротации выдачи. Добавочную релевантность они назвали «Exploration feature». Известно про нее следующее:
То есть, ожидаемо выбираются документы, которые могут быть полезными. Ниже представлена детализация расчета:
Очевидно, что чем выше вероятность, то тем сильнее амплитуда колебания документа. Для того чтобы не было хостовых перекосов вводится рандом по хосту.
По словам представителей Яндекса, качество выдачи растет, хотя из приведенного ниже графика сильного роста не было видно.
Изменения выдачи при этом – существенны:
Таким образом, сомнений о наличии, так называемых, «бандитных» результатов в выдаче не остается.
Анализируем «бандита»
Для определения «бандитных» результатов в выдаче, мы исходим из двух предпосылок:
- Результаты в выдаче упорядочены по релевантности.
- В случае невыполнения пункта выше мы имеем дело с группой документов, которые целенаправленно повышены или понижены.
Собственно, среди документов из последнего пункта мы и ожидаем найти нужные нам результаты (бандита). Наиболее типичным примером, заниженных документов до недавнего времени был пост-штраф за переоптимизацию.
Эту задачу с определенной долей погрешности решает сравнение по хостам или документам. Примеры обоих запросов представлены ниже.
В целом большой разницы, что использовать, здесь нет. Однако стоит отметить следующий момент: при различных пост-штрафах мы часто видим в выдаче другой документ хоста. В случае сравнения вида «site | site» подобная проблема решается за счет сравнения по всем документам с хоста.
Проанализируем несколько запросов за сентябрь-ноябрь. Для этого отберем несколько сайтов в тематике и сравним их со всеми документами из ТОП-100.
В таблице, представленной ниже:
- синим отмечены продвигаемые документы;
- белым отмечены документы, которые «должны быть выше» синих;
- желтым отмечены документы, которые «должны быть ниже» синих.
Тo есть, для нас представляют интерес «желтые» документы, которые расположены выше «синих», либо «белые», которые, наоборот, – ниже.
Картина по 4-м сайтам по одному ВК-ВЧ запросу.
Явно видны «подкинутые» документы. Особенно хорошо это заметно на примере сайта №4, которого на второй апдейт полюбил «бандит».
Срез по другому СК-СЧ запросу за те же апдейты сентябрь-ноябрь:
Справа представлена та же картинка уже с точностью до отдельных документов.
Интересно наблюдать за различными сценариями дальнейшей судьбы подкинутых документов:
- после пересчета могут быстро закрепиться в топе;
- постепенно сползают;
- достаточно сильно проваливаются, как не оправдавшие надежд.
Также хорошо видно, что по этим запросам «бандит» стал гораздо менее активен в ноябре.
Для того чтобы немного ближе познакомиться с теми, кого подкидывает, рассмотрим несколько обнаруженных нами документов. К примеру, http://www.me-group.ru/
Или проанализируем позиции http://gibka-lazer.ru/
Стоит отметить, что последний сайт находится высоко уже не за счет «бандита». В отличие от 1-го примера, он сумел воспользоваться шансом.
Статистика по «бандиту» на продвигаемых проектах
В предыдущей части статьи был представлен точеный разбор отдельных запросов. Однако не менее интересно посмотреть статистику на какой-то значительной выборке из сотен сайтов и тысяч запросов.
Подобное сравнение представлено в таблице.
Для наглядности в таблице отобраны запросы с большой амплитудой: то есть, по которым «отработал бандит». Посмотрим, как сильно изменяются позиции:
Как видно, сайты «улетают» сильнее, чем «подкидываются». Это понятно, ведь в отслеживаемой выборке большая часть запросов уже занимала хорошие позиции и «подкидывать» их больше некуда.
В раскладке по Wordstat можно увидеть, что затрагивает все запросы – от НЧ до ВЧ.
Интересно проанализировать силу «шторма» на выборке из хостов, чтобы понять насколько сильно в рамках всего хоста влияет бандит. Для этого посмотрим долю запросов в зависимости от амплитуды колебаний. В статье представлена выборка из 30-ти сайтов.
Видно, что лишь небольшую часть сайтов «сильно штормит» по значительной доле отслеживаемых запросов, а на части сайтов «бандита» нет и вовсе.
Таким образом, чем шире продвигаемая семантика, тем в среднем устойчивее будет себя чувствовать проект. Хотя, конечно, возможны перекосы из-за отдельных высокочастотных запросов.
Далее приведём несколько примеров в разрезе 3-х разных сайтов. Первая колонка это позиции в выдаче, а вторая колонка это позиция полученная сравнением с сайтами из ТОП-100. Запросы с большой вероятностью подкинутые бандитом, отмечены жирным.
В этом примере интересно, что ряд страниц подкидывается практически по всей отслеживаемой семантике.
На скриншотах ниже мы же видим, что это скорее исключение из правил:
Подводя итог всему изложенному ранее, можно выделить следующие особенности «бандита»:
- октябрь-ноябрь уменьшалось количество подмесов;
- бандит снова запущен с конца ноября/начала декабря;
- основным окном для «подброса» является ТОП30;
- алгоритм работает позапросно;
- хватает как НЧ, так и СЧ или ВЧ;
- в рамках документа, как правило, работает однонаправлено;
- есть документы, которые подкидываются почти по всей семантике;
- со временем добавочная релевантность пересчитывается в реальную;
- пересчет происходит в течение нескольких апдейтов;
- мало/нет активности в регионах и по информационных запросам.
Следует отметить, что выше представлен детальный разбор бандита на уровне запросов и отдельных сайтов. В рамках совместного доклада с Михаилом Сливинским, который прозвучал на конференции Optimization-2015, был представлен анализ изменений выдачи за аналогичный период по значительной выборке сайтов, а также анализ схожих по поведению кластеров.
Как же продвигать сайт в новых реалиях?
Чтобы ответить на этот вопрос, рассмотрим несколько примеров из практики.
Проект в тематике «полиграфия» активно «бандитился» в августе 2015. За счет продвижения по таргетированному трафику (в Webit – это «целевые клики») в целом не было больших провалов по трафику. На графике ниже удобнее всего сравнивать пики/падения трафика Яндекса относительно Google:
Проект «оседлал» волну и за счет «бандита» хорошо вырос:
Проект в тематике «дома», который также продвигали по целевым кликам, продемонстрировал следующую динамику.
Он был «подкинут» в начале августа. Далее получилось укрепить данный тренд.
Для сравнения, представим динамику проекта в той же тематике при продвижении по позициям:
В этом примере – налицо гораздо более ощутимые потери в трафике в недели, когда «бандит» был «неблагосклонен» к сайту, а также отсутствие особого позитивного тренда.
Рассмотрев особенности поведения этого алгоритма Яндекса и обобщив текущие практические наработки, можно рекомендовать следующий подход к продвижению:
- Продвигать как можно более широкую семантику. Проект не проседает целиком за счет «бандита».
- Ориентироваться на все поисковые машины. Уходить от позиций к трафику (как минимум).
- Не стоит рассчитывать на существенный вклад ссылочных факторов.
- При встрече с бандитом важно иметь наилучшие поведенческие и CTR.
- Фокусироваться на: техническом SEO; внутренней оптимизации; улучшении запросных и иных поведенческих факторов; аналитике.
Совместная презентация доклада Стаса Поломаря и Михаила Сливинского, по материалам которой была подготовлена данная статья, доступна здесь.
Hosting
06.10.16 7:43
Летом 2015 года крупнейшая поисковая система рунета «Яндекс» обкатывала новый алгоритм ранжирования. Владельцы сайтов заметили это по резким изменениям позиций в выдаче. Позднее алгоритм назвали многоруким бандитом. Откуда у поискового алгоритма ковбойско-криминальное название? И что должны знать о многоруком бандите «Яндекса» владельцы сайтов и маркетологи?