2. План доклада
• Задача по управлению сниппетами
• Гипотезы для проверки
– Яндекс (Ромип) ‘2008
– Яндекс/Emory (SIGIR) ‘2013
– Итоговый список
• Результаты проверки на тестовой коллекции
• Результаты подтверждения на реальной коллекции
– Подсветки, синонимы
• Итоговые рекомендации
– Рекомендуемые приемы
– Итого
– Интересные примеры
• Данные по CTR
• Быстроботная примесь
3. Зачем и что требуется от управления?
• Трафик из выдачи = Показы * CTR
• CTR = F (позиции, кликабельность сниппета)
• Кликабельность сниппета:
– Читабельность
– Точность ответа
– Размер
– Заметность
4. Основные пути по управлению
• Использовать документированные возможности по
форматам от поисковых систем
• Конструировать и пытаться влиять на нужные
фрагменты
• Использовать недокументированные возможности
по форматам от поисковых систем
• Предоставить поисковым системам самим все
решать
5. Гипотезы для проверки
• Алгоритмы контекстно-зависимого
аннотирования Яндекса на РОМИП-2008
Опорная пара - два наименее частотных слова из пересечения слов
запроса и предложения.
6. Гипотезы для проверки
• «Алгоритмы контекстно-зависимого
аннотирования Яндекса на РОМИП-2008»
– Полное вхождение
– Точное вхождение
– Близость к началу предложения
– В предложении есть слова с высоким IDF
– Размер фрагмента примерно 150 символов
7. Гипотезы для проверки
• «Improving Search Result Summaries by Using
Searcher Behavior Data»
F (фрагмента) = K * F_пф + (1 – K) * F_текст
9. Гипотезы для проверки
• По итогам:
– Полное вхождение
– Точное вхождение
– Близость к началу предложения
– Максимизация IDF на фрагмент и на слово из фрагмента
– Близость к началу содержания страницы
– Размер фрагмента примерно 150 символов
– Отсутствие избыточного кол-ва пунктуации / кол-во слов с
заглавной буквы
• А также:
– Вес тега meta description
– Влияние подсветок (топонимы, синонимы и остальное)
10. Тестовая коллекция
• Сравним полное/точное vs неполное
вхождение
– Тестовые фрагменты не обладают большинством
остальных признаков, кроме вхождения.
1. Ожидаемо везде выигрывает полное у неполного
(Яндекс)
2. В случае наличия в description полного, а в
документе неполного – берется description
(Яндекс)
11. Тестовая коллекция
• Сравним группу начало
предложения/документа vs IDF
– Тестовые фрагменты содержат точное вхождение
и, соответственно, набор из сравниваемых
признаков. Остальными признаками не обладают.
1. В почти 80% случаях выигрывает 1ая группа
(Яндекс)
2. Сравнение внутри первой группы требует
отдельной выборки
12. Тестовая коллекция
• Сравним начало документа vs начало
предложения
– Тестовые фрагменты содержат точное
вхождение и, соответственно, набор из
сравниваемых признаков. Остальными
признаками не обладают.
1. В 3/4 случаев выигрывает начало документа
2. В п.1 входили документы, где фрагмент
обладал обоими признаками
13. Реальная коллекция
• Измерим позицию начала сниппета
относительно кол-во слов в документе
– Выкидываем внутри BODY все теги, стили, скрипты
и пр. Меню и т.п. остается. Считаем размер общий
и позицию начала фрагмента из сниппета.
1. Средняя позиция начало - 49%. С учетом меню %
несколько ниже, но не сильно.
2. Метрика не учитывает возможности наличия
вхождений только в конце документа.
3. Метрика не учитывает другие сильные признаки,
которые рассмотрим далее.
17. Тестовая коллекция
• Сравним «вес» meta description для Яндекс
и Гугл
– Тестовые фрагменты предложение с точных
вхождением в тексте и аналогичное, но с 1
изменением в description .
1. Во всех случаях Яндекс выбрал текст, Гугл -
description.
18. Реальная коллекция
• Яндекс - в 2% случаев взят description
– В большинстве из этих случаев нет полного
вхождения в текст
– Яндекс смело комбинирует description и текст в
сниппетах
• Гугл – в 60% случаев взят description
19. Рекомендации №1
• Яндекс
– Точное/полное вхождение
– Начало документа и предложения
– Размер фрагмента зависит от длины запросов (от
120-160 символов до 180-200)
– Про description можно не очень переживать
• Гугл
– Максимальное использование description
– «Раскрашиваем» вволю по спец символам
(http://saney.ru/tools/google-snippets-generator.html)
20. Тестовая коллекция
• Сравним наличие слов из подсветки vs без них
– Тестовые фрагменты содержат точное вхождение и
да/нет слова из подсветки. В ряде случае устроим
соревнование с началом документа.
1. В большинстве использовались самые частные
подсветки (топоним, купить, основной синоним и
т.п.).
2. Практически во всех случаях выиграли
фрагменты со словами из подсветки (причем
обыгрывая даже конкурентов из начала
документа)
21. Реальная коллекция
• Наличие подсветки в документе vs сниппет
– В 90% пар запрос-документ есть хоть одна
подсветка в тексте (head не в счет)
– В 72% есть хоть одна подсветка в сниппете (без
заголовка)
1. В 80% случаев, когда слова из подсветки есть в
тексте, они есть и в аннотации (в рамках 1
варианта).
2. Яндекс однозначно любит слова из подсветки,
особенно топонимы и синонимы.
25. Реальная коллекция
• Собираем подсветки с nosyn
– Порядка 30% подсветок приходится на синонимы
26. Полезные приемы
• Убрать описание ЯК, Дмоз
<meta name="robots" content="noyaca"/> и <meta name="robots"
content="noodp"/>
• Использовать спец символы
• Использовать Яндекс.Адреса для внутренних страниц
27. Полезные приемы
• Использовать Товары и цены / Товарные сниппеты
– Применять те же приемы
– Использовать для любых карточек/разделов
продукции**
28. Полезные приемы
• Товары и цены
– Фрагмент из description ранжируется с
повышенным весом**
29. Рекомендации Итого (Яндекс)
• Точное/полное вхождение
• В начале документа и предложения
• Размер фрагмента зависит от длины запросов (от 120-160 символов до
180-200)
• Использование слов из подсветки (в первую очередь топонимы и
синонимы)
• Отключить ЯК/Дмоз
• Description для подстраховки и Гугла
• Использовать все стандартные инструменты по расширениям и
микроразметке
• Подключить Товары и цены, где особое внимание уделить description
• Подключить Товарные сниппеты, подход к description тот же
• Использование спец символов (ко всем соответствующим пунктам)
30. Интересные примеры
• Склейка цены из Товарных сниппетов и текста
• Влияние синонима
37. Быстроботная примесь
• Статья про свежесть и запуск быстроботной
примеси в 2011 году - Recency Ranking by
Diversification of Result Set
https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing
• Наблюдения:
– По факту на сейчас потребность свежести >0 для большинства запросов
– Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов
отдельный)
– Для ранжирования и аннотации во многом также как в большом поиске
– Документ из базы быстробота получает возможность появится в большой выдаче
только после набора определенного ранка
– Дата появления документа = дата 1ой индексации
– Дата в сохраненке = дата последнего захода ББ