Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

Алгоритмы аннотирования,
влияние на сниппеты
Станислав Поломарь
webit

План доклада
• Задача по управлению сниппетами
• Гипотезы для проверки
– Яндекс (Ромип) ‘2008
– Яндекс/Emory (SIGIR) ‘2013
– Итоговый список
• Результаты проверки на тестовой коллекции
• Результаты подтверждения на реальной коллекции
– Подсветки, синонимы
• Итоговые рекомендации
– Рекомендуемые приемы
– Итого
– Интересные примеры
• Данные по CTR
• Быстроботная примесь

Зачем и что требуется от управления?
• Трафик из выдачи = Показы * CTR
• CTR = F (позиции, кликабельность сниппета)
• Кликабельность сниппета:
– Читабельность
– Точность ответа
– Размер
– Заметность

Основные пути по управлению
• Использовать документированные возможности по
форматам от поисковых систем
• Конструировать и пытаться влиять на нужные
фрагменты
• Использовать недокументированные возможности
по форматам от поисковых систем
• Предоставить поисковым системам самим все
решать

Гипотезы для проверки
• Алгоритмы контекстно-зависимого
аннотирования Яндекса на РОМИП-2008
Опорная пара - два наименее частотных слова из пересечения слов
запроса и предложения.

• «Алгоритмы контекстно-зависимого
аннотирования Яндекса на РОМИП-2008»
– Полное вхождение
– Точное вхождение
– Близость к началу предложения
– В предложении есть слова с высоким IDF
– Размер фрагмента примерно 150 символов

• «Improving Search Result Summaries by Using
Searcher Behavior Data»
F (фрагмента) = K * F_пф + (1 – K) * F_текст

• По итогам:
– Полное вхождение
– Точное вхождение
– Близость к началу предложения
– Максимизация IDF на фрагмент и на слово из фрагмента
– Близость к началу содержания страницы
– Размер фрагмента примерно 150 символов
– Отсутствие избыточного кол-ва пунктуации / кол-во слов с
заглавной буквы
• А также:
– Вес тега meta description
– Влияние подсветок (топонимы, синонимы и остальное)

Тестовая коллекция
• Сравним полное/точное vs неполное
вхождение
– Тестовые фрагменты не обладают большинством
остальных признаков, кроме вхождения.
1. Ожидаемо везде выигрывает полное у неполного
(Яндекс)
2. В случае наличия в description полного, а в
документе неполного – берется description
(Яндекс)

• Сравним группу начало
предложения/документа vs IDF
– Тестовые фрагменты содержат точное вхождение
и, соответственно, набор из сравниваемых
признаков. Остальными признаками не обладают.
1. В почти 80% случаях выигрывает 1ая группа
(Яндекс)
2. Сравнение внутри первой группы требует
отдельной выборки

• Сравним начало документа vs начало
предложения
– Тестовые фрагменты содержат точное
вхождение и, соответственно, набор из
сравниваемых признаков. Остальными
признаками не обладают.
1. В 3/4 случаев выигрывает начало документа
2. В п.1 входили документы, где фрагмент
обладал обоими признаками

Реальная коллекция
• Измерим позицию начала сниппета
относительно кол-во слов в документе
– Выкидываем внутри BODY все теги, стили, скрипты
и пр. Меню и т.п. остается. Считаем размер общий
и позицию начала фрагмента из сниппета.
1. Средняя позиция начало - 49%. С учетом меню %
несколько ниже, но не сильно.
2. Метрика не учитывает возможности наличия
вхождений только в конце документа.
3. Метрика не учитывает другие сильные признаки,
которые рассмотрим далее.

• Размер сниппета (Яндекс)

• Сравним «вес» meta description для Яндекс
и Гугл
– Тестовые фрагменты предложение с точных
вхождением в тексте и аналогичное, но с 1
изменением в description .
1. Во всех случаях Яндекс выбрал текст, Гугл -
description.

• Яндекс - в 2% случаев взят description
– В большинстве из этих случаев нет полного
вхождения в текст
– Яндекс смело комбинирует description и текст в
сниппетах
• Гугл – в 60% случаев взят description

Рекомендации №1
• Яндекс
– Точное/полное вхождение
– Начало документа и предложения
– Размер фрагмента зависит от длины запросов (от
120-160 символов до 180-200)
– Про description можно не очень переживать
• Гугл
– Максимальное использование description
– «Раскрашиваем» вволю по спец символам
(http://saney.ru/tools/google-snippets-generator.html)

• Сравним наличие слов из подсветки vs без них
– Тестовые фрагменты содержат точное вхождение и
да/нет слова из подсветки. В ряде случае устроим
соревнование с началом документа.
1. В большинстве использовались самые частные
подсветки (топоним, купить, основной синоним и
т.п.).
2. Практически во всех случаях выиграли
фрагменты со словами из подсветки (причем
обыгрывая даже конкурентов из начала
документа)

• Наличие подсветки в документе vs сниппет
– В 90% пар запрос-документ есть хоть одна
подсветка в тексте (head не в счет)
– В 72% есть хоть одна подсветка в сниппете (без
заголовка)
1. В 80% случаев, когда слова из подсветки есть в
тексте, они есть и в аннотации (в рамках 1
варианта).
2. Яндекс однозначно любит слова из подсветки,
особенно топонимы и синонимы.

• Подсветки статистика

• Подсветки лидеры

• Синонимы и оператор nosyn
– Убирает подсветки
– Видимо отключает ранжирование

• Собираем подсветки с nosyn
– Порядка 30% подсветок приходится на синонимы

Полезные приемы
• Убрать описание ЯК, Дмоз
<meta name="robots" content="noyaca"/> и <meta name="robots"
content="noodp"/>
• Использовать спец символы
• Использовать Яндекс.Адреса для внутренних страниц

• Использовать Товары и цены / Товарные сниппеты
– Применять те же приемы
– Использовать для любых карточек/разделов
продукции**

• Товары и цены
– Фрагмент из description ранжируется с
повышенным весом**

Рекомендации Итого (Яндекс)
• Точное/полное вхождение
• В начале документа и предложения
• Размер фрагмента зависит от длины запросов (от 120-160 символов до
180-200)
• Использование слов из подсветки (в первую очередь топонимы и
синонимы)
• Отключить ЯК/Дмоз
• Description для подстраховки и Гугла
• Использовать все стандартные инструменты по расширениям и
микроразметке
• Подключить Товары и цены, где особое внимание уделить description
• Подключить Товарные сниппеты, подход к description тот же
• Использование спец символов (ко всем соответствующим пунктам)

Интересные примеры
• Склейка цены из Товарных сниппетов и текста
• Влияние синонима

• Делаем список в сниппете
• Зачем в заголовок брать title?

• Цветные сниппеты
• Нет подходящего фрагмента – возьму description

Быстроботная примесь
• Статья про свежесть и запуск быстроботной
примеси в 2011 году - Recency Ranking by
Diversification of Result Set
https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing
• Наблюдения:
– По факту на сейчас потребность свежести >0 для большинства запросов
– Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов
отдельный)
– Для ранжирования и аннотации во многом также как в большом поиске
– Документ из базы быстробота получает возможность появится в большой выдаче
только после набора определенного ранка
– Дата появления документа = дата 1ой индексации
– Дата в сохраненке = дата последнего захода ББ

Быстроботная примесь

ВОПРОСЫ?
• Поломарь Станислав
– stas@webit.ru / https://fb.com/stas.polomar
• webit
– Решает задачи бизнеса в Интернет на http://webit.ru

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

Similar to Алгоритмы аннотирования, влияние на сниппеты (IBC 14) (20)

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)