Текстовый анализ - теория и практика

Инновации
в текстовой оптимизации
Рассказывает Алексей Чекушин.
Kokoc.com / Just-Magic.org

Зоны документа
Title
Plain-текст
Текстовые
фрагменты
<a> - внутренние
Анкор-лист
Анкор-лист – «резиновый»

Как строилась оптимизация до 2014?
• Внимание на <title> и plain-текст.
• Делаем минимальный набор вхождений
Параметры вхождений ограничены «тошнотой»
• В анкор-файл загоняем все возможные вхождения

Отключение ссылочного - 2014
* По большинству коммерческих
гео-зависимых запросов в Москве.
Title
Plain-текст
Текстовые
фрагменты
<a> - внутренние

Что поменялось на практике?
• Исчезла «резиновая» зона «анкор-лист».
• Вхождения, которые были анкор-листе, теперь нужно
компенсировать остальными зонами.
• Структурирование сайта и текстовый анализ стали критически
важными для продвижения.

Особенности ранжирования Яндекса
Большое количество различных текстовых факторов.
Применение машинного обучения.
Больше – не значит лучше.
Мерять нужно все, а не только «тошноту»

Особенности ранжирования Яндекса
Большое количество запросных модификаторов формулы.
Свои правила под каждый запрос/групу запросов.
Необходима предварительная группировка.
Анализ выполнять не по запросу, а для всей группы.

Выводы
• Подсчет отдельных метрик (tf-idf, bm25, и.т.п.) сам по себе смысла
не имеет.
• Подсчет единой «формулы релевантности» также лишен смысла.
• Необходимо анализировать все в совокупности.

И что делать?
• Машинное обучение на топах по большой совокупности факторов
или
• Поиск закономерностей в топе на основе вхождений

Варианты анализа топа.
• Ручной разбор топов «на глазок».
Most popular!
• Полноценный разбор топов руками, автоматизация в excel.
• Полностью автоматический разбор специальными сервисами.

Основные проблемы анализа.
• Определение возможных типов вхождений.
Прямые, обратные, частичные, с пропусками, …
• Определение «окна допустимых значений».
Мало данных, большой шум.
• Совмещение «окон» по нескольким запросам.

Недостатки классического разбора
• Смотрят на одну зону документа, а не на весь документ в
совокупности. (Как правило – на plain-текст).
• Часто пропускают не находящийся по ctrl+f текст.
• Учитывают минимум вариций вхождений и словоформ.
• Человек не может держать в уме несколько документов.

Руками или автоматом?
• Руками разбирать очень долго
На одну продвигаемую страницу уходит ~2 часа
• Высока вероятность ошибки при ручном разборе.
• При ручном разборе проще отобрать только подходящие
документы.

Немного математики
Расчет дисперсии и доверительного интервала на основе предположения
о нормальном распределении некорректен и дает кривые результаты.
Лучше всего работает– межквантильное расстояние при переменных
(зависящих от результата по запросу) значениях квантилей.
Совмещение окон допустимых значений – задача со многими решениями,
необходимо использовать метрику оптимальности результирующего окна
(например – минимизация интегральной величины конфликтов).

Ограничения метода.
• Необходима предварительная кластеризация по топам.
И только по правильным алгоритмам.
• Структура сайта
Сайт под семантику, а не семантика под сайт.
• Ctrl+c – Ctrl+v не пройдет
Все равно придется думать.

А что на практике?
Запрос «купить ноутбук»

«Диван аккордеон» и «купить диван аккордеон»

Остекление коттеджей

Попробовать самому!
Текстовый анализатор на Just-Magic.org
+ Анализ всех зон документа.
+ Одновременно по нескольким запросам.
+ Полная информация для оптимизации.
Платно, с регистрацией, без sms: Just-Magic.org

Финальный слайд с котенком
Ваши вопросы
Алексей Чекушин. Just-Magic.org

Текстовый анализ - теория и практика

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Текстовый анализ - теория и практика

Similar to Текстовый анализ - теория и практика (20)

More from Alexey Chekushin

More from Alexey Chekushin (8)

Текстовый анализ - теория и практика