2. Что будет рассмотрено?
- Основные фильтры и логика их применения.
- Методы распознавания спама/некачественных текстов поисковыми системами.
- Как распознать наложенные санкции поиска.
- Как избежать наложения санкций.
3. Основные фильтры
■ Доменный спам-фильтр от Яндекса.
■ АГС от Яндекса.
■ «Панда» от Гугла.
■ Фильтрация дублей.
■ Документные фильтры от обеих ПС.
4. Что такое некачественный текст?
■ Создан для накрутки текстовых факторов ранжирования.
■ Является сгенерированным
■ Или просто «некачественным»
■ Содержит
5. Методы выделения спама
«Статистические»
Вычисление метрик текста и сравнение их с неким «эталоном»
«Лингвистические»
Разбор текста согласно законам языка, выявление неестественных языковых
конструкций.
6. Статистические
■ Основа метода – сравнение статистических метрик текста с «эталоном»
■ Примеры статистических метрик:
- Средняя длина/диспесия длины слов/предложений.
- Доля/дисперсия по предложениям частей речи.
- N-граммные вероятности.
- Закон ципфа
И.т.д.
Важно! Ни одна из метрик не может быть использована отдельно.
7. Лингвистические
Основная метрика – выявление неестественных лингвистических конструкций.
Такие конструкции порождаются ошибками шаблонизации
«купить телевизор» – ок.
«купить стиральная машина» – не ок.
И попытками впихнуть неестественные вхождения
«телефоны самсунг цена»
8. Санкции
■ Понижение в ранжировании документа.
■ Понижение в ранжировании хоста целиком.
■ «Карантин»
(предназначен для отбивания охоты искать порог спама)
9. Документные санкции
Основные признаки:
- Понижение позиций по всем запросам (иногда включая цитатный поиск).
- Документ становится не релевант
Важно не путать санкцию с выпадением из «окна» хороших для ранжирования
значений.
11. Google Panda
За что накладывается:
- Некачественные/спамные тексты на сайте.
- Дубликаты с других доменов или внутри сайта.
Особенности:
- Пенальти на весь хост.
- Возможно как резкое, так и плавное снижение позиций/трафика.
Как определить:
- “PanguinTool”
- Падение не связано со ссылками или индексацией.
12. Хостовое пенальти от Яндекса
За что накладывается:
- Некачественные/спамные тексты на сайте.
Особенности:
- Пенальти на весь хост, даже если спам-текстов несколько.
- «Карантин» - от 1го месяца.
Как определить:
- Единомоментная (в 1 апдейт) просадка трафика (в 2 и более раза)
(а также проседание по всем позициям, за исключением витальных.Чем
больше конкурентность запроса – тем больше проседание.
- Платон подтверждает.
13. АГС
■ Фильтр создан преимущественно для «отстрела» ссылочных доноров.
■ Однако, содержит текстовые метрики.
■ Сайт может попасть под «АГС» за тексты даже не имея платных внешних ссылок.
■ Основной текстовый критерий – «качество».
14.
15. Как не попасть?
■ Отсутствие дубликатов. Как внутри домена, так и вне его.
■ Отсутствие дубликатов
16. Проверка на дубликаты
Основной метод – проверка по шинглам.
+ Хорошие результаты по обнаружению заимствованных фрагментов.
- Необходимость делать много запросов.
- Невозможность удалить предлоги.
17. Согласованность текста
Генерацию шаблонов выполняем с использованием числа и падежа вхождения
(Осторожно при использовании автоматических склоняторов. Бывают баги).
Тексты проверяем на согласованность силами любого текстового редактора
(например – MicrosoftWord)
18. Антивода
Основной метод – выделение «водных» частей речи и проверка по словарям
«водных» слов.
+ Быстро
+ Позволяет выделять совсем плохие тексты
- Не анализирует тематичность.
-
- Выделение по частям речи имеют ограничения
(например, наречия обычно бывают «водными», но «недорого» - не вода).
19. Частотный словарь по топ-10?
+ Достаточно просто.
+ Возможность выловить некоторые тематические слова.
- Выловим также всю воду в топе, ибо:
Не факт, что основой формирования топа стали тексты.
Ситуации, когда «спам-фильтр отвернулся»
21. Антивода 2.0
Языковые модели для пословной оценки тематичности слов текста.
+ Гораздо более качественно
+ Оценивается каждое (!) слово.
+ Оценка не абстрактна, а в привязке к запросу.
- Мы ограничены качеством текстов в коллекции по теме.
- Проверка требует несколько запросов на каждое слово.
- Качество оценки падает на однословных и 4+ словных запросах.
22. «Акварель»
Гибридная униграммная языковая модель.
(Три запроса на каждое слово).
Доступна на Just-Magic.org
Промо-код на лимитиы «Акварели» aquafox (действует только сегодня)