Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
3. О чём поговорим:
1. Как поиск находит страницу, её путь до появления в поиске.
2. Как управлять роботом.
3. Особенности индексирования.
4. Как улучшить индексирование.
5. Вопросы.
4
5. Как поиск находит страницу, её
путь до появления в поиске
Индексирование сайта
6. Что такое индексирование?
Индексирование – процесс получения информации о страницах
сайта с последующим добавлением данных в поисковую базу и
результаты поиска.
7
8. Откуда робот узнаёт о страницах
- Ссылки на других страницах в интернете,
- Я.Вебмастер (webmaster.yandex.ru),
- Внутренние ссылки,
- Карта сайта (sitemap),
- Другие источники, например, Я.Метрика.
9
9. От чего зависит скорость индексирования
- Загруженность сервера, на котором находится сайт,
- Частота обновления страницы,
- Интерес посетителей к сайту.
10
11. Запрос и получение контента
Ответ сервера:
HTTP/1.1 200 Ok
Date: Mon, 12 Oct 2015 14:45:32 GMT
Content-Type: text/html; charset=UTF-8
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
Expires: Mon, 12 Oct 2015 14:45:31 GMT
Last-Modified: Mon, 12 Oct 2015 14:45:31 GMT
Set-Cookie: yp=; Expires=Fri, 14-Oct-2005 14:45:32 GMT; Path=/
X-Frame-Options: DENY
Content-Encoding: gzip
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
Transfer-Encoding: chunked
12
12. Распространённые HTTP-коды
HTTP-200 – страница доступна, её необходимо индексировать
HTTP-301 – страница перенесена, необходимо включать цель
перенаправления
HTTP-302 – страница перенесена, необходимо включать наиболее
короткий адрес
HTTP-304 – страница не менялась с момента последнего обращения
HTTP-404 – страница удалена
HTTP-503 – сервер временно недоступен
13
17. Как узнать, что страница в поиске
- Яндекс.Вебмастер, «Проверить URL»
- Результаты поиска с оператором url: , например,
url:example.ru/contacts
- Для поиска всех страниц сайта – оператор site: , например,
site:example.ru
18
19. robots.txt – строгая инструкция для робота
- User-agent – указываем, для кого предназначаются правила
- Disallow / Allow – запрещаем или разрешаем индексирование страниц
- Clean-param – удаляем ненужные параметры в URL-адресах
- Crawl-delay – задаём интервал между запросами страниц
- Sitemap – сообщаем адрес карты сайта
- Host – указываем адрес главного зеркала
20
21. Ошибки при работе с robots.txt
- Ошибки в содержимом файла
- HTTP-ответ отличный от 200
- Кириллические символы в файле
- Размер более 32Кб
22
Пример:
Host: лютикицветочки.рф
Host: xn--b1aghacidc6a8af9br2g.xn--p1ai
24. Sitemap – карта вашего сайта
Текстовый или XML-файл, содержащий адреса страниц, которые
необходимо индексировать.
25
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://site.ru/</loc>
<lastmod>2015-10-12</lastmod>
<changefreq>monthly</changefreq>
<priority>0.9</priority>
</url>
</urlset>
25. Ошибки при работе с Sitemap
- Файл на другом сайте
- Установленный редирект,
- Отсутствие служебной информации, например,
<?xml version="1.0" encoding="UTF-8"?>
26
27. Зеркала сайта
Один сайт по нескольким адресам
http://www.site.ru
http://site.ru
https://site.ru
http://сайт.рф
Чтобы объединить сайты в группу и выбрать главный адрес, они должны
содержать идентичный контент.
28
28. Зеркала сайта
Зачем?
- Перенос сайта на новый адрес с сохранением характеристик старого
адреса
- Наличие дополнительных адресов для пользователей
29
29. Зеркала сайта
1. Директива Host в robots.txt
2. «Главное зеркало» в Яндекс.Вебмастере
3. Серверное перенаправление на главное зеркало
30
32. Ошибки при работе с зеркалами
- Разное содержимое на сайтах
- Переезд сайта в раздел другого
- Запрет на индексирование одного из зеркал, его недоступность
- Противоречивые указания
33
36. Версии на других языках
37
- Открыть локализованную версию для робота,
- Использовать атрибут hreflang:
<link rel="alternate" hreflang=”ru-ru" href="http://site.ru/ru-ru/">
<link rel="alternate" hreflang="tr-tr" href="http://site.ru/tr-tr/">
<link rel="alternate" hreflang=”en-us" href="http://site.ru/en-us/">
<link rel="alternate" hreflang="x-default" href="http://site.ru/" />
38. Дубли страниц
Дубли – несколько страниц одного сайта, содержащие идентичный
контент.
- Один товар в двух категориях: site.ru/tort и site.ru/cat/tort ,
- Со слэшом и без: site.ru/tort и site.ru/tort/ ,
- Страницы с произвольными параметрами: site.ru/tort?1234
39
39. Дубли страниц
К каким проблемам приводят:
- Робот начинает посещать множество ненужных страниц вместо
индексирования корректных адресов,
- Робот может включать в выдачу только одну страницу на своё
усмотрение.
40
41. Использование HTTP-кодов
- HTTP-404 на удалённых страницах
- Заглушка с HTTP-503 при недоступности
- Использование HTTP-301 редиректа при переезде страниц внутри
сайта
42
42. Проверка и актуализация robots.txt
- Проверка логов сервера и закрытие служебных страниц
- Crawl-delay без необходимости
43
46. Вопросы
Как ускорить процесс склейки доменов при смене доменного имени и
настройке редиректа?
Если сайт переходит на новый домен, то как изменится индексирование
сайта? И если изменится, то как сделать так, чтобы показатели быстрее
стали прежними?
Как грамотно поменять главное зеркало сайта с www.site.ru на site.ru
или site2.ru ? Какое зеркало предпочтительнее?
47
47. Переезд сайта
1. Сделать сайты полными зеркалами (идентичный контент по всем адресам)
2. Делаем оба сайта доступными для робота
3. Убедиться, что сайты известны нашему роботу
4. Указываем директиву Host в robots.txt всех сайтов
5. Ждём склейки (от 1-2 месяцев и более)
6. Установка редиректа
48
48. Вопросы
1). Минимальная и максимальная скорость индексирования сайта?
2). Возможно ли как-то повлиять на скорость индексирования?
3). Как кол-во страниц в индексе влияет на ранжирование? К примеру в
индексе 20 000, а в поиске 1000, как тут быть и стоит ли удалять не
нужные страницы из индекса?
4). Основываясь на случае из пункта 3, будет ли затруднена индексация
новых страниц?
49
49. Вопросы
Расскажите
пожалуйста,
как
правильно
организовать
пагинация
листинга
каталога,
что
бы
в
поисковой
системе
не
возникло
дублей
страниц,
но
при
этом
поисковая
система
понимала,
что
ассортимент
большой?
Relcanonical?
Не
заполнять
метатеги?
Закрывать
страницы
noindex?
50
50. Вопросы
В каталоге интернет-магазина есть категория товаров,
отличающихся друг от друга несколькими техническими
характеристиками и ценой, внешний вид и текст описания -
одинаковы. Товары представлены отдельными карточками.
Вопрос: Будут ли такие карточки признаны дублями? Если да, то
что нужно сделать, чтобы карточки таких товаров расценивались
роботом как отдельные страницы?
51
51. Вопросы
Как избежать индексирования всех возможных вариантов
фильтров и отборов товаров в интернет магазине и попадания в
индекс десятков тысяч страниц? И как это влияет на
ранжирование, нужно ли с этим бороться?
52
54. Вопросы
55
Карточка товаров в интернет-магазине имеет несколько табов
(Описание, Чертежи, Документация, Каталоги), написанных на
Java Script. Будет ли при этом корректно индексироваться
содержание табов?