Screaming frog - l'outil ne fait pas l'artisan

Screaming Frog
L’outil ne fait pas
l’artisan
Cycle technique

#seocampParis 2020 2
Aymeric Bouillat
Consultant SEO technique dans l’agence SEO (groupe )
• Des affinités avec le SEO technique
• Spécialiste des migrations de site
• Et un blog plus trop à jour…. https://www.yapasdequoi.com
Pour me suivre sur Twitter :
@aymerictwit

A quoi ça sert?
Analyse des balises
SEO
Extraction de données
précises dans les pages
Découverte des
problématiques de duplication
Examen des directives
pour les robots
Analyse des redirections
Crawl avec un
rendu JS, comme
Google
Détection des liens
cassés
Visualisation de l’architecture
d’un site et de son maillage
Connexions à des API (Search
Console, GA, Ahrefs, etc)
Génération de sitemaps
XML

3 choses à savoir

#seocampParis 2020
Quel mode de crawl?
5

Préférez le mode Base de données
• Un crawl, c’est gourmand ! (Configuration > Storage mode)
• Memory = 3Go min.  crawls de moins de 100.000 URL : plus rapide, moins souple
• Database storage = avoir un disque SSD : plus souple, permet le crawl de gros sites

Database storage : mode « projet »
• Gérer ses crawls par client (File > Crawls )
Penser à faire le ménage
de temps en temps

#seocampParis 2020
Préparer son crawl
avant de se lancer
8

Ne pas oublier !
• Utiliser la commande « site: »
• Faire un « précrawl » avant le crawl complet
• Prévenir le client ou l’hébergeur (éviter la blacklist)
• Sauvegarder sa configuration

Database storage : mode « projet »
• Définir ce que l’on souhaite crawler, et stocker
•  Store permet de conserver toutes les relations (liens entrants et sortants)
• Objectif : Limiter le poids des fichiers dans la base de données

Comportement du crawler
Si il ne fallait en retenir que 6 :
• Configuration « User-agent » : dynamic serving /site mobile dédié
• Craw Linked Xml Sitemaps(onglet « Crawl »)
• Extraction JSON-LD +microdata (onglet « Extraction »)
• Store HTML/rendered HTML (onglet « Extraction »)
• Effectuer un rendu JS (onglet « Rendering »)
• Respect « canonical » & « noindex » en fonction des besoins…(Onglet
« Advanced »)
Aucun crawl ne se ressemble…

Modifier des URL à la volée
Case study
 HTTP vers HTTPS
 Suppression du #, ex:
/faq#question1
/faq#question2
(avec le rendu JS, les URL avec # sont
explorées, on va regrouper les signaux)

Site en développement
Menu Configuration > Authentification
2 méthodes :
Authentification serveur standard
ou
Formulaire de login
• Adapter le robots.txt si nécessaire
• Informer client/hébergeur de l’IP et de l’UA utilisé
Penser à
l’exclusion des
URL « touchy »

#seocampParis 2020
• « Let’s crawl by night » !
• Crawl régulier (utile pour faire des comparaisons)
• Possibilité de générer des exports auto (csv, xlsx,..)
• Génération automatisée de sitemaps
14
Et le crawl programmable?

Crawl sans interface !
• Pas d’interface graphique =
Idéal pour un serveur
Préparer un fichier de configuration et générer
ses exports automatiquement !
--config "C:UsersAymeric.BouillatCrawlsconfig-mobile.seospidercon

#seocampParis 2020
Il manquerait pas quelque chose?
16

A la pêche aux données : scrappons!
Extraire des données des pages Web, pour qualifier, analyser et optimiser!
Fil d’Ariane
Nombre
d’avis
Stock
Descriptif
Code de
tracking GA
Le type de page (ex:
listing, produit, édito, etc.)
Nombre de
commentaires

Exemples d’utilisations SEO
Récupérer des éléments précis sur une page Web:
Fil d’Ariane (ex: qualifier/organiser ses URL)
Détecter des typologies de pages
Sur un site e-commerce
l’état en stock d’un produit (disponibilité / liens vers des produits épuisés)
le nombre d’avis sur un produit (pages produits avec peu d’avis)
le nombre de commentaires
Sur un site de contenu
le nom de l’auteur d’un article
la date de publication d’un article
Et en général:
le nombre de blocs catégories
le contenu principal (contenu d’un paragraphe précis)
les données Opengraph/TwitterCards
les URL des vidéos Youtube
etc.
Cf. « Annexe scraping » en fin de
présentation

#seocampParis 2020
Analyse & interprétation
19

Attention aux erreurs d’interprétation
Profondeur des URL
Près d’un tiers de vos URL sont accessibles en 4
clics depuis la page d’accueil.
C’est très grave d’un point de vue maillage.
La majeure partie des URL en profondeur 4 sont
des URL d’ images (liens vers des images), ça va…

Problématiques d’URL
Focus sur les paramètres d’URL (ex: tri, filtre, pagination etc.)
 Pertinence des URL (si indexables)
 C’est pas parce qu’il y a écrit « canonical » que c’est bien ! (ex: pagination vers la 1ere page…)

Codes réponse : par typologie de page/URL
Beaucoup de redirections?
- similarité entre les redirections (pages de
destination)
- source des redirections (lien ? Canonical ?
hreflang ? AMP ? )
- erreur de lien? La page de destination
existe peut être !

Redirections 301
Un poisson peut en cacher un autre
Une redirection aussi peut en
cacher une autre...

Regrouper les redirections par type

Pas d’erreurs 404 ?
Ça n’est pas forcément bon signe…!

Attention aux softs 404
 Tester des URL inexistantes et regarder le code réponse. Ex: /url-qui-n-existe-pas
Statut HTTP de l’URL en 200 ?
(et non 404)

Retrouver le chemin
Ex: Retrouver l’origine d’un lien cassé  Clic-droit puis « Crawl Path Report »

Et les balises <title>…</title>?
Beaucoup de duplicate au premier abord? mais il peut être « logique » (ex: pagination)

Faire des exclusions pour y voir + clair
Pour voir toutes les URL qui ne contiennent pas « page=… »
^((?!page=).)*$  Afficher les URL ne contenant pas « page= » via une regexp.

Contenu dupliqué
Un nouvel onglet dans Screaming Frog !
Comparer les différences
entre 2 pages très
similaires

Trop de similarité à cause d’un mega-menu ?
Ne pas tenir compte de certains éléments HTML, c’est possible 

#seocampParis 2020
Visualisation
32

Maillage
Maillage interne : bien ou pas? Ça dépend de ce qu’on regarde
Attention : ne représente pas l’intégralité
des liens, mais juste le chemin le + court
pour accéder à chaque URL

Visualisation
Mettre en avant des défauts de maillage, ou identifier des pages en fonctions de certains KPI
• Voir si des URL fortement maillées ne sont pas indexables
(Canonical, redirection, noindex)  perte de PageRank
interne
• Voir où se situent dans le maillage les URL qui
génèrent le plus de trafic
• Link score : page rank interne de
screaming Frog

Perte de jus
Dilution de la popularité vers des pages en noindex (en rouge) :

Mieux comprendre le maillage d’une page
Ancres de liens : renforcer les variations sémantiques

Principales occurrences d’un contenu
Avoir préalablement coché la case
« Store HTML » de l’onglet « Extraction »
lors de la config du crawl

#seocampParis 2020
Allons plus loin!
38

+ de données avec une analyse de crawl
Menu « Crawl analysis »  « Start »
Voir les URL non maillées détectées
par ailleurs (hreflang, canonical,
sitemap, AMP, API, etc.)

URL non maillées
URL introuvables lors du crawl mais existantes par ailleurs
URL n’ayant jamais reçu de liens
URL ne recevant plus de liens
 Renforcer le maillage

Orphan URL via les API
Permet de mettre en avant les URL présentes dans le sitemap, mais aussi la Search Console,
Google Analytics, et qui n’ont pas été trouvées lors du crawl. (cf. les onglets correspondants)

Question Mug
Quel est le dernier onglet qui a vu le jour en Juillet 2020 dans
Screaming Frog ?

Réponse Mug
L’onglet « Content » !
On peut même faire de la détection de fautes de grammaire et d’orthographe :

#seocampParis 2020
Merci!
Des questions?
44
Pour me suivre sur Twitter : @aymerictwit

MERCI AUX SPONSORS

#seocampParis 2020
Annexe Scraping
46

Paramétrage de l’extraction
Rechercher un élément via:
- Texte
- Expression régulière
Rechercher via
- Xpath (<3)
- Un sélecteur CSS

Type d’éléments à extraire
<div class="bloc-content-title">
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
</div>
<div class="bloc-content-title">
plus</a>
</div>
</div>
plus</a>
</div>
Voir plus News
//div[@class=“bloc-content-title“]

Exemples Xpath vs HTML
//div[@id="wayfinding-breadcrumbs_feature_div"]/li[not(@class)]
//ul[@class="a-unordered-list a-vertical a-spacing-mini"]/li/span
//span[@id="acrCustomerReviewText"]
(//span[@class="a-icon-alt"])[1]  la première balise de ce type
//div[@id="availability"]/span
Descriptif
Nbe
commentaires
Nbe avis
Stock
Fil d’Ariane
https://devhints.io/xpathAntisèche :

Screaming frog - l'outil ne fait pas l'artisan

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Screaming frog - l'outil ne fait pas l'artisan

Similar to Screaming frog - l'outil ne fait pas l'artisan (20)

More from Aymeric Bouillat

More from Aymeric Bouillat (7)

Screaming frog - l'outil ne fait pas l'artisan

Editor's Notes