Notre présentation au SEOCAMP'Us Paris par François Goube. Comment faire de l'analyse de logs gratuitement ? Les bonnes pratiques et outils disponibles.
4. @OnCrawl – SEOCAMP 2016
Au programme
1. Pourquoi faire de l’analyse de logs et surtout pour qui ?
2. Quelles données et quels outils pour bien démarrer l’analyse de logs ?
3. Comment avoir mon propre analyseur de logs sans débourser un centime ?
4. Etude de cas
5. Entrez dans la matrice et voir plus loin que les logs et le crawl.
6. (Jeu et Q&A)
6. @OnCrawl – SEOCAMP 2016
A quoi ressemblent des logs ?
Un serveur web enregistre toutes les requètes qu’il reçoit.
Ce sont les logs serveurs
En général:
/var/log/httpd sous apache
Ils permettent :
D’identifier le trafic SEO
De voir ce que fait le GoogleBot
7. @OnCrawl – SEOCAMP 2016
Pour qui ?
Pour tous !!!
Audit :
o Diagnostic des pages utiles / inutiles
o Zones que Google crawle
o Zones que Google ne connait pas
Monitoring :
o Alertes
o Suivi des mise en productions / Optimisations
o Attaques
8. @OnCrawl – SEOCAMP 2016
Bien démarrer sur l’analyse de logs
Savoir où sont vos logs et comment y accéder
S’assurer d’avoir l’ensemble des logs
Procéder à des tests de complétude et de validité des
données :
1. Compter les hits de Google et comparer avec la search console
2. Compter les visites depuis Google et comparer avec Analytics
Attention aux systèmes de cache !!!
-$ grep “Googlebot” access.log | wc -
l
-$ grep “google.fr” access.log | wc -
l
9. @OnCrawl – SEOCAMP 2016
Pourquoi utiliser ses logs ?
Know what Google did!
Quelles pages sont crawlées par Google Bot
Quelles sont mes pages actives ?
Google rencontre-t-il des erreurs ?
Car Google cherche à optimiser ses ressources de crawl
Optimisez les ressources de Google vers vos “MONEY PAGES”
10. @OnCrawl – SEOCAMP 2016
Pourquoi utiliser ses logs ?
Savoir ce que
Google fait
Pour
comprendre
l’impact SEO
11. @OnCrawl – SEOCAMP 2016
Ne pas attendre un message dans GWT
Suivez les status codes en temps réel
Recevez des alertes
Contrôlez vos MEP
Alertes utiles :
Augmentation anormale des 404
Baisse du nombre de pages recevant du Trafic SEO
…
12. @OnCrawl – SEOCAMP 2016
Savoir ce que Google Crawl et Positionne
Moins vos pages sont populaires et moins Google les regarde
13. @OnCrawl – SEOCAMP 2016
Quelles pages ont le plus de valeur pour Google ?
Découvrez vos pages Actives
14. @OnCrawl – SEOCAMP 2016
Quelles pages ont le plus de valeur pour Google ?
Google n’interprète pas forcément votre site comme vous le
voudriez !
15. @OnCrawl – SEOCAMP 2016
La clé est dans le croisement des données
A partir des données de crawl…
Control du balisage HTML
Qualité des meta
Analyse du contenu (near duplicates, nb de mots…)
Popularité des pages (Inrank)
… et des données de logs
Vous ouvrez la boite noire de l’algo de Google!
Pages orphelines
Pages actives / famille
Zones inconnues de Google
Impact de vos optimisations sur le GoogleBot
16. @OnCrawl – SEOCAMP 2016
Quels outils
Outils Open Source
Kibana
Kibana by Oncrawl
Logalize
Graylog
Outils SaaS
Oncrawl Advanced
Logs.io
Kelo.gs
Qbox Available on Github
18. @OnCrawl – SEOCAMP 2016
Les indicateurs de base
Nombre de pages uniques crawlées par Google
Fréquence de crawl par groupe de pages
Monitoring des status codes (200, 3xx, 4xx,…)
Nombre de pages actives / inactives
Accrochez vos ceintures !!!
19. @OnCrawl – SEOCAMP 2016
Prenons le cas d’un site hebergé en
Mutualisé…
Hypothèse :
Vous avez un site hebergé chez OVH
Vous avez bien paramétré vos logs pour qu’ils soient distincts par
host
Nous allons voir
Comment récupérer les fichiers de logs depuis OVH,
Créer une machine virtuelle sur votre poste et utiliser Docker,
Déployer Oncrawl ELK,
Ingérer les logs
Utiliser Oncrawl ELK pour analyser vos logs.
20. @OnCrawl – SEOCAMP 2016
Fetch the logs!
1. Ouvrez un navigateur web
2. Loguez vous sur OVH
3. A partir de l’OVH Web console, cliquez sur hébergement et
sur le nom de domaine que vous souhaitez analyser
4. Accédez à vos logs depuis le lien
http://logs.ovh.net/YOURDOMAIN/
5. Choisissez une période d’un mois
https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/
6. Téléchargez chaque journée de logs
(e.g. https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/YOURDOMAIN-DD-MM-YYYY.log.gz)
21. @OnCrawl – SEOCAMP 2016
Préparez vos logs
Controlons ce que nous récupérons d’OVH
Nous permet de renommer l’ensemble des fichiers en .log
Nous permet de lire les 10 premières lignes de logs pour contrôle
22. @OnCrawl – SEOCAMP 2016
Utilisons Docker Compose
Setup de Docker
Récupération des containers
Téléchargez OnCrawl ELK, et Dézippez le sur votre machine
Dans un terminal tapez :
Si vous n’avez jamais utilisé Docker, télécharger ceci :
https://www.docker.com/products/docker-toolbox,
Et installez Docker Toolbox
Suivez ce tutoriel : https://docs.docker.com/mac/step_one/
23. @OnCrawl – SEOCAMP 2016
Up and Running?
Si tout va bien, vous devriez avoir ceci
Vous n’avez plus qu’à copier les logs récupérés :
cp path/clean/and/filtered/log/files/my-virtual-host-*.log path/to/oncrawl-elk/logs/apache/
Logstash devrait faire tourner le container oncrawlelk_logstash_1 container,
Parser vos logs et les envoyer à oncrawlelk_elsaticsearch_1 container.
25. @OnCrawl – SEOCAMP 2016
Etude de cas : Exemple de 5 usages
Suivi de la santé de mon site
Etat des lieux de ma structure de site
Détection des problèmes de maillage interne
Impact SEO de mon contenu
Temps de chargement, status codes et Googlebot
26. @OnCrawl – SEOCAMP 2016
Voir plus loin que les logs
Détecter des tendances
Bots
Users
Rajouter des données business
CA / Panier moyen
Revenus pub
Penser votre business et vos données en remontant de
la vente au first click.
28. @OnCrawl – SEOCAMP 2016
3 questions
Quelles sont les deux tests à réaliser pour s’assurer de
bien démarrer avec ses logs ?
Oncrawl Open source log analyzer est un fork de Elastic
Search, Logstache et … ?
Comment s’appelle ce personnage ?
29. 1. CRAWL
Nos robots parcourent votre site comme Google peut le
faire et nous récupérons tout votre code HTML et
l’ensemble des données SEO de votre site web.
Découvrez comment Google interprète votre site web
Votre contact:
francois@oncrawl.com
+33 652 19 97 57
Follow us :