Der Vortrag beschreibt an Hand praktischer Beispiele wie man eine große Webseite mit Hilfe von Tools wie Elasticsearch, Logstash und Kibana analysiert.
5. Installation
5 Googlebot Analyse | Valentin Pletzer | BurdaForward
• Elasticsearch als Datenhalde
• evtl. noch das Head-Plugin
• Logstash zum Parsen der Logfiles
• Kibana zur Visualisierung
• Alle müssen nur entpackt werden
• elasticsearch.yml anpassen
• cluster.name
• path.data
• path.log
• ES_HEAP_SIZE (Hälfte des Arbeitsspeichers)
• zum Starten: bin/elasticsearch
6. Tuning des Mappings
6 Googlebot Analyse | Valentin Pletzer | BurdaForward
• URLs können sehr lang sein daher sollte
man die 256 Zeichen Beschränkung
aufheben
• Zahlen will man tendenziell auch als solche
behandeln (Durchschnitt etc) und sollten
daher auch als solche gemappt sein
10. Mögliche Fragestellungen
10 Googlebot Analyse | Valentin Pletzer | BurdaForward
• Welche URL wird am häufigsten gecrawlt?
• Kann die robots.txt immer einwandfrei gecrawlt werden?
• Wie groß ist das größte File und brauche ich das?
• Wie groß ist die durchschnittliche HTML-Filegröße?
• Wird mein HTML größer oder kleiner?
• Wann wurde ein bestimmte URL zum letzten Mal gecrawlt?
• Wie viele 404, 301 etc liefere ich dem Bot aus?
• Welche Googlebots kommen überhaupt?
• Wie viele (unique) URLs wurden gecrawlt?
• Wann waren Ausfälle (5xx) und wird wieder normal gecrawlt?
• Drosselt der Googlebot zu bestimmten Tageszeiten?