Dalla SEO alla CBO: Il Crawling Budget Optimization

Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect1/67
Dalla SEO alla CBO
Il Crawling Budget Optimization
di Martino Mosna
Basi, metodo, strumenti e pasticci vari.

#SMConnect2/67
● Specialista SEO dal 2006
● Freelance dal 2011
● Ha imparato a parlare con
le persone
● Ha imparato a parlare con
le macchine
Chi vi parla: Martino MosnaChi vi parla: Martino Mosna

#SMConnect4/67
Il Crawling
Scheduler
Crawling
Archiviazione
Indicizzazione

#SMConnect5/67
Perché “budget”?
Fonte: http://www.google.com/about/datacenters/gallery/#/tech/2

#SMConnect6/67
http://www.google.com/insidesearch/howsearchworks/thestory/

#SMConnect7/67
INTERNET

#SMConnect8/67
INTERNET Le risorse
di Google

#SMConnect9/67
INTERNET
Il nostro sito
Le risorse
di Google

#SMConnect10/67
Perché ottimizzare?
● Non è solo un problema dei Crawler
● Si arriva più velocemente in SERP
● Si riduce la cannibalizzazione delle
query
● Il link graph interno è calcolato meglio
● Siamo SEO o quaqquaraquà?

#SMConnect12/67
robots.txt: a cosa serve
● È un file di testo accessibile da un client
● Regola l'accesso alle risorse
● Non impedisce ai motori di mostrare la
risorsa in SERP

#SMConnect13/67
robots.txt: sintassi standard
User-agent:
● Serve per indicare a
quale crawler sono
dirette le istruzioni
● Può essere indirizzato a
tutti i crawler,
utilizzando *
Disallow:
● Indica ai crawler di non
effettuare l'accesso alle
risorse
● Possono essere pagine o
intere cartelle
● Inserendo la cartella
radice “/” si esclude tutto
il sito

#SMConnect14/67
robots.txt: sintassi non standard
Allow:
● Serve per fare delle eccezioni
alla regola
Crawl-delay:
● Non è rispettato da Google
Segnaposto:
● * per indicare qualsiasi carattere
● $ per indicare il termine
dell'URL
Sitemap:
● Indica la posizione della
sitemap XML

#SMConnect15/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”

#SMConnect16/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”
DON'T
TRY
THIS AT
W
ORK

#SMConnect17/67
DICE IL SAGGIO...
NEL ROBOTS.TXT
IL NOINDEX NON USARE
O POTRESTI FARTI MALE

#SMConnect19/67
meta robots: a cosa serve
● È un'istruzione di markup HTML
● A determinare se e come una pagina deve
apparire nei risultati di ricerca
● Per escludere dal link graph tutti i link che
contiene
<meta name=”robots” content=”noindex,follow”>

#SMConnect20/67
meta robots: index/noindex
● L'istruzione “index” è default
● L'istruzione “noindex” viene eseguita
come “non mostrare in SERP”

#SMConnect21/67
meta robots: follow/nofollow
● L'istruzione “follow” è default
● L'istruzione “nofollow” indica al
motore di ricerca di ignorare
qualunque link presente in pagina

#SMConnect22/67
meta robots: altri valori
noodp:
● Indica di non mostrare la
descrizione di ODP/DMOZ
nosnippet:
● Indica di non mostrare alcuna
snippet in SERP
● Non viene mostrata alcuna cache
in SERP
none:
● Equivale a “noindex, nofollow”
noarchive:
● Indica di non mostrare alcuna
cache in SERP

#SMConnect23/67
meta robots: altri valori /2
notranslate:
● Non proporre la traduzione
della pagina nei risultati di
ricerca.
noimageindex:
● Non indicizzare le immagini
in questa pagina.
unavailable_after:
● Non mostrare questa pagina
nei risultati di ricerca dopo la
data/l'ora specificata

#SMConnect24/67
meta robots: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Il Crawler continuerà a scaricare e
archiviare la pagina anche in presenza si
un'istruzione noindex

#SMConnect25/67
DICE IL SAGGIO...
TU DICI NOINDEX
IO CAPISCO NOVEDI

#SMConnect27/67
X-Robots-Tag: a cosa serve
● È un'istruzione degli header HTTP della
risorsa
● È in tutto equivalente all'istruzione meta
robots
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00
PST
(…)

#SMConnect28/67
X-Robots-Tag: differenze
Perché usarli al posto dei meta?
● Possono essere utilizzati anche per
documenti non HTML (es: PDF,
immagini)
● Nel caso in cui si abbia accesso alle
configurazioni del server, ma non sia
possibile modificare i template di pagina

#SMConnect29/67
DICE IL SAGGIO...
NON DI SOLI METATAG
VIVONO I CRAWLER

#SMConnect31/67
HTTP status code: a cosa serve
● È in assoluto la prima informazione sullo stato
della pagina
● È al cuore del funzionamento della dinamica
client/server
● Puoi gestirli bene o male, ma non si possono non
usare
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)

#SMConnect32/67
HTTP status code: 200 (found)
Cosa vuol dire
Il server possiede la risorsa richiesta
Come si comporta Google
In assenza di blocchi o limitazioni (robots.txt,
meta robots, etc), scansiona la pagina, la archivia,
la indicizza e la mostra in SERP
Utilizzo tipico
E' lo status code della stragrande maggioranza
delle pagine di un sito web.

#SMConnect33/67
HTTP status code: 404 (not found)
Cosa vuol dire
Il server non possiede la risorsa richiesta
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
URL errato o pagina rimossa dal sito

#SMConnect34/67
HTTP status code: 410 (gone)
Cosa vuol dire
Il server possedeva la risorsa, ma questa è stata
deliberatamente rimossa.
Non scansiona la pagina. Se la stessa risorsa in
precedenza restituiva un codice 200, la rimuove
dalla SERP.
Utilizzo tipico
Pagina rimossa dal sito.

#SMConnect35/67
HTTP status code: 403 (forbidden)
Cosa vuol dire
Il server non permette l'accesso alla risorsa
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
Directory listing bloccato

#SMConnect36/67
HTTP status code: 301 (permanent redirect)
Cosa vuol dire
La risorsa redirige in modo permanente ad una
seconda risorsa.
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa
risorsa in precedenza restituiva un codice 200,
aggiorna i risultati della SERP con la nuova.
Utilizzo tipico
Cambio URL di una pagina

#SMConnect37/67
HTTP status code: 302 (temporary redirect)
Cosa vuol dire
La risorsa redirige in modo temporaneo ad una seconda
risorsa.
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa risorsa
in precedenza restituiva un codice 200, i risultati della
SERP solitamente mantengono la pagina precedente.
Utilizzo tipico
Cambio di URL di una pagina

#SMConnect38/67
HTTP status code: 503 (service unavailable)
Cosa vuol dire
La risorsa non è temporaneamente disponibile.
Non scansiona la pagina. La priorità di crawling
non cambia, quando il crawler trova nuovamente
un codice 200, ritorna a scansionare. La pagina
non viene rimossa dalla SERP (per un po').
Utilizzo tipico
Sito o pagina in manutenzione

#SMConnect39/67
HTTP status code: 500 (server error)
Cosa vuol dire
Il server ha incontrato un errore nel fornire la
risorsa.
Non scansiona la pagina. La priorità di crawling
non cambia, ma il perdurare dell'errore può
causare la rimozione della stessa dalla SERP.
Utilizzo tipico
Errore non voluto, da risolvere

#SMConnect40/67
DICE IL SAGGIO...
410, 404
SEMPRE MORTA PAGINA È

#SMConnect42/67
rel canonical: a cosa serve
● Ad indicare la versione canonica di una
risorsa (se non è possibile fare redirect)
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
<link rel=”canonical” href=”http://www.esempio.com/pagina”>

#SMConnect43/67
rel canonical: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo.
Non bloccare con robots.txt!
● Può facilmente andare in conflitto con altre istruzioni,
ad esempio:
• paginazione
• meta robots nofollow
• meta robots noindex
● In caso di istruzioni contrastanti, viene tipicamente
ignorato

#SMConnect44/67
rel canonical: benefici
● Permette di trasferire l'autorità di pagina
anche senza fare il redirect 301
● Riduce il carico del server riducendo il
crawling delle URL non canoniche
(duplicate)
● Risparmia crawling budget per la
scansione di nuove risorse o
l'aggiornamento di quelle canoniche

#SMConnect45/67
DICE IL SAGGIO...
NON INCROCIARE I FLUSSI
DEL REL CANONICAL

#SMConnect47/67
rel next/prev: a cosa serve
● Ad indicare una struttura a paginazione
HTML
(non documentato)
<link rel=”next” href=”http://www.esempio.com/pagina/4”>
<link rel=”prev” href=”http://www.esempio.com/pagina/2”>

#SMConnect48/67
rel next/prev: benefici
● Facilita l'URL discovery
● Velocizza la comprensione del link graph
interno
● Consolida i backlink alle pagine interne
orientandoli alla pagina principale

#SMConnect49/67
rel next/prev: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Può facilmente andare in conflitto con
altre istruzioni (ad esempio: rel canonical
ad una versione non paginata)
● In caso di istruzioni contrastanti, viene
tipicamente ignorato

#SMConnect50/67
DICE IL SAGGIO...
L'UNIONE DELLE PAGINE
FA LA FORZA

#SMConnect52/67
rel alternate hreflang: a cosa serve
● Ad indicare le traduzioni di una risorsa
HTML
<link rel=”alternate” hreflang=”en-us” href=”http://www.esempio.com/”>
<link rel=”alternate” hreflang=”en-uk” href=”http://www.esempio.com/uk/”>
<link rel=”alternate” hreflang=”en-au” href=”http://www.esempio.com/au/”>

#SMConnect53/67
rel alternate hreflang: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione

#SMConnect54/67
rel hreflang: attenzione a...
● Ci sono istruzioni specifiche per
l'homepage di default
● Le istruzioni hreflang devono essere
reciproche
● Le URL mappate devono essere quelle
canoniche

#SMConnect55/67
DICE IL SAGGIO...
CHE NON BISOGNA
INCROCIARE I FLUSSI
DEL REL CANONICAL
L'HO GIÀ DETTO?

#SMConnect57/67
sitemap.xml: a cosa serve
● Ad elencare tutte le URL che si desidera
vengano scansionate
● E' un file di testo in formato XML
● Può essere generata dinamicamente

#SMConnect58/67
sitemap.xml: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione

#SMConnect59/67
sitemap.xml: attenzione a...
● Inserire solo le URL canoniche
● Inserire solo URL con HTTP status 200
● Le istruzioni lastmod, changefreq e
priority vengono tipicamente ignorate

#SMConnect60/67
DICE IL SAGGIO...
DACCI DEGLI URL
TANTI URL
BUONI URL

#SMConnect62/67
rel nofollow: a cosa serve
● Ad indicare di non considerare un singolo URL
come parte del link graph
● Nasce come istruzione per gestire i link non
affidabili (ad esempio, se generati dagli utenti)
● Tipicamente si usa per i link artificiali
● Google non scansiona le risorse con rel nofollow, a
meno che non siano linkate da qualche altra parte
<a rel=”nofollow” href=”http://www.esempio.com”>Testo</a>

#SMConnect63/67
rel nofollow: attenzione a...
● Può aiutare ad isolare una sezione del sito
dal crawling, ma…
● E' un'istruzione frammentata per natura,
la manutenzione può essere molto
onerosa
● Non nasce come strumento per il
controllo del crawling

#SMConnect64/67
DICE IL SAGGIO...
SE HAI CHIODO, USA MARTELLO
SE HAI ROTTO, USA COLLA
SE HAI LINKETTO, USA NOFOLLOW

#SMConnect66/67
Robots.txt
http://tools.seobook.com/robots-txt/
http://abertram.com/technical-seo/nosnippet-and-noarchive-inside-robots-txt/
http://seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870
Meta robots e X-Robots-Tag
http://googlewebmastercentral.blogspot.it/2007/03/using-robots-meta-tag.html
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Header HTTP
http://searchenginewatch.com/sew/news/2334932/ecommerce-seo-tips-for-unavailable-products-from-googles-matt-cutts
http://searchenginewatch.com/sew/how-to/2340728/matt-cutts-on-how-google-handles-404-410-status-codes
http://googlewebmastercentral.blogspot.it/2011/01/how-to-deal-with-planned-site-downtime.html
Rel canonical
http://www.engeene.it/5-errori-comuni-con-il-relcanonical/
https://ignitevisibility.com/rel-canonical-and-no-index-no-follow-on-same-page-google-seo/
http://googlewebmastercentral.blogspot.it/2011/06/supporting-relcanonical-http-headers.html
http://googlewebmastercentral.blogspot.it/2011/09/view-all-in-search-results.html
http://dejanseo.com.au/noindex-competitors/
Rel next/prev
http://googlewebmastercentral.blogspot.it/2011/09/pagination-with-relnext-and-relprev.html
http://googlewebmastercentral.blogspot.it/2012/03/video-about-pagination-with-relnext-and.html
Rel alternate hreflang
https://support.google.com/webmasters/answer/189077?hl=it
https://plus.google.com/+JohnMueller/posts/17fbv5phpks
http://www.seerinteractive.com/blog/case-study-the-impact-of-hreflang-tag/

#SMConnect67/67
Grazie!
Spazio alle domande...
Per ulteriori informazioni:
Email: info@martinomosna.com
Twitter: @martinomosna
Google+: +MartinoMosna

Dalla SEO alla CBO: Il Crawling Budget Optimization

Recommended

Recommended

More Related Content

Similar to Dalla SEO alla CBO: Il Crawling Budget Optimization

Similar to Dalla SEO alla CBO: Il Crawling Budget Optimization (20)

More from Martino Mosna

More from Martino Mosna (16)

Dalla SEO alla CBO: Il Crawling Budget Optimization