(not provided): E' possibile fare SEO senza le parole chiave?
Dalla SEO alla CBO: Il Crawling Budget Optimization
1. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect1/67
Dalla SEO alla CBO
Il Crawling Budget Optimization
di Martino Mosna
Basi, metodo, strumenti e pasticci vari.
2. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect2/67
● Specialista SEO dal 2006
● Freelance dal 2011
● Ha imparato a parlare con
le persone
● Ha imparato a parlare con
le macchine
Chi vi parla: Martino MosnaChi vi parla: Martino Mosna
4. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect4/67
Il Crawling
Scheduler
Crawling
Archiviazione
Indicizzazione
5. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect5/67
Perché “budget”?
Fonte: http://www.google.com/about/datacenters/gallery/#/tech/2
6. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect6/67
Perché “budget”?
http://www.google.com/insidesearch/howsearchworks/thestory/
7. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect7/67
Perché “budget”?
INTERNET
8. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect8/67
Perché “budget”?
INTERNET Le risorse
di Google
9. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect9/67
Perché “budget”?
INTERNET
Il nostro sito
Le risorse
di Google
10. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect10/67
Perché ottimizzare?
● Non è solo un problema dei Crawler
● Si arriva più velocemente in SERP
● Si riduce la cannibalizzazione delle
query
● Il link graph interno è calcolato meglio
● Siamo SEO o quaqquaraquà?
12. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect12/67
robots.txt: a cosa serve
● È un file di testo accessibile da un client
● Regola l'accesso alle risorse
● Non impedisce ai motori di mostrare la
risorsa in SERP
13. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect13/67
robots.txt: sintassi standard
User-agent:
● Serve per indicare a
quale crawler sono
dirette le istruzioni
● Può essere indirizzato a
tutti i crawler,
utilizzando *
Disallow:
● Indica ai crawler di non
effettuare l'accesso alle
risorse
● Possono essere pagine o
intere cartelle
● Inserendo la cartella
radice “/” si esclude tutto
il sito
14. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect14/67
robots.txt: sintassi non standard
Allow:
● Serve per fare delle eccezioni
alla regola
Crawl-delay:
● Non è rispettato da Google
Segnaposto:
● * per indicare qualsiasi carattere
● $ per indicare il termine
dell'URL
Sitemap:
● Indica la posizione della
sitemap XML
15. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect15/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”
16. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect16/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”
DON'T
TRY
THIS AT
W
ORK
17. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect17/67
DICE IL SAGGIO...
NEL ROBOTS.TXT
IL NOINDEX NON USARE
O POTRESTI FARTI MALE
19. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect19/67
meta robots: a cosa serve
● È un'istruzione di markup HTML
● A determinare se e come una pagina deve
apparire nei risultati di ricerca
● Per escludere dal link graph tutti i link che
contiene
<meta name=”robots” content=”noindex,follow”>
20. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect20/67
meta robots: index/noindex
● L'istruzione “index” è default
● L'istruzione “noindex” viene eseguita
come “non mostrare in SERP”
21. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect21/67
meta robots: follow/nofollow
● L'istruzione “follow” è default
● L'istruzione “nofollow” indica al
motore di ricerca di ignorare
qualunque link presente in pagina
22. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect22/67
meta robots: altri valori
noodp:
● Indica di non mostrare la
descrizione di ODP/DMOZ
nosnippet:
● Indica di non mostrare alcuna
snippet in SERP
● Non viene mostrata alcuna cache
in SERP
none:
● Equivale a “noindex, nofollow”
noarchive:
● Indica di non mostrare alcuna
cache in SERP
23. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect23/67
meta robots: altri valori /2
notranslate:
● Non proporre la traduzione
della pagina nei risultati di
ricerca.
noimageindex:
● Non indicizzare le immagini
in questa pagina.
unavailable_after:
● Non mostrare questa pagina
nei risultati di ricerca dopo la
data/l'ora specificata
24. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect24/67
meta robots: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Il Crawler continuerà a scaricare e
archiviare la pagina anche in presenza si
un'istruzione noindex
25. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect25/67
DICE IL SAGGIO...
TU DICI NOINDEX
IO CAPISCO NOVEDI
27. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect27/67
X-Robots-Tag: a cosa serve
● È un'istruzione degli header HTTP della
risorsa
● È in tutto equivalente all'istruzione meta
robots
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00
PST
(…)
28. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect28/67
X-Robots-Tag: differenze
Perché usarli al posto dei meta?
● Possono essere utilizzati anche per
documenti non HTML (es: PDF,
immagini)
● Nel caso in cui si abbia accesso alle
configurazioni del server, ma non sia
possibile modificare i template di pagina
29. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect29/67
DICE IL SAGGIO...
NON DI SOLI METATAG
VIVONO I CRAWLER
31. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect31/67
HTTP status code: a cosa serve
● È in assoluto la prima informazione sullo stato
della pagina
● È al cuore del funzionamento della dinamica
client/server
● Puoi gestirli bene o male, ma non si possono non
usare
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
32. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect32/67
HTTP status code: 200 (found)
Cosa vuol dire
Il server possiede la risorsa richiesta
Come si comporta Google
In assenza di blocchi o limitazioni (robots.txt,
meta robots, etc), scansiona la pagina, la archivia,
la indicizza e la mostra in SERP
Utilizzo tipico
E' lo status code della stragrande maggioranza
delle pagine di un sito web.
33. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect33/67
HTTP status code: 404 (not found)
Cosa vuol dire
Il server non possiede la risorsa richiesta
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
URL errato o pagina rimossa dal sito
34. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect34/67
HTTP status code: 410 (gone)
Cosa vuol dire
Il server possedeva la risorsa, ma questa è stata
deliberatamente rimossa.
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa in
precedenza restituiva un codice 200, la rimuove
dalla SERP.
Utilizzo tipico
Pagina rimossa dal sito.
35. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect35/67
HTTP status code: 403 (forbidden)
Cosa vuol dire
Il server non permette l'accesso alla risorsa
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
Directory listing bloccato
36. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect36/67
HTTP status code: 301 (permanent redirect)
Cosa vuol dire
La risorsa redirige in modo permanente ad una
seconda risorsa.
Come si comporta Google
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa
risorsa in precedenza restituiva un codice 200,
aggiorna i risultati della SERP con la nuova.
Utilizzo tipico
Cambio URL di una pagina
37. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect37/67
HTTP status code: 302 (temporary redirect)
Cosa vuol dire
La risorsa redirige in modo temporaneo ad una seconda
risorsa.
Come si comporta Google
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa risorsa
in precedenza restituiva un codice 200, i risultati della
SERP solitamente mantengono la pagina precedente.
Utilizzo tipico
Cambio di URL di una pagina
38. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect38/67
HTTP status code: 503 (service unavailable)
Cosa vuol dire
La risorsa non è temporaneamente disponibile.
Come si comporta Google
Non scansiona la pagina. La priorità di crawling
non cambia, quando il crawler trova nuovamente
un codice 200, ritorna a scansionare. La pagina
non viene rimossa dalla SERP (per un po').
Utilizzo tipico
Sito o pagina in manutenzione
39. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect39/67
HTTP status code: 500 (server error)
Cosa vuol dire
Il server ha incontrato un errore nel fornire la
risorsa.
Come si comporta Google
Non scansiona la pagina. La priorità di crawling
non cambia, ma il perdurare dell'errore può
causare la rimozione della stessa dalla SERP.
Utilizzo tipico
Errore non voluto, da risolvere
40. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect40/67
DICE IL SAGGIO...
410, 404
SEMPRE MORTA PAGINA È
42. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect42/67
rel canonical: a cosa serve
● Ad indicare la versione canonica di una
risorsa (se non è possibile fare redirect)
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
<link rel=”canonical” href=”http://www.esempio.com/pagina”>
43. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect43/67
rel canonical: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo.
Non bloccare con robots.txt!
● Può facilmente andare in conflitto con altre istruzioni,
ad esempio:
• paginazione
• meta robots nofollow
• meta robots noindex
● In caso di istruzioni contrastanti, viene tipicamente
ignorato
44. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect44/67
rel canonical: benefici
● Permette di trasferire l'autorità di pagina
anche senza fare il redirect 301
● Riduce il carico del server riducendo il
crawling delle URL non canoniche
(duplicate)
● Risparmia crawling budget per la
scansione di nuove risorse o
l'aggiornamento di quelle canoniche
45. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect45/67
DICE IL SAGGIO...
NON INCROCIARE I FLUSSI
DEL REL CANONICAL
47. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect47/67
rel next/prev: a cosa serve
● Ad indicare una struttura a paginazione
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
(non documentato)
<link rel=”next” href=”http://www.esempio.com/pagina/4”>
<link rel=”prev” href=”http://www.esempio.com/pagina/2”>
48. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect48/67
rel next/prev: benefici
● Facilita l'URL discovery
● Velocizza la comprensione del link graph
interno
● Consolida i backlink alle pagine interne
orientandoli alla pagina principale
49. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect49/67
rel next/prev: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Può facilmente andare in conflitto con
altre istruzioni (ad esempio: rel canonical
ad una versione non paginata)
● In caso di istruzioni contrastanti, viene
tipicamente ignorato
50. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect50/67
DICE IL SAGGIO...
L'UNIONE DELLE PAGINE
FA LA FORZA
52. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect52/67
rel alternate hreflang: a cosa serve
● Ad indicare le traduzioni di una risorsa
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
<link rel=”alternate” hreflang=”en-us” href=”http://www.esempio.com/”>
<link rel=”alternate” hreflang=”en-uk” href=”http://www.esempio.com/uk/”>
<link rel=”alternate” hreflang=”en-au” href=”http://www.esempio.com/au/”>
53. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect53/67
rel alternate hreflang: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
54. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect54/67
rel hreflang: attenzione a...
● Ci sono istruzioni specifiche per
l'homepage di default
● Le istruzioni hreflang devono essere
reciproche
● Le URL mappate devono essere quelle
canoniche
55. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect55/67
DICE IL SAGGIO...
CHE NON BISOGNA
INCROCIARE I FLUSSI
DEL REL CANONICAL
L'HO GIÀ DETTO?
57. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect57/67
sitemap.xml: a cosa serve
● Ad elencare tutte le URL che si desidera
vengano scansionate
● E' un file di testo in formato XML
● Può essere generata dinamicamente
58. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect58/67
sitemap.xml: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
59. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect59/67
sitemap.xml: attenzione a...
● Inserire solo le URL canoniche
● Inserire solo URL con HTTP status 200
● Le istruzioni lastmod, changefreq e
priority vengono tipicamente ignorate
60. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect60/67
DICE IL SAGGIO...
DACCI DEGLI URL
TANTI URL
BUONI URL
62. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect62/67
rel nofollow: a cosa serve
● Ad indicare di non considerare un singolo URL
come parte del link graph
● Nasce come istruzione per gestire i link non
affidabili (ad esempio, se generati dagli utenti)
● Tipicamente si usa per i link artificiali
● Google non scansiona le risorse con rel nofollow, a
meno che non siano linkate da qualche altra parte
<a rel=”nofollow” href=”http://www.esempio.com”>Testo</a>
63. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect63/67
rel nofollow: attenzione a...
● Può aiutare ad isolare una sezione del sito
dal crawling, ma…
● E' un'istruzione frammentata per natura,
la manutenzione può essere molto
onerosa
● Non nasce come strumento per il
controllo del crawling
64. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect64/67
DICE IL SAGGIO...
SE HAI CHIODO, USA MARTELLO
SE HAI ROTTO, USA COLLA
SE HAI LINKETTO, USA NOFOLLOW
66. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect66/67
Robots.txt
http://tools.seobook.com/robots-txt/
http://abertram.com/technical-seo/nosnippet-and-noarchive-inside-robots-txt/
http://seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870
Meta robots e X-Robots-Tag
http://googlewebmastercentral.blogspot.it/2007/03/using-robots-meta-tag.html
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Header HTTP
http://searchenginewatch.com/sew/news/2334932/ecommerce-seo-tips-for-unavailable-products-from-googles-matt-cutts
http://searchenginewatch.com/sew/how-to/2340728/matt-cutts-on-how-google-handles-404-410-status-codes
http://googlewebmastercentral.blogspot.it/2011/01/how-to-deal-with-planned-site-downtime.html
Rel canonical
http://www.engeene.it/5-errori-comuni-con-il-relcanonical/
https://ignitevisibility.com/rel-canonical-and-no-index-no-follow-on-same-page-google-seo/
http://googlewebmastercentral.blogspot.it/2011/06/supporting-relcanonical-http-headers.html
http://googlewebmastercentral.blogspot.it/2011/09/view-all-in-search-results.html
http://dejanseo.com.au/noindex-competitors/
Rel next/prev
http://googlewebmastercentral.blogspot.it/2011/09/pagination-with-relnext-and-relprev.html
http://googlewebmastercentral.blogspot.it/2012/03/video-about-pagination-with-relnext-and.html
Rel alternate hreflang
https://support.google.com/webmasters/answer/189077?hl=it
https://plus.google.com/+JohnMueller/posts/17fbv5phpks
http://www.seerinteractive.com/blog/case-study-the-impact-of-hreflang-tag/
67. Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect67/67
Grazie!
Spazio alle domande...
Per ulteriori informazioni:
Email: info@martinomosna.com
Twitter: @martinomosna
Google+: +MartinoMosna