SlideShare a Scribd company logo
1 of 67
Download to read offline
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect1/67
Dalla SEO alla CBO
Il Crawling Budget Optimization
di Martino Mosna
Basi, metodo, strumenti e pasticci vari.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect2/67
● Specialista SEO dal 2006
● Freelance dal 2011
● Ha imparato a parlare con
le persone
● Ha imparato a parlare con
le macchine
Chi vi parla: Martino MosnaChi vi parla: Martino Mosna
Basi metodologiche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect4/67
Il Crawling
Scheduler
Crawling
Archiviazione
Indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect5/67
Perché “budget”?
Fonte: http://www.google.com/about/datacenters/gallery/#/tech/2
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect6/67
Perché “budget”?
http://www.google.com/insidesearch/howsearchworks/thestory/
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect7/67
Perché “budget”?
INTERNET
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect8/67
Perché “budget”?
INTERNET Le risorse
di Google
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect9/67
Perché “budget”?
INTERNET
Il nostro sito
Le risorse
di Google
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect10/67
Perché ottimizzare?
● Non è solo un problema dei Crawler
● Si arriva più velocemente in SERP
● Si riduce la cannibalizzazione delle
query
● Il link graph interno è calcolato meglio
● Siamo SEO o quaqquaraquà?
robots.txt
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect12/67
robots.txt: a cosa serve
● È un file di testo accessibile da un client
● Regola l'accesso alle risorse
● Non impedisce ai motori di mostrare la
risorsa in SERP
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect13/67
robots.txt: sintassi standard
User-agent:
● Serve per indicare a
quale crawler sono
dirette le istruzioni
● Può essere indirizzato a
tutti i crawler,
utilizzando *
Disallow:
● Indica ai crawler di non
effettuare l'accesso alle
risorse
● Possono essere pagine o
intere cartelle
● Inserendo la cartella
radice “/” si esclude tutto
il sito
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect14/67
robots.txt: sintassi non standard
Allow:
● Serve per fare delle eccezioni
alla regola
Crawl-delay:
● Non è rispettato da Google
Segnaposto:
● * per indicare qualsiasi carattere
● $ per indicare il termine
dell'URL
Sitemap:
● Indica la posizione della
sitemap XML
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect15/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect16/67
robots.txt: sintassi non documentata
Noarchive e
nosnippet:
Google sembra interpretarli
esattamente come la
corrispondente istruzione meta
robots
Noindex:
Google sembra interpretarlo
come “Disallow”
DON'T
TRY
THIS AT
W
ORK
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect17/67
DICE IL SAGGIO...
NEL ROBOTS.TXT
IL NOINDEX NON USARE
O POTRESTI FARTI MALE
meta robots
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect19/67
meta robots: a cosa serve
● È un'istruzione di markup HTML
● A determinare se e come una pagina deve
apparire nei risultati di ricerca
● Per escludere dal link graph tutti i link che
contiene
<meta name=”robots” content=”noindex,follow”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect20/67
meta robots: index/noindex
● L'istruzione “index” è default
● L'istruzione “noindex” viene eseguita
come “non mostrare in SERP”
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect21/67
meta robots: follow/nofollow
● L'istruzione “follow” è default
● L'istruzione “nofollow” indica al
motore di ricerca di ignorare
qualunque link presente in pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect22/67
meta robots: altri valori
noodp:
● Indica di non mostrare la
descrizione di ODP/DMOZ
nosnippet:
● Indica di non mostrare alcuna
snippet in SERP
● Non viene mostrata alcuna cache
in SERP
none:
● Equivale a “noindex, nofollow”
noarchive:
● Indica di non mostrare alcuna
cache in SERP
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect23/67
meta robots: altri valori /2
notranslate:
● Non proporre la traduzione
della pagina nei risultati di
ricerca.
noimageindex:
● Non indicizzare le immagini
in questa pagina.
unavailable_after:
● Non mostrare questa pagina
nei risultati di ricerca dopo la
data/l'ora specificata
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect24/67
meta robots: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Il Crawler continuerà a scaricare e
archiviare la pagina anche in presenza si
un'istruzione noindex
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect25/67
DICE IL SAGGIO...
TU DICI NOINDEX
IO CAPISCO NOVEDI
Header HTTP X-Robots-Tag
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect27/67
X-Robots-Tag: a cosa serve
● È un'istruzione degli header HTTP della
risorsa
● È in tutto equivalente all'istruzione meta
robots
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00
PST
(…)
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect28/67
X-Robots-Tag: differenze
Perché usarli al posto dei meta?
● Possono essere utilizzati anche per
documenti non HTML (es: PDF,
immagini)
● Nel caso in cui si abbia accesso alle
configurazioni del server, ma non sia
possibile modificare i template di pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect29/67
DICE IL SAGGIO...
NON DI SOLI METATAG
VIVONO I CRAWLER
Header HTTP status code
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect31/67
HTTP status code: a cosa serve
● È in assoluto la prima informazione sullo stato
della pagina
● È al cuore del funzionamento della dinamica
client/server
● Puoi gestirli bene o male, ma non si possono non
usare
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect32/67
HTTP status code: 200 (found)
Cosa vuol dire
Il server possiede la risorsa richiesta
Come si comporta Google
In assenza di blocchi o limitazioni (robots.txt,
meta robots, etc), scansiona la pagina, la archivia,
la indicizza e la mostra in SERP
Utilizzo tipico
E' lo status code della stragrande maggioranza
delle pagine di un sito web.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect33/67
HTTP status code: 404 (not found)
Cosa vuol dire
Il server non possiede la risorsa richiesta
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
URL errato o pagina rimossa dal sito
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect34/67
HTTP status code: 410 (gone)
Cosa vuol dire
Il server possedeva la risorsa, ma questa è stata
deliberatamente rimossa.
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa in
precedenza restituiva un codice 200, la rimuove
dalla SERP.
Utilizzo tipico
Pagina rimossa dal sito.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect35/67
HTTP status code: 403 (forbidden)
Cosa vuol dire
Il server non permette l'accesso alla risorsa
Come si comporta Google
Non scansiona la pagina. Se la stessa risorsa
in precedenza restituiva un codice 200, la
rimuove dalla SERP.
Utilizzo tipico
Directory listing bloccato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect36/67
HTTP status code: 301 (permanent redirect)
Cosa vuol dire
La risorsa redirige in modo permanente ad una
seconda risorsa.
Come si comporta Google
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa
risorsa in precedenza restituiva un codice 200,
aggiorna i risultati della SERP con la nuova.
Utilizzo tipico
Cambio URL di una pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect37/67
HTTP status code: 302 (temporary redirect)
Cosa vuol dire
La risorsa redirige in modo temporaneo ad una seconda
risorsa.
Come si comporta Google
L'URL di destinazione viene inserito nello scheduler (la
priorità può dipendere da molti fattori). Se la stessa risorsa
in precedenza restituiva un codice 200, i risultati della
SERP solitamente mantengono la pagina precedente.
Utilizzo tipico
Cambio di URL di una pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect38/67
HTTP status code: 503 (service unavailable)
Cosa vuol dire
La risorsa non è temporaneamente disponibile.
Come si comporta Google
Non scansiona la pagina. La priorità di crawling
non cambia, quando il crawler trova nuovamente
un codice 200, ritorna a scansionare. La pagina
non viene rimossa dalla SERP (per un po').
Utilizzo tipico
Sito o pagina in manutenzione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect39/67
HTTP status code: 500 (server error)
Cosa vuol dire
Il server ha incontrato un errore nel fornire la
risorsa.
Come si comporta Google
Non scansiona la pagina. La priorità di crawling
non cambia, ma il perdurare dell'errore può
causare la rimozione della stessa dalla SERP.
Utilizzo tipico
Errore non voluto, da risolvere
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect40/67
DICE IL SAGGIO...
410, 404
SEMPRE MORTA PAGINA È
rel canonical
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect42/67
rel canonical: a cosa serve
● Ad indicare la versione canonica di una
risorsa (se non è possibile fare redirect)
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
<link rel=”canonical” href=”http://www.esempio.com/pagina”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect43/67
rel canonical: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo.
Non bloccare con robots.txt!
● Può facilmente andare in conflitto con altre istruzioni,
ad esempio:
• paginazione
• meta robots nofollow
• meta robots noindex
● In caso di istruzioni contrastanti, viene tipicamente
ignorato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect44/67
rel canonical: benefici
● Permette di trasferire l'autorità di pagina
anche senza fare il redirect 301
● Riduce il carico del server riducendo il
crawling delle URL non canoniche
(duplicate)
● Risparmia crawling budget per la
scansione di nuove risorse o
l'aggiornamento di quelle canoniche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect45/67
DICE IL SAGGIO...
NON INCROCIARE I FLUSSI
DEL REL CANONICAL
rel next-prev
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect47/67
rel next/prev: a cosa serve
● Ad indicare una struttura a paginazione
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
(non documentato)
<link rel=”next” href=”http://www.esempio.com/pagina/4”>
<link rel=”prev” href=”http://www.esempio.com/pagina/2”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect48/67
rel next/prev: benefici
● Facilita l'URL discovery
● Velocizza la comprensione del link graph
interno
● Consolida i backlink alle pagine interne
orientandoli alla pagina principale
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect49/67
rel next/prev: attenzione a...
● Il Crawler deve poter accedere alla risorsa
per leggerlo. Non bloccare con robots.txt!
● Può facilmente andare in conflitto con
altre istruzioni (ad esempio: rel canonical
ad una versione non paginata)
● In caso di istruzioni contrastanti, viene
tipicamente ignorato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect50/67
DICE IL SAGGIO...
L'UNIONE DELLE PAGINE
FA LA FORZA
rel alternate hreflang
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect52/67
rel alternate hreflang: a cosa serve
● Ad indicare le traduzioni di una risorsa
● Tipicamente è un'istruzione di markup
HTML
● Può essere inserito negli header HTTP
<link rel=”alternate” hreflang=”en-us” href=”http://www.esempio.com/”>
<link rel=”alternate” hreflang=”en-uk” href=”http://www.esempio.com/uk/”>
<link rel=”alternate” hreflang=”en-au” href=”http://www.esempio.com/au/”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect53/67
rel alternate hreflang: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect54/67
rel hreflang: attenzione a...
● Ci sono istruzioni specifiche per
l'homepage di default
● Le istruzioni hreflang devono essere
reciproche
● Le URL mappate devono essere quelle
canoniche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect55/67
DICE IL SAGGIO...
CHE NON BISOGNA
INCROCIARE I FLUSSI
DEL REL CANONICAL
L'HO GIÀ DETTO?
sitemap.xml
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect57/67
sitemap.xml: a cosa serve
● Ad elencare tutte le URL che si desidera
vengano scansionate
● E' un file di testo in formato XML
● Può essere generata dinamicamente
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect58/67
sitemap.xml: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect59/67
sitemap.xml: attenzione a...
● Inserire solo le URL canoniche
● Inserire solo URL con HTTP status 200
● Le istruzioni lastmod, changefreq e
priority vengono tipicamente ignorate
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect60/67
DICE IL SAGGIO...
DACCI DEGLI URL
TANTI URL
BUONI URL
rel nofollow
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect62/67
rel nofollow: a cosa serve
● Ad indicare di non considerare un singolo URL
come parte del link graph
● Nasce come istruzione per gestire i link non
affidabili (ad esempio, se generati dagli utenti)
● Tipicamente si usa per i link artificiali
● Google non scansiona le risorse con rel nofollow, a
meno che non siano linkate da qualche altra parte
<a rel=”nofollow” href=”http://www.esempio.com”>Testo</a>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect63/67
rel nofollow: attenzione a...
● Può aiutare ad isolare una sezione del sito
dal crawling, ma…
● E' un'istruzione frammentata per natura,
la manutenzione può essere molto
onerosa
● Non nasce come strumento per il
controllo del crawling
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect64/67
DICE IL SAGGIO...
SE HAI CHIODO, USA MARTELLO
SE HAI ROTTO, USA COLLA
SE HAI LINKETTO, USA NOFOLLOW
bibliografia
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect66/67
Robots.txt
http://tools.seobook.com/robots-txt/
http://abertram.com/technical-seo/nosnippet-and-noarchive-inside-robots-txt/
http://seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870
Meta robots e X-Robots-Tag
http://googlewebmastercentral.blogspot.it/2007/03/using-robots-meta-tag.html
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Header HTTP
http://searchenginewatch.com/sew/news/2334932/ecommerce-seo-tips-for-unavailable-products-from-googles-matt-cutts
http://searchenginewatch.com/sew/how-to/2340728/matt-cutts-on-how-google-handles-404-410-status-codes
http://googlewebmastercentral.blogspot.it/2011/01/how-to-deal-with-planned-site-downtime.html
Rel canonical
http://www.engeene.it/5-errori-comuni-con-il-relcanonical/
https://ignitevisibility.com/rel-canonical-and-no-index-no-follow-on-same-page-google-seo/
http://googlewebmastercentral.blogspot.it/2011/06/supporting-relcanonical-http-headers.html
http://googlewebmastercentral.blogspot.it/2011/09/view-all-in-search-results.html
http://dejanseo.com.au/noindex-competitors/
Rel next/prev
http://googlewebmastercentral.blogspot.it/2011/09/pagination-with-relnext-and-relprev.html
http://googlewebmastercentral.blogspot.it/2012/03/video-about-pagination-with-relnext-and.html
Rel alternate hreflang
https://support.google.com/webmasters/answer/189077?hl=it
https://plus.google.com/+JohnMueller/posts/17fbv5phpks
http://www.seerinteractive.com/blog/case-study-the-impact-of-hreflang-tag/
Search Marketing Connect - 20 e 21 Novembre 2015, Milano
#SMConnect67/67
Grazie!
Spazio alle domande...
Per ulteriori informazioni:
Email: info@martinomosna.com
Twitter: @martinomosna
Google+: +MartinoMosna

More Related Content

Similar to Dalla SEO alla CBO: Il Crawling Budget Optimization

Similar to Dalla SEO alla CBO: Il Crawling Budget Optimization (20)

Il Link Building Oggi: Valore dei Link, Strumenti e Strategie
Il Link Building Oggi: Valore dei Link, Strumenti e Strategie Il Link Building Oggi: Valore dei Link, Strumenti e Strategie
Il Link Building Oggi: Valore dei Link, Strumenti e Strategie
 
Le Penalizzazioni Di Google
Le Penalizzazioni Di GoogleLe Penalizzazioni Di Google
Le Penalizzazioni Di Google
 
AST 19 - Nittoli - Analisi e ottimizzazione delle SERP
AST 19 - Nittoli - Analisi e ottimizzazione delle SERPAST 19 - Nittoli - Analisi e ottimizzazione delle SERP
AST 19 - Nittoli - Analisi e ottimizzazione delle SERP
 
Seo Audit Demo
Seo Audit DemoSeo Audit Demo
Seo Audit Demo
 
10 aspetti SEO da non trascurare mai in un E-commerce
10 aspetti SEO da non trascurare mai in un E-commerce10 aspetti SEO da non trascurare mai in un E-commerce
10 aspetti SEO da non trascurare mai in un E-commerce
 
Analisi dei competitor con Screaming Frog
Analisi dei competitor con Screaming FrogAnalisi dei competitor con Screaming Frog
Analisi dei competitor con Screaming Frog
 
SEO & SEM - Web Marketing e Information Retrieval
SEO & SEM - Web Marketing e Information RetrievalSEO & SEM - Web Marketing e Information Retrieval
SEO & SEM - Web Marketing e Information Retrieval
 
Le basi della SEO per i blogger @TBNetalks
Le basi della SEO per i blogger @TBNetalksLe basi della SEO per i blogger @TBNetalks
Le basi della SEO per i blogger @TBNetalks
 
Lezione sulla SEO presso la Facoltà di Economia di Roma Tre.
Lezione sulla SEO presso la Facoltà di Economia di Roma Tre.Lezione sulla SEO presso la Facoltà di Economia di Roma Tre.
Lezione sulla SEO presso la Facoltà di Economia di Roma Tre.
 
Session isolation e rendering delle pagine web
Session isolation e rendering delle pagine webSession isolation e rendering delle pagine web
Session isolation e rendering delle pagine web
 
21 SEO actions per il lancio di un nuovo sito
21 SEO actions per il lancio di un nuovo sito21 SEO actions per il lancio di un nuovo sito
21 SEO actions per il lancio di un nuovo sito
 
Guida pratica all'ottimizzazione per motori di ricerca
Guida pratica all'ottimizzazione per motori di ricercaGuida pratica all'ottimizzazione per motori di ricerca
Guida pratica all'ottimizzazione per motori di ricerca
 
Seo html russo
Seo html russoSeo html russo
Seo html russo
 
Evoluzione della link buidling - Webinar Monari per Semrush/WME
Evoluzione della link buidling - Webinar Monari per Semrush/WMEEvoluzione della link buidling - Webinar Monari per Semrush/WME
Evoluzione della link buidling - Webinar Monari per Semrush/WME
 
SEO: Search Engine Optimization & Cloud computing
SEO: Search Engine Optimization & Cloud computingSEO: Search Engine Optimization & Cloud computing
SEO: Search Engine Optimization & Cloud computing
 
301 modi di fare Redirect
301 modi di fare Redirect301 modi di fare Redirect
301 modi di fare Redirect
 
I link interni sono fattori di rank? Scopriamolo!
I link interni sono fattori di rank? Scopriamolo!I link interni sono fattori di rank? Scopriamolo!
I link interni sono fattori di rank? Scopriamolo!
 
Ottimizzare il ROI di una campagnal link-building - Monari SEO al Web Marketi...
Ottimizzare il ROI di una campagnal link-building - Monari SEO al Web Marketi...Ottimizzare il ROI di una campagnal link-building - Monari SEO al Web Marketi...
Ottimizzare il ROI di una campagnal link-building - Monari SEO al Web Marketi...
 
SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol
SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion ProtocolSEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol
SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol
 
Link Building in scala di grigi
Link Building in scala di grigiLink Building in scala di grigi
Link Building in scala di grigi
 

More from Martino Mosna

More from Martino Mosna (16)

Riscopriamo il PageRank
Riscopriamo il PageRankRiscopriamo il PageRank
Riscopriamo il PageRank
 
Introduzione a Matomo
Introduzione a MatomoIntroduzione a Matomo
Introduzione a Matomo
 
(not so) Private Blog Networks
(not so) Private Blog Networks(not so) Private Blog Networks
(not so) Private Blog Networks
 
Domare la Navigazione a Faccette per ottimizzare il processo di scansione
Domare la Navigazione a Faccette per ottimizzare il processo di scansioneDomare la Navigazione a Faccette per ottimizzare il processo di scansione
Domare la Navigazione a Faccette per ottimizzare il processo di scansione
 
Morfologia delle SERP: un'antologia SEO
Morfologia delle SERP: un'antologia SEOMorfologia delle SERP: un'antologia SEO
Morfologia delle SERP: un'antologia SEO
 
Keyword Discovery: Costruisci il tuo tool fatto in casa!
Keyword Discovery: Costruisci il tuo tool fatto in casa!Keyword Discovery: Costruisci il tuo tool fatto in casa!
Keyword Discovery: Costruisci il tuo tool fatto in casa!
 
PIKAC! Un moderno framework SEO (a prova di algoritmo)
PIKAC! Un moderno framework SEO (a prova di algoritmo)PIKAC! Un moderno framework SEO (a prova di algoritmo)
PIKAC! Un moderno framework SEO (a prova di algoritmo)
 
Advanced Cross Platform Tracking: Attribuire le conversioni ovunque!
Advanced Cross Platform Tracking: Attribuire le conversioni ovunque!Advanced Cross Platform Tracking: Attribuire le conversioni ovunque!
Advanced Cross Platform Tracking: Attribuire le conversioni ovunque!
 
Precisione e Recupero: Principi e conseguenze pratiche
Precisione e Recupero: Principi e conseguenze pratichePrecisione e Recupero: Principi e conseguenze pratiche
Precisione e Recupero: Principi e conseguenze pratiche
 
Misurare il SEO nell'era della Dark Search
Misurare il SEO nell'era della Dark SearchMisurare il SEO nell'era della Dark Search
Misurare il SEO nell'era della Dark Search
 
Export all the data! Rapporti avanzati per SEO e PPC
Export all the data! Rapporti avanzati per SEO e PPCExport all the data! Rapporti avanzati per SEO e PPC
Export all the data! Rapporti avanzati per SEO e PPC
 
Local + Web + Mobile: Il turismo per strada nell'era di internet
Local + Web + Mobile: Il turismo per strada nell'era di internetLocal + Web + Mobile: Il turismo per strada nell'era di internet
Local + Web + Mobile: Il turismo per strada nell'era di internet
 
Headless Browser, Quality Rater, Query Intent: Il Fattore SEO Umano
Headless Browser, Quality Rater, Query Intent: Il Fattore SEO UmanoHeadless Browser, Quality Rater, Query Intent: Il Fattore SEO Umano
Headless Browser, Quality Rater, Query Intent: Il Fattore SEO Umano
 
GWT + Google Analytics = SEO Love
GWT + Google Analytics = SEO LoveGWT + Google Analytics = SEO Love
GWT + Google Analytics = SEO Love
 
Google Adwords per gli ecommerce: un caso di studio
Google Adwords per gli ecommerce: un caso di studioGoogle Adwords per gli ecommerce: un caso di studio
Google Adwords per gli ecommerce: un caso di studio
 
(not provided): E' possibile fare SEO senza le parole chiave?
(not provided): E' possibile fare SEO senza le parole chiave?(not provided): E' possibile fare SEO senza le parole chiave?
(not provided): E' possibile fare SEO senza le parole chiave?
 

Dalla SEO alla CBO: Il Crawling Budget Optimization

  • 1. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect1/67 Dalla SEO alla CBO Il Crawling Budget Optimization di Martino Mosna Basi, metodo, strumenti e pasticci vari.
  • 2. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect2/67 ● Specialista SEO dal 2006 ● Freelance dal 2011 ● Ha imparato a parlare con le persone ● Ha imparato a parlare con le macchine Chi vi parla: Martino MosnaChi vi parla: Martino Mosna
  • 4. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect4/67 Il Crawling Scheduler Crawling Archiviazione Indicizzazione
  • 5. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect5/67 Perché “budget”? Fonte: http://www.google.com/about/datacenters/gallery/#/tech/2
  • 6. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect6/67 Perché “budget”? http://www.google.com/insidesearch/howsearchworks/thestory/
  • 7. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect7/67 Perché “budget”? INTERNET
  • 8. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect8/67 Perché “budget”? INTERNET Le risorse di Google
  • 9. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect9/67 Perché “budget”? INTERNET Il nostro sito Le risorse di Google
  • 10. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect10/67 Perché ottimizzare? ● Non è solo un problema dei Crawler ● Si arriva più velocemente in SERP ● Si riduce la cannibalizzazione delle query ● Il link graph interno è calcolato meglio ● Siamo SEO o quaqquaraquà?
  • 12. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect12/67 robots.txt: a cosa serve ● È un file di testo accessibile da un client ● Regola l'accesso alle risorse ● Non impedisce ai motori di mostrare la risorsa in SERP
  • 13. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect13/67 robots.txt: sintassi standard User-agent: ● Serve per indicare a quale crawler sono dirette le istruzioni ● Può essere indirizzato a tutti i crawler, utilizzando * Disallow: ● Indica ai crawler di non effettuare l'accesso alle risorse ● Possono essere pagine o intere cartelle ● Inserendo la cartella radice “/” si esclude tutto il sito
  • 14. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect14/67 robots.txt: sintassi non standard Allow: ● Serve per fare delle eccezioni alla regola Crawl-delay: ● Non è rispettato da Google Segnaposto: ● * per indicare qualsiasi carattere ● $ per indicare il termine dell'URL Sitemap: ● Indica la posizione della sitemap XML
  • 15. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect15/67 robots.txt: sintassi non documentata Noarchive e nosnippet: Google sembra interpretarli esattamente come la corrispondente istruzione meta robots Noindex: Google sembra interpretarlo come “Disallow”
  • 16. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect16/67 robots.txt: sintassi non documentata Noarchive e nosnippet: Google sembra interpretarli esattamente come la corrispondente istruzione meta robots Noindex: Google sembra interpretarlo come “Disallow” DON'T TRY THIS AT W ORK
  • 17. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect17/67 DICE IL SAGGIO... NEL ROBOTS.TXT IL NOINDEX NON USARE O POTRESTI FARTI MALE
  • 19. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect19/67 meta robots: a cosa serve ● È un'istruzione di markup HTML ● A determinare se e come una pagina deve apparire nei risultati di ricerca ● Per escludere dal link graph tutti i link che contiene <meta name=”robots” content=”noindex,follow”>
  • 20. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect20/67 meta robots: index/noindex ● L'istruzione “index” è default ● L'istruzione “noindex” viene eseguita come “non mostrare in SERP”
  • 21. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect21/67 meta robots: follow/nofollow ● L'istruzione “follow” è default ● L'istruzione “nofollow” indica al motore di ricerca di ignorare qualunque link presente in pagina
  • 22. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect22/67 meta robots: altri valori noodp: ● Indica di non mostrare la descrizione di ODP/DMOZ nosnippet: ● Indica di non mostrare alcuna snippet in SERP ● Non viene mostrata alcuna cache in SERP none: ● Equivale a “noindex, nofollow” noarchive: ● Indica di non mostrare alcuna cache in SERP
  • 23. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect23/67 meta robots: altri valori /2 notranslate: ● Non proporre la traduzione della pagina nei risultati di ricerca. noimageindex: ● Non indicizzare le immagini in questa pagina. unavailable_after: ● Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificata
  • 24. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect24/67 meta robots: attenzione a... ● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt! ● Il Crawler continuerà a scaricare e archiviare la pagina anche in presenza si un'istruzione noindex
  • 25. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect25/67 DICE IL SAGGIO... TU DICI NOINDEX IO CAPISCO NOVEDI
  • 27. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect27/67 X-Robots-Tag: a cosa serve ● È un'istruzione degli header HTTP della risorsa ● È in tutto equivalente all'istruzione meta robots HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)
  • 28. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect28/67 X-Robots-Tag: differenze Perché usarli al posto dei meta? ● Possono essere utilizzati anche per documenti non HTML (es: PDF, immagini) ● Nel caso in cui si abbia accesso alle configurazioni del server, ma non sia possibile modificare i template di pagina
  • 29. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect29/67 DICE IL SAGGIO... NON DI SOLI METATAG VIVONO I CRAWLER
  • 31. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect31/67 HTTP status code: a cosa serve ● È in assoluto la prima informazione sullo stato della pagina ● È al cuore del funzionamento della dinamica client/server ● Puoi gestirli bene o male, ma non si possono non usare HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…)
  • 32. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect32/67 HTTP status code: 200 (found) Cosa vuol dire Il server possiede la risorsa richiesta Come si comporta Google In assenza di blocchi o limitazioni (robots.txt, meta robots, etc), scansiona la pagina, la archivia, la indicizza e la mostra in SERP Utilizzo tipico E' lo status code della stragrande maggioranza delle pagine di un sito web.
  • 33. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect33/67 HTTP status code: 404 (not found) Cosa vuol dire Il server non possiede la risorsa richiesta Come si comporta Google Non scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP. Utilizzo tipico URL errato o pagina rimossa dal sito
  • 34. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect34/67 HTTP status code: 410 (gone) Cosa vuol dire Il server possedeva la risorsa, ma questa è stata deliberatamente rimossa. Come si comporta Google Non scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP. Utilizzo tipico Pagina rimossa dal sito.
  • 35. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect35/67 HTTP status code: 403 (forbidden) Cosa vuol dire Il server non permette l'accesso alla risorsa Come si comporta Google Non scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP. Utilizzo tipico Directory listing bloccato
  • 36. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect36/67 HTTP status code: 301 (permanent redirect) Cosa vuol dire La risorsa redirige in modo permanente ad una seconda risorsa. Come si comporta Google L'URL di destinazione viene inserito nello scheduler (la priorità può dipendere da molti fattori). Se la stessa risorsa in precedenza restituiva un codice 200, aggiorna i risultati della SERP con la nuova. Utilizzo tipico Cambio URL di una pagina
  • 37. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect37/67 HTTP status code: 302 (temporary redirect) Cosa vuol dire La risorsa redirige in modo temporaneo ad una seconda risorsa. Come si comporta Google L'URL di destinazione viene inserito nello scheduler (la priorità può dipendere da molti fattori). Se la stessa risorsa in precedenza restituiva un codice 200, i risultati della SERP solitamente mantengono la pagina precedente. Utilizzo tipico Cambio di URL di una pagina
  • 38. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect38/67 HTTP status code: 503 (service unavailable) Cosa vuol dire La risorsa non è temporaneamente disponibile. Come si comporta Google Non scansiona la pagina. La priorità di crawling non cambia, quando il crawler trova nuovamente un codice 200, ritorna a scansionare. La pagina non viene rimossa dalla SERP (per un po'). Utilizzo tipico Sito o pagina in manutenzione
  • 39. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect39/67 HTTP status code: 500 (server error) Cosa vuol dire Il server ha incontrato un errore nel fornire la risorsa. Come si comporta Google Non scansiona la pagina. La priorità di crawling non cambia, ma il perdurare dell'errore può causare la rimozione della stessa dalla SERP. Utilizzo tipico Errore non voluto, da risolvere
  • 40. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect40/67 DICE IL SAGGIO... 410, 404 SEMPRE MORTA PAGINA È
  • 42. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect42/67 rel canonical: a cosa serve ● Ad indicare la versione canonica di una risorsa (se non è possibile fare redirect) ● Tipicamente è un'istruzione di markup HTML ● Può essere inserito negli header HTTP <link rel=”canonical” href=”http://www.esempio.com/pagina”>
  • 43. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect43/67 rel canonical: attenzione a... ● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt! ● Può facilmente andare in conflitto con altre istruzioni, ad esempio: • paginazione • meta robots nofollow • meta robots noindex ● In caso di istruzioni contrastanti, viene tipicamente ignorato
  • 44. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect44/67 rel canonical: benefici ● Permette di trasferire l'autorità di pagina anche senza fare il redirect 301 ● Riduce il carico del server riducendo il crawling delle URL non canoniche (duplicate) ● Risparmia crawling budget per la scansione di nuove risorse o l'aggiornamento di quelle canoniche
  • 45. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect45/67 DICE IL SAGGIO... NON INCROCIARE I FLUSSI DEL REL CANONICAL
  • 47. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect47/67 rel next/prev: a cosa serve ● Ad indicare una struttura a paginazione ● Tipicamente è un'istruzione di markup HTML ● Può essere inserito negli header HTTP (non documentato) <link rel=”next” href=”http://www.esempio.com/pagina/4”> <link rel=”prev” href=”http://www.esempio.com/pagina/2”>
  • 48. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect48/67 rel next/prev: benefici ● Facilita l'URL discovery ● Velocizza la comprensione del link graph interno ● Consolida i backlink alle pagine interne orientandoli alla pagina principale
  • 49. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect49/67 rel next/prev: attenzione a... ● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt! ● Può facilmente andare in conflitto con altre istruzioni (ad esempio: rel canonical ad una versione non paginata) ● In caso di istruzioni contrastanti, viene tipicamente ignorato
  • 50. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect50/67 DICE IL SAGGIO... L'UNIONE DELLE PAGINE FA LA FORZA
  • 52. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect52/67 rel alternate hreflang: a cosa serve ● Ad indicare le traduzioni di una risorsa ● Tipicamente è un'istruzione di markup HTML ● Può essere inserito negli header HTTP <link rel=”alternate” hreflang=”en-us” href=”http://www.esempio.com/”> <link rel=”alternate” hreflang=”en-uk” href=”http://www.esempio.com/uk/”> <link rel=”alternate” hreflang=”en-au” href=”http://www.esempio.com/au/”>
  • 53. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect53/67 rel alternate hreflang: benefici ● Facilita enormemente l'URL discovery ● Velocizza drasticamente l'indicizzazione
  • 54. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect54/67 rel hreflang: attenzione a... ● Ci sono istruzioni specifiche per l'homepage di default ● Le istruzioni hreflang devono essere reciproche ● Le URL mappate devono essere quelle canoniche
  • 55. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect55/67 DICE IL SAGGIO... CHE NON BISOGNA INCROCIARE I FLUSSI DEL REL CANONICAL L'HO GIÀ DETTO?
  • 57. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect57/67 sitemap.xml: a cosa serve ● Ad elencare tutte le URL che si desidera vengano scansionate ● E' un file di testo in formato XML ● Può essere generata dinamicamente
  • 58. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect58/67 sitemap.xml: benefici ● Facilita enormemente l'URL discovery ● Velocizza drasticamente l'indicizzazione
  • 59. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect59/67 sitemap.xml: attenzione a... ● Inserire solo le URL canoniche ● Inserire solo URL con HTTP status 200 ● Le istruzioni lastmod, changefreq e priority vengono tipicamente ignorate
  • 60. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect60/67 DICE IL SAGGIO... DACCI DEGLI URL TANTI URL BUONI URL
  • 62. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect62/67 rel nofollow: a cosa serve ● Ad indicare di non considerare un singolo URL come parte del link graph ● Nasce come istruzione per gestire i link non affidabili (ad esempio, se generati dagli utenti) ● Tipicamente si usa per i link artificiali ● Google non scansiona le risorse con rel nofollow, a meno che non siano linkate da qualche altra parte <a rel=”nofollow” href=”http://www.esempio.com”>Testo</a>
  • 63. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect63/67 rel nofollow: attenzione a... ● Può aiutare ad isolare una sezione del sito dal crawling, ma… ● E' un'istruzione frammentata per natura, la manutenzione può essere molto onerosa ● Non nasce come strumento per il controllo del crawling
  • 64. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect64/67 DICE IL SAGGIO... SE HAI CHIODO, USA MARTELLO SE HAI ROTTO, USA COLLA SE HAI LINKETTO, USA NOFOLLOW
  • 66. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect66/67 Robots.txt http://tools.seobook.com/robots-txt/ http://abertram.com/technical-seo/nosnippet-and-noarchive-inside-robots-txt/ http://seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870 Meta robots e X-Robots-Tag http://googlewebmastercentral.blogspot.it/2007/03/using-robots-meta-tag.html https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag Header HTTP http://searchenginewatch.com/sew/news/2334932/ecommerce-seo-tips-for-unavailable-products-from-googles-matt-cutts http://searchenginewatch.com/sew/how-to/2340728/matt-cutts-on-how-google-handles-404-410-status-codes http://googlewebmastercentral.blogspot.it/2011/01/how-to-deal-with-planned-site-downtime.html Rel canonical http://www.engeene.it/5-errori-comuni-con-il-relcanonical/ https://ignitevisibility.com/rel-canonical-and-no-index-no-follow-on-same-page-google-seo/ http://googlewebmastercentral.blogspot.it/2011/06/supporting-relcanonical-http-headers.html http://googlewebmastercentral.blogspot.it/2011/09/view-all-in-search-results.html http://dejanseo.com.au/noindex-competitors/ Rel next/prev http://googlewebmastercentral.blogspot.it/2011/09/pagination-with-relnext-and-relprev.html http://googlewebmastercentral.blogspot.it/2012/03/video-about-pagination-with-relnext-and.html Rel alternate hreflang https://support.google.com/webmasters/answer/189077?hl=it https://plus.google.com/+JohnMueller/posts/17fbv5phpks http://www.seerinteractive.com/blog/case-study-the-impact-of-hreflang-tag/
  • 67. Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect67/67 Grazie! Spazio alle domande... Per ulteriori informazioni: Email: info@martinomosna.com Twitter: @martinomosna Google+: +MartinoMosna