SlideShare a Scribd company logo
1 of 23
Edizione 2013-14
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
9. Ricercare nel Web (Parte I)
Roberto Polillo
Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2014
3
4
R.Polillo - Marzo 2014
Una visualizzazione [di una parte] del web
R.Polillo - Marzo 2014
5
Una visualizzazione [di una parte] del web
Come trovare l'informazione in rete
 Directories
Indici strutturati di argomenti (gestiti da una redazione)
 Wikipedia
Enciclopedia collaborativa
 Motori di ricerca
Query Risultati
 Motori semantici
www.wolframalpha.com, …
 Sistemi di Q&A sociale
Yahoo! Answer, …
 Esplorazione
Browsing, serendipity
R.Polillo - Marzo 2014
6
Web directories
7
 Storicamente, il primo strumento di ausilio alle ricerche
nel Web
 Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
 Directories “generaliste” e directories verticali o di nicchia,
anche prodotte in modo collaborativo
 http://en.wikipedia.org/wiki/Web_directory
R.Polillo - Marzo 2014
Tassonomia
8
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
R.Polillo - Marzo 2014
 Raggruppamento di
oggetti in classi,
secondo qualche
criterio
 taxis=ordine
nomos=regola
 Ogni tassonomia è
arbitraria, e dipende
dagli obiettivi
Yahoo! (http://dir.yahoo.com)
9
R.Polillo - Marzo 2014
- Nasce come “La guida al
WWW di Jerry e David”, nel
1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Int
ernet_Archive
The Open Directory Project (ODP)
10
 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/
 Directory gratuita, aperta e multilingua
 Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
 http://en.wikipedia.org/wiki/Open_Directory_Project
R.Polillo - Marzo 2014
Domoz vs Yahoo!
R.Polillo - Marzo 2014
11
Dmoz Yahoo!
Wikipedia come strumento di ricerca
12
 Wikipedia è un formidabile strumento di ricerca e accesso
al web
 Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
 Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:Contents/Portals)
R.Polillo - Marzo 2014
Serendipità
13
 Cerco una cosa e ne trovo un'altra
 Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka)
 Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere
l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e
riconoscere il valore di esperienze che non corrispondono alle
originarie aspettative
 http://en.wikipedia.org/wiki/Serendipity
 http://serendip.brynmawr.edu/serendip/about.html
R.Polillo - Marzo 2014
14 R.Polillo - Marzo 2014
www.stumbleupon.com
16
 to stumble: inciampare, scoprire per caso
 È una discovery engine di pagine web, fondato in Canada nel 2001
 Premendo il bottone STUMBLE! installato sul browser, viene
proposto un sito, un’immagine o un video scelti sulla base delle
preferenze dell’utente, o delle raccomandazioni dei suoi amici o da
altri utenti che hanno interessi simili
 Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:
R.Polillo - Marzo 2014
Motori di ricerca per il Web
 Componente software (utilizzabile come servizio
online) progettato per ricercare informazioni sul
World Wide Web
 Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
 La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
R.Polillo - Marzo 2014
17
Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i
primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)
R.Polillo - Marzo 2014
18
Search engine market share
R.Polillo - Marzo 2014
19
Fonte: http://www.netmarketshare.com
Dic 2013, solo desktop
Motori di ricerca: struttura
R.Polillo - Marzo 2014
20
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici +
cached pages
Crawler
Crawler
IndicizzatoreCrawler
Richieste
Pagine
web
Pagine
web
WWW
Back-end process
Web crawling
 I crawler (robot, spider, bot) sono programmi che
navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
 Seguono opportune politiche di navigazione (per
es. per decidere quando riesaminare una pagina già
vista)
 L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
 Non tutto il Web è accessibile ai crawler
R.Polillo - Marzo 2014
22
robots.txt: esempio
www.domain.com
R.Polillo - Marzo 2014
23
/
robots.txt
utenti
foto
about
User-agent: Google
Disallow /utenti/foto
Allow: *
Crawl-delay: 20 sec
Deep vs surface Web
 Non tutto il Web è accessibile ai motori di ricerca
 Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface
Web")
 Deep Web, esempi:
 Pagine "vietate" dai Web server (robots.txt)
 Pagine generate dinamicamente a fronte di query o di input
forniti attraverso form
 Pagine senza link entranti
 Pagine accessibili tramite registrazione e login
 Ecc.
R.Polillo - Marzo 2014
24
Struttura del web: uno studio
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
25
R.Polillo - Marzo 2014
Strongly Connected
Component: per
ogni coppia di nodi
c’è un cammino da
uno all’altro
One can pass from any node
of IN through SCC to any node of OUT.
Hanging off IN and OUT are TENDRILS
containing nodes that are reachable
from portions of IN, or that can reach
portions of OUT, without passage
through SCC. It is possible for a
TENDRIL hanging off from IN to
be hooked into a TENDRIL leading
into OUT, forming a TUBE -- a
passage from a portion of IN to
a portion of OUT without touching SCC.
Tipi di query
 Informativa
Obiettivo: trovare un'informazione
 Navigazionale
Obiettivo: trovare una pagina web, che conosco già
 Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
 Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
 Evoluzione: dal contenitore (anche) al contenuto
R.Polillo - Marzo 2014
26

More Related Content

What's hot

24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)Roberto Polillo
 
18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenuti18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenutiRoberto Polillo
 
17. Web feed e aggregatori
17. Web feed e aggregatori17. Web feed e aggregatori
17. Web feed e aggregatoriRoberto Polillo
 
15. La forma breve e il microblogging
15. La forma  breve e il microblogging15. La forma  breve e il microblogging
15. La forma breve e il microbloggingRoberto Polillo
 
7. Applicazioni web e CMS
7. Applicazioni web e CMS7. Applicazioni web e CMS
7. Applicazioni web e CMSRoberto Polillo
 
Collaborative Editing
Collaborative EditingCollaborative Editing
Collaborative EditingLorenzo Spini
 
5. Introduzione al web (ii)
5. Introduzione al web (ii)5. Introduzione al web (ii)
5. Introduzione al web (ii)Roberto Polillo
 
17.Web feed e aggregatori
17.Web feed e aggregatori17.Web feed e aggregatori
17.Web feed e aggregatoriRoberto Polillo
 
19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)Roberto Polillo
 
Editoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitaleEditoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitaleRoberto Polillo
 
7. Applicazioni Web e CMS
7. Applicazioni Web e CMS7. Applicazioni Web e CMS
7. Applicazioni Web e CMSRoberto Polillo
 
3. Introduzione a internet (ii)
3. Introduzione a internet (ii)3. Introduzione a internet (ii)
3. Introduzione a internet (ii)Roberto Polillo
 
18. Content sharing sites
18. Content sharing sites18. Content sharing sites
18. Content sharing sitesRoberto Polillo
 
19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e segg19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e seggRoberto Polillo
 

What's hot (20)

24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)
 
18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenuti18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenuti
 
17. Web feed e aggregatori
17. Web feed e aggregatori17. Web feed e aggregatori
17. Web feed e aggregatori
 
15. La forma breve e il microblogging
15. La forma  breve e il microblogging15. La forma  breve e il microblogging
15. La forma breve e il microblogging
 
7. Applicazioni web e CMS
7. Applicazioni web e CMS7. Applicazioni web e CMS
7. Applicazioni web e CMS
 
Collaborative Editing
Collaborative EditingCollaborative Editing
Collaborative Editing
 
5. Introduzione al web (ii)
5. Introduzione al web (ii)5. Introduzione al web (ii)
5. Introduzione al web (ii)
 
Wikipedia
WikipediaWikipedia
Wikipedia
 
16. Social media
16. Social media16. Social media
16. Social media
 
14. I blog
14. I blog14. I blog
14. I blog
 
12. Mobile web
12. Mobile web12. Mobile web
12. Mobile web
 
17.Web feed e aggregatori
17.Web feed e aggregatori17.Web feed e aggregatori
17.Web feed e aggregatori
 
19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)
 
Editoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitaleEditoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitale
 
8. Il vostro blog
8. Il vostro blog8. Il vostro blog
8. Il vostro blog
 
6. Ricercare nel Web
6. Ricercare nel Web6. Ricercare nel Web
6. Ricercare nel Web
 
7. Applicazioni Web e CMS
7. Applicazioni Web e CMS7. Applicazioni Web e CMS
7. Applicazioni Web e CMS
 
3. Introduzione a internet (ii)
3. Introduzione a internet (ii)3. Introduzione a internet (ii)
3. Introduzione a internet (ii)
 
18. Content sharing sites
18. Content sharing sites18. Content sharing sites
18. Content sharing sites
 
19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e segg19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e segg
 

Viewers also liked

5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)Roberto Polillo
 
4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)Roberto Polillo
 
3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della rete3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della reteRoberto Polillo
 
8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene  8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene Roberto Polillo
 
1. Introduzione al corso
1. Introduzione al corso1. Introduzione al corso
1. Introduzione al corsoRoberto Polillo
 
11. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.011. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.0Roberto Polillo
 
14. La forma breve e il microblogging
14. La forma breve e il microblogging14. La forma breve e il microblogging
14. La forma breve e il microbloggingRoberto Polillo
 
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome..."Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...Luisa
 
12. Introduzione ai social media
12. Introduzione ai social media12. Introduzione ai social media
12. Introduzione ai social mediaRoberto Polillo
 
21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III) 21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III) Roberto Polillo
 
iPhone Apps Marketing
iPhone Apps MarketingiPhone Apps Marketing
iPhone Apps MarketingDML Srl
 
5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)Roberto Polillo
 
16. Principi e linee guida (i)
16. Principi e linee guida (i)16. Principi e linee guida (i)
16. Principi e linee guida (i)Roberto Polillo
 
13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorio13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorioRoberto Polillo
 

Viewers also liked (20)

5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)
 
6. Il browser
6. Il browser6. Il browser
6. Il browser
 
4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)
 
3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della rete3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della rete
 
8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene  8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene
 
12. Mobile internet
12. Mobile internet 12. Mobile internet
12. Mobile internet
 
1. Introduzione al corso
1. Introduzione al corso1. Introduzione al corso
1. Introduzione al corso
 
11. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.011. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.0
 
Crowdfunding
CrowdfundingCrowdfunding
Crowdfunding
 
14. La forma breve e il microblogging
14. La forma breve e il microblogging14. La forma breve e il microblogging
14. La forma breve e il microblogging
 
Il marketing virale
Il marketing virale Il marketing virale
Il marketing virale
 
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome..."Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
 
12. Introduzione ai social media
12. Introduzione ai social media12. Introduzione ai social media
12. Introduzione ai social media
 
21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III) 21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III)
 
iPhone Apps Marketing
iPhone Apps MarketingiPhone Apps Marketing
iPhone Apps Marketing
 
5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)
 
16. Principi e linee guida (i)
16. Principi e linee guida (i)16. Principi e linee guida (i)
16. Principi e linee guida (i)
 
Article Marketig
Article MarketigArticle Marketig
Article Marketig
 
13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorio13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorio
 
3. Il progetto di esame
3. Il progetto di esame3. Il progetto di esame
3. Il progetto di esame
 

Similar to 9. Ricercare nel web (Parte I)

7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17Giuseppe Vizzari
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18Giuseppe Vizzari
 
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 MaggioWeb 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 MaggioMarco Marcellini
 
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNETWEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNETCommVill
 
2. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.02. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.0Roberto Polillo
 
Web2.0 e nuovi media
Web2.0 e nuovi mediaWeb2.0 e nuovi media
Web2.0 e nuovi mediaCarlo Vaccari
 
10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)Roberto Polillo
 
10. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.010. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.0Roberto Polillo
 
Aggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul WebAggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul WebSerenaS
 

Similar to 9. Ricercare nel web (Parte I) (20)

7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
7. Il browser
7. Il browser7. Il browser
7. Il browser
 
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 MaggioWeb 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
 
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNETWEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
 
Cercare sul web
Cercare sul webCercare sul web
Cercare sul web
 
2. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.02. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.0
 
Web 2.0, comunicazione e marketing
Web 2.0, comunicazione e marketingWeb 2.0, comunicazione e marketing
Web 2.0, comunicazione e marketing
 
3. Site builders 2.0
3. Site builders 2.03. Site builders 2.0
3. Site builders 2.0
 
Web 2.0 e Library 2.0
Web 2.0 e Library 2.0Web 2.0 e Library 2.0
Web 2.0 e Library 2.0
 
6 - Il browser - 17/18
6 - Il browser - 17/186 - Il browser - 17/18
6 - Il browser - 17/18
 
Web2.0 e nuovi media
Web2.0 e nuovi mediaWeb2.0 e nuovi media
Web2.0 e nuovi media
 
10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)
 
10. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.010. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.0
 
6 - Il browser - 16/17
6 - Il browser - 16/176 - Il browser - 16/17
6 - Il browser - 16/17
 
5.1 web 2.0, blog
5.1 web 2.0, blog5.1 web 2.0, blog
5.1 web 2.0, blog
 
Il browser
Il browserIl browser
Il browser
 
Aggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul WebAggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul Web
 

More from Roberto Polillo

Future City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroFuture City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroRoberto Polillo
 
Teaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsTeaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsRoberto Polillo
 
22. Conclusioni del corso
22. Conclusioni del corso22. Conclusioni del corso
22. Conclusioni del corsoRoberto Polillo
 
ICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniRoberto Polillo
 
21. Progettare per l'errore
21. Progettare per l'errore21. Progettare per l'errore
21. Progettare per l'erroreRoberto Polillo
 
20. Principi e linee guida (II)
20. Principi e linee guida (II)20. Principi e linee guida (II)
20. Principi e linee guida (II)Roberto Polillo
 
20. Principi e linee guida (I)
20. Principi e linee guida (I)20. Principi e linee guida (I)
20. Principi e linee guida (I)Roberto Polillo
 
18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)Roberto Polillo
 
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)Roberto Polillo
 
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)Roberto Polillo
 
15. Ancora sulla grafica
15. Ancora sulla grafica15. Ancora sulla grafica
15. Ancora sulla graficaRoberto Polillo
 
13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorioRoberto Polillo
 
13. Internet business models
13. Internet business models13. Internet business models
13. Internet business modelsRoberto Polillo
 
Internet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionInternet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionRoberto Polillo
 
12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)Roberto Polillo
 
11. Evoluzione del Web (I)
11. Evoluzione del Web (I)11. Evoluzione del Web (I)
11. Evoluzione del Web (I)Roberto Polillo
 
11. Conoscere l'utente (II)
11. Conoscere l'utente (II)11. Conoscere l'utente (II)
11. Conoscere l'utente (II)Roberto Polillo
 

More from Roberto Polillo (20)

Future City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroFuture City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuro
 
Teaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsTeaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerations
 
Conclusioni del corso
Conclusioni del corsoConclusioni del corso
Conclusioni del corso
 
22. Conclusioni del corso
22. Conclusioni del corso22. Conclusioni del corso
22. Conclusioni del corso
 
ICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioni
 
21. Progettare per l'errore
21. Progettare per l'errore21. Progettare per l'errore
21. Progettare per l'errore
 
20. Principi e linee guida (II)
20. Principi e linee guida (II)20. Principi e linee guida (II)
20. Principi e linee guida (II)
 
20. Principi e linee guida (I)
20. Principi e linee guida (I)20. Principi e linee guida (I)
20. Principi e linee guida (I)
 
18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)
 
Open internet
Open internetOpen internet
Open internet
 
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
15. Ancora sulla grafica
15. Ancora sulla grafica15. Ancora sulla grafica
15. Ancora sulla grafica
 
14. Progettare il testo
14. Progettare il testo14. Progettare il testo
14. Progettare il testo
 
13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio
 
13. Internet business models
13. Internet business models13. Internet business models
13. Internet business models
 
Internet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionInternet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introduction
 
12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)
 
11. Evoluzione del Web (I)
11. Evoluzione del Web (I)11. Evoluzione del Web (I)
11. Evoluzione del Web (I)
 
11. Conoscere l'utente (II)
11. Conoscere l'utente (II)11. Conoscere l'utente (II)
11. Conoscere l'utente (II)
 

Recently uploaded

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativovaleriodinoia35
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 

Recently uploaded (9)

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativo
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 

9. Ricercare nel web (Parte I)

  • 1. Edizione 2013-14 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo
  • 2. Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/ R.Polillo - Marzo 2014 3
  • 3. 4 R.Polillo - Marzo 2014 Una visualizzazione [di una parte] del web
  • 4. R.Polillo - Marzo 2014 5 Una visualizzazione [di una parte] del web
  • 5. Come trovare l'informazione in rete  Directories Indici strutturati di argomenti (gestiti da una redazione)  Wikipedia Enciclopedia collaborativa  Motori di ricerca Query Risultati  Motori semantici www.wolframalpha.com, …  Sistemi di Q&A sociale Yahoo! Answer, …  Esplorazione Browsing, serendipity R.Polillo - Marzo 2014 6
  • 6. Web directories 7  Storicamente, il primo strumento di ausilio alle ricerche nel Web  Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"  Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo  http://en.wikipedia.org/wiki/Web_directory R.Polillo - Marzo 2014
  • 7. Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a) Appartenenti all’imperatore b) Imbalsamati c) Ammaestrati d) Lattonzoli e) Sirene f) Favolosi g) Cani randagi h) Inclusi in questa classificazione i) Che si agitano come pazzi j) Innumerevoli k) Disegnati con un pennello finissimo di peli di cammello l) Eccetera m) Che hanno ritto il vaso n) Che da lontano sembrano mosche. R.Polillo - Marzo 2014  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi
  • 8. Yahoo! (http://dir.yahoo.com) 9 R.Polillo - Marzo 2014 - Nasce come “La guida al WWW di Jerry e David”, nel 1994 - Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
  • 9. The Open Directory Project (ODP) 10  Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/  Directory gratuita, aperta e multilingua  Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari  http://en.wikipedia.org/wiki/Open_Directory_Project R.Polillo - Marzo 2014
  • 10. Domoz vs Yahoo! R.Polillo - Marzo 2014 11 Dmoz Yahoo!
  • 11. Wikipedia come strumento di ricerca 12  Wikipedia è un formidabile strumento di ricerca e accesso al web  Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato  Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals) R.Polillo - Marzo 2014
  • 12. Serendipità 13  Cerco una cosa e ne trovo un'altra  Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)  Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative  http://en.wikipedia.org/wiki/Serendipity  http://serendip.brynmawr.edu/serendip/about.html R.Polillo - Marzo 2014
  • 13. 14 R.Polillo - Marzo 2014
  • 14. www.stumbleupon.com 16  to stumble: inciampare, scoprire per caso  È una discovery engine di pagine web, fondato in Canada nel 2001  Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili  Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: R.Polillo - Marzo 2014
  • 15. Motori di ricerca per il Web  Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web  Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)  La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati R.Polillo - Marzo 2014 17
  • 16. Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo! - Con motori esterni (dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) R.Polillo - Marzo 2014 18
  • 17. Search engine market share R.Polillo - Marzo 2014 19 Fonte: http://www.netmarketshare.com Dic 2013, solo desktop
  • 18. Motori di ricerca: struttura R.Polillo - Marzo 2014 20 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler Crawler IndicizzatoreCrawler Richieste Pagine web Pagine web WWW Back-end process
  • 19. Web crawling  I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti  Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)  L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)  Non tutto il Web è accessibile ai crawler R.Polillo - Marzo 2014 22
  • 20. robots.txt: esempio www.domain.com R.Polillo - Marzo 2014 23 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec
  • 21. Deep vs surface Web  Non tutto il Web è accessibile ai motori di ricerca  Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")  Deep Web, esempi:  Pagine "vietate" dai Web server (robots.txt)  Pagine generate dinamicamente a fronte di query o di input forniti attraverso form  Pagine senza link entranti  Pagine accessibili tramite registrazione e login  Ecc. R.Polillo - Marzo 2014 24
  • 22. Struttura del web: uno studio Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html 17 million nodes 25 R.Polillo - Marzo 2014 Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.
  • 23. Tipi di query  Informativa Obiettivo: trovare un'informazione  Navigazionale Obiettivo: trovare una pagina web, che conosco già  Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web  Il risultato è di solito (ma non sempre!) una lista di link a pagine web  Evoluzione: dal contenitore (anche) al contenuto R.Polillo - Marzo 2014 26