SlideShare a Scribd company logo
1 of 14
Ricerca semantica:
annotazioni manuali e automatiche
per l'Archivio storico de La Stampa
Andrea Bolioli
27 ottobre 2014, Bolzano – Bozen
Convegno:
I giornali storici nell'era digitale. Dal file immagine al full text. Un incontro tra esperti.
Historische Zeitungen im digitalen Zeitalter. Von der Bilddatei zum Volltext. Ein
Expertenaustausch
1
Ovvero, dalle pagine alle infografiche
Come si costruisce
un motore di ricerca semantico
per un archivio storico digitale ?
Trasformando
i contenuti testuali
in dati analizzabili.
Dietro le quinte del processo
Microfilm
Copia digitale
e OCR Indicizzazione full text
Annnotazione semantica
e infografiche
1 2 3
Cosa abbiamo ottenuto ? Alcuni numeri
4.800.000 Articoli annotati automaticamente
dal 1910 al 2005
113.000 Nomi di persona riconosciuti
(PER con freq > 10)
10.200 Nomi di entità geopolitiche
(GPE con freq > 10)
6.500 Nomi di organizzazioni
(ORG con freq > 10)
1.020 Autori degli articoli
(Author con freq > 10)
Dietro le quinte: la piattaforma di sviluppo
Dietro le quinte:
annotazione manuale e automatica
Testi e
Metadati
->
Testi
Annotazioni
Tags
Facets
Dashboard: infografiche in tempo reale, es.
1
Citazioni delle persone nella prima pagina del giornale
Citazioni delle persone in tutte le pagine del giornale
Dashboard: infografiche in tempo reale, es.
2
Come abbiamo fatto ?
Selezione dei corpora di training e test: un campione significativo
partendo da 12 milioni di articoli dal 1867 al 2005
Connettore con i dati dell'archivio storico in standard XML METS
ALTO (Analyzed Layout and Text Object)
Annotazione manuale dei corpora: interfaccia web collaborativa
per annotare velocemente
Analisi degli errori di OCR: report e statistiche
Annotazione automatica: pipeline NLP con classificatori automatici
SVM (Support Vector Machine) e basati su regole linguistiche
Verifiche di accuratezza dei risultati e correzioni
Quali difficoltà abbiamo incontrato ?
Errori di OCR:
la quantità di errori di OCR è
considerevole. Abbiamo annotato
circa 16000 errori (e le loro
correzioni) in un campione di 900
articoli.
Alcuni esempi:
dustin hoflman, hoftman, holfman,
hollman, hotfman, hotlman (dustin
hoffmann) , pohtica (politica), poh
(poli), de (dc) , pei (pci), doc um e
nto (documento) , re- latore
(relatore), …
Distribuzione dei tipi di errore per anno
Difficoltà ? Dimensioni ed estensione temporale
12 milioni di articoli e un periodo temporale di quasi 150 anni.
Non esistevano casi analoghi in Italia di analisi semantica di testi su
un intervallo così ampio.
Distribuzione delle citazioni
di alcuni personaggi storici
Che cosa può essere utile per
gli archivi e le biblioteche digitali ?
Studiare la user experience per realizzare interfacce usabili,
accessibili, semplici.
Annotazione automatica, validazione degli esperti, annotazione
manuale in crowdsourcing (per correggere gli errori di OCR e
annotare e correggere le entità rilevanti).
Esplorazione visuale e infografiche (grafi, grafici, timelines)
Integrazione di thesauri e ontologie (entità, concetti, sinonimi, altre
relazioni semantiche); espansione delle queries (ad es. scuola
media <-> scuola secondaria di primo grado; edifici religiosi del 700
-> Basilica di Superga); ricerca multilingue e cross-lingue.
Archeologia del sapere
"L'archivio è anche ciò che fa sì che tutte queste cose dette non si
accumulino all'infinito in una moltitudine amorfa, non si iscrivano in
una linearità senza fratture, e non scompaiano solo per casuali
accidentualità esterne; ma che si raggruppino in figure distinte, si
compongano le une con le altre secondo molteplici rapporti, si
conservino o si attenuino secondo regolarità specifiche."
Michel Foucault (1969)
L'archeologia del sapere /
Die Archäologie des Wissens
"Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten
Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl
anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen
verschwinden.[…]"
Grazie per l'attenzione !
Per maggiori informazioni:
Andrea Bolioli
bolioli@cross-library.com info@celi.it
@CrossLib @CELI_NLP
14

More Related Content

Similar to Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa

Europeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers
 
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Patrimonio culturale FVG
 
La ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologicheLa ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologicheEvelina Ceccato
 
6. Architettura informazione
6. Architettura informazione6. Architettura informazione
6. Architettura informazioneRoberto Polillo
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca DigitaleCoimbra group2
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitalenq,e nnnn
 
Short Biblio on Digital History
Short Biblio on Digital HistoryShort Biblio on Digital History
Short Biblio on Digital Historyserge noiret
 
Biblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standardBiblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standardamandadrafe
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013Stefano Lariccia
 
Seminario ismb Monaci Cataldi
Seminario ismb Monaci CataldiSeminario ismb Monaci Cataldi
Seminario ismb Monaci Cataldisaramonaci
 
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...Giorgia Lodi
 
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)Marzia Vaccari Serra
 
A. Lenci, Dal testo digitale alla conoscenza: un accesso semantico ai docume...
A. Lenci, Dal testo digitale alla conoscenza:  un accesso semantico ai docume...A. Lenci, Dal testo digitale alla conoscenza:  un accesso semantico ai docume...
A. Lenci, Dal testo digitale alla conoscenza: un accesso semantico ai docume...Istituto nazionale di statistica
 
Linked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazioneLinked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazioneFrancesca Di Donato
 

Similar to Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa (20)

Europeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday Bolioli
 
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
 
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
 
La ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologicheLa ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologiche
 
6. Architettura informazione
6. Architettura informazione6. Architettura informazione
6. Architettura informazione
 
ArCo Project
ArCo ProjectArCo Project
ArCo Project
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
Short Biblio on Digital History
Short Biblio on Digital HistoryShort Biblio on Digital History
Short Biblio on Digital History
 
Biblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standardBiblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standard
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013
 
Seminario ismb Monaci Cataldi
Seminario ismb Monaci CataldiSeminario ismb Monaci Cataldi
Seminario ismb Monaci Cataldi
 
Crema 2013 gentilini
Crema 2013 gentiliniCrema 2013 gentilini
Crema 2013 gentilini
 
I mestieri per le Digital Humanities e la questione dell'identità. Informatic...
I mestieri per le Digital Humanities e la questione dell'identità. Informatic...I mestieri per le Digital Humanities e la questione dell'identità. Informatic...
I mestieri per le Digital Humanities e la questione dell'identità. Informatic...
 
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
 
Quando la Digital History diventa anche Public?
Quando la Digital History diventa anche Public?Quando la Digital History diventa anche Public?
Quando la Digital History diventa anche Public?
 
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)
Il Genere nei Linguaggi controllati (thesaurus) Keyword di Genere e SEO (cenni)
 
A. Lenci, Dal testo digitale alla conoscenza: un accesso semantico ai docume...
A. Lenci, Dal testo digitale alla conoscenza:  un accesso semantico ai docume...A. Lenci, Dal testo digitale alla conoscenza:  un accesso semantico ai docume...
A. Lenci, Dal testo digitale alla conoscenza: un accesso semantico ai docume...
 
Firenze Slide
Firenze SlideFirenze Slide
Firenze Slide
 
Linked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazioneLinked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazione
 

More from CELI

Celi 2017 presentazione_breve
Celi 2017 presentazione_breveCeli 2017 presentazione_breve
Celi 2017 presentazione_breveCELI
 
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...CELI
 
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...CELI
 
Celi presentazione @clic2014
Celi presentazione @clic2014 Celi presentazione @clic2014
Celi presentazione @clic2014 CELI
 
Celi @Codemotion 2014 - Roberto Franchini GlusterFS
Celi @Codemotion 2014 - Roberto Franchini GlusterFSCeli @Codemotion 2014 - Roberto Franchini GlusterFS
Celi @Codemotion 2014 - Roberto Franchini GlusterFSCELI
 
Cross library @Internet Festival 2014
Cross library @Internet Festival 2014Cross library @Internet Festival 2014
Cross library @Internet Festival 2014CELI
 
Celi @TOSM Pitch Day Smart Enterprise
Celi @TOSM Pitch Day Smart EnterpriseCeli @TOSM Pitch Day Smart Enterprise
Celi @TOSM Pitch Day Smart EnterpriseCELI
 
Matteo Casu Exploring The Betrothed Lovers Hamburg
Matteo Casu Exploring The Betrothed Lovers HamburgMatteo Casu Exploring The Betrothed Lovers Hamburg
Matteo Casu Exploring The Betrothed Lovers HamburgCELI
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoCELI
 
Celi_Di Tomaso presentazione futurodigitale_csipiemonte
Celi_Di Tomaso presentazione futurodigitale_csipiemonteCeli_Di Tomaso presentazione futurodigitale_csipiemonte
Celi_Di Tomaso presentazione futurodigitale_csipiemonteCELI
 
Forum Tal 2014: Celi company presentation
Forum Tal 2014: Celi company presentationForum Tal 2014: Celi company presentation
Forum Tal 2014: Celi company presentationCELI
 
Exploring the "Betrothed Lovers" and other literary works
Exploring the "Betrothed Lovers" and other literary works Exploring the "Betrothed Lovers" and other literary works
Exploring the "Betrothed Lovers" and other literary works CELI
 

More from CELI (12)

Celi 2017 presentazione_breve
Celi 2017 presentazione_breveCeli 2017 presentazione_breve
Celi 2017 presentazione_breve
 
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...
Celi @Clic2014: Geometric and Statistical Analysis of Topic and Emotions in C...
 
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...
Celi @Clic2014: OCR Errors & Named Entity Recognition in La Stampa Historical...
 
Celi presentazione @clic2014
Celi presentazione @clic2014 Celi presentazione @clic2014
Celi presentazione @clic2014
 
Celi @Codemotion 2014 - Roberto Franchini GlusterFS
Celi @Codemotion 2014 - Roberto Franchini GlusterFSCeli @Codemotion 2014 - Roberto Franchini GlusterFS
Celi @Codemotion 2014 - Roberto Franchini GlusterFS
 
Cross library @Internet Festival 2014
Cross library @Internet Festival 2014Cross library @Internet Festival 2014
Cross library @Internet Festival 2014
 
Celi @TOSM Pitch Day Smart Enterprise
Celi @TOSM Pitch Day Smart EnterpriseCeli @TOSM Pitch Day Smart Enterprise
Celi @TOSM Pitch Day Smart Enterprise
 
Matteo Casu Exploring The Betrothed Lovers Hamburg
Matteo Casu Exploring The Betrothed Lovers HamburgMatteo Casu Exploring The Betrothed Lovers Hamburg
Matteo Casu Exploring The Betrothed Lovers Hamburg
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
Celi_Di Tomaso presentazione futurodigitale_csipiemonte
Celi_Di Tomaso presentazione futurodigitale_csipiemonteCeli_Di Tomaso presentazione futurodigitale_csipiemonte
Celi_Di Tomaso presentazione futurodigitale_csipiemonte
 
Forum Tal 2014: Celi company presentation
Forum Tal 2014: Celi company presentationForum Tal 2014: Celi company presentation
Forum Tal 2014: Celi company presentation
 
Exploring the "Betrothed Lovers" and other literary works
Exploring the "Betrothed Lovers" and other literary works Exploring the "Betrothed Lovers" and other literary works
Exploring the "Betrothed Lovers" and other literary works
 

Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa

  • 1. Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano – Bozen Convegno: I giornali storici nell'era digitale. Dal file immagine al full text. Un incontro tra esperti. Historische Zeitungen im digitalen Zeitalter. Von der Bilddatei zum Volltext. Ein Expertenaustausch 1
  • 2. Ovvero, dalle pagine alle infografiche Come si costruisce un motore di ricerca semantico per un archivio storico digitale ? Trasformando i contenuti testuali in dati analizzabili.
  • 3. Dietro le quinte del processo Microfilm Copia digitale e OCR Indicizzazione full text Annnotazione semantica e infografiche 1 2 3
  • 4. Cosa abbiamo ottenuto ? Alcuni numeri 4.800.000 Articoli annotati automaticamente dal 1910 al 2005 113.000 Nomi di persona riconosciuti (PER con freq > 10) 10.200 Nomi di entità geopolitiche (GPE con freq > 10) 6.500 Nomi di organizzazioni (ORG con freq > 10) 1.020 Autori degli articoli (Author con freq > 10)
  • 5. Dietro le quinte: la piattaforma di sviluppo
  • 6. Dietro le quinte: annotazione manuale e automatica Testi e Metadati -> Testi Annotazioni Tags Facets
  • 7. Dashboard: infografiche in tempo reale, es. 1 Citazioni delle persone nella prima pagina del giornale
  • 8. Citazioni delle persone in tutte le pagine del giornale Dashboard: infografiche in tempo reale, es. 2
  • 9. Come abbiamo fatto ? Selezione dei corpora di training e test: un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 Connettore con i dati dell'archivio storico in standard XML METS ALTO (Analyzed Layout and Text Object) Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente Analisi degli errori di OCR: report e statistiche Annotazione automatica: pipeline NLP con classificatori automatici SVM (Support Vector Machine) e basati su regole linguistiche Verifiche di accuratezza dei risultati e correzioni
  • 10. Quali difficoltà abbiamo incontrato ? Errori di OCR: la quantità di errori di OCR è considerevole. Abbiamo annotato circa 16000 errori (e le loro correzioni) in un campione di 900 articoli. Alcuni esempi: dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore), … Distribuzione dei tipi di errore per anno
  • 11. Difficoltà ? Dimensioni ed estensione temporale 12 milioni di articoli e un periodo temporale di quasi 150 anni. Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo così ampio. Distribuzione delle citazioni di alcuni personaggi storici
  • 12. Che cosa può essere utile per gli archivi e le biblioteche digitali ? Studiare la user experience per realizzare interfacce usabili, accessibili, semplici. Annotazione automatica, validazione degli esperti, annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare e correggere le entità rilevanti). Esplorazione visuale e infografiche (grafi, grafici, timelines) Integrazione di thesauri e ontologie (entità, concetti, sinonimi, altre relazioni semantiche); espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edifici religiosi del 700 -> Basilica di Superga); ricerca multilingue e cross-lingue.
  • 13. Archeologia del sapere "L'archivio è anche ciò che fa sì che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearità senza fratture, e non scompaiano solo per casuali accidentualità esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarità specifiche." Michel Foucault (1969) L'archeologia del sapere / Die Archäologie des Wissens "Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen verschwinden.[…]"
  • 14. Grazie per l'attenzione ! Per maggiori informazioni: Andrea Bolioli bolioli@cross-library.com info@celi.it @CrossLib @CELI_NLP 14