SlideShare a Scribd company logo
1 of 32
Download to read offline
ETL per portali Open
Data
Cul.T.A. Open Data Summer School
Ravenna 14/06/2017
Il processo di valorizzazione dei dati
http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
ETL
Architettura
http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html
Un esempio di ETL open source -
Pentaho Data Integration
Un esempio di ETL - Pentaho Data
Integration
● Open source
● Multipiattaforma
● GUI based
● Estensibile
Un esempio di ETL - Pentaho Data
Integration
Documentazione
Un esempio di ETL - Pentaho Data
Integration
Transformations vs Jobs
- Transformations are about moving and transforming rows from source to
target.
- Jobs are more about high level flow control: executing transformations, sending
mails on failure, transferring files via FTP, ...
- Another key difference is that all the steps in a transformation execute in
parallel, but the steps in a job execute in order.
Un esempio di ETL - Pentaho Data
Integration
Componenti
Spoon - GUI per progettare job e trasformazioni
Kitchen - CL per eseguire e orchestrare jobs
Pan - CL per eseguire trasformazioni
Carte - CL per gestire esecuzione di trasformazioni in cluster
Cosa può fare per noi un tool ETL
Automatizzare i task necessari alla pubblicazione di un
dataset
● Harvesting da fonti eterogenee
● Enrichment-mashup
● Pulizia e quality assurance
● Alimentazione del portale open data
Harvesting
Enrichment - Mashup
Qualità dei dati
● Accuratezza
Grado di aderenza alla realtà
● Completezza
Quantità di informazione presente nel dato
● Attualità
Grado di rappresentatività nel momento in cui si usa il dato
● Consistenza
Coerenza nella rappresentazione
Metodi per il miglioramento della qualità
Pulizia e quality assurance
● Data profiling
● Definizione del workflow di validazione e pulizia
● Implementazione su ETL dei controlli e notifica al processo
NO QUALITY => NO VALUE
Pulizia e quality assurance - Data
profiling
http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Lookup
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Notifica
Alimentazione del portale
Alimentazione di una staging area
Harvest
Clean - Enrich
Stage
Publish
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Dove trovarmi
Franco Morelli
Il mio blog www.opendatabassaromagna.it
Twitter https://twitter.com/eccoilmoro
Associazione OnData http://ondata.it/
Facebook
https://www.facebook.com/groups/opendataemiliar
omagna
Spaghetti Open Data
http://www.spaghettiopendata.org/
Linkedin
https://it.linkedin.com/in/francomorellisoftware

More Related Content

Similar to Etl per portali open data

Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LEN
Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LENMs sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LEN
Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LENLEN Learning Education Network
 
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)Plone for Research and University
 
Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...confluent
 
I Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfI Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfAndrea Gioia
 
Duplo: sincronizzare database non è mai stato così facile.
Duplo: sincronizzare database non è mai stato così facile. Duplo: sincronizzare database non è mai stato così facile.
Duplo: sincronizzare database non è mai stato così facile. Paola Girardin
 
Curriculum di Valeria Meschia - Capgemini
Curriculum di Valeria Meschia - CapgeminiCurriculum di Valeria Meschia - Capgemini
Curriculum di Valeria Meschia - CapgeminiValeria Meschia
 
Vincenzo cocciolo doc flow
Vincenzo cocciolo doc flowVincenzo cocciolo doc flow
Vincenzo cocciolo doc flowDOCFLOW
 
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...K-Tech Formazione
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2SMAU
 
Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Fabio Armani
 
Angelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo Bai
 
Progeto EPE: passato, presente e futuro
Progeto EPE: passato, presente e futuroProgeto EPE: passato, presente e futuro
Progeto EPE: passato, presente e futurolicheri
 
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...Istituto nazionale di statistica
 

Similar to Etl per portali open data (20)

Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LEN
Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LENMs sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LEN
Ms sql server 2005 - Upgrading to microsoft sql server 2005 - Scheda corso LEN
 
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
 
Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...
 
I Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfI Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdf
 
Duplo: sincronizzare database non è mai stato così facile.
Duplo: sincronizzare database non è mai stato così facile. Duplo: sincronizzare database non è mai stato così facile.
Duplo: sincronizzare database non è mai stato così facile.
 
Power bi
Power biPower bi
Power bi
 
ETL basics
ETL basicsETL basics
ETL basics
 
Curriculum di Valeria Meschia - Capgemini
Curriculum di Valeria Meschia - CapgeminiCurriculum di Valeria Meschia - Capgemini
Curriculum di Valeria Meschia - Capgemini
 
Vincenzo cocciolo doc flow
Vincenzo cocciolo doc flowVincenzo cocciolo doc flow
Vincenzo cocciolo doc flow
 
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...
Segnali dal futuro. Prevedere le prestazioni dei sistemi web ed evitare gli a...
 
Oai Data Adapter
Oai Data AdapterOai Data Adapter
Oai Data Adapter
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2
 
Cv slide share
Cv slide shareCv slide share
Cv slide share
 
Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)
 
Angelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo_Bai_Curriculum
Angelo_Bai_Curriculum
 
Wpo
WpoWpo
Wpo
 
Wpo extended
Wpo extendedWpo extended
Wpo extended
 
Progeto EPE: passato, presente e futuro
Progeto EPE: passato, presente e futuroProgeto EPE: passato, presente e futuro
Progeto EPE: passato, presente e futuro
 
Wcf data services
Wcf data servicesWcf data services
Wcf data services
 
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
G. Di Bella, L'interoperabilità conviene: documentare la qualità dei dati amm...
 

More from Franco Morelli

Open data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciOpen data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciFranco Morelli
 
Open data e turismo 2a Edizione
Open data e turismo 2a EdizioneOpen data e turismo 2a Edizione
Open data e turismo 2a EdizioneFranco Morelli
 
Open data beni comuni digitali
Open data beni comuni digitaliOpen data beni comuni digitali
Open data beni comuni digitaliFranco Morelli
 
Mappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapMappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapFranco Morelli
 
Open data per il cittadino
Open data per il cittadinoOpen data per il cittadino
Open data per il cittadinoFranco Morelli
 
Civic hacking in equilibrio
Civic hacking in equilibrioCivic hacking in equilibrio
Civic hacking in equilibrioFranco Morelli
 
#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15Franco Morelli
 
Cultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaCultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaFranco Morelli
 
Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Franco Morelli
 
Come spende i soldi il mio comune
Come spende i soldi il mio comuneCome spende i soldi il mio comune
Come spende i soldi il mio comuneFranco Morelli
 
Opendata liberare i dati di bilancio di un comune
Opendata   liberare i dati di bilancio di un comuneOpendata   liberare i dati di bilancio di un comune
Opendata liberare i dati di bilancio di un comuneFranco Morelli
 

More from Franco Morelli (16)

Web services
Web servicesWeb services
Web services
 
Java basics
Java basicsJava basics
Java basics
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Open data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciOpen data per capire i bilanci pubblici
Open data per capire i bilanci pubblici
 
Open data e turismo 2a Edizione
Open data e turismo 2a EdizioneOpen data e turismo 2a Edizione
Open data e turismo 2a Edizione
 
Open data e turismo
Open data e turismoOpen data e turismo
Open data e turismo
 
Open data beni comuni digitali
Open data beni comuni digitaliOpen data beni comuni digitali
Open data beni comuni digitali
 
Open data e business
Open data e businessOpen data e business
Open data e business
 
Mappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapMappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su Openstreetmap
 
Open data per il cittadino
Open data per il cittadinoOpen data per il cittadino
Open data per il cittadino
 
Civic hacking in equilibrio
Civic hacking in equilibrioCivic hacking in equilibrio
Civic hacking in equilibrio
 
#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15
 
Cultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaCultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della cultura
 
Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?
 
Come spende i soldi il mio comune
Come spende i soldi il mio comuneCome spende i soldi il mio comune
Come spende i soldi il mio comune
 
Opendata liberare i dati di bilancio di un comune
Opendata   liberare i dati di bilancio di un comuneOpendata   liberare i dati di bilancio di un comune
Opendata liberare i dati di bilancio di un comune
 

Etl per portali open data

  • 1. ETL per portali Open Data Cul.T.A. Open Data Summer School Ravenna 14/06/2017
  • 2. Il processo di valorizzazione dei dati http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
  • 3. ETL
  • 5. Un esempio di ETL open source - Pentaho Data Integration
  • 6. Un esempio di ETL - Pentaho Data Integration ● Open source ● Multipiattaforma ● GUI based ● Estensibile
  • 7. Un esempio di ETL - Pentaho Data Integration Documentazione
  • 8. Un esempio di ETL - Pentaho Data Integration Transformations vs Jobs - Transformations are about moving and transforming rows from source to target. - Jobs are more about high level flow control: executing transformations, sending mails on failure, transferring files via FTP, ... - Another key difference is that all the steps in a transformation execute in parallel, but the steps in a job execute in order.
  • 9. Un esempio di ETL - Pentaho Data Integration Componenti Spoon - GUI per progettare job e trasformazioni Kitchen - CL per eseguire e orchestrare jobs Pan - CL per eseguire trasformazioni Carte - CL per gestire esecuzione di trasformazioni in cluster
  • 10. Cosa può fare per noi un tool ETL Automatizzare i task necessari alla pubblicazione di un dataset ● Harvesting da fonti eterogenee ● Enrichment-mashup ● Pulizia e quality assurance ● Alimentazione del portale open data
  • 13. Qualità dei dati ● Accuratezza Grado di aderenza alla realtà ● Completezza Quantità di informazione presente nel dato ● Attualità Grado di rappresentatività nel momento in cui si usa il dato ● Consistenza Coerenza nella rappresentazione
  • 14. Metodi per il miglioramento della qualità
  • 15. Pulizia e quality assurance ● Data profiling ● Definizione del workflow di validazione e pulizia ● Implementazione su ETL dei controlli e notifica al processo NO QUALITY => NO VALUE
  • 16. Pulizia e quality assurance - Data profiling http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
  • 17. Pulizia e quality assurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  • 18. Pulizia e quality assurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  • 19. Pulizia e quality assurance - Lookup http://wiki.pentaho.com/display/EAI/Data+Validator
  • 20. Pulizia e quality assurance - Notifica
  • 22. Alimentazione di una staging area Harvest Clean - Enrich Stage Publish
  • 23. Esempi di utilizzo - Chicago
  • 24. Esempi di utilizzo - Chicago
  • 25. Esempi di utilizzo - Chicago
  • 26. Esempi di utilizzo - Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  • 27. Esempi di utilizzo - Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  • 28. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 29. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 30. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 31. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 32. Dove trovarmi Franco Morelli Il mio blog www.opendatabassaromagna.it Twitter https://twitter.com/eccoilmoro Associazione OnData http://ondata.it/ Facebook https://www.facebook.com/groups/opendataemiliar omagna Spaghetti Open Data http://www.spaghettiopendata.org/ Linkedin https://it.linkedin.com/in/francomorellisoftware