5. Un esempio di ETL open source -
Pentaho Data Integration
6. Un esempio di ETL - Pentaho Data
Integration
● Open source
● Multipiattaforma
● GUI based
● Estensibile
7. Un esempio di ETL - Pentaho Data
Integration
Documentazione
8. Un esempio di ETL - Pentaho Data
Integration
Transformations vs Jobs
- Transformations are about moving and transforming rows from source to
target.
- Jobs are more about high level flow control: executing transformations, sending
mails on failure, transferring files via FTP, ...
- Another key difference is that all the steps in a transformation execute in
parallel, but the steps in a job execute in order.
9. Un esempio di ETL - Pentaho Data
Integration
Componenti
Spoon - GUI per progettare job e trasformazioni
Kitchen - CL per eseguire e orchestrare jobs
Pan - CL per eseguire trasformazioni
Carte - CL per gestire esecuzione di trasformazioni in cluster
10. Cosa può fare per noi un tool ETL
Automatizzare i task necessari alla pubblicazione di un
dataset
● Harvesting da fonti eterogenee
● Enrichment-mashup
● Pulizia e quality assurance
● Alimentazione del portale open data
13. Qualità dei dati
● Accuratezza
Grado di aderenza alla realtà
● Completezza
Quantità di informazione presente nel dato
● Attualità
Grado di rappresentatività nel momento in cui si usa il dato
● Consistenza
Coerenza nella rappresentazione
15. Pulizia e quality assurance
● Data profiling
● Definizione del workflow di validazione e pulizia
● Implementazione su ETL dei controlli e notifica al processo
NO QUALITY => NO VALUE
16. Pulizia e quality assurance - Data
profiling
http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
17. Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
18. Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
19. Pulizia e quality assurance - Lookup
http://wiki.pentaho.com/display/EAI/Data+Validator
26. Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
27. Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
28. Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
29. Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
30. Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
31. Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
32. Dove trovarmi
Franco Morelli
Il mio blog www.opendatabassaromagna.it
Twitter https://twitter.com/eccoilmoro
Associazione OnData http://ondata.it/
Facebook
https://www.facebook.com/groups/opendataemiliar
omagna
Spaghetti Open Data
http://www.spaghettiopendata.org/
Linkedin
https://it.linkedin.com/in/francomorellisoftware