SlideShare a Scribd company logo
1 of 27
Download to read offline
Datawarehouse basics
Ing. Franco Morelli
Cosa è un Data Warehouse?
• Definizione: un insieme unico, completo e coerente di dati ottenuti da una varietà
di fonti diverse reso disponibile agli utenti finali i quali possono comprendere e
utilizzare tali dati in un contesto di business
• Orientato all’oggetto
• Con dati integrati
• Tempo variante
• Non volatile
Caratteristiche
• Orientato all’oggetto. I dati sono organizzati in base a come gli utenti si
riferiscono a loro.
• Integrato. Tutte le incoerenze riguardanti convenzione di denominazione e
valore di rappresentazione vengono rimossi.
• Non volatile. I dati sono memorizzati in formato di sola lettura e non cambiano
nel corso del tempo.
• Tempo variante. I dati non sono aggiornati ne vengono mantenute serie
storiche
Orientato all’oggetto
Orientato all’oggetto
Application Environment
La progettazione cura i processi applicativi e la struttura dei dati
Data warehouse Environment
Siamo al di fuori dei processi applicativi il focus è solo sulla progettazione della
base di dati e sulla modellazione dei dati
Integrato
❏ Convenzione dei nomi coerente, coerenza degli attributi, livello di accuratezza
e aggregazione comuni.
❏ Istituzione di una comune unità di misura per tutti gli elementi provenienti da
ogni sorgente
❏ I dati devono essere memorizzati nel DW in modo integrato, logicamente
accessibili nella loro completezza
Integrazione
Sistema A
Genere : m,f
Indirizzo : Via Berti 7
Sistema B
Genere : 0,1
Indirizzo : Via Berti
Civico : 7
Sistema C
Genere : maschio,femmina
Indirizzo : Via Berti
Civico : 7
Data integration and cleaning
DW
Genere : m,f
Indirizzo : Via Berti
Civico : 7
Tempo variante
❏ In una applicazione operativa, l'aspettativa è che tutti i dati del database siano
accurati al momento dell'accesso. Nel datawarehouse i dati devono
semplicemente essere accurati in un momento qualsiasi , non
necessariamente ad oggi
❏ Uno dei luoghi in cui si trova la tempo varianza di visualizzazione dei dati nel
DW è nella chiave primaria. Ogni chiave primaria contenuta all'interno del DW
deve contenere, in modo implicito o esplicito un elemento di tempo (giorno,
settimana, mese, ecc)
Tempo variante
❏ Ogni dato all'interno del magazzino deve essere associato a un particolare
punto nel tempo se vi sono analisi che lo richiedono
❏ Un altro aspetto della varianza tempo nei dati DW è che, una volta registrati, i
dati all'interno del magazzino non possono essere aggiornati o modificati
Non volatile
❏ Attività tipiche come eliminazioni, inserimenti e modifiche che vengono
eseguite in un ambiente applicativo operativo sono completamente inesistenti
in un ambiente DW.
❏ Solo due operazioni di dati vengono sempre eseguite in DW: caricamento e
accesso ai dati
Applicazione vs DW
I problemi di progettazione devono
concentrarsi sulla integrità e
sulle anomalie di aggiornamento.
Processi complessi devono essere
codificati per assicurare che le attività di
aggiornamento dati consentano
elevata integrità del prodotto finale.
Tali problemi non esistono in un ambiente
DW perché l'aggiornamento dei dati non
viene mai eseguito
Dati vengono inseriti in forma normalizzata
per garantire una ridondanza
minima.
Dati non normalizzati, totali calcolati
Le tecnologie necessarie per gestire le
transazioni e il recupero dei dati, rollback, e
la rilevazione e il trattamento dei deadlock
sono abbastanza complesse.
Tecnologie più semplici
A cosa serve un datawarehouse
• Consolidamento delle risorse informative
• Prestazione delle interrogazioni migliorate
• Tenere separate le funzioni di supporto alle decisioni dai sistemi gestionali
operativi
• Fondamento per il data mining, la visualizzazione dei dati, reporting avanzato e
strumenti OLAP
Risposta a domande di analisi
Qual’è il canale di distribuzione più efficace?
Quanto abbiamo fatturato nell’ultimo trimestre, quanto di meno dello stesso
trimestre di anno scorso?
Chi sono i miei clienti e cosa preferiscono?
Quale prodotto-servizio garantisce maggiore marginalità?
……….
Utilizzi tipici
❏ Reportistica
❏ Data mining
❏ Knowledge discovery
❏ Ricerca di cause di fenomeni di business
Ancora su Application vs DW
OLAP – Online Analytical Processing
(Data Warehouse)
OLTP – Online Transactional Processing
(Operational System)
Altre differenze tra applicazioni e DW
❏ obiettivi
❏ struttura
❏ dimensioni
❏ ottimizzazione delle prestazioni
❏ tecnologie utilizzate
Altre differenze tra applicazioni e DW
Orientato alle transazioni Orientato all’oggetto
Piccolo (MB fino a diversi GB) Grandi (centinaia di GB fino a diversi TB)
dati attuali dati storici
Normalizzato struttura della tabella (molte
tabelle, numero minimo di
colonne per tabella)
De-normalizzato struttura della tabella
(poche tabelle, molte
colonne per tabella)
aggiornamenti online aggiornamenti batch
Altre differenze tra applicazioni e DW
Diagramma ER Star schema
La voce degli utilizzatori
❏ I dati dovrebbero essere integrati in tutti i settori aziendali
❏ I dati di sintesi esprimono bene i fenomeni
❏ I dati storici sono importanti per capire i trend
❏ I dati dovrebbero potere essere sottoposti ad analisi whatif
Datawarehousing come processo
❏ Insieme di tecniche di recupero e analisi di dati da varie fonti con lo scopo di
rispondere a domande. Per aiutare a prendere decisioni informate
❏ Un sistema di supporto alle decisioni separato dai sistemi online
Architettura
Progettazione
Organizzazione del database
❏ deve essere aderente al dominio
❏ deve essere riconoscibile per utenti business
❏ accessibile dall'utente di business
❏ deve essere semplice
Tipi di schema
❏ schema a stella
❏ schema del fiocco di neve
Star schema
Snowflake schema
Dimensioni
❏ Descrivono in termini familiari al dominio
❏ Molto descrittive
❏ Tabelle di dimensioni non grandi
❏ Collegate tabella dei fatti da una chiave esterna
❏ Pesantemente indicizzate
❏ Dimensioni tipiche:
periodi di tempo, regione geografica (area, città), prodotti, clienti, agenti, etc.
Fatti
Tabella centrale
❏ Esempio tipico : singoli eventi di vendita
❏ Prevalentemente colonne numeriche
❏ Non molte colonne
❏ Molte righe
❏ Acceduta attraverso le dimensioni
ETL

More Related Content

Similar to Datawarehouse

Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione datiMicrofocusitalia
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & AnalyticsDavide Mauri
 
I Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfI Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfAndrea Gioia
 
Business intelligence and data warehousing in healthcare v2.3
Business intelligence and data warehousing in healthcare v2.3Business intelligence and data warehousing in healthcare v2.3
Business intelligence and data warehousing in healthcare v2.3Luca Mauri
 
Strumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoStrumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoFabio Tonini
 
Quanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseQuanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseMarco Pozzan
 
Business intelligence v0.3
Business intelligence v0.3Business intelligence v0.3
Business intelligence v0.3Luca Mauri
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliDenodo
 
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...Denodo
 
Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)Neo4j
 
White Paper - Strumenti per la raccolta dei dati
White Paper - Strumenti per la raccolta dei datiWhite Paper - Strumenti per la raccolta dei dati
White Paper - Strumenti per la raccolta dei datiSogesi
 
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Denodo
 
La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB MongoDB
 
Note di Data Warehouse e Business Intelligence - Pensare "Agile"
Note di Data Warehouse e Business Intelligence - Pensare "Agile"Note di Data Warehouse e Business Intelligence - Pensare "Agile"
Note di Data Warehouse e Business Intelligence - Pensare "Agile"Massimo Cenci
 

Similar to Datawarehouse (20)

Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
I Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdfI Software passano, i Dati restano.pdf
I Software passano, i Dati restano.pdf
 
ETL basics
ETL basicsETL basics
ETL basics
 
No Sql Intro
No Sql IntroNo Sql Intro
No Sql Intro
 
Business intelligence and data warehousing in healthcare v2.3
Business intelligence and data warehousing in healthcare v2.3Business intelligence and data warehousing in healthcare v2.3
Business intelligence and data warehousing in healthcare v2.3
 
Strumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del datoStrumenti digitali professionisti - Gestione del dato
Strumenti digitali professionisti - Gestione del dato
 
Quanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseQuanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless Synapse
 
Presentazione bd2
Presentazione bd2Presentazione bd2
Presentazione bd2
 
Business intelligence v0.3
Business intelligence v0.3Business intelligence v0.3
Business intelligence v0.3
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendali
 
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
Logical Data Management: La chiave per sfruttare al massimo il potenziale dei...
 
Datamart.pdf
Datamart.pdfDatamart.pdf
Datamart.pdf
 
Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)
 
Data flow
Data flowData flow
Data flow
 
White Paper - Strumenti per la raccolta dei dati
White Paper - Strumenti per la raccolta dei datiWhite Paper - Strumenti per la raccolta dei dati
White Paper - Strumenti per la raccolta dei dati
 
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
 
La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB
 
Note di Data Warehouse e Business Intelligence - Pensare "Agile"
Note di Data Warehouse e Business Intelligence - Pensare "Agile"Note di Data Warehouse e Business Intelligence - Pensare "Agile"
Note di Data Warehouse e Business Intelligence - Pensare "Agile"
 
Data Mining
Data MiningData Mining
Data Mining
 

More from Franco Morelli

Open data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciOpen data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciFranco Morelli
 
Open data e turismo 2a Edizione
Open data e turismo 2a EdizioneOpen data e turismo 2a Edizione
Open data e turismo 2a EdizioneFranco Morelli
 
Etl per portali open data
Etl per portali open dataEtl per portali open data
Etl per portali open dataFranco Morelli
 
Open data beni comuni digitali
Open data beni comuni digitaliOpen data beni comuni digitali
Open data beni comuni digitaliFranco Morelli
 
Mappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapMappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapFranco Morelli
 
Open data per il cittadino
Open data per il cittadinoOpen data per il cittadino
Open data per il cittadinoFranco Morelli
 
Civic hacking in equilibrio
Civic hacking in equilibrioCivic hacking in equilibrio
Civic hacking in equilibrioFranco Morelli
 
#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15Franco Morelli
 
Cultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaCultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaFranco Morelli
 
Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Franco Morelli
 
Come spende i soldi il mio comune
Come spende i soldi il mio comuneCome spende i soldi il mio comune
Come spende i soldi il mio comuneFranco Morelli
 
Opendata liberare i dati di bilancio di un comune
Opendata   liberare i dati di bilancio di un comuneOpendata   liberare i dati di bilancio di un comune
Opendata liberare i dati di bilancio di un comuneFranco Morelli
 

More from Franco Morelli (16)

Web services
Web servicesWeb services
Web services
 
Java basics
Java basicsJava basics
Java basics
 
Open data per capire i bilanci pubblici
Open data per capire i bilanci pubbliciOpen data per capire i bilanci pubblici
Open data per capire i bilanci pubblici
 
Open data e turismo 2a Edizione
Open data e turismo 2a EdizioneOpen data e turismo 2a Edizione
Open data e turismo 2a Edizione
 
Etl per portali open data
Etl per portali open dataEtl per portali open data
Etl per portali open data
 
Open data e turismo
Open data e turismoOpen data e turismo
Open data e turismo
 
Open data beni comuni digitali
Open data beni comuni digitaliOpen data beni comuni digitali
Open data beni comuni digitali
 
Open data e business
Open data e businessOpen data e business
Open data e business
 
Mappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su OpenstreetmapMappiamo Ravenna su Openstreetmap
Mappiamo Ravenna su Openstreetmap
 
Open data per il cittadino
Open data per il cittadinoOpen data per il cittadino
Open data per il cittadino
 
Civic hacking in equilibrio
Civic hacking in equilibrioCivic hacking in equilibrio
Civic hacking in equilibrio
 
#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15#Opendata e trasparenza in bassa romagna 15 01-15
#Opendata e trasparenza in bassa romagna 15 01-15
 
Cultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della culturaCultura dei dati aperti, dati aperti della cultura
Cultura dei dati aperti, dati aperti della cultura
 
Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?Open data, a che punto siamo in Romagna?
Open data, a che punto siamo in Romagna?
 
Come spende i soldi il mio comune
Come spende i soldi il mio comuneCome spende i soldi il mio comune
Come spende i soldi il mio comune
 
Opendata liberare i dati di bilancio di un comune
Opendata   liberare i dati di bilancio di un comuneOpendata   liberare i dati di bilancio di un comune
Opendata liberare i dati di bilancio di un comune
 

Recently uploaded

Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleGiornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniGiornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioServizi a rete
 

Recently uploaded (7)

Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleGiornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniGiornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
 

Datawarehouse

  • 2. Cosa è un Data Warehouse? • Definizione: un insieme unico, completo e coerente di dati ottenuti da una varietà di fonti diverse reso disponibile agli utenti finali i quali possono comprendere e utilizzare tali dati in un contesto di business • Orientato all’oggetto • Con dati integrati • Tempo variante • Non volatile
  • 3. Caratteristiche • Orientato all’oggetto. I dati sono organizzati in base a come gli utenti si riferiscono a loro. • Integrato. Tutte le incoerenze riguardanti convenzione di denominazione e valore di rappresentazione vengono rimossi. • Non volatile. I dati sono memorizzati in formato di sola lettura e non cambiano nel corso del tempo. • Tempo variante. I dati non sono aggiornati ne vengono mantenute serie storiche
  • 5. Orientato all’oggetto Application Environment La progettazione cura i processi applicativi e la struttura dei dati Data warehouse Environment Siamo al di fuori dei processi applicativi il focus è solo sulla progettazione della base di dati e sulla modellazione dei dati
  • 6. Integrato ❏ Convenzione dei nomi coerente, coerenza degli attributi, livello di accuratezza e aggregazione comuni. ❏ Istituzione di una comune unità di misura per tutti gli elementi provenienti da ogni sorgente ❏ I dati devono essere memorizzati nel DW in modo integrato, logicamente accessibili nella loro completezza
  • 7. Integrazione Sistema A Genere : m,f Indirizzo : Via Berti 7 Sistema B Genere : 0,1 Indirizzo : Via Berti Civico : 7 Sistema C Genere : maschio,femmina Indirizzo : Via Berti Civico : 7 Data integration and cleaning DW Genere : m,f Indirizzo : Via Berti Civico : 7
  • 8. Tempo variante ❏ In una applicazione operativa, l'aspettativa è che tutti i dati del database siano accurati al momento dell'accesso. Nel datawarehouse i dati devono semplicemente essere accurati in un momento qualsiasi , non necessariamente ad oggi ❏ Uno dei luoghi in cui si trova la tempo varianza di visualizzazione dei dati nel DW è nella chiave primaria. Ogni chiave primaria contenuta all'interno del DW deve contenere, in modo implicito o esplicito un elemento di tempo (giorno, settimana, mese, ecc)
  • 9. Tempo variante ❏ Ogni dato all'interno del magazzino deve essere associato a un particolare punto nel tempo se vi sono analisi che lo richiedono ❏ Un altro aspetto della varianza tempo nei dati DW è che, una volta registrati, i dati all'interno del magazzino non possono essere aggiornati o modificati
  • 10. Non volatile ❏ Attività tipiche come eliminazioni, inserimenti e modifiche che vengono eseguite in un ambiente applicativo operativo sono completamente inesistenti in un ambiente DW. ❏ Solo due operazioni di dati vengono sempre eseguite in DW: caricamento e accesso ai dati
  • 11. Applicazione vs DW I problemi di progettazione devono concentrarsi sulla integrità e sulle anomalie di aggiornamento. Processi complessi devono essere codificati per assicurare che le attività di aggiornamento dati consentano elevata integrità del prodotto finale. Tali problemi non esistono in un ambiente DW perché l'aggiornamento dei dati non viene mai eseguito Dati vengono inseriti in forma normalizzata per garantire una ridondanza minima. Dati non normalizzati, totali calcolati Le tecnologie necessarie per gestire le transazioni e il recupero dei dati, rollback, e la rilevazione e il trattamento dei deadlock sono abbastanza complesse. Tecnologie più semplici
  • 12. A cosa serve un datawarehouse • Consolidamento delle risorse informative • Prestazione delle interrogazioni migliorate • Tenere separate le funzioni di supporto alle decisioni dai sistemi gestionali operativi • Fondamento per il data mining, la visualizzazione dei dati, reporting avanzato e strumenti OLAP
  • 13. Risposta a domande di analisi Qual’è il canale di distribuzione più efficace? Quanto abbiamo fatturato nell’ultimo trimestre, quanto di meno dello stesso trimestre di anno scorso? Chi sono i miei clienti e cosa preferiscono? Quale prodotto-servizio garantisce maggiore marginalità? ……….
  • 14. Utilizzi tipici ❏ Reportistica ❏ Data mining ❏ Knowledge discovery ❏ Ricerca di cause di fenomeni di business
  • 15. Ancora su Application vs DW OLAP – Online Analytical Processing (Data Warehouse) OLTP – Online Transactional Processing (Operational System)
  • 16. Altre differenze tra applicazioni e DW ❏ obiettivi ❏ struttura ❏ dimensioni ❏ ottimizzazione delle prestazioni ❏ tecnologie utilizzate
  • 17. Altre differenze tra applicazioni e DW Orientato alle transazioni Orientato all’oggetto Piccolo (MB fino a diversi GB) Grandi (centinaia di GB fino a diversi TB) dati attuali dati storici Normalizzato struttura della tabella (molte tabelle, numero minimo di colonne per tabella) De-normalizzato struttura della tabella (poche tabelle, molte colonne per tabella) aggiornamenti online aggiornamenti batch
  • 18. Altre differenze tra applicazioni e DW Diagramma ER Star schema
  • 19. La voce degli utilizzatori ❏ I dati dovrebbero essere integrati in tutti i settori aziendali ❏ I dati di sintesi esprimono bene i fenomeni ❏ I dati storici sono importanti per capire i trend ❏ I dati dovrebbero potere essere sottoposti ad analisi whatif
  • 20. Datawarehousing come processo ❏ Insieme di tecniche di recupero e analisi di dati da varie fonti con lo scopo di rispondere a domande. Per aiutare a prendere decisioni informate ❏ Un sistema di supporto alle decisioni separato dai sistemi online
  • 22. Progettazione Organizzazione del database ❏ deve essere aderente al dominio ❏ deve essere riconoscibile per utenti business ❏ accessibile dall'utente di business ❏ deve essere semplice Tipi di schema ❏ schema a stella ❏ schema del fiocco di neve
  • 25. Dimensioni ❏ Descrivono in termini familiari al dominio ❏ Molto descrittive ❏ Tabelle di dimensioni non grandi ❏ Collegate tabella dei fatti da una chiave esterna ❏ Pesantemente indicizzate ❏ Dimensioni tipiche: periodi di tempo, regione geografica (area, città), prodotti, clienti, agenti, etc.
  • 26. Fatti Tabella centrale ❏ Esempio tipico : singoli eventi di vendita ❏ Prevalentemente colonne numeriche ❏ Non molte colonne ❏ Molte righe ❏ Acceduta attraverso le dimensioni
  • 27. ETL