2. Cosa è un Data Warehouse?
• Definizione: un insieme unico, completo e coerente di dati ottenuti da una varietà
di fonti diverse reso disponibile agli utenti finali i quali possono comprendere e
utilizzare tali dati in un contesto di business
• Orientato all’oggetto
• Con dati integrati
• Tempo variante
• Non volatile
3. Caratteristiche
• Orientato all’oggetto. I dati sono organizzati in base a come gli utenti si
riferiscono a loro.
• Integrato. Tutte le incoerenze riguardanti convenzione di denominazione e
valore di rappresentazione vengono rimossi.
• Non volatile. I dati sono memorizzati in formato di sola lettura e non cambiano
nel corso del tempo.
• Tempo variante. I dati non sono aggiornati ne vengono mantenute serie
storiche
5. Orientato all’oggetto
Application Environment
La progettazione cura i processi applicativi e la struttura dei dati
Data warehouse Environment
Siamo al di fuori dei processi applicativi il focus è solo sulla progettazione della
base di dati e sulla modellazione dei dati
6. Integrato
❏ Convenzione dei nomi coerente, coerenza degli attributi, livello di accuratezza
e aggregazione comuni.
❏ Istituzione di una comune unità di misura per tutti gli elementi provenienti da
ogni sorgente
❏ I dati devono essere memorizzati nel DW in modo integrato, logicamente
accessibili nella loro completezza
7. Integrazione
Sistema A
Genere : m,f
Indirizzo : Via Berti 7
Sistema B
Genere : 0,1
Indirizzo : Via Berti
Civico : 7
Sistema C
Genere : maschio,femmina
Indirizzo : Via Berti
Civico : 7
Data integration and cleaning
DW
Genere : m,f
Indirizzo : Via Berti
Civico : 7
8. Tempo variante
❏ In una applicazione operativa, l'aspettativa è che tutti i dati del database siano
accurati al momento dell'accesso. Nel datawarehouse i dati devono
semplicemente essere accurati in un momento qualsiasi , non
necessariamente ad oggi
❏ Uno dei luoghi in cui si trova la tempo varianza di visualizzazione dei dati nel
DW è nella chiave primaria. Ogni chiave primaria contenuta all'interno del DW
deve contenere, in modo implicito o esplicito un elemento di tempo (giorno,
settimana, mese, ecc)
9. Tempo variante
❏ Ogni dato all'interno del magazzino deve essere associato a un particolare
punto nel tempo se vi sono analisi che lo richiedono
❏ Un altro aspetto della varianza tempo nei dati DW è che, una volta registrati, i
dati all'interno del magazzino non possono essere aggiornati o modificati
10. Non volatile
❏ Attività tipiche come eliminazioni, inserimenti e modifiche che vengono
eseguite in un ambiente applicativo operativo sono completamente inesistenti
in un ambiente DW.
❏ Solo due operazioni di dati vengono sempre eseguite in DW: caricamento e
accesso ai dati
11. Applicazione vs DW
I problemi di progettazione devono
concentrarsi sulla integrità e
sulle anomalie di aggiornamento.
Processi complessi devono essere
codificati per assicurare che le attività di
aggiornamento dati consentano
elevata integrità del prodotto finale.
Tali problemi non esistono in un ambiente
DW perché l'aggiornamento dei dati non
viene mai eseguito
Dati vengono inseriti in forma normalizzata
per garantire una ridondanza
minima.
Dati non normalizzati, totali calcolati
Le tecnologie necessarie per gestire le
transazioni e il recupero dei dati, rollback, e
la rilevazione e il trattamento dei deadlock
sono abbastanza complesse.
Tecnologie più semplici
12. A cosa serve un datawarehouse
• Consolidamento delle risorse informative
• Prestazione delle interrogazioni migliorate
• Tenere separate le funzioni di supporto alle decisioni dai sistemi gestionali
operativi
• Fondamento per il data mining, la visualizzazione dei dati, reporting avanzato e
strumenti OLAP
13. Risposta a domande di analisi
Qual’è il canale di distribuzione più efficace?
Quanto abbiamo fatturato nell’ultimo trimestre, quanto di meno dello stesso
trimestre di anno scorso?
Chi sono i miei clienti e cosa preferiscono?
Quale prodotto-servizio garantisce maggiore marginalità?
……….
15. Ancora su Application vs DW
OLAP – Online Analytical Processing
(Data Warehouse)
OLTP – Online Transactional Processing
(Operational System)
16. Altre differenze tra applicazioni e DW
❏ obiettivi
❏ struttura
❏ dimensioni
❏ ottimizzazione delle prestazioni
❏ tecnologie utilizzate
17. Altre differenze tra applicazioni e DW
Orientato alle transazioni Orientato all’oggetto
Piccolo (MB fino a diversi GB) Grandi (centinaia di GB fino a diversi TB)
dati attuali dati storici
Normalizzato struttura della tabella (molte
tabelle, numero minimo di
colonne per tabella)
De-normalizzato struttura della tabella
(poche tabelle, molte
colonne per tabella)
aggiornamenti online aggiornamenti batch
19. La voce degli utilizzatori
❏ I dati dovrebbero essere integrati in tutti i settori aziendali
❏ I dati di sintesi esprimono bene i fenomeni
❏ I dati storici sono importanti per capire i trend
❏ I dati dovrebbero potere essere sottoposti ad analisi whatif
20. Datawarehousing come processo
❏ Insieme di tecniche di recupero e analisi di dati da varie fonti con lo scopo di
rispondere a domande. Per aiutare a prendere decisioni informate
❏ Un sistema di supporto alle decisioni separato dai sistemi online
22. Progettazione
Organizzazione del database
❏ deve essere aderente al dominio
❏ deve essere riconoscibile per utenti business
❏ accessibile dall'utente di business
❏ deve essere semplice
Tipi di schema
❏ schema a stella
❏ schema del fiocco di neve
25. Dimensioni
❏ Descrivono in termini familiari al dominio
❏ Molto descrittive
❏ Tabelle di dimensioni non grandi
❏ Collegate tabella dei fatti da una chiave esterna
❏ Pesantemente indicizzate
❏ Dimensioni tipiche:
periodi di tempo, regione geografica (area, città), prodotti, clienti, agenti, etc.
26. Fatti
Tabella centrale
❏ Esempio tipico : singoli eventi di vendita
❏ Prevalentemente colonne numeriche
❏ Non molte colonne
❏ Molte righe
❏ Acceduta attraverso le dimensioni