SlideShare une entreprise Scribd logo
1  sur  73
Télécharger pour lire hors ligne
Business Intelligence
(Informatique Décisionnelle)
Aziz DAROUICHI
FST-UCA
Mail to: pr.azizdarouichi@gmail.com
1
Hiérarchie de la prise de décision
Problématique des données dans un système décisionnel
Comparison des environments du Processing
Structures de Stockage de Données dans un BI
Data Warehouses/Entrepôts de données
Q & A
Bibliographie
Hiérarchie de la prise de décision
Problématique des données dans un système décisionnel
Comparison des environments du Processing
Structures de Stockage de Données dans un BI
Data Warehouses/Entrepôts de données
Q & A
Bibliographie
Partie 2: Data Warehouse
2
Hiérarchie de la prise de décision
Hiérarchie de la prise de décision
Top
(strategic)
Middle
(tactical)
Lower
(operational)
Les décisions sont prises par les exécutants
(comme Chefs de services, chefs d'atelier…)
Ces décisions sont fréquentes, très prévisibles.
Exemples: Résoudre les retards de commande, planifier
les employés, achat de fournitures de bureau, organisation
des horaires de travail.
Les décisions sont prises par les encadrements
supérieurs (comme les Directions fonctionnelles)
Ces décisions sont peu fréquentes, peu
prévisibles.
Exemples: Choisir des fournisseurs, prévoir les ventes,
lancement d'une campagne publicitaire, acquisition de
matériel de production, recrutement d’un cadre dirigeant.
Les décisions sont prises par le plus haut niveau
hiérarchique, c.-à-d. soit par la Direction
Générale soit par l’État.
Ces décisions sont uniques, occasionnelles.
Exemples: Identifier de nouveaux marchés, choisir des
magasins, lancement d’1 nouveau produit, abandon d’une
activité, fusion avec une autre entreprise.
Hiérarchie de la prise de décision Types de Décisions
4
Hiérarchie de la prise de décision
5
Problématique des données dans un BI
Système Opérationnels vs Décisionnels
Business Intelligence7
Systèmes opérationnels Systèmes décisionnels
Appelés OLTP (On-Line Transaction
Processing) ou systèmes de gestion
Traitement transactionnel en ligne
Appelés OLAP (On-Line
Analytical Processing)
Traitement analytique en ligne
Dédiés aux métiers de l’entreprise pour
les assister dans leurs tâches de gestion
quotidiennes
Dédiés à la gestion de l’entreprise
pour l’aider au pilotage de l’activité
pour une vision transversale de
l’entreprise
Utilisation des ERP (ou PGI ) pour la
gestion des données
Utilisation des Data Warehouses
(Entrepôts de données)
7
Données Opérationnelles vs Données Décisionnelles
8
Données opérationnelles Données décisionnelles
Données détaillées Données agrégées et globalisées
Données courantes et récentes Données historiques et historisées
Structure compréhensible et
optimisée pour l’informaticien
Structure compréhensible par le
décideur
Données réparties et non homogènes Données centralisées, intégrées
Utilisateurs:
Agents opérationnels, nombreux, et
concurrents
Utilisateurs:
Décideurs, analystes, peu nombreux
et non concurrents
8
SI opérationnel et SI décisionnel
9
Charge du Serveur de Données:
Passage des données de production aux données
décisionnelles
10
Les bases de production : toutes les sources de données
Comment organiser ces différentes données dans un ensemble
cohérent afin de procéder à toutes les analyses nécessaires pour
construire les indicateurs indispensables au pilotage de l'entreprise?
Solutions
11
Stockage de données : Data Warehouse
Base de données unique - vocabulaire unique
Contenu adapté aux besoins des décideurs
Structure multidimensionnelle spéciale
Niveau de détail bien étudié
Données historiques
Solutions
12
Interrogation des données :
Outil interactif, convivial
Outil offrant des fonctions d’analyse
Tri des données
Roll-up, Drill-down, …
Calcul et comparaison
Analyse des tendances, relations et exceptions
Simulation
Comparison des environments du Processing
Comparison des environments du Processing
Processing Transactionnel
• Données primaires des transactions
• Opérations quotidiennes
• Décisions: impliquent des détails sur les
produits, les clients, les livraisons, la
fabrication telles que l'exécution des
commandes, la résolution des plaintes,
l’affectation du personnel
• Décisions à court terme
Processing du Business Intelligence
• Données secondaires transformées
• Décisions : Vision large des clients, des produits, de la
production, du marketing pour la planification de la
capacité, des emplacements de magasins, des
nouveaux secteurs d'activité,…
• Décisions à moyen et long terme
14
15
OLTP OLAP
OnLine Transaction Processing.
Il s'agit des traitements transactionnels.
OLTP est utilisé pour stocker et gérer des
données pour les opérations quotidiennes.
Système destiné à offrir le moyen à une
application d’utiliser de façon
transactionnelle un serveur de base de
données.
C’est un ensemble de logiciels que
l’utilisateur peut employer de façon
interactive pour accéder aux données de la
manière la plus rapide et simple possible.
OnLine Analytical Processing
OLAP est utilisé pour analyser les
données et prendre des décisions
Catégorie de technologie logicielle
permettant aux analystes, managers et
décideurs d’accéder de manière rapide,
consistante et interactive à une large
variété d’information, transformée pour
refléter la dimension réelle d’une
entreprise.
Analyser les ventes, détecter les fraudes,
prospecter des clients font partie du
processus OLAP.
Exemple 1 :
Le 15/01/2019 à 14h30min, le client X a retiré
1000DH du compte Y
Exemple 1:
Quel est le volume des ventes par produit et par
région durant le deuxième trimestre de 2019?
Comparison des environments du Processing
16
Comparison des environments du Processing
17
OLTP vs OLAP
OLTP OLAP
Conception - Orientée application
(Application de production, de
facturation…)
- Orienté transaction
- Structure statique (E/R)
- Orientée sujet (Client, produit,
vendeur…)
- Orienté analyse
- Structure évolutive (en étoile, en
flocon, …)
Données - Détaillées, isolées, non agrégées
- Courantes, récentes, mises à jour
- Accessibles de façon
individuelle
- conservées sur une courte
période
- Normalisées
- Résumées, consolidées, recalculées,
agrégées
- Historiques, historisées
- Accessibles de façon ensembliste
- Dénormalisées
Vue - Relationnelle - Multidimensionnelle
Enregistrements
accédés
- Dizaines - Millions
OLTP OLAP
Requêtes/Utilisation - Simples, nombreuses,
régulières, prévisibles,
répétitives
- Sensibles aux performances
(réponses immédiates)
- Accès à beaucoup de données
- Temps d’exécution: court
(ms)
- Complexes, peu nombreuses,
irrégulières, non prévisibles, ad-
hoc
- Non sensibles aux performances
(réponses moins rapides)
- Accès à beaucoup d’informations
- Temps d’exécution: long (s-min-h)
Fonction - Opérations quotidiennes - Aide à la décision
Utilisateurs - Agents opérationnels
- Nombreux (par milliers)
- Concurrents
- Managers / Analystes
- Peu (par dizaines, centaines)
- Non concurrents
Accès - Lecture / Écriture - Lecture
Taille de la base - 100 MB à 1 GB,
- voir quelques gigaoctets
- 100 GB à 1 TB,
- voir du pétaoctet.
OLTP vs OLAP
OLTP vs OLAP
19
Exemple 2:
Les clients placent des commandes; ainsi, la base de données OLTP
pourrait avoir une table contenant des données client et une autre
contenant des données relatives aux commandes,
vous avez besoin des détails fins comme,
par exemple, quels types de produits sont commandés par quels clients?
En ce qui concerne l’informatique décisionnelle,
vous êtes plutôt à la recherche de tendances plus étendues comme,
par exemple, combien d'unités d’un produit quelconque ont été vendu au
cours du précédent trimestre?
Technologies
20
Stockage et
Gestion Efficace
des Gros Volumes
Data Warehouse
(Entrepôt de Données)
Traitements
Complexes sur ces
Volumes
Serveur OLAP
Application
Cliente
Data Mining
(Fouille de Données)
Structure d’un Business Intelligence
21
Structures de Stockage de Données
dans un BI
Structures de Stockage de Données dans un BI
23
Data Marts
(Magasins de données)
Data Warehouse
(Entrepôt de données)
ODS
(Operational Data Store)
Systèmes
Opérationnels
Data Mining
(Exploration de données)
Extraction
Alimentation
Transformation
Synthèse
24
Définition:
Collection de données orientées sujet, volatiles, organisées pour
le support d’un processus de décision ponctuel, en support à une
activité opérationnelle particulière.
Donne la vision immédiate et intégrée de l’état d’un ou plusieurs
systèmes opérants.
Un ODS est généralement destiné à contenir des données de
niveau fin comme un prix ou le montant d'une vente.
ODS ne désigne pas l’endroit où l’on va stocker et analyser des
données opérationnelles mais l’endroit où l’on va les traiter en
vue d’une intégration dans un Data Warehouse.
ODS: Operational Data Store
Data Warehouse
25
Définition:
Collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à
la décision. (Bill Inmon (1996))
Data Warehouse ou Entrepôt de données spécifique au monde
décisionnel, destiné principalement à analyser les leviers
business potentiels.
Data Mart
26
Définition:
Data Mart ou Magasin de données orienté sujet, non volatile,
mis à la disposition des utilisateurs dans un contexte décisionnel
décentralisé, ciblé pour un usage particulier.
Sous-ensemble d’un entrepôt de données.
Point de vue spécifique selon des critères métiers.
Data Mining
27
Définition:
Ensemble d’outils, méthodes et technologies d’analyse mises en
œuvre pour définir des tendances, pour segmenter l’information ou
pour établir des corrélations entre les données.
Data Warehouse vs ODS
28
DW ODS
Intégration des données hors
ligne
Intégration des données en ligne
Sauvegarde des données récentes
Utilisé quand les données sont
dispersées sur plusieurs supports de
stockage, et on a besoin de les
rassembler
Exemple: On veut avoir une vue unique sur un
patient qu’on pourra modifier en ligne.
Les données de ce patient sont disposées
dans plusieurs bases de données (liste
des hospitalisations, liste des
diagnostics, liste des achats
pharmaceutiques…).
ODS peut être utilisé pour extraire ces
données et les afficher.
Data Warehouse vs Data Mart
29
Data Warehouse vs Data Mart
30
DW DM
Le DW est un système centralisé.
Dépôt de données au niveau entreprise.
Combinaison de plusieurs Data Marts.
Contient toutes les mesures et dimensions
nécessaires.
Assure l’intégrité de ces mêmes dimensions
à travers tous les Data Marts.
DW est par nature orienté données
La taille du DW >100 Go.
Le processus de mise en œuvre du DM est
limité à quelques mois
Le DM est un système décentralisé.
Ensemble de dimensions et mesures
limitées.
Utilisées pour des thèmes métier
spécifiques.
Construites à partir des données des data
warehouses.
DM est par nature orienté projet
La taille du DM < 100 Go.
Le processus de mise en œuvre du DW
peut être prolongé de plusieurs mois à
plusieurs années.
Dans une entreprise, il existe un seul
entrepôt de données (DW) mais plusieurs
magasins de données (DMs) : Finance,
Vente, Achats,…
Data Warehouses/Entrepôts de données
Pourquoi ne pas utiliser un SGBD?
32
Fonctions d’un SGBD
Systèmes transactionnels (OLTP)
Permettre d’insérer, modifier, interroger rapidement,
efficacement et en sécurité les données de la base
Sélectionner, ajouter, mettre à jour, supprimer des tuples
Répondre à de nombreux utilisateurs simultanément
Pourquoi ne pas utiliser un SGBD?
33
Fonctions d’un DW
Systèmes pour l’aide à la prise de décision (OLAP)
Regrouper, organiser des informations provenant de sources
diverses
Intégrer et stocker les données pour une vue orientée métier
Retrouver et analyser l’information rapidement et facilement
Comparaison des données
Caractéristiques BD opérationnelle Data Warehouse
Age des données Actuel Historique
Niveau des détails Individuel Individuel et résumé
Orientation Processus Sujet
Records per request Peu Milliers
Niveau de
normalisation
Généralement normalisé Normalisation détendue
(relaxée)
Mise à jour du niveau Très volatil Principalement rafraîchi (non
volatil)
Modèle de données Relationnel Relationnels (schémas en
étoile) et multidimensionnels
(cubes de données)
34
Data Warehouse
35
Objectifs:
Regrouper, organiser des informations provenant de sources
diverses.
Les intégrer et les stocker pour donner à l’utilisateur une vue
orientée métier.
Retrouver et analyser l’information selon plusieurs critères.
Transformer un système d’information qui avait une vocation
de production en un SI décisionnel.
Doit contenir des informations cohérentes.
Les données doivent pouvoir être séparées et combinées au
moyen de toutes les mesures possibles de l’activité.
Le DW ne contient pas uniquement des données, mais aussi un
ensemble d’outils de requêtage, d’analyse et de reporting.
Data Warehouse
Partie essentielle d'infrastructure pour le Business Intelligence
(ou le décisionnel).
Dépôt (repository) logiquement centralisé pour la prise de
décision
Peuplés à partir de bases de données opérationnelles et de
sources de données externes
Données intégrées et transformées
Optimisé pour le reporting et l'intégration périodique
36
Data Warehouse
37
Défintion de Bill Inmon (1966)
“Subject oriented, integrated, non-volatile, time-variant
collection of data in support of management decisions”.
Le Data Warehouse est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour le support
d’un processus d’aide à la décision.
« Un Data Warehouse ne s’achète pas, il se construit…» (Bill
Inmon)
Data Warehouse
38
Base de données dans laquelle sont déposées après nettoyage et
homogénéisation les informations en provenance des différents
systèmes de production de l’entreprise (système OLTP).
C’est une Base de Données à des fins d’analyse.
Caractéristiques du Data Warehouse
39
Caractéristiques du Data Warehouse
40
Données Orientées Sujet (subject-oriented)
Le Data Warehouse est orienté sujet, ce qui signifie que les données
collectées doivent être orientées métier, et donc triées par thème.
Données pour l’analyse et la modélisation en vue de l’aide à la décision,
et non pas pour les opérations et transactions journalières.
Vue synthétique des données selon les sujets intéressant les décideurs.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
41
Données Orientées Sujet (subject-oriented)
Les données sont organisées par sujet ou faits (ex : clients, produits,
ventes, etc.).
Les données propres à un thème, les ventes par exemple, seront
rapatriées des différentes bases OLTP de production et regroupées.
Les données sont organisées selon des dimensions.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
42
Données Intégrées (integrated)
Le Data Warehouse est composé de données intégrées, c’est à dire
qu’un « nettoyage » préalable des données est nécessaire dans un
souci de rationalisation et de normalisation.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
43
Données Intégrées (integrated)
Les données, qui proviennent de diverses sources hétérogènes, sont
consolidées et intégrées dans le Data Warehouse.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
44
Données Non Volatiles (non-volatile)
Les données du Data Warehouse sont non volatiles, ce qui signifie
qu’une donnée entrée dans l’entrepôt l’est pour de bon et n’a pas
vocation à être supprimée (Read-Only).
Stockage indépendant des BD opérationnelles.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
45
Données Non Volatiles (non-volatile)
Une fois insérées dans le Data Warehouse (DW), les données ne
sont jamais modifiées ou effacées; elle sont conservées pour des
analyses futures.
Pas de mises à jour des données dans le Data Warehouse.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
46
Données Historisées (time-variant)
Fournies par les sources opérationnelles.
Matière première pour l'analyse.
Stockage de l'historique des données, pas de mise à jour.
Bases de données Entrepôt de données (DW)
Caractéristiques du Data Warehouse
47
Données Historisées (time-variant)
Les données ont très souvent une composante temporelle (ex : date et
heure d’une transaction).
Un référentiel temps doit être associé aux données.
Les données du Data Warehouse doivent être historisées, donc datées.
Bases de données Entrepôt de données (DW)
Approches académiques
48
R. Kimball B. Inmon
Processus Bottom-Up Top-Down
Organisation Data marts Data Warehouse
Schématisation Etoile Flocon
www.kimballgroup.com www.inmoncif.com
Choix d'architecture
Top Down
• Approche Data warehouse
• Entrepôt de données d'entreprise (EDW)
• Niveaux d'intégration plus élevés
• Logiquement centralisé
• Portée plus grande du projet
• Un seul Data warehouse pour toute
l’entreprise
Bottom Up
• Approche Data mart
• Data marts indépendants
• Niveaux d'intégration inférieurs
• Logiquement décentralisé
• Portée plus petite du projet
49
Architecture Top-Down
Data warehouse
Operational
database
Operational
database
External
data source
EDM
Detailed and
summarized data
Transformation
process
Data warehouse
server
User
departments
Data mart
Data mart
Data mart tier
Extraction
process
Staging
Area
50
Architecture Top-Down
51
Architecture Top-Down
52
Architecture Bottom-up
Operational
database
Operational
database
External
data source
Transformation
process
User
departments
Data mart
Data mart
Data mart tier
53
Architecture Bottom-up
54
Architecture Bottom-up
55
Data Warehouse
56
ETL Process
Outils d’alimentation pour
Extraire
Transformer
Charger dans un Data warehouse
les données sources
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Architecture ETL
Transform
(ETL Engine)
Data
Source
Data
Source
Data
Source
Extract Load DW Tables
57
ETL : Extraction
58
Extraction des données de leur environnement d’origine (BDRs,
fichiers plats, ERP, CRM…)
Besoin d’outils spécifiques pour accéder aux bases de données de
production (requêtes sur des BD hétérogènes)
Besoin d’une technique appropriée pour n’extraire que les données
nécessaires
Données créées ou modifiées depuis la dernière opération
d’extraction
Attention:
L’extraction ne doit pas perturber l’activité de production.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
ETL : Transformation
59
Intégration des données
Homogénéisation du vocabulaire, structures, valeurs
Suppression et fusion des redondances
Épuration des données (suppression des données incohérentes)
Transformation des données dans un format cible
Nettoyage (valeurs manquantes, aberrantes…)
BDOBDO SDE
Extraction
Transformation
Chargement
DW
ETL : Transformation
60
Exemple de nettoyage:
cm
inches cm
yards
Jan.22, 2019
22/01/2019
22/01/19
01/22/2019
BD Facturation Personne 1(Marrakchi)
BD Personnel Personne 2(Marrakchi)
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Jan.22, 2019
intégrer (Marrakchi)
ETL : Chargement
61
C’est l’opération qui consiste à charger les données nettoyées et
préparées dans le Data warehouse.
Opérations de calcul et d’agrégation des données
Remplacement de certaines bases si aucune solution d’extraction
satisfaisante n’est possible
Mise en place de procédures de chargement (nocturne?) et de
restauration (en cas de problème)
Envisager la mise en place de systèmes redondants si la disponibilité
du système ne peut être interrompue
Prise en compte de la notion de granularité
Conservation des données détaillées
Possibilité d’agrégation des données pour la synthèse
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Référentiel: Métabase de Données
62
Existence d’une métabase de données ou catalogue de
métadonnées:
Contient des métadonnées du DW, i.e. des données sur les
données du D.W.
Idéalement: Lieu de stockage unique des informations qui
pilotent des processus dans l’entrepôt
Détails sur :
Les données entreposées, leur format, leur signification, leur degré
d’exactitude.
Les processus de récupération/extraction dans les bases sources.
La date du dernier chargement du DW.
L’historique des données sources et de celles du DW.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Architecture ELT
Transform
(Relational
DBMS)
Data
Source
Data
Source
Data
Source
Extract Load DW Tables
63
Évaluation d'architecture
Avantages majeurs
Indépendance du SGBD pour ETL
Technologie d'optimisation supérieure dans le SGBD relationnel
pour ELT
Opérations plus complexes pour ETL dans les transformations
Moins de bande passante réseau pour ELT
Combinaison d'architectures possible
64
Outils d’intégration de données
Vendeurs traditionnels
Fournisseurs de BDs: Oracle, IBM, Microsoft, Amazon
Autres vendeurs: SAP, Informatica, SAS, Informaktion
Builders,…
Open source
Pentaho Data Integration
Talend Open Studio for Data Integration
CloverETL
JasperSoft ETL
…
65
Intégration de données
66
Intégration de données
Le rapatriement des données peut se faire de trois façons
différentes :
Push : la logique de chargement est dans le système de
production, il pousse les données vers le Staging Area quand il en
a l'occasion.
Pull : le Pull tire les données de la source vers le Staging Area.
Push-Pull : La source prépare les données à envoyer et prévient le
Staging Area qu'elle est prête. Le Staging Area va récupérer les
données. Si la source est occupée, le Staging Area fera une autre
demande plus tard.
67
Infrastructure du data warehouse
Chargement complet ou incrémental dans ETL
Il existe deux méthodes principales pour charger des données dans
un data warehouse :
Full Load : chargement initial ou complet. La méthode du
chargement complet implique un déchargement complet des
données qui a lieu la première fois que la source est chargée dans
le data warehouse.
Delta Load ou Incremental Load : chargement incrémental.
Le chargement incrémental a lieu à intervalles réguliers. Ces
intervalles peuvent être des incréments de flux (meilleurs pour de
plus petits volumes de données) ou des incréments de lots
(meilleurs pour de plus grands volumes de données).
68
Structure du Data Warehouse (1/3)
69
1. Structure directe simple :
On fait des mises à jour du
data warehouse avec des laps
de temps importants.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Structure du Data Warehouse (2/3)
70
2. Structure de cumul simple :
On stocke les données de chaque mise à jour, les mises à jour
étant fréquentes (par exemple tous les jours) on a un espace
occupé important, mais on ne perd pas d’information.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Structure du Data Warehouse (3/3)
71
3. Structure par résumé déroulant :
À chaque mise à jour, on stocke des données détaillées, et on
synthétise les anciennes données en fonction de leur âge.
Plus une donnée est vieille, moins elle est détaillée.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Q & A
72
Bibliographie
73
1. Michael Mannino, Business School, University of Colorado Denver: « Data Warehouse
Concepts, Design, and Data Integration ».
2. Jahangir Karimi, Information Systems University of Colorado Denver: «Business
Intelligence Concepts, Tools, and Applications ».
3. Lilia Sfaxi, « Introduction à l’Informatique Décisionnelle » - Cours
4. Smile, Open Source Solutions :« Décisionnel, le meilleur des solutions open-source »,
Livre blanc
5. https://www.imaginarycloud.com/blog/oltp-vs-olap/
6. http://www-igm.univ-lv.fr/~dr/XPOSE2005/entrepot/datawarehouse.html
7. https://www.kimballgroup.com/
8. https://decisionworks.com/
9. www.inmoncif.co
10. …

Contenu connexe

Tendances

Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont
 
Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouse
Alexandre Equoy
 

Tendances (20)

Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
 
Chap1 2 dw (1)
Chap1 2 dw (1)Chap1 2 dw (1)
Chap1 2 dw (1)
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Partie3BI-DW-OLAP2019
Partie3BI-DW-OLAP2019Partie3BI-DW-OLAP2019
Partie3BI-DW-OLAP2019
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Les outils OLAP
Les outils OLAPLes outils OLAP
Les outils OLAP
 
Introduction à la Business Intelligence
Introduction à la Business Intelligence Introduction à la Business Intelligence
Introduction à la Business Intelligence
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouse
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
 

Similaire à Partie2BI-DW2019

Dwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - studentDwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - student
Carlos Sanin
 
Decizia Décisionnel et Pilotage Courte
Decizia Décisionnel et Pilotage CourteDecizia Décisionnel et Pilotage Courte
Decizia Décisionnel et Pilotage Courte
Decizia
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
Denodo
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
BEL MRHAR Mohamed Amine
 
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdfinformatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
mounirhim383
 

Similaire à Partie2BI-DW2019 (20)

Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Dwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - studentDwh udl 2014_2015_v0.22 - student
Dwh udl 2014_2015_v0.22 - student
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big Data
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
Data Warehousing.pptx
Data Warehousing.pptxData Warehousing.pptx
Data Warehousing.pptx
 
Decizia Décisionnel et Pilotage Courte
Decizia Décisionnel et Pilotage CourteDecizia Décisionnel et Pilotage Courte
Decizia Décisionnel et Pilotage Courte
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Data Management - PramaTALK
Data Management - PramaTALKData Management - PramaTALK
Data Management - PramaTALK
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
 
Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
 
Mdm entrepot_de_donnees_-_wiki
Mdm  entrepot_de_donnees_-_wikiMdm  entrepot_de_donnees_-_wiki
Mdm entrepot_de_donnees_-_wiki
 
Si décisionnel
Si décisionnelSi décisionnel
Si décisionnel
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdfinformatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
 
Si 1
Si 1Si 1
Si 1
 

Plus de Aziz Darouichi

Plus de Aziz Darouichi (15)

Chapitre 2: String en Java
Chapitre 2:  String en JavaChapitre 2:  String en Java
Chapitre 2: String en Java
 
Chapitre 11: Expression Lambda et Référence de méthode en Java
Chapitre 11: Expression Lambda et Référence de méthode en JavaChapitre 11: Expression Lambda et Référence de méthode en Java
Chapitre 11: Expression Lambda et Référence de méthode en Java
 
Chapitre8: Collections et Enumerations En Java
Chapitre8: Collections et Enumerations En JavaChapitre8: Collections et Enumerations En Java
Chapitre8: Collections et Enumerations En Java
 
Chap 6 : classes et interfaces
Chap 6 : classes et interfacesChap 6 : classes et interfaces
Chap 6 : classes et interfaces
 
Chapitre2fonctionscppv2019
Chapitre2fonctionscppv2019Chapitre2fonctionscppv2019
Chapitre2fonctionscppv2019
 
Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019
 
Chap1V2019: Cours en C++
Chap1V2019: Cours en C++Chap1V2019: Cours en C++
Chap1V2019: Cours en C++
 
Chapitre1: Langage Python
Chapitre1: Langage PythonChapitre1: Langage Python
Chapitre1: Langage Python
 
Chapitre5: Classes et objets
Chapitre5: Classes et objetsChapitre5: Classes et objets
Chapitre5: Classes et objets
 
Chapitre6: Surcharge des opérateurs
Chapitre6:  Surcharge des opérateursChapitre6:  Surcharge des opérateurs
Chapitre6: Surcharge des opérateurs
 
Chapitre4: Pointeurs et références
Chapitre4: Pointeurs et références Chapitre4: Pointeurs et références
Chapitre4: Pointeurs et références
 
Cours Visual Basic.NET
Cours Visual Basic.NETCours Visual Basic.NET
Cours Visual Basic.NET
 
Chapitre3 tableauxcpp
Chapitre3 tableauxcppChapitre3 tableauxcpp
Chapitre3 tableauxcpp
 
Chap2fonctionscpp
Chap2fonctionscppChap2fonctionscpp
Chap2fonctionscpp
 
Chap1: Cours en C++
Chap1: Cours en C++Chap1: Cours en C++
Chap1: Cours en C++
 

Partie2BI-DW2019

  • 1. Business Intelligence (Informatique Décisionnelle) Aziz DAROUICHI FST-UCA Mail to: pr.azizdarouichi@gmail.com 1
  • 2. Hiérarchie de la prise de décision Problématique des données dans un système décisionnel Comparison des environments du Processing Structures de Stockage de Données dans un BI Data Warehouses/Entrepôts de données Q & A Bibliographie Hiérarchie de la prise de décision Problématique des données dans un système décisionnel Comparison des environments du Processing Structures de Stockage de Données dans un BI Data Warehouses/Entrepôts de données Q & A Bibliographie Partie 2: Data Warehouse 2
  • 3. Hiérarchie de la prise de décision
  • 4. Hiérarchie de la prise de décision Top (strategic) Middle (tactical) Lower (operational) Les décisions sont prises par les exécutants (comme Chefs de services, chefs d'atelier…) Ces décisions sont fréquentes, très prévisibles. Exemples: Résoudre les retards de commande, planifier les employés, achat de fournitures de bureau, organisation des horaires de travail. Les décisions sont prises par les encadrements supérieurs (comme les Directions fonctionnelles) Ces décisions sont peu fréquentes, peu prévisibles. Exemples: Choisir des fournisseurs, prévoir les ventes, lancement d'une campagne publicitaire, acquisition de matériel de production, recrutement d’un cadre dirigeant. Les décisions sont prises par le plus haut niveau hiérarchique, c.-à-d. soit par la Direction Générale soit par l’État. Ces décisions sont uniques, occasionnelles. Exemples: Identifier de nouveaux marchés, choisir des magasins, lancement d’1 nouveau produit, abandon d’une activité, fusion avec une autre entreprise. Hiérarchie de la prise de décision Types de Décisions 4
  • 5. Hiérarchie de la prise de décision 5
  • 7. Système Opérationnels vs Décisionnels Business Intelligence7 Systèmes opérationnels Systèmes décisionnels Appelés OLTP (On-Line Transaction Processing) ou systèmes de gestion Traitement transactionnel en ligne Appelés OLAP (On-Line Analytical Processing) Traitement analytique en ligne Dédiés aux métiers de l’entreprise pour les assister dans leurs tâches de gestion quotidiennes Dédiés à la gestion de l’entreprise pour l’aider au pilotage de l’activité pour une vision transversale de l’entreprise Utilisation des ERP (ou PGI ) pour la gestion des données Utilisation des Data Warehouses (Entrepôts de données) 7
  • 8. Données Opérationnelles vs Données Décisionnelles 8 Données opérationnelles Données décisionnelles Données détaillées Données agrégées et globalisées Données courantes et récentes Données historiques et historisées Structure compréhensible et optimisée pour l’informaticien Structure compréhensible par le décideur Données réparties et non homogènes Données centralisées, intégrées Utilisateurs: Agents opérationnels, nombreux, et concurrents Utilisateurs: Décideurs, analystes, peu nombreux et non concurrents 8
  • 9. SI opérationnel et SI décisionnel 9 Charge du Serveur de Données:
  • 10. Passage des données de production aux données décisionnelles 10 Les bases de production : toutes les sources de données Comment organiser ces différentes données dans un ensemble cohérent afin de procéder à toutes les analyses nécessaires pour construire les indicateurs indispensables au pilotage de l'entreprise?
  • 11. Solutions 11 Stockage de données : Data Warehouse Base de données unique - vocabulaire unique Contenu adapté aux besoins des décideurs Structure multidimensionnelle spéciale Niveau de détail bien étudié Données historiques
  • 12. Solutions 12 Interrogation des données : Outil interactif, convivial Outil offrant des fonctions d’analyse Tri des données Roll-up, Drill-down, … Calcul et comparaison Analyse des tendances, relations et exceptions Simulation
  • 14. Comparison des environments du Processing Processing Transactionnel • Données primaires des transactions • Opérations quotidiennes • Décisions: impliquent des détails sur les produits, les clients, les livraisons, la fabrication telles que l'exécution des commandes, la résolution des plaintes, l’affectation du personnel • Décisions à court terme Processing du Business Intelligence • Données secondaires transformées • Décisions : Vision large des clients, des produits, de la production, du marketing pour la planification de la capacité, des emplacements de magasins, des nouveaux secteurs d'activité,… • Décisions à moyen et long terme 14
  • 15. 15 OLTP OLAP OnLine Transaction Processing. Il s'agit des traitements transactionnels. OLTP est utilisé pour stocker et gérer des données pour les opérations quotidiennes. Système destiné à offrir le moyen à une application d’utiliser de façon transactionnelle un serveur de base de données. C’est un ensemble de logiciels que l’utilisateur peut employer de façon interactive pour accéder aux données de la manière la plus rapide et simple possible. OnLine Analytical Processing OLAP est utilisé pour analyser les données et prendre des décisions Catégorie de technologie logicielle permettant aux analystes, managers et décideurs d’accéder de manière rapide, consistante et interactive à une large variété d’information, transformée pour refléter la dimension réelle d’une entreprise. Analyser les ventes, détecter les fraudes, prospecter des clients font partie du processus OLAP. Exemple 1 : Le 15/01/2019 à 14h30min, le client X a retiré 1000DH du compte Y Exemple 1: Quel est le volume des ventes par produit et par région durant le deuxième trimestre de 2019? Comparison des environments du Processing
  • 17. 17 OLTP vs OLAP OLTP OLAP Conception - Orientée application (Application de production, de facturation…) - Orienté transaction - Structure statique (E/R) - Orientée sujet (Client, produit, vendeur…) - Orienté analyse - Structure évolutive (en étoile, en flocon, …) Données - Détaillées, isolées, non agrégées - Courantes, récentes, mises à jour - Accessibles de façon individuelle - conservées sur une courte période - Normalisées - Résumées, consolidées, recalculées, agrégées - Historiques, historisées - Accessibles de façon ensembliste - Dénormalisées Vue - Relationnelle - Multidimensionnelle Enregistrements accédés - Dizaines - Millions
  • 18. OLTP OLAP Requêtes/Utilisation - Simples, nombreuses, régulières, prévisibles, répétitives - Sensibles aux performances (réponses immédiates) - Accès à beaucoup de données - Temps d’exécution: court (ms) - Complexes, peu nombreuses, irrégulières, non prévisibles, ad- hoc - Non sensibles aux performances (réponses moins rapides) - Accès à beaucoup d’informations - Temps d’exécution: long (s-min-h) Fonction - Opérations quotidiennes - Aide à la décision Utilisateurs - Agents opérationnels - Nombreux (par milliers) - Concurrents - Managers / Analystes - Peu (par dizaines, centaines) - Non concurrents Accès - Lecture / Écriture - Lecture Taille de la base - 100 MB à 1 GB, - voir quelques gigaoctets - 100 GB à 1 TB, - voir du pétaoctet. OLTP vs OLAP
  • 19. OLTP vs OLAP 19 Exemple 2: Les clients placent des commandes; ainsi, la base de données OLTP pourrait avoir une table contenant des données client et une autre contenant des données relatives aux commandes, vous avez besoin des détails fins comme, par exemple, quels types de produits sont commandés par quels clients? En ce qui concerne l’informatique décisionnelle, vous êtes plutôt à la recherche de tendances plus étendues comme, par exemple, combien d'unités d’un produit quelconque ont été vendu au cours du précédent trimestre?
  • 20. Technologies 20 Stockage et Gestion Efficace des Gros Volumes Data Warehouse (Entrepôt de Données) Traitements Complexes sur ces Volumes Serveur OLAP Application Cliente Data Mining (Fouille de Données)
  • 21. Structure d’un Business Intelligence 21
  • 22. Structures de Stockage de Données dans un BI
  • 23. Structures de Stockage de Données dans un BI 23 Data Marts (Magasins de données) Data Warehouse (Entrepôt de données) ODS (Operational Data Store) Systèmes Opérationnels Data Mining (Exploration de données) Extraction Alimentation Transformation Synthèse
  • 24. 24 Définition: Collection de données orientées sujet, volatiles, organisées pour le support d’un processus de décision ponctuel, en support à une activité opérationnelle particulière. Donne la vision immédiate et intégrée de l’état d’un ou plusieurs systèmes opérants. Un ODS est généralement destiné à contenir des données de niveau fin comme un prix ou le montant d'une vente. ODS ne désigne pas l’endroit où l’on va stocker et analyser des données opérationnelles mais l’endroit où l’on va les traiter en vue d’une intégration dans un Data Warehouse. ODS: Operational Data Store
  • 25. Data Warehouse 25 Définition: Collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. (Bill Inmon (1996)) Data Warehouse ou Entrepôt de données spécifique au monde décisionnel, destiné principalement à analyser les leviers business potentiels.
  • 26. Data Mart 26 Définition: Data Mart ou Magasin de données orienté sujet, non volatile, mis à la disposition des utilisateurs dans un contexte décisionnel décentralisé, ciblé pour un usage particulier. Sous-ensemble d’un entrepôt de données. Point de vue spécifique selon des critères métiers.
  • 27. Data Mining 27 Définition: Ensemble d’outils, méthodes et technologies d’analyse mises en œuvre pour définir des tendances, pour segmenter l’information ou pour établir des corrélations entre les données.
  • 28. Data Warehouse vs ODS 28 DW ODS Intégration des données hors ligne Intégration des données en ligne Sauvegarde des données récentes Utilisé quand les données sont dispersées sur plusieurs supports de stockage, et on a besoin de les rassembler Exemple: On veut avoir une vue unique sur un patient qu’on pourra modifier en ligne. Les données de ce patient sont disposées dans plusieurs bases de données (liste des hospitalisations, liste des diagnostics, liste des achats pharmaceutiques…). ODS peut être utilisé pour extraire ces données et les afficher.
  • 29. Data Warehouse vs Data Mart 29
  • 30. Data Warehouse vs Data Mart 30 DW DM Le DW est un système centralisé. Dépôt de données au niveau entreprise. Combinaison de plusieurs Data Marts. Contient toutes les mesures et dimensions nécessaires. Assure l’intégrité de ces mêmes dimensions à travers tous les Data Marts. DW est par nature orienté données La taille du DW >100 Go. Le processus de mise en œuvre du DM est limité à quelques mois Le DM est un système décentralisé. Ensemble de dimensions et mesures limitées. Utilisées pour des thèmes métier spécifiques. Construites à partir des données des data warehouses. DM est par nature orienté projet La taille du DM < 100 Go. Le processus de mise en œuvre du DW peut être prolongé de plusieurs mois à plusieurs années. Dans une entreprise, il existe un seul entrepôt de données (DW) mais plusieurs magasins de données (DMs) : Finance, Vente, Achats,…
  • 32. Pourquoi ne pas utiliser un SGBD? 32 Fonctions d’un SGBD Systèmes transactionnels (OLTP) Permettre d’insérer, modifier, interroger rapidement, efficacement et en sécurité les données de la base Sélectionner, ajouter, mettre à jour, supprimer des tuples Répondre à de nombreux utilisateurs simultanément
  • 33. Pourquoi ne pas utiliser un SGBD? 33 Fonctions d’un DW Systèmes pour l’aide à la prise de décision (OLAP) Regrouper, organiser des informations provenant de sources diverses Intégrer et stocker les données pour une vue orientée métier Retrouver et analyser l’information rapidement et facilement
  • 34. Comparaison des données Caractéristiques BD opérationnelle Data Warehouse Age des données Actuel Historique Niveau des détails Individuel Individuel et résumé Orientation Processus Sujet Records per request Peu Milliers Niveau de normalisation Généralement normalisé Normalisation détendue (relaxée) Mise à jour du niveau Très volatil Principalement rafraîchi (non volatil) Modèle de données Relationnel Relationnels (schémas en étoile) et multidimensionnels (cubes de données) 34
  • 35. Data Warehouse 35 Objectifs: Regrouper, organiser des informations provenant de sources diverses. Les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier. Retrouver et analyser l’information selon plusieurs critères. Transformer un système d’information qui avait une vocation de production en un SI décisionnel. Doit contenir des informations cohérentes. Les données doivent pouvoir être séparées et combinées au moyen de toutes les mesures possibles de l’activité. Le DW ne contient pas uniquement des données, mais aussi un ensemble d’outils de requêtage, d’analyse et de reporting.
  • 36. Data Warehouse Partie essentielle d'infrastructure pour le Business Intelligence (ou le décisionnel). Dépôt (repository) logiquement centralisé pour la prise de décision Peuplés à partir de bases de données opérationnelles et de sources de données externes Données intégrées et transformées Optimisé pour le reporting et l'intégration périodique 36
  • 37. Data Warehouse 37 Défintion de Bill Inmon (1966) “Subject oriented, integrated, non-volatile, time-variant collection of data in support of management decisions”. Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. « Un Data Warehouse ne s’achète pas, il se construit…» (Bill Inmon)
  • 38. Data Warehouse 38 Base de données dans laquelle sont déposées après nettoyage et homogénéisation les informations en provenance des différents systèmes de production de l’entreprise (système OLTP). C’est une Base de Données à des fins d’analyse.
  • 40. Caractéristiques du Data Warehouse 40 Données Orientées Sujet (subject-oriented) Le Data Warehouse est orienté sujet, ce qui signifie que les données collectées doivent être orientées métier, et donc triées par thème. Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières. Vue synthétique des données selon les sujets intéressant les décideurs. Bases de données Entrepôt de données (DW)
  • 41. Caractéristiques du Data Warehouse 41 Données Orientées Sujet (subject-oriented) Les données sont organisées par sujet ou faits (ex : clients, produits, ventes, etc.). Les données propres à un thème, les ventes par exemple, seront rapatriées des différentes bases OLTP de production et regroupées. Les données sont organisées selon des dimensions. Bases de données Entrepôt de données (DW)
  • 42. Caractéristiques du Data Warehouse 42 Données Intégrées (integrated) Le Data Warehouse est composé de données intégrées, c’est à dire qu’un « nettoyage » préalable des données est nécessaire dans un souci de rationalisation et de normalisation. Bases de données Entrepôt de données (DW)
  • 43. Caractéristiques du Data Warehouse 43 Données Intégrées (integrated) Les données, qui proviennent de diverses sources hétérogènes, sont consolidées et intégrées dans le Data Warehouse. Bases de données Entrepôt de données (DW)
  • 44. Caractéristiques du Data Warehouse 44 Données Non Volatiles (non-volatile) Les données du Data Warehouse sont non volatiles, ce qui signifie qu’une donnée entrée dans l’entrepôt l’est pour de bon et n’a pas vocation à être supprimée (Read-Only). Stockage indépendant des BD opérationnelles. Bases de données Entrepôt de données (DW)
  • 45. Caractéristiques du Data Warehouse 45 Données Non Volatiles (non-volatile) Une fois insérées dans le Data Warehouse (DW), les données ne sont jamais modifiées ou effacées; elle sont conservées pour des analyses futures. Pas de mises à jour des données dans le Data Warehouse. Bases de données Entrepôt de données (DW)
  • 46. Caractéristiques du Data Warehouse 46 Données Historisées (time-variant) Fournies par les sources opérationnelles. Matière première pour l'analyse. Stockage de l'historique des données, pas de mise à jour. Bases de données Entrepôt de données (DW)
  • 47. Caractéristiques du Data Warehouse 47 Données Historisées (time-variant) Les données ont très souvent une composante temporelle (ex : date et heure d’une transaction). Un référentiel temps doit être associé aux données. Les données du Data Warehouse doivent être historisées, donc datées. Bases de données Entrepôt de données (DW)
  • 48. Approches académiques 48 R. Kimball B. Inmon Processus Bottom-Up Top-Down Organisation Data marts Data Warehouse Schématisation Etoile Flocon www.kimballgroup.com www.inmoncif.com
  • 49. Choix d'architecture Top Down • Approche Data warehouse • Entrepôt de données d'entreprise (EDW) • Niveaux d'intégration plus élevés • Logiquement centralisé • Portée plus grande du projet • Un seul Data warehouse pour toute l’entreprise Bottom Up • Approche Data mart • Data marts indépendants • Niveaux d'intégration inférieurs • Logiquement décentralisé • Portée plus petite du projet 49
  • 50. Architecture Top-Down Data warehouse Operational database Operational database External data source EDM Detailed and summarized data Transformation process Data warehouse server User departments Data mart Data mart Data mart tier Extraction process Staging Area 50
  • 56. Data Warehouse 56 ETL Process Outils d’alimentation pour Extraire Transformer Charger dans un Data warehouse les données sources BDOBDO SDE Extraction Transformation Chargement DW
  • 58. ETL : Extraction 58 Extraction des données de leur environnement d’origine (BDRs, fichiers plats, ERP, CRM…) Besoin d’outils spécifiques pour accéder aux bases de données de production (requêtes sur des BD hétérogènes) Besoin d’une technique appropriée pour n’extraire que les données nécessaires Données créées ou modifiées depuis la dernière opération d’extraction Attention: L’extraction ne doit pas perturber l’activité de production. BDOBDO SDE Extraction Transformation Chargement DW
  • 59. ETL : Transformation 59 Intégration des données Homogénéisation du vocabulaire, structures, valeurs Suppression et fusion des redondances Épuration des données (suppression des données incohérentes) Transformation des données dans un format cible Nettoyage (valeurs manquantes, aberrantes…) BDOBDO SDE Extraction Transformation Chargement DW
  • 60. ETL : Transformation 60 Exemple de nettoyage: cm inches cm yards Jan.22, 2019 22/01/2019 22/01/19 01/22/2019 BD Facturation Personne 1(Marrakchi) BD Personnel Personne 2(Marrakchi) BDOBDO SDE Extraction Transformation Chargement DW Jan.22, 2019 intégrer (Marrakchi)
  • 61. ETL : Chargement 61 C’est l’opération qui consiste à charger les données nettoyées et préparées dans le Data warehouse. Opérations de calcul et d’agrégation des données Remplacement de certaines bases si aucune solution d’extraction satisfaisante n’est possible Mise en place de procédures de chargement (nocturne?) et de restauration (en cas de problème) Envisager la mise en place de systèmes redondants si la disponibilité du système ne peut être interrompue Prise en compte de la notion de granularité Conservation des données détaillées Possibilité d’agrégation des données pour la synthèse BDOBDO SDE Extraction Transformation Chargement DW
  • 62. Référentiel: Métabase de Données 62 Existence d’une métabase de données ou catalogue de métadonnées: Contient des métadonnées du DW, i.e. des données sur les données du D.W. Idéalement: Lieu de stockage unique des informations qui pilotent des processus dans l’entrepôt Détails sur : Les données entreposées, leur format, leur signification, leur degré d’exactitude. Les processus de récupération/extraction dans les bases sources. La date du dernier chargement du DW. L’historique des données sources et de celles du DW. BDOBDO SDE Extraction Transformation Chargement DW
  • 64. Évaluation d'architecture Avantages majeurs Indépendance du SGBD pour ETL Technologie d'optimisation supérieure dans le SGBD relationnel pour ELT Opérations plus complexes pour ETL dans les transformations Moins de bande passante réseau pour ELT Combinaison d'architectures possible 64
  • 65. Outils d’intégration de données Vendeurs traditionnels Fournisseurs de BDs: Oracle, IBM, Microsoft, Amazon Autres vendeurs: SAP, Informatica, SAS, Informaktion Builders,… Open source Pentaho Data Integration Talend Open Studio for Data Integration CloverETL JasperSoft ETL … 65
  • 67. Intégration de données Le rapatriement des données peut se faire de trois façons différentes : Push : la logique de chargement est dans le système de production, il pousse les données vers le Staging Area quand il en a l'occasion. Pull : le Pull tire les données de la source vers le Staging Area. Push-Pull : La source prépare les données à envoyer et prévient le Staging Area qu'elle est prête. Le Staging Area va récupérer les données. Si la source est occupée, le Staging Area fera une autre demande plus tard. 67
  • 68. Infrastructure du data warehouse Chargement complet ou incrémental dans ETL Il existe deux méthodes principales pour charger des données dans un data warehouse : Full Load : chargement initial ou complet. La méthode du chargement complet implique un déchargement complet des données qui a lieu la première fois que la source est chargée dans le data warehouse. Delta Load ou Incremental Load : chargement incrémental. Le chargement incrémental a lieu à intervalles réguliers. Ces intervalles peuvent être des incréments de flux (meilleurs pour de plus petits volumes de données) ou des incréments de lots (meilleurs pour de plus grands volumes de données). 68
  • 69. Structure du Data Warehouse (1/3) 69 1. Structure directe simple : On fait des mises à jour du data warehouse avec des laps de temps importants. BDOBDO SDE Extraction Transformation Chargement DW
  • 70. Structure du Data Warehouse (2/3) 70 2. Structure de cumul simple : On stocke les données de chaque mise à jour, les mises à jour étant fréquentes (par exemple tous les jours) on a un espace occupé important, mais on ne perd pas d’information. BDOBDO SDE Extraction Transformation Chargement DW
  • 71. Structure du Data Warehouse (3/3) 71 3. Structure par résumé déroulant : À chaque mise à jour, on stocke des données détaillées, et on synthétise les anciennes données en fonction de leur âge. Plus une donnée est vieille, moins elle est détaillée. BDOBDO SDE Extraction Transformation Chargement DW
  • 73. Bibliographie 73 1. Michael Mannino, Business School, University of Colorado Denver: « Data Warehouse Concepts, Design, and Data Integration ». 2. Jahangir Karimi, Information Systems University of Colorado Denver: «Business Intelligence Concepts, Tools, and Applications ». 3. Lilia Sfaxi, « Introduction à l’Informatique Décisionnelle » - Cours 4. Smile, Open Source Solutions :« Décisionnel, le meilleur des solutions open-source », Livre blanc 5. https://www.imaginarycloud.com/blog/oltp-vs-olap/ 6. http://www-igm.univ-lv.fr/~dr/XPOSE2005/entrepot/datawarehouse.html 7. https://www.kimballgroup.com/ 8. https://decisionworks.com/ 9. www.inmoncif.co 10. …