La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
2. Hiérarchie de la prise de décision
Problématique des données dans un système décisionnel
Comparison des environments du Processing
Structures de Stockage de Données dans un BI
Data Warehouses/Entrepôts de données
Q & A
Bibliographie
Hiérarchie de la prise de décision
Problématique des données dans un système décisionnel
Comparison des environments du Processing
Structures de Stockage de Données dans un BI
Data Warehouses/Entrepôts de données
Q & A
Bibliographie
Partie 2: Data Warehouse
2
4. Hiérarchie de la prise de décision
Top
(strategic)
Middle
(tactical)
Lower
(operational)
Les décisions sont prises par les exécutants
(comme Chefs de services, chefs d'atelier…)
Ces décisions sont fréquentes, très prévisibles.
Exemples: Résoudre les retards de commande, planifier
les employés, achat de fournitures de bureau, organisation
des horaires de travail.
Les décisions sont prises par les encadrements
supérieurs (comme les Directions fonctionnelles)
Ces décisions sont peu fréquentes, peu
prévisibles.
Exemples: Choisir des fournisseurs, prévoir les ventes,
lancement d'une campagne publicitaire, acquisition de
matériel de production, recrutement d’un cadre dirigeant.
Les décisions sont prises par le plus haut niveau
hiérarchique, c.-à-d. soit par la Direction
Générale soit par l’État.
Ces décisions sont uniques, occasionnelles.
Exemples: Identifier de nouveaux marchés, choisir des
magasins, lancement d’1 nouveau produit, abandon d’une
activité, fusion avec une autre entreprise.
Hiérarchie de la prise de décision Types de Décisions
4
7. Système Opérationnels vs Décisionnels
Business Intelligence7
Systèmes opérationnels Systèmes décisionnels
Appelés OLTP (On-Line Transaction
Processing) ou systèmes de gestion
Traitement transactionnel en ligne
Appelés OLAP (On-Line
Analytical Processing)
Traitement analytique en ligne
Dédiés aux métiers de l’entreprise pour
les assister dans leurs tâches de gestion
quotidiennes
Dédiés à la gestion de l’entreprise
pour l’aider au pilotage de l’activité
pour une vision transversale de
l’entreprise
Utilisation des ERP (ou PGI ) pour la
gestion des données
Utilisation des Data Warehouses
(Entrepôts de données)
7
8. Données Opérationnelles vs Données Décisionnelles
8
Données opérationnelles Données décisionnelles
Données détaillées Données agrégées et globalisées
Données courantes et récentes Données historiques et historisées
Structure compréhensible et
optimisée pour l’informaticien
Structure compréhensible par le
décideur
Données réparties et non homogènes Données centralisées, intégrées
Utilisateurs:
Agents opérationnels, nombreux, et
concurrents
Utilisateurs:
Décideurs, analystes, peu nombreux
et non concurrents
8
10. Passage des données de production aux données
décisionnelles
10
Les bases de production : toutes les sources de données
Comment organiser ces différentes données dans un ensemble
cohérent afin de procéder à toutes les analyses nécessaires pour
construire les indicateurs indispensables au pilotage de l'entreprise?
11. Solutions
11
Stockage de données : Data Warehouse
Base de données unique - vocabulaire unique
Contenu adapté aux besoins des décideurs
Structure multidimensionnelle spéciale
Niveau de détail bien étudié
Données historiques
12. Solutions
12
Interrogation des données :
Outil interactif, convivial
Outil offrant des fonctions d’analyse
Tri des données
Roll-up, Drill-down, …
Calcul et comparaison
Analyse des tendances, relations et exceptions
Simulation
14. Comparison des environments du Processing
Processing Transactionnel
• Données primaires des transactions
• Opérations quotidiennes
• Décisions: impliquent des détails sur les
produits, les clients, les livraisons, la
fabrication telles que l'exécution des
commandes, la résolution des plaintes,
l’affectation du personnel
• Décisions à court terme
Processing du Business Intelligence
• Données secondaires transformées
• Décisions : Vision large des clients, des produits, de la
production, du marketing pour la planification de la
capacité, des emplacements de magasins, des
nouveaux secteurs d'activité,…
• Décisions à moyen et long terme
14
15. 15
OLTP OLAP
OnLine Transaction Processing.
Il s'agit des traitements transactionnels.
OLTP est utilisé pour stocker et gérer des
données pour les opérations quotidiennes.
Système destiné à offrir le moyen à une
application d’utiliser de façon
transactionnelle un serveur de base de
données.
C’est un ensemble de logiciels que
l’utilisateur peut employer de façon
interactive pour accéder aux données de la
manière la plus rapide et simple possible.
OnLine Analytical Processing
OLAP est utilisé pour analyser les
données et prendre des décisions
Catégorie de technologie logicielle
permettant aux analystes, managers et
décideurs d’accéder de manière rapide,
consistante et interactive à une large
variété d’information, transformée pour
refléter la dimension réelle d’une
entreprise.
Analyser les ventes, détecter les fraudes,
prospecter des clients font partie du
processus OLAP.
Exemple 1 :
Le 15/01/2019 à 14h30min, le client X a retiré
1000DH du compte Y
Exemple 1:
Quel est le volume des ventes par produit et par
région durant le deuxième trimestre de 2019?
Comparison des environments du Processing
17. 17
OLTP vs OLAP
OLTP OLAP
Conception - Orientée application
(Application de production, de
facturation…)
- Orienté transaction
- Structure statique (E/R)
- Orientée sujet (Client, produit,
vendeur…)
- Orienté analyse
- Structure évolutive (en étoile, en
flocon, …)
Données - Détaillées, isolées, non agrégées
- Courantes, récentes, mises à jour
- Accessibles de façon
individuelle
- conservées sur une courte
période
- Normalisées
- Résumées, consolidées, recalculées,
agrégées
- Historiques, historisées
- Accessibles de façon ensembliste
- Dénormalisées
Vue - Relationnelle - Multidimensionnelle
Enregistrements
accédés
- Dizaines - Millions
18. OLTP OLAP
Requêtes/Utilisation - Simples, nombreuses,
régulières, prévisibles,
répétitives
- Sensibles aux performances
(réponses immédiates)
- Accès à beaucoup de données
- Temps d’exécution: court
(ms)
- Complexes, peu nombreuses,
irrégulières, non prévisibles, ad-
hoc
- Non sensibles aux performances
(réponses moins rapides)
- Accès à beaucoup d’informations
- Temps d’exécution: long (s-min-h)
Fonction - Opérations quotidiennes - Aide à la décision
Utilisateurs - Agents opérationnels
- Nombreux (par milliers)
- Concurrents
- Managers / Analystes
- Peu (par dizaines, centaines)
- Non concurrents
Accès - Lecture / Écriture - Lecture
Taille de la base - 100 MB à 1 GB,
- voir quelques gigaoctets
- 100 GB à 1 TB,
- voir du pétaoctet.
OLTP vs OLAP
19. OLTP vs OLAP
19
Exemple 2:
Les clients placent des commandes; ainsi, la base de données OLTP
pourrait avoir une table contenant des données client et une autre
contenant des données relatives aux commandes,
vous avez besoin des détails fins comme,
par exemple, quels types de produits sont commandés par quels clients?
En ce qui concerne l’informatique décisionnelle,
vous êtes plutôt à la recherche de tendances plus étendues comme,
par exemple, combien d'unités d’un produit quelconque ont été vendu au
cours du précédent trimestre?
20. Technologies
20
Stockage et
Gestion Efficace
des Gros Volumes
Data Warehouse
(Entrepôt de Données)
Traitements
Complexes sur ces
Volumes
Serveur OLAP
Application
Cliente
Data Mining
(Fouille de Données)
23. Structures de Stockage de Données dans un BI
23
Data Marts
(Magasins de données)
Data Warehouse
(Entrepôt de données)
ODS
(Operational Data Store)
Systèmes
Opérationnels
Data Mining
(Exploration de données)
Extraction
Alimentation
Transformation
Synthèse
24. 24
Définition:
Collection de données orientées sujet, volatiles, organisées pour
le support d’un processus de décision ponctuel, en support à une
activité opérationnelle particulière.
Donne la vision immédiate et intégrée de l’état d’un ou plusieurs
systèmes opérants.
Un ODS est généralement destiné à contenir des données de
niveau fin comme un prix ou le montant d'une vente.
ODS ne désigne pas l’endroit où l’on va stocker et analyser des
données opérationnelles mais l’endroit où l’on va les traiter en
vue d’une intégration dans un Data Warehouse.
ODS: Operational Data Store
25. Data Warehouse
25
Définition:
Collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à
la décision. (Bill Inmon (1996))
Data Warehouse ou Entrepôt de données spécifique au monde
décisionnel, destiné principalement à analyser les leviers
business potentiels.
26. Data Mart
26
Définition:
Data Mart ou Magasin de données orienté sujet, non volatile,
mis à la disposition des utilisateurs dans un contexte décisionnel
décentralisé, ciblé pour un usage particulier.
Sous-ensemble d’un entrepôt de données.
Point de vue spécifique selon des critères métiers.
27. Data Mining
27
Définition:
Ensemble d’outils, méthodes et technologies d’analyse mises en
œuvre pour définir des tendances, pour segmenter l’information ou
pour établir des corrélations entre les données.
28. Data Warehouse vs ODS
28
DW ODS
Intégration des données hors
ligne
Intégration des données en ligne
Sauvegarde des données récentes
Utilisé quand les données sont
dispersées sur plusieurs supports de
stockage, et on a besoin de les
rassembler
Exemple: On veut avoir une vue unique sur un
patient qu’on pourra modifier en ligne.
Les données de ce patient sont disposées
dans plusieurs bases de données (liste
des hospitalisations, liste des
diagnostics, liste des achats
pharmaceutiques…).
ODS peut être utilisé pour extraire ces
données et les afficher.
30. Data Warehouse vs Data Mart
30
DW DM
Le DW est un système centralisé.
Dépôt de données au niveau entreprise.
Combinaison de plusieurs Data Marts.
Contient toutes les mesures et dimensions
nécessaires.
Assure l’intégrité de ces mêmes dimensions
à travers tous les Data Marts.
DW est par nature orienté données
La taille du DW >100 Go.
Le processus de mise en œuvre du DM est
limité à quelques mois
Le DM est un système décentralisé.
Ensemble de dimensions et mesures
limitées.
Utilisées pour des thèmes métier
spécifiques.
Construites à partir des données des data
warehouses.
DM est par nature orienté projet
La taille du DM < 100 Go.
Le processus de mise en œuvre du DW
peut être prolongé de plusieurs mois à
plusieurs années.
Dans une entreprise, il existe un seul
entrepôt de données (DW) mais plusieurs
magasins de données (DMs) : Finance,
Vente, Achats,…
32. Pourquoi ne pas utiliser un SGBD?
32
Fonctions d’un SGBD
Systèmes transactionnels (OLTP)
Permettre d’insérer, modifier, interroger rapidement,
efficacement et en sécurité les données de la base
Sélectionner, ajouter, mettre à jour, supprimer des tuples
Répondre à de nombreux utilisateurs simultanément
33. Pourquoi ne pas utiliser un SGBD?
33
Fonctions d’un DW
Systèmes pour l’aide à la prise de décision (OLAP)
Regrouper, organiser des informations provenant de sources
diverses
Intégrer et stocker les données pour une vue orientée métier
Retrouver et analyser l’information rapidement et facilement
34. Comparaison des données
Caractéristiques BD opérationnelle Data Warehouse
Age des données Actuel Historique
Niveau des détails Individuel Individuel et résumé
Orientation Processus Sujet
Records per request Peu Milliers
Niveau de
normalisation
Généralement normalisé Normalisation détendue
(relaxée)
Mise à jour du niveau Très volatil Principalement rafraîchi (non
volatil)
Modèle de données Relationnel Relationnels (schémas en
étoile) et multidimensionnels
(cubes de données)
34
35. Data Warehouse
35
Objectifs:
Regrouper, organiser des informations provenant de sources
diverses.
Les intégrer et les stocker pour donner à l’utilisateur une vue
orientée métier.
Retrouver et analyser l’information selon plusieurs critères.
Transformer un système d’information qui avait une vocation
de production en un SI décisionnel.
Doit contenir des informations cohérentes.
Les données doivent pouvoir être séparées et combinées au
moyen de toutes les mesures possibles de l’activité.
Le DW ne contient pas uniquement des données, mais aussi un
ensemble d’outils de requêtage, d’analyse et de reporting.
36. Data Warehouse
Partie essentielle d'infrastructure pour le Business Intelligence
(ou le décisionnel).
Dépôt (repository) logiquement centralisé pour la prise de
décision
Peuplés à partir de bases de données opérationnelles et de
sources de données externes
Données intégrées et transformées
Optimisé pour le reporting et l'intégration périodique
36
37. Data Warehouse
37
Défintion de Bill Inmon (1966)
“Subject oriented, integrated, non-volatile, time-variant
collection of data in support of management decisions”.
Le Data Warehouse est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour le support
d’un processus d’aide à la décision.
« Un Data Warehouse ne s’achète pas, il se construit…» (Bill
Inmon)
38. Data Warehouse
38
Base de données dans laquelle sont déposées après nettoyage et
homogénéisation les informations en provenance des différents
systèmes de production de l’entreprise (système OLTP).
C’est une Base de Données à des fins d’analyse.
40. Caractéristiques du Data Warehouse
40
Données Orientées Sujet (subject-oriented)
Le Data Warehouse est orienté sujet, ce qui signifie que les données
collectées doivent être orientées métier, et donc triées par thème.
Données pour l’analyse et la modélisation en vue de l’aide à la décision,
et non pas pour les opérations et transactions journalières.
Vue synthétique des données selon les sujets intéressant les décideurs.
Bases de données Entrepôt de données (DW)
41. Caractéristiques du Data Warehouse
41
Données Orientées Sujet (subject-oriented)
Les données sont organisées par sujet ou faits (ex : clients, produits,
ventes, etc.).
Les données propres à un thème, les ventes par exemple, seront
rapatriées des différentes bases OLTP de production et regroupées.
Les données sont organisées selon des dimensions.
Bases de données Entrepôt de données (DW)
42. Caractéristiques du Data Warehouse
42
Données Intégrées (integrated)
Le Data Warehouse est composé de données intégrées, c’est à dire
qu’un « nettoyage » préalable des données est nécessaire dans un
souci de rationalisation et de normalisation.
Bases de données Entrepôt de données (DW)
43. Caractéristiques du Data Warehouse
43
Données Intégrées (integrated)
Les données, qui proviennent de diverses sources hétérogènes, sont
consolidées et intégrées dans le Data Warehouse.
Bases de données Entrepôt de données (DW)
44. Caractéristiques du Data Warehouse
44
Données Non Volatiles (non-volatile)
Les données du Data Warehouse sont non volatiles, ce qui signifie
qu’une donnée entrée dans l’entrepôt l’est pour de bon et n’a pas
vocation à être supprimée (Read-Only).
Stockage indépendant des BD opérationnelles.
Bases de données Entrepôt de données (DW)
45. Caractéristiques du Data Warehouse
45
Données Non Volatiles (non-volatile)
Une fois insérées dans le Data Warehouse (DW), les données ne
sont jamais modifiées ou effacées; elle sont conservées pour des
analyses futures.
Pas de mises à jour des données dans le Data Warehouse.
Bases de données Entrepôt de données (DW)
46. Caractéristiques du Data Warehouse
46
Données Historisées (time-variant)
Fournies par les sources opérationnelles.
Matière première pour l'analyse.
Stockage de l'historique des données, pas de mise à jour.
Bases de données Entrepôt de données (DW)
47. Caractéristiques du Data Warehouse
47
Données Historisées (time-variant)
Les données ont très souvent une composante temporelle (ex : date et
heure d’une transaction).
Un référentiel temps doit être associé aux données.
Les données du Data Warehouse doivent être historisées, donc datées.
Bases de données Entrepôt de données (DW)
48. Approches académiques
48
R. Kimball B. Inmon
Processus Bottom-Up Top-Down
Organisation Data marts Data Warehouse
Schématisation Etoile Flocon
www.kimballgroup.com www.inmoncif.com
49. Choix d'architecture
Top Down
• Approche Data warehouse
• Entrepôt de données d'entreprise (EDW)
• Niveaux d'intégration plus élevés
• Logiquement centralisé
• Portée plus grande du projet
• Un seul Data warehouse pour toute
l’entreprise
Bottom Up
• Approche Data mart
• Data marts indépendants
• Niveaux d'intégration inférieurs
• Logiquement décentralisé
• Portée plus petite du projet
49
56. Data Warehouse
56
ETL Process
Outils d’alimentation pour
Extraire
Transformer
Charger dans un Data warehouse
les données sources
BDOBDO SDE
Extraction
Transformation
Chargement
DW
58. ETL : Extraction
58
Extraction des données de leur environnement d’origine (BDRs,
fichiers plats, ERP, CRM…)
Besoin d’outils spécifiques pour accéder aux bases de données de
production (requêtes sur des BD hétérogènes)
Besoin d’une technique appropriée pour n’extraire que les données
nécessaires
Données créées ou modifiées depuis la dernière opération
d’extraction
Attention:
L’extraction ne doit pas perturber l’activité de production.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
59. ETL : Transformation
59
Intégration des données
Homogénéisation du vocabulaire, structures, valeurs
Suppression et fusion des redondances
Épuration des données (suppression des données incohérentes)
Transformation des données dans un format cible
Nettoyage (valeurs manquantes, aberrantes…)
BDOBDO SDE
Extraction
Transformation
Chargement
DW
60. ETL : Transformation
60
Exemple de nettoyage:
cm
inches cm
yards
Jan.22, 2019
22/01/2019
22/01/19
01/22/2019
BD Facturation Personne 1(Marrakchi)
BD Personnel Personne 2(Marrakchi)
BDOBDO SDE
Extraction
Transformation
Chargement
DW
Jan.22, 2019
intégrer (Marrakchi)
61. ETL : Chargement
61
C’est l’opération qui consiste à charger les données nettoyées et
préparées dans le Data warehouse.
Opérations de calcul et d’agrégation des données
Remplacement de certaines bases si aucune solution d’extraction
satisfaisante n’est possible
Mise en place de procédures de chargement (nocturne?) et de
restauration (en cas de problème)
Envisager la mise en place de systèmes redondants si la disponibilité
du système ne peut être interrompue
Prise en compte de la notion de granularité
Conservation des données détaillées
Possibilité d’agrégation des données pour la synthèse
BDOBDO SDE
Extraction
Transformation
Chargement
DW
62. Référentiel: Métabase de Données
62
Existence d’une métabase de données ou catalogue de
métadonnées:
Contient des métadonnées du DW, i.e. des données sur les
données du D.W.
Idéalement: Lieu de stockage unique des informations qui
pilotent des processus dans l’entrepôt
Détails sur :
Les données entreposées, leur format, leur signification, leur degré
d’exactitude.
Les processus de récupération/extraction dans les bases sources.
La date du dernier chargement du DW.
L’historique des données sources et de celles du DW.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
64. Évaluation d'architecture
Avantages majeurs
Indépendance du SGBD pour ETL
Technologie d'optimisation supérieure dans le SGBD relationnel
pour ELT
Opérations plus complexes pour ETL dans les transformations
Moins de bande passante réseau pour ELT
Combinaison d'architectures possible
64
65. Outils d’intégration de données
Vendeurs traditionnels
Fournisseurs de BDs: Oracle, IBM, Microsoft, Amazon
Autres vendeurs: SAP, Informatica, SAS, Informaktion
Builders,…
Open source
Pentaho Data Integration
Talend Open Studio for Data Integration
CloverETL
JasperSoft ETL
…
65
67. Intégration de données
Le rapatriement des données peut se faire de trois façons
différentes :
Push : la logique de chargement est dans le système de
production, il pousse les données vers le Staging Area quand il en
a l'occasion.
Pull : le Pull tire les données de la source vers le Staging Area.
Push-Pull : La source prépare les données à envoyer et prévient le
Staging Area qu'elle est prête. Le Staging Area va récupérer les
données. Si la source est occupée, le Staging Area fera une autre
demande plus tard.
67
68. Infrastructure du data warehouse
Chargement complet ou incrémental dans ETL
Il existe deux méthodes principales pour charger des données dans
un data warehouse :
Full Load : chargement initial ou complet. La méthode du
chargement complet implique un déchargement complet des
données qui a lieu la première fois que la source est chargée dans
le data warehouse.
Delta Load ou Incremental Load : chargement incrémental.
Le chargement incrémental a lieu à intervalles réguliers. Ces
intervalles peuvent être des incréments de flux (meilleurs pour de
plus petits volumes de données) ou des incréments de lots
(meilleurs pour de plus grands volumes de données).
68
69. Structure du Data Warehouse (1/3)
69
1. Structure directe simple :
On fait des mises à jour du
data warehouse avec des laps
de temps importants.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
70. Structure du Data Warehouse (2/3)
70
2. Structure de cumul simple :
On stocke les données de chaque mise à jour, les mises à jour
étant fréquentes (par exemple tous les jours) on a un espace
occupé important, mais on ne perd pas d’information.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
71. Structure du Data Warehouse (3/3)
71
3. Structure par résumé déroulant :
À chaque mise à jour, on stocke des données détaillées, et on
synthétise les anciennes données en fonction de leur âge.
Plus une donnée est vieille, moins elle est détaillée.
BDOBDO SDE
Extraction
Transformation
Chargement
DW
73. Bibliographie
73
1. Michael Mannino, Business School, University of Colorado Denver: « Data Warehouse
Concepts, Design, and Data Integration ».
2. Jahangir Karimi, Information Systems University of Colorado Denver: «Business
Intelligence Concepts, Tools, and Applications ».
3. Lilia Sfaxi, « Introduction à l’Informatique Décisionnelle » - Cours
4. Smile, Open Source Solutions :« Décisionnel, le meilleur des solutions open-source »,
Livre blanc
5. https://www.imaginarycloud.com/blog/oltp-vs-olap/
6. http://www-igm.univ-lv.fr/~dr/XPOSE2005/entrepot/datawarehouse.html
7. https://www.kimballgroup.com/
8. https://decisionworks.com/
9. www.inmoncif.co
10. …