INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data forum MICROPOLE 2016
1. Comment intégrer les Big Data à votre Système d’Information
et gérer leur qualité ?
Jeudi 1er décembre 2016
Fateh Naili
Enterprise Solutions Manager, Information Builders
4. 90%Of all the data in the
world has been generated
over the last 2 years
Data Output is growing rapidly
2009 2010 2011 2012 2013 2014 2015
A quelle vitesse vos données augmentent ?
5. Avec les réseaux sociaux…
5
Cisco Systems
D’ici 2020, le traffic
généré sur le web
667 ExaBytes / an
Google
+1 mille milliards
de pages indéxées
24 PetaBytes / jour
Facebook
2,7 milliards
de “J’aime”
+500 TB / jour
Twitter
400 millions
de tweets
12 TB / jour
6. … mais pas seulement !
6
Transactions
D’ici 2020, les transactions
B2B et B2C sur le web
450 milliards / jour
NASA
Les données météo et
climatiques stockées
32 PetaBytes
Boeing
Un Boeing 737
génère en moyenne
240 TeraBytes / vol
Walmart
+1 million
de transactions
2,5 PetaBytes / heure
8. Volumes plus importants de transactions issues d’Internet,
des machines...
Impact sur l’ensemble des technologies et déploiements
• Cloud, Business Intelligence, Data Warehouse
• Faire toujours plus, plus rapidement et à moindre coût
Ensembles de données volumineux, difficiles à gérer en
utilisant des bases de données relationnelles:
• Stockage/Coût
• Recherche/Performance
• Analyse et visualisation
Traitements parallèles sur des centaines de machines qui ne
peuvent pas être réalisés dans un délai raisonnable
• Outils traditionnels (ETL,...)
Les enjeux du Big Data
9. Transition vers des technologies innovantes
9
Données d’entreprise et données non structurées
Fewer
use cases
More
use cases
ModernTraditional
OLTP
OLAP
Data warehouses
Data marts
Point-to-point
Integration
EII
10. Architecture Big Data de Information Builders
10
Sqoop,Flume…
Avro,JSON…
Applications
traditionnelles
et data stores
iWay Big Data Integrator
Intégration native, innovante
et simplifiée à Hadoop
Big Data Apache Hadoop
Toute distribution,
tout type de données
BI &
Analytics Plateforme de BI & Analytique WebFOCUS
Self-service for Everyone
WebFOCUS access,
ETL, metadata
WebFOCUS access,
ETL, metadata
1. Data Hub/Data Lake.
2. Augmentation du Data Warehouse.
3. Archives de données/
Capacité de stockage supplémentaire.
4. Qualité des données.
5. Data Discovery.
6. Business Intelligence.
7. Optimisation.
8. Modèles prédictifs.
11. 11
Interface
Simplifiée
Génération native
de script Hadoop
Gouvernance et
gestion des processus
Sqoop,Flume…
Avro,JSON…
Data Sources
Big Data
Native: Runs in Hadoop cluster
Purpose-built: Fully Exploits all Hadoop Services
Simple: Replaces coding with mapping
Simplified, easy-to-use interface
to integrate in Hadoop
Marshals Hadoop resources
and standards
Takes advantage of performance
and resource negotiation
Includes sophisticated process
management & governance
iWay Big Data Integrator
12. iWay Big Data Integrator
12
• Interface Utilisateur basée sur Eclipse.
• Ingestion des données utilisant l’abstraction au-dessus de Sqoop, Flume, Hive, Spark,
et tout contenu de canal de streaming propriétaire.
• Transformation & Mapping – MapReduce et Spark.
• Nettoyage, mise en correspondance et fusion.
• Publication aux sources de données non-Hadoop.
• Scripts auto-générés/Tâches et code compilés pour soumission de tâches.
• Déploiement d’intégration, tests, création Spark de bout-en-bout.
• Adapté à Kerberos.
• Sécurité basée sur la gestion des rôles via l’intégration de Apache Sentry.
14. L’impact de la qualité des données sur votre business
14
Faits et chiffres
• La mauvaise qualité des données coûte aux entreprises au moins 10% de leur chiffre d'affaires;
20% est probablement une meilleure estimation. DM Review
• Pour les assurances, le coût (des mauvaises données) est estimé entre 15 et 20% de leur
revenu d'exploitation. Insurance Data Management Association
• Gartner estime que plus de 25% des données critiques au sein des grandes entreprises sont
inexactes ou incomplètes. InformationWeek
• 50% des projets de Data Warehouse échoueront pour ne pas avoir traité de façon proactive les
problèmes de qualité des données. Thomas Redman – Data-Driven
Avec le Big Data, le problème ne va pas disparaître mais s’amplifier ...
15. Qu’est ce que la qualité des données?
15
Des données exactes, complètes, cohérentes, uniques, à jour, valides...
Sur cette base, une stratégie de qualité des données doit être définie et appliquée!
Exacte
Complète
Cohérente
Unique
A jour
Valide
16. Solution iWay Data Quality Edition
Une solution conçue pour optimiser
l’intégrité de l’information au sein
de l’entreprise ou d’un département.
Mise à disposition de règles
de gestion entièrement
personnalisées et d’un portfolio
de dictionnaires de données.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
17. ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Règles de validation
Analyses statistiques
Minimum
Maximum
Moyenne
Nombre d’occurrences
Rapport et recommandations:
Rapport statistique
détaillé sur la qualité de vos données
Actions nécessaires à mettre en place.
Etape 1: Profilage de la qualité des données
18. Parsing des données
Validation des règles métier.
Fonctions de Scoring et d’explication
des traitements natifs.
Traitements en temps réel et en différé.
Dictionnaires intégrés.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 2: Nettoyage des données
19. Etape 3: Enrichissement des données
Utilisation de librairies prêtes a l’emploi
Utilisation de librairies personnalisées
Utilisation de référentiels (Look up)
Référentiel de société
Nom standard de la société
Numéro SIREN
Adresse officielle
Compte bancaire
Classification
Loqate
Référentiel et validation d’adresse
Ajout d’informations manquantes:
Rue
Code Postal
Ville
Validation d’adresses existantes
Ajout de noms, prénoms, titres…
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
20. Etape 4: Réconciliation et Fusion des données
Objectif
Identifier des groupes
d’enregistrements de nature
identique provenant de
différentes sources
pour homogénéiser les données.
Remarque
Exercice assez complexe.
Gestion des données manquantes,
erronées, en conflit.
Solution
Le Matching est un algorithme
en deux étapes:
Groupes Candidats
Tous les enregistrements sont assemblés
en groupes selon des règles au sens large.
Groupes Clients
Consiste à diviser les groupes candidats
en utilisant des règles à granularité
plus fine.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Réconciliation
21. Etape 4: Réconciliation et Fusion des données
Fusion
Utilisation des règles métier pour déterminer
le meilleur champ ou enregistrement.
Exemples
Enregistrement provenant d’un système de référence.
Enregistrement le plus récent.
Enregistrement de meilleure qualité (Scoring).
Utilisation de fonctions d’agrégation.
SQL-like: count, sum, minimum, maximum, average.
L’objectif… Créer le Golden Record!
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
22. Etape 5: Suivi et contrôle de la qualité de l’information
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
23. La qualité des données dans le contexte Big Data
Data Preparation
Unstructured
Semi-
Structured
Structured
External
23
Data Lake
Raw Data
Data Ponds
BI Apps
Raw Data Actionable Data World Class Analytics
Data Marts
Operational
System
Operational
System
Data Marts
Profile,
cleanse,
master, etc.
Profile,
cleanse,
master, etc.
Ingest
without
coding
Ingest
without
coding
Create
w/relevant
data
Create
w/relevant
data
Data Swamp
24. Architecture Technique
Data in Motion
Data at Rest
Flume
Other Process
Sqoop
Agent 2
Agent 1
Agent 3
Producers Data
Preparation
Data
Quality
HDFS
Hive
RDBMS
Data
Kafka
Topics
0 1 2
0 1 2
0 1 2
Job 1
Job 2
Job 3
Streaming
Content, IoT,
Application Data
Spark Processing
Data
Storing
26. Information Builders, en quelques chiffres
41
ans d’innovation
60
bureaux
1 400
collaborateurs
30 000
clients
Aider nos clients à développer leur activité,
grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
Aider nos clients à développer leur activité,
grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
27. Plateforme 3i complète et modulaire
Portal Embedded InfoApps™
ApplicationsLegacy Systems Relational/Cubes Big Data Columnar/In Memory Unstructured Social Media Web Services Trading Partners
Intégration
Mobile Write-Back
Data Discovery Reporting Dashboards
High-Performance
Data Store
Data
Quality
Data
Governance
Master Data
Management
Batch
ETL
Real-Time
ESB
Intégrité
Intelligence
Location
Analytics
In-Document
Analytics
Casting
and Archiving
SearchPredictive
Analytics
Sentiment and
Word Analytics
Performance
Management
SSSSocialocialocialocial
HotHotHotHot
BBBBadadadad
FFFFeedbackeedbackeedbackeedback
Big Data
Integrator
29. En conclusion
Une intégration des Big Data:
Rapide, facile, sécurisée.
Capitalisant sur les technologies Hadoop.
Certifiée par les acteurs majeurs Big Data.
Gestion de la qualité des données de bout-en-bout:
Analyse et profilage des données.
Validation, enrichissement et fusion.
Monitoring.
Architecture et processus intégrés à la plateforme Hadoop.
29