SlideShare a Scribd company logo
1 of 21
Download to read offline
AVRIL 2016
LIVRE BLANC
Comprendre les data-lakes
Les enjeux des nouvelles infrastructures de la donnée, pour une
approche data-driven
Avril 2016
Thomas Faivre-Duboz, Directeur Associé
Julien Ribourt, Manager
Paul Ghorra, Consultant
Arthur Fulconis, Consultant
Converteo – Livre Blanc : Comprendre les data-lakes -
Un data-lake en quelques mots c’est :
2
Espace de stockage
de données
Avec des capacités de
traitement
Virtuellement sans limite en s’appuyant sur une infrastructure big data
(approche distribuée potentiellement dans le cloud)
Permettant de stocker
des données non
structurées à moindre
coût
Une opportunité technologique à mettre au service du business
Et de les retraiter en un
temps record au moment
de leur exploitation
Converteo – Livre Blanc : Comprendre les data-lakes -
Sommaire
3
1. Révéler le potentiel business de vos data grâce aux data-lakes 4
2. Intégrer le data-lake dans votre écosystème data 8
3. Appréhender les différents data-lakes possibles 13
4. Mener un projet data-lake 16
Révéler le potentiel business de
vos data grâce aux data-lakes
1.
Converteo – Livre Blanc : Comprendre les data-lakes -
Un data-lake pour exploiter et valoriser pleinement le potentiel
data des organisations
5
Connecter la
donnée à
l’écosystème
digital
Analyser
rapidement la
donnée selon
les cas d’usages
choisis
Alimenter des
campagnes
marketing data-
driven
Stocker
d’importants
volumes de données
de toute nature
Bénéficier d’une
infrastructure à
l’architecture
scalable, évolutive
et pérenne
Désiloter la
donnée au sein
de l’organisation
Converteo – Livre Blanc : Comprendre les data-lakes -
Une pluralité de projets big data peuvent bénéficier de
l’adoption d’un data-lake
6
Sources : Bigdataparis / Datafloq / Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment »
Travel
–
Leisure
Banque
–
Assurance
Retail
Transport
–
Industrie
Marketing
–
Expérience
Client
Marketing
Média
Optimisation
industrielle
Innovation
produit
–
Services
Application d’aide prédictive à
l’épargne basée sur 15 années
d’historique de dépenses et revenus
Plateforme réunissant 3600 hôtels, les
informations de la concurrence, avis
TripAdvisor … pour estimer le taux de
remplissage et le pricing adéquat
Amélioration du ROI en s’appuyant
sur un modèle d’attribution connecté
à 9 sources de données
Optimiser la gestion du stock de
pièces détachées dans l’aviation en
estimant finement la demande
Utilisation du big data pour réaliser de
nombreuses simulations en phase de
conception de nouveaux modèles
Analyse de toutes les données
comportementales et d’acquisition au
niveau le plus granulaire sur
BigQuery de Google
Application digitalisant le domaine
skiable Paradiski pour personnaliser
l’expérience ski des clients
Solution de « cognitive computing » e-
commerce constituée d’un interface
capable de répondre aux questions des
internautes et de leur proposer des
produits personnalisés
Analyse des données wifi des gares,
afin de suivre et d’optimiser en temps
réel les flux voyageurs
Algorithme déterminant la probabilité
d’appartenance à un segment
spécifique (femmes enceintes par ex)
pour activation
Solution basée sur les outils Big data
qui fournit des analyses de fraudes
en quasi temps réel (27millions d’€
sauvés / an)
Personnalisation en fonction des
données comportementales et de
celles issues des réseaux sociaux
Développement d’une solution
d’analyse prédictive pour déterminer
les futurs produits à la mode et
préparer les campagnes marketing
Personnalisation des campagnes
RTB pour optimiser les
investissements médias
Assurance auto connectée mesurant
la qualité de la conduite pour proposer
une assurance sur mesure
Identification des appétences canal
(magasins vs web) pour optimiser les
campagnes de couponing
Converteo – Livre Blanc : Comprendre les data-lakes -
Le data-lake, terrain de jeu du big data
7
* Source : Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment »
EXHAUSTIVITE
Stocker tous les types de données, au format le plus granulaire, pour
toujours pouvoir accéder au potentiel de leur forme non altérée
ACCESSIBILITE
Accéder facilement aux données et les traiter en temps réel ou les
requêter ponctuellement
HISTORISATION
Conserver des données dans le temps pour établir des analyses de
tendance ou comparatives
CONVERGENCE
Centraliser, joindre et comparer des données provenant de différentes
sources (externes ou internes) pour réaliser des analyses exhaustives et
transversales
QUALITATIVITE Assurer la qualité de la donnée en amont de tout traitement et utilisation
Un data-lake repose sur des outils permettant de traiter rapidement d’importants volumes d’information
- structurés ou bruts - issus d’une grande variété de sources
En 2015, 7.9 zo
de données
auraient été
crées dans le
monde, dont
80% non
structurées*
Intégrer le data-lake
dans votre écosystème data
2.
Converteo – Livre Blanc : Comprendre les data-lakes -
Le datawarehouse et le data-lake sont complémentaires et peuvent cohabiter : le data-lake stockant
et traitant des données issues de nouvelles sources non configurées pour les datawarehouses
Le data-lake : une évolution du datawarehouse qui n’empêche
pas les deux outils de conserver une certaine complémentarité
Datawarehouse
Nature
des
données
Modèle
de
données
Finalités
Architecture flexible sans contrainte de forme ou de
schéma particulier et a priori
Structure évolutive et non figée ou de nombreux
types et formes de données peuvent cohabiter et
venir s’ajouter dans le temps
Données stockées quelle que soit leur forme (brute
et structurée ou non structurée)
Stocke uniquement les données déjà
structurées et considérées comme « utiles » à
l’entreprise
Architecture qui repose sur des tables
relationnelles
Structure peu responsive : espace de stockage très
structuré, compliqué et chronophage à faire évoluer
Stocke certains types de données - généralement
des métriques quantitatives
Son modèle de donnée très structuré rend le
datawarehouse adapté à des analyses répétitives
Logique ETL (Extract – Transform – Load)
Stocke toutes les données, celles utiles
aujourd’hui ou potentiellement dans le futur
Structure agile, les données sont configurées et
traitées selon les besoins, via des séquencements
parallélisés et indépendants
Logique ELT (Extract – Load – Transform)
Data-lake
9
Converteo – Livre Blanc : Comprendre les data-lakes -
Data-lake et Data Management Platforms : quelles différences ?
10
Data-lakeDMP
Stockage
données
01011100
Connexions
Activation
dela
donnée
La DMP est par nature connectée en temps réel à
l’écosystème digital externe (DSP, 3rd party données
providers, etc.)
La DMP est un outil d’identification (matching de
cookies), de déduplication et d’enrichissement des
données clients et prospects collectées et pré-calculées
La DMP récupère l’intelligence pour l’activer sur les
différents canaux avec lesquels elle est connectée -
online et offline
Le data-lake agrège et traite la donnée pour la
transformer en intelligence et la transmettre aux
différentes briques d’activation, parmi lesquelles se
trouve la DMP
Le data-lake n’a pas vocation à être connecté
directement à l’écosystème externe. Les flux de données
entrants et sortants ne sont pas nécessairement en
temps réel
Le data-lake regroupe la totalité des données - y.c les
données personnelles et sensibles -, dont celles issues
de la DMP
Le data-lake est un actif propre à l’entreprise, qui s’inscrit
dans la durée
La DMP n’a pas vocation à stocker tout type de données,
notamment les données personnelles des visiteurs,
prospects et clients (PII) ainsi que les données sensibles
de l’entreprise (marge, achats, etc.) – du moins de
manière non cryptée
Le data-lake est avant tout orienté connaissance et intelligence
- c’est le socle exhaustif de la donnée,
la DMP est résolument opérationnelle et orientée activation
Converteo – Livre Blanc : Comprendre les data-lakes -
Intégration d’un data-lake dans un dispositif data & digital
11
Données
comportementales
(Web analytics, média,
DMP)
Données produits
Données cross-canal
(Call-center/magasins…)
Données exogènes (3rd
party)
Données clients
(CRM, référentiel
personnes)
Data-lake
Stockage et traitement des données
Analyses prédictives, scoring, jointure, machine learning,
normalisation, etc.
Cross Canal
Call Center /points de vente
Marketing relationnel
Emailing / mobile / perso.
on site
Média
Display/ RTB/ Search
Personnalisation
de l’expérience
utilisateur
B.I
Analyses, reporting …DMP
Collecte, centralisation et segmentation des données clients et
prospects
Activation sur les différents canaux connectés
Non
systématique
Converteo – Livre Blanc : Comprendre les data-lakes -
Via des outils de data-viz
directement connectés à
l’infrastructure data-lake
Les équipes métiers ont accès à
des dashboards exhaustifs
(toutes les sources et niveau de
granularité possible
CASE STUDY
Refonte de l’infrastructure data
12
Les objectifs du projet
Google Cloud Platform
Stockage en ligne
Machines virtuelles
scalables
Requêtage et
traitement de la
donnée
Use cases principauxSources de données
Données GA/BigQuery
Données acquisition
Données produits
Données CRM
Données Magasins
Données comptables –
Achats/stocks
Données exogènes
Pilotage de la donnée
Mesurer la contribution
du web à l’activité
online en magasin :
achats cross-canaux,
RoPo, showrooming
Cross-canal
Optimiser les relances
marketing pour adapter
la pression 360° en
fonction de la réaction
des clients
Scénarios
relationnels
Centraliser et faire converger une donnée de qualité pour la rendre accessible et exploitable pour tous les besoins métiers
Automatiser les cas d’activations « classiques » de la donnée pour permettre à l’équipe data de consacrer du temps à de
nouveaux projets à forte valeur ajoutée
POUR
Appréhender les différents
data-lakes possibles
3.
Converteo – Livre Blanc : Comprendre les data-lakes -
Deux grands modes d’hébergement pour satisfaire des exigences
différentes
14
Ressources nécessaires
Gouvernance de la donnée
Scalabilité
« On Premise » Cloud Services
Facilité de déploiement
Sécurité de la donnée
Des compétences très spécifiques d’une relative
rareté sont nécessaires
Le cloud ne dispense pas des ressources de
conception et d’administration de l’infrastructure
Même si l’investissement direct dans du matériel
hardware n’a pas lieu d’être le coût d’exploitation des
machines est inclus dans la facturation globale. Les
prestataires cloud facturent les services de manière
packagée en fonction de la consommation des
ressources machines
Même si le système peut fonctionner sur des
machines banalisées, l’organisation doit se doter de
son propre data-center
Bien qu’étant open source et gratuit de base, une
distribution payante du framework Hadoop est
souvent à privilégier
Hardware & Software
Humaines
L’organisation impose à sa donnée ses propres
exigences de sécurité
Les prestataires de cloud font bénéficier à leur
client des mêmes engagements de sécurité qu’ils
imposent à leur propre donnée
Les frameworks nécessaires au fonctionnement du
système impliquent du paramétrage relativement
lourd et complexe
L’utilisation de plateformes et services managés
permettent un déploiement très rapide
Le prestataire de service constitue un intermédiaire
entre l’organisation et sa donnée qui lui appartient
tout de même de manière exclusive
La scalabilité est très granulaire et peut être gérée en
fonction du volume stocké ou du temps d’utilisation des
ressources
La scalabilité est linéaire et l’unité d’ajustement est
le serveur
L’organisation est propriétaire exclusif de
toute la chaîne de stockage et d’exploitation
de la donnée
Converteo – Livre Blanc : Comprendre les data-lakes -
La dématérialisation de l’infrastructure et l’intégration native avec la
plupart des outils digitaux favorisent le Cloud pour des projets agiles
15
Collecte et stockage de
la donnée
Traitement des
données
Activation de la
donnée
On premise
La donnée est stockée sur des
grappes de serveurs, avec des
frameworks permettant le
traitement distribué sur ces
serveurs
L’analyse, le requêtage et la
synthèse des données
contenues sur Hadoop, se fait à
travers des logiciels SQL-like
ou java-like
L’intégration d’un Hadoop On
premise avec l’éco-système
SI/marketing d’une entreprise
nécessite un ETL ou un
développement spécifique
Cloud Services
L’infrastructure de calcul et de
stockage distribuée, est
rapidement configurée sur des
machines virtuelles et des
espaces pré-paramétrés sur le
cloud
Les suites Cloud offrent des
outils de requêtage SQL-like
très performants directement
liés à la donnée stockée
La plupart des outils digitaux du
marché sont connectés
nativement aux principales
Suites Cloud (Google, Amazon,
Microsoft …)
Azure data
Lake analytics
Mener un projet data-lake
4.
Converteo – Livre Blanc : Comprendre les data-lakes -
Le déploiement d’un data-lake est facilité par la constitution
d’une équipe projet ad hoc bénéficiant d’un solide sponsoring
17
Direction Générale
Direction Marketing
Direction Financière
Direction du Service Client
Direction Commerciale
Sponsoring
Equipe projet
polyvalente
Principaux
Contributeurs
Clients internes
Systèmes d’Information Chef de projet
Data architectes
Data engineers
Data scientist
Administrateur système
L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation
ainsi que la transversalité de ses implications dans l’organisation nécessitent souvent sa construction
en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié
Converteo – Livre Blanc : Comprendre les data-lakes -
Quels sont les utilisateurs d’un data-lake ?
18
Chef de projet
Conçoit, développe et s’occupe au quotidien de la
plateforme, c’est le maître d’œuvre du data-lake
Data Engineer
Connecte le data-lake à toutes les
sources de données, s’assure de la
qualité de la donnée et lie la plateforme
aux applications externes
Data Analyst
Définit les KPIs et les métriques à des
fins de reporting / dashboarding pour
comprendre les processus métiers
Data Scientist
Exploite en profondeur l’ensemble des
données à des fins de prospection, pour
déterminer les grandes tendances
business et les opportunités que
l’organisation devra saisir
Admin. système
Responsable de l’infrastructure du data-
lake et de la sécurité (à temps partiel sur
le projet)
Converteo – Livre Blanc : Comprendre les data-lakes -
Les différentes étapes d’un projet data-lake
19
Identification des cas d’usages pertinents
Identification de la complexité de l’existant à rapatrier
(mapping des sources de données et flux out à connecter)
Evaluation des contraintes techniques, humaines,
organisationnelles
Définition de l’infrastructure et de l’environnement
en fonction des besoins et contraintes
Priorisation des cas d’usage et planning du
déploiement
Mise en place d’une équipe projet
Lancement progressif des cas d’usages
Etude de retour sur investissement
Conduite du changement pour le shift
vers du data-driven décision making
Etude
d’opportunité/faisabilité
et prise en considération
des besoins
Setup technico-fonctionnel
du data-lake
Déploiement progressif
des cas d’usage
1
2
3
Un projet data-lake doit être mené selon une méthodologie agile, avec un déploiement progressif.
Tirer partie de la scalabilité des infrastructures est la clé de la réussite d’un projet data-lake.
Converteo – Livre Blanc : Comprendre les data-lakes -
Les complexités et risques du projet data-lake
20
SPONSORSHIP et ADHESION – Un appui fort à un niveau hiérarchique élevé est requis
pour obtenir l’adhésion et éviter les points de blocage
Un projet data-lake est stratégique et concerne toutes les entités de l’entreprise, qui seront toutes parties
prenantes du setup et de l’exploitation du projet
La multiplicité des interlocuteurs, des technologies et des métiers complexifie de facto le projet et
implique donc une forte priorisation du projet au niveau stratégique
PRAGMATISME – Le développement progressif d’un projet data-lake est un gage de réussite
Avec des cas d’usage priorisés, qui imposent le rythme de raccordement des sources (flux in) et des
activations (flux out)
Tirer partie de la scalabilité de l’infrastructure : on monte/descend en charge en fonction de la nécessité
DATA LEAKING – Contrôle et ownership : attention à la fuite de donnée
Toute la donnée, au niveau le plus granulaire est contenue dans le data-lake : la sécurité autour du data-
lake est un enjeu majeur, qui peut conditionner des choix de faisabilité, de technologie ou autres
Merci de votre attention
Converteo – Livre Blanc : Comprendre les data-lakes
Thomas Faivre-Duboz, Directeur Associé
Julien Ribourt, Manager
Paul Ghorra, Consultant
Arthur Fulconis, Consultant
15, place de la Nation
Paris 75011
+33 (0)1 84 16 06 60
contact@converteo.com

More Related Content

What's hot

Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -IliasAEA
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)Yaman Hajja, Ph.D.
 
Data Science Introduction
Data Science IntroductionData Science Introduction
Data Science IntroductionGang Tao
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaRadhika Kotecha
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionBusiness Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionAmal Brioual
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
 
The Role of the Logical Data Fabric in a Unified Platform for Modern Analytics
The Role of the Logical Data Fabric in a Unified Platform for Modern AnalyticsThe Role of the Logical Data Fabric in a Unified Platform for Modern Analytics
The Role of the Logical Data Fabric in a Unified Platform for Modern AnalyticsDenodo
 

What's hot (20)

Resume de BI
Resume de BIResume de BI
Resume de BI
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)
 
Data Science Introduction
Data Science IntroductionData Science Introduction
Data Science Introduction
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data science big data and analytics
Data science big data and analyticsData science big data and analytics
Data science big data and analytics
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika Kotecha
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionBusiness Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
 
The Role of the Logical Data Fabric in a Unified Platform for Modern Analytics
The Role of the Logical Data Fabric in a Unified Platform for Modern AnalyticsThe Role of the Logical Data Fabric in a Unified Platform for Modern Analytics
The Role of the Logical Data Fabric in a Unified Platform for Modern Analytics
 

Similar to Livre Blanc : comprendre les data-lakes

Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Converteo
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseAlexandre Equoy
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center frenchaditya panwar
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 

Similar to Livre Blanc : comprendre les data-lakes (20)

Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouse
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Big data
Big dataBig data
Big data
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 

More from Converteo

Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
Barometre 2017  Webanalyse, Tag Management et Customer Experience ManagementBarometre 2017  Webanalyse, Tag Management et Customer Experience Management
Barometre 2017 Webanalyse, Tag Management et Customer Experience ManagementConverteo
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
 
Baromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséBaromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséConverteo
 
BAROMÈTRE RGPD
BAROMÈTRE RGPDBAROMÈTRE RGPD
BAROMÈTRE RGPDConverteo
 
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceBaromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceConverteo
 
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Converteo
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Converteo
 
Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Converteo
 
Data Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataData Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataConverteo
 
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Converteo
 
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsBaromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsConverteo
 
10 minutes : Tableaux de bord
10 minutes : Tableaux de bord10 minutes : Tableaux de bord
10 minutes : Tableaux de bordConverteo
 
Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Converteo
 
Baromètre de la livraison 2015
Baromètre de la livraison 2015 Baromètre de la livraison 2015
Baromètre de la livraison 2015 Converteo
 
2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation webConverteo
 
Baromètre presse & digital
Baromètre presse & digitalBaromètre presse & digital
Baromètre presse & digitalConverteo
 
Baromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementBaromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementConverteo
 
Livre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueLivre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueConverteo
 
E- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséE- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséConverteo
 
Livre blanc RTB Converteo
Livre blanc RTB ConverteoLivre blanc RTB Converteo
Livre blanc RTB ConverteoConverteo
 

More from Converteo (20)

Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
Barometre 2017  Webanalyse, Tag Management et Customer Experience ManagementBarometre 2017  Webanalyse, Tag Management et Customer Experience Management
Barometre 2017 Webanalyse, Tag Management et Customer Experience Management
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
 
Baromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnaliséBaromètre personnalisation : Les pratiques du merchandising personnalisé
Baromètre personnalisation : Les pratiques du merchandising personnalisé
 
BAROMÈTRE RGPD
BAROMÈTRE RGPDBAROMÈTRE RGPD
BAROMÈTRE RGPD
 
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceBaromètre : Les pratiques de l'AB testing et la personnalisation web en France
Baromètre : Les pratiques de l'AB testing et la personnalisation web en France
 
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
 
Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016Baromètre Webanalyse et Tag Management 2016
Baromètre Webanalyse et Tag Management 2016
 
Data Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataData Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la data
 
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web
 
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platformsBaromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
Baromètre dmp-quels-retours-d’expérience-sur-les-data-management-platforms
 
10 minutes : Tableaux de bord
10 minutes : Tableaux de bord10 minutes : Tableaux de bord
10 minutes : Tableaux de bord
 
Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015Baromètre Converteo Webanalyse et Tag management S2 2015
Baromètre Converteo Webanalyse et Tag management S2 2015
 
Baromètre de la livraison 2015
Baromètre de la livraison 2015 Baromètre de la livraison 2015
Baromètre de la livraison 2015
 
2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web2ème enquête annuelle sur l'A/B testing et la personnalisation web
2ème enquête annuelle sur l'A/B testing et la personnalisation web
 
Baromètre presse & digital
Baromètre presse & digitalBaromètre presse & digital
Baromètre presse & digital
 
Baromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag managementBaromètre S1 2015 – Solutions d’analytics et tag management
Baromètre S1 2015 – Solutions d’analytics et tag management
 
Livre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueLivre Blanc Attribution Management : entre technologie, marketing et statistique
Livre Blanc Attribution Management : entre technologie, marketing et statistique
 
E- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatiséE- commerce One-to-One 2015 - Marketing automatisé
E- commerce One-to-One 2015 - Marketing automatisé
 
Livre blanc RTB Converteo
Livre blanc RTB ConverteoLivre blanc RTB Converteo
Livre blanc RTB Converteo
 

Recently uploaded

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 

Recently uploaded (6)

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 

Livre Blanc : comprendre les data-lakes

  • 1. AVRIL 2016 LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven Avril 2016 Thomas Faivre-Duboz, Directeur Associé Julien Ribourt, Manager Paul Ghorra, Consultant Arthur Fulconis, Consultant
  • 2. Converteo – Livre Blanc : Comprendre les data-lakes - Un data-lake en quelques mots c’est : 2 Espace de stockage de données Avec des capacités de traitement Virtuellement sans limite en s’appuyant sur une infrastructure big data (approche distribuée potentiellement dans le cloud) Permettant de stocker des données non structurées à moindre coût Une opportunité technologique à mettre au service du business Et de les retraiter en un temps record au moment de leur exploitation
  • 3. Converteo – Livre Blanc : Comprendre les data-lakes - Sommaire 3 1. Révéler le potentiel business de vos data grâce aux data-lakes 4 2. Intégrer le data-lake dans votre écosystème data 8 3. Appréhender les différents data-lakes possibles 13 4. Mener un projet data-lake 16
  • 4. Révéler le potentiel business de vos data grâce aux data-lakes 1.
  • 5. Converteo – Livre Blanc : Comprendre les data-lakes - Un data-lake pour exploiter et valoriser pleinement le potentiel data des organisations 5 Connecter la donnée à l’écosystème digital Analyser rapidement la donnée selon les cas d’usages choisis Alimenter des campagnes marketing data- driven Stocker d’importants volumes de données de toute nature Bénéficier d’une infrastructure à l’architecture scalable, évolutive et pérenne Désiloter la donnée au sein de l’organisation
  • 6. Converteo – Livre Blanc : Comprendre les data-lakes - Une pluralité de projets big data peuvent bénéficier de l’adoption d’un data-lake 6 Sources : Bigdataparis / Datafloq / Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment » Travel – Leisure Banque – Assurance Retail Transport – Industrie Marketing – Expérience Client Marketing Média Optimisation industrielle Innovation produit – Services Application d’aide prédictive à l’épargne basée sur 15 années d’historique de dépenses et revenus Plateforme réunissant 3600 hôtels, les informations de la concurrence, avis TripAdvisor … pour estimer le taux de remplissage et le pricing adéquat Amélioration du ROI en s’appuyant sur un modèle d’attribution connecté à 9 sources de données Optimiser la gestion du stock de pièces détachées dans l’aviation en estimant finement la demande Utilisation du big data pour réaliser de nombreuses simulations en phase de conception de nouveaux modèles Analyse de toutes les données comportementales et d’acquisition au niveau le plus granulaire sur BigQuery de Google Application digitalisant le domaine skiable Paradiski pour personnaliser l’expérience ski des clients Solution de « cognitive computing » e- commerce constituée d’un interface capable de répondre aux questions des internautes et de leur proposer des produits personnalisés Analyse des données wifi des gares, afin de suivre et d’optimiser en temps réel les flux voyageurs Algorithme déterminant la probabilité d’appartenance à un segment spécifique (femmes enceintes par ex) pour activation Solution basée sur les outils Big data qui fournit des analyses de fraudes en quasi temps réel (27millions d’€ sauvés / an) Personnalisation en fonction des données comportementales et de celles issues des réseaux sociaux Développement d’une solution d’analyse prédictive pour déterminer les futurs produits à la mode et préparer les campagnes marketing Personnalisation des campagnes RTB pour optimiser les investissements médias Assurance auto connectée mesurant la qualité de la conduite pour proposer une assurance sur mesure Identification des appétences canal (magasins vs web) pour optimiser les campagnes de couponing
  • 7. Converteo – Livre Blanc : Comprendre les data-lakes - Le data-lake, terrain de jeu du big data 7 * Source : Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment » EXHAUSTIVITE Stocker tous les types de données, au format le plus granulaire, pour toujours pouvoir accéder au potentiel de leur forme non altérée ACCESSIBILITE Accéder facilement aux données et les traiter en temps réel ou les requêter ponctuellement HISTORISATION Conserver des données dans le temps pour établir des analyses de tendance ou comparatives CONVERGENCE Centraliser, joindre et comparer des données provenant de différentes sources (externes ou internes) pour réaliser des analyses exhaustives et transversales QUALITATIVITE Assurer la qualité de la donnée en amont de tout traitement et utilisation Un data-lake repose sur des outils permettant de traiter rapidement d’importants volumes d’information - structurés ou bruts - issus d’une grande variété de sources En 2015, 7.9 zo de données auraient été crées dans le monde, dont 80% non structurées*
  • 8. Intégrer le data-lake dans votre écosystème data 2.
  • 9. Converteo – Livre Blanc : Comprendre les data-lakes - Le datawarehouse et le data-lake sont complémentaires et peuvent cohabiter : le data-lake stockant et traitant des données issues de nouvelles sources non configurées pour les datawarehouses Le data-lake : une évolution du datawarehouse qui n’empêche pas les deux outils de conserver une certaine complémentarité Datawarehouse Nature des données Modèle de données Finalités Architecture flexible sans contrainte de forme ou de schéma particulier et a priori Structure évolutive et non figée ou de nombreux types et formes de données peuvent cohabiter et venir s’ajouter dans le temps Données stockées quelle que soit leur forme (brute et structurée ou non structurée) Stocke uniquement les données déjà structurées et considérées comme « utiles » à l’entreprise Architecture qui repose sur des tables relationnelles Structure peu responsive : espace de stockage très structuré, compliqué et chronophage à faire évoluer Stocke certains types de données - généralement des métriques quantitatives Son modèle de donnée très structuré rend le datawarehouse adapté à des analyses répétitives Logique ETL (Extract – Transform – Load) Stocke toutes les données, celles utiles aujourd’hui ou potentiellement dans le futur Structure agile, les données sont configurées et traitées selon les besoins, via des séquencements parallélisés et indépendants Logique ELT (Extract – Load – Transform) Data-lake 9
  • 10. Converteo – Livre Blanc : Comprendre les data-lakes - Data-lake et Data Management Platforms : quelles différences ? 10 Data-lakeDMP Stockage données 01011100 Connexions Activation dela donnée La DMP est par nature connectée en temps réel à l’écosystème digital externe (DSP, 3rd party données providers, etc.) La DMP est un outil d’identification (matching de cookies), de déduplication et d’enrichissement des données clients et prospects collectées et pré-calculées La DMP récupère l’intelligence pour l’activer sur les différents canaux avec lesquels elle est connectée - online et offline Le data-lake agrège et traite la donnée pour la transformer en intelligence et la transmettre aux différentes briques d’activation, parmi lesquelles se trouve la DMP Le data-lake n’a pas vocation à être connecté directement à l’écosystème externe. Les flux de données entrants et sortants ne sont pas nécessairement en temps réel Le data-lake regroupe la totalité des données - y.c les données personnelles et sensibles -, dont celles issues de la DMP Le data-lake est un actif propre à l’entreprise, qui s’inscrit dans la durée La DMP n’a pas vocation à stocker tout type de données, notamment les données personnelles des visiteurs, prospects et clients (PII) ainsi que les données sensibles de l’entreprise (marge, achats, etc.) – du moins de manière non cryptée Le data-lake est avant tout orienté connaissance et intelligence - c’est le socle exhaustif de la donnée, la DMP est résolument opérationnelle et orientée activation
  • 11. Converteo – Livre Blanc : Comprendre les data-lakes - Intégration d’un data-lake dans un dispositif data & digital 11 Données comportementales (Web analytics, média, DMP) Données produits Données cross-canal (Call-center/magasins…) Données exogènes (3rd party) Données clients (CRM, référentiel personnes) Data-lake Stockage et traitement des données Analyses prédictives, scoring, jointure, machine learning, normalisation, etc. Cross Canal Call Center /points de vente Marketing relationnel Emailing / mobile / perso. on site Média Display/ RTB/ Search Personnalisation de l’expérience utilisateur B.I Analyses, reporting …DMP Collecte, centralisation et segmentation des données clients et prospects Activation sur les différents canaux connectés Non systématique
  • 12. Converteo – Livre Blanc : Comprendre les data-lakes - Via des outils de data-viz directement connectés à l’infrastructure data-lake Les équipes métiers ont accès à des dashboards exhaustifs (toutes les sources et niveau de granularité possible CASE STUDY Refonte de l’infrastructure data 12 Les objectifs du projet Google Cloud Platform Stockage en ligne Machines virtuelles scalables Requêtage et traitement de la donnée Use cases principauxSources de données Données GA/BigQuery Données acquisition Données produits Données CRM Données Magasins Données comptables – Achats/stocks Données exogènes Pilotage de la donnée Mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo, showrooming Cross-canal Optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients Scénarios relationnels Centraliser et faire converger une donnée de qualité pour la rendre accessible et exploitable pour tous les besoins métiers Automatiser les cas d’activations « classiques » de la donnée pour permettre à l’équipe data de consacrer du temps à de nouveaux projets à forte valeur ajoutée POUR
  • 14. Converteo – Livre Blanc : Comprendre les data-lakes - Deux grands modes d’hébergement pour satisfaire des exigences différentes 14 Ressources nécessaires Gouvernance de la donnée Scalabilité « On Premise » Cloud Services Facilité de déploiement Sécurité de la donnée Des compétences très spécifiques d’une relative rareté sont nécessaires Le cloud ne dispense pas des ressources de conception et d’administration de l’infrastructure Même si l’investissement direct dans du matériel hardware n’a pas lieu d’être le coût d’exploitation des machines est inclus dans la facturation globale. Les prestataires cloud facturent les services de manière packagée en fonction de la consommation des ressources machines Même si le système peut fonctionner sur des machines banalisées, l’organisation doit se doter de son propre data-center Bien qu’étant open source et gratuit de base, une distribution payante du framework Hadoop est souvent à privilégier Hardware & Software Humaines L’organisation impose à sa donnée ses propres exigences de sécurité Les prestataires de cloud font bénéficier à leur client des mêmes engagements de sécurité qu’ils imposent à leur propre donnée Les frameworks nécessaires au fonctionnement du système impliquent du paramétrage relativement lourd et complexe L’utilisation de plateformes et services managés permettent un déploiement très rapide Le prestataire de service constitue un intermédiaire entre l’organisation et sa donnée qui lui appartient tout de même de manière exclusive La scalabilité est très granulaire et peut être gérée en fonction du volume stocké ou du temps d’utilisation des ressources La scalabilité est linéaire et l’unité d’ajustement est le serveur L’organisation est propriétaire exclusif de toute la chaîne de stockage et d’exploitation de la donnée
  • 15. Converteo – Livre Blanc : Comprendre les data-lakes - La dématérialisation de l’infrastructure et l’intégration native avec la plupart des outils digitaux favorisent le Cloud pour des projets agiles 15 Collecte et stockage de la donnée Traitement des données Activation de la donnée On premise La donnée est stockée sur des grappes de serveurs, avec des frameworks permettant le traitement distribué sur ces serveurs L’analyse, le requêtage et la synthèse des données contenues sur Hadoop, se fait à travers des logiciels SQL-like ou java-like L’intégration d’un Hadoop On premise avec l’éco-système SI/marketing d’une entreprise nécessite un ETL ou un développement spécifique Cloud Services L’infrastructure de calcul et de stockage distribuée, est rapidement configurée sur des machines virtuelles et des espaces pré-paramétrés sur le cloud Les suites Cloud offrent des outils de requêtage SQL-like très performants directement liés à la donnée stockée La plupart des outils digitaux du marché sont connectés nativement aux principales Suites Cloud (Google, Amazon, Microsoft …) Azure data Lake analytics
  • 16. Mener un projet data-lake 4.
  • 17. Converteo – Livre Blanc : Comprendre les data-lakes - Le déploiement d’un data-lake est facilité par la constitution d’une équipe projet ad hoc bénéficiant d’un solide sponsoring 17 Direction Générale Direction Marketing Direction Financière Direction du Service Client Direction Commerciale Sponsoring Equipe projet polyvalente Principaux Contributeurs Clients internes Systèmes d’Information Chef de projet Data architectes Data engineers Data scientist Administrateur système L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation ainsi que la transversalité de ses implications dans l’organisation nécessitent souvent sa construction en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié
  • 18. Converteo – Livre Blanc : Comprendre les data-lakes - Quels sont les utilisateurs d’un data-lake ? 18 Chef de projet Conçoit, développe et s’occupe au quotidien de la plateforme, c’est le maître d’œuvre du data-lake Data Engineer Connecte le data-lake à toutes les sources de données, s’assure de la qualité de la donnée et lie la plateforme aux applications externes Data Analyst Définit les KPIs et les métriques à des fins de reporting / dashboarding pour comprendre les processus métiers Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir Admin. système Responsable de l’infrastructure du data- lake et de la sécurité (à temps partiel sur le projet)
  • 19. Converteo – Livre Blanc : Comprendre les data-lakes - Les différentes étapes d’un projet data-lake 19 Identification des cas d’usages pertinents Identification de la complexité de l’existant à rapatrier (mapping des sources de données et flux out à connecter) Evaluation des contraintes techniques, humaines, organisationnelles Définition de l’infrastructure et de l’environnement en fonction des besoins et contraintes Priorisation des cas d’usage et planning du déploiement Mise en place d’une équipe projet Lancement progressif des cas d’usages Etude de retour sur investissement Conduite du changement pour le shift vers du data-driven décision making Etude d’opportunité/faisabilité et prise en considération des besoins Setup technico-fonctionnel du data-lake Déploiement progressif des cas d’usage 1 2 3 Un projet data-lake doit être mené selon une méthodologie agile, avec un déploiement progressif. Tirer partie de la scalabilité des infrastructures est la clé de la réussite d’un projet data-lake.
  • 20. Converteo – Livre Blanc : Comprendre les data-lakes - Les complexités et risques du projet data-lake 20 SPONSORSHIP et ADHESION – Un appui fort à un niveau hiérarchique élevé est requis pour obtenir l’adhésion et éviter les points de blocage Un projet data-lake est stratégique et concerne toutes les entités de l’entreprise, qui seront toutes parties prenantes du setup et de l’exploitation du projet La multiplicité des interlocuteurs, des technologies et des métiers complexifie de facto le projet et implique donc une forte priorisation du projet au niveau stratégique PRAGMATISME – Le développement progressif d’un projet data-lake est un gage de réussite Avec des cas d’usage priorisés, qui imposent le rythme de raccordement des sources (flux in) et des activations (flux out) Tirer partie de la scalabilité de l’infrastructure : on monte/descend en charge en fonction de la nécessité DATA LEAKING – Contrôle et ownership : attention à la fuite de donnée Toute la donnée, au niveau le plus granulaire est contenue dans le data-lake : la sécurité autour du data- lake est un enjeu majeur, qui peut conditionner des choix de faisabilité, de technologie ou autres
  • 21. Merci de votre attention Converteo – Livre Blanc : Comprendre les data-lakes Thomas Faivre-Duboz, Directeur Associé Julien Ribourt, Manager Paul Ghorra, Consultant Arthur Fulconis, Consultant 15, place de la Nation Paris 75011 +33 (0)1 84 16 06 60 contact@converteo.com