SlideShare a Scribd company logo
1 of 17
Download to read offline
Chp1 : Introduction
Approche et Vocabulaire
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia SFAXI
www.liliasfaxi.wix.com/liliasfaxi
Slide 1
Faits
• Chaque jour, nous générons 2,5 trillions d’octets de données
• 90% des données dans le monde ont été créées au cours des deux
dernières années
• 90% des données générées sont non structurées
• Source:
§ Capteurs utilisés pour collecter les informations climatiques
§ Messages sur les médias sociaux
§ Images numériques et vidéos publiées en ligne
§ Enregistrements transactionnels d’achat en ligne
§ Signaux GPS de téléphones mobiles
§ …
• Données appelées Big Data ou Données Massives
2
Introduction aux Big Data
Intérêts
• Chefs d’entreprise prennent fréquemment des
décisions basées surdes informations en lesquelles
ils n’ont pas confiance,ou qu’ils n’ont pas1 /3
• Chefs d’entreprise disent qu’ils n’ont pas accès aux
informations dont ils ont besoin pour faire leur
travail1 / 2
• Des DSI (Directeurs des SI) citent :« L’informatique
décisionnelleet analytique » commefaisant partie
de leurs plans pour améliorer leur compétitivité83 %
• Des PDG ont besoin d’améliorer la capture et la
compréhension des informations pour prendre des
décisions plus rapidement60 %
3
Introduction aux Big Data
Sources
• Sources multiples: sites, bases de données, téléphones, serveurs:
§ Détecter les sentiments et réactions des clients
§ Détecter les conditions critiques ou potentiellement mortelles dans les
hôpitaux , et à temps pour intervenir
§ Prédire des modèles météorologiques pour planifier l’usage optimal des
éoliennes
§ Prendre des décisions risquées basées sur des données transactionnelles
en temps réel
§ Identifier les criminels et les menaces à partir de vidéos, sons et flux de
données
§ Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont
réussir, d’après les statistiques et modèles réunis au long des années
(domaine Big Data in Education)
4
Introduction aux Big Data
Challenges
• Réunir un grand volume de données variées pour trouver de nouvelles
idées
• Capturer des données créées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
5
Introduction aux Big Data
Les 5 V
• Extraction d’informations et décisions à partir de données,
caractérisées par les 5 V:
§ Volume (Volume)
§ Variété (Variety)
§ Vitesse (Velocity)
§ Véracité (Veracity)
§ Valeur (Value)
6
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
Volume
• Le prix de stockage des données a beaucoup diminué ces
30 dernières années:
§ De $100,000 / Go (1980)
§ À $0.10 / Go (2013)
• Les lieux de stockage fiables (comme des SAN: Storage
Area Network) ou réseaux de stockage peuvent être très
coûteux
§ Choisir de ne stocker que certaines données, jugées
sensibles
§ Perte de données, pouvant être très utiles, comme les logs
• Comment déterminer les données qui méritent d’être
stockées?
§ Transactions? Logs? Métier? Utilisateur? Capteurs?
Médicales? Sociales?
è Aucune donnée n’est inutile. Certaines n’ont juste pas
encore servi.
• Problèmes:
§ Comment stocker les données dans un endroit fiable, qui
soit moins cher
§ Comment parcourir ces données et en extraire des
informations facilement et rapidement?
7
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
Variété
• Pour un stockage dans des bases de données ou
dans des entrepôts de données, les données
doivent respecter un format prédéfini.
• La plupart des données existantes sont non-
structurées ou semi-structurées
• Données sous plusieurs formats et types
• On veut tout stocker:
§ Exemple: pour une discussion dans un centre
d’appel, on peut la stocker sous forme textuelle
pour son contenu, comme on peut stocker
l’enregistrement en entier, pour interpréter le ton
de voix du client
• Certaines données peuvent paraître obsolètes,
mais sont utiles pour certaines décisions:
§ Exemple: Pour le transport de marchandise, on a
tendance à choisir le camion le plus proche. Mais
parfois, ce n’est pas la meilleure solution.
D’autres problèmes peuvent intervenir.
§ Besoin de : Données GPS, Plan de livraison du
camion, Circulation, Chargement du camion,
Niveau d’essence…
8
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
Vitesse
Valeur
Volume
Véracité
Vitesse
• Rapidité d’arrivée des données
• Vitesse de traitement
• Les données doivent être stockées à
l’arrivée, parfois même des
Teraoctets par jour
§ Sinon, risque de perte d’informations
• Exemple
§ Il ne suffit pas de savoir quel article
un client a acheté ou réservé
§ Si si on sait que vous avez passé
plus de 5mn à consulter un article
dans une boutique d’achat en ligne, il
est possible de vous envoyer un
email dès que cet article est soldé.
9
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
ValeurVariété
Véracité
Volume
Véracité
• Cela fait référence au désordre ou la
fiabilité des données. Avec l’augmentation
de la quantité, la qualité et précision se
perdent (abréviations, typos,
déformations, source peu fiable…)
• Les solutions Big Data doivent remédier à
cela en se référant au volume des données
existantes
• Nécessité d’une (très) grande rigueur
dans l’organisation de la collecte et le
recoupement, croisement, enrichissement
des données pour lever l’incertitude et la
nature imprévisible des données
introduites dans les modèles mais aussi
pour respecter le cadre légal pour créer la
confiance et garantir la sécurité et
l’intégrité des données.
10
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
ValeurVariété
Volume Vitesse
Valeur
• Le V le plus important
• Il faut transformer toutes les données
en valeurs exploitables: les données
sans valeur sont inutiles
• Atteindre des objectifs stratégiques
de création de valeur pour les clients
et pour l’entreprise dans tous les
domaines d’activité
11
Introduction aux Big Data
5	Vs du	
Big	Data
Volume Vitesse
ValeurVariété
Véracité
- Téraoctets
- Enreg.	/	Archives
- Transactions
- Tables,	fichiers
- Batch
- Temps	réél
- Processus
- Flot de	données
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine,	réputation
- Disponibilité
- Responsabilité
- Structurées
- Non	structurées
- Multi-facteur
- Probabilistes
Vitesse
Variété
Volume
Véracité
Valeur
Approche Traditionnelle
Les besoins métier guident la conception de la solution
12
Introduction aux Big Data
Denouvelles exigences
nécessitentune nouvelle
conception etconstruction
Leresponsablemétier définit les besoins :
Quelles questions doit-on poser?
IT conçoitunesolution avec un
ensemble destructureset
fonctionnalités
Leresponsablemétier exécuteles
requêtespour répondreauxquestions –
encoreet encore
Approche Traditionnelle
• Appropriée pour:
§ Des données structurées
§ Opérations et processus répétitifs
§ Sources relativement stables
§ Besoins bien compris et bien cadrés
13
Introduction aux Big Data
Approche Big Data
Les sources d’information guident la découverte créative
14
Introduction aux Big Data
Denouvelles idées conduisent
à l’intégration de technologies
traditionnelles
Leresponsablemétier etIT
identifient les sourcesde données
disponibles
IT fournit uneplateforme
quipermet uneexploration
créativedetoutes les
donnéesdisponibles
Leresponsablemétier détermineles
questions à poser en explorant les données
et relations entreelles
Approche Big Data vs Approche Traditionnelle
• La question n’est pas :
§ Dois-je choisir entre
l’approche classique et
l’approche Big Data?
• Mais plutôt:
§ Comment les faire
fonctionner ensemble?
15
Introduction aux Big Data
Entrepôt de Données Plateforme Big Data
Intégration
Sources Traditionnelles Nouvelles Sources
16
Approche Big Data
Analyse Itérative et Exploratoire
Responsables Métier
Déterminent quelles
questions poser
Responsables IT
Structurentles données
pour répondreàces
questions
Responsables IT
Fournissentuneplateforme
pour permettre la
découvertecréative
Responsables Métier
Explorentla plateforme pour
déterminer quelles
questions poser
Approche Traditionnelle
Analyse Structurée et Répétée
Approche Big Data vs Approche Traditionnelle
Introduction aux Big Data
Sources
• Cours
§ Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University
§ Intro to Hadoop and MapReduce, Coursera, Udacity
• Articles
§ Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”, LinkedIn
17
Introduction aux Big Data

More Related Content

What's hot

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBaseAmal Abid
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 

What's hot (20)

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBase
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Big data
Big dataBig data
Big data
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 

Viewers also liked

BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Filmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nhaverstockmedia
 
The Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In Americanguest25e0a66
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Francois Cazals
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherchetmauriac
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatfifi75
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScriptLilia Sfaxi
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design PatternsLilia Sfaxi
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au WebLilia Sfaxi
 
E-HEALTH 2016 - Sierre - Switzerland
E-HEALTH 2016 - Sierre - SwitzerlandE-HEALTH 2016 - Sierre - Switzerland
E-HEALTH 2016 - Sierre - SwitzerlandPascal Cretton
 

Viewers also liked (20)

BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Filmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir n
 
The Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In American
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherche
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Thinking BIG
Thinking BIGThinking BIG
Thinking BIG
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScript
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design Patterns
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au Web
 
Angular
AngularAngular
Angular
 
Testing Angular
Testing AngularTesting Angular
Testing Angular
 
Core JavaScript
Core JavaScriptCore JavaScript
Core JavaScript
 
E-HEALTH 2016 - Sierre - Switzerland
E-HEALTH 2016 - Sierre - SwitzerlandE-HEALTH 2016 - Sierre - Switzerland
E-HEALTH 2016 - Sierre - Switzerland
 

Similar to BigData_Chp1: Introduction à la Big Data

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelmanArthur Charpentier
 
CustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeCustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeFreedelity
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
La qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataLa qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataPrecisely
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
 
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010Desjardins
 
CR2PA Présentation CIMAIL 04 12-2012
CR2PA Présentation CIMAIL 04 12-2012CR2PA Présentation CIMAIL 04 12-2012
CR2PA Présentation CIMAIL 04 12-2012CIMAIL_Solutions
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreNicolas Desachy
 

Similar to BigData_Chp1: Introduction à la Big Data (20)

introduction bigdata
introduction bigdataintroduction bigdata
introduction bigdata
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman15 03 16_data sciences pour l'actuariat_f. soulie fogelman
15 03 16_data sciences pour l'actuariat_f. soulie fogelman
 
CustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeCustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLake
 
BigData selon IBM
BigData selon IBM BigData selon IBM
BigData selon IBM
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
La qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataLa qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big Data
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
 
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010
Du Brouillon à l'Enregistrement - Gestion documentaire avec SharePoint 2010
 
CR2PA Présentation CIMAIL 04 12-2012
CR2PA Présentation CIMAIL 04 12-2012CR2PA Présentation CIMAIL 04 12-2012
CR2PA Présentation CIMAIL 04 12-2012
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
 

More from Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 

More from Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2-UML-Classes
TD2-UML-ClassesTD2-UML-Classes
TD2-UML-Classes
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 

BigData_Chp1: Introduction à la Big Data

  • 1. Chp1 : Introduction Approche et Vocabulaire Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  • 2. Faits • Chaque jour, nous générons 2,5 trillions d’octets de données • 90% des données dans le monde ont été créées au cours des deux dernières années • 90% des données générées sont non structurées • Source: § Capteurs utilisés pour collecter les informations climatiques § Messages sur les médias sociaux § Images numériques et vidéos publiées en ligne § Enregistrements transactionnels d’achat en ligne § Signaux GPS de téléphones mobiles § … • Données appelées Big Data ou Données Massives 2 Introduction aux Big Data
  • 3. Intérêts • Chefs d’entreprise prennent fréquemment des décisions basées surdes informations en lesquelles ils n’ont pas confiance,ou qu’ils n’ont pas1 /3 • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail1 / 2 • Des DSI (Directeurs des SI) citent :« L’informatique décisionnelleet analytique » commefaisant partie de leurs plans pour améliorer leur compétitivité83 % • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement60 % 3 Introduction aux Big Data
  • 4. Sources • Sources multiples: sites, bases de données, téléphones, serveurs: § Détecter les sentiments et réactions des clients § Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux , et à temps pour intervenir § Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes § Prendre des décisions risquées basées sur des données transactionnelles en temps réel § Identifier les criminels et les menaces à partir de vidéos, sons et flux de données § Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années (domaine Big Data in Education) 4 Introduction aux Big Data
  • 5. Challenges • Réunir un grand volume de données variées pour trouver de nouvelles idées • Capturer des données créées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser 5 Introduction aux Big Data
  • 6. Les 5 V • Extraction d’informations et décisions à partir de données, caractérisées par les 5 V: § Volume (Volume) § Variété (Variety) § Vitesse (Velocity) § Véracité (Veracity) § Valeur (Value) 6 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 7. Volume • Le prix de stockage des données a beaucoup diminué ces 30 dernières années: § De $100,000 / Go (1980) § À $0.10 / Go (2013) • Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux § Choisir de ne stocker que certaines données, jugées sensibles § Perte de données, pouvant être très utiles, comme les logs • Comment déterminer les données qui méritent d’être stockées? § Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales? è Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. • Problèmes: § Comment stocker les données dans un endroit fiable, qui soit moins cher § Comment parcourir ces données et en extraire des informations facilement et rapidement? 7 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 8. Variété • Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini. • La plupart des données existantes sont non- structurées ou semi-structurées • Données sous plusieurs formats et types • On veut tout stocker: § Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour interpréter le ton de voix du client • Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions: § Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent intervenir. § Besoin de : Données GPS, Plan de livraison du camion, Circulation, Chargement du camion, Niveau d’essence… 8 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Valeur Volume Véracité
  • 9. Vitesse • Rapidité d’arrivée des données • Vitesse de traitement • Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour § Sinon, risque de perte d’informations • Exemple § Il ne suffit pas de savoir quel article un client a acheté ou réservé § Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé. 9 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes ValeurVariété Véracité Volume
  • 10. Véracité • Cela fait référence au désordre ou la fiabilité des données. Avec l’augmentation de la quantité, la qualité et précision se perdent (abréviations, typos, déformations, source peu fiable…) • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes • Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données pour lever l’incertitude et la nature imprévisible des données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la confiance et garantir la sécurité et l’intégrité des données. 10 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes ValeurVariété Volume Vitesse
  • 11. Valeur • Le V le plus important • Il faut transformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles • Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise dans tous les domaines d’activité 11 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Variété Volume Véracité Valeur
  • 12. Approche Traditionnelle Les besoins métier guident la conception de la solution 12 Introduction aux Big Data Denouvelles exigences nécessitentune nouvelle conception etconstruction Leresponsablemétier définit les besoins : Quelles questions doit-on poser? IT conçoitunesolution avec un ensemble destructureset fonctionnalités Leresponsablemétier exécuteles requêtespour répondreauxquestions – encoreet encore
  • 13. Approche Traditionnelle • Appropriée pour: § Des données structurées § Opérations et processus répétitifs § Sources relativement stables § Besoins bien compris et bien cadrés 13 Introduction aux Big Data
  • 14. Approche Big Data Les sources d’information guident la découverte créative 14 Introduction aux Big Data Denouvelles idées conduisent à l’intégration de technologies traditionnelles Leresponsablemétier etIT identifient les sourcesde données disponibles IT fournit uneplateforme quipermet uneexploration créativedetoutes les donnéesdisponibles Leresponsablemétier détermineles questions à poser en explorant les données et relations entreelles
  • 15. Approche Big Data vs Approche Traditionnelle • La question n’est pas : § Dois-je choisir entre l’approche classique et l’approche Big Data? • Mais plutôt: § Comment les faire fonctionner ensemble? 15 Introduction aux Big Data Entrepôt de Données Plateforme Big Data Intégration Sources Traditionnelles Nouvelles Sources
  • 16. 16 Approche Big Data Analyse Itérative et Exploratoire Responsables Métier Déterminent quelles questions poser Responsables IT Structurentles données pour répondreàces questions Responsables IT Fournissentuneplateforme pour permettre la découvertecréative Responsables Métier Explorentla plateforme pour déterminer quelles questions poser Approche Traditionnelle Analyse Structurée et Répétée Approche Big Data vs Approche Traditionnelle Introduction aux Big Data
  • 17. Sources • Cours § Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University § Intro to Hadoop and MapReduce, Coursera, Udacity • Articles § Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”, LinkedIn 17 Introduction aux Big Data