SlideShare a Scribd company logo
1 of 101
Formation Big Data
Initiation, concepts, architectures,
administration et développements
pour architecte et consultant
✘ Veuillez vous présenter :
✗ Vôtre nom et prénom
✗ Fonction, société
✗ Avez vous une expérience Big Data? Qu’avez vous fait ?
✗ Quelles sont vos attentes de ce cours ?
Tour de table
TOUR DE TABLE
Mehdi TAZI
✘ Architecte BigData
✘ Freelancer, ex OCTO
✘AXA, BNP, EDF, LA
POSTE, AL BARID BANK,
✘ ARCHI, DEV, ADMIN,
ORGA...
✘ Contact :
> twitter : @t_mehdi
> web : tazimehdi.com
> mail : mehdi@tazimehdi.com
✘ Communication interactive par
thème
Déroulement
✘ Osez poser vos questions de façon interactive
> des termes utilisés, sujets non compris
> des problématiques liées à votre travail
> des questions d’ordre générale par thème
Technologique, Méthodologique, Organisationnelle…
Outils nécessaires
Cassandra Server : http://cassandra.apache.org/download/
Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter
MongoDB server : https://www.mongodb.com/download-center#community
Horntonworks HDP : http://hortonworks.com/downloads/
Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html
VirtualBox
https://www.virtualbox.org/wiki/Downloads
Programme
Programme
✘ Introduction à la Big Data
✘ Vue d’ensemble
✘ Concepts architecturaux
✘ Couches et technologies
✘ Le NoSQL
✘ Datalake & Datalab
✘ Information generales & Atelier questions/reponses
Introduction
Big data is like teenage sex : everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is
doing it, so everyone claims they are doing it...
Dan Ariely
C’est quoi selon vous le big data ?
Introduction à la Big Data
✘ Traitement et stockage massives des gros volumes de données
✘ Explosion quantitative des données numériques
C’est quoi la Big Data? (1/2)
Introduction à la Big Data
✘ Données provenant de plusieurs sources :
✗ Capteurs : température, pression…
✗ IOT : montres connectées, balances, Smartphones…
✗ Messages sur les réseaux sociaux : tweet, posts…
✗ Transactions et logs : banques, e-commerce…
✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify…
✗ Autres : GPS, email, sms…
C’est quoi la Big Data? (2/2)
Introduction à la Big Data
Qu’est ce qui se passe chaque minute sur Internet?
Source : Qmee
log
Storage
RT Processing
ex : pic tag, batch concu
adds
RT Processing
Introduction à la Big Data
✘ Les solutions actuelles coûtent cher : archivage et traitement
✘ Répondre à des problématiques métiers avec plus de précision et de
rapidité.
✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de
données.
✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction
et l’exploitation des données sur de grandes profondeurs. ( DDC )
✘ La création de nouveaux cas d’usages et de valeurs business basées sur la
données et la technologie. ( cloud , données …)
✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF)
Quel est l’intérêt d’adopter le big data?
Introduction à la Big Data
✘ Au début c’était destiné aux gros acteurs du web et les grandes
multinationales :
✗ Facebook, Google, Amazon…
✗ Fedex, Walmart, Citi…
✘ Maintenant de plus en plus de monde y est concerné :
✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF…
✗ Des nouveaux : Snapchat, whatsapp, pokemon go …
✗ Vous ?
Pour qui ?
Introduction à la Big Data
✘ Energie
✗ Amélioration de la production et distribution d’énergie
✗ Information en temps réel sur les débits et la qualité
✗ Détection des problèmes de réseaux
✗ Automatisation du processus de collecte de données
✘ Transport et distribution
✗ Optimisation des trajets et réductions des coûts
✗ Ajustement d’offre et de demande par zone géographique
✘ Produits de Luxe et grandes consommations
✗ Analyse de sentiments et retour produits *
✗ Amélioration de la satisfaction des clients
✗ Identification de nouveaux besoins et désirs *
✗ Recommandations
Cas d’usage réel (1/2)
Introduction à la Big Data
✘ E-Commerce
✗ Amélioration des stocks et de l’expérience clients.
✗ Gestion plus fine et dynamique des prix de vente
✗ Personnalisation des offres
✗ Pricing dynamique *
✗ Marketing ciblé
✘ Services publics et banques
✗ Archivage et données publiques
✗ Lute contre la fraude et abus *
✗ Amélioration des processus
✗ Sécurité
✘ Autres
✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs
ne soit trop élevées
✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. *
Cas d’usage réel (2/2)
Buzzwords
Introduction à la Big Data
Big Data, Fast Data, Smart Data et Open Data
Big Data
Fast Data
Smart
Data
Open
Data
Quiz Time !
Questions / Réponses
> Comment définir le Big data en une seule phrase ?
> Pourquoi adopter le Big data ?
> Qu’est ce que la smart data ?
> Qu’est ce que le fast data ?
> Qu’est ce que l’open data ?
> A quelles problématiques répond le big data ?
> A quelles problématiques répond le fast data ?
J’entend souvent parler des 3V, mais c’est
quoi exactement ?
Introduction à la Big Data
Les 3V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …
Et c’est quoi cette histoire de
5V ?
Introduction à la Big Data
Propriété d’un Système big data - Les 5V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …
Véracité
31
2
Valeur
Quiz Time !
Questions / Réponses
> Citez les 3 principales propriétés d’un systèmes big data
> Citez deux autres propriétés
> Qu’elles sont les problématiques liées à la volumétries ?
> Qu’elles sont les problématiques liée à la vélocité ?
> Qu’elles sont les problématiques liée à véracité ?
Big Picture
Vue d’ensemble
VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE
Processing
Exchange
Storage
Data
Management
Consume
Quiz Time !
Questions / Réponses
> Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ?
> Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage
?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de
traitement ?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité
?
> Où se positionne un système Big Data par rapport au reste du SI ?
Concepts architecturaux
Concepts architecturaux
✘ Besoin : Traitement et stockage massif des gros volumes de données
✘ Limites : Ajouter plus de puissance aux machines :
✗ Stockage: Disque dur, mémoire …
✗ Traitement: CPU, parallélisme …
✘ Solution : Archiver et traiter l’information de façon distribuée afin de
bénéficier de plus de capacité de puissance
✘ Le Big data repose principalement sur les notions des systèmes
distribués!
Limitations & Besoin
Scalabilité horizontale
vs
Scalabilité verticale
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Hardware
limitation !Scale-up Scale-up
Augmenter la puissance d’un système en ajoutant du matériels plus puissants
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU Scale out
24 CPU, 48 GO
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale out
X CPU, Y GO
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Limit !
16 GB
8 CPU
Scale-up
Scale-out Scale-out
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale-up
24 CPU, 48 GO X CPU, Y GO
Augmenter la puissance d’un système en ajoutant du matériels plus puissants
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
Partitionnement
--
Distribution
--
Réplication
Concepts architecturaux
Partitionnement - Sharding
Collection A
File
File1
TB
Nœud 1 Nœud 2 Nœud 3 Nœud 4
256
GB
256
GB
256
GB
256
GB
✘ Répartir les données et traitements sur de multiples serveurs sur un cluster
✘ Le partitionnement permet d’absorber la charge (de stockage ou de
traitement).
Serveur logique
Cluster
Concepts architecturaux
Réplication
Collection A
BA C
Nœud 1 Nœud 2 Nœud 3
CA BA B C
Nœud 4
BA C
RF = 3
✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster
✘ Permet de garantir la disponibilité de l’ensemble des données même quand
un nœud du cluster disparaît (maintenance, crash, …)
✘ La probabilité de perte d’un nœud croît avec la taille du cluster
✘ Meilleur performance et sécurité.
Architecture des disques
Concepts architecturaux
Architecture des disques (1/3)
✘ JBOD vs RAID
✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage)
✗ RAID : Redundant Array of Independent Disks (réplication physique)
✘ Quand utiliser quoi ?
✗ JBOD : Système avec redondance  nœuds worker et de données
✗ RAID : Système sans redondance  Nœuds Master, gestion du système
✘ Avantage :
✗ JBOD : Gagner de l‘espace disque, facile a mettre en place…
✗ RAID : Fiabilité de données, mais coûte plus cher...
Concepts architecturaux
Architecture des disques (2/3)
striping mirroring
single parity double parity
distribution réplication
Concepts architecturaux
Architecture des disques (3/3)
Architecture des nœuds
Concepts architecturaux
Architecture des nœuds - Master / Slave – Sans HA
Nœud Master
Nœud Slave Nœud Slave
Application
Driver
writeread
SPOF
✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont
simplement un rôle mendiant d’acheminement, d’orchestration des opérations
read
> peut s’occuper du sharding/replication
> A connaissance de la topologies
Concepts architecturaux
Architecture des nœuds - Multi-Master
Master
active
Slave
Slave
Master
active
Slave
Slave
Master
active
SlaveSlave
Synchronisation
Concepts architecturaux
Architecture des nœuds - Peer to Peer / En noeuds
Nœud 1
Nœud 2
Nœud 3
Nœud 4
✘ Tout les nœuds sont égaux
✘ Topologie connu par chaque nœud et non par le master
0-24
25-49
75-99
50-74
Masterless architecture
Application
Driver
R/W
Election des noeuds
Concepts architecturaux
Election des nœuds (1/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Nœud Secondaire
Slave
Réplication Réplication
Heartbeats
Election d’un nouveau nœud primaire
Concepts architecturaux
Election des nœuds (2/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Heartbeats
Réplication
Concepts architecturaux
Election des nœuds (3/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Arbiter
Réplication
Heartbeat
Election d’un nouveau nœud primaire Utilisé simplement pour le vote
Concepts architecturaux
Election des nœuds (4/4)
Nœud Primaire
Master
Arbiter
Heartbeat
Théorème de CAP
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
X X
X
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
Most
P2P
Couches et technologies
Concepts architecturaux
Cartographie des technologies par couches
REALTIME & BATCH PROCESSING
SECURITY,&GOUVERNANCE
CNavigator
ApacheRanger
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING
MANAGEMENT&ADMINISTRATION
Clouderamanager
EXTERNAL INPUTS : FS / WS
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES
DATA ACQUISITION, INGESTION & INTEGRATION
MESSAGING, BROKERS & COORDINATION
Concepts architecturaux
Cartographie des technologies par couches
DATA ACQUISITION, INGESTION & INTEGRATION
REALTIME & BATCH PROCESSING
SECURITY,
&
GOUVERNA
NCE
C Navigator
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING MANAGEME
NT &
ADMINISTRA
TION
Cloudera manager
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES &
SEARCH ENGINE
MESSAGING, BROKERS & COORDINATION
Spark Flume Hadoop Sqoop Talend Scala Java
Kafka RabbitMQ ActiveMQ IronMQ Zookeeper
TalendNifiFlinkStormHadoopSpark
HBaseHadoop MongoDB
CouchBase RedisNeo4J CassandraTitan
Parquet Orc Avro
Elastic search
Teradata
Solr
Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala
PolymapsHTML/CSSExcelQlik TableauHue
Sentry
Falcon
Atlas
Knox
Ranger
Ambari
Ganglia
Oozie
Nagios
AMQ
Pentaho
Le NoSQL
Déjà le NoSQL n’est pas :
Lab MongoDB
Lab MongoDB - Introduction
sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture
✘ Analyse de la solution :
> Section Introduction
> Technologie de stockage BigData (Database)
> Scalable horizontalement
> Section DataModel
> Schema design Orienté document
> Format BSON
> Section Réplication :
> Architecture Master/Slave
> Élection des nœuds avec/sans Arbiter
> Section Sharding
> Distribution par élément (Document)
> Distribution aléatoire et ordonnée (RangeBased/HashBased)
> Section MongoDB CRUD Operations
> Le write level est paramétrable (write concen)
> Architecture + Web CAP Théorème
> MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
Lab MongoDB - Introduction
✘ Base de données open-source
✘ Base de données orientée documents
✘ Répond aux besoins de volumétries et de performances
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Accepte le paradigme Map/Reduce
✘ Gestion facile des données géo-spatiales
Lab MongoDB – Qui l’utilise
Lab MongoDB – Connecteurs
Lab MongoDB
RDBMS MongoDB
Database Database
Table, View Collection
Row Document (JSON, BSON)
Column Field
Index Index
Primary Key Row Key / Partion Key
Foreign Key Reference
Partition Shard
Table de correspondence
Lab MongoDB
Document JSON / BSON
LAB MongoDB
Hands on Query Language
CRUD Operations
LAB MongoDB
Hands on Schema Design
Application design
LAB MongoDB
Hands on Java Driver
Application programming
Lab MongoDB
Lecture dans MongoDB
Lab MongoDB
Absence de la
Shard Key
Lecture dans MongoDB
Lab MongoDB
Write level/concern
Unacknowledged
Ecriture dans MongoDB
Lab MongoDB
Sharding et replication
MongoD
Lab Cassandra
Lab Cassandra - Introduction
✘ Base de données open-source
✘ Base de données orientée colonnes
✘ Répond aux besoins de volumétrie et de performance
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Gestion automatique de la réplication des Datacenter
✘ Gestion facile des données timeseries
Lab Cassandra – Qui l’utilise?
Lab Cassandra – Connecteurs
Lab Casssandra
RDBMS Cassandra
Schema/Database Schema/Keyspace
Table Table/Column Family
Row Row
Column Column(name,value)
Index Index
Table de correspondance
LAB Cassandra
Impact de créations des tables
sur l’architecture technique
Points critiques, performances et limitations
LAB Cassandra
Hands on CQL
Application design/Schema design,
Querying and design by query
LAB Cassandra
What really happened
Read/Write Path, Write level, nodes elections,
data distribution
Datalake
Datalake
Introduction
Définition, Natures et types des données,
schema on read/write
Datalake
Définition
Réseaux sociaux et
streaming
Fichiers et logs
Bases de Données
DATA LAKE
Données structurées
Données semi-structurées
Données non structurées
STAGING
ARCHIVING
TRANSFORMING
HISTORISATION
Capteurs
ANALYTICS
PREDICTIONS
Pas performante pour du
traitement opérationnel
Hadoop
Introduction à Hadoop
Batch processing
RealTime processing
Hadoop
Distribution et technologies
3 grandes distributions sur le marché :
> Hortonworks : Expedia, ebay, Samsung, Spotify,...
> Cloudera : Cisco, Mastercard, Siemens, WesterUnion…
> MapR : HP , American express, Beats music, Ericsson...
BNP Parisbas La Poste
Credit
agricole
Hadoop
Distribution et technologies
Hortonworks : Stack technologique HDP
Datalake
Cartographie logique / technologique HDP
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance,Securité…
Pointsd’accèsPointd’Expositions
Falcon
Atlas
HDFS HBase Phoenix
MapReduce
Spark Hive
Pig
Hive
Solr
Ranger
Storm
Zeppelin
Ambari views
WS
Hive
SparkKnox
Spark SQL
Avro
ORC
Hadoop
Kafka
Sqoop
Yarn
Tez
Hadoop
Distribution et technologies
Hortonworks : version des technologies de la stack
Hadoop
Distribution et technologies
Cloudera: Stack technologique CDH
Datalake
Cartographie logique / technologique CDH
Polyglot-persistenceDonnées de référence
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie…
Gouvernance,Securité…
Pointsd’accès
Ingestion, Accès données :
temps réel, batch,
MicroBatch
Pointd’Expositions
Webservices, API
Record service
Cloudera navigator
HDFS HBase Kudu
MapReduce
Spark Hive/Impala
Pig
Hive/Impala
Solr
Sentry
Storm
Zeppelin
Hue
WS
Knox
Spark SQL
Avro
Parquet
Hadoop
Hive/Impala
Spark
Kafka
Sqoop
Yarn
Tez
Hadoop
Hadoop Core – Master / Slave
Master nodes
NameNode
Secondary
NameNode
Ressource
Manager
Worker nodes
DataNode
Node
Manager
TP HADOOP
TP AMBARI
MAP REDUCE
✘ Designe a la fois le Framework et l’algorithme
✘ MapReduce est un framework pour traiter les données en parallèle sur
plusieurs machines  algorithme distribués
✘ Les programmes MapReduce scalent sur des milliers de machines.
Hadoop
MapReduceFILEA
split #1
SPLITSDATA
<k,v> paire
RESULT
split #2
split #3
<k,v> paire
<k,v> paire
map
map
map
reduce
reduce
reduce
MAPPERS SHUFFLING
SORTING
REDUCERS RESULT
PIG & HIVE
TP HIVE

More Related Content

What's hot

What's hot (20)

BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Big data
Big dataBig data
Big data
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Base de données NoSQL
Base de données NoSQLBase de données NoSQL
Base de données NoSQL
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 

Similar to Introduction à la big data V2

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 

Similar to Introduction à la big data V2 (20)

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud Databases
 
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2
 
Architecture des SI et enjeux du Big Data
Architecture des  SI et enjeux du Big DataArchitecture des  SI et enjeux du Big Data
Architecture des SI et enjeux du Big Data
 
Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...Comment securiser votre annuaire Active Directory contre les attaques de malw...
Comment securiser votre annuaire Active Directory contre les attaques de malw...
 
Big data
Big dataBig data
Big data
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique
 
Base de données
Base de donnéesBase de données
Base de données
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Big data
Big dataBig data
Big data
 

Recently uploaded (6)

Algo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésAlgo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigés
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdfpdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
 
mémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoiremémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoire
 
le probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptxle probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptx
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 

Introduction à la big data V2

  • 1. Formation Big Data Initiation, concepts, architectures, administration et développements pour architecte et consultant
  • 2. ✘ Veuillez vous présenter : ✗ Vôtre nom et prénom ✗ Fonction, société ✗ Avez vous une expérience Big Data? Qu’avez vous fait ? ✗ Quelles sont vos attentes de ce cours ? Tour de table TOUR DE TABLE
  • 3. Mehdi TAZI ✘ Architecte BigData ✘ Freelancer, ex OCTO ✘AXA, BNP, EDF, LA POSTE, AL BARID BANK, ✘ ARCHI, DEV, ADMIN, ORGA... ✘ Contact : > twitter : @t_mehdi > web : tazimehdi.com > mail : mehdi@tazimehdi.com
  • 4. ✘ Communication interactive par thème Déroulement ✘ Osez poser vos questions de façon interactive > des termes utilisés, sujets non compris > des problématiques liées à votre travail > des questions d’ordre générale par thème Technologique, Méthodologique, Organisationnelle…
  • 5. Outils nécessaires Cassandra Server : http://cassandra.apache.org/download/ Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter MongoDB server : https://www.mongodb.com/download-center#community Horntonworks HDP : http://hortonworks.com/downloads/ Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html VirtualBox https://www.virtualbox.org/wiki/Downloads
  • 7. Programme ✘ Introduction à la Big Data ✘ Vue d’ensemble ✘ Concepts architecturaux ✘ Couches et technologies ✘ Le NoSQL ✘ Datalake & Datalab ✘ Information generales & Atelier questions/reponses
  • 9. Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... Dan Ariely
  • 10. C’est quoi selon vous le big data ?
  • 11.
  • 12. Introduction à la Big Data ✘ Traitement et stockage massives des gros volumes de données ✘ Explosion quantitative des données numériques C’est quoi la Big Data? (1/2)
  • 13. Introduction à la Big Data ✘ Données provenant de plusieurs sources : ✗ Capteurs : température, pression… ✗ IOT : montres connectées, balances, Smartphones… ✗ Messages sur les réseaux sociaux : tweet, posts… ✗ Transactions et logs : banques, e-commerce… ✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify… ✗ Autres : GPS, email, sms… C’est quoi la Big Data? (2/2)
  • 14. Introduction à la Big Data Qu’est ce qui se passe chaque minute sur Internet? Source : Qmee log Storage RT Processing ex : pic tag, batch concu adds RT Processing
  • 15. Introduction à la Big Data ✘ Les solutions actuelles coûtent cher : archivage et traitement ✘ Répondre à des problématiques métiers avec plus de précision et de rapidité. ✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de données. ✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction et l’exploitation des données sur de grandes profondeurs. ( DDC ) ✘ La création de nouveaux cas d’usages et de valeurs business basées sur la données et la technologie. ( cloud , données …) ✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF) Quel est l’intérêt d’adopter le big data?
  • 16. Introduction à la Big Data ✘ Au début c’était destiné aux gros acteurs du web et les grandes multinationales : ✗ Facebook, Google, Amazon… ✗ Fedex, Walmart, Citi… ✘ Maintenant de plus en plus de monde y est concerné : ✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF… ✗ Des nouveaux : Snapchat, whatsapp, pokemon go … ✗ Vous ? Pour qui ?
  • 17. Introduction à la Big Data ✘ Energie ✗ Amélioration de la production et distribution d’énergie ✗ Information en temps réel sur les débits et la qualité ✗ Détection des problèmes de réseaux ✗ Automatisation du processus de collecte de données ✘ Transport et distribution ✗ Optimisation des trajets et réductions des coûts ✗ Ajustement d’offre et de demande par zone géographique ✘ Produits de Luxe et grandes consommations ✗ Analyse de sentiments et retour produits * ✗ Amélioration de la satisfaction des clients ✗ Identification de nouveaux besoins et désirs * ✗ Recommandations Cas d’usage réel (1/2)
  • 18. Introduction à la Big Data ✘ E-Commerce ✗ Amélioration des stocks et de l’expérience clients. ✗ Gestion plus fine et dynamique des prix de vente ✗ Personnalisation des offres ✗ Pricing dynamique * ✗ Marketing ciblé ✘ Services publics et banques ✗ Archivage et données publiques ✗ Lute contre la fraude et abus * ✗ Amélioration des processus ✗ Sécurité ✘ Autres ✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs ne soit trop élevées ✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. * Cas d’usage réel (2/2)
  • 20. Introduction à la Big Data Big Data, Fast Data, Smart Data et Open Data Big Data Fast Data Smart Data Open Data
  • 22. Questions / Réponses > Comment définir le Big data en une seule phrase ? > Pourquoi adopter le Big data ? > Qu’est ce que la smart data ? > Qu’est ce que le fast data ? > Qu’est ce que l’open data ? > A quelles problématiques répond le big data ? > A quelles problématiques répond le fast data ?
  • 23. J’entend souvent parler des 3V, mais c’est quoi exactement ?
  • 24. Introduction à la Big Data Les 3V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb …
  • 25. Et c’est quoi cette histoire de 5V ?
  • 26. Introduction à la Big Data Propriété d’un Système big data - Les 5V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb … Véracité 31 2 Valeur
  • 28. Questions / Réponses > Citez les 3 principales propriétés d’un systèmes big data > Citez deux autres propriétés > Qu’elles sont les problématiques liées à la volumétries ? > Qu’elles sont les problématiques liée à la vélocité ? > Qu’elles sont les problématiques liée à véracité ?
  • 30. VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE Processing Exchange Storage Data Management Consume
  • 32. Questions / Réponses > Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ? > Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de traitement ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité ? > Où se positionne un système Big Data par rapport au reste du SI ?
  • 34. Concepts architecturaux ✘ Besoin : Traitement et stockage massif des gros volumes de données ✘ Limites : Ajouter plus de puissance aux machines : ✗ Stockage: Disque dur, mémoire … ✗ Traitement: CPU, parallélisme … ✘ Solution : Archiver et traiter l’information de façon distribuée afin de bénéficier de plus de capacité de puissance ✘ Le Big data repose principalement sur les notions des systèmes distribués! Limitations & Besoin
  • 36. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Hardware limitation !Scale-up Scale-up Augmenter la puissance d’un système en ajoutant du matériels plus puissants
  • 37. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU Scale out 24 CPU, 48 GO Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale out X CPU, Y GO 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU
  • 38. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Limit ! 16 GB 8 CPU Scale-up Scale-out Scale-out 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale-up 24 CPU, 48 GO X CPU, Y GO Augmenter la puissance d’un système en ajoutant du matériels plus puissants Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
  • 40. Concepts architecturaux Partitionnement - Sharding Collection A File File1 TB Nœud 1 Nœud 2 Nœud 3 Nœud 4 256 GB 256 GB 256 GB 256 GB ✘ Répartir les données et traitements sur de multiples serveurs sur un cluster ✘ Le partitionnement permet d’absorber la charge (de stockage ou de traitement). Serveur logique Cluster
  • 41. Concepts architecturaux Réplication Collection A BA C Nœud 1 Nœud 2 Nœud 3 CA BA B C Nœud 4 BA C RF = 3 ✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster ✘ Permet de garantir la disponibilité de l’ensemble des données même quand un nœud du cluster disparaît (maintenance, crash, …) ✘ La probabilité de perte d’un nœud croît avec la taille du cluster ✘ Meilleur performance et sécurité.
  • 43. Concepts architecturaux Architecture des disques (1/3) ✘ JBOD vs RAID ✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage) ✗ RAID : Redundant Array of Independent Disks (réplication physique) ✘ Quand utiliser quoi ? ✗ JBOD : Système avec redondance  nœuds worker et de données ✗ RAID : Système sans redondance  Nœuds Master, gestion du système ✘ Avantage : ✗ JBOD : Gagner de l‘espace disque, facile a mettre en place… ✗ RAID : Fiabilité de données, mais coûte plus cher...
  • 44. Concepts architecturaux Architecture des disques (2/3) striping mirroring single parity double parity distribution réplication
  • 47. Concepts architecturaux Architecture des nœuds - Master / Slave – Sans HA Nœud Master Nœud Slave Nœud Slave Application Driver writeread SPOF ✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont simplement un rôle mendiant d’acheminement, d’orchestration des opérations read > peut s’occuper du sharding/replication > A connaissance de la topologies
  • 48. Concepts architecturaux Architecture des nœuds - Multi-Master Master active Slave Slave Master active Slave Slave Master active SlaveSlave Synchronisation
  • 49. Concepts architecturaux Architecture des nœuds - Peer to Peer / En noeuds Nœud 1 Nœud 2 Nœud 3 Nœud 4 ✘ Tout les nœuds sont égaux ✘ Topologie connu par chaque nœud et non par le master 0-24 25-49 75-99 50-74 Masterless architecture Application Driver R/W
  • 51. Concepts architecturaux Election des nœuds (1/4) Nœud Primaire Master Nœud Secondaire Slave Nœud Secondaire Slave Réplication Réplication Heartbeats Election d’un nouveau nœud primaire
  • 52. Concepts architecturaux Election des nœuds (2/4) Nœud Primaire Master Nœud Secondaire Slave Heartbeats Réplication
  • 53. Concepts architecturaux Election des nœuds (3/4) Nœud Primaire Master Nœud Secondaire Slave Arbiter Réplication Heartbeat Election d’un nouveau nœud primaire Utilisé simplement pour le vote
  • 54. Concepts architecturaux Election des nœuds (4/4) Nœud Primaire Master Arbiter Heartbeat
  • 56. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time X X X
  • 57. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time Most P2P
  • 59. Concepts architecturaux Cartographie des technologies par couches REALTIME & BATCH PROCESSING SECURITY,&GOUVERNANCE CNavigator ApacheRanger QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEMENT&ADMINISTRATION Clouderamanager EXTERNAL INPUTS : FS / WS STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES DATA ACQUISITION, INGESTION & INTEGRATION MESSAGING, BROKERS & COORDINATION
  • 60. Concepts architecturaux Cartographie des technologies par couches DATA ACQUISITION, INGESTION & INTEGRATION REALTIME & BATCH PROCESSING SECURITY, & GOUVERNA NCE C Navigator QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEME NT & ADMINISTRA TION Cloudera manager STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINE MESSAGING, BROKERS & COORDINATION Spark Flume Hadoop Sqoop Talend Scala Java Kafka RabbitMQ ActiveMQ IronMQ Zookeeper TalendNifiFlinkStormHadoopSpark HBaseHadoop MongoDB CouchBase RedisNeo4J CassandraTitan Parquet Orc Avro Elastic search Teradata Solr Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala PolymapsHTML/CSSExcelQlik TableauHue Sentry Falcon Atlas Knox Ranger Ambari Ganglia Oozie Nagios AMQ Pentaho
  • 62. Déjà le NoSQL n’est pas :
  • 64. Lab MongoDB - Introduction sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture ✘ Analyse de la solution : > Section Introduction > Technologie de stockage BigData (Database) > Scalable horizontalement > Section DataModel > Schema design Orienté document > Format BSON > Section Réplication : > Architecture Master/Slave > Élection des nœuds avec/sans Arbiter > Section Sharding > Distribution par élément (Document) > Distribution aléatoire et ordonnée (RangeBased/HashBased) > Section MongoDB CRUD Operations > Le write level est paramétrable (write concen) > Architecture + Web CAP Théorème > MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
  • 65. Lab MongoDB - Introduction ✘ Base de données open-source ✘ Base de données orientée documents ✘ Répond aux besoins de volumétries et de performances ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Accepte le paradigme Map/Reduce ✘ Gestion facile des données géo-spatiales
  • 66. Lab MongoDB – Qui l’utilise
  • 67. Lab MongoDB – Connecteurs
  • 68. Lab MongoDB RDBMS MongoDB Database Database Table, View Collection Row Document (JSON, BSON) Column Field Index Index Primary Key Row Key / Partion Key Foreign Key Reference Partition Shard Table de correspondence
  • 70. LAB MongoDB Hands on Query Language CRUD Operations
  • 71. LAB MongoDB Hands on Schema Design Application design
  • 72. LAB MongoDB Hands on Java Driver Application programming
  • 74. Lab MongoDB Absence de la Shard Key Lecture dans MongoDB
  • 76. Lab MongoDB Sharding et replication MongoD
  • 78. Lab Cassandra - Introduction ✘ Base de données open-source ✘ Base de données orientée colonnes ✘ Répond aux besoins de volumétrie et de performance ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Gestion automatique de la réplication des Datacenter ✘ Gestion facile des données timeseries
  • 79. Lab Cassandra – Qui l’utilise?
  • 80. Lab Cassandra – Connecteurs
  • 81. Lab Casssandra RDBMS Cassandra Schema/Database Schema/Keyspace Table Table/Column Family Row Row Column Column(name,value) Index Index Table de correspondance
  • 82. LAB Cassandra Impact de créations des tables sur l’architecture technique Points critiques, performances et limitations
  • 83. LAB Cassandra Hands on CQL Application design/Schema design, Querying and design by query
  • 84. LAB Cassandra What really happened Read/Write Path, Write level, nodes elections, data distribution
  • 86. Datalake Introduction Définition, Natures et types des données, schema on read/write
  • 87. Datalake Définition Réseaux sociaux et streaming Fichiers et logs Bases de Données DATA LAKE Données structurées Données semi-structurées Données non structurées STAGING ARCHIVING TRANSFORMING HISTORISATION Capteurs ANALYTICS PREDICTIONS Pas performante pour du traitement opérationnel
  • 88. Hadoop Introduction à Hadoop Batch processing RealTime processing
  • 89. Hadoop Distribution et technologies 3 grandes distributions sur le marché : > Hortonworks : Expedia, ebay, Samsung, Spotify,... > Cloudera : Cisco, Mastercard, Siemens, WesterUnion… > MapR : HP , American express, Beats music, Ericsson... BNP Parisbas La Poste Credit agricole
  • 91. Datalake Cartographie logique / technologique HDP Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance,Securité… Pointsd’accèsPointd’Expositions Falcon Atlas HDFS HBase Phoenix MapReduce Spark Hive Pig Hive Solr Ranger Storm Zeppelin Ambari views WS Hive SparkKnox Spark SQL Avro ORC Hadoop Kafka Sqoop Yarn Tez
  • 92. Hadoop Distribution et technologies Hortonworks : version des technologies de la stack
  • 94. Datalake Cartographie logique / technologique CDH Polyglot-persistenceDonnées de référence Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie… Gouvernance,Securité… Pointsd’accès Ingestion, Accès données : temps réel, batch, MicroBatch Pointd’Expositions Webservices, API Record service Cloudera navigator HDFS HBase Kudu MapReduce Spark Hive/Impala Pig Hive/Impala Solr Sentry Storm Zeppelin Hue WS Knox Spark SQL Avro Parquet Hadoop Hive/Impala Spark Kafka Sqoop Yarn Tez
  • 95. Hadoop Hadoop Core – Master / Slave Master nodes NameNode Secondary NameNode Ressource Manager Worker nodes DataNode Node Manager
  • 99. ✘ Designe a la fois le Framework et l’algorithme ✘ MapReduce est un framework pour traiter les données en parallèle sur plusieurs machines  algorithme distribués ✘ Les programmes MapReduce scalent sur des milliers de machines. Hadoop MapReduceFILEA split #1 SPLITSDATA <k,v> paire RESULT split #2 split #3 <k,v> paire <k,v> paire map map map reduce reduce reduce MAPPERS SHUFFLING SORTING REDUCERS RESULT

Editor's Notes

  1. Ce sont 3 propriétés fondamentales des systèmes bigdata