SlideShare a Scribd company logo
1 of 25
Download to read offline
Chp3 – Traitement de Données
Batch vs. Streaming Processing
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia SFAXI
www.liliasfaxi.wix.com/liliasfaxi
Slide 1
Traitement par lot: Batch Processing
•  Moyen efficace de traiter de grands volumes de données
•  Les données sont collectées, stockées, traitées, puis les résultats
fournis
•  Les systèmes de batch processing ont besoin de programmes
différents pour l’entrée, le traitement et la génération des données
•  Le traitement est réalisé sur l’ensemble des données
•  Traitement de Données Complexes (CEP: Complex Event Processing)
§  Concept de traitement des évènements pour identifier les évènements
significatifs
§  Détection de schémas complexes, corrélation, abstraction et hiérarchie
entre évènements
•  Hadoop Map-Reduce est un exemple de système utilisant le
traitement par lot
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 2
Présentation
Traitement par lot: Batch Processing
•  A accès à toutes les données
•  Peut réaliser des traitements lourds et complexes
•  Est en général plus concerné par le débit (nombre d’actions réalisées
en une unité de temps) que par la latence (temps requis pour réaliser
l’action) des différents composants du traitement
•  Sa latence est calculée en minutes (voire plus)
•  Cible les caractéristiques volume et variété des Big Data
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 3
Caractéristiques
Traitement par lot: Batch Processing
•  Il n’est pas possible d’exécuter des travaux récursifs ou itératifs de
manière inhérente
•  Toutes les données doivent être prêtes avant le début du job
§  N’est pas approprié pour des traitements en ligne ou temps réel
•  Latence d’exécution élevée
§  Produit des résultats sur des données relativement anciennes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 4
Inconvénients
Traitement par lot: Batch Processing
•  Les chèques de dépôt dans une banque sont accumulés et traités
chaque jour
•  Les statistiques par mois/jour/année
•  Factures générées pour les cartes de crédit (en général mensuelles)
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 5
Cas d’utilisation
Traitement par Streaming
•  Les traitements se font sur un élément ou un petit nombre de données
récentes
•  Le traitement est relativement simple
•  Doit compléter chaque traitement en un temps proche du temps-réel
•  Les traitements sont généralement indépendants
•  Asynchrone: les sources de données n’interagissent pas directement
avec l’unité de traitement en streaming, en attendant une réponse par
exemple
•  La latence de traitement est estimée en secondes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 6
Caractéristiques
Traitement par Streaming
•  Pas de visibilité sur l’ensemble des données
§  Certains types de traitements ne peuvent pas être réalisés
•  Complexité opérationnelle élevée
§  Plus complexes à maintenir que les traitements batch
§  Le système doit être toujours connecté, toujours prêt, avoir des temps de
réponses courts, et gérer les données à l’arrivée
•  Risque de perte de données
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 7
Inconvénients
Traitement par Streaming
•  Recommandations en temps réel
§  Prise en compte de navigation récente, géolocalisation
§  Publicité en ligne, re-marketing
•  Surveillance de larges infrastructures
•  Agrégation de données financières à l’échelle d’une banque
•  Internet des objets
•  …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 8
Cas d’Utilisation
Traitement en Temps réel
•  Réponse du système en quelques millisecondes
•  Plus approprié pour les APIs synchrones
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 9
Caractéristiques
Lambda Architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 10
Architecture
Lambda Architecture
•  Batch Layer
§  Gérer l’unité de stockage principale: des données brutes, immuables et
complètes
§  Permet de précalculer et conserver les résultats de requêtes appelées batch
Views
•  Serving Layer
§  Permet d’indexer les batch views pour qu’elles soient requêtées au besoin
avec une faible latence
•  Speed Layer
§  Permet d’accommoder toutes les requêtes sujettes à des besoins de faible
latence
§  Utilisation d’algorithmes rapides et incrémentaux
§  Gère les données récentes uniquement
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 11
Couches
Lambda Architecture
•  Stockage maître + Traitements Batch
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 12
Batch Layer
Lambda Architecture
•  Besoins:
§  Stockage scalable
o  Haute distribution
o  Support de la charge et du volume
§  Tolérance aux pannes
o  Système de réplication et distribution des données
§  Robustesse
o  Surtout concernant les évolutions du schéma
§  Permettant tout type de traitement
•  Technologies
§  Hadoop
§  Avro : Système de sérialisation des données
§  Hive
§  …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 13
Batch Layer
Lambda Architecture
•  Mise à jour des vues en continu, de manière incrémentale
•  Latence: ~10ms -> qq secondes
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 14
Speed Layer
Lambda Architecture
•  Besoins:
§  Traitement en continu (stream processing)
§  Architecture asynchrone, distribuée et scalable
§  Tolérance aux pannes
§  Garanties de traitement si possible
o  Rejeu possible des message en cas de perte d’un noeud
•  Technologies
§  Kafka : collecte temps réel
§  Akka : message-driven applications
§  Storm : Stream processing
§  Spark : Micro-batch processing
§  …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 15
Speed Layer
Lambda Architecture
•  Vues précalculées
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 16
Serving Layer : Batch Views
Lambda Architecture
•  Besoins:
§  Écritures massives
§  Lectures indexées, accès aléatoire à faible temps de réponse
§  Scalabilité et tolérance aux pannes
•  Technologies
§  Cassandra
§  Hbase
§  SploutSQL : requêtage SQL à faible latence
§  …
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 17
Serving Layer : Batch Views
Lambda Architecture
•  Vues doivent être requêtées de façon intensive et performante
•  Temps de réponse court, fort débit de requête supporté
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 18
Serving Layer: Realtime Views
Lambda Architecture
•  Besoins
§  Support de fortes sollicitations en lecture et écriture (mise à jour
incrémentale)
§  Scalabilité et tolérance aux pannes
•  Technologies
§  Cassandra
§  Hbase
§  Redis
§  ElasticSearch
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 19
Serving Layer: Realtime Views
Lambda Architecture
•  Logique de fusion développée selon les vues et leur modélisation
•  Peut s’avérer difficile
§  Expiration des vues
§  Recouvrement (intersection) possible entre les données batch et temps-réel
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 20
Serving Layer: Fusion
Lambda Architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 21
Proposition d’Implémentation (MapR)
Lambda Architecture
Avantages
•  Données de base sont immuables et conservées en entier
•  Grande tolérance aux fautes contre les pannes matérielles et les
erreurs humaines
•  Supporte une variété de cas d’utilisation qui incluent un requêtage à
faible latence tout autant que des mises à jour
•  Capacité de « scaling out » linéaire
•  Facilement extensible
Inconvénients
•  Peut s’avérer coûteuse en terme de mise en place et expertise
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 22
Caractéristiques
•  Encore des lettres grecques…
§  Kappa :
http://radar.oreilly.com/2014/07/questioning-the-lambda-
architecture.html
§  Zeta :
http://fr.slideshare.net/MapRTechnologies/next-generation-
enterprise-architecture-41966097
§  ιot-a :
http://iot-a.info/
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 23
Autres Architectures
En Conclusion…
•  Tout est dans l’art d’être polyglotte…
§  Polyglot Programming
o  Utilisation de plusieurs langages et paradigmes de programmation dans une
seule application
§  Polyglot Persistence
o  Utilisation de plusieurs technologies de stockage
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 24
Sources
•  Présentations
§  Lambda Architecture: comment réconcilier Big Data et temps réel, Mathieu
Despriee
•  Articles
§  Lambda-Architecture, MapR Developer Center:
https://www.mapr.com/developercentral/lambda-architecture
Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi 25

More Related Content

What's hot

BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 

What's hot (20)

BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 

Viewers also liked

Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScriptLilia Sfaxi
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design PatternsLilia Sfaxi
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au WebLilia Sfaxi
 
Server-side JS with NodeJS
Server-side JS with NodeJSServer-side JS with NodeJS
Server-side JS with NodeJSLilia Sfaxi
 
Mobile developement
Mobile developementMobile developement
Mobile developementLilia Sfaxi
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQLSamy Dindane
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected homeHéloïse Nonne
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionHelloWork
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 

Viewers also liked (19)

Thinking BIG
Thinking BIGThinking BIG
Thinking BIG
 
Testing Angular
Testing AngularTesting Angular
Testing Angular
 
Angular
AngularAngular
Angular
 
Client-side JavaScript
Client-side JavaScriptClient-side JavaScript
Client-side JavaScript
 
Core JavaScript
Core JavaScriptCore JavaScript
Core JavaScript
 
Javascript Design Patterns
Javascript Design PatternsJavascript Design Patterns
Javascript Design Patterns
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au Web
 
Server-side JS with NodeJS
Server-side JS with NodeJSServer-side JS with NodeJS
Server-side JS with NodeJS
 
Mobile developement
Mobile developementMobile developement
Mobile developement
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQL
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected home
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 

Similar to BigData_Chp3: Data Processing

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudVictor Coustenoble
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéChristophe Laporte
 
Mobile-Chp4 côté serveur
Mobile-Chp4 côté serveurMobile-Chp4 côté serveur
Mobile-Chp4 côté serveurLilia Sfaxi
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeMicrosoft Technet France
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Mathias Kluba
 
Conférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrConférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrOxalide
 
Architectures microservices
Architectures microservicesArchitectures microservices
Architectures microservicesRiadh MNASRI
 
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAmazon Web Services
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfDr Hajji Hicham
 
Introduction à Cloud Foundry Journée du Code 2017
Introduction à Cloud Foundry Journée du Code 2017Introduction à Cloud Foundry Journée du Code 2017
Introduction à Cloud Foundry Journée du Code 2017Gerard Konan
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .netHamza SAID
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Julien Cognet
 
Alphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm
 
Stockage et analyse temps réel d'événements avec Riak chez Booking.com
Stockage et analyse temps réel d'événements avec Riak chez Booking.comStockage et analyse temps réel d'événements avec Riak chez Booking.com
Stockage et analyse temps réel d'événements avec Riak chez Booking.comDamien Krotkine
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosqlInes Slimene
 

Similar to BigData_Chp3: Data Processing (20)

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilité
 
Mobile-Chp4 côté serveur
Mobile-Chp4 côté serveurMobile-Chp4 côté serveur
Mobile-Chp4 côté serveur
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...
 
Conférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrConférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.Fr
 
Architectures microservices
Architectures microservicesArchitectures microservices
Architectures microservices
 
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdf
 
Introduction à Cloud Foundry Journée du Code 2017
Introduction à Cloud Foundry Journée du Code 2017Introduction à Cloud Foundry Journée du Code 2017
Introduction à Cloud Foundry Journée du Code 2017
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
 
Alphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft Hyperconvergence
 
Stockage et analyse temps réel d'événements avec Riak chez Booking.com
Stockage et analyse temps réel d'événements avec Riak chez Booking.comStockage et analyse temps réel d'événements avec Riak chez Booking.com
Stockage et analyse temps réel d'événements avec Riak chez Booking.com
 
Cache
CacheCache
Cache
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
 

More from Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésLilia Sfaxi
 

More from Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancés
 

BigData_Chp3: Data Processing

  • 1. Chp3 – Traitement de Données Batch vs. Streaming Processing Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  • 2. Traitement par lot: Batch Processing •  Moyen efficace de traiter de grands volumes de données •  Les données sont collectées, stockées, traitées, puis les résultats fournis •  Les systèmes de batch processing ont besoin de programmes différents pour l’entrée, le traitement et la génération des données •  Le traitement est réalisé sur l’ensemble des données •  Traitement de Données Complexes (CEP: Complex Event Processing) §  Concept de traitement des évènements pour identifier les évènements significatifs §  Détection de schémas complexes, corrélation, abstraction et hiérarchie entre évènements •  Hadoop Map-Reduce est un exemple de système utilisant le traitement par lot Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 2 Présentation
  • 3. Traitement par lot: Batch Processing •  A accès à toutes les données •  Peut réaliser des traitements lourds et complexes •  Est en général plus concerné par le débit (nombre d’actions réalisées en une unité de temps) que par la latence (temps requis pour réaliser l’action) des différents composants du traitement •  Sa latence est calculée en minutes (voire plus) •  Cible les caractéristiques volume et variété des Big Data Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 3 Caractéristiques
  • 4. Traitement par lot: Batch Processing •  Il n’est pas possible d’exécuter des travaux récursifs ou itératifs de manière inhérente •  Toutes les données doivent être prêtes avant le début du job §  N’est pas approprié pour des traitements en ligne ou temps réel •  Latence d’exécution élevée §  Produit des résultats sur des données relativement anciennes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 4 Inconvénients
  • 5. Traitement par lot: Batch Processing •  Les chèques de dépôt dans une banque sont accumulés et traités chaque jour •  Les statistiques par mois/jour/année •  Factures générées pour les cartes de crédit (en général mensuelles) Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 5 Cas d’utilisation
  • 6. Traitement par Streaming •  Les traitements se font sur un élément ou un petit nombre de données récentes •  Le traitement est relativement simple •  Doit compléter chaque traitement en un temps proche du temps-réel •  Les traitements sont généralement indépendants •  Asynchrone: les sources de données n’interagissent pas directement avec l’unité de traitement en streaming, en attendant une réponse par exemple •  La latence de traitement est estimée en secondes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 6 Caractéristiques
  • 7. Traitement par Streaming •  Pas de visibilité sur l’ensemble des données §  Certains types de traitements ne peuvent pas être réalisés •  Complexité opérationnelle élevée §  Plus complexes à maintenir que les traitements batch §  Le système doit être toujours connecté, toujours prêt, avoir des temps de réponses courts, et gérer les données à l’arrivée •  Risque de perte de données Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 7 Inconvénients
  • 8. Traitement par Streaming •  Recommandations en temps réel §  Prise en compte de navigation récente, géolocalisation §  Publicité en ligne, re-marketing •  Surveillance de larges infrastructures •  Agrégation de données financières à l’échelle d’une banque •  Internet des objets •  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 8 Cas d’Utilisation
  • 9. Traitement en Temps réel •  Réponse du système en quelques millisecondes •  Plus approprié pour les APIs synchrones Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 9 Caractéristiques
  • 10. Lambda Architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 10 Architecture
  • 11. Lambda Architecture •  Batch Layer §  Gérer l’unité de stockage principale: des données brutes, immuables et complètes §  Permet de précalculer et conserver les résultats de requêtes appelées batch Views •  Serving Layer §  Permet d’indexer les batch views pour qu’elles soient requêtées au besoin avec une faible latence •  Speed Layer §  Permet d’accommoder toutes les requêtes sujettes à des besoins de faible latence §  Utilisation d’algorithmes rapides et incrémentaux §  Gère les données récentes uniquement Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 11 Couches
  • 12. Lambda Architecture •  Stockage maître + Traitements Batch Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 12 Batch Layer
  • 13. Lambda Architecture •  Besoins: §  Stockage scalable o  Haute distribution o  Support de la charge et du volume §  Tolérance aux pannes o  Système de réplication et distribution des données §  Robustesse o  Surtout concernant les évolutions du schéma §  Permettant tout type de traitement •  Technologies §  Hadoop §  Avro : Système de sérialisation des données §  Hive §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 13 Batch Layer
  • 14. Lambda Architecture •  Mise à jour des vues en continu, de manière incrémentale •  Latence: ~10ms -> qq secondes Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 14 Speed Layer
  • 15. Lambda Architecture •  Besoins: §  Traitement en continu (stream processing) §  Architecture asynchrone, distribuée et scalable §  Tolérance aux pannes §  Garanties de traitement si possible o  Rejeu possible des message en cas de perte d’un noeud •  Technologies §  Kafka : collecte temps réel §  Akka : message-driven applications §  Storm : Stream processing §  Spark : Micro-batch processing §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 15 Speed Layer
  • 16. Lambda Architecture •  Vues précalculées Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 16 Serving Layer : Batch Views
  • 17. Lambda Architecture •  Besoins: §  Écritures massives §  Lectures indexées, accès aléatoire à faible temps de réponse §  Scalabilité et tolérance aux pannes •  Technologies §  Cassandra §  Hbase §  SploutSQL : requêtage SQL à faible latence §  … Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 17 Serving Layer : Batch Views
  • 18. Lambda Architecture •  Vues doivent être requêtées de façon intensive et performante •  Temps de réponse court, fort débit de requête supporté Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 18 Serving Layer: Realtime Views
  • 19. Lambda Architecture •  Besoins §  Support de fortes sollicitations en lecture et écriture (mise à jour incrémentale) §  Scalabilité et tolérance aux pannes •  Technologies §  Cassandra §  Hbase §  Redis §  ElasticSearch Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 19 Serving Layer: Realtime Views
  • 20. Lambda Architecture •  Logique de fusion développée selon les vues et leur modélisation •  Peut s’avérer difficile §  Expiration des vues §  Recouvrement (intersection) possible entre les données batch et temps-réel Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 20 Serving Layer: Fusion
  • 21. Lambda Architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 21 Proposition d’Implémentation (MapR)
  • 22. Lambda Architecture Avantages •  Données de base sont immuables et conservées en entier •  Grande tolérance aux fautes contre les pannes matérielles et les erreurs humaines •  Supporte une variété de cas d’utilisation qui incluent un requêtage à faible latence tout autant que des mises à jour •  Capacité de « scaling out » linéaire •  Facilement extensible Inconvénients •  Peut s’avérer coûteuse en terme de mise en place et expertise Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 22 Caractéristiques
  • 23. •  Encore des lettres grecques… §  Kappa : http://radar.oreilly.com/2014/07/questioning-the-lambda- architecture.html §  Zeta : http://fr.slideshare.net/MapRTechnologies/next-generation- enterprise-architecture-41966097 §  ιot-a : http://iot-a.info/ Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 23 Autres Architectures
  • 24. En Conclusion… •  Tout est dans l’art d’être polyglotte… §  Polyglot Programming o  Utilisation de plusieurs langages et paradigmes de programmation dans une seule application §  Polyglot Persistence o  Utilisation de plusieurs technologies de stockage Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 24
  • 25. Sources •  Présentations §  Lambda Architecture: comment réconcilier Big Data et temps réel, Mathieu Despriee •  Articles §  Lambda-Architecture, MapR Developer Center: https://www.mapr.com/developercentral/lambda-architecture Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi 25