SlideShare a Scribd company logo
1 of 30
Download to read offline
MorningTech #1 – BigData
le 15 décembre 2016 –Ludovic Piot
Les événements Oxalide
• Objectif : présentation d’une thématique métier ou technique
• Tout public : 80 à 100 personnes
• Déroulé : 1 soir par trimestre de 18h à 21h
• Introduction de la thématique par un partenaire
• Tour de table avec des clients et non clients
• Echange convivial autour d’un apéritif dînatoire
• Objectif : présentation d’une technologie
• Réservé aux clients : public technique avec laptop – 30
personnes
• Déroulé : 1 matinée par trimestre de 9h à 13h
• Présentation de la technologie
• Tuto pour la configuration en ligne de commande
• Objectif : présentation d’une thématique métier ou technique
• Réservé aux clients : 30 personnes
• Déroulé : 1 matin par trimestre de 9h à 12h
• Big picture
• Démonstration et retour d’expérience
Apérotech
Workshop
Morning Tech
Les speakers
Ludovic Piot
Conseil / Archi / DevOps @ Oxalide
@lpiot
Oxalide Recrute !
Contactez-nous	à	job@oxalide.com
Enjeux & tendances
SoLoMo et IoT – l’explosion de la data
SO
cial
LOcal
MO
bile
IoT – l’explosion de la data
!
Organizations are redefining data strategies due to the requirements of the
evolving Enterprise Data Warehouse (EDW).
Enterprise
Data
VoIP
Machine
Data
Social Media
Les 3V : les dimensions du Gartner
• Volume : Le volume de données crées et gérées est en constante
augmentation (+59% / an en 2011)
• Variété : Les types de données collectées sont très variés (texte, son, image,
logs…). Nécessité que les outils de traitement prennent en compte cette
diversité
• Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à
mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont
aucune valeur.
Les 2 nouveaux V émergeant :
• Véracité : dimension apportant une notion de qualité de la donnée pour le
métier
• Visibilité : pour souligner la nécessité que la data soit accessible pour le métier
afin de permettre la prise de décision rapide
Evolution des tendances de la BigData
batch
temps
réel
prédict
rapport alertes prévision
Principes
BigData vs. gestion traditionnelle des données
!
Traditional Systems vs. Hadoop
Traditional
Database
SCALE (storage & processing)
Hadoop
Distribution
NoSQL
MPP
Analytics
EDW
schema
speed
governance
best fit use
processing
Required on write Required on read
Reads are fast Writes are fast
Standards and structured Loosely structured
Limited, no data processing Processing coupled with data
data typesStructured Multi and unstructured
Interactive OLAP Analytics
Complex ACID Transactions
Operational Data Store
Data Discovery
Processing unstructured data
Massive Storage/Processing
Le stockage distribué
!
Data Pipeline
DataNode 1
Data Integrity – Writing Data
6. Success!
3.Data+
checksum
4. Verify
Checksum
4. Data and
checksum
5. Success! 5.Success!
DataNode 4 DataNode 12
Client
2. OK,
please use
DataNodes
1, 4, 12.
1. I want to
write a block
of data.
NameNode
Le théorème de CAP
Le Map/Reduce
!
MapReduce
Map$Phase$ Shuffle/Sort$
Mapper
$
Mapper
$
Mapper
$
Data$is$shuffled$
across$the$network$
and$sorted$
NM + DN
NM + DN
NM + DN
Reduce$Phase$
Reducer
$
Reducer
$
NM + DN
NM + DN
La table des latences
Le pipeline BigData
data answers
ingest /
collect
store process analyse
Time to answer (latency)
Throughput
Cost
La Lambda Architecture
Serving
Layer
Standardize, Cleanse, Integrate, Filter,
Transform
Batch
Layer
Extract & Load
Conform, Summarize, Access
Speed
Layer
•  Organize data
based on
source/derived
relationships
•  Allows for fault
and rebuild
process
•  There are lots of different ways of organizing data in an enterprise data
platform that includes Hadoop.
Ecosystème
Evolution des traitements Big Data
Evolution des traitements Big Data
Dataflow
Dataproc
BigQueryBigTable
CloudSQL
Cloud	
Pub/Sub
Demo Time
Amazon S3
http://bit.ly/2grJMMf
Shard 0
Amazon Kinesis
Amazon Cognito
Amazon EC2
R Shiny-Server
https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
Machine learning
& deep learning
La démarche de datascience
Le Machine Learning
• Jeu de données : labellisé (avec les réponses)
• Objectif d’apprentissage :
• Régression (prévision)
• Classification
Apprentissage
supervisé
Hypothèse et fonction de coût
But du jeu :
Trouver une fonction h qui représente fidèlement les données.
Régression linéaire :
ℎ " = $% + $'"' + $("( + ⋯ + $*"*
Le Machine Learning
• Jeu de données : non-labellisé (sans réponse)
• Objectif d’apprentissage :
• Identifier / détecter des structures dans les données
Apprentissage
non-supervisé
Algorithmes de classification
But du jeu :
Trouver l’algorithme qui
distingue au mieux les
structures dans les données.
Réseaux neuronaux
• Basés sur le fonctionnement
d’un cerveau
• Hypothèse non linéaire !
• Classification multi-classe
• Comme avant, on essaye
de minimiser la fonction de
coût en modifiant peu à
peu les coefficients Θ(i)
Questions ?
?
Sources
• [6, 10] : Hortonworks : Operations Management with HDP
• [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big-
data-architectural-patterns-and-best-practices-on-aws

More Related Content

Similar to Morning Tech#1 BigData - Oxalide Academy

Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Excelerate Systems
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agileagileDSS
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDOXACONSEILRHetFORMA
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Microsoft Technet France
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"OCTO Technology
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
Le reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageLe reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageMichael Nokhamzon
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 

Similar to Morning Tech#1 BigData - Oxalide Academy (20)

Big data
Big dataBig data
Big data
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Procima deck 7 May 2014
Procima deck 7 May 2014Procima deck 7 May 2014
Procima deck 7 May 2014
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décision
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
EDW Microsoft/Netezza
EDW Microsoft/NetezzaEDW Microsoft/Netezza
EDW Microsoft/Netezza
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Big data
Big dataBig data
Big data
 
Le reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageLe reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usage
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 

More from Oxalide

Terraform & Vault - Un duo d'enfer!
Terraform & Vault - Un duo d'enfer!Terraform & Vault - Un duo d'enfer!
Terraform & Vault - Un duo d'enfer!Oxalide
 
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...Oxalide
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesOxalide
 
Docker compose
Docker composeDocker compose
Docker composeOxalide
 
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassinOxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassinOxalide
 
Varnish & blue/green deployments
Varnish & blue/green deploymentsVarnish & blue/green deployments
Varnish & blue/green deploymentsOxalide
 
ISO 27001 est-il soluble dans l'agilité ?
ISO 27001 est-il soluble dans l'agilité ?ISO 27001 est-il soluble dans l'agilité ?
ISO 27001 est-il soluble dans l'agilité ?Oxalide
 
Oxalide Academy : Workshop #3 Elastic Search
Oxalide Academy : Workshop #3 Elastic SearchOxalide Academy : Workshop #3 Elastic Search
Oxalide Academy : Workshop #3 Elastic SearchOxalide
 
Paris hackers Meetup #12 - How to handle large audience
Paris hackers Meetup #12 - How to handle large audienceParis hackers Meetup #12 - How to handle large audience
Paris hackers Meetup #12 - How to handle large audienceOxalide
 
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...Oxalide
 
La performance de vos applications Drupal
La performance de vos applications DrupalLa performance de vos applications Drupal
La performance de vos applications DrupalOxalide
 
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...Oxalide
 
201211 drupagora hostingdrupal
201211 drupagora hostingdrupal201211 drupagora hostingdrupal
201211 drupagora hostingdrupalOxalide
 
Cloud & physique, mauvaises et bonnes solutions
Cloud & physique, mauvaises et bonnes solutionsCloud & physique, mauvaises et bonnes solutions
Cloud & physique, mauvaises et bonnes solutionsOxalide
 
Comprendre pour choisir son hébergement
Comprendre pour choisir son hébergementComprendre pour choisir son hébergement
Comprendre pour choisir son hébergementOxalide
 
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...Oxalide
 
Performance barcampfinal
Performance barcampfinalPerformance barcampfinal
Performance barcampfinalOxalide
 
Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Oxalide
 
Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Oxalide
 
Clusif cloud-2010-datacenter
Clusif cloud-2010-datacenterClusif cloud-2010-datacenter
Clusif cloud-2010-datacenterOxalide
 

More from Oxalide (20)

Terraform & Vault - Un duo d'enfer!
Terraform & Vault - Un duo d'enfer!Terraform & Vault - Un duo d'enfer!
Terraform & Vault - Un duo d'enfer!
 
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...
Meetup Paris Monitoring #9 : Un système de gestion et de visualisation des al...
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slides
 
Docker compose
Docker composeDocker compose
Docker compose
 
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassinOxalide Workshop #4 - Docker, des tours dans le petit bassin
Oxalide Workshop #4 - Docker, des tours dans le petit bassin
 
Varnish & blue/green deployments
Varnish & blue/green deploymentsVarnish & blue/green deployments
Varnish & blue/green deployments
 
ISO 27001 est-il soluble dans l'agilité ?
ISO 27001 est-il soluble dans l'agilité ?ISO 27001 est-il soluble dans l'agilité ?
ISO 27001 est-il soluble dans l'agilité ?
 
Oxalide Academy : Workshop #3 Elastic Search
Oxalide Academy : Workshop #3 Elastic SearchOxalide Academy : Workshop #3 Elastic Search
Oxalide Academy : Workshop #3 Elastic Search
 
Paris hackers Meetup #12 - How to handle large audience
Paris hackers Meetup #12 - How to handle large audienceParis hackers Meetup #12 - How to handle large audience
Paris hackers Meetup #12 - How to handle large audience
 
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...
AgoraCMS 2014 : Les bonnes pratiques de l'hébergement d'un CMS pour une meill...
 
La performance de vos applications Drupal
La performance de vos applications DrupalLa performance de vos applications Drupal
La performance de vos applications Drupal
 
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...
Les bonnes pratiques d'une architecture logicielle et infrastructure de l'héb...
 
201211 drupagora hostingdrupal
201211 drupagora hostingdrupal201211 drupagora hostingdrupal
201211 drupagora hostingdrupal
 
Cloud & physique, mauvaises et bonnes solutions
Cloud & physique, mauvaises et bonnes solutionsCloud & physique, mauvaises et bonnes solutions
Cloud & physique, mauvaises et bonnes solutions
 
Comprendre pour choisir son hébergement
Comprendre pour choisir son hébergementComprendre pour choisir son hébergement
Comprendre pour choisir son hébergement
 
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...
Gérer 100 000 visites par jour avec Magento - Les enjeux e-commerce de Prisma...
 
Performance barcampfinal
Performance barcampfinalPerformance barcampfinal
Performance barcampfinal
 
Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009
 
Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009Clusif panoramadelacybercrimalite2009
Clusif panoramadelacybercrimalite2009
 
Clusif cloud-2010-datacenter
Clusif cloud-2010-datacenterClusif cloud-2010-datacenter
Clusif cloud-2010-datacenter
 

Morning Tech#1 BigData - Oxalide Academy

  • 1. MorningTech #1 – BigData le 15 décembre 2016 –Ludovic Piot
  • 2. Les événements Oxalide • Objectif : présentation d’une thématique métier ou technique • Tout public : 80 à 100 personnes • Déroulé : 1 soir par trimestre de 18h à 21h • Introduction de la thématique par un partenaire • Tour de table avec des clients et non clients • Echange convivial autour d’un apéritif dînatoire • Objectif : présentation d’une technologie • Réservé aux clients : public technique avec laptop – 30 personnes • Déroulé : 1 matinée par trimestre de 9h à 13h • Présentation de la technologie • Tuto pour la configuration en ligne de commande • Objectif : présentation d’une thématique métier ou technique • Réservé aux clients : 30 personnes • Déroulé : 1 matin par trimestre de 9h à 12h • Big picture • Démonstration et retour d’expérience Apérotech Workshop Morning Tech
  • 3. Les speakers Ludovic Piot Conseil / Archi / DevOps @ Oxalide @lpiot
  • 6. SoLoMo et IoT – l’explosion de la data SO cial LOcal MO bile
  • 7. IoT – l’explosion de la data ! Organizations are redefining data strategies due to the requirements of the evolving Enterprise Data Warehouse (EDW). Enterprise Data VoIP Machine Data Social Media
  • 8. Les 3V : les dimensions du Gartner • Volume : Le volume de données crées et gérées est en constante augmentation (+59% / an en 2011) • Variété : Les types de données collectées sont très variés (texte, son, image, logs…). Nécessité que les outils de traitement prennent en compte cette diversité • Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont aucune valeur. Les 2 nouveaux V émergeant : • Véracité : dimension apportant une notion de qualité de la donnée pour le métier • Visibilité : pour souligner la nécessité que la data soit accessible pour le métier afin de permettre la prise de décision rapide
  • 9. Evolution des tendances de la BigData batch temps réel prédict rapport alertes prévision
  • 11. BigData vs. gestion traditionnelle des données ! Traditional Systems vs. Hadoop Traditional Database SCALE (storage & processing) Hadoop Distribution NoSQL MPP Analytics EDW schema speed governance best fit use processing Required on write Required on read Reads are fast Writes are fast Standards and structured Loosely structured Limited, no data processing Processing coupled with data data typesStructured Multi and unstructured Interactive OLAP Analytics Complex ACID Transactions Operational Data Store Data Discovery Processing unstructured data Massive Storage/Processing
  • 12. Le stockage distribué ! Data Pipeline DataNode 1 Data Integrity – Writing Data 6. Success! 3.Data+ checksum 4. Verify Checksum 4. Data and checksum 5. Success! 5.Success! DataNode 4 DataNode 12 Client 2. OK, please use DataNodes 1, 4, 12. 1. I want to write a block of data. NameNode
  • 15. La table des latences
  • 16. Le pipeline BigData data answers ingest / collect store process analyse Time to answer (latency) Throughput Cost
  • 17. La Lambda Architecture Serving Layer Standardize, Cleanse, Integrate, Filter, Transform Batch Layer Extract & Load Conform, Summarize, Access Speed Layer •  Organize data based on source/derived relationships •  Allows for fault and rebuild process •  There are lots of different ways of organizing data in an enterprise data platform that includes Hadoop.
  • 20. Evolution des traitements Big Data Dataflow Dataproc BigQueryBigTable CloudSQL Cloud Pub/Sub
  • 21. Demo Time Amazon S3 http://bit.ly/2grJMMf Shard 0 Amazon Kinesis Amazon Cognito Amazon EC2 R Shiny-Server https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
  • 23. La démarche de datascience
  • 24. Le Machine Learning • Jeu de données : labellisé (avec les réponses) • Objectif d’apprentissage : • Régression (prévision) • Classification Apprentissage supervisé
  • 25. Hypothèse et fonction de coût But du jeu : Trouver une fonction h qui représente fidèlement les données. Régression linéaire : ℎ " = $% + $'"' + $("( + ⋯ + $*"*
  • 26. Le Machine Learning • Jeu de données : non-labellisé (sans réponse) • Objectif d’apprentissage : • Identifier / détecter des structures dans les données Apprentissage non-supervisé
  • 27. Algorithmes de classification But du jeu : Trouver l’algorithme qui distingue au mieux les structures dans les données.
  • 28. Réseaux neuronaux • Basés sur le fonctionnement d’un cerveau • Hypothèse non linéaire ! • Classification multi-classe • Comme avant, on essaye de minimiser la fonction de coût en modifiant peu à peu les coefficients Θ(i)
  • 30. Sources • [6, 10] : Hortonworks : Operations Management with HDP • [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big- data-architectural-patterns-and-best-practices-on-aws