Nous assistons aujourd'hui à une explosion du marché des objets connectés (Internet of Things). Gartner annonce potentiellement 25 milliards d’objets connectés en 2020.
Devant le tsunami de données que les IoT vont générer, il devient donc impératif que l’entreprise puisse mettre en place un écosystème Big Data complet pour faire face à cette avalanche.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
30. Inquiétudes existantes à propos du Cloud :
• Où sont stockées mes données?
• Qui les utilisent?
• Sont-elles sécurisées?
• …
Nouveaux sujets de questionnement ;
• Quelles sont les données collectées?
• De quelle manière?
• A quels moments?
• Dans quel but?
+
02.16
Vie privée
valtech_
Avoir un grand volume de données n’est pas suffisant pour faire du BIG DATA.
Elles doivent être aussi hétérogène et doivent changer très vite.
BIG DATA fait référence à des données qui sont sont volumineuses, diverses et complexes et pour leur gestion nouveaux architecture, techniques et algorithmes sont nécessaires.
IOT == BIG DATA?
Le volume: le nombre d’objets connectés explose
La varieté: chaque capteur a ses spécificités, et les données peuvent avoir une structure differente
La velocité: temps réél.
L’IOT génère des flots de données qui ont des dimensions très petites (e.g.; 12 octets par message) qui sont à des intervalles réguliers.
Par default les technos sont faites pour stocker de grand block de données => changement de strategie afin d’ameliorer les perfs
On fait de insert et pas de update
Trop d’info tue l’info
Faire de l’analyse sur les données collectées n’est pas suffisant. Ajouter de l’info pour de meilleurs precision
Ex: flot de données – time series – analyse differente
Correlation entre deux flux (deux capteurs differents – temerature et acces a la piese)
prediction - Annonce d'événements futurs par la connaissance qu'on a de leurs causes : La prédiction meteo
Alert en temps reel
Reporting classique
Prediction du bruit
Nous n'avons pas un cluster in interne => nous sommes allés sur le cloud pour mettre en place une architecture Lamba.
Donner des exemples pour chaque layer dans notre projet
Apache NiFi a été créer par la NSA et ils l’ont mis en open source. => tout le monde peut etre la NSA => notre future seminaire
Créer par Backtype, Twitter
Creer par AMP Lab chez universite de Berkeley
NASA JPL: Le Jet Propulsion Laboratory, basé à Pasadena aux États-Unis, est une coentreprise entre la NASA et Caltech qui est chargée de la construction et de la supervision des vols non habités de la NASA.
Deep Space Network
eBay
Analysts are clustering sellers together
Conviva
Video stream health statistics
Yahoo
News story personalization
Conviva: Conviva provides monitoring and optimization for online video provides. Customers includes ESPN, Yahoo, Microsoft, Comcast amongst many others. Uses Spark to process 150gb / week of compressed summary data. They found Spark to be 30x faster than Hive. Processing time went from 24 hours to 45 minutes for their weekly Geo Report. Biggest speed up came from reducing disk reads, and storing only relevant data in memory. 30% of their reports currently use Spark, as of 2012
Nasa JPL: Receives 10+ TB of data daily from Instrument and Ground Systems for Earth Monitoring. Multiple kinds of jobs ranging from long running to sub second. Created SciSpark library to allow for interactive computation and exploration possible using scientific processing. Provides support for scientific data formats, creates a new type of RDD, called scientific RDD (sRDD).
ParStream is the industry’s leading IoT analytics platform company. The ParStream analytics platform was purpose-built for scale to handle the massive volumes and high velocity of IoT data.
Il a été “acheté” par CISCO.