SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
par Philippe METAYER	

philippe.metayer@iut.u-bordeaux-montaigne.fr	

!
Directeur Formation Continue et Alternance { Métiers du web et des médias }	

!
Département MMI - Métiers du Multimédia et de l’Internet - IUT Bordeaux Montaigne	

!
www.iut.u-bordeaux-montaigne.fr & www.mmibordeaux.com 	

Journée de Formation Professionnelle	

!
Le « BIG DATA » : concepts et enjeux	

!
!
IUT MMI - Université Bordeaux Montaigne - Vendredi 28 novembre 2014
Sommaire
1 2
Vous avez dit « Big Data » ?
2
3 4
Conclusions
Extraire la Data
Traiter la Data
1
Vous avez dit « Big Data » ?!
!
!
Qu’est-ce que la data ?
Data structurée, Data non structurée…
Démystification du terme « big data » avec les « 5V ».
3
1 - Vous avez dit « Big Data » ?
Contexte : le déluge des données
Il est souvent évoqué le terme d’infobésité tant nous sommes sollicités en permanence
par des nouvelles informations, souvent les mêmes répétées sur différents sites et
supports que nous consultons.
!
Outre ce phénomène, nous sommes aussi touchés par un autre phénomène équivalent
qui illustre de la même manière cette création permanente et ininterrompue de données :
The data deluge.
Couverture
The Economist
Mars 2010
1 - Vous avez dit « Big Data » ?
Le web est un incroyable réservoir de données
1er janvier 1985 : enregistrement du premier nom de domaine.!
En 2012 : 252 millions noms de domaines enregistrés.!
!
Nombre de serveurs Google en 2014 :plus de 1 million de serveurs.!
Nombre d’utilisateurs Facebook par jour : 699 millions !
!
Nombre de visiteurs uniques sur YouTube par mois : 1 milliard!
!
Nombre de pages web indexées : 36 milliards!
!
Nombre de tweets émis entre 2006 et 2012 : 170 milliards!


Sources : www.datapublica.com!
!
Et ce n’est pas tout…
1 - Vous avez dit « Big Data » ?
Le web est un incroyable réservoir de données
!
Google : plus de 1 millions de serveurs en janvier 2010!
!
Amazon : plus de 450 000 serveurs en mars 2012!
!
Microsoft : plus de 300 000 serveurs en mars 2013!
!
OVH : plus de 140 000 serveurs en mars 2013!
!
!
Ces datacenters stockent et archivent toutes les données que nous créons en permanence
sur le web.!
!
Aussi, chaque jour, les programmes de Google parcourent 20 milliards de sites web.!
!
Sources : www.datapublica.com
5 000 recherches
mensuelles « big data »
20 000 recherches
mensuelles « big data »
x4
big data définition
définition big data
big data wiki
big data pdf
c’est quoi le big data
signification big data
big data pour les nuls
7
1 - Vous avez dit « Big Data » ?
8
1 - Vous avez dit « Big Data » ?
La data, c’est de l’information… variée.
La data structurée, c’est quand on connaît l’ensemble
des valeurs que cette donnée peut prendre.
Âge
20 ans
15 ans
16 ans
46 ans
33 ans
27 ans
37 ans
La simple connaissance de cette donnée permet de
l’utiliser à des fins statistiques
9
1 - Vous avez dit « Big Data » ?
En quoi la data structurée est-elle intéressante ?
1 2
3
Elle est facile d’accès Elle est facile à traiter
Elle est utilisable par tous… et déjà utilisée par bon
nombre d’organisations, voire toutes les organisations !
10
1 - Vous avez dit « Big Data » ?
En quoi la data structurée est-elle intéressante ?
Elle n’est intéressante en rien de plus que ce que l’on fait déjà avec
les bases de données, les fichiers clients, les CRM, les fiches
produits… On l’a déjà énormément exploité.
!
…et on continue à l’exploiter.
!
!
La data structurée n’est peut-être pas si intéressante, parce que
aujourd’hui, on a encore mieux !
11
1 - Vous avez dit « Big Data » ?
Il existe une autre forme de données, la data non structurée :
qu’a-t-elle de si différent ?
12
1 - Vous avez dit « Big Data » ?
+ -
La data non structurée est très
riche en contenu
La data non structurée est trop riche en
contenu, et devient donc très difficile
d’accès et d’analyse. Mais cela devient
possible !
Comment définir le Big Data ?
=> Les 5
13
1 - Vous avez dit « Big Data » ?
Volumétrie
5
7 000 milliards octets / jour
300 millions de photos / jour
14
Le domaine des Big Data s’intéresse à des ensembles de
données numériques, qui de par leur taille, ne peuvent être
traitées avec des méthodes traditionnelles. Les données peuvent
être de l’ordre au minimum du Gigaoctet, du Teraoctet… et
surtout ce volume ne cesse de croitre à grande vitesse.
> 250 milliards de mails / jour
72 heures de vidéo sont envoyées
sur Internet chaque jour
1 - Vous avez dit « Big Data » ?
Votre prise de parole, vos réactions, vos interactions… et celles internautes !
15
1 - Vous avez dit « Big Data » ?
D’après une étude IDC, les données numériques créées dans le monde
seraient passées de 1,2 zettaoctets en 2010 à 2,8 zettaoctets en 2012 pour
atteindre 40 zettaoctets en 2020 ! !
!
1 zettaoctet = 1021 octets = 1 000 milliards de Goctets
5
16
On estime que le volume de données stockées dans le
monde double tous les 4 ans. On a ainsi stocké plus
données depuis 2010 qu’on ne l’avait fait depuis le début
de l’humanité !
Vitesse
1 - Vous avez dit « Big Data » ?
5
17
Il y a une très grande diversité des données : ce peut être
la consommation individuelle d’électricité, le nombre de
« like » sur Facebook ou les 5000 photographies déposées
chaque minute sur le site de partage Flickr.
Variété
1 - Vous avez dit « Big Data » ?
5
18
Les données recueillies sont souvent bruitées et
imprécises et doivent être traitées pour en extraire
l’information utile.
Véracité
41 000 000 de français sont
sur le web
58% des français donnent leur
avis sur le web (blog, forum,
autres)
1 - Vous avez dit « Big Data » ?
5
19
Valeur
90% des données présentes
sur le web sont des données
non structurées
10% des entreprises
exploitent le big data
1 - Vous avez dit « Big Data » ?
Volumétrie
5
Vitesse Variété VéracitéValeur
20
1 - Vous avez dit « Big Data » ?
2
Extraire la Data!
!
!
Deux méthodes d’extraction de la Data
Exemples concrets.
21
Pourquoi extraire la data ?
Structurer et
enrichir les
données existantes
Construire une
nouvelle offre
Mettre en place des
outils de Business
Intelligence
Etendre le champ des possibles qui devient
véritablement immense
22
2 - Extraire la Data
Parce que c’est devenu un véritable enjeu stratégique pour
l’entreprise ou l’organisation.
23
2 - Extraire la Data
Il existe aujourd’hui deux principales techniques de recueil automatique
des données sur le web : le crawling et le scraping. Ces deux
techniques peuvent être utilisées de manière complémentaire.
5
Le crawling est l’action produite par un crawler, et le scraping est l’action
produite par un scraper. Crawlers et scrapers sont des programmes
informatiques.
Le crawling
24
Le crawler est donc un programme informatique dont la fonction est de
se promener de site en site et d’extraire automatiquement toute
l’information présente sur les pages.
!
Le crawler est connu sous d’autres noms : spider, web spider, bot,
harvester.
!
A partir d’une liste de sites web, il parcourt chaque page de chacun des
sites web pour ensuite suivre les liens qui pointent vers d’autres sites
web qui n’étaient pas dans la liste initiale.
2 - Extraire la Data
Eléments clés pour le crawling :
25
Performance : comment crawler des milliers de pages ? en combien de temps ?
!
Politesse : il important de ne pas saturer les sites web visités en limitant les
fréquences des requêtes sur les mêmes serveurs. (voir aussi fichier robot.txt)
!
Délai de réponse : un délai de réponse trop long indiquera peut-être que le site
crawlé ne supporte pas la charge. Il peut aussi y avoir un time out.
!
Obstacles : Liens morts, code 200, code 404… le crawler doit être paramétré pour
ne pas analyser ces pages quand il reçoit ces codes.
!
Cible et profondeur de crawl : le terme « seel » définit la liste initiale des sites à
visiter. Le niveau correspond à la profondeur d’analyse souhaitée (0=liste initiale ; 1 =
liste initiale + liens de niveau 1 ; 2 = liste initiale + liens de niveau 1).
!
Implémentations : comment stocker les données extraites ? Le sont-elles sans ou
avec traitement ? Faut-il stocker uniquement les informations pertinentes ? Toutes ces
questions doivent être bien étudiées avant de lancer le crawl.
2 - Extraire la Data
Exemple concret N°1 de crawling : IMPORT.IO
26
L’outil https://import.io est un outil open source de crawling
!
!
Principe de fonctionnement : https://www.youtube.com/watch?v=cdmsTxu45-c
!
!
Exemple avec le site IKEA :
2 - Extraire la Data
Exemple concret N°2 de crawling : Common Crawl
27
Common Crawl est une fondation américaine dont l’objectif est d’archiver toutes les pages web et
de les mettre à disposition gratuitement à travers une plate-forme.
!
Cet objectif ambitieux nécessite l’utilisation de crawlers très puissants et d’une énorme capacité de
stockage. Actuellement, 15% du web mondial est disponible soit près de 6 milliards de pages web.
!
Même si cela n’est pas exhaustif, cela reste suffisamment important pour attaquer la couche
«  haute  » du web et donc contenir une grande partie des sites facilement accessibles et/ou
couramment utilisés.
2 - Extraire la Data
Exemple concret N°2 de crawling : Common Crawl
28
Exemple de graphe des acteurs de l’Open Data français :
!
http://www.data-publica.com/content/2012/09/le-graphe-des-sites-francais-dopendata/
2 - Extraire la Data
Le scraping
29
Le scraper est donc un programme informatique capable d’extraire de
l’information d’un site web. Toutefois, le site doit être bien étudié avant le
travail d’extraction.
!
En effet, contrairement au crawling, le scraping a pour but d’extraire du
contenu d’un site web dans le but de le transformer, et de l’utiliser dans
un autre contexte.
2 - Extraire la Data
Le « coeur sémantique »
Les mots du métier
Les mots de votre
langage
Les mots des
internautes
30
3 - Traiter la Data
Mais à quoi cela sert-il ?
Le référencement
naturel (SEO)
Le référencement
payant (SEA)
Une stratégie
social médias
(SMO)
+ +
Avoir une vision transverse et
basée sur les données et rien de plus
31
3 - Traiter la Data
Récupérer les données, tout le monde sait faire. Mais…
Comment la rendre exploitable ?
32
3 - Traiter la Data
Exemple concret d’entreprise : SYNOMIA
=> grâce à l’analyse syntaxique.
Déjà compliqué pour un jeune écolier…
… Mais alors, pour un algorithme ?
33
3 - Traiter la Data
L’analyse syntaxique, une tâche complexe.
Nouvel élément à prendre en compte : l’ambiguïté.
Et quand on mêle tout, la difficulté atteint un niveau très
élevé.
34
3 - Traiter la Data
35
3 - Traiter la Data
Autres exemples d’entreprise :
Présence en ligne + écosystème = big data
Big data + technologie = richesse extrême du résultat
Big data - technologie = opportunité pour la concurrence
D’où l’urgence pour le marché de comprendre cette notion
et ses enjeux afin d’oser en exploiter sa richesse.
36
Conclusion côté monde économique
37
ConclusionConclusion côté politique et technique
L’algorithme est la clé d’accès à un savoir cumulatif sur soi et
sur la société, dans un but d’amélioration, mais le prix à payer
est l’accès à la donnée.
Nécessité d’établir une éthique de la data : expliquer le
contexte de collecte et de traitement des données
personnelles.
MERCI !
38

Contenu connexe

Tendances

Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataNicolas Peene
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Romain Fonnier
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherchetmauriac
 

Tendances (20)

Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big data
Big dataBig data
Big data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherche
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 

En vedette

Présentation Salezeo - Wine Business Club mars 2015
Présentation Salezeo - Wine Business Club mars 2015Présentation Salezeo - Wine Business Club mars 2015
Présentation Salezeo - Wine Business Club mars 2015Salezeo
 
Compte-Rendu 1er SalesCamp
Compte-Rendu 1er SalesCampCompte-Rendu 1er SalesCamp
Compte-Rendu 1er SalesCampSalezeo
 
E santé - Entrez dans l'ère du BigData
E santé - Entrez dans l'ère du BigDataE santé - Entrez dans l'ère du BigData
E santé - Entrez dans l'ère du BigDataExcelerate Systems
 
Innovation santé et connected health : les facteurs de succès pour la pharma
Innovation santé et connected health : les facteurs de succès pour la pharmaInnovation santé et connected health : les facteurs de succès pour la pharma
Innovation santé et connected health : les facteurs de succès pour la pharmaEmmanuel Fraysse
 
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...Thibault PAILLIER
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Jean-Pierre Riehl
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Presentació app IONotice AMPA Lola Anglada
Presentació app IONotice AMPA Lola AngladaPresentació app IONotice AMPA Lola Anglada
Presentació app IONotice AMPA Lola AngladaAMPALolaAnglada
 
Slideshared bryan endara
Slideshared bryan endaraSlideshared bryan endara
Slideshared bryan endaraBryan Endara
 
El turismo del ecuador
El turismo del ecuadorEl turismo del ecuador
El turismo del ecuadorcar83
 
Correspondencia
CorrespondenciaCorrespondencia
CorrespondenciaAidarling
 
Prog Pc 2
Prog Pc 2Prog Pc 2
Prog Pc 2IPEIT
 

En vedette (20)

Présentation Salezeo - Wine Business Club mars 2015
Présentation Salezeo - Wine Business Club mars 2015Présentation Salezeo - Wine Business Club mars 2015
Présentation Salezeo - Wine Business Club mars 2015
 
python
pythonpython
python
 
BigData et Hadoop
BigData et HadoopBigData et Hadoop
BigData et Hadoop
 
Compte-Rendu 1er SalesCamp
Compte-Rendu 1er SalesCampCompte-Rendu 1er SalesCamp
Compte-Rendu 1er SalesCamp
 
E santé - Entrez dans l'ère du BigData
E santé - Entrez dans l'ère du BigDataE santé - Entrez dans l'ère du BigData
E santé - Entrez dans l'ère du BigData
 
Innovation santé et connected health : les facteurs de succès pour la pharma
Innovation santé et connected health : les facteurs de succès pour la pharmaInnovation santé et connected health : les facteurs de succès pour la pharma
Innovation santé et connected health : les facteurs de succès pour la pharma
 
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...
Thèse professionnelle - COMMENT LES BIG DATA VONT AMELIORER LE MARKETING DANS...
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Formation Web 2.0
Formation Web 2.0Formation Web 2.0
Formation Web 2.0
 
empresa
empresaempresa
empresa
 
Frank diapositivas
Frank diapositivasFrank diapositivas
Frank diapositivas
 
Presentació app IONotice AMPA Lola Anglada
Presentació app IONotice AMPA Lola AngladaPresentació app IONotice AMPA Lola Anglada
Presentació app IONotice AMPA Lola Anglada
 
Slideshared bryan endara
Slideshared bryan endaraSlideshared bryan endara
Slideshared bryan endara
 
El turismo del ecuador
El turismo del ecuadorEl turismo del ecuador
El turismo del ecuador
 
Femmes & Hommes
Femmes & HommesFemmes & Hommes
Femmes & Hommes
 
Correspondencia
CorrespondenciaCorrespondencia
Correspondencia
 
Prog Pc 2
Prog Pc 2Prog Pc 2
Prog Pc 2
 

Similaire à Formation professionnelle "Big data : concepts et enjeux"

Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
La plateforme OpenData 3.0 pour libérer et valoriser les données
La plateforme OpenData 3.0 pour libérer et valoriser les données  La plateforme OpenData 3.0 pour libérer et valoriser les données
La plateforme OpenData 3.0 pour libérer et valoriser les données Excelerate Systems
 
Web predictif-ertzscheid
Web predictif-ertzscheidWeb predictif-ertzscheid
Web predictif-ertzscheidolivier
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?Cap'Com
 
Internet en bibliotheque (Biblioquest Saison 2 - Episode 2)
Internet  en bibliotheque (Biblioquest Saison 2 - Episode 2)Internet  en bibliotheque (Biblioquest Saison 2 - Episode 2)
Internet en bibliotheque (Biblioquest Saison 2 - Episode 2)Pauline Moirez
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !OCTO Technology
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VFAndre Meillassoux
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreSimon Boucher
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
 
Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Laetitia Lycke
 

Similaire à Formation professionnelle "Big data : concepts et enjeux" (20)

Big data
Big dataBig data
Big data
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
La plateforme OpenData 3.0 pour libérer et valoriser les données
La plateforme OpenData 3.0 pour libérer et valoriser les données  La plateforme OpenData 3.0 pour libérer et valoriser les données
La plateforme OpenData 3.0 pour libérer et valoriser les données
 
Web predictif-ertzscheid
Web predictif-ertzscheidWeb predictif-ertzscheid
Web predictif-ertzscheid
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 
Internet en bibliotheque (Biblioquest Saison 2 - Episode 2)
Internet  en bibliotheque (Biblioquest Saison 2 - Episode 2)Internet  en bibliotheque (Biblioquest Saison 2 - Episode 2)
Internet en bibliotheque (Biblioquest Saison 2 - Episode 2)
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Big data
Big dataBig data
Big data
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Hadoop et le big data
Hadoop et le big dataHadoop et le big data
Hadoop et le big data
 
Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobre
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
 
Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18Enjeux de la donnee 21 novembre18
Enjeux de la donnee 21 novembre18
 

Formation professionnelle "Big data : concepts et enjeux"

  • 1. par Philippe METAYER philippe.metayer@iut.u-bordeaux-montaigne.fr ! Directeur Formation Continue et Alternance { Métiers du web et des médias } ! Département MMI - Métiers du Multimédia et de l’Internet - IUT Bordeaux Montaigne ! www.iut.u-bordeaux-montaigne.fr & www.mmibordeaux.com Journée de Formation Professionnelle ! Le « BIG DATA » : concepts et enjeux ! ! IUT MMI - Université Bordeaux Montaigne - Vendredi 28 novembre 2014
  • 2. Sommaire 1 2 Vous avez dit « Big Data » ? 2 3 4 Conclusions Extraire la Data Traiter la Data
  • 3. 1 Vous avez dit « Big Data » ?! ! ! Qu’est-ce que la data ? Data structurée, Data non structurée… Démystification du terme « big data » avec les « 5V ». 3
  • 4. 1 - Vous avez dit « Big Data » ? Contexte : le déluge des données Il est souvent évoqué le terme d’infobésité tant nous sommes sollicités en permanence par des nouvelles informations, souvent les mêmes répétées sur différents sites et supports que nous consultons. ! Outre ce phénomène, nous sommes aussi touchés par un autre phénomène équivalent qui illustre de la même manière cette création permanente et ininterrompue de données : The data deluge. Couverture The Economist Mars 2010
  • 5. 1 - Vous avez dit « Big Data » ? Le web est un incroyable réservoir de données 1er janvier 1985 : enregistrement du premier nom de domaine.! En 2012 : 252 millions noms de domaines enregistrés.! ! Nombre de serveurs Google en 2014 :plus de 1 million de serveurs.! Nombre d’utilisateurs Facebook par jour : 699 millions ! ! Nombre de visiteurs uniques sur YouTube par mois : 1 milliard! ! Nombre de pages web indexées : 36 milliards! ! Nombre de tweets émis entre 2006 et 2012 : 170 milliards! 
 Sources : www.datapublica.com! ! Et ce n’est pas tout…
  • 6. 1 - Vous avez dit « Big Data » ? Le web est un incroyable réservoir de données ! Google : plus de 1 millions de serveurs en janvier 2010! ! Amazon : plus de 450 000 serveurs en mars 2012! ! Microsoft : plus de 300 000 serveurs en mars 2013! ! OVH : plus de 140 000 serveurs en mars 2013! ! ! Ces datacenters stockent et archivent toutes les données que nous créons en permanence sur le web.! ! Aussi, chaque jour, les programmes de Google parcourent 20 milliards de sites web.! ! Sources : www.datapublica.com
  • 7. 5 000 recherches mensuelles « big data » 20 000 recherches mensuelles « big data » x4 big data définition définition big data big data wiki big data pdf c’est quoi le big data signification big data big data pour les nuls 7 1 - Vous avez dit « Big Data » ?
  • 8. 8 1 - Vous avez dit « Big Data » ? La data, c’est de l’information… variée.
  • 9. La data structurée, c’est quand on connaît l’ensemble des valeurs que cette donnée peut prendre. Âge 20 ans 15 ans 16 ans 46 ans 33 ans 27 ans 37 ans La simple connaissance de cette donnée permet de l’utiliser à des fins statistiques 9 1 - Vous avez dit « Big Data » ?
  • 10. En quoi la data structurée est-elle intéressante ? 1 2 3 Elle est facile d’accès Elle est facile à traiter Elle est utilisable par tous… et déjà utilisée par bon nombre d’organisations, voire toutes les organisations ! 10 1 - Vous avez dit « Big Data » ?
  • 11. En quoi la data structurée est-elle intéressante ? Elle n’est intéressante en rien de plus que ce que l’on fait déjà avec les bases de données, les fichiers clients, les CRM, les fiches produits… On l’a déjà énormément exploité. ! …et on continue à l’exploiter. ! ! La data structurée n’est peut-être pas si intéressante, parce que aujourd’hui, on a encore mieux ! 11 1 - Vous avez dit « Big Data » ?
  • 12. Il existe une autre forme de données, la data non structurée : qu’a-t-elle de si différent ? 12 1 - Vous avez dit « Big Data » ? + - La data non structurée est très riche en contenu La data non structurée est trop riche en contenu, et devient donc très difficile d’accès et d’analyse. Mais cela devient possible !
  • 13. Comment définir le Big Data ? => Les 5 13 1 - Vous avez dit « Big Data » ?
  • 14. Volumétrie 5 7 000 milliards octets / jour 300 millions de photos / jour 14 Le domaine des Big Data s’intéresse à des ensembles de données numériques, qui de par leur taille, ne peuvent être traitées avec des méthodes traditionnelles. Les données peuvent être de l’ordre au minimum du Gigaoctet, du Teraoctet… et surtout ce volume ne cesse de croitre à grande vitesse. > 250 milliards de mails / jour 72 heures de vidéo sont envoyées sur Internet chaque jour 1 - Vous avez dit « Big Data » ?
  • 15. Votre prise de parole, vos réactions, vos interactions… et celles internautes ! 15 1 - Vous avez dit « Big Data » ? D’après une étude IDC, les données numériques créées dans le monde seraient passées de 1,2 zettaoctets en 2010 à 2,8 zettaoctets en 2012 pour atteindre 40 zettaoctets en 2020 ! ! ! 1 zettaoctet = 1021 octets = 1 000 milliards de Goctets
  • 16. 5 16 On estime que le volume de données stockées dans le monde double tous les 4 ans. On a ainsi stocké plus données depuis 2010 qu’on ne l’avait fait depuis le début de l’humanité ! Vitesse 1 - Vous avez dit « Big Data » ?
  • 17. 5 17 Il y a une très grande diversité des données : ce peut être la consommation individuelle d’électricité, le nombre de « like » sur Facebook ou les 5000 photographies déposées chaque minute sur le site de partage Flickr. Variété 1 - Vous avez dit « Big Data » ?
  • 18. 5 18 Les données recueillies sont souvent bruitées et imprécises et doivent être traitées pour en extraire l’information utile. Véracité 41 000 000 de français sont sur le web 58% des français donnent leur avis sur le web (blog, forum, autres) 1 - Vous avez dit « Big Data » ?
  • 19. 5 19 Valeur 90% des données présentes sur le web sont des données non structurées 10% des entreprises exploitent le big data 1 - Vous avez dit « Big Data » ?
  • 20. Volumétrie 5 Vitesse Variété VéracitéValeur 20 1 - Vous avez dit « Big Data » ?
  • 21. 2 Extraire la Data! ! ! Deux méthodes d’extraction de la Data Exemples concrets. 21
  • 22. Pourquoi extraire la data ? Structurer et enrichir les données existantes Construire une nouvelle offre Mettre en place des outils de Business Intelligence Etendre le champ des possibles qui devient véritablement immense 22 2 - Extraire la Data Parce que c’est devenu un véritable enjeu stratégique pour l’entreprise ou l’organisation.
  • 23. 23 2 - Extraire la Data Il existe aujourd’hui deux principales techniques de recueil automatique des données sur le web : le crawling et le scraping. Ces deux techniques peuvent être utilisées de manière complémentaire. 5 Le crawling est l’action produite par un crawler, et le scraping est l’action produite par un scraper. Crawlers et scrapers sont des programmes informatiques.
  • 24. Le crawling 24 Le crawler est donc un programme informatique dont la fonction est de se promener de site en site et d’extraire automatiquement toute l’information présente sur les pages. ! Le crawler est connu sous d’autres noms : spider, web spider, bot, harvester. ! A partir d’une liste de sites web, il parcourt chaque page de chacun des sites web pour ensuite suivre les liens qui pointent vers d’autres sites web qui n’étaient pas dans la liste initiale. 2 - Extraire la Data
  • 25. Eléments clés pour le crawling : 25 Performance : comment crawler des milliers de pages ? en combien de temps ? ! Politesse : il important de ne pas saturer les sites web visités en limitant les fréquences des requêtes sur les mêmes serveurs. (voir aussi fichier robot.txt) ! Délai de réponse : un délai de réponse trop long indiquera peut-être que le site crawlé ne supporte pas la charge. Il peut aussi y avoir un time out. ! Obstacles : Liens morts, code 200, code 404… le crawler doit être paramétré pour ne pas analyser ces pages quand il reçoit ces codes. ! Cible et profondeur de crawl : le terme « seel » définit la liste initiale des sites à visiter. Le niveau correspond à la profondeur d’analyse souhaitée (0=liste initiale ; 1 = liste initiale + liens de niveau 1 ; 2 = liste initiale + liens de niveau 1). ! Implémentations : comment stocker les données extraites ? Le sont-elles sans ou avec traitement ? Faut-il stocker uniquement les informations pertinentes ? Toutes ces questions doivent être bien étudiées avant de lancer le crawl. 2 - Extraire la Data
  • 26. Exemple concret N°1 de crawling : IMPORT.IO 26 L’outil https://import.io est un outil open source de crawling ! ! Principe de fonctionnement : https://www.youtube.com/watch?v=cdmsTxu45-c ! ! Exemple avec le site IKEA : 2 - Extraire la Data
  • 27. Exemple concret N°2 de crawling : Common Crawl 27 Common Crawl est une fondation américaine dont l’objectif est d’archiver toutes les pages web et de les mettre à disposition gratuitement à travers une plate-forme. ! Cet objectif ambitieux nécessite l’utilisation de crawlers très puissants et d’une énorme capacité de stockage. Actuellement, 15% du web mondial est disponible soit près de 6 milliards de pages web. ! Même si cela n’est pas exhaustif, cela reste suffisamment important pour attaquer la couche «  haute  » du web et donc contenir une grande partie des sites facilement accessibles et/ou couramment utilisés. 2 - Extraire la Data
  • 28. Exemple concret N°2 de crawling : Common Crawl 28 Exemple de graphe des acteurs de l’Open Data français : ! http://www.data-publica.com/content/2012/09/le-graphe-des-sites-francais-dopendata/ 2 - Extraire la Data
  • 29. Le scraping 29 Le scraper est donc un programme informatique capable d’extraire de l’information d’un site web. Toutefois, le site doit être bien étudié avant le travail d’extraction. ! En effet, contrairement au crawling, le scraping a pour but d’extraire du contenu d’un site web dans le but de le transformer, et de l’utiliser dans un autre contexte. 2 - Extraire la Data
  • 30. Le « coeur sémantique » Les mots du métier Les mots de votre langage Les mots des internautes 30 3 - Traiter la Data
  • 31. Mais à quoi cela sert-il ? Le référencement naturel (SEO) Le référencement payant (SEA) Une stratégie social médias (SMO) + + Avoir une vision transverse et basée sur les données et rien de plus 31 3 - Traiter la Data
  • 32. Récupérer les données, tout le monde sait faire. Mais… Comment la rendre exploitable ? 32 3 - Traiter la Data Exemple concret d’entreprise : SYNOMIA => grâce à l’analyse syntaxique.
  • 33. Déjà compliqué pour un jeune écolier… … Mais alors, pour un algorithme ? 33 3 - Traiter la Data
  • 34. L’analyse syntaxique, une tâche complexe. Nouvel élément à prendre en compte : l’ambiguïté. Et quand on mêle tout, la difficulté atteint un niveau très élevé. 34 3 - Traiter la Data
  • 35. 35 3 - Traiter la Data Autres exemples d’entreprise :
  • 36. Présence en ligne + écosystème = big data Big data + technologie = richesse extrême du résultat Big data - technologie = opportunité pour la concurrence D’où l’urgence pour le marché de comprendre cette notion et ses enjeux afin d’oser en exploiter sa richesse. 36 Conclusion côté monde économique
  • 37. 37 ConclusionConclusion côté politique et technique L’algorithme est la clé d’accès à un savoir cumulatif sur soi et sur la société, dans un but d’amélioration, mais le prix à payer est l’accès à la donnée. Nécessité d’établir une éthique de la data : expliquer le contexte de collecte et de traitement des données personnelles.