SlideShare a Scribd company logo
1 of 29
Download to read offline
Lycée Jeanne d’Arc Rennes
Chloé LE GALL
Lisa VIOTTY
Floriane TERRIER
Alexandra HOGER
BTS Communication 2ème année
Dossier
Veille
Année scolaire : 2014-2015
BIG DATA
2
Introduction
Le Big Data est un terme phare de ces dernières années, il traite des données, de leur
utilisation et de leur provenance. Cette révolution de l'information, en particulier pour le
monde du marketing, est devenue la matière première de l'économie de l'information. Les
technologies n'ont jamais eu un tel rôle à jouer et le champ des opportunités n'as jamais été
aussi vaste. Nouvel or noir de la société de l'information, le Big Data est devenu un
environnement de plus en plus complexe. Pour cause, les sources de données se sont
multipliées et la quantité d'information a explosé au fil des années. C'est ce potentiel
inépuisable des données qui explique en partie l'engouement des
acteurs marketing pour cet outil.
Toute l'information, tout le temps, est donc partout. Le Big Data,
c'est la ligne directrice de l'évolution technologique actuelle.
Internet n'oublie rien, et nul ne peut effacer complètement des
données. C'est pourquoi des millions de données s'entassent
chaque année. Face à cet afflux massif, beaucoup de moyens
sont mis en œuvre pour traiter toutes ces informations et on
observe l'apparition d’organismes spécialisés dans le traitement
et le stockage des données.
En effet, ce phénomène grandissant, à la limite entre technologies,
outils économiques et méthodes managériales, touchent de plus
en plus de secteurs chaque jour, et s’élargit à toutes les échelles.
Mais jusqu’où son pouvoir s'étend t-il? Ses limites en termes de
possibilité d'exploitation restent à définir. Encore faut-il savoir si
toutes les entreprises, organisations, qu'elles soiENt
internationales ou locales peuvent utiliser les données pour
promouvoir leur activité. Reste également à dissocier les fausses
informations des vraies informations, c'est le Smart Data.
Enfin, le concept du Big Data a révolutionné le monde d'aujourd'hui et partage les opinions.
Quand certains voient en ce phénomène un réel potentiel, d'autre y voient des risques très
importants. Tous s'accordent cependant a dire que les conséquences sont irrémédiables. Le
retour en arrière étant impossible, certains organismes et entreprises visent à protéger les
utilisateurs et leurs données personnelles.
« Dans la société de
l'information notre
valeur ne viendras plus
de ce que l'on sait,
mais de ce que l'on
partage. »
Ginni Rometty,
dirigeante d'IBM
3
Sommaire
I. Qu'est ce que le big data?................................................. p 4 à 7
A. Définition……………………………………………………………………..………….…………………. p 4 à 5
B. Utilisation……………………………………………………………………….…….………………..…… p 5 à 6
C. Évolution……………………………………………………………………….………….……………...... p 6
D. Enjeux………………………………………………………………………………………….……….…….. p 6 à 7
II. Traitement des données…………………………..…………….…….. p 8 à 11
A. Une matière première : les données………………………………………….…...….……….. p 8 à 9
B. Les acteurs……………………………………………………………………………..……………………. p 9 à 10
C. Les technologies du Big Data………………………………..…………….……………………….. p 10 à 11
D. Le stockage…………………………………………………………………………………….……………. p 11
III. L'exploitation des données…………………………………………… p 12 à 15
a. Au niveau international…………………………………………………………………………........ p 12 à 13
b. Au niveau national……………………………………………………………………………………….. p 13 à 14
c. Au niveau des organisations…………………………………………………………………………. p 14 à 15
IV. Partie juridique………………………………………………….…………. p 16 à 19
a. Déontologie…………………………………………………………………………………….……………. p 16 à 18
b. Droit…………………………..………………………………………………………….………..…………… p 18 à 19
c. Loi……………………………………………………………………………………………………..…………. p 19
Conclusion…………………………………………………………………………. p 20
Glossaire……………………………………………………………………………. p 21 à 22
Annexes…………………………………………………………………………..… p 23 à 29
4
I. Qu’est-ce que le
Big Data ?
A. Définition
« Big Data » a été élu mot numérique de l’année 2012, succédant ainsi à « Cloud
Computing » élu en 2011. Pour l’un comme pour l’autre, il n’existe pas de traduction en
français qui soit adoptée.
Kenneth Cukier, journaliste de The Economist et auteur de « Big Data : la révolution des
données est en marche », considère le Big Data comme une révolution qui va transformer
nos vies et refaçonner le monde. Chaque jour, nous générons 2,5 trillion d’octets de données
informatiques. Toutes ces sources constituent un volume massif de données, appelées Big
Data. Jamais les particuliers n’ont partagé autant de d’information et par conséquent, laissés
autant de traces, c’est une mine d’or potentiellement exploitable pour les marques.
Depuis l’émergence de ce terme, peu de remise en cause de ce phénomène sont apparues,
cette expression est d’ailleurs considérée comme une formule marketing destinée à vendre.
Le Big Data serait donc une révolution majeure d’un point de vu économique, appuyée par
des évolutions techniques, elles-mêmes alimentés par les progrès constants de
l’électronique.
Ensemble de technologies et d’algorithme, le Big Data permet de classer une masse toujours
plus importante de données, afin de cerner de manière de plus en plus précises les
comportements des internautes-consommateurs.
Volume, vivacité, variété, valeur et vitesse, ce sont les 5 dimensions, dites les 5V, que
regroupe le Big Data. On parle de volume pour désigner le nombre important de donnée
dont les entreprises sont envahies, de vivacité pour rendre compte de l’utilisation du Big
Data à mesure du temps, de variété pour montrer la diversité des sources de données et de
leurs nombreuses utilisations, de valeur afin de s’assurer de la qualité des informations
recueillies et de vitesse pour désigner la rapidité du traitements.
5
Le Big Data est un phénomène alimenté par 4 forces génératrices, qui se combinent et qui
ont un impact majeur sur l’économie du 21ème
siècle. Tout d’abord le web 2.0 et les réseaux
sociaux avec la nouvelle vision du monde qu’ils offrent et incarnent. Ensuite le mobile, avec
les quantités de plus en plus importantes de données générées par chaque être humain
possédant un smartphone. Egalement les objets électroniques connectés à internet, que l’on
estime à plus de 10 milliards dans le monde. Enfin, le mouvement Open Data qui amène les
administrations publiques et para-publiques à mettre à disposition l’ensemble de leurs
données (traitées et générées) pour un accès libre de tous les acteurs.
B. L’utilisation du Big Data
C’est à certains grands de l’internet que l’on doit l’apparition de ce phénomène de collecte
de données, comme par exemple Amazon, qui en l’échange de services gratuits, récoltent les
données laissées par les internautes. Leur modèle économique est donc principalement bâti
sur les informations personnelles de millions de personnes. Aujourd’hui de nombreux
secteurs économiques ont recours au Big Data : finance, santé, médias, grande distribution
…. Ce qui importe réellement ce ne sont pas les données en soit, mais la capacité à donner
du sens à ces dernières, afin de mieux connaître les consommateurs ce qui permet
l’optimisation des campagnes marketing.
La data présente un avantage important, elle se collecte à tout moment et sur tout les
supports grâce aux nouvelles technologies : CRM, média sociaux et e-mailing. Aujourd’hui,
elles sont utilisées pour faire des statistiques dans des domaines tels que la publicité ou
encore les ressources humaines. En effet une collecte suffisante de données permet
d’effectuer des prédictions et de mettre en lumière certaines choses qui nous seraient
cachées autrement, notamment en termes de compréhension de l’audience, ce qui permet
de mieux interagir et répondre à ses attentes. D’où l’importance d’adopter le « Big Data »,
qui rend les annonceurs plus compétitifs, dans l’intérêt d’offrir le meilleur service aux
consommateurs, dans une démarche de ciblage plus personnalisée et donc plus intelligente.
Certaines agences médias achètent par exemple des profils type de consommateurs, reflet
d’une disposition de datas plus précises, qui peuvent également se combiner entre
elles : comme les données comportementales et les données médias des annonceurs.
Le Big Data participe à l’amélioration de moteur de recherche. Par exemple, le projet Google
Flu (suivi de la grippe) permet d’identifier une combinaison de 45 termes utilisés par les
internautes dans leur moteur de recherche qui, selon les chercheurs de Google, semble être
de bons indicateurs de la propagation de la grippe saisonnière, en corrélation avec les
statistiques officielles issues des consultations médicales sur le terrain, ce qui atteste de la
fiabilité des prédictions. On peut donc en conclure l’utilité d’un tel outil, s’il était rendu
disponible gratuitement sur Google.
6
Les modalités de représentation des données du Big Data permettent le développement de
nouvelles technologies. Ces possibilités de visualisation de données, appelée DataViz, sont
aux centre de la relation entre utilisateur et usagers du Big Data.
C. Évolution
Alors que pendant 20 ans nous sommes passé à coté de la Data, il est aujourd’hui impossible
de négliger le Big Data. Il est le fruit de la numérisation croissante de notre société, dont la
connectivité toujours plus accrue est notamment due à l’augmentation du taux
d’équipement des français : en 2013, 39% d’entre eux possédait un Smartphone contre 17 %
en 2011, le taux d’équipement en tablette tactile a quant à lui doublé en 1 an, passant de 8%
à 17%. L’adaptation est rapide et l’apparition des réseaux sociaux, qui est un réel
bouleversement pour le web ces dernières années, participe également à la production
toujours plus importante de données produites par notre société. A tel point que 90% des
données dans le monde ont été créées au cours de ces deux dernières années (2013-2014)
seulement. En effet le social média est l’un des plus gros producteurs de données, où
chacune des interactions des internautes est source d’information, on note : Facebook,
Twitter, Linkedin ou Foursquare. Courant 2015, l’exploitation des données en grande
quantité devrait atteindre 16, 9 milliards de dollars.
L’ancien ciblage, dit par critères comportementaux, est aujourd’hui obsolète. Désormais
l’annonceur peut définir ses propres critères de segmentation en rapport avec son activité,
on appelle cela le ciblage attudinal. Ainsi, les goûts, les avis, les souhaits mais également les
critiques des internautes peuvent être retenus et pris en compte.
Le Big Data est une évolution technologique qui implique une révolution managériale au sein
des acteurs économiques. Pour les nouvelles entreprises numériques qui vont voir le jour, la
ressource première sera l’information, mais surtout, la pertinence de cette information.
Malgré toutes ces évolutions, le web n’est qu’à la genèse de ses possibilités et le
mouvement Big Data ne cesse de prendre de l’ampleur.
D. Enjeux
Pour les annonceurs et les prestataires technologiques, le Big Data constituent un enjeu
crucial. En effet l’internaute est aujourd’hui le plus grand producteur et consommateur de
data, d’où l’importance de l’évaluation de données. La collecte d’informations qui peuvent
sembler sans importance aux yeux des utilisateurs, permet aux marques de cibler clients et
prospects par affinité, ce qui donne un réel impact à la communication et constitue une
réelle valeur ajoutée pour l’annonceur.
7
Certaines associations françaises soutiennent le développement du « Big Data » et
contribuent à son émergence, pour le potentiel économique et sociétal de la donnée. Dans
le secteur de la communication, l’AACC (Association des Agences-Conseils en
Communication) soutient les acteurs dominants et participe à la récompense de leur
développement technologique. Ainsi, les diverses associations impliquées permettent de
rendre compte au public de l’avancé et du poids du marché français au niveau international.
Comme la plateforme Big Data d’IBM, qui à recours aux technologies les plus pointues et à
des solutions d’analyses brevetées afin d’ouvrir la porte à de nouvelles possibilité.
Les enjeux de l’ingénierie numérique sont importants. En effet, certains systèmes complexes
demande de nouvelles modélisations, entrainant une modification des périmètres de la
Data, avec la prise en compte de données encore inexistantes à ce jour, comme les données
créées en temps réel sur les déplacements des usagers. L’Institut de Recherche
Technologique dédié à l’ingénierie, travaille actuellement sur des programmes visant la
résolution de ce genre de défis posés par l’ingénierie numérique. De plus, d’autres projets
variés sont menés de front, comme l’extraction de données signifiantes issues de médias et
de langues multiples, ainsi que la révision de la gestion des réseaux électriques.
Le marché du « Big Data » étant en constante évolution, le traitement de la donnée devient
plus intelligent, éduqué par diverses interactions qui tendent à démocratiser le traitement
de la donnée, pour une meilleure compréhension de ce système complexe par tous. Même
si la valeur accordée à son utilisation n’est pas la même pour toutes les activités, l’enjeu
reste néanmoins central pour tous les acteurs.
8
II. Le traitement des
données
A. Une matière première : les données
Chaque jour, des millions de données sont créées. Cette masse d'informations est la
conséquence d'une multiplication des outils et appareils numériques, toujours plus
sophistiqués et de plus en plus connectés sur le web. Le caractère omniprésent des réseaux
sociaux, des blogs ou encore des plateformes renforce leur accessibilité. Selon un sondage
d'AVAS, en 2013, 71% des internautes français sont membres d'au moins un réseau social
grâce à leurs tablettes, ordinateur, smartphones ou plus récemment via la TV connectée. Les
réseaux sociaux tels que Facebook, Twitter sont donc les premiers créateurs de données, ils
ont initié le phénomène. On peut dire que les informations sont désormais accessibles de
partout et par n'importe qui.
Si le nombre de données est de plus en plus volumineux, leur forme est également variée. En
effet, elles peuvent être collectées sous la forme de textes, de schémas, d'images, de chiffres
ou encore de statistiques. Elles peuvent également être publiques et disponibles à la
réutilisation pour les internautes (Open data), localisées ou liées à une personne privée, fixes
ou mobiles. En conclusion, les données viennent de partout et sous toutes les formes.
Le Big Data peut être source de confusion pour les utilisateurs. En effet, ceux-ci se heurtent à
l'immensité du phénomène, qui intègre en son cœur d'innombrables anomalies, fausses
informations et incohérences. Le fait est qu'internet n'oublie rien et que toutes les données
entrées sur le web sont stockées, qu’elles soient pertinentes ou non, véridiques ou non.
Il est indispensable que les données récoltées soient fiables, utiles et d'actualités car la
qualité de l'information est un facteur nécessaire pour effectuer une bonne analyse et
générer de la valeur. Toutes les données ne sont donc pas bonnes à prendre et demandent
beaucoup de temps à exploiter.
Mais depuis peu, on ne parle plus de « Big Data » mais de « Smart Data ». Le
développement du marché, et l'intérêt des entreprises pour l'exploitation des données ont
permis un traitement de plus de plus intelligent de celles-ci. Le Smart Data permet alors de
9
se focaliser uniquement sur les informations pertinentes pour empêcher les erreurs. Le but
est d'exploiter une data filtrée, triée et nettoyée au préalable afin d'éliminer tout risque de
résultats biaisés. Cependant, trouver les bonnes informations sur internet peut se révéler
parfois encore plus compliqué.
En conclusion, les utilisateurs du Big Data se confrontent à deux situations : d'une part, à la
difficulté de piocher les informations dites "filtrées" et d'autre part, au manque d'outils et de
ressources pour exploiter les informations en masse. C'est ces problématiques qui ont, en
majeur partie, entraînées l'apparition de nouveaux acteurs et systèmes technologiques
spécialisés dans la gestion et analyses de données.
NB: Le marché du Big Data est composé des produits et services liés a celui ci tels que les
serveurs, les logiciels de traitement, et le stockage.
B. Les acteurs
Le traitement des données n'est pas chose aisée et une question subsiste : les outils d'hier
suffisent t-ils à transformer et analyser les datas? En effet, toute entreprise peut-elle
exploiter les données du web sans investissements conséquents? La réalité est que les outils
d'hier, qui convenaient pour les analyses des organismes locaux, ne permettent plus de se
confronter à l'immensité des sources d'informations. Afin de répondre à une demande
massive sur le marché, de nouveaux profils d'acteurs interviennent donc depuis quelques
années.
Aux États-Unis et depuis peu en Europe, les entreprises misent sur de nouvelles
qualifications, à la frontière entre science et marketing. Les métiers d'experts en datas tel
que « data scientist » ou « data analyst » sont de plus en plus recherchés et deviennent
les activités les plus porteuses. C'est deux termes ne sont cependant pas a confondre : en
effet, le data analyst utilise des statistiques pour synthétiser et de traduire les informations,
tandis que le data scientist effectue des recherches plus poussées afin d'analyser et
comprendre les données.
Depuis les années 2000, les agences marketing digitales profitent de ce levier de croissance
et développent des pôles «data», tels que Performics ou encore Publicis. Le développement
de ces activités se poursuit de plus en plus aujourd'hui comme nous le montre Loyalty Expert
ajoutant deux nouveaux data analyst à son pôle "Intelligence de la Donnée Client" (crée en
2005) en novembre dernier.
En parallèle, des agences de conseil spécialisées dans le Big data arrivent sur le marché.
Celles ci ont pour vocation d'accompagner les entreprises qui souhaitent investir dans les
applications qui concernent le traitement des données afin de mieux bénéficier des
10
opportunités qu'offre le Big Data. Parmi les plus importantes, Fifty-Five, agence qui se
spécialise dans l'optimisation de la performance des annonceurs d'internet, ou encore Tiny
Clues.
En France, une agence se démarque. Synomia, fondée en 2000, est devenu la première
agence de conseil en data analytics. La raison de son succès? Elle propose à ses clients une
analyse très poussée de toutes les données textuelles du web. En effet, grâce à sa
collaboration avec le CNRS, l'agence a mis au point une avancé technologique unique, une
innovation permettant de traiter les données dites "non structurées", impossible à
catégoriser. Les données structurées, c'est à dire les données dont les valeurs possibles sont
connues a l'avance, sont faciles à traiter, et beaucoup d'entreprise les exploitent. Cependant,
les informations non-structurées nécessitent des moyens technologiques très performants
et innovants dont ne disposent pas ces exploiteurs. Cette technologie que propose Synomia,
appelée "analyseur syntaxique" rend alors plus accessible ces données textuelles et permet
une exploitation plus poussée de la data.
C'est cette catégorisation en temps réel de données non structurées qui est l'un des secteurs
les plus porteurs du « Big Data ».
C. Les technologies du Big Data
En effet, les technologies d'hier ne sont plus adaptées compte tenu de l'ampleur démesurée
du Big Data. C'est pourquoi de nouvelles technologies sont apparues sur le marché afin de
faciliter le traitement, le stockage ainsi que l'exploitation d'un nombre de données toujours
en progression.
Nombre de ces logiciels sont Open Source. Mais qu'est ce que l'Open Source? L’Open Source
est une plateforme regroupant des logiciels libres qui reposent sur le partage et la
collaboration. Les utilisateurs ont alors la liberté de les copier, les étudier ou encore de les
modifier afin d'améliorer leur performance.
Hadoop en est un exemple. Il est l'un des logiciels de traitement les plus utilisés. Il consiste
en effet à collecter, stocker et traiter des données de formats hétérogènes (dont des
données non-structurées). Conçue en 2004, il a pour vocation la mise à disposition de
logiciels et programme permettant le traitement de donnée au volume important (au moins
une dizaine de téraoctet). Grâce à des serveurs standardisés et à bas prix, et à l’utilisation
d’un programme simplifié, il sera possible d’extraire des données de manière simples. Géré
par la fondation Apache, il fonctionne sur un principe de grilles de calcul consistant à répartir
un traitement conséquent de données sur plusieurs serveurs.
HDFS est le nom donné au système de stockage distribué, il permet d'héberger et de
récupérer les données des grilles de calcul. C’est l’élément sur lequel repose tout le
Framework Hadoop.
11
Map Reduce est un outil de programmation, un algorithme développé par Google. Cet outil
de traitement et d'analyse consiste à découper une requête en multiples sous-requêtes (le
Map) et réduire les calculs obtenus en un calcul global (le Reduce). Il est souvent
implémenté à Hadoop.
Machine Learning est un algorithme qui permet de donner aux ordinateurs la capacité
d'apprendre sans être explicitement programmé.
D. Le stockage
Nous avons pu le voir, les données sur le web sont en pleine explosion. C'est grâce à la
popularité du phénomène et a ses opportunités grandissantes que diverses acteurs sont
apparu sur le marché afin de profiter de la tendance. Ainsi, agences de conseil, entreprises
et spécialistes en analyse de data émergent. L'objectif? Trier, nettoyer, et traiter toutes
sortes de données afin de les exploiter par la suite. Mais pour obtenir ce résultat, une étape
non-négligeable ne doit pas être oublié: les données doivent être gérer, stocker et surtout
préservés.
En effet, le nombre grandissant des datas depuis les années 2000 a entraîné
des modifications pour les espaces de stockage. Ceux-ci ont dû faire évoluer leurs capacités
de stockage afin de pouvoir accueillir de plus en plus de données. C'est l'adaptabilité de ces
espaces qui reste à perfectionner compte tenu des rapides évolutions technologique. Le
choix de l'espace de stockage par un organisme doit se faire en fonction de différentes
caractéristiques comme le volume de données ou encore la fréquence d'utilisation par
exemple.
Avancée majeure, le Cloub Computing, "informatique dans les nuages" a révolutionné ce
domaine. Il est porté par des grandes entreprises tels que IBM, Microsoft ou encore Orange
Business Services. Le Cloud Computing désigne l'utilisation des serveurs distants sur internet
pour traiter ou stocker l'information. En d'autre terme, le cloud représente toutes les
ressources informatiques par lesquels on peut accéder à travers internet. Il peut être gratuit
ou payant suivant ses capacités de stockage et ses fonctions. Il permet aux entreprises de ne
pas investir de grandes sommes pour préserver leurs données.
Cependant, d'autres systèmes sont utilisés pour le stockage de données telles que les bases
de données NoSQL appelées également bases de données orientées colonne instauré par
Google. Cassandra en est un exemple. Ces systèmes très performants sont accessibles par un
grand nombre d'utilisateur et offre une possibilité de stockage presque infinie.
Autre base de données, le data wharehouse (entrepôt de données) est dédié aux
informations fonctionnelles d'une entreprise. Il est utilisé pour la prise des décisions dans
une entreprise grâce à des statistiques et des rapports réalisés par des outils de reporting.
Un data wharehouse est organisé et structuré.
12
III.L’exploitation des
données
Aujourd’hui, des quantités astronomiques de données sont récoltées partout dans le monde.
La majeure partie de ces données est inutilisable. Leur exploitation peut être différente
suivant l’environnement dans lequel on se trouve et elle joue un rôle important à différentes
échelles.
A. Au niveau international
Événement sportif majeur de cet été 2014, la Coupe du Monde de Football n'a pas échappé
au Big Data. En effet, la sélection allemande a utilisé un logiciel d'analyse poussé produit par
la société SAP. Ce fut pour l'entraîneur, une aide à la décision. Des puces RFID étaient
intégrées aux protège-tibias et aux chaussures des joueurs. Elles permettaient alors de
récupérer un maximum de données telles que : la vitesse, les accélérations, les fautes, le
types d'action ou encore le nombre de ballons touchés. De plus, pour compléter les données
fournies par les puces, le logiciel était relié à des caméras présentent sur le terrain. Toutes
ces données ont été analysées par des datascientists qui font partie du staff de l’équipe
allemande afin d’optimiser le potentiel du logiciel. Une fois ces informations analysées, elles
ont permis à l’entraîneur d’analyser le jeu de chaque joueur pour une meilleure efficacité.
Mais l’utilisation du Big Data et de ses résultats dans le football n’est pas un fait nouveau, ce
phénomène remonte aux années 1990 en Angleterre. Arsène Wenger, entraîneur d’Arsenal,
est l’un des premier à y avoir eu recourt. L’utilisation des données ont permis à Arsène
Wenger de remplacer Patrick Vieira, lors de son départ, par un joueur quasi inconnu aux
statistiques similaires. Depuis, tous les clubs de Premier League utilisent ces méthodes et les
dirigeants n’hésitent pas à engager dans leur staff des mathématiciens, d’anciens traders ou
encore des statisticiens pour analyser ces données. En France, cette pratique touche
seulement les grands clubs tels que le Paris Saint-Germain, les Olympique Lyonnais et
Marseillais, Saint-Etienne ou encore Lille. Les formations françaises dépensent 50 000 à 300
000 euros par saison pour le matériel nécessaire à la collecte de ces données. Ces études ont
par exemple montré pour le Paris Saint-Germain que seulement 2% des tirs en dehors de la
surface finissent dans le but du camp adversaire, c’est donc pour cela que les joueurs
parisiens tentent peu les frappes de loin.
13
D'autres secteurs utilisent eux aussi le Big Data afin d'améliorer leurs performances. C'est le
cas du domaine de la santé qui s'intéresse de plus en plus aux données afin de prévenir de
maladies telles qu’Ebola. La société HealthMap basée au Boston Children Hospital avait
remarqué neuf jours avant la déclaration officielle de la propagation d'Ebola, l'existence et le
développement de ce virus en Guinée grâce à l'étude des réseaux sociaux, des bulletins
d'informations locaux et d'autres bases de données. Avec toutes ces données réunies, un
algorithme développé par HealthMap a pu détecter la progression du virus en Afrique. Il est
impossible de savoir si une détection du virus plus tôt aurait permis de résorber l'épidémie.
Mais d'après Mme Eisenberg, épidémiologiste à l'Université du Michigan, l'utilisation des
mégadonnées pourrait permettre d'aider à combattre de nombreuses épidémies. Le
Ministre des Communications et de la Technologie nigérian a affirmé avoir eu recourt à
l'exploitation des données afin de combattre Ebola au Nigéria. La technologie et les médias
sociaux sont au centre de la disparition de ce virus. Le Ministre Omobola Johnson à déclaré
que l'application mobile «a permis de réduire de 75% le temps d'alerte quand une personne
tombait malade». Le rassemblement des données pourrait aider les autorités de santé à
allouer avec le plus d'efficience possible les ressources nécessaires à la lutte contre les virus
de type Ebola dans le futur.
D'après le Docteur Laurent Alexandre, chirurgien urologue, fondateur de Doctissimo et
DNAVision, le cancer pourrait être d'ici 2030 une maladie chronique maîtrisée. Elle pourra
être mise sous contrôle comme le SIDA et cela grâce au Big Data. En effet, l'utilisation des
nanotechnologies ainsi que l'augmentation de la puissance informatique permettront à long
terme de faire reculer le cancer. Afin d'analyser la constitution génétique d'une tumeur, 20
000 milliards d'informations sont nécessaires. L'essor de l'information et du Big Data va
permettre de traiter rapidement ces informations et de fournir à chaque patient un
traitement thérapeutique adapté. Mais cet exercice peut être amené à rencontrer des
problèmes. Le cancer est une maladie qui peut muter et il y a constamment des résistances
dans le cancer. Il est très complexe d'analyser ces mutations génétiques c'est pourquoi les
ordinateurs devront être très performants.
B. Au niveau national
En matière de technologie, on place toujours les États-Unis largement devant les pays
Européen. Si la France est autant compétitive, c'est grâce à l'État qui a très bien compris
l'importance du Big Data. Le gouvernement met en place de nombreuses formations pour
former des datascientists. Et la position de la France est en partie due à la qualité de la
formation que reçoivent les ingénieurs en mathématiques et en statistiques. L'esprit du
système éducatif français est en parfaite adéquation avec l'enjeu du Big Data, ce qui est un
atout considérable pour la France. Ces derniers sont très demandés à travers le monde. La
France a donc toutes les compétences pour gagner la bataille du Big Data.
14
Mais pour transformer les risques en opportunités et profiter pleinement des effets du Big
Data, l'État doit mettre en place un cadre réglementaire favorable et fournir une puissante
réserve de datascientists. Le Big Data repose sur une actualisation permanente des données
et un croisement de ces dernières. Ces deux piliers évoluent très rapidement et vont venir,
en France, se heurter au cadre réglementaire strict. Des discussions sont en cours entre
l'État et la CNIL afin d'adapter le cadre réglementaire français aux enjeux du Big Data. Le Big
Data va devenir au fur et à mesure des années un levier de croissance majeur. Certes il
supprimera de nombreux emplois, mais d'autres, plus nombreux, vont apparaître d'ici 2020
aussi bien dans les fonctions liées au Big Data au sein des entreprises mais aussi chez les
fournisseurs de technologies et de services. Ce secteur est en plein essor et affiche un taux
de croissance de 40%.
La publicité n’échappe pas au Big Data. En effet de nombreuses start-up françaises
spécialisées dans le Big Data permettent à leurs clients de mieux adapter leur publicité à
leurs clients grâce à l'analyse des données. Grâce aux mégadonnées on peut analyser les
comportements des consommateurs et leur proposer des publicités qui correspondent à
leurs besoins qui sont plus efficaces. La start-up française Quinten permet à ses clients
d'affiner leur communication grâce à un algorithme qui identifie et caractérise les sous-
groupes achetant un tel ou tel produit. D'après Reda Gomery, associé responsable data et
analytics chez le cabinet Deloitte, le Big Data "est un enjeu majeur pour la pub et le
marketing". Les publicités sont alors adaptées à la cible, ce qui à plus d'impact sur cette
dernière et nous permet, selon lui, de "sortir de l'ère des publicités de masse". Il est aussi
possible d'exploiter les paiements afin de déterminer les comportements d'achats dans
certains lieux. D'après une étude Toluna pour Havas Media, 93% français sont conscients
que leurs données sont captées et analysées mais 84% d'entre eux sont inquiets de l'usage
qui peut en être fait.
Des nombreuses négociations sont en cours au niveau européen pour décider des nouvelles
règles à mettre en œuvre concernant les données personnelles. Cela aboutirait à une
unification des réglementations en Europe. Les acteurs du numérique seraient alors obligés
d'appliquer ce droit lorsqu'ils s'adressent à un consommateur européen. Ces démarches
sont mal perçues par certaines personnes qui craignent que cela accentue le retard du
développement numérique en Europe par rapport aux grands acteurs américains.
C. Au niveau des organisations
Une étude commandée par Teradata montre que la France est largement devant ses
compères européens en termes de de gestion et d'analyse du Big Data. D'après l'étude,
l'avancement de la France est dû au fait que les entreprises françaises ont pris conscience de
l'importance de l'exploitation des données dans le monde actuel. Ainsi, trois entreprises sur
cinq utilisent le traitement analytique des données afin de maximiser leur efficacité et de
15
bénéficier d'un gain de temps considérable. Le Big Data est un secteur à exploiter pour les
entreprises mais il est important de bien le faire pour le valoriser. Il peut jouer un rôle au
niveau de nombreuses étapes : au niveau de la conception il permet de récolter de
nombreuses données sur les clients et les analyser afin de cerner plus précisément la
demande potentielle. Au niveau de la distribution il va permettre d’optimiser le mode de
distribution à la demande potentielle et effective. Enfin, au niveau marketing et publicitaire
il va permettre d’analyser les besoins et les attentes des clients afin d’anticiper leurs
demandes. Toutes les entreprises commencent à s'y intéresser mais seulement 34 % d'entre
elles se sont lancées dans un projet d'envergure pour l'analyse des données. En France,
d'après une étude publiée par le cabinet de conseil EY, les entreprises françaises se
montrent réticentes à son utilisation, car pour deux tiers d'entre elles, c'est un concept
intéressant à développer mais encore trop vague pour que cela puisse constituer un levier
de croissance. Les secteurs qui utilisent le plus le Big Data en France sont les télécoms, les
médias et les technologies.
Certaines entreprises françaises ont fait le choix d’avoir recourt à l’analyse des données pour
améliorer leurs performances, c’est le cas de BlablaCar et des Pompiers de Paris. Le groupe
HP a mis en place un logiciel d’analyse des données, HP Vertica. Ce dernier a récemment été
utilisé par le site de covoiturage BlablaCar pour améliorer sa relation client, la fidélisation
des clients et ses campagnes marketing. Ce logiciel permet à des entreprises comme
BlablaCar d’analyser très rapidement des volumes importants de données qui sont
essentielles à l’élaboration des stratégies marketing. Les pompiers de Paris ont aussi bien
compris l’intérêt du Big Data et ses bénéfices. Ils l’utilisent pour de nombreuses
interventions pour gagner du temps. Pour cela, ils utilisent, en plus de leur données, celles
fournies par EDF, les mairies, GDF ou encore la SNCF. Suite à l'analyse de ces données, ils
savent quelles sont les caractéristiques du lieu d'intervention et ils peuvent être plus efficace
en mieux allouant les ressources (exemple de nombre d'échelles à envoyer en fonction du
bâtiment où a lieu l'intervention). D'après le commandant Raclot, d'ici un à trois ans, ils
auront des informations plus précises sur les caractéristiques du lieu d'intervention telles
que le nombre d'étages, la localisation des accès pompiers. Ceci permettra de gagner du
temps pour sauver des vies. Lors de la réception d'un appel, ils pourront dire la probabilité
pour qu'une urgence vitale arrive dans ce secteur et s’il faut préserver le camion en réserve
et appeler une équipe plus loin. Dans l'Ain, l'analyse des données est utilisée pour prédire les
orages et établir leur évolution. Cette étude va permettre de rendre plus efficace
l'intervention des pompiers pour éviter d'appeler une équipe qui sera contactée par la suite
du fait de l'évolution de l'orage.
16
IV. La protection des
données
Suite au développement des nouvelles technologies, le Big Data représente une véritable
révolution du numérique dans une« société de la connaissance » (Smartphones, Internet,
Cloud, Open Data…). Souvent comparé au « Big Brother » pour l'utilisation que l'on peut en
faire, ce concept désigne une quantité importante de données, de différentes natures, en
circulation générées par celui-ci. Mais une des principales problématiques de ce phénomène
porte sur la protection des données D'autant plus qu'elles ne sont pas toutes de même
nature et ne sont donc pas réglementées sous le même régime juridique. Ce sont les
données à caractère personnel générées par le Big Data qui représentent le plus gros enjeu :
entre innovation pour les entreprises et inquiétude pour les internautes et consommateurs.
Alors que dit la loi sur la protection de ces données et comment est elle mise en œuvre et
appliquée face à l’évolution des technologies ?
En 2013, Edward Snowden a dévoilé le programme de surveillance électronique PRISM de la
NSA (Agence de sécurité nationale des Etats-Unis) alimenté par les plus grands du Web
comme Google, Facebook, Microsoft... De plus, les nouvelles technologies ne permettent
pas une protection et un contrôle total de toutes ces informations. En effet, il est possible de
rencontrer des problèmes tels que des fuites de données (Orange) ou le piratage du cloud
(Sony...) Ces multiples événements nous poussent à se poser la question de la protection de
nos données et du droit à la vie privée.
A. Les différentes natures de données
Lorsqu’une notion émerge, il est nécessaire de définir les concepts et leur périmètre, limiter
les contextes d’usages et repenser les textes de loi lorsqu'ils sont devenus obsolètes.
En France, la collecte, l'analyse et l’usage de ce type de données sont réglementés par la loi
Informatique et Libertés de 1978 qui transpose la directive européenne de Protection des
données du 24 octobre 1995 et qui régit la collecte et le traitement des données à caractère
personnel.
Il est donc indispensable de fixer certaines mesures juridiques afin de protéger la vie privée
des individus et leurs données récoltées afin de trouver un équilibre entre la protection des
17
individus et la libre circulation de ces données. Il est aussi important de distinguer les
différents types de données, car il existe plusieurs régimes de protection selon leur nature :
 Les données publiques :
Ces données sont disponibles à tout moment. Elles sont réglementées par 3 principes :
_ principe de disponibilité : (loi CADA depuis 1978) libertés d'accès aux documents par les
citoyens et obligations de communiquer pour les administrations.
_ principe de réutilisation
_ principe de gratuité
Le développement de ces données s'est fait grâce à la mission Etalab par l’ouverture, la plus
large possible, et la gratuité des données publiques pour plus de transparence et de rendre
l’action publique efficace.. C'est ce qu'on appelle l'Open Data ou « données ouvertes » qui
désigne le fait de mettre à disposition de tous les données récoltées par les administrations
publiques.
 Les données privées :
Pour ces données, il n'y a pas de régime juridique défini. Il est donc nécessaire de vérifier s'il
existe des clauses concernant la réutilisation
 Les données provenant des réseaux sociaux :
Données à forte valeur ajoutée ? D'un point de vue générale, elles sont privées mais cela
peut diverger par rapport aux « paramètres de confidentialité »
 Les données provenant des bases de données :
Ces données sont quant à elles régies par le Code de la Propriété Intellectuelle, 1998, art.
L112.3 qui définit une base de données comme « «recueil d'œuvres, de données ou d'autres
éléments indépendants, disposés de manière systématique ou méthodique, et
individuellement accessibles par des moyens électroniques ou par tout autre moyen ».
Ce code protège l'utilisation, la reproduction ou la représentation de productions
intellectuelles car « l'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa
création, d'un droit de propriété incorporelle exclusif et opposable à tous » (art.L111-1).
La création de données faites par le biais des bases appartient au droit « sui generis », c'est à
dire qu'on ne peut classer ces données dans une catégorie déjà connue. Cela s'explique par
le fait du récent développement des technologies et des réseaux sociaux depuis plusieurs
années.
 Les données personnelles :
Ce sont ces données qui nous intéressent principalement car elles sont celles qui ont le plus
de valeur. D'autant plus que des données parfois non personnelles peuvent le devenir après
avoir été analysées (ou recoupées). Ce phénomène est de plus en plus rencontré à cause du
18
Big Data, qui a pour objectif une meilleure identification, un meilleur ciblage
comportemental des individus grâce à la quantité des informations.
Une grande attention est portée sur la gestion des données à caractère personnel (data
privacy) et leur sécurité et confidentialité (data security).
En France, le Big Data est en parti réglementé par la loi Informatique et Libertés du 6 janvier
1978. Elle est celle qui réglemente l'utilisation de ces données personnelles. Une donnée à
caractère personnel est définie comme « toute information relative à une personne
physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence
à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres » (art.2 de la
loi Informatique et Libertés), c'est à dire des informations nominatives ou non (nom,
prénom, adresse postale, mail, adresse IP, numéro de téléphone, géolocalisation,
comportement...)
Les données personnelles sont protégées par cinq critères :
Finalité de l’utilisation : Selon l’article 6 de la loi Informatique et Libertés, les données
doivent être conservées dans un but bien précis, c'est à dire pour une finalité « déterminée,
explicite et légitime »
Pertinence : elles ne doivent pas être traitées ultérieurement de manière incompatible avec
ces finalités et seules les données nécessaires et pertinentes pour les atteindre doivent être
collectées.
Le droit à l’oubli : permet de conserver les données pendant un certain temps, en fonction
de l’objectif de l’utilisation. La durée de conservation des données ne doit pas excéder la
durée nécessaire aux finalités pour lesquelles elles sont collectées et doivent être détruites
passé ce délai. Le droit à l'oubli est un projet de règlement européen du 25 janvier 2012 qui
a pour but d'harmoniser et unifier le régime de protection des données personnelles au sein
des États-Membres de l'Union Européenne, tout en protégeant davantage les citoyens.
Ex : Google a annoncé dernièrement la mise à disposition d’un formulaire pour les
Européens qui veulent demander la suppression de résultats sur son moteur de recherche.
Sécurité et confidentialité : les personnes responsables des données doivent assurer leur
sécurité et leur confidentialité.
Le respect des droits des personnes : chaque personne ayant transmis ses données, a le droit
d’y avoir accès et être informer sur leur utilisation.
B. Réglementation
Au sein de l'Union Européenne, la directive 95/46/CE du Parlement Européen fixe les limites
et oblige la création, dans chaque État membre, d'un organisme national indépendant
chargés de la protection des données personnelles.
19
En France, l'organisme qui en est chargé et qui a pour but de réglementer ce domaine,
depuis 1978, est la CNIL (Commission nationale de l'informatique et des libertés). Cet
organisme a un droit de regard et de contrôle sur les fichiers de renseignement. Sa
principale mission est de « protéger la vie privée et les libertés dans le monde numérique ».
Concernant le Big Data, toute collecte ou traitement d'informations doivent être déclarés
auprès de cet organisme. Elle exerce ces missions d'information et de régulation auprès des
personnes, du gouvernement et des organisations.
En plus de son pouvoir de contrôle qui assure la conformité des traitements informatiques,
la CNIL possède le pouvoir de publier les sanctions qu’elle prononce du fait de son
indépendance. Ces sanctions sont sous forme d’avertissements, mises en demeure ou de
sanctions administratives et financières. Ses sanctions vont jusqu'à 150 000 € et peuvent
doubler en cas de récidive.
C. Contrôle des données
Il est primordial d'instaurer une relation de confiance et de transparence entre les différents
acteurs. Mais bien souvent les individus ne sont pas ou sont mal informés. Or, il est
nécessaire que les personnes concernées aient connaissance de l'utilisation que l'on peut
faire de leurs données et pour ainsi pouvoir le contrôler.
La directive vue précédemment permet, par conséquent, aux individus de garder un
minimum de contrôle de leurs données grâce à plusieurs principes :
_ leur consentement, c'est à dire « toute manifestation de volonté libre, spécifique et
informée ». Par exemple, les Cookies (ou témoins de connexion) ne peuvent être utilisés
qu'avec le consentement préalable de l’utilisateur.
_ le droit d'accès à ses informations
_ le droit d'opposition au traitement des ses données ou à la revente à des tiers
_ le droit de rectification pour modifier les données erronées qui les concernent
_ la notification ou droit à l'information auprès de l'autorité de contrôle (CNIL).
20
Conclusion
Le nombre de données produites chaque jour par les internautes est en constante évolution,
en parallèle avec le taux d'équipement en objets connectés qui ne cesse de croître. Le Big
Data est donc devenu une formule courante, désignant une évolution majeure dans de
nombreux domaines comme l'économie ou les nouvelles technologies et de l'électronique.
Mais le traitement des données devient alors de plus en plus complexe, car celles-ci peuvent
être fausses, dépassées ou biaisés. Pour analyser les bonnes données, de nouvelles
technologies et de nouveaux acteurs spécialisés dans le traitement de données sont apparus
sur le marché afin de trier et de nettoyer les données. De plus, afin de conserver les données,
les capacités de stockage sont devenues plus flexibles afin de pouvoir recueillir toute cette
masse de données.
Les données peuvent être exploitées dans des domaines totalement différents et à des
échelles différentes. En effet elles peuvent servir à suivre l'évolution d'une maladie ou encore
améliorer l'efficacité et la relation client d'une entreprise. Les entreprises ne sont pas les
seules à utiliser le Big Data et les États jouent un rôle majeur dans leur exploitation. En effet
les législations que ces derniers vont mettre en place vont orienter l'exploitation des données.
Ces données peuvent contenir des informations concernant les individus qui peuvent porter
atteinte à leur vie privée. Il est donc primordial que la loi encadre ces pratiques. En effet les
législations que ces derniers vont mettre en place vont orienter l'exploitation des données.
Celui-ci a pour mission de protéger la vie privée et les libertés des individus grâce à son
pouvoir de contrôle et de sanctions.
Ainsi, pour permettre une utilisation optimale du Big Data dans les années à venir il faut que
la légalisation s'adapte aux évolutions. De plus c'est un milieu en expansion et plein d'avenir
pour les nouvelles technologies et l'emploi.
21
Glossaire
BIG DATA : Le terme utilisé lorsque la quantité importante de données nécessite de
nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation.
Volume, vitesse et variété sont souvent les trois critères qui permettent de qualifier le “Big
Data”.
CADA : autorité administrative indépendante dont le rôle est consultatif, et qui permet
d’accéder aux données publiques. Elle intervient pour tous les documents détenus par un
service de l’Etat, une collectivité territoriale, un établissement public ou un organisme
chargé de la gestion d’un service public, que cet organisme soit public ou privé.
CNIL : autorité publique chargée de veiller à la protection des données personnelles. Elle
dispose d’un pouvoir de contrôle et peut également sanctionner les entreprises,
organisations ou individus collectant des informations personnelles qui ne respectent pas la
loi informatique et liberté.
DATAJOURNALISME : Nouveau type de journalisme basé essentiellement sur l’utilisation des
données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des
informations nouvelles et en présenter éventuellement les résultats sous la forme d’une
visualisation interactive.
DONNEES PUBLIQUES : Données collectées, maintenues et utilisées par les organismes
publics pour accomplir leur mission.
ETALAB : Mission chargée de mettre en œuvre la politique d’ouverture des données de
l’administration française, et de mettre en place un annuaire des données publiques
françaises.
22
HADOOP : Infrastructure logicielle pour application big data qui inclut un système de
stockage et un outil d’exécution parallèle d’applications.
MAP REDUCE : Méthode d’exécution de programme parallèle consistant à envoyer sur
chaque donnée une fonction à exécuter (map) puis à récupérer les résultats pour les intégrer
dans un résultat final (reduce).
NOSQL : Base de Données n’obéissant pas au modèle relationnel, à fonctionnalités réduites,
se prêtant bien au traitement massivement parallèle des données.
OPEN DATA / OUVERTURE DES DONNEES : Principe selon lequel les données publiques
(celles recueillies, maintenues et utilisées par les organismes publics) doivent être
disponibles pour accès et réutilisation par les citoyens et les entreprises.
SMART DATA : Alternative au Big Data qui vise à ne collecter et analyser que les données
utiles et pertinentes.
23
Annexes
o Infographie : Définition du Big Data
24
o Infographie : L’évolution du Big Data
25
o Infographie : Le Big Data à la coupe du monde par l’équipe allemande
26
o Infographie : Protection des données personnelles
27
o Tableau des sources :
28
29

More Related Content

What's hot

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Plan de communication de crise : pierre angulaire du PCA
Plan de communication de crise : pierre angulaire du PCAPlan de communication de crise : pierre angulaire du PCA
Plan de communication de crise : pierre angulaire du PCAGeorges Cowan
 
Introduction à la gestion des connaissances
Introduction à la gestion des connaissancesIntroduction à la gestion des connaissances
Introduction à la gestion des connaissancesPatrice Chalon
 
Créativité et innovation entrepreneuriale
Créativité et innovation entrepreneurialeCréativité et innovation entrepreneuriale
Créativité et innovation entrepreneurialeINOË CONSEIL
 
Les clés de la transformation digitale
Les clés de la transformation digitaleLes clés de la transformation digitale
Les clés de la transformation digitaleFrederic CAVAZZA
 
L’internet des objets connectés en agriculture
L’internet des objets connectés en agricultureL’internet des objets connectés en agriculture
L’internet des objets connectés en agricultureDavide Rizzo
 
Logistique 4.0 (industrie 4.0)
 Logistique 4.0 (industrie 4.0) Logistique 4.0 (industrie 4.0)
Logistique 4.0 (industrie 4.0)nada world
 
Gestion des connaissances (Knowledge Management)
Gestion des connaissances  (Knowledge Management)Gestion des connaissances  (Knowledge Management)
Gestion des connaissances (Knowledge Management)Hanen Bensaad
 
Introduction au Marketing
Introduction au Marketing Introduction au Marketing
Introduction au Marketing BOUJDI ZOUHEIR
 
Masterclass transformation digitale du travail
Masterclass transformation digitale du travailMasterclass transformation digitale du travail
Masterclass transformation digitale du travailSarah Mezidi
 
innovation et projets innovants (3).pptx
innovation et projets innovants (3).pptxinnovation et projets innovants (3).pptx
innovation et projets innovants (3).pptxFatimaElMoukhtari1
 
management : le diagnostic stratégique
 management : le diagnostic stratégique management : le diagnostic stratégique
management : le diagnostic stratégiquemajidkhachni
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 

What's hot (20)

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Plan de communication de crise : pierre angulaire du PCA
Plan de communication de crise : pierre angulaire du PCAPlan de communication de crise : pierre angulaire du PCA
Plan de communication de crise : pierre angulaire du PCA
 
Histoire du big data
Histoire du big dataHistoire du big data
Histoire du big data
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Introduction à la gestion des connaissances
Introduction à la gestion des connaissancesIntroduction à la gestion des connaissances
Introduction à la gestion des connaissances
 
Créativité et innovation entrepreneuriale
Créativité et innovation entrepreneurialeCréativité et innovation entrepreneuriale
Créativité et innovation entrepreneuriale
 
Les clés de la transformation digitale
Les clés de la transformation digitaleLes clés de la transformation digitale
Les clés de la transformation digitale
 
L’internet des objets connectés en agriculture
L’internet des objets connectés en agricultureL’internet des objets connectés en agriculture
L’internet des objets connectés en agriculture
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Logistique 4.0 (industrie 4.0)
 Logistique 4.0 (industrie 4.0) Logistique 4.0 (industrie 4.0)
Logistique 4.0 (industrie 4.0)
 
Gestion des connaissances (Knowledge Management)
Gestion des connaissances  (Knowledge Management)Gestion des connaissances  (Knowledge Management)
Gestion des connaissances (Knowledge Management)
 
Introduction au Marketing
Introduction au Marketing Introduction au Marketing
Introduction au Marketing
 
Masterclass transformation digitale du travail
Masterclass transformation digitale du travailMasterclass transformation digitale du travail
Masterclass transformation digitale du travail
 
innovation et projets innovants (3).pptx
innovation et projets innovants (3).pptxinnovation et projets innovants (3).pptx
innovation et projets innovants (3).pptx
 
management : le diagnostic stratégique
 management : le diagnostic stratégique management : le diagnostic stratégique
management : le diagnostic stratégique
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 

Viewers also liked

27ème dimanche ordinaire année b
27ème dimanche ordinaire année b27ème dimanche ordinaire année b
27ème dimanche ordinaire année bParoisse d'Assesse
 
[Revue de Presse] Les Réseaux Sociaux
[Revue de Presse] Les Réseaux Sociaux[Revue de Presse] Les Réseaux Sociaux
[Revue de Presse] Les Réseaux SociauxWebcombordx
 
W100 Heureux les hommes au coeur de chair
W100 Heureux les hommes au coeur de chairW100 Heureux les hommes au coeur de chair
W100 Heureux les hommes au coeur de chairParoisse d'Assesse
 
PPT de présentation Planètes 2014-15
PPT de présentation Planètes 2014-15PPT de présentation Planètes 2014-15
PPT de présentation Planètes 2014-15Planètes Gem
 
Metrologia
MetrologiaMetrologia
Metrologiakellyucc
 
Statistique admissibilité Capes interne 2007
Statistique admissibilité Capes interne 2007Statistique admissibilité Capes interne 2007
Statistique admissibilité Capes interne 2007Louberee Beck
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnalm.a bensaaoud
 
Manual de procedimientos
Manual de procedimientosManual de procedimientos
Manual de procedimientosmarianlennis08
 
Les jeux vidéo en bibliothèque
Les jeux vidéo en bibliothèqueLes jeux vidéo en bibliothèque
Les jeux vidéo en bibliothèqueNicolas Alarcon
 
Rapport Capes interne 2006
Rapport Capes interne 2006Rapport Capes interne 2006
Rapport Capes interne 2006Louberee Beck
 
IIM-B Wants Retirement Age Raised to 70
IIM-B Wants Retirement Age Raised to 70 IIM-B Wants Retirement Age Raised to 70
IIM-B Wants Retirement Age Raised to 70 Kiran Shaw
 
Libqual au pays des méthodes d'évaluation
Libqual au pays des méthodes d'évaluationLibqual au pays des méthodes d'évaluation
Libqual au pays des méthodes d'évaluationNicolas Alarcon
 
Corpus Capes interne 2007
Corpus Capes interne 2007Corpus Capes interne 2007
Corpus Capes interne 2007Louberee Beck
 
Projet carrières
Projet carrièresProjet carrières
Projet carrièresmaxime98
 
Dossier de presse - Claudia Chan Tak
Dossier de presse - Claudia Chan TakDossier de presse - Claudia Chan Tak
Dossier de presse - Claudia Chan TakClaudia Tak
 
Rattrapage 2000 2001
Rattrapage 2000 2001Rattrapage 2000 2001
Rattrapage 2000 2001m.a bensaaoud
 
identité(s) numérique(s) mobile(s)
identité(s) numérique(s) mobile(s)identité(s) numérique(s) mobile(s)
identité(s) numérique(s) mobile(s)Geoffrey Dorne
 

Viewers also liked (20)

27ème dimanche ordinaire année b
27ème dimanche ordinaire année b27ème dimanche ordinaire année b
27ème dimanche ordinaire année b
 
[Revue de Presse] Les Réseaux Sociaux
[Revue de Presse] Les Réseaux Sociaux[Revue de Presse] Les Réseaux Sociaux
[Revue de Presse] Les Réseaux Sociaux
 
W100 Heureux les hommes au coeur de chair
W100 Heureux les hommes au coeur de chairW100 Heureux les hommes au coeur de chair
W100 Heureux les hommes au coeur de chair
 
Notions ihm
Notions ihmNotions ihm
Notions ihm
 
PPT de présentation Planètes 2014-15
PPT de présentation Planètes 2014-15PPT de présentation Planètes 2014-15
PPT de présentation Planètes 2014-15
 
Metrologia
MetrologiaMetrologia
Metrologia
 
Statistique admissibilité Capes interne 2007
Statistique admissibilité Capes interne 2007Statistique admissibilité Capes interne 2007
Statistique admissibilité Capes interne 2007
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnal
 
Manual de procedimientos
Manual de procedimientosManual de procedimientos
Manual de procedimientos
 
Les jeux vidéo en bibliothèque
Les jeux vidéo en bibliothèqueLes jeux vidéo en bibliothèque
Les jeux vidéo en bibliothèque
 
Rapport Capes interne 2006
Rapport Capes interne 2006Rapport Capes interne 2006
Rapport Capes interne 2006
 
IIM-B Wants Retirement Age Raised to 70
IIM-B Wants Retirement Age Raised to 70 IIM-B Wants Retirement Age Raised to 70
IIM-B Wants Retirement Age Raised to 70
 
Libqual au pays des méthodes d'évaluation
Libqual au pays des méthodes d'évaluationLibqual au pays des méthodes d'évaluation
Libqual au pays des méthodes d'évaluation
 
Corpus Capes interne 2007
Corpus Capes interne 2007Corpus Capes interne 2007
Corpus Capes interne 2007
 
Projet carrières
Projet carrièresProjet carrières
Projet carrières
 
Dossier de presse - Claudia Chan Tak
Dossier de presse - Claudia Chan TakDossier de presse - Claudia Chan Tak
Dossier de presse - Claudia Chan Tak
 
Rattrapage 2000 2001
Rattrapage 2000 2001Rattrapage 2000 2001
Rattrapage 2000 2001
 
identité(s) numérique(s) mobile(s)
identité(s) numérique(s) mobile(s)identité(s) numérique(s) mobile(s)
identité(s) numérique(s) mobile(s)
 
Publicación parte 4
Publicación parte 4Publicación parte 4
Publicación parte 4
 
Femmes et usages de l’eau autour du réservoir d’eau de Boura
Femmes et usages de l’eau autour du réservoir d’eau de BouraFemmes et usages de l’eau autour du réservoir d’eau de Boura
Femmes et usages de l’eau autour du réservoir d’eau de Boura
 

Similar to Le Big Data

Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovationLionel Martins
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationInstitut G9+
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumeriqueFanny Despouys
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Bruno CAMBOUNET
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBruno Patin
 
Perspectives n°17 aout-septembre 2013 - athénéa conseils
Perspectives n°17   aout-septembre 2013 - athénéa conseilsPerspectives n°17   aout-septembre 2013 - athénéa conseils
Perspectives n°17 aout-septembre 2013 - athénéa conseilsYoann DUCUING
 
Restitutions des Projets de Veille 2015
Restitutions des Projets de Veille 2015Restitutions des Projets de Veille 2015
Restitutions des Projets de Veille 2015Web School Factory
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3Georgios Fradelos
 
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...Agence productionstictag.com
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataInetum
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big DataJocelyn Muret
 
Ms marketing management 2013 2014 intelligence économique -comment la franc...
Ms marketing management 2013 2014   intelligence économique -comment la franc...Ms marketing management 2013 2014   intelligence économique -comment la franc...
Ms marketing management 2013 2014 intelligence économique -comment la franc...Anne LETELLIER
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Aproged
 
Makazi livre-blanc-du-data-marketing-fr
Makazi livre-blanc-du-data-marketing-frMakazi livre-blanc-du-data-marketing-fr
Makazi livre-blanc-du-data-marketing-frfranck camby
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621Haifa Akermi
 
La révolution du Big data
La révolution du Big dataLa révolution du Big data
La révolution du Big dataAloïs Kirner
 
LIVRE BLANC : Tendances Innovation 2015-2017
LIVRE BLANC : Tendances Innovation 2015-2017LIVRE BLANC : Tendances Innovation 2015-2017
LIVRE BLANC : Tendances Innovation 2015-2017Inetum
 

Similar to Le Big Data (20)

2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumerique
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Central634_Dossier_completDV_001
Central634_Dossier_completDV_001
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
 
Perspectives n°17 aout-septembre 2013 - athénéa conseils
Perspectives n°17   aout-septembre 2013 - athénéa conseilsPerspectives n°17   aout-septembre 2013 - athénéa conseils
Perspectives n°17 aout-septembre 2013 - athénéa conseils
 
Restitutions des Projets de Veille 2015
Restitutions des Projets de Veille 2015Restitutions des Projets de Veille 2015
Restitutions des Projets de Veille 2015
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
 
MAGCOM n°4
MAGCOM n°4MAGCOM n°4
MAGCOM n°4
 
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...
Itw308 a 1+13_la_collaboration_entre_chefs_de_la_mise_en_marché_et_chefs_du_s...
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big Data
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big Data
 
Ms marketing management 2013 2014 intelligence économique -comment la franc...
Ms marketing management 2013 2014   intelligence économique -comment la franc...Ms marketing management 2013 2014   intelligence économique -comment la franc...
Ms marketing management 2013 2014 intelligence économique -comment la franc...
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?
 
Makazi livre-blanc-du-data-marketing-fr
Makazi livre-blanc-du-data-marketing-frMakazi livre-blanc-du-data-marketing-fr
Makazi livre-blanc-du-data-marketing-fr
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
La révolution du Big data
La révolution du Big dataLa révolution du Big data
La révolution du Big data
 
LIVRE BLANC : Tendances Innovation 2015-2017
LIVRE BLANC : Tendances Innovation 2015-2017LIVRE BLANC : Tendances Innovation 2015-2017
LIVRE BLANC : Tendances Innovation 2015-2017
 

Le Big Data

  • 1. Lycée Jeanne d’Arc Rennes Chloé LE GALL Lisa VIOTTY Floriane TERRIER Alexandra HOGER BTS Communication 2ème année Dossier Veille Année scolaire : 2014-2015 BIG DATA
  • 2. 2 Introduction Le Big Data est un terme phare de ces dernières années, il traite des données, de leur utilisation et de leur provenance. Cette révolution de l'information, en particulier pour le monde du marketing, est devenue la matière première de l'économie de l'information. Les technologies n'ont jamais eu un tel rôle à jouer et le champ des opportunités n'as jamais été aussi vaste. Nouvel or noir de la société de l'information, le Big Data est devenu un environnement de plus en plus complexe. Pour cause, les sources de données se sont multipliées et la quantité d'information a explosé au fil des années. C'est ce potentiel inépuisable des données qui explique en partie l'engouement des acteurs marketing pour cet outil. Toute l'information, tout le temps, est donc partout. Le Big Data, c'est la ligne directrice de l'évolution technologique actuelle. Internet n'oublie rien, et nul ne peut effacer complètement des données. C'est pourquoi des millions de données s'entassent chaque année. Face à cet afflux massif, beaucoup de moyens sont mis en œuvre pour traiter toutes ces informations et on observe l'apparition d’organismes spécialisés dans le traitement et le stockage des données. En effet, ce phénomène grandissant, à la limite entre technologies, outils économiques et méthodes managériales, touchent de plus en plus de secteurs chaque jour, et s’élargit à toutes les échelles. Mais jusqu’où son pouvoir s'étend t-il? Ses limites en termes de possibilité d'exploitation restent à définir. Encore faut-il savoir si toutes les entreprises, organisations, qu'elles soiENt internationales ou locales peuvent utiliser les données pour promouvoir leur activité. Reste également à dissocier les fausses informations des vraies informations, c'est le Smart Data. Enfin, le concept du Big Data a révolutionné le monde d'aujourd'hui et partage les opinions. Quand certains voient en ce phénomène un réel potentiel, d'autre y voient des risques très importants. Tous s'accordent cependant a dire que les conséquences sont irrémédiables. Le retour en arrière étant impossible, certains organismes et entreprises visent à protéger les utilisateurs et leurs données personnelles. « Dans la société de l'information notre valeur ne viendras plus de ce que l'on sait, mais de ce que l'on partage. » Ginni Rometty, dirigeante d'IBM
  • 3. 3 Sommaire I. Qu'est ce que le big data?................................................. p 4 à 7 A. Définition……………………………………………………………………..………….…………………. p 4 à 5 B. Utilisation……………………………………………………………………….…….………………..…… p 5 à 6 C. Évolution……………………………………………………………………….………….……………...... p 6 D. Enjeux………………………………………………………………………………………….……….…….. p 6 à 7 II. Traitement des données…………………………..…………….…….. p 8 à 11 A. Une matière première : les données………………………………………….…...….……….. p 8 à 9 B. Les acteurs……………………………………………………………………………..……………………. p 9 à 10 C. Les technologies du Big Data………………………………..…………….……………………….. p 10 à 11 D. Le stockage…………………………………………………………………………………….……………. p 11 III. L'exploitation des données…………………………………………… p 12 à 15 a. Au niveau international…………………………………………………………………………........ p 12 à 13 b. Au niveau national……………………………………………………………………………………….. p 13 à 14 c. Au niveau des organisations…………………………………………………………………………. p 14 à 15 IV. Partie juridique………………………………………………….…………. p 16 à 19 a. Déontologie…………………………………………………………………………………….……………. p 16 à 18 b. Droit…………………………..………………………………………………………….………..…………… p 18 à 19 c. Loi……………………………………………………………………………………………………..…………. p 19 Conclusion…………………………………………………………………………. p 20 Glossaire……………………………………………………………………………. p 21 à 22 Annexes…………………………………………………………………………..… p 23 à 29
  • 4. 4 I. Qu’est-ce que le Big Data ? A. Définition « Big Data » a été élu mot numérique de l’année 2012, succédant ainsi à « Cloud Computing » élu en 2011. Pour l’un comme pour l’autre, il n’existe pas de traduction en français qui soit adoptée. Kenneth Cukier, journaliste de The Economist et auteur de « Big Data : la révolution des données est en marche », considère le Big Data comme une révolution qui va transformer nos vies et refaçonner le monde. Chaque jour, nous générons 2,5 trillion d’octets de données informatiques. Toutes ces sources constituent un volume massif de données, appelées Big Data. Jamais les particuliers n’ont partagé autant de d’information et par conséquent, laissés autant de traces, c’est une mine d’or potentiellement exploitable pour les marques. Depuis l’émergence de ce terme, peu de remise en cause de ce phénomène sont apparues, cette expression est d’ailleurs considérée comme une formule marketing destinée à vendre. Le Big Data serait donc une révolution majeure d’un point de vu économique, appuyée par des évolutions techniques, elles-mêmes alimentés par les progrès constants de l’électronique. Ensemble de technologies et d’algorithme, le Big Data permet de classer une masse toujours plus importante de données, afin de cerner de manière de plus en plus précises les comportements des internautes-consommateurs. Volume, vivacité, variété, valeur et vitesse, ce sont les 5 dimensions, dites les 5V, que regroupe le Big Data. On parle de volume pour désigner le nombre important de donnée dont les entreprises sont envahies, de vivacité pour rendre compte de l’utilisation du Big Data à mesure du temps, de variété pour montrer la diversité des sources de données et de leurs nombreuses utilisations, de valeur afin de s’assurer de la qualité des informations recueillies et de vitesse pour désigner la rapidité du traitements.
  • 5. 5 Le Big Data est un phénomène alimenté par 4 forces génératrices, qui se combinent et qui ont un impact majeur sur l’économie du 21ème siècle. Tout d’abord le web 2.0 et les réseaux sociaux avec la nouvelle vision du monde qu’ils offrent et incarnent. Ensuite le mobile, avec les quantités de plus en plus importantes de données générées par chaque être humain possédant un smartphone. Egalement les objets électroniques connectés à internet, que l’on estime à plus de 10 milliards dans le monde. Enfin, le mouvement Open Data qui amène les administrations publiques et para-publiques à mettre à disposition l’ensemble de leurs données (traitées et générées) pour un accès libre de tous les acteurs. B. L’utilisation du Big Data C’est à certains grands de l’internet que l’on doit l’apparition de ce phénomène de collecte de données, comme par exemple Amazon, qui en l’échange de services gratuits, récoltent les données laissées par les internautes. Leur modèle économique est donc principalement bâti sur les informations personnelles de millions de personnes. Aujourd’hui de nombreux secteurs économiques ont recours au Big Data : finance, santé, médias, grande distribution …. Ce qui importe réellement ce ne sont pas les données en soit, mais la capacité à donner du sens à ces dernières, afin de mieux connaître les consommateurs ce qui permet l’optimisation des campagnes marketing. La data présente un avantage important, elle se collecte à tout moment et sur tout les supports grâce aux nouvelles technologies : CRM, média sociaux et e-mailing. Aujourd’hui, elles sont utilisées pour faire des statistiques dans des domaines tels que la publicité ou encore les ressources humaines. En effet une collecte suffisante de données permet d’effectuer des prédictions et de mettre en lumière certaines choses qui nous seraient cachées autrement, notamment en termes de compréhension de l’audience, ce qui permet de mieux interagir et répondre à ses attentes. D’où l’importance d’adopter le « Big Data », qui rend les annonceurs plus compétitifs, dans l’intérêt d’offrir le meilleur service aux consommateurs, dans une démarche de ciblage plus personnalisée et donc plus intelligente. Certaines agences médias achètent par exemple des profils type de consommateurs, reflet d’une disposition de datas plus précises, qui peuvent également se combiner entre elles : comme les données comportementales et les données médias des annonceurs. Le Big Data participe à l’amélioration de moteur de recherche. Par exemple, le projet Google Flu (suivi de la grippe) permet d’identifier une combinaison de 45 termes utilisés par les internautes dans leur moteur de recherche qui, selon les chercheurs de Google, semble être de bons indicateurs de la propagation de la grippe saisonnière, en corrélation avec les statistiques officielles issues des consultations médicales sur le terrain, ce qui atteste de la fiabilité des prédictions. On peut donc en conclure l’utilité d’un tel outil, s’il était rendu disponible gratuitement sur Google.
  • 6. 6 Les modalités de représentation des données du Big Data permettent le développement de nouvelles technologies. Ces possibilités de visualisation de données, appelée DataViz, sont aux centre de la relation entre utilisateur et usagers du Big Data. C. Évolution Alors que pendant 20 ans nous sommes passé à coté de la Data, il est aujourd’hui impossible de négliger le Big Data. Il est le fruit de la numérisation croissante de notre société, dont la connectivité toujours plus accrue est notamment due à l’augmentation du taux d’équipement des français : en 2013, 39% d’entre eux possédait un Smartphone contre 17 % en 2011, le taux d’équipement en tablette tactile a quant à lui doublé en 1 an, passant de 8% à 17%. L’adaptation est rapide et l’apparition des réseaux sociaux, qui est un réel bouleversement pour le web ces dernières années, participe également à la production toujours plus importante de données produites par notre société. A tel point que 90% des données dans le monde ont été créées au cours de ces deux dernières années (2013-2014) seulement. En effet le social média est l’un des plus gros producteurs de données, où chacune des interactions des internautes est source d’information, on note : Facebook, Twitter, Linkedin ou Foursquare. Courant 2015, l’exploitation des données en grande quantité devrait atteindre 16, 9 milliards de dollars. L’ancien ciblage, dit par critères comportementaux, est aujourd’hui obsolète. Désormais l’annonceur peut définir ses propres critères de segmentation en rapport avec son activité, on appelle cela le ciblage attudinal. Ainsi, les goûts, les avis, les souhaits mais également les critiques des internautes peuvent être retenus et pris en compte. Le Big Data est une évolution technologique qui implique une révolution managériale au sein des acteurs économiques. Pour les nouvelles entreprises numériques qui vont voir le jour, la ressource première sera l’information, mais surtout, la pertinence de cette information. Malgré toutes ces évolutions, le web n’est qu’à la genèse de ses possibilités et le mouvement Big Data ne cesse de prendre de l’ampleur. D. Enjeux Pour les annonceurs et les prestataires technologiques, le Big Data constituent un enjeu crucial. En effet l’internaute est aujourd’hui le plus grand producteur et consommateur de data, d’où l’importance de l’évaluation de données. La collecte d’informations qui peuvent sembler sans importance aux yeux des utilisateurs, permet aux marques de cibler clients et prospects par affinité, ce qui donne un réel impact à la communication et constitue une réelle valeur ajoutée pour l’annonceur.
  • 7. 7 Certaines associations françaises soutiennent le développement du « Big Data » et contribuent à son émergence, pour le potentiel économique et sociétal de la donnée. Dans le secteur de la communication, l’AACC (Association des Agences-Conseils en Communication) soutient les acteurs dominants et participe à la récompense de leur développement technologique. Ainsi, les diverses associations impliquées permettent de rendre compte au public de l’avancé et du poids du marché français au niveau international. Comme la plateforme Big Data d’IBM, qui à recours aux technologies les plus pointues et à des solutions d’analyses brevetées afin d’ouvrir la porte à de nouvelles possibilité. Les enjeux de l’ingénierie numérique sont importants. En effet, certains systèmes complexes demande de nouvelles modélisations, entrainant une modification des périmètres de la Data, avec la prise en compte de données encore inexistantes à ce jour, comme les données créées en temps réel sur les déplacements des usagers. L’Institut de Recherche Technologique dédié à l’ingénierie, travaille actuellement sur des programmes visant la résolution de ce genre de défis posés par l’ingénierie numérique. De plus, d’autres projets variés sont menés de front, comme l’extraction de données signifiantes issues de médias et de langues multiples, ainsi que la révision de la gestion des réseaux électriques. Le marché du « Big Data » étant en constante évolution, le traitement de la donnée devient plus intelligent, éduqué par diverses interactions qui tendent à démocratiser le traitement de la donnée, pour une meilleure compréhension de ce système complexe par tous. Même si la valeur accordée à son utilisation n’est pas la même pour toutes les activités, l’enjeu reste néanmoins central pour tous les acteurs.
  • 8. 8 II. Le traitement des données A. Une matière première : les données Chaque jour, des millions de données sont créées. Cette masse d'informations est la conséquence d'une multiplication des outils et appareils numériques, toujours plus sophistiqués et de plus en plus connectés sur le web. Le caractère omniprésent des réseaux sociaux, des blogs ou encore des plateformes renforce leur accessibilité. Selon un sondage d'AVAS, en 2013, 71% des internautes français sont membres d'au moins un réseau social grâce à leurs tablettes, ordinateur, smartphones ou plus récemment via la TV connectée. Les réseaux sociaux tels que Facebook, Twitter sont donc les premiers créateurs de données, ils ont initié le phénomène. On peut dire que les informations sont désormais accessibles de partout et par n'importe qui. Si le nombre de données est de plus en plus volumineux, leur forme est également variée. En effet, elles peuvent être collectées sous la forme de textes, de schémas, d'images, de chiffres ou encore de statistiques. Elles peuvent également être publiques et disponibles à la réutilisation pour les internautes (Open data), localisées ou liées à une personne privée, fixes ou mobiles. En conclusion, les données viennent de partout et sous toutes les formes. Le Big Data peut être source de confusion pour les utilisateurs. En effet, ceux-ci se heurtent à l'immensité du phénomène, qui intègre en son cœur d'innombrables anomalies, fausses informations et incohérences. Le fait est qu'internet n'oublie rien et que toutes les données entrées sur le web sont stockées, qu’elles soient pertinentes ou non, véridiques ou non. Il est indispensable que les données récoltées soient fiables, utiles et d'actualités car la qualité de l'information est un facteur nécessaire pour effectuer une bonne analyse et générer de la valeur. Toutes les données ne sont donc pas bonnes à prendre et demandent beaucoup de temps à exploiter. Mais depuis peu, on ne parle plus de « Big Data » mais de « Smart Data ». Le développement du marché, et l'intérêt des entreprises pour l'exploitation des données ont permis un traitement de plus de plus intelligent de celles-ci. Le Smart Data permet alors de
  • 9. 9 se focaliser uniquement sur les informations pertinentes pour empêcher les erreurs. Le but est d'exploiter une data filtrée, triée et nettoyée au préalable afin d'éliminer tout risque de résultats biaisés. Cependant, trouver les bonnes informations sur internet peut se révéler parfois encore plus compliqué. En conclusion, les utilisateurs du Big Data se confrontent à deux situations : d'une part, à la difficulté de piocher les informations dites "filtrées" et d'autre part, au manque d'outils et de ressources pour exploiter les informations en masse. C'est ces problématiques qui ont, en majeur partie, entraînées l'apparition de nouveaux acteurs et systèmes technologiques spécialisés dans la gestion et analyses de données. NB: Le marché du Big Data est composé des produits et services liés a celui ci tels que les serveurs, les logiciels de traitement, et le stockage. B. Les acteurs Le traitement des données n'est pas chose aisée et une question subsiste : les outils d'hier suffisent t-ils à transformer et analyser les datas? En effet, toute entreprise peut-elle exploiter les données du web sans investissements conséquents? La réalité est que les outils d'hier, qui convenaient pour les analyses des organismes locaux, ne permettent plus de se confronter à l'immensité des sources d'informations. Afin de répondre à une demande massive sur le marché, de nouveaux profils d'acteurs interviennent donc depuis quelques années. Aux États-Unis et depuis peu en Europe, les entreprises misent sur de nouvelles qualifications, à la frontière entre science et marketing. Les métiers d'experts en datas tel que « data scientist » ou « data analyst » sont de plus en plus recherchés et deviennent les activités les plus porteuses. C'est deux termes ne sont cependant pas a confondre : en effet, le data analyst utilise des statistiques pour synthétiser et de traduire les informations, tandis que le data scientist effectue des recherches plus poussées afin d'analyser et comprendre les données. Depuis les années 2000, les agences marketing digitales profitent de ce levier de croissance et développent des pôles «data», tels que Performics ou encore Publicis. Le développement de ces activités se poursuit de plus en plus aujourd'hui comme nous le montre Loyalty Expert ajoutant deux nouveaux data analyst à son pôle "Intelligence de la Donnée Client" (crée en 2005) en novembre dernier. En parallèle, des agences de conseil spécialisées dans le Big data arrivent sur le marché. Celles ci ont pour vocation d'accompagner les entreprises qui souhaitent investir dans les applications qui concernent le traitement des données afin de mieux bénéficier des
  • 10. 10 opportunités qu'offre le Big Data. Parmi les plus importantes, Fifty-Five, agence qui se spécialise dans l'optimisation de la performance des annonceurs d'internet, ou encore Tiny Clues. En France, une agence se démarque. Synomia, fondée en 2000, est devenu la première agence de conseil en data analytics. La raison de son succès? Elle propose à ses clients une analyse très poussée de toutes les données textuelles du web. En effet, grâce à sa collaboration avec le CNRS, l'agence a mis au point une avancé technologique unique, une innovation permettant de traiter les données dites "non structurées", impossible à catégoriser. Les données structurées, c'est à dire les données dont les valeurs possibles sont connues a l'avance, sont faciles à traiter, et beaucoup d'entreprise les exploitent. Cependant, les informations non-structurées nécessitent des moyens technologiques très performants et innovants dont ne disposent pas ces exploiteurs. Cette technologie que propose Synomia, appelée "analyseur syntaxique" rend alors plus accessible ces données textuelles et permet une exploitation plus poussée de la data. C'est cette catégorisation en temps réel de données non structurées qui est l'un des secteurs les plus porteurs du « Big Data ». C. Les technologies du Big Data En effet, les technologies d'hier ne sont plus adaptées compte tenu de l'ampleur démesurée du Big Data. C'est pourquoi de nouvelles technologies sont apparues sur le marché afin de faciliter le traitement, le stockage ainsi que l'exploitation d'un nombre de données toujours en progression. Nombre de ces logiciels sont Open Source. Mais qu'est ce que l'Open Source? L’Open Source est une plateforme regroupant des logiciels libres qui reposent sur le partage et la collaboration. Les utilisateurs ont alors la liberté de les copier, les étudier ou encore de les modifier afin d'améliorer leur performance. Hadoop en est un exemple. Il est l'un des logiciels de traitement les plus utilisés. Il consiste en effet à collecter, stocker et traiter des données de formats hétérogènes (dont des données non-structurées). Conçue en 2004, il a pour vocation la mise à disposition de logiciels et programme permettant le traitement de donnée au volume important (au moins une dizaine de téraoctet). Grâce à des serveurs standardisés et à bas prix, et à l’utilisation d’un programme simplifié, il sera possible d’extraire des données de manière simples. Géré par la fondation Apache, il fonctionne sur un principe de grilles de calcul consistant à répartir un traitement conséquent de données sur plusieurs serveurs. HDFS est le nom donné au système de stockage distribué, il permet d'héberger et de récupérer les données des grilles de calcul. C’est l’élément sur lequel repose tout le Framework Hadoop.
  • 11. 11 Map Reduce est un outil de programmation, un algorithme développé par Google. Cet outil de traitement et d'analyse consiste à découper une requête en multiples sous-requêtes (le Map) et réduire les calculs obtenus en un calcul global (le Reduce). Il est souvent implémenté à Hadoop. Machine Learning est un algorithme qui permet de donner aux ordinateurs la capacité d'apprendre sans être explicitement programmé. D. Le stockage Nous avons pu le voir, les données sur le web sont en pleine explosion. C'est grâce à la popularité du phénomène et a ses opportunités grandissantes que diverses acteurs sont apparu sur le marché afin de profiter de la tendance. Ainsi, agences de conseil, entreprises et spécialistes en analyse de data émergent. L'objectif? Trier, nettoyer, et traiter toutes sortes de données afin de les exploiter par la suite. Mais pour obtenir ce résultat, une étape non-négligeable ne doit pas être oublié: les données doivent être gérer, stocker et surtout préservés. En effet, le nombre grandissant des datas depuis les années 2000 a entraîné des modifications pour les espaces de stockage. Ceux-ci ont dû faire évoluer leurs capacités de stockage afin de pouvoir accueillir de plus en plus de données. C'est l'adaptabilité de ces espaces qui reste à perfectionner compte tenu des rapides évolutions technologique. Le choix de l'espace de stockage par un organisme doit se faire en fonction de différentes caractéristiques comme le volume de données ou encore la fréquence d'utilisation par exemple. Avancée majeure, le Cloub Computing, "informatique dans les nuages" a révolutionné ce domaine. Il est porté par des grandes entreprises tels que IBM, Microsoft ou encore Orange Business Services. Le Cloud Computing désigne l'utilisation des serveurs distants sur internet pour traiter ou stocker l'information. En d'autre terme, le cloud représente toutes les ressources informatiques par lesquels on peut accéder à travers internet. Il peut être gratuit ou payant suivant ses capacités de stockage et ses fonctions. Il permet aux entreprises de ne pas investir de grandes sommes pour préserver leurs données. Cependant, d'autres systèmes sont utilisés pour le stockage de données telles que les bases de données NoSQL appelées également bases de données orientées colonne instauré par Google. Cassandra en est un exemple. Ces systèmes très performants sont accessibles par un grand nombre d'utilisateur et offre une possibilité de stockage presque infinie. Autre base de données, le data wharehouse (entrepôt de données) est dédié aux informations fonctionnelles d'une entreprise. Il est utilisé pour la prise des décisions dans une entreprise grâce à des statistiques et des rapports réalisés par des outils de reporting. Un data wharehouse est organisé et structuré.
  • 12. 12 III.L’exploitation des données Aujourd’hui, des quantités astronomiques de données sont récoltées partout dans le monde. La majeure partie de ces données est inutilisable. Leur exploitation peut être différente suivant l’environnement dans lequel on se trouve et elle joue un rôle important à différentes échelles. A. Au niveau international Événement sportif majeur de cet été 2014, la Coupe du Monde de Football n'a pas échappé au Big Data. En effet, la sélection allemande a utilisé un logiciel d'analyse poussé produit par la société SAP. Ce fut pour l'entraîneur, une aide à la décision. Des puces RFID étaient intégrées aux protège-tibias et aux chaussures des joueurs. Elles permettaient alors de récupérer un maximum de données telles que : la vitesse, les accélérations, les fautes, le types d'action ou encore le nombre de ballons touchés. De plus, pour compléter les données fournies par les puces, le logiciel était relié à des caméras présentent sur le terrain. Toutes ces données ont été analysées par des datascientists qui font partie du staff de l’équipe allemande afin d’optimiser le potentiel du logiciel. Une fois ces informations analysées, elles ont permis à l’entraîneur d’analyser le jeu de chaque joueur pour une meilleure efficacité. Mais l’utilisation du Big Data et de ses résultats dans le football n’est pas un fait nouveau, ce phénomène remonte aux années 1990 en Angleterre. Arsène Wenger, entraîneur d’Arsenal, est l’un des premier à y avoir eu recourt. L’utilisation des données ont permis à Arsène Wenger de remplacer Patrick Vieira, lors de son départ, par un joueur quasi inconnu aux statistiques similaires. Depuis, tous les clubs de Premier League utilisent ces méthodes et les dirigeants n’hésitent pas à engager dans leur staff des mathématiciens, d’anciens traders ou encore des statisticiens pour analyser ces données. En France, cette pratique touche seulement les grands clubs tels que le Paris Saint-Germain, les Olympique Lyonnais et Marseillais, Saint-Etienne ou encore Lille. Les formations françaises dépensent 50 000 à 300 000 euros par saison pour le matériel nécessaire à la collecte de ces données. Ces études ont par exemple montré pour le Paris Saint-Germain que seulement 2% des tirs en dehors de la surface finissent dans le but du camp adversaire, c’est donc pour cela que les joueurs parisiens tentent peu les frappes de loin.
  • 13. 13 D'autres secteurs utilisent eux aussi le Big Data afin d'améliorer leurs performances. C'est le cas du domaine de la santé qui s'intéresse de plus en plus aux données afin de prévenir de maladies telles qu’Ebola. La société HealthMap basée au Boston Children Hospital avait remarqué neuf jours avant la déclaration officielle de la propagation d'Ebola, l'existence et le développement de ce virus en Guinée grâce à l'étude des réseaux sociaux, des bulletins d'informations locaux et d'autres bases de données. Avec toutes ces données réunies, un algorithme développé par HealthMap a pu détecter la progression du virus en Afrique. Il est impossible de savoir si une détection du virus plus tôt aurait permis de résorber l'épidémie. Mais d'après Mme Eisenberg, épidémiologiste à l'Université du Michigan, l'utilisation des mégadonnées pourrait permettre d'aider à combattre de nombreuses épidémies. Le Ministre des Communications et de la Technologie nigérian a affirmé avoir eu recourt à l'exploitation des données afin de combattre Ebola au Nigéria. La technologie et les médias sociaux sont au centre de la disparition de ce virus. Le Ministre Omobola Johnson à déclaré que l'application mobile «a permis de réduire de 75% le temps d'alerte quand une personne tombait malade». Le rassemblement des données pourrait aider les autorités de santé à allouer avec le plus d'efficience possible les ressources nécessaires à la lutte contre les virus de type Ebola dans le futur. D'après le Docteur Laurent Alexandre, chirurgien urologue, fondateur de Doctissimo et DNAVision, le cancer pourrait être d'ici 2030 une maladie chronique maîtrisée. Elle pourra être mise sous contrôle comme le SIDA et cela grâce au Big Data. En effet, l'utilisation des nanotechnologies ainsi que l'augmentation de la puissance informatique permettront à long terme de faire reculer le cancer. Afin d'analyser la constitution génétique d'une tumeur, 20 000 milliards d'informations sont nécessaires. L'essor de l'information et du Big Data va permettre de traiter rapidement ces informations et de fournir à chaque patient un traitement thérapeutique adapté. Mais cet exercice peut être amené à rencontrer des problèmes. Le cancer est une maladie qui peut muter et il y a constamment des résistances dans le cancer. Il est très complexe d'analyser ces mutations génétiques c'est pourquoi les ordinateurs devront être très performants. B. Au niveau national En matière de technologie, on place toujours les États-Unis largement devant les pays Européen. Si la France est autant compétitive, c'est grâce à l'État qui a très bien compris l'importance du Big Data. Le gouvernement met en place de nombreuses formations pour former des datascientists. Et la position de la France est en partie due à la qualité de la formation que reçoivent les ingénieurs en mathématiques et en statistiques. L'esprit du système éducatif français est en parfaite adéquation avec l'enjeu du Big Data, ce qui est un atout considérable pour la France. Ces derniers sont très demandés à travers le monde. La France a donc toutes les compétences pour gagner la bataille du Big Data.
  • 14. 14 Mais pour transformer les risques en opportunités et profiter pleinement des effets du Big Data, l'État doit mettre en place un cadre réglementaire favorable et fournir une puissante réserve de datascientists. Le Big Data repose sur une actualisation permanente des données et un croisement de ces dernières. Ces deux piliers évoluent très rapidement et vont venir, en France, se heurter au cadre réglementaire strict. Des discussions sont en cours entre l'État et la CNIL afin d'adapter le cadre réglementaire français aux enjeux du Big Data. Le Big Data va devenir au fur et à mesure des années un levier de croissance majeur. Certes il supprimera de nombreux emplois, mais d'autres, plus nombreux, vont apparaître d'ici 2020 aussi bien dans les fonctions liées au Big Data au sein des entreprises mais aussi chez les fournisseurs de technologies et de services. Ce secteur est en plein essor et affiche un taux de croissance de 40%. La publicité n’échappe pas au Big Data. En effet de nombreuses start-up françaises spécialisées dans le Big Data permettent à leurs clients de mieux adapter leur publicité à leurs clients grâce à l'analyse des données. Grâce aux mégadonnées on peut analyser les comportements des consommateurs et leur proposer des publicités qui correspondent à leurs besoins qui sont plus efficaces. La start-up française Quinten permet à ses clients d'affiner leur communication grâce à un algorithme qui identifie et caractérise les sous- groupes achetant un tel ou tel produit. D'après Reda Gomery, associé responsable data et analytics chez le cabinet Deloitte, le Big Data "est un enjeu majeur pour la pub et le marketing". Les publicités sont alors adaptées à la cible, ce qui à plus d'impact sur cette dernière et nous permet, selon lui, de "sortir de l'ère des publicités de masse". Il est aussi possible d'exploiter les paiements afin de déterminer les comportements d'achats dans certains lieux. D'après une étude Toluna pour Havas Media, 93% français sont conscients que leurs données sont captées et analysées mais 84% d'entre eux sont inquiets de l'usage qui peut en être fait. Des nombreuses négociations sont en cours au niveau européen pour décider des nouvelles règles à mettre en œuvre concernant les données personnelles. Cela aboutirait à une unification des réglementations en Europe. Les acteurs du numérique seraient alors obligés d'appliquer ce droit lorsqu'ils s'adressent à un consommateur européen. Ces démarches sont mal perçues par certaines personnes qui craignent que cela accentue le retard du développement numérique en Europe par rapport aux grands acteurs américains. C. Au niveau des organisations Une étude commandée par Teradata montre que la France est largement devant ses compères européens en termes de de gestion et d'analyse du Big Data. D'après l'étude, l'avancement de la France est dû au fait que les entreprises françaises ont pris conscience de l'importance de l'exploitation des données dans le monde actuel. Ainsi, trois entreprises sur cinq utilisent le traitement analytique des données afin de maximiser leur efficacité et de
  • 15. 15 bénéficier d'un gain de temps considérable. Le Big Data est un secteur à exploiter pour les entreprises mais il est important de bien le faire pour le valoriser. Il peut jouer un rôle au niveau de nombreuses étapes : au niveau de la conception il permet de récolter de nombreuses données sur les clients et les analyser afin de cerner plus précisément la demande potentielle. Au niveau de la distribution il va permettre d’optimiser le mode de distribution à la demande potentielle et effective. Enfin, au niveau marketing et publicitaire il va permettre d’analyser les besoins et les attentes des clients afin d’anticiper leurs demandes. Toutes les entreprises commencent à s'y intéresser mais seulement 34 % d'entre elles se sont lancées dans un projet d'envergure pour l'analyse des données. En France, d'après une étude publiée par le cabinet de conseil EY, les entreprises françaises se montrent réticentes à son utilisation, car pour deux tiers d'entre elles, c'est un concept intéressant à développer mais encore trop vague pour que cela puisse constituer un levier de croissance. Les secteurs qui utilisent le plus le Big Data en France sont les télécoms, les médias et les technologies. Certaines entreprises françaises ont fait le choix d’avoir recourt à l’analyse des données pour améliorer leurs performances, c’est le cas de BlablaCar et des Pompiers de Paris. Le groupe HP a mis en place un logiciel d’analyse des données, HP Vertica. Ce dernier a récemment été utilisé par le site de covoiturage BlablaCar pour améliorer sa relation client, la fidélisation des clients et ses campagnes marketing. Ce logiciel permet à des entreprises comme BlablaCar d’analyser très rapidement des volumes importants de données qui sont essentielles à l’élaboration des stratégies marketing. Les pompiers de Paris ont aussi bien compris l’intérêt du Big Data et ses bénéfices. Ils l’utilisent pour de nombreuses interventions pour gagner du temps. Pour cela, ils utilisent, en plus de leur données, celles fournies par EDF, les mairies, GDF ou encore la SNCF. Suite à l'analyse de ces données, ils savent quelles sont les caractéristiques du lieu d'intervention et ils peuvent être plus efficace en mieux allouant les ressources (exemple de nombre d'échelles à envoyer en fonction du bâtiment où a lieu l'intervention). D'après le commandant Raclot, d'ici un à trois ans, ils auront des informations plus précises sur les caractéristiques du lieu d'intervention telles que le nombre d'étages, la localisation des accès pompiers. Ceci permettra de gagner du temps pour sauver des vies. Lors de la réception d'un appel, ils pourront dire la probabilité pour qu'une urgence vitale arrive dans ce secteur et s’il faut préserver le camion en réserve et appeler une équipe plus loin. Dans l'Ain, l'analyse des données est utilisée pour prédire les orages et établir leur évolution. Cette étude va permettre de rendre plus efficace l'intervention des pompiers pour éviter d'appeler une équipe qui sera contactée par la suite du fait de l'évolution de l'orage.
  • 16. 16 IV. La protection des données Suite au développement des nouvelles technologies, le Big Data représente une véritable révolution du numérique dans une« société de la connaissance » (Smartphones, Internet, Cloud, Open Data…). Souvent comparé au « Big Brother » pour l'utilisation que l'on peut en faire, ce concept désigne une quantité importante de données, de différentes natures, en circulation générées par celui-ci. Mais une des principales problématiques de ce phénomène porte sur la protection des données D'autant plus qu'elles ne sont pas toutes de même nature et ne sont donc pas réglementées sous le même régime juridique. Ce sont les données à caractère personnel générées par le Big Data qui représentent le plus gros enjeu : entre innovation pour les entreprises et inquiétude pour les internautes et consommateurs. Alors que dit la loi sur la protection de ces données et comment est elle mise en œuvre et appliquée face à l’évolution des technologies ? En 2013, Edward Snowden a dévoilé le programme de surveillance électronique PRISM de la NSA (Agence de sécurité nationale des Etats-Unis) alimenté par les plus grands du Web comme Google, Facebook, Microsoft... De plus, les nouvelles technologies ne permettent pas une protection et un contrôle total de toutes ces informations. En effet, il est possible de rencontrer des problèmes tels que des fuites de données (Orange) ou le piratage du cloud (Sony...) Ces multiples événements nous poussent à se poser la question de la protection de nos données et du droit à la vie privée. A. Les différentes natures de données Lorsqu’une notion émerge, il est nécessaire de définir les concepts et leur périmètre, limiter les contextes d’usages et repenser les textes de loi lorsqu'ils sont devenus obsolètes. En France, la collecte, l'analyse et l’usage de ce type de données sont réglementés par la loi Informatique et Libertés de 1978 qui transpose la directive européenne de Protection des données du 24 octobre 1995 et qui régit la collecte et le traitement des données à caractère personnel. Il est donc indispensable de fixer certaines mesures juridiques afin de protéger la vie privée des individus et leurs données récoltées afin de trouver un équilibre entre la protection des
  • 17. 17 individus et la libre circulation de ces données. Il est aussi important de distinguer les différents types de données, car il existe plusieurs régimes de protection selon leur nature :  Les données publiques : Ces données sont disponibles à tout moment. Elles sont réglementées par 3 principes : _ principe de disponibilité : (loi CADA depuis 1978) libertés d'accès aux documents par les citoyens et obligations de communiquer pour les administrations. _ principe de réutilisation _ principe de gratuité Le développement de ces données s'est fait grâce à la mission Etalab par l’ouverture, la plus large possible, et la gratuité des données publiques pour plus de transparence et de rendre l’action publique efficace.. C'est ce qu'on appelle l'Open Data ou « données ouvertes » qui désigne le fait de mettre à disposition de tous les données récoltées par les administrations publiques.  Les données privées : Pour ces données, il n'y a pas de régime juridique défini. Il est donc nécessaire de vérifier s'il existe des clauses concernant la réutilisation  Les données provenant des réseaux sociaux : Données à forte valeur ajoutée ? D'un point de vue générale, elles sont privées mais cela peut diverger par rapport aux « paramètres de confidentialité »  Les données provenant des bases de données : Ces données sont quant à elles régies par le Code de la Propriété Intellectuelle, 1998, art. L112.3 qui définit une base de données comme « «recueil d'œuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen ». Ce code protège l'utilisation, la reproduction ou la représentation de productions intellectuelles car « l'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa création, d'un droit de propriété incorporelle exclusif et opposable à tous » (art.L111-1). La création de données faites par le biais des bases appartient au droit « sui generis », c'est à dire qu'on ne peut classer ces données dans une catégorie déjà connue. Cela s'explique par le fait du récent développement des technologies et des réseaux sociaux depuis plusieurs années.  Les données personnelles : Ce sont ces données qui nous intéressent principalement car elles sont celles qui ont le plus de valeur. D'autant plus que des données parfois non personnelles peuvent le devenir après avoir été analysées (ou recoupées). Ce phénomène est de plus en plus rencontré à cause du
  • 18. 18 Big Data, qui a pour objectif une meilleure identification, un meilleur ciblage comportemental des individus grâce à la quantité des informations. Une grande attention est portée sur la gestion des données à caractère personnel (data privacy) et leur sécurité et confidentialité (data security). En France, le Big Data est en parti réglementé par la loi Informatique et Libertés du 6 janvier 1978. Elle est celle qui réglemente l'utilisation de ces données personnelles. Une donnée à caractère personnel est définie comme « toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres » (art.2 de la loi Informatique et Libertés), c'est à dire des informations nominatives ou non (nom, prénom, adresse postale, mail, adresse IP, numéro de téléphone, géolocalisation, comportement...) Les données personnelles sont protégées par cinq critères : Finalité de l’utilisation : Selon l’article 6 de la loi Informatique et Libertés, les données doivent être conservées dans un but bien précis, c'est à dire pour une finalité « déterminée, explicite et légitime » Pertinence : elles ne doivent pas être traitées ultérieurement de manière incompatible avec ces finalités et seules les données nécessaires et pertinentes pour les atteindre doivent être collectées. Le droit à l’oubli : permet de conserver les données pendant un certain temps, en fonction de l’objectif de l’utilisation. La durée de conservation des données ne doit pas excéder la durée nécessaire aux finalités pour lesquelles elles sont collectées et doivent être détruites passé ce délai. Le droit à l'oubli est un projet de règlement européen du 25 janvier 2012 qui a pour but d'harmoniser et unifier le régime de protection des données personnelles au sein des États-Membres de l'Union Européenne, tout en protégeant davantage les citoyens. Ex : Google a annoncé dernièrement la mise à disposition d’un formulaire pour les Européens qui veulent demander la suppression de résultats sur son moteur de recherche. Sécurité et confidentialité : les personnes responsables des données doivent assurer leur sécurité et leur confidentialité. Le respect des droits des personnes : chaque personne ayant transmis ses données, a le droit d’y avoir accès et être informer sur leur utilisation. B. Réglementation Au sein de l'Union Européenne, la directive 95/46/CE du Parlement Européen fixe les limites et oblige la création, dans chaque État membre, d'un organisme national indépendant chargés de la protection des données personnelles.
  • 19. 19 En France, l'organisme qui en est chargé et qui a pour but de réglementer ce domaine, depuis 1978, est la CNIL (Commission nationale de l'informatique et des libertés). Cet organisme a un droit de regard et de contrôle sur les fichiers de renseignement. Sa principale mission est de « protéger la vie privée et les libertés dans le monde numérique ». Concernant le Big Data, toute collecte ou traitement d'informations doivent être déclarés auprès de cet organisme. Elle exerce ces missions d'information et de régulation auprès des personnes, du gouvernement et des organisations. En plus de son pouvoir de contrôle qui assure la conformité des traitements informatiques, la CNIL possède le pouvoir de publier les sanctions qu’elle prononce du fait de son indépendance. Ces sanctions sont sous forme d’avertissements, mises en demeure ou de sanctions administratives et financières. Ses sanctions vont jusqu'à 150 000 € et peuvent doubler en cas de récidive. C. Contrôle des données Il est primordial d'instaurer une relation de confiance et de transparence entre les différents acteurs. Mais bien souvent les individus ne sont pas ou sont mal informés. Or, il est nécessaire que les personnes concernées aient connaissance de l'utilisation que l'on peut faire de leurs données et pour ainsi pouvoir le contrôler. La directive vue précédemment permet, par conséquent, aux individus de garder un minimum de contrôle de leurs données grâce à plusieurs principes : _ leur consentement, c'est à dire « toute manifestation de volonté libre, spécifique et informée ». Par exemple, les Cookies (ou témoins de connexion) ne peuvent être utilisés qu'avec le consentement préalable de l’utilisateur. _ le droit d'accès à ses informations _ le droit d'opposition au traitement des ses données ou à la revente à des tiers _ le droit de rectification pour modifier les données erronées qui les concernent _ la notification ou droit à l'information auprès de l'autorité de contrôle (CNIL).
  • 20. 20 Conclusion Le nombre de données produites chaque jour par les internautes est en constante évolution, en parallèle avec le taux d'équipement en objets connectés qui ne cesse de croître. Le Big Data est donc devenu une formule courante, désignant une évolution majeure dans de nombreux domaines comme l'économie ou les nouvelles technologies et de l'électronique. Mais le traitement des données devient alors de plus en plus complexe, car celles-ci peuvent être fausses, dépassées ou biaisés. Pour analyser les bonnes données, de nouvelles technologies et de nouveaux acteurs spécialisés dans le traitement de données sont apparus sur le marché afin de trier et de nettoyer les données. De plus, afin de conserver les données, les capacités de stockage sont devenues plus flexibles afin de pouvoir recueillir toute cette masse de données. Les données peuvent être exploitées dans des domaines totalement différents et à des échelles différentes. En effet elles peuvent servir à suivre l'évolution d'une maladie ou encore améliorer l'efficacité et la relation client d'une entreprise. Les entreprises ne sont pas les seules à utiliser le Big Data et les États jouent un rôle majeur dans leur exploitation. En effet les législations que ces derniers vont mettre en place vont orienter l'exploitation des données. Ces données peuvent contenir des informations concernant les individus qui peuvent porter atteinte à leur vie privée. Il est donc primordial que la loi encadre ces pratiques. En effet les législations que ces derniers vont mettre en place vont orienter l'exploitation des données. Celui-ci a pour mission de protéger la vie privée et les libertés des individus grâce à son pouvoir de contrôle et de sanctions. Ainsi, pour permettre une utilisation optimale du Big Data dans les années à venir il faut que la légalisation s'adapte aux évolutions. De plus c'est un milieu en expansion et plein d'avenir pour les nouvelles technologies et l'emploi.
  • 21. 21 Glossaire BIG DATA : Le terme utilisé lorsque la quantité importante de données nécessite de nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation. Volume, vitesse et variété sont souvent les trois critères qui permettent de qualifier le “Big Data”. CADA : autorité administrative indépendante dont le rôle est consultatif, et qui permet d’accéder aux données publiques. Elle intervient pour tous les documents détenus par un service de l’Etat, une collectivité territoriale, un établissement public ou un organisme chargé de la gestion d’un service public, que cet organisme soit public ou privé. CNIL : autorité publique chargée de veiller à la protection des données personnelles. Elle dispose d’un pouvoir de contrôle et peut également sanctionner les entreprises, organisations ou individus collectant des informations personnelles qui ne respectent pas la loi informatique et liberté. DATAJOURNALISME : Nouveau type de journalisme basé essentiellement sur l’utilisation des données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des informations nouvelles et en présenter éventuellement les résultats sous la forme d’une visualisation interactive. DONNEES PUBLIQUES : Données collectées, maintenues et utilisées par les organismes publics pour accomplir leur mission. ETALAB : Mission chargée de mettre en œuvre la politique d’ouverture des données de l’administration française, et de mettre en place un annuaire des données publiques françaises.
  • 22. 22 HADOOP : Infrastructure logicielle pour application big data qui inclut un système de stockage et un outil d’exécution parallèle d’applications. MAP REDUCE : Méthode d’exécution de programme parallèle consistant à envoyer sur chaque donnée une fonction à exécuter (map) puis à récupérer les résultats pour les intégrer dans un résultat final (reduce). NOSQL : Base de Données n’obéissant pas au modèle relationnel, à fonctionnalités réduites, se prêtant bien au traitement massivement parallèle des données. OPEN DATA / OUVERTURE DES DONNEES : Principe selon lequel les données publiques (celles recueillies, maintenues et utilisées par les organismes publics) doivent être disponibles pour accès et réutilisation par les citoyens et les entreprises. SMART DATA : Alternative au Big Data qui vise à ne collecter et analyser que les données utiles et pertinentes.
  • 23. 23 Annexes o Infographie : Définition du Big Data
  • 24. 24 o Infographie : L’évolution du Big Data
  • 25. 25 o Infographie : Le Big Data à la coupe du monde par l’équipe allemande
  • 26. 26 o Infographie : Protection des données personnelles
  • 27. 27 o Tableau des sources :
  • 28. 28
  • 29. 29