- Qu'est ce que le big data ?
- Exemples d'utilisation
- Le web, l'open data et le web sémantique
- Les algorithmes
- Qu’est ce que ce la change concrètement ?
- Notre projet square predict
2. Qui suis-je ?
● Dirigeant de Scub, une entreprise de service numérique qui a pour but de
fournir du conseil et de développer des applications sur-mesure en Java
afin de résoudre les problèmes de ses clients.
● Dirigeant de Square Solutions, un éditeur de logiciels qui propose une
solution de gestion de la relation client dédiée au monde de l'assurance.
● Directeur de la stratégie du groupe Arrow, groupe informatique
spécialisé dans l’IT pour la banque, finance et l’assurance (Londres, Paris,
Bruxelles et Luxembourg).
● Cofondateur de Oak Invest, société de conseil et d'investissement
spécialisée dans les nouvelles technologies.
● Développeur / Contributeur sur des projets Open Source comme JOnAS,
Scub Foundation, Square...
● Conférencier sur des sujets comme l'industrialisation du développement
logiciel, le cloud computing ou le web sémantique, j'ai aussi écrit un livre
sur le serveur d'applications J2EE JOnAS.
● Vice Président du SPN, un cluster regroupant les entreprises TIC de la
région Poitou Charentes (Président en 2010 et 2011).
3. Agenda
● Qu’est-ce que le Big Data ?
● Exemples d’utilisations.
● Le web / L’Open Data / Le web sémantique.
● Un “nouveau” métier : le Data Scientist.
● Les algorithmes utilisés.
● Qu’est ce que ce la change concrètement ?
● Notre projet Square Predict.
● Dangers.
● Questions ?
8. Big Data : définition
Le Big Data désigne la problématique d’avoir
un ensemble de données à traiter tellement
volumineux qu’il devient très difficile, voir
impossible, de le faire avec les outils existants.
Ceci oblige à repenser complètement la
capture, le stockage, l'analyse et la
visualisation.
9. Big Data : l’objectif
L’idée est d’aider les entreprises à réduire les
risques, faciliter la prise de décision, créer la
différence grâce à l'analyse prédictive et offrir
une expérience client plus personnalisée et
contextualisée.
D’autant que le volume de données ne va
cesser d’augmenter (Mobiles, objets
connectés, voitures, drônes, capteurs...).
10. Big Data : les trois défis
● Volume : à titre d'exemple, chaque jour
Facebook génère 10 teraoctets de données.
● Variété : données structurées ou non
(réseaux sociaux, open data, web
sémantique…).
● Vélocité : la fréquence à laquelle les
données sont générées, capturées et
partagées (150 000 Tweets par secondes).
11. Big Data : une nouvelle discipline
Nous ne sommes donc pas face à une nouvelle
technologie mais plutôt à une nouvelle
discipline portée par des nouveaux outils issus
de géants de l’internet et des logiciels libres.
12. Big Data : un nouvel objectif
Objectif : Faire en sorte que les décisions
soient plus basées sur les données et moins
sur les intuitions, l’expérience ou les conseils.
Seuls 32% des dirigeants décrivent leurs décisions comme étant basées sur
des données (PricewaterhouseCoopers)
14. Exemples divers
● Netflix a analysé les préférences de ses clients pour
concevoir sa propre série “House of Cards”.
● Certaines institutions financières cherchent des clients
en regardant ce qu’ils disent sur les réseaux sociaux.
● Les assurances font de l’analyse de texte sur d’anciens
formulaires / demandes pour traquer des fraudes.
● 23andme analyse votre ADN et vous indique vos
prédispositions.
16. Où prendre les données ?
Les entreprises et les institutions possèdent
des données mais elles sont généralement
limitées.
Si Plus de données = Meilleurs
décisions alors les données ont donc une
valeur stratégique importante.
17. Où prendre les données ?
Il est possible que l’on ait pas les données pour
réaliser le data mining, il faut investir.
C’est ce qu’a fait la banque Signet qui a offert à
des clients au hasard des avantages afin d’
avoir assez d’informations sur les
comportements.
Il faut donc considérer ces données comme
des avoirs stratégiques pour l’entreprise.
18. Où prendre les données ?
Mais on peut aussi se servir d’Internet !
23. L’Open Data : définition
L’Open Data désigne le mouvement visant à
rendre accessible à tous via le web les
données publiques non nominatives ne
relevant ni de la vie privée et ni la sécurité
collectées par les organismes publics.
En France : https://www.data.gouv.fr
28. L’Open Data : exemples
Insee : Données carroyées à 200 m sur la
population.
● Nombre d’individus en fonction des tranches
d’âge.
● Nombre de propriétaires / locataires.
● Type de famille.
● Revenus fiscaux.
● Nombre d'individus par tranches d’âges.
30. Le web sémantique
Le web fonctionne parce que, nous, les
humains, sommes extrêmement doués et
flexibles dans le traitement de données.
Nous sommes capables de tout lire et
d'acquérir de nouvelles connaissances.
Aujourd'hui, Google trouve l'information mais
ne la comprend pas ! (même si ça change…)
31. Le web sémantique
Comment marche le web ?
● Les machines stockent le texte.
● On peut rechercher dans l'ensemble des
textes grâce à des outils comme Google.
● On clique sur une page pour l'afficher.
● L'humain doit lire le texte, chercher
l'information qui l'intéresse et la comprendre.
32. Le web sémantique : définition
Le web sémantique a pour objectif d’arriver à
un web où les informations seraient
compréhensibles par les ordinateurs.
Pour faire simple, ceci permettrait aux
machines d’apprendre et de faire des
déductions par elles mêmes.
33. Le web sémantique
L’idée est de passer d'un monde où nous
publions des données pour les humains à un
monde où nous publions aussi des données
lisibles et compréhensibles par les machines.
Comment fait on cela ? C’est assez simple !
34. Le web sémantique
Les informations sont représentées sous forme
de Triplets, c'est à dire une association entre
sujet, prédicat et objet.
● Le sujet représente la ressource à décrire.
● Le prédicat représente un type de propriété
applicable à cette ressource.
● L'objet représente une donnée ou une autre
ressource : c'est la valeur de la propriété.
35. Le web sémantique
Paris Population 2243833
Paris Latitude 48.856578
Bordeaux Population 239157
Bordeaux Latitude 44.837912
37. Possibilités
Ceci offre les possibilités suivantes :
● Inférence : tirer une conclusion à partir de
règles de base.
● Fusion de graphes : l'on peut fusionner
deux graphes facilement si ces deux
graphes ont deux identifiants en commun.
● Recherche de liens : On peut très
facilement parcourir un graphe pour trouver,
par exemple, ce qui relie deux entreprises
ou deux personnes.
39. Un “nouveau” métier : le Data
Scientist.
Au vu des besoins, un “nouveau métier” va
exister : Data Scientist.
Josh Wills le définit de la façon suivante : Une
personne qui est meilleure en statistiques que
n’importe quel développeur et qui est meilleure
en développement que n’importe quel
statisticien.
40. Un “nouveau” métier : le Data
Scientist.
CV :
● Statistiques, Probabilité, Machine learning.
● Connaissances en développement logiciel.
● Connaît le métier de l’entreprise.
● Capacité de présentation et d’imagination.
● Java, R, Python...
● Hadoop, HDFS…
● ETL…
● SQL, Excel...
41. Un “nouveau” métier : le Data
Scientist.
Business
Intelligence
Data Scientist
Choses que
vous savez
Choses que
vous ne
savez pas
Questions
que vous
posez
Questions
que vous ne
posez pas
43. La classification
La classification consiste à prédire, pour
chaque individu d’une population, à quelle
classe cet individu appartient.
Exemple : “parmi mes clients, lesquels pourrait
répondre à une offre spécifique ?”. Dans cet
exemple il y aura deux classes “répondra” et
“ne répondra pas”.
44. La régression
La régression (estimation de valeur) essaye d’estimer ou
de prédire, pour chaque individu la valeur numérique de
certaines variables de cet individu. Exemple : “A quel point
ce client utilisera ce service ?”.
Dans cet exemple, la valeur de l’usage du service sera
généré en regardant l’usage du service par d’autres
individus similaires. Par rapport à la classification qui prédit
si quelque chose va se produire, la régression permet de
dire à quel point la chose va se prédire.
45. La recherche de similarité
La recherche de similarité essaye d’identifier
des individus similaires à partir des éléments
que l’on a sur eux.
Par exemple, IBM utilise cette technique pour
trouver des compagnies similaires à leurs
clients les plus rentables afin que leurs
commerciaux se concentrent sur eux.
46. Le Clustering
Le Clustering essaye de classifier des individus par leurs
similarités mais sans prendre en compte le but. Par
exemple, pour savoir si il y a des segments ou des groupes
de clients similaires.
Cela permet de faire de l’exploration afin de voir vers
quelles types d’analyses nous devons faire.
47. Le profilage
Le profilage essaye de caractériser un comportement
typique d’un individu, d’un groupe ou d’une population. Par
exemple “Quel est l’usage type de leur téléphone de tel
segment de clientèle ?”.
Le profilage est souvent utilisé pour la détection d’
anomalies (fraudes, intrusions…) Par exemple, si l’on sait
quels genres d’achats une personne fait généralement via
une carte de crédit, on peut déterminer si tel ou tel achat
correspond.
49. Qu’est ce que ce la change ?
Prenons un scénario : je dirige une chaîne de
magasins qui vend des jeux vidéos.
La saison de Noël approche et ma réussite
dépend d’une chose principalement : Avoir
assez de stocks, au bon endroit, sur les
produits qui vont le mieux se vendre.
Nous sommes quelques mois avant noël.
50. Qu’est ce que ce la change ?
Quel est l’objectif ? Savoir ce qui va se vendre,
où et dans quelles quantités.
Je vais utiliser les données suivantes :
● Recherches google.
● Tweets qui parlent de jeux vidéos.
● Budgets dépensés par l’industrie du jeu.
● Tests de remises sur des joueurs “type” qui
sont parmi mes clients.
52. Qu’est ce que ce la change ?
Grâce à ces données, je vais pouvoir trouver
quels sont les jeux qui semblent avoir le plus
de succès et donc piloter mes achats.
53. Qu’est ce que ce la change ?
Maintenant que je sais quels jeux vont
potentiellement le mieux marcher, il va falloir
que je sache dans quels magasins !
Je vais utiliser les données suivantes :
● Tests de remises sur des joueurs “type” qui
sont parmi mes clients.
● Tweets géolocalisés qui parlent de jeux.
● Données INSEE.
54. Qu’est ce que ce la change ?
Grâce aux analyses que j’ai, je vais pouvoir :
● Mieux gérer mes commandes/stocks.
● Mieux gérer mes campagnes commerciales.
● Re segmenter ma base en fonction des pré
commandes et faire des contacts ciblés.
55. Un exemple de
projet : Square
Predict
Solution Big Data pour le monde de l’
assurance
57. La problématique
Le “online to store” est une réalité en France
62% des souscriptions sont liées au digital
Recherche online /
Achat offline
48,6 %
Recherche offline /
Achat offline
37,8 %
Recherche online /
Achat online
10,8 %
Recherche offine /
Achat offline
2,7 %
Source: Etude RoPo – Deutsche Bank 2011
60. La problématique
Et si les géants de l’Internet (Google,
Facebook…) qui disposent d’énormes
informations (personnelles, géolocalisées,
statistiques…) ne renvoyaient plus sur les
sites des assureurs et proposaient leurs
propres produits d’assurances, mieux
ciblés et plus rentables directement ?
61. La problématique
D’après une étude Accenture auprès de 6.000
assurés dans 11 pays, les 2/3 des
consommateurs sont prêts à acheter des
produits d’assurance ailleurs, notamment
auprès des géants du Web.
Ce serait 400 milliards de dollars de primes d’
assurance qui pourraient changer de main.
63. Notre solution
Square Predict a pour objectifs de permettre
aux assurances de valoriser et monétiser leur
patrimoine de données en les croisant avec
celles disponibles sur internet (réseaux
sociaux, web sémantique, open data…).
L’objectif étant de contextualiser la relation
client et les évènements afin de réagir de
manière plus appropriée.
64. Notre solution
La plate-forme Square Predict permettra :
● De croiser les données des assureurs avec :
○ L’Open Data.
○ Le web sémantique.
○ Internet et les réseaux sociaux.
● De réaliser des analyses en temps réel.
66. Exemple n°1
Étude d’impact en temps réel d’une
catastrophe naturelle.
Utiliser les données
des assurances, des
réseaux sociaux et de l’
open data pour estimer
en temps réel l’impact
d’un évènement.
67. Exemple n°2
Collecter les informations disponibles pour
évaluer les risques sur les habitations.
68. Exemple n°3
Adaptation des forces de la relation
clientèle en fonction des évènements.
Détection d’évènements notamment sur les
réseaux sociaux et génération d’action en
automatique.
70. Partenaires
Projet soutenu par le Programme d’
Investissements d’Avenir (anciennement
Grand Emprunt) : budget de 2,76M€.
Les partenaires :
● Un des premiers assureurs mondiaux.
● LIPN, LIPADE et le LARIS.
● Un cabinet d’éthique.
72. Partitionnement de données
Le Clustering (partitionnement de données)
essaye de classifier des individus par leurs
similarités mais sans prendre en compte le but.
L’idée est de faire émerger automatiquement
des sous-ensembles et sous-concepts
éventuellement impossibles à naturellement
distinguer.
73. Données de base
Nous sommes partis des données fournies par
l’un de nos partenaires :
● Nombre de Pièces du bien.
● Propriétaire / Copropriétaire / Locataire.
● Appartement / Maison / RdC.
● Résidence Principale / Secondaire.
74. Enrichissement des données
● Données de l’INSEE permet de compléter
les revenus, le nombre de personnes dans
le logement, âge de l’habitation, type d’
habitation, criminalités…
● Données sémantiques sur la ville, le lieux, la
pluviométrie
● ...
75. Définition des indicateurs
Trois indicateurs ont été prises en compte :
● Taux de sinistre = Nbe sinistres / Nbe de
contrats.
● Charge par sinistre = Somme montant
sinistres / Nbe sinistres.
● Perte par contrat = Taux sinistres * charge
par contrat.
76. Résultats
Ceci nous a permis de détecter des groupes
dont la pertinence a été validée.
78. Dangers
Ils sont nombreux et variés et vous avez
certainement devinés un certain nombre donc
je ne vais pas en parler !
79. Points de vue à prendre en compte...
● “La vie privée est peut être une anomalie” -
Vint Cerf
http://techcrunch.com/2013/11/20/googles-cerf-says-privacy-
may-be-an-anomaly-historically-hes-right/
● “Nous devons abandonner un peu de notre
vie privée pour améliorer le monde” - Tim O’
Reilly
http://readwrite.
com/2010/07/22/tim_oreilly_says_you_should_give_up_
some_privacy_t