SlideShare a Scribd company logo
1 of 32
Download to read offline
BigData décisionnel
multiéchelle
David Combe
2
Plan
2. Scoring
4. Volume
3. Résultat
1. Objectif
5. Tâches
1. OBJECTIF
5
Pistes d’amélioration de
l’efficacité
• Détection de fraude
• Recommandation
• Simplification du parcours dans le site
• Bonnes pistes de diversification
• Politique d’achat
7
Données
• Visite/intérêt
• Chemin de visite/Nb de visites
• Achat
• Achat simultané/Nb de ventes
• Comportement
• Source/Nb de clics dans une zone
• Concurrence
• Proximité d’enseignes concurrentes proches du client/Prix chez la concurrence
• Fournisseurs (prix des fournisseurs)
• Fournisseurs approvisionnés pour un article/Prix min d’un article chez tous les
fournisseurs
• Tendances
• Dénominations vestimentaires les plus employées dans les blogs/Facteur
d’évolution des ventes depuis le mois dernier
• Communication / service après vente
• Tweets ayant provoqué le plus de réactions/Nb de retours par article
8
L’analyse de données, quel intérêt ?
Visite/intérêt Achat Comportement Concurrence
Fournisseurs
(prix des
fournisseurs) Tendances
Achat
Que se mettre à acheter,
produits subissant une hausse
d'intérêt non anticipée ?
Comporteme
nt
Quel fonctionnalités sont les
plus utilisées selon le type
d'objet recherché ?
Quels sont les
comportements qui
traduisent un achat futur ?
Concurrence
Somme-nous considérés par les
clients pour les produits à forte
concurrence (SEO) ?
Quels sont les produits sur
lesquels il sera possible
d'augmenter les marges ?
Quelles fonctionnalités sont à
privilégier pour les produits les
plus concurrentiels ?
Fournisseurs
(prix des
fournisseurs)
Quel est la réaction des
fournisseurs vis-à-vis de
l'évolution de l'attractivité de
leurs produits ?
Sera-t-il possible d'écouler
le stock si on passe une
plus grosse commande à
prix réduit ?
Les visiteurs appréciant une
marque particulière ont-ils des
caractéristiques propres ?
Les concurrents
bénéficient-ils de
conditions plus
favorables de la part
des fournisseurs ?
Tendances
Nos clients sont-ils des hipsters
ou des suiveurs/no fashion ?
Nos clients sont-ils
sensibles aux tendances ?
Les hipsters ont-ils des
comportements spécifiques ?
Les concurrents ont-
ils mieux anticipé les
tendances que nous ?
Les fournisseurs ont-
ils anticipé les
tendances ?
Communicati
on / service
après vente
Quels sont les produits qui
provoquent le plus de requêtes
SAV, commentaires, demandes
de renseignement ?
Y a-t-il des produits qui
buzzent mais que les gens
évitent ?
Quels comportements
traduisent un besoin de se
renseigner ?
Génère-t-on autant
de commentaires que
la concurrence ?
Quels fournisseurs
sont à éviter pour
éviter les retours ?
Sur quels produits
communiquer ?
Y a-t-il des nouveaux
produits qui génèrent
du buzz/de
l'intérêt/des pannes
?
9
Décisions
• Achats
• Stocks
• Prix
• Enchères et mots-clés publicitaires
• Communication
• Ergonomie
2. SCORING/QUANTIFICATION
11
Paradigme éprouvé
Données atomiques
Données agrégée (group by/OLAP)
selon des catégories métier (ventes par
région/secteur…)
12
Chaque information supplémentaire
introduite est susceptible d’éclairer le
décideur
• Quels sont les produits que les gens achètent le plus ?
(du papier toilette)
• +temps -> Quels sont les produits que les gens achètent le plus en
ce moment ? (des glaces)
• +age -> Quels sont les produits que les gens de votre âge achètent
le plus ? (du coca-cola)
• +nb d’enfants -> des barres chocolatées
• recommandations plus pertinentes
• Quels sont les produits que, compte tenu de vos
caractéristiques, vous êtes plus susceptible d’acheter
qu’une autre personne qui aurait des caractéristiques
proches MOINS une caractéristique précise.
14
Distribution réelle vs. Distribution
aléatoire
• Dans les graphes
• Dans les nombres
• Via la variance/l’inertie
• Comme dans d’autres domaines…
• Reconnaissance de visages
15
Principe
• L’important n’est pas les chiffres mais
l’inégalité entre les chiffres.
• Au point que si toutes les valeurs sont égales
aucun résultat ne peut être calculé.
• Importance des proportions, pas des
chiffres dans l’absolu.
• Insensible aux combinaisons linéaires
• Données nomalisées
16
Un recul sur les graphes
• Méthode efficace
• La parallélisation n’est
même pas considérée
comme nécessaire.
http://ej.iop.org/images/1742-5468/2008/10/P10008/Full/9239901.jpg
17
Exemple
Voice on the Border: Do Cellphones Redraw the Maps?
Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew Smoreda, Paul Van Dooren & Cezary Ziemlicki / Researchers, Catholic University of Louvain (Belgium) and Orange Labs / November 15th, 2011
http://www.paristechreview.com/2011/11/15/voice-border-cellphones-redraw-maps/
Détection de communautés
basée sur les communications
par téléphones portables
(données issues des
communications inter-antennes)
18
Relations en eCommerce
• Co-achats, produits visités les uns à la suite des autres,
comptes, graphe visiteur-commentaire, produits notés
par une même personne, produits d’une même
marque, produits partageant X mots dans leur intitulé,
distance entre les points de livraison, produits d’un
même fournisseur qui se sont vu être hors stock en
même temps (valué par le nombre de jours), clients
atteints par les opérations commerciales
• Nb d’attributs RDF partagés par les articles, distance
des articles entre eux dans l’arborescence du magasin,
quels sont les paires de produits co-visités le plus
souvent par les personnes qui cherchent un parasol ?,
quels sont les termes de recherche qui ont été le plus
co-recherchés par les visiteurs
19
Niches de ROI
• Segmentation
• Automatisation
• SEO
• Accélérer la navigation
• Recommandation/sérendipité
• Eviter les ambiguïtés dans les BDD
• Eviter la fraude
• Aider à la prise de décision
20
Choix des variables
• On choisit éventuellement un sous-ensemble des
données
• On choisit un ensemble de relations et d’attributs
positifs par rapport au but
• Par exemple, la vente d’un produit et leur co-visite par un
même utilisateur
• On choisit un ensemble de relations et d’attributs
négatifs par rapport au but
• Par exemple, le coût en publicité pour chaque produit et le
ratio « page de sortie » pour le produit.
• On propose un synthèse à travers laquelle les relations
et les attributs ont été normalisés
•  intérêt de proposer des articles en prenant simultanément
plusieurs facteurs a priori indépendants et complémentaires,
basés sur leur popularité et leur coût de promotion.
21
Choix des variables (suite)
• Possibilité de prendre en compte le temps en
choisissant :
• Positif
• Le CA par rayon du mois dernier
• Négatif
• Le CA par rayon du même mois de l’année dernière
• On fait ressortir les plus fortes hausses et les plus
fortes baisses, en les détectant des communautés
de rayons selon ce critère.
RESTITUTION DES
RÉSULTATS/VISUALISATION
24
Visualisation
• Communautés
• Hiérarchies de
communautés
• Listes
• Nuages de tags
• (dendogrammes)
• …
TRAITEMENT
27
Données
Rayon, CA en k€
Puériculture 84
Hifi 98
Maquillage 45
Sous-vêtements 41
Co-achat (rayon A, rayon B, nb de « co-achats »)
Puériculture Hifi 2
Maquillage Puériculture 45
Hifi Sous-vêtements 14
Maquillage Sous-vêtements 15
On pourra déduire de ces données quels sont les articles secondaires à
promouvoir en catalogue si on veut intéresser les gens qui dépensent dans
un rayon à fort CA, sans trop mettre en avant les rayons à fort CA eux-
mêmes.
28
MapReduce est limité ici
• MapReduce n’est pas adapté aux
opérations sur les graphes
• Le nombre d’itérations est important
pour le traitement parallélisé de
graphes
• La matérialisation de résultats
intermédiaires à chaque itération
MapReduce pénalise les
performances
29
Pregel (Google) « Think like a vertex »
30
Une itération dans Pregel/Giraph
31
Processing
• BigData sur des graphes : un sujet émergeant
• Des plateformes
• Apache Giraph
• GraphX pour Spark
• PostDocs, stage
• Projets préliminaires
32
Giraph
33
GraphX a pour ambition d’unifier
les 2 paradigmes
EN PRATIQUE
35
Tâches
• PoC
• Démonstration de pertinence
• Viabilité du passage à l’échelle
• Data processing
• Infrastructure de traitement des données
• Map()
• Reduce()
• Comportement Giraph/GraphX
• …ou autre chose (temps réel…)
• Gestion de l’intelligence
intermachines/intercommunautés
36
Tâches (suite)
• UX / UI design
• Visualisation / Interface de commande
• Interfaçage
• Interface avec des outils existants
• Pour un déploiement
• Définition d’un catalogue d’attributs/liens pertinents,
politique d’interprétation des données manquantes, un
mode d’interrogation (batch/interactif)
37
Conclusion
Production de communautés multi-échelles à partir de
données positives et négatives, voire temporelles
Paradigme de calcul très récent (publié en 2010 par
Google) et utilisé par Yahoo, Facebook, LinkedIn, Twitter
Production de communautés répondant aux critères,
visant l’intéractivité et la hiérarchisation automatique des
données
Repose sur un principe d’auto-organisation
Plateforme pour l’ntelligence décisionnelle, adaptable et
permettant l’analyse de données sous forme de relations
et d’attributs numériques

More Related Content

Similar to Big Data à destination du secteur commercial

Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numériqueDanielle Tardif
 
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]François Jourde
 
Développement Business Model
Développement Business ModelDéveloppement Business Model
Développement Business ModelRollingbox
 
L’intégration de votre marketing: la recette du succès de votre lancement de ...
L’intégration de votre marketing: la recette du succès de votre lancement de ...L’intégration de votre marketing: la recette du succès de votre lancement de ...
L’intégration de votre marketing: la recette du succès de votre lancement de ...Exo -B2B
 
Se développer de façon rentable sur Internet
Se développer de façon rentable sur InternetSe développer de façon rentable sur Internet
Se développer de façon rentable sur Internetjpcrenn
 
prez 366 retail morning
prez 366 retail morningprez 366 retail morning
prez 366 retail morning366
 
Petit déjeuner Galigeo 2018 - Témoignage 20 minutes
Petit déjeuner Galigeo 2018 - Témoignage 20 minutesPetit déjeuner Galigeo 2018 - Témoignage 20 minutes
Petit déjeuner Galigeo 2018 - Témoignage 20 minutesGaligeo
 
Comment optimiser la performance de son réseau (points de vente, agences, dis...
Comment optimiser la performance de son réseau (points de vente, agences, dis...Comment optimiser la performance de son réseau (points de vente, agences, dis...
Comment optimiser la performance de son réseau (points de vente, agences, dis...Galigeo
 
Se développer de façon rentable sur Internet
Se développer de façon rentable sur InternetSe développer de façon rentable sur Internet
Se développer de façon rentable sur Internetjpcrenn
 
Doxa inter2019-le e-marketing performant
Doxa inter2019-le e-marketing performantDoxa inter2019-le e-marketing performant
Doxa inter2019-le e-marketing performantDOXACONSEILRHetFORMA
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Converteo
 
Multicanal: Concept & démarrage
Multicanal: Concept & démarrage Multicanal: Concept & démarrage
Multicanal: Concept & démarrage Etienne Darbousset
 
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013Multicanal : concept & démarrage - Idaho Consulting - octobre 2013
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013Idaho Consulting
 
Le Multicanal, concept & démarrage
Le Multicanal, concept & démarrage Le Multicanal, concept & démarrage
Le Multicanal, concept & démarrage Etienne Darbousset
 
Marketing Digital : les enjeux en 2021
Marketing Digital : les enjeux en 2021Marketing Digital : les enjeux en 2021
Marketing Digital : les enjeux en 2021M2i Formation
 
Les Enjeux du Data Marketing
Les Enjeux du Data MarketingLes Enjeux du Data Marketing
Les Enjeux du Data MarketingOlivier Dancot
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing
 
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de VenteGaligeo
 
Présentation Aperitics 23-02-2015: Le Web To Store
Présentation Aperitics 23-02-2015: Le Web To StorePrésentation Aperitics 23-02-2015: Le Web To Store
Présentation Aperitics 23-02-2015: Le Web To StoreCCI Aude
 

Similar to Big Data à destination du secteur commercial (20)

Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numérique
 
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]
Trouver de nouveaux clients avec internet ? [Ecroissance-Prospection btob]
 
Développement Business Model
Développement Business ModelDéveloppement Business Model
Développement Business Model
 
L’intégration de votre marketing: la recette du succès de votre lancement de ...
L’intégration de votre marketing: la recette du succès de votre lancement de ...L’intégration de votre marketing: la recette du succès de votre lancement de ...
L’intégration de votre marketing: la recette du succès de votre lancement de ...
 
Se développer de façon rentable sur Internet
Se développer de façon rentable sur InternetSe développer de façon rentable sur Internet
Se développer de façon rentable sur Internet
 
Arcane e commerce2020_bs
Arcane e commerce2020_bsArcane e commerce2020_bs
Arcane e commerce2020_bs
 
prez 366 retail morning
prez 366 retail morningprez 366 retail morning
prez 366 retail morning
 
Petit déjeuner Galigeo 2018 - Témoignage 20 minutes
Petit déjeuner Galigeo 2018 - Témoignage 20 minutesPetit déjeuner Galigeo 2018 - Témoignage 20 minutes
Petit déjeuner Galigeo 2018 - Témoignage 20 minutes
 
Comment optimiser la performance de son réseau (points de vente, agences, dis...
Comment optimiser la performance de son réseau (points de vente, agences, dis...Comment optimiser la performance de son réseau (points de vente, agences, dis...
Comment optimiser la performance de son réseau (points de vente, agences, dis...
 
Se développer de façon rentable sur Internet
Se développer de façon rentable sur InternetSe développer de façon rentable sur Internet
Se développer de façon rentable sur Internet
 
Doxa inter2019-le e-marketing performant
Doxa inter2019-le e-marketing performantDoxa inter2019-le e-marketing performant
Doxa inter2019-le e-marketing performant
 
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...
 
Multicanal: Concept & démarrage
Multicanal: Concept & démarrage Multicanal: Concept & démarrage
Multicanal: Concept & démarrage
 
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013Multicanal : concept & démarrage - Idaho Consulting - octobre 2013
Multicanal : concept & démarrage - Idaho Consulting - octobre 2013
 
Le Multicanal, concept & démarrage
Le Multicanal, concept & démarrage Le Multicanal, concept & démarrage
Le Multicanal, concept & démarrage
 
Marketing Digital : les enjeux en 2021
Marketing Digital : les enjeux en 2021Marketing Digital : les enjeux en 2021
Marketing Digital : les enjeux en 2021
 
Les Enjeux du Data Marketing
Les Enjeux du Data MarketingLes Enjeux du Data Marketing
Les Enjeux du Data Marketing
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente
3 Méthodes Innovantes pour Prédire le Chiffre d'Affaires de ses Points de Vente
 
Présentation Aperitics 23-02-2015: Le Web To Store
Présentation Aperitics 23-02-2015: Le Web To StorePrésentation Aperitics 23-02-2015: Le Web To Store
Présentation Aperitics 23-02-2015: Le Web To Store
 

Big Data à destination du secteur commercial

  • 2. 2 Plan 2. Scoring 4. Volume 3. Résultat 1. Objectif 5. Tâches
  • 4. 5 Pistes d’amélioration de l’efficacité • Détection de fraude • Recommandation • Simplification du parcours dans le site • Bonnes pistes de diversification • Politique d’achat
  • 5. 7 Données • Visite/intérêt • Chemin de visite/Nb de visites • Achat • Achat simultané/Nb de ventes • Comportement • Source/Nb de clics dans une zone • Concurrence • Proximité d’enseignes concurrentes proches du client/Prix chez la concurrence • Fournisseurs (prix des fournisseurs) • Fournisseurs approvisionnés pour un article/Prix min d’un article chez tous les fournisseurs • Tendances • Dénominations vestimentaires les plus employées dans les blogs/Facteur d’évolution des ventes depuis le mois dernier • Communication / service après vente • Tweets ayant provoqué le plus de réactions/Nb de retours par article
  • 6. 8 L’analyse de données, quel intérêt ? Visite/intérêt Achat Comportement Concurrence Fournisseurs (prix des fournisseurs) Tendances Achat Que se mettre à acheter, produits subissant une hausse d'intérêt non anticipée ? Comporteme nt Quel fonctionnalités sont les plus utilisées selon le type d'objet recherché ? Quels sont les comportements qui traduisent un achat futur ? Concurrence Somme-nous considérés par les clients pour les produits à forte concurrence (SEO) ? Quels sont les produits sur lesquels il sera possible d'augmenter les marges ? Quelles fonctionnalités sont à privilégier pour les produits les plus concurrentiels ? Fournisseurs (prix des fournisseurs) Quel est la réaction des fournisseurs vis-à-vis de l'évolution de l'attractivité de leurs produits ? Sera-t-il possible d'écouler le stock si on passe une plus grosse commande à prix réduit ? Les visiteurs appréciant une marque particulière ont-ils des caractéristiques propres ? Les concurrents bénéficient-ils de conditions plus favorables de la part des fournisseurs ? Tendances Nos clients sont-ils des hipsters ou des suiveurs/no fashion ? Nos clients sont-ils sensibles aux tendances ? Les hipsters ont-ils des comportements spécifiques ? Les concurrents ont- ils mieux anticipé les tendances que nous ? Les fournisseurs ont- ils anticipé les tendances ? Communicati on / service après vente Quels sont les produits qui provoquent le plus de requêtes SAV, commentaires, demandes de renseignement ? Y a-t-il des produits qui buzzent mais que les gens évitent ? Quels comportements traduisent un besoin de se renseigner ? Génère-t-on autant de commentaires que la concurrence ? Quels fournisseurs sont à éviter pour éviter les retours ? Sur quels produits communiquer ? Y a-t-il des nouveaux produits qui génèrent du buzz/de l'intérêt/des pannes ?
  • 7. 9 Décisions • Achats • Stocks • Prix • Enchères et mots-clés publicitaires • Communication • Ergonomie
  • 9. 11 Paradigme éprouvé Données atomiques Données agrégée (group by/OLAP) selon des catégories métier (ventes par région/secteur…)
  • 10. 12 Chaque information supplémentaire introduite est susceptible d’éclairer le décideur • Quels sont les produits que les gens achètent le plus ? (du papier toilette) • +temps -> Quels sont les produits que les gens achètent le plus en ce moment ? (des glaces) • +age -> Quels sont les produits que les gens de votre âge achètent le plus ? (du coca-cola) • +nb d’enfants -> des barres chocolatées • recommandations plus pertinentes • Quels sont les produits que, compte tenu de vos caractéristiques, vous êtes plus susceptible d’acheter qu’une autre personne qui aurait des caractéristiques proches MOINS une caractéristique précise.
  • 11. 14 Distribution réelle vs. Distribution aléatoire • Dans les graphes • Dans les nombres • Via la variance/l’inertie • Comme dans d’autres domaines… • Reconnaissance de visages
  • 12. 15 Principe • L’important n’est pas les chiffres mais l’inégalité entre les chiffres. • Au point que si toutes les valeurs sont égales aucun résultat ne peut être calculé. • Importance des proportions, pas des chiffres dans l’absolu. • Insensible aux combinaisons linéaires • Données nomalisées
  • 13. 16 Un recul sur les graphes • Méthode efficace • La parallélisation n’est même pas considérée comme nécessaire. http://ej.iop.org/images/1742-5468/2008/10/P10008/Full/9239901.jpg
  • 14. 17 Exemple Voice on the Border: Do Cellphones Redraw the Maps? Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew Smoreda, Paul Van Dooren & Cezary Ziemlicki / Researchers, Catholic University of Louvain (Belgium) and Orange Labs / November 15th, 2011 http://www.paristechreview.com/2011/11/15/voice-border-cellphones-redraw-maps/ Détection de communautés basée sur les communications par téléphones portables (données issues des communications inter-antennes)
  • 15. 18 Relations en eCommerce • Co-achats, produits visités les uns à la suite des autres, comptes, graphe visiteur-commentaire, produits notés par une même personne, produits d’une même marque, produits partageant X mots dans leur intitulé, distance entre les points de livraison, produits d’un même fournisseur qui se sont vu être hors stock en même temps (valué par le nombre de jours), clients atteints par les opérations commerciales • Nb d’attributs RDF partagés par les articles, distance des articles entre eux dans l’arborescence du magasin, quels sont les paires de produits co-visités le plus souvent par les personnes qui cherchent un parasol ?, quels sont les termes de recherche qui ont été le plus co-recherchés par les visiteurs
  • 16. 19 Niches de ROI • Segmentation • Automatisation • SEO • Accélérer la navigation • Recommandation/sérendipité • Eviter les ambiguïtés dans les BDD • Eviter la fraude • Aider à la prise de décision
  • 17. 20 Choix des variables • On choisit éventuellement un sous-ensemble des données • On choisit un ensemble de relations et d’attributs positifs par rapport au but • Par exemple, la vente d’un produit et leur co-visite par un même utilisateur • On choisit un ensemble de relations et d’attributs négatifs par rapport au but • Par exemple, le coût en publicité pour chaque produit et le ratio « page de sortie » pour le produit. • On propose un synthèse à travers laquelle les relations et les attributs ont été normalisés •  intérêt de proposer des articles en prenant simultanément plusieurs facteurs a priori indépendants et complémentaires, basés sur leur popularité et leur coût de promotion.
  • 18. 21 Choix des variables (suite) • Possibilité de prendre en compte le temps en choisissant : • Positif • Le CA par rayon du mois dernier • Négatif • Le CA par rayon du même mois de l’année dernière • On fait ressortir les plus fortes hausses et les plus fortes baisses, en les détectant des communautés de rayons selon ce critère.
  • 20. 24 Visualisation • Communautés • Hiérarchies de communautés • Listes • Nuages de tags • (dendogrammes) • …
  • 22. 27 Données Rayon, CA en k€ Puériculture 84 Hifi 98 Maquillage 45 Sous-vêtements 41 Co-achat (rayon A, rayon B, nb de « co-achats ») Puériculture Hifi 2 Maquillage Puériculture 45 Hifi Sous-vêtements 14 Maquillage Sous-vêtements 15 On pourra déduire de ces données quels sont les articles secondaires à promouvoir en catalogue si on veut intéresser les gens qui dépensent dans un rayon à fort CA, sans trop mettre en avant les rayons à fort CA eux- mêmes.
  • 23. 28 MapReduce est limité ici • MapReduce n’est pas adapté aux opérations sur les graphes • Le nombre d’itérations est important pour le traitement parallélisé de graphes • La matérialisation de résultats intermédiaires à chaque itération MapReduce pénalise les performances
  • 24. 29 Pregel (Google) « Think like a vertex »
  • 25. 30 Une itération dans Pregel/Giraph
  • 26. 31 Processing • BigData sur des graphes : un sujet émergeant • Des plateformes • Apache Giraph • GraphX pour Spark • PostDocs, stage • Projets préliminaires
  • 28. 33 GraphX a pour ambition d’unifier les 2 paradigmes
  • 30. 35 Tâches • PoC • Démonstration de pertinence • Viabilité du passage à l’échelle • Data processing • Infrastructure de traitement des données • Map() • Reduce() • Comportement Giraph/GraphX • …ou autre chose (temps réel…) • Gestion de l’intelligence intermachines/intercommunautés
  • 31. 36 Tâches (suite) • UX / UI design • Visualisation / Interface de commande • Interfaçage • Interface avec des outils existants • Pour un déploiement • Définition d’un catalogue d’attributs/liens pertinents, politique d’interprétation des données manquantes, un mode d’interrogation (batch/interactif)
  • 32. 37 Conclusion Production de communautés multi-échelles à partir de données positives et négatives, voire temporelles Paradigme de calcul très récent (publié en 2010 par Google) et utilisé par Yahoo, Facebook, LinkedIn, Twitter Production de communautés répondant aux critères, visant l’intéractivité et la hiérarchisation automatique des données Repose sur un principe d’auto-organisation Plateforme pour l’ntelligence décisionnelle, adaptable et permettant l’analyse de données sous forme de relations et d’attributs numériques