A quelles question le BigData peut-il répondre ? Quels outils utiliser ? Comment traiter les données liées ? Quels sont les outils de machine learning qui peuvent vous être utiles ?
Voici une présentation que j'ai faite dans la préparation d'un entretien d'embauche. N'ayant aucune nouvelle depuis elle a toute sa place sur Slideshare :-/
4. 5
Pistes d’amélioration de
l’efficacité
• Détection de fraude
• Recommandation
• Simplification du parcours dans le site
• Bonnes pistes de diversification
• Politique d’achat
5. 7
Données
• Visite/intérêt
• Chemin de visite/Nb de visites
• Achat
• Achat simultané/Nb de ventes
• Comportement
• Source/Nb de clics dans une zone
• Concurrence
• Proximité d’enseignes concurrentes proches du client/Prix chez la concurrence
• Fournisseurs (prix des fournisseurs)
• Fournisseurs approvisionnés pour un article/Prix min d’un article chez tous les
fournisseurs
• Tendances
• Dénominations vestimentaires les plus employées dans les blogs/Facteur
d’évolution des ventes depuis le mois dernier
• Communication / service après vente
• Tweets ayant provoqué le plus de réactions/Nb de retours par article
6. 8
L’analyse de données, quel intérêt ?
Visite/intérêt Achat Comportement Concurrence
Fournisseurs
(prix des
fournisseurs) Tendances
Achat
Que se mettre à acheter,
produits subissant une hausse
d'intérêt non anticipée ?
Comporteme
nt
Quel fonctionnalités sont les
plus utilisées selon le type
d'objet recherché ?
Quels sont les
comportements qui
traduisent un achat futur ?
Concurrence
Somme-nous considérés par les
clients pour les produits à forte
concurrence (SEO) ?
Quels sont les produits sur
lesquels il sera possible
d'augmenter les marges ?
Quelles fonctionnalités sont à
privilégier pour les produits les
plus concurrentiels ?
Fournisseurs
(prix des
fournisseurs)
Quel est la réaction des
fournisseurs vis-à-vis de
l'évolution de l'attractivité de
leurs produits ?
Sera-t-il possible d'écouler
le stock si on passe une
plus grosse commande à
prix réduit ?
Les visiteurs appréciant une
marque particulière ont-ils des
caractéristiques propres ?
Les concurrents
bénéficient-ils de
conditions plus
favorables de la part
des fournisseurs ?
Tendances
Nos clients sont-ils des hipsters
ou des suiveurs/no fashion ?
Nos clients sont-ils
sensibles aux tendances ?
Les hipsters ont-ils des
comportements spécifiques ?
Les concurrents ont-
ils mieux anticipé les
tendances que nous ?
Les fournisseurs ont-
ils anticipé les
tendances ?
Communicati
on / service
après vente
Quels sont les produits qui
provoquent le plus de requêtes
SAV, commentaires, demandes
de renseignement ?
Y a-t-il des produits qui
buzzent mais que les gens
évitent ?
Quels comportements
traduisent un besoin de se
renseigner ?
Génère-t-on autant
de commentaires que
la concurrence ?
Quels fournisseurs
sont à éviter pour
éviter les retours ?
Sur quels produits
communiquer ?
Y a-t-il des nouveaux
produits qui génèrent
du buzz/de
l'intérêt/des pannes
?
10. 12
Chaque information supplémentaire
introduite est susceptible d’éclairer le
décideur
• Quels sont les produits que les gens achètent le plus ?
(du papier toilette)
• +temps -> Quels sont les produits que les gens achètent le plus en
ce moment ? (des glaces)
• +age -> Quels sont les produits que les gens de votre âge achètent
le plus ? (du coca-cola)
• +nb d’enfants -> des barres chocolatées
• recommandations plus pertinentes
• Quels sont les produits que, compte tenu de vos
caractéristiques, vous êtes plus susceptible d’acheter
qu’une autre personne qui aurait des caractéristiques
proches MOINS une caractéristique précise.
11. 14
Distribution réelle vs. Distribution
aléatoire
• Dans les graphes
• Dans les nombres
• Via la variance/l’inertie
• Comme dans d’autres domaines…
• Reconnaissance de visages
12. 15
Principe
• L’important n’est pas les chiffres mais
l’inégalité entre les chiffres.
• Au point que si toutes les valeurs sont égales
aucun résultat ne peut être calculé.
• Importance des proportions, pas des
chiffres dans l’absolu.
• Insensible aux combinaisons linéaires
• Données nomalisées
13. 16
Un recul sur les graphes
• Méthode efficace
• La parallélisation n’est
même pas considérée
comme nécessaire.
http://ej.iop.org/images/1742-5468/2008/10/P10008/Full/9239901.jpg
14. 17
Exemple
Voice on the Border: Do Cellphones Redraw the Maps?
Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew Smoreda, Paul Van Dooren & Cezary Ziemlicki / Researchers, Catholic University of Louvain (Belgium) and Orange Labs / November 15th, 2011
http://www.paristechreview.com/2011/11/15/voice-border-cellphones-redraw-maps/
Détection de communautés
basée sur les communications
par téléphones portables
(données issues des
communications inter-antennes)
15. 18
Relations en eCommerce
• Co-achats, produits visités les uns à la suite des autres,
comptes, graphe visiteur-commentaire, produits notés
par une même personne, produits d’une même
marque, produits partageant X mots dans leur intitulé,
distance entre les points de livraison, produits d’un
même fournisseur qui se sont vu être hors stock en
même temps (valué par le nombre de jours), clients
atteints par les opérations commerciales
• Nb d’attributs RDF partagés par les articles, distance
des articles entre eux dans l’arborescence du magasin,
quels sont les paires de produits co-visités le plus
souvent par les personnes qui cherchent un parasol ?,
quels sont les termes de recherche qui ont été le plus
co-recherchés par les visiteurs
16. 19
Niches de ROI
• Segmentation
• Automatisation
• SEO
• Accélérer la navigation
• Recommandation/sérendipité
• Eviter les ambiguïtés dans les BDD
• Eviter la fraude
• Aider à la prise de décision
17. 20
Choix des variables
• On choisit éventuellement un sous-ensemble des
données
• On choisit un ensemble de relations et d’attributs
positifs par rapport au but
• Par exemple, la vente d’un produit et leur co-visite par un
même utilisateur
• On choisit un ensemble de relations et d’attributs
négatifs par rapport au but
• Par exemple, le coût en publicité pour chaque produit et le
ratio « page de sortie » pour le produit.
• On propose un synthèse à travers laquelle les relations
et les attributs ont été normalisés
• intérêt de proposer des articles en prenant simultanément
plusieurs facteurs a priori indépendants et complémentaires,
basés sur leur popularité et leur coût de promotion.
18. 21
Choix des variables (suite)
• Possibilité de prendre en compte le temps en
choisissant :
• Positif
• Le CA par rayon du mois dernier
• Négatif
• Le CA par rayon du même mois de l’année dernière
• On fait ressortir les plus fortes hausses et les plus
fortes baisses, en les détectant des communautés
de rayons selon ce critère.
22. 27
Données
Rayon, CA en k€
Puériculture 84
Hifi 98
Maquillage 45
Sous-vêtements 41
Co-achat (rayon A, rayon B, nb de « co-achats »)
Puériculture Hifi 2
Maquillage Puériculture 45
Hifi Sous-vêtements 14
Maquillage Sous-vêtements 15
On pourra déduire de ces données quels sont les articles secondaires à
promouvoir en catalogue si on veut intéresser les gens qui dépensent dans
un rayon à fort CA, sans trop mettre en avant les rayons à fort CA eux-
mêmes.
23. 28
MapReduce est limité ici
• MapReduce n’est pas adapté aux
opérations sur les graphes
• Le nombre d’itérations est important
pour le traitement parallélisé de
graphes
• La matérialisation de résultats
intermédiaires à chaque itération
MapReduce pénalise les
performances
30. 35
Tâches
• PoC
• Démonstration de pertinence
• Viabilité du passage à l’échelle
• Data processing
• Infrastructure de traitement des données
• Map()
• Reduce()
• Comportement Giraph/GraphX
• …ou autre chose (temps réel…)
• Gestion de l’intelligence
intermachines/intercommunautés
31. 36
Tâches (suite)
• UX / UI design
• Visualisation / Interface de commande
• Interfaçage
• Interface avec des outils existants
• Pour un déploiement
• Définition d’un catalogue d’attributs/liens pertinents,
politique d’interprétation des données manquantes, un
mode d’interrogation (batch/interactif)
32. 37
Conclusion
Production de communautés multi-échelles à partir de
données positives et négatives, voire temporelles
Paradigme de calcul très récent (publié en 2010 par
Google) et utilisé par Yahoo, Facebook, LinkedIn, Twitter
Production de communautés répondant aux critères,
visant l’intéractivité et la hiérarchisation automatique des
données
Repose sur un principe d’auto-organisation
Plateforme pour l’ntelligence décisionnelle, adaptable et
permettant l’analyse de données sous forme de relations
et d’attributs numériques