SlideShare a Scribd company logo
1 of 95
Download to read offline
DATA MINING
FOUILLE DE DONNÉES
4 ERP-BI, 4 INFINI , 4 SIGMA
2015- 2016
Mohamed Heny SELMI
Enseignant à ESPRIT
medheny.selmi@esprit.tn
Et si on veut aller plus loin :
Décider !
Mohamed Heny Selmi
Mohamed Heny Selmi
DÉFINITION
C’est l’ensemble des algorithmes, méthodes et technologies
inspirés de plusieurs autres disciplines, propres ou non au dm
pouvant servir à remplacer ou à aider l’expert humain ou le
décideur dans un domaine spécifique dans le cadre de prise de
décision, et ce en fouillant dans des bases de données
décisionnelles des corrélations, des associations, des
comportements homogènes, des formules de lien entre
indicateurs, des spécification par rapport à une thématique bien
déterminée, etc.
Cet ensemble de techniques peut être une étape fondamentale
dans tout processus ECD ( KDD) ou bien l’intervention de
l’intelligence artificielle, la reconnaissance de forme, et la
statistique décisionnelle dans tout processus de Business
Intelligence afin de transformer tout système d’aide à la décision
en un système DECISONNEL au vrai sens du mot.
Mohamed Heny Selmi
ENJEUX
- Simplifier la production de données ou
informations structurées et porteuses de
sens
- Créer du sens et des connaissances à partir
de données non enrichies et non structurées
- Analyser des tendances sur la durée
- Permettre la création de modèles sur des
historiques de données
- Analyse prédictive
Mohamed Heny Selmi
DONNÉES, INFORMATIONS, CONNAISSANCES
un élément
brut, qui n’a
pas encore été
interprétée,
mis en
contexte.
une information
comprise,
assimilée et
utilisée,
qui permet
d’aboutir à une
action :
DECISION
données
Connaissances
Donnée :
Client3 : âge = âgé, Niveau d’études = non
Information :
37,5 % des Clients consultent leurs comptes
bancaires sur le Web.
Connaissance :
SI E=non ALORS I= non
SI E=oui ET A=moyen ALORS I=oui
SI E=oui ET A=âgé ALORS I=non
SI A=oui ET A=jeune ALORS I=ouiMohamed Heny Selmi
ASPECT PLURIDISCIPLINAIRE
Data
Mining
Ingénierie de
Connaissances
Intelligence
Artificielle
Reconnaissance
des Formes
SGBDStatistiques
Probabilités
GL
Mohamed Heny Selmi
EXTENSION DU DATA MINING
Data
Mining
Web-Text-
opinion mining
Séries
Temporelles
Web
Sémantique
Big Data
Social Network
AnalysisSentimental and
Semantic
Analysis
Graphe de
connaissances
Mohamed Heny Selmi
APPLICATIONS
DU DATA MINING
Mohamed Heny Selmi
Data Mining
Analyse
Descriptive
Analyse de
données
Segmentation
Associativité
Analyse
Prédictive
Régression
Classification
Scoring
APPLICATIONS DE BASE DU DATA MINING
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
factorielle
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
factorielle
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
REPORTING ANALYTIQUE
Résumer et visualiser l’activité
de l’entreprise à travers
des indicateurs pertinents
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
factorielle
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
Aucune variable décisionnelle, information quantitative
• Les variables d’entrées servent à créer des groupes homogènes
• Les individus de chaque groupe se ressemblent le plus
• Les groupes d’appartenances obtenus se distinguent le plus
La Segmentation a pour objectifs :
•Trouver les variables métiers influençant la répartition en groupes
•Affecter les individus à leurs nouveaux groupes d’appartenance
Plusieurs méthodes et techniques pour segmenter :
•Partionnement : k-means
•Hiérarchique : CAH
SEGMENTATION
Mohamed Heny Selmi
Trouver les comportements typiques des clients.
SEGMENTATION – TYPOLOGIE
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
factorielle
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
ANALYSE DU CHARIOT
Recherche des articles
les plus/moins associés
Mohamed Heny Selmi
MÉDECINE
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
La variable décisionnelle est qualitative
• Un dossier de crédit peut être classifié : BON ou MAUVAIS
• Un patient peut présenter un fort risque de maladie cardiaque
• Un client peut présenter un comportement atypique
La Classification a pour objectifs :
• Détecter les variables possédant un lien fort avec la variable décisionnelle
• Construire un modèle de classification liant ces variables à la décision
Plusieurs méthodes et techniques pour classifier :
• Arbre de décision
• Forêts Aléatoires
• K-NN k-nearest neighbors
• Séparateur à vaste Marge SVM
• Régression Logistique
CLASSIFICATION
Mohamed Heny Selmi
Déterminer ce qui
caractérise un groupe
particulier de clients
CLASSIFICATION – PROFILING
Mohamed Heny Selmi
Segmentation
Clustering
Classification
Associativité Régression
Analyse
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
EVALUATION DE CAMPAGNES DE TERRAIN
Déterminer l'efficacité de la communication avec les
clients.
Mohamed Heny Selmi
MARKETING CIBLÉ
Optimiser les chances d'obtenir des réponses (positives) de la
part des clients à une offre particulière par un ciblage plus précis,
mettant en évidence les clients avec une forte probabilité de
réponse.
Mohamed Heny Selmi
DATA MINING ET CRM
Le datamining a beaucoup d'applications qui peuvent
apporter un soutien considérable au marketing et à la gestion
de la relation client
- faire correspondre des profils des clients avec des «offres
produits» afin d’augmenter le taux de conversion : cross selling
Mohamed Heny Selmi
Segmentation
Clustering
Classement
Classification
Associativité Régresion
Analyse
APPLICATIONS DE BASE DU DATA MINING
Scoring
Mohamed Heny Selmi
La variable décisionnelle est quantitative
•Prédire les tendances salariales la prochaine année
•Prédire le meilleur pourcentage de réduction de coûts
•Construire un modèle générique pour l’estimation de la consommation de carburant
La régression a pour objectifs :
•Détecter les variables possédant un lien fort avec la variable cible
•Construire un modèle prédictif avec l’ensemble des variables
pertinentes afin de prédire la variable d’intérêt
•Détecter les individus atypiques ou les aberrances
Régression Linéaire
• Méthode des moindres carrés
• Meilleurs prédicteurs
RÉGRESSION LINÉAIRE
Mohamed Heny Selmi
Déterminer le prix "optimal"
convenable pour un produit.
PRICING
Mohamed Heny Selmi
ANALYSE COÛTS-BÉNÉFICES
Identifier les produits et les campagnes les plus rentables
Mohamed Heny Selmi
DATA MINING
POUR LA
FINANCE
Mohamed Heny Selmi
Gestion de risque - évaluer un risque de défaut. Au delà des techniques
classiques de scoring, d'autre techniques de modélisation issues de
l'intelligence artificielle permettent d'augmenter la maitrise de ces risques.
Crédit scoring - évaluer le risque de non remboursement (technique data
mining la plus déployée)
Détection de fraudes - identifier plus facilement et plus rapidement les
éventuelles transactions frauduleuses
Segmentation - améliorer la connaissance de vos clients par la découverte de
groupes homogènes et par une caractérisation selon leur profil
Prédiction - prévoir quels clients seront intéressés par une offre
Mohamed Heny Selmi
 Détection d'usage frauduleux de cartes
bancaires.
 Gestion du risque lié à l'attribution de prêts par
le scoring.
 Découverte de relations cachées entre les
indicateurs financiers.
 Détection de règles de comportement boursier
par l'analyses des données du marché.
 Utilisation du score de risque pour proposer le
montant de crédit le plus adapté à chaque client.
 Aide à la décision de paiement.
 Meilleur taux de réponse des campagnes
marketing.
 Découverte de segments de clientèle.
 Adaptation de la communication marketing à
chaque segment de clientèle.
 Identification des clients susceptibles de partir à
la concurrence.
Vente,
Distribution,
Marketing
Assurances et
santé
Prise de Décision,
Prédiction,
Exploitation de
données, etc.
Banques
Finances
Mohamed Heny Selmi
 Détection d'associations de
comportements d'achat
 Découverte de caractéristiques de
clientèle.
 Prédiction de probabilité de réponse
aux campagnes de mailing.
Vente,
Distribution,
Marketing
Assurances et
santé
Prise de Décision,
Prédiction,
Exploitation de
données, etc.
Banques
Finances
Mohamed Heny Selmi
 Découverte d'associations des
demandes de remboursements
 Identification de clients potentiels de
nouvelles polices d'assurances.
 Détection d'association de
comportements pour la découverte de
clients à risque.
 Détection de comportement
frauduleux.
 Prendre un client à un concurrent.
 Faire monter en gamme un client que
l’on détient déjà.
Vente,
Distribution,
Marketing
Assurances
Prise de
Décision,
Prédiction,
Exploitation de
données, etc.
Banques
Finances
Mohamed Heny Selmi
LES
MÉTHODES
DATA MINING
Mohamed Heny Selmi
DEUX FAMILLES DE TECHNIQUES
APPRENTISSAGE
AUTOMATIQUE
ANALYSE DESCRIPTIVE
 S’appliquent seulement sur les
données quantitatives.
 Fournissent directement des
résultats : à interpréter et à utiliser !
 visent à mettre en évidence des
connaissances présentes mais
cachées par le volume des données
 réduisent, résument, synthétisent
les masses de données
 pas de variable « cible »
APPRENTISSAGE
SUPERVISÉES
ANALYSE PRÉDICTIVE
 Fournissent un modèle (et non pas
des résultats), créé à partir d’un
entrepôt d’apprentissage, testé et
validé sur un entrepôt de test, et
utilisé dans les problèmes de prise de
décision sur des entrepôts de travail
 visent à découvrir de nouvelles
informations à partir des
informations présentes :
connaissances, décisions
 expliquent mieux les données
 Une(des) variable(s) « cible(s)»
Mohamed Heny Selmi
TYPES D’APPLICATIONS
Techniques
Non Supervisées
Pas de variables cibles
Segmentation
Classification Automatique
Étude des
corrélations
Analyse en
lignes/colonnes
Association
Recherche des items
fréquents
Techniques
Supervisées
Selon la catégorie des
variables cibles
Discrimination
Scoring
Variable « cible » qualitative
Classification
Variable « cible » qualitative
Régression
Variable « cible » quantitative
Mohamed Heny Selmi
Méthodes
Non Supervisées
Analyse en Composantes
Principales
ACP
Méthodes des Centres
Mobiles
K-means
Classification Ascendante
Hiérarchique
CAH
Règles
Associatives
Apriori
Méthodes
Supervisées
Arbres de Décisions
Analyse Linéaire Discriminante
Régression
Plus Proche voisin kNN
Réseaux de Neurones
Séparateur à Vaste Marge
SVM
DEUX FAMILLES DE TECHNIQUES
Mohamed Heny Selmi
Entrepôt de données
Méthodes Non Supervisées Méthodes Supervisées
Analyse en Composantes Principales ACP
 Apprentissage Automatique
 Méthode descriptive
 Données purement quantitatives
 Obtention de Corrélations
 Relations :
i. (Ii, Ij),
ii. (Ii, Xk),
iii. (Xk,Xp)
Mohamed Heny Selmi
Entrepôt de données
Méthodes Non Supervisées Méthodes Supervisées
 Apprentissage Automatique
 Méthode descriptive
 Obtention d’une nouvelle affection/appartenance
 Groupes d’individus possédant des caractéristiques semblables : meilleure
classification
 Mise à jour de l’entrepôt en Input : ajouter la nouvelle caractéristique des
individus
Méthodes de Segmentation
(Classification Automatique)
Mohamed Heny Selmi
Entrepôt de données
Méthodes Non Supervisées Méthodes Supervisées
 Apprentissage Automatique
 Méthode descriptive
 Données Transactionnelles
 Obtention d’un ensemble de règles expliquant l’associativité/correspondance
entre les items/produits/profils
 Trier les règles selon des indicateurs de performances
Règles Associatives
(algorithme apriori)
Mohamed Heny Selmi
Entrepôts de données
Méthodes Non Supervisées Méthodes Supervisées
Entrepôt d’apprentissage : présentant une variable décisionnelle Yréelle
Entrepôt de test
Entrepôt de travail
Méthodes Supervisées :
i. Arbre de Décision
ii. Régression
iii. Analyse Discriminante LDA
iv. Réseaux de Neurones NN
v. Séparateur à vaste marge SVM
vi. Plus proche voisin k-NN
Etc.
Modèle de Classification ou de Prédiction :
 Ensemble de règles décisionnelles
 Formule mathématique / Y=f(Xi)
 Formulations de Score / ScoreA, ScoreB,
etc.
 Equation d’un plan séparateur
 Résultat d’un algorithme itératif
Mohamed Heny Selmi
Entrepôts de données
Méthodes Non Supervisées Méthodes Supervisées
Entrepôt d’apprentissage
Entrepôt de test : présentant une variable décisionnelle Yréelle
Entrepôt de travail
 Appliquer le modèle construit pour obtenir les
valeurs de la variable décisionnelle Yprédite
 Comparer les deux colonnes Yréelle et Yprédite
 Valider le modèle
Mohamed Heny Selmi
Entrepôts de données
Méthodes Non Supervisées Méthodes Supervisées
Entrepôt d’apprentissage
Entrepôt de test : présentant une variable décisionnelle Yréelle
Entrepôt de travail : ne contenant pas les valeurs de la variable décisionnelle
 Appliquer le modèle construit pour obtenir les
valeurs de la variable décisionnelle Ydéfinitive
Mohamed Heny Selmi
LES LOGICIELS PROFESSIONNELS
Critères de comparaison :
 Temps de réponse
 Payant ou gratuit
 Extensibilité
 Richesse en terme de méthodes
 Souplesse du paramétrage des méthodes appliquées
Mohamed Heny Selmi
MÉTHODOLOGIES
DE TRAVAIL
Mohamed Heny Selmi
KDD / ECDKNOWLEDGE DATA DISCOVERY
EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES
DÉFINITION
PHASES PRINCIPALES
APPLICATION
Mohamed Heny Selmi
KDD:
DÉFINITION
Knowledge Discovery in Databases
• proposé par Ossama Fayyad en 1996
• un processus pour la fouille de données qui a bien répondu
aux besoins d’entreprises, et qui est devenu rapidement
très populaire.
• KDD a comme but l’extraction des connaissances,
• des motifs valides, utiles et exploitables à partir des grandes
quantités de données
• par des méthodes automatiques ou semi-automatiques.
Mohamed Heny Selmi
• Le processus de KDD est itératif et interactif.
• Le processus est itératif : il peut être nécessaire de refaire les
pas précédents.
• Le problème de ce processus, comme pour les autres
présentés dans la section suivante, est le manque de guidage
de l’utilisateur, qui ne choisit pas à chaque étape la meilleure
solution adaptée pour ses données.
KDD:
DÉFINITION
Mohamed Heny Selmi
KDD:
PHASES PRINCIPALES
Sélection
Prétraitement
Transformation
Fouille de
données
Evaluation et
interprétation
Mohamed Heny Selmi
1. Développer et comprendre le domaine de
l’application
C’est le pas initial de ce processus. Il prépare la scène pour
comprendre et développer les buts de l’application.
KDD:
PHASES PRINCIPALES
Mohamed Heny Selmi
2. Sélection des données
La sélection et la création d’un ensemble de données sur lequel
va être appliqué le processus d’exploration.
KDD:
PHASES PRINCIPALES
Données ciblées
Mohamed Heny Selmi
3. Le prétraitement et le nettoyage des données
Cette étape inclut des opérations comme l’enlèvement du
bruit et des valeurs aberrantes -si nécessaire, des décisions sur
les stratégies qui vont être utilisées pour traiter les valeurs
manquants...
KDD:
PHASES PRINCIPALES
Données prétraitées
Mohamed Heny Selmi
4. La transformation des données
Cette étape est très importante pour la réussite du projet et
doit être adaptée en fonction de chaque base de données et
des objectifs du projet.
Dans cette étape nous cherchons les méthodes correctes pour
représenter les données. Ces méthodes incluent la réduction
des dimensions et la transformation des attributs.
Une fois que toutes ces étapes seront terminées, les
étapes suivantes seront liées à la partie de Data mining, avec
une orientation sur l’aspect algorithmique.
KDD:
PHASES PRINCIPALES
Données transformées
Mohamed Heny Selmi
5. Choisir la meilleure tâche pour Datamining
Nous devons choisir quel type de Datamining sera utilisé, en
décidant le but du modèle.
Par exemple : classification, régression, regroupement...
KDD:
PHASES PRINCIPALES
Mohamed Heny Selmi
6. Choisir l’algorithme de Datamining
Dans cette étape nous devons choisir la méthode spécifique
pour faire la recherche des motifs, en décidant quels modèles et
paramétrés sont appropriés.
KDD:
PHASES PRINCIPALES
Modèles
Mohamed Heny Selmi
7. Implémenter l’algorithme de Datamining
Dans cette étape nous implémentons les algorithmes de
Datamining choisis dans l’étape antérieure.
Peut être il sera nécessaire d’appliquer l’algorithme plusieurs
fois pour avoir le résultat attendu.
KDD:
PHASES PRINCIPALES
Mohamed Heny Selmi
8. Evaluation
Evaluation et interprétation des motifs découverts.
Cette étape donne la possibilité de:
• Retourner à une des étapes précédentes
• Avoir une représentation visuelle des motifs, enlever les
motifs redondants ou non-représentatifs et les
transformer dans des termes compréhensibles pour
l’utilisateur.
KDD:
PHASES PRINCIPALES
Connaissances
Mohamed Heny Selmi
9. Utiliser les connaissances découvertes
Incorporation de ces connaissances dans des autres systèmes
pour d’autres actions.
Nous devons aussi mesurer l’effet de ces connaissances sur le
système, vérifier et résoudre les conflits possibles avec les
connaissances antérieures.
KDD:
PHASES PRINCIPALES
Mohamed Heny Selmi
KDD:
APPLICATION
Le KDD est devenu lui-même un modèle pour les nouveaux modèles.
Le modèle a été utilisé dans plusieurs domaines
différentes : ingénierie, médicine, e-business,
production, développement du logiciel, etc.
Mohamed Heny Selmi
SEMMA
SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS
MISE EN CONTEXTE
DÉFINITION
PHASES PRINCIPALES
APPLICATION
Mohamed Heny Selmi
SEMMA:
MISE EN CONTEXTE
L’Institut SAS définit le data mining comme le processus utilisé pour révéler
des informations précieuses et des relations complexes qui existent dans de
grandes quantités de données (BIG DATA, OPEN DATA).
SAS divise la fouille de données en cinq étapes
représentées par l’acronyme SEMMA.
Mohamed Heny Selmi
SEMMA:
DÉFINITION
Exploration
statistiques
Visualisation
des données
Sélection
Transformation
des variables
prédictives
Modélisation
des variables
Prédiction
Précision du
modèle
SEMMA
Mohamed Heny Selmi
SEMMA:
PHASES PRINCIPALES
Echantillon des données
Visualisation des
données
Clusturing,
correspondance
Sélection,
création des
variables
Transformation
des données
Réseaux
de
neurones
Modèle à
base
d'arbre
Modèle
logistique
Autres
modèles
Evaluation du modèle
Mohamed Heny Selmi
1. Sample: Echantillon des données
Extrait des échantillons d’un vaste ensemble de données, en
nombre suffisamment grand pour contenir l’information
importante.
SEMMA:
PHASES PRINCIPALES
Mohamed Heny Selmi
2. Explore: Exploitation des données
Cette étape consiste dans l’exploration des données en
recherchant les tendances et les anomalies imprévues afin de
mieux comprendre les données.
SEMMA:
PHASES PRINCIPALES
Mohamed Heny Selmi
3. Modify: Modifier les données
Dans cette étape on modifie les données en créant,
en sélectionnant et en transformant les variables afin
de s’axer sur le processus de sélection de modèles.
SEMMA:
PHASES PRINCIPALES
Mohamed Heny Selmi
4. Model: Modélisation des données
Modélisation des données en permettant au logiciel
de rechercher automatiquement une combinaison
des données qui prédit de façon fiable le résultat
souhaité.
Il y a plusieurs techniques de modélisation: les
réseaux de neurones, arbres de décision, modèles
statistiques - l’analyse en composantes principales,
l’analyse de séries temporelles...
SEMMA:
PHASES PRINCIPALES
Mohamed Heny Selmi
5. Assess: Evaluer le résultat
Cette étape consiste à l’évaluation de l’utilité et la fiabilité des
résultats du processus de DataMining et estime comment il va
s’exécuter.
En évaluant les résultats obtenus à chaque étape du processus
de SEMMA, nous pouvons déterminer la façon de modéliser
les nouveaux problèmes déterminés par les résultats
précédents, et donc de refaire la phase d’exploration
supplémentaire pour le raffinement des données.
SEMMA:
PHASES PRINCIPALES
Mohamed Heny Selmi
 SAS est définie par SEMMA comme l’organisation logique
d’outil SAS Entreprise Miner pour la réalisation des tâches
de DataMining.
 Enterprise Miner peut être utilisé comme une partie de
n’importe quelle méthodologie itérative de DataMining
adoptée par le client.
 Une des différences entre KDD et SEMMA est que SEMMA
est intégré dans l’outil Enterprise Miner et ils n’utilisent pas
d’autres méthodologies, tandis que le KDD est un processus
ouvert qui peut être appliqué dans plusieurs
environnements.
SEMMA:
APPLICATION
Mohamed Heny Selmi
CRISP-DMCROSS INDUSTRY STANDARD PROCESS FOR DATA MINING
DÉFINITION
PHASES PRINCIPALES
EXEMPLE
Mohamed Heny Selmi
CRISP-DM : DÉFINITION
Cross-Industry Standard Process for Data Mining
Une méthode mise à l'épreuve sur le terrain permettant d'orienter
les travaux de Data mining
Processus de data mining qui décrit une approche communément
utilisée par les experts pour résoudre les problèmes qui se posent à
eux.
Mohamed Heny Selmi
PHASES PRINCIPALES
Connaissance
du métier
Connaissance
des données
Préparation des
données
Modélisation des
données
Evaluation
et déploiement
Mohamed Heny Selmi
CRISP-DM : DÉFINITION
 offre un aperçu du
cycle de vie du Data
mining.
 comprend des
descriptions des
phases typiques d'un
projet et des tâches
comprises dans
chaque phase, et une
explication des
relations entre ces
tâches.
Méthodologie Modèle de processus
Mohamed Heny Selmi
CRISP-DM : PHASES PRINCIPALES
Compréhension
des données
Préparation des
données
Modélisation
Evaluation
Déploiement
Compréhension
métier
Données
Mohamed Heny Selmi
1. COMPRÉHENSION MÉTIER
Déterminer les objectifs d'affaires
Résoudre un problème spécifique
Evaluer la situation actuelle
Convertir en un problème de data mining
Quels types de clients sont intéressés par chacun de nos
produits?
Quels sont les profils typiques de nos clients?
Élaborer un plan de projet
Mohamed Heny Selmi
2. COMPRÉHENSION DES
DONNÉES
Collecte de données initiale
Description des données
Exploration des données
Vérification de la qualité des données
Sélection des données
Les données connexes peuvent provenir de nombreuses sources :
Interne (ERP, CRM, Data Warehouse…)
Externe (données commerciales, données du gouvernement…)
Créées (recherche)
Mohamed Heny Selmi
LES ENJEUX DE LA
SÉLECTION DES DONNÉES
Mettre en place une description concise et claire du problème
Identifier les comportements de dépenses des femmes qui achètent
des vêtements saisonniers
Identifier les modèles de la faillite de détenteurs de cartes de crédit
Identifier les données pertinentes pour la description du problème
Données démographiques, données financières…
Les variables sélectionnées pour les données pertinentes doivent être
indépendantes les unes des autres.
Mohamed Heny Selmi
3. PRÉPARATION DES
DONNÉES
Nettoyer les données sélectionnées pour une meilleure qualité
Remplissez les valeurs manquantes
Identifier ou supprimer les valeurs aberrantes
Résoudre la redondance causée par l'intégration des données
Les données incohérentes correctes
Transformer les données
Convertir des mesures différentes de données dans un échelle
numérique unifié en utilisant des formulations mathématiques simples
Mohamed Heny Selmi
LES DONNÉES DANS LE
MONDE RÉEL!
Incomplètes: manque de valeurs d'attributs, manque de certains attributs
d'intérêt ou ne contenant que des agrégats des attributs d’intérêt ou
contenant uniquement des données agrégées
 l'occupation = ""
Bruyantes: contenant des erreurs ou des valeurs aberrantes
Salaire = "- 1000"
Incompatibles: contenant des écarts dans les codes ou les noms
Age = "42" et anniversaire = "03/07/1993"
note =« 1,2,3 » ensuite «A, B, C »
Mohamed Heny Selmi
PRINCIPALES CAUSES
Les données incomplètes peuvent provenir de:
La valeur de données lors de la collecte «Sans objet»
Des considérations différentes entre le moment où les données ont
été collectées et lorsqu‘elles sont analysées.
Problèmes humains / matériels / logiciels
Les données bruyantes (valeurs incorrectes) peuvent provenir de:
Les instruments de collecte de données sont erronés
L'erreur humaine ou informatique à la saisie de données
Les erreurs de transmission de données
Les données incohérentes peuvent provenir de:
Les différentes sources de données
La violation de la dépendance fonctionnelle (par exemple, de modifier
certaines données liées)
Mohamed Heny Selmi
TRANSFORMATION DES
DONNÉES
Transformez le numérique à des échelles numériques
Les échelles salariales de « 100 TND » à « 1000 TND » à un
certain nombre de [0.0, 1.0]
Le système métrique (par exemple, le mètre, kilomètre) au
système anglais (par exemple, des pieds et miles)
Recoder les données catégoriques à des échelles
numériques
"1" = "oui" et "0" = "No"
Mohamed Heny Selmi
4. MODÉLISATION
Traitement des données
Ensemble d'apprentissage
Ensemble de test…
Les techniques de data mining
Association
Classification
Clustering
Prédictions
Les motifs séquentiels
Mohamed Heny Selmi
5. EVALUATION
Est-ce que le modèle répond aux objectifs métier?
Des objectifs métier importants non résolus?
Est-ce que le modèle est logique?
Est-ce que le modèle est actionnable?
Il devrait être possible de prendre des décisions après cette
étape.
Tous les objectifs importants doivent être atteints.
Mohamed Heny Selmi
6. DÉPLOIEMENT /
IMPLÉMENTATION
En cours de suivi et d'entretien
Évaluer la performance par rapport aux critères de réussite
La réaction du marché et les changements des concurrents
Mohamed Heny Selmi
CRISP-DM:
ETUDE DES FACTURES DE TÉLÉPHONE
Problème : Les factures de téléphone non payées.
Le data mining utilisé pour
développer des modèles pour
prédire le non paiement des
factures au plus tôt possible.
Mohamed Heny Selmi
Séquence de période de facturation:
Utilisez 2 mois, recevoir la facture, le paiement du mois de facturation,
débrancher si la facture n'est pas réglée pendant une période
déterminée
CRISP-DM: Exemple
Etude des factures de téléphone
Mohamed Heny Selmi
1. COMPRÉHENSION MÉTIER
Prédire quels clients seraient insolvables
À temps pour l'entreprise pour prendre des mesures préventives
(et d'éviter de perdre de bons clients)
hypothèse:
Clients insolvables vont changer les habitudes d'appel et l'usage
du téléphone pendant une période critique avant et
immédiatement après la fin de la période de facturation.
Mohamed Heny Selmi
2. COMPRÉHENSION DES
DONNÉES
Les informations statiques des clients sont disponibles dans des fichiers
 Factures, paiements, utilisation…
Un entrepôt de données est utilisé pour recueillir et organiser les données
Un codage pour protéger la vie privée des clients
Mohamed Heny Selmi
CRÉATION DE L'ENSEMBLE
DES DONNÉES CIBLES
Les fichiers des clients:
Informations sur les clients
Déconnexion
Reconnexions
Données dépendantes du temps
Factures
Paiements
Utilisation
100, 000 clients sur une période de 17 mois
L'échantillonnage pour assurer à tous les groupes une
représentation appropriée
Mohamed Heny Selmi
3. PRÉPARATION DES
DONNÉES
Filtrer les données incomplètes
Les appels en promotion supprimés
Le volume des données réduit d'environ 50%
Faible nombre des cas de fraude
Vérification croisée avec les déconnexions du téléphone
Les données retardées sont nécessairement synchronisées
Mohamed Heny Selmi
5. MODÉLISATION
Analyse discriminante
Le modèle linéaire
Les arbres de décision
Classificateur à base de règles
Réseaux de Neurones
Le modèle non linéaire
Mohamed Heny Selmi
5. EVALUATION
Premier objectif est de maximiser la précision de la prédiction des
clients insolvables
Arbre de décision un classificateur meilleur
Deuxième objectif est de minimiser le taux d'erreur pour les clients
de solvants
Le modèle Réseau de Neurones proche de l’arbre de décision
Utilisé tous les 3 sur la base de cas par cas.
Mohamed Heny Selmi
6. IMPLÉMENTATION
Chaque client a été examiné avec les 3 algorithmes
Si tous les 3 sont convenables, utiliser une classification
En cas de désaccord, catégorisé comme non classé
Correcte sur les données d'essai avec 0.898
Seulement 1 client solvant aurait été débranché
Mohamed Heny Selmi

More Related Content

What's hot

Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...OmarMOUMINI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Ines Ben Kahla
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordTayssirLimem
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comcours fsjes
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 

What's hot (20)

Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Calcul des prévisions
Calcul des prévisionsCalcul des prévisions
Calcul des prévisions
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 

Similar to Data mining - Introduction générale

L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...
L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...
L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...ALTICS
 
Aressy Business Break Ideas 2014
Aressy Business Break Ideas 2014Aressy Business Break Ideas 2014
Aressy Business Break Ideas 2014Iria Marquès
 
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoBaressy
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp
 
Wide Coffee Connaissance Client
Wide Coffee Connaissance ClientWide Coffee Connaissance Client
Wide Coffee Connaissance ClientMicropole Group
 
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...b2s
 
White Paper: 2017 Predictions - French
White Paper: 2017 Predictions - FrenchWhite Paper: 2017 Predictions - French
White Paper: 2017 Predictions - FrenchGigya
 
Sales intelligence
Sales intelligence Sales intelligence
Sales intelligence AMI Software
 
[Séminaire en ligne] Bonnes pratiques marketing cross-canal
[Séminaire en ligne] Bonnes pratiques marketing cross-canal[Séminaire en ligne] Bonnes pratiques marketing cross-canal
[Séminaire en ligne] Bonnes pratiques marketing cross-canalExperian
 
Mes infos 0913
Mes infos 0913Mes infos 0913
Mes infos 0913Fing
 
Cours systême d'intelligence marketing
Cours systême d'intelligence marketingCours systême d'intelligence marketing
Cours systême d'intelligence marketingJean Roger Mably
 
Webinar ESV Digital Connaissance Client
Webinar ESV Digital Connaissance ClientWebinar ESV Digital Connaissance Client
Webinar ESV Digital Connaissance ClientESV Digital
 
CRM, évolutions technologiques et entreprise habile
CRM, évolutions technologiques et entreprise habileCRM, évolutions technologiques et entreprise habile
CRM, évolutions technologiques et entreprise habileLaurent Bravetti
 
Les défis commerciaux de la PME en 2013
Les défis commerciaux de la PME en 2013Les défis commerciaux de la PME en 2013
Les défis commerciaux de la PME en 2013Sage france
 
150310 big content
150310 big content150310 big content
150310 big contentBURBANX
 
Competitic - ereputation - numerique en entreprise
Competitic - ereputation - numerique en entrepriseCompetitic - ereputation - numerique en entreprise
Competitic - ereputation - numerique en entrepriseCOMPETITIC
 
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).Nicolas Lalande
 

Similar to Data mining - Introduction générale (20)

L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...
L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...
L'e-Merchandising personnalisé: Les enjeux de la recommandation pour le e-Com...
 
Aressy Business Break Ideas 2014
Aressy Business Break Ideas 2014Aressy Business Break Ideas 2014
Aressy Business Break Ideas 2014
 
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB
3 grandes priorités pour réussir sa rentrée Marketing & Communication BtoB
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
Wide Coffee Connaissance Client
Wide Coffee Connaissance ClientWide Coffee Connaissance Client
Wide Coffee Connaissance Client
 
Livre blanc marketing automation 2017 v1.1 (1)
Livre blanc marketing automation 2017   v1.1 (1)Livre blanc marketing automation 2017   v1.1 (1)
Livre blanc marketing automation 2017 v1.1 (1)
 
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...
Livre blanc b2s le mix marketing 5P et la personnalisation de l'expérience cl...
 
White Paper: 2017 Predictions - French
White Paper: 2017 Predictions - FrenchWhite Paper: 2017 Predictions - French
White Paper: 2017 Predictions - French
 
Comprendre
ComprendreComprendre
Comprendre
 
Comprendre
ComprendreComprendre
Comprendre
 
Sales intelligence
Sales intelligence Sales intelligence
Sales intelligence
 
[Séminaire en ligne] Bonnes pratiques marketing cross-canal
[Séminaire en ligne] Bonnes pratiques marketing cross-canal[Séminaire en ligne] Bonnes pratiques marketing cross-canal
[Séminaire en ligne] Bonnes pratiques marketing cross-canal
 
Mes infos 0913
Mes infos 0913Mes infos 0913
Mes infos 0913
 
Cours systême d'intelligence marketing
Cours systême d'intelligence marketingCours systême d'intelligence marketing
Cours systême d'intelligence marketing
 
Webinar ESV Digital Connaissance Client
Webinar ESV Digital Connaissance ClientWebinar ESV Digital Connaissance Client
Webinar ESV Digital Connaissance Client
 
CRM, évolutions technologiques et entreprise habile
CRM, évolutions technologiques et entreprise habileCRM, évolutions technologiques et entreprise habile
CRM, évolutions technologiques et entreprise habile
 
Les défis commerciaux de la PME en 2013
Les défis commerciaux de la PME en 2013Les défis commerciaux de la PME en 2013
Les défis commerciaux de la PME en 2013
 
150310 big content
150310 big content150310 big content
150310 big content
 
Competitic - ereputation - numerique en entreprise
Competitic - ereputation - numerique en entrepriseCompetitic - ereputation - numerique en entreprise
Competitic - ereputation - numerique en entreprise
 
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).
Présentation "ENTREPRENDRE" à l'ILOI (Institut de l'Image de l'Océan Indien).
 

Data mining - Introduction générale

  • 1. DATA MINING FOUILLE DE DONNÉES 4 ERP-BI, 4 INFINI , 4 SIGMA 2015- 2016 Mohamed Heny SELMI Enseignant à ESPRIT medheny.selmi@esprit.tn
  • 2. Et si on veut aller plus loin : Décider ! Mohamed Heny Selmi
  • 4. DÉFINITION C’est l’ensemble des algorithmes, méthodes et technologies inspirés de plusieurs autres disciplines, propres ou non au dm pouvant servir à remplacer ou à aider l’expert humain ou le décideur dans un domaine spécifique dans le cadre de prise de décision, et ce en fouillant dans des bases de données décisionnelles des corrélations, des associations, des comportements homogènes, des formules de lien entre indicateurs, des spécification par rapport à une thématique bien déterminée, etc. Cet ensemble de techniques peut être une étape fondamentale dans tout processus ECD ( KDD) ou bien l’intervention de l’intelligence artificielle, la reconnaissance de forme, et la statistique décisionnelle dans tout processus de Business Intelligence afin de transformer tout système d’aide à la décision en un système DECISONNEL au vrai sens du mot. Mohamed Heny Selmi
  • 5. ENJEUX - Simplifier la production de données ou informations structurées et porteuses de sens - Créer du sens et des connaissances à partir de données non enrichies et non structurées - Analyser des tendances sur la durée - Permettre la création de modèles sur des historiques de données - Analyse prédictive Mohamed Heny Selmi
  • 6. DONNÉES, INFORMATIONS, CONNAISSANCES un élément brut, qui n’a pas encore été interprétée, mis en contexte. une information comprise, assimilée et utilisée, qui permet d’aboutir à une action : DECISION données Connaissances Donnée : Client3 : âge = âgé, Niveau d’études = non Information : 37,5 % des Clients consultent leurs comptes bancaires sur le Web. Connaissance : SI E=non ALORS I= non SI E=oui ET A=moyen ALORS I=oui SI E=oui ET A=âgé ALORS I=non SI A=oui ET A=jeune ALORS I=ouiMohamed Heny Selmi
  • 8. EXTENSION DU DATA MINING Data Mining Web-Text- opinion mining Séries Temporelles Web Sémantique Big Data Social Network AnalysisSentimental and Semantic Analysis Graphe de connaissances Mohamed Heny Selmi
  • 13. REPORTING ANALYTIQUE Résumer et visualiser l’activité de l’entreprise à travers des indicateurs pertinents Mohamed Heny Selmi
  • 15. Aucune variable décisionnelle, information quantitative • Les variables d’entrées servent à créer des groupes homogènes • Les individus de chaque groupe se ressemblent le plus • Les groupes d’appartenances obtenus se distinguent le plus La Segmentation a pour objectifs : •Trouver les variables métiers influençant la répartition en groupes •Affecter les individus à leurs nouveaux groupes d’appartenance Plusieurs méthodes et techniques pour segmenter : •Partionnement : k-means •Hiérarchique : CAH SEGMENTATION Mohamed Heny Selmi
  • 16. Trouver les comportements typiques des clients. SEGMENTATION – TYPOLOGIE Mohamed Heny Selmi
  • 18. ANALYSE DU CHARIOT Recherche des articles les plus/moins associés Mohamed Heny Selmi
  • 21. La variable décisionnelle est qualitative • Un dossier de crédit peut être classifié : BON ou MAUVAIS • Un patient peut présenter un fort risque de maladie cardiaque • Un client peut présenter un comportement atypique La Classification a pour objectifs : • Détecter les variables possédant un lien fort avec la variable décisionnelle • Construire un modèle de classification liant ces variables à la décision Plusieurs méthodes et techniques pour classifier : • Arbre de décision • Forêts Aléatoires • K-NN k-nearest neighbors • Séparateur à vaste Marge SVM • Régression Logistique CLASSIFICATION Mohamed Heny Selmi
  • 22. Déterminer ce qui caractérise un groupe particulier de clients CLASSIFICATION – PROFILING Mohamed Heny Selmi
  • 24. EVALUATION DE CAMPAGNES DE TERRAIN Déterminer l'efficacité de la communication avec les clients. Mohamed Heny Selmi
  • 25. MARKETING CIBLÉ Optimiser les chances d'obtenir des réponses (positives) de la part des clients à une offre particulière par un ciblage plus précis, mettant en évidence les clients avec une forte probabilité de réponse. Mohamed Heny Selmi
  • 26. DATA MINING ET CRM Le datamining a beaucoup d'applications qui peuvent apporter un soutien considérable au marketing et à la gestion de la relation client - faire correspondre des profils des clients avec des «offres produits» afin d’augmenter le taux de conversion : cross selling Mohamed Heny Selmi
  • 28. La variable décisionnelle est quantitative •Prédire les tendances salariales la prochaine année •Prédire le meilleur pourcentage de réduction de coûts •Construire un modèle générique pour l’estimation de la consommation de carburant La régression a pour objectifs : •Détecter les variables possédant un lien fort avec la variable cible •Construire un modèle prédictif avec l’ensemble des variables pertinentes afin de prédire la variable d’intérêt •Détecter les individus atypiques ou les aberrances Régression Linéaire • Méthode des moindres carrés • Meilleurs prédicteurs RÉGRESSION LINÉAIRE Mohamed Heny Selmi
  • 29. Déterminer le prix "optimal" convenable pour un produit. PRICING Mohamed Heny Selmi
  • 30. ANALYSE COÛTS-BÉNÉFICES Identifier les produits et les campagnes les plus rentables Mohamed Heny Selmi
  • 32. Gestion de risque - évaluer un risque de défaut. Au delà des techniques classiques de scoring, d'autre techniques de modélisation issues de l'intelligence artificielle permettent d'augmenter la maitrise de ces risques. Crédit scoring - évaluer le risque de non remboursement (technique data mining la plus déployée) Détection de fraudes - identifier plus facilement et plus rapidement les éventuelles transactions frauduleuses Segmentation - améliorer la connaissance de vos clients par la découverte de groupes homogènes et par une caractérisation selon leur profil Prédiction - prévoir quels clients seront intéressés par une offre Mohamed Heny Selmi
  • 33.  Détection d'usage frauduleux de cartes bancaires.  Gestion du risque lié à l'attribution de prêts par le scoring.  Découverte de relations cachées entre les indicateurs financiers.  Détection de règles de comportement boursier par l'analyses des données du marché.  Utilisation du score de risque pour proposer le montant de crédit le plus adapté à chaque client.  Aide à la décision de paiement.  Meilleur taux de réponse des campagnes marketing.  Découverte de segments de clientèle.  Adaptation de la communication marketing à chaque segment de clientèle.  Identification des clients susceptibles de partir à la concurrence. Vente, Distribution, Marketing Assurances et santé Prise de Décision, Prédiction, Exploitation de données, etc. Banques Finances Mohamed Heny Selmi
  • 34.  Détection d'associations de comportements d'achat  Découverte de caractéristiques de clientèle.  Prédiction de probabilité de réponse aux campagnes de mailing. Vente, Distribution, Marketing Assurances et santé Prise de Décision, Prédiction, Exploitation de données, etc. Banques Finances Mohamed Heny Selmi
  • 35.  Découverte d'associations des demandes de remboursements  Identification de clients potentiels de nouvelles polices d'assurances.  Détection d'association de comportements pour la découverte de clients à risque.  Détection de comportement frauduleux.  Prendre un client à un concurrent.  Faire monter en gamme un client que l’on détient déjà. Vente, Distribution, Marketing Assurances Prise de Décision, Prédiction, Exploitation de données, etc. Banques Finances Mohamed Heny Selmi
  • 37. DEUX FAMILLES DE TECHNIQUES APPRENTISSAGE AUTOMATIQUE ANALYSE DESCRIPTIVE  S’appliquent seulement sur les données quantitatives.  Fournissent directement des résultats : à interpréter et à utiliser !  visent à mettre en évidence des connaissances présentes mais cachées par le volume des données  réduisent, résument, synthétisent les masses de données  pas de variable « cible » APPRENTISSAGE SUPERVISÉES ANALYSE PRÉDICTIVE  Fournissent un modèle (et non pas des résultats), créé à partir d’un entrepôt d’apprentissage, testé et validé sur un entrepôt de test, et utilisé dans les problèmes de prise de décision sur des entrepôts de travail  visent à découvrir de nouvelles informations à partir des informations présentes : connaissances, décisions  expliquent mieux les données  Une(des) variable(s) « cible(s)» Mohamed Heny Selmi
  • 38. TYPES D’APPLICATIONS Techniques Non Supervisées Pas de variables cibles Segmentation Classification Automatique Étude des corrélations Analyse en lignes/colonnes Association Recherche des items fréquents Techniques Supervisées Selon la catégorie des variables cibles Discrimination Scoring Variable « cible » qualitative Classification Variable « cible » qualitative Régression Variable « cible » quantitative Mohamed Heny Selmi
  • 39. Méthodes Non Supervisées Analyse en Composantes Principales ACP Méthodes des Centres Mobiles K-means Classification Ascendante Hiérarchique CAH Règles Associatives Apriori Méthodes Supervisées Arbres de Décisions Analyse Linéaire Discriminante Régression Plus Proche voisin kNN Réseaux de Neurones Séparateur à Vaste Marge SVM DEUX FAMILLES DE TECHNIQUES Mohamed Heny Selmi
  • 40. Entrepôt de données Méthodes Non Supervisées Méthodes Supervisées Analyse en Composantes Principales ACP  Apprentissage Automatique  Méthode descriptive  Données purement quantitatives  Obtention de Corrélations  Relations : i. (Ii, Ij), ii. (Ii, Xk), iii. (Xk,Xp) Mohamed Heny Selmi
  • 41. Entrepôt de données Méthodes Non Supervisées Méthodes Supervisées  Apprentissage Automatique  Méthode descriptive  Obtention d’une nouvelle affection/appartenance  Groupes d’individus possédant des caractéristiques semblables : meilleure classification  Mise à jour de l’entrepôt en Input : ajouter la nouvelle caractéristique des individus Méthodes de Segmentation (Classification Automatique) Mohamed Heny Selmi
  • 42. Entrepôt de données Méthodes Non Supervisées Méthodes Supervisées  Apprentissage Automatique  Méthode descriptive  Données Transactionnelles  Obtention d’un ensemble de règles expliquant l’associativité/correspondance entre les items/produits/profils  Trier les règles selon des indicateurs de performances Règles Associatives (algorithme apriori) Mohamed Heny Selmi
  • 43. Entrepôts de données Méthodes Non Supervisées Méthodes Supervisées Entrepôt d’apprentissage : présentant une variable décisionnelle Yréelle Entrepôt de test Entrepôt de travail Méthodes Supervisées : i. Arbre de Décision ii. Régression iii. Analyse Discriminante LDA iv. Réseaux de Neurones NN v. Séparateur à vaste marge SVM vi. Plus proche voisin k-NN Etc. Modèle de Classification ou de Prédiction :  Ensemble de règles décisionnelles  Formule mathématique / Y=f(Xi)  Formulations de Score / ScoreA, ScoreB, etc.  Equation d’un plan séparateur  Résultat d’un algorithme itératif Mohamed Heny Selmi
  • 44. Entrepôts de données Méthodes Non Supervisées Méthodes Supervisées Entrepôt d’apprentissage Entrepôt de test : présentant une variable décisionnelle Yréelle Entrepôt de travail  Appliquer le modèle construit pour obtenir les valeurs de la variable décisionnelle Yprédite  Comparer les deux colonnes Yréelle et Yprédite  Valider le modèle Mohamed Heny Selmi
  • 45. Entrepôts de données Méthodes Non Supervisées Méthodes Supervisées Entrepôt d’apprentissage Entrepôt de test : présentant une variable décisionnelle Yréelle Entrepôt de travail : ne contenant pas les valeurs de la variable décisionnelle  Appliquer le modèle construit pour obtenir les valeurs de la variable décisionnelle Ydéfinitive Mohamed Heny Selmi
  • 46. LES LOGICIELS PROFESSIONNELS Critères de comparaison :  Temps de réponse  Payant ou gratuit  Extensibilité  Richesse en terme de méthodes  Souplesse du paramétrage des méthodes appliquées Mohamed Heny Selmi
  • 48. KDD / ECDKNOWLEDGE DATA DISCOVERY EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES DÉFINITION PHASES PRINCIPALES APPLICATION Mohamed Heny Selmi
  • 49. KDD: DÉFINITION Knowledge Discovery in Databases • proposé par Ossama Fayyad en 1996 • un processus pour la fouille de données qui a bien répondu aux besoins d’entreprises, et qui est devenu rapidement très populaire. • KDD a comme but l’extraction des connaissances, • des motifs valides, utiles et exploitables à partir des grandes quantités de données • par des méthodes automatiques ou semi-automatiques. Mohamed Heny Selmi
  • 50. • Le processus de KDD est itératif et interactif. • Le processus est itératif : il peut être nécessaire de refaire les pas précédents. • Le problème de ce processus, comme pour les autres présentés dans la section suivante, est le manque de guidage de l’utilisateur, qui ne choisit pas à chaque étape la meilleure solution adaptée pour ses données. KDD: DÉFINITION Mohamed Heny Selmi
  • 52. 1. Développer et comprendre le domaine de l’application C’est le pas initial de ce processus. Il prépare la scène pour comprendre et développer les buts de l’application. KDD: PHASES PRINCIPALES Mohamed Heny Selmi
  • 53. 2. Sélection des données La sélection et la création d’un ensemble de données sur lequel va être appliqué le processus d’exploration. KDD: PHASES PRINCIPALES Données ciblées Mohamed Heny Selmi
  • 54. 3. Le prétraitement et le nettoyage des données Cette étape inclut des opérations comme l’enlèvement du bruit et des valeurs aberrantes -si nécessaire, des décisions sur les stratégies qui vont être utilisées pour traiter les valeurs manquants... KDD: PHASES PRINCIPALES Données prétraitées Mohamed Heny Selmi
  • 55. 4. La transformation des données Cette étape est très importante pour la réussite du projet et doit être adaptée en fonction de chaque base de données et des objectifs du projet. Dans cette étape nous cherchons les méthodes correctes pour représenter les données. Ces méthodes incluent la réduction des dimensions et la transformation des attributs. Une fois que toutes ces étapes seront terminées, les étapes suivantes seront liées à la partie de Data mining, avec une orientation sur l’aspect algorithmique. KDD: PHASES PRINCIPALES Données transformées Mohamed Heny Selmi
  • 56. 5. Choisir la meilleure tâche pour Datamining Nous devons choisir quel type de Datamining sera utilisé, en décidant le but du modèle. Par exemple : classification, régression, regroupement... KDD: PHASES PRINCIPALES Mohamed Heny Selmi
  • 57. 6. Choisir l’algorithme de Datamining Dans cette étape nous devons choisir la méthode spécifique pour faire la recherche des motifs, en décidant quels modèles et paramétrés sont appropriés. KDD: PHASES PRINCIPALES Modèles Mohamed Heny Selmi
  • 58. 7. Implémenter l’algorithme de Datamining Dans cette étape nous implémentons les algorithmes de Datamining choisis dans l’étape antérieure. Peut être il sera nécessaire d’appliquer l’algorithme plusieurs fois pour avoir le résultat attendu. KDD: PHASES PRINCIPALES Mohamed Heny Selmi
  • 59. 8. Evaluation Evaluation et interprétation des motifs découverts. Cette étape donne la possibilité de: • Retourner à une des étapes précédentes • Avoir une représentation visuelle des motifs, enlever les motifs redondants ou non-représentatifs et les transformer dans des termes compréhensibles pour l’utilisateur. KDD: PHASES PRINCIPALES Connaissances Mohamed Heny Selmi
  • 60. 9. Utiliser les connaissances découvertes Incorporation de ces connaissances dans des autres systèmes pour d’autres actions. Nous devons aussi mesurer l’effet de ces connaissances sur le système, vérifier et résoudre les conflits possibles avec les connaissances antérieures. KDD: PHASES PRINCIPALES Mohamed Heny Selmi
  • 61. KDD: APPLICATION Le KDD est devenu lui-même un modèle pour les nouveaux modèles. Le modèle a été utilisé dans plusieurs domaines différentes : ingénierie, médicine, e-business, production, développement du logiciel, etc. Mohamed Heny Selmi
  • 62. SEMMA SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS MISE EN CONTEXTE DÉFINITION PHASES PRINCIPALES APPLICATION Mohamed Heny Selmi
  • 63. SEMMA: MISE EN CONTEXTE L’Institut SAS définit le data mining comme le processus utilisé pour révéler des informations précieuses et des relations complexes qui existent dans de grandes quantités de données (BIG DATA, OPEN DATA). SAS divise la fouille de données en cinq étapes représentées par l’acronyme SEMMA. Mohamed Heny Selmi
  • 65. SEMMA: PHASES PRINCIPALES Echantillon des données Visualisation des données Clusturing, correspondance Sélection, création des variables Transformation des données Réseaux de neurones Modèle à base d'arbre Modèle logistique Autres modèles Evaluation du modèle Mohamed Heny Selmi
  • 66. 1. Sample: Echantillon des données Extrait des échantillons d’un vaste ensemble de données, en nombre suffisamment grand pour contenir l’information importante. SEMMA: PHASES PRINCIPALES Mohamed Heny Selmi
  • 67. 2. Explore: Exploitation des données Cette étape consiste dans l’exploration des données en recherchant les tendances et les anomalies imprévues afin de mieux comprendre les données. SEMMA: PHASES PRINCIPALES Mohamed Heny Selmi
  • 68. 3. Modify: Modifier les données Dans cette étape on modifie les données en créant, en sélectionnant et en transformant les variables afin de s’axer sur le processus de sélection de modèles. SEMMA: PHASES PRINCIPALES Mohamed Heny Selmi
  • 69. 4. Model: Modélisation des données Modélisation des données en permettant au logiciel de rechercher automatiquement une combinaison des données qui prédit de façon fiable le résultat souhaité. Il y a plusieurs techniques de modélisation: les réseaux de neurones, arbres de décision, modèles statistiques - l’analyse en composantes principales, l’analyse de séries temporelles... SEMMA: PHASES PRINCIPALES Mohamed Heny Selmi
  • 70. 5. Assess: Evaluer le résultat Cette étape consiste à l’évaluation de l’utilité et la fiabilité des résultats du processus de DataMining et estime comment il va s’exécuter. En évaluant les résultats obtenus à chaque étape du processus de SEMMA, nous pouvons déterminer la façon de modéliser les nouveaux problèmes déterminés par les résultats précédents, et donc de refaire la phase d’exploration supplémentaire pour le raffinement des données. SEMMA: PHASES PRINCIPALES Mohamed Heny Selmi
  • 71.  SAS est définie par SEMMA comme l’organisation logique d’outil SAS Entreprise Miner pour la réalisation des tâches de DataMining.  Enterprise Miner peut être utilisé comme une partie de n’importe quelle méthodologie itérative de DataMining adoptée par le client.  Une des différences entre KDD et SEMMA est que SEMMA est intégré dans l’outil Enterprise Miner et ils n’utilisent pas d’autres méthodologies, tandis que le KDD est un processus ouvert qui peut être appliqué dans plusieurs environnements. SEMMA: APPLICATION Mohamed Heny Selmi
  • 72. CRISP-DMCROSS INDUSTRY STANDARD PROCESS FOR DATA MINING DÉFINITION PHASES PRINCIPALES EXEMPLE Mohamed Heny Selmi
  • 73. CRISP-DM : DÉFINITION Cross-Industry Standard Process for Data Mining Une méthode mise à l'épreuve sur le terrain permettant d'orienter les travaux de Data mining Processus de data mining qui décrit une approche communément utilisée par les experts pour résoudre les problèmes qui se posent à eux. Mohamed Heny Selmi
  • 74. PHASES PRINCIPALES Connaissance du métier Connaissance des données Préparation des données Modélisation des données Evaluation et déploiement Mohamed Heny Selmi
  • 75. CRISP-DM : DÉFINITION  offre un aperçu du cycle de vie du Data mining.  comprend des descriptions des phases typiques d'un projet et des tâches comprises dans chaque phase, et une explication des relations entre ces tâches. Méthodologie Modèle de processus Mohamed Heny Selmi
  • 76. CRISP-DM : PHASES PRINCIPALES Compréhension des données Préparation des données Modélisation Evaluation Déploiement Compréhension métier Données Mohamed Heny Selmi
  • 77. 1. COMPRÉHENSION MÉTIER Déterminer les objectifs d'affaires Résoudre un problème spécifique Evaluer la situation actuelle Convertir en un problème de data mining Quels types de clients sont intéressés par chacun de nos produits? Quels sont les profils typiques de nos clients? Élaborer un plan de projet Mohamed Heny Selmi
  • 78. 2. COMPRÉHENSION DES DONNÉES Collecte de données initiale Description des données Exploration des données Vérification de la qualité des données Sélection des données Les données connexes peuvent provenir de nombreuses sources : Interne (ERP, CRM, Data Warehouse…) Externe (données commerciales, données du gouvernement…) Créées (recherche) Mohamed Heny Selmi
  • 79. LES ENJEUX DE LA SÉLECTION DES DONNÉES Mettre en place une description concise et claire du problème Identifier les comportements de dépenses des femmes qui achètent des vêtements saisonniers Identifier les modèles de la faillite de détenteurs de cartes de crédit Identifier les données pertinentes pour la description du problème Données démographiques, données financières… Les variables sélectionnées pour les données pertinentes doivent être indépendantes les unes des autres. Mohamed Heny Selmi
  • 80. 3. PRÉPARATION DES DONNÉES Nettoyer les données sélectionnées pour une meilleure qualité Remplissez les valeurs manquantes Identifier ou supprimer les valeurs aberrantes Résoudre la redondance causée par l'intégration des données Les données incohérentes correctes Transformer les données Convertir des mesures différentes de données dans un échelle numérique unifié en utilisant des formulations mathématiques simples Mohamed Heny Selmi
  • 81. LES DONNÉES DANS LE MONDE RÉEL! Incomplètes: manque de valeurs d'attributs, manque de certains attributs d'intérêt ou ne contenant que des agrégats des attributs d’intérêt ou contenant uniquement des données agrégées  l'occupation = "" Bruyantes: contenant des erreurs ou des valeurs aberrantes Salaire = "- 1000" Incompatibles: contenant des écarts dans les codes ou les noms Age = "42" et anniversaire = "03/07/1993" note =« 1,2,3 » ensuite «A, B, C » Mohamed Heny Selmi
  • 82. PRINCIPALES CAUSES Les données incomplètes peuvent provenir de: La valeur de données lors de la collecte «Sans objet» Des considérations différentes entre le moment où les données ont été collectées et lorsqu‘elles sont analysées. Problèmes humains / matériels / logiciels Les données bruyantes (valeurs incorrectes) peuvent provenir de: Les instruments de collecte de données sont erronés L'erreur humaine ou informatique à la saisie de données Les erreurs de transmission de données Les données incohérentes peuvent provenir de: Les différentes sources de données La violation de la dépendance fonctionnelle (par exemple, de modifier certaines données liées) Mohamed Heny Selmi
  • 83. TRANSFORMATION DES DONNÉES Transformez le numérique à des échelles numériques Les échelles salariales de « 100 TND » à « 1000 TND » à un certain nombre de [0.0, 1.0] Le système métrique (par exemple, le mètre, kilomètre) au système anglais (par exemple, des pieds et miles) Recoder les données catégoriques à des échelles numériques "1" = "oui" et "0" = "No" Mohamed Heny Selmi
  • 84. 4. MODÉLISATION Traitement des données Ensemble d'apprentissage Ensemble de test… Les techniques de data mining Association Classification Clustering Prédictions Les motifs séquentiels Mohamed Heny Selmi
  • 85. 5. EVALUATION Est-ce que le modèle répond aux objectifs métier? Des objectifs métier importants non résolus? Est-ce que le modèle est logique? Est-ce que le modèle est actionnable? Il devrait être possible de prendre des décisions après cette étape. Tous les objectifs importants doivent être atteints. Mohamed Heny Selmi
  • 86. 6. DÉPLOIEMENT / IMPLÉMENTATION En cours de suivi et d'entretien Évaluer la performance par rapport aux critères de réussite La réaction du marché et les changements des concurrents Mohamed Heny Selmi
  • 87. CRISP-DM: ETUDE DES FACTURES DE TÉLÉPHONE Problème : Les factures de téléphone non payées. Le data mining utilisé pour développer des modèles pour prédire le non paiement des factures au plus tôt possible. Mohamed Heny Selmi
  • 88. Séquence de période de facturation: Utilisez 2 mois, recevoir la facture, le paiement du mois de facturation, débrancher si la facture n'est pas réglée pendant une période déterminée CRISP-DM: Exemple Etude des factures de téléphone Mohamed Heny Selmi
  • 89. 1. COMPRÉHENSION MÉTIER Prédire quels clients seraient insolvables À temps pour l'entreprise pour prendre des mesures préventives (et d'éviter de perdre de bons clients) hypothèse: Clients insolvables vont changer les habitudes d'appel et l'usage du téléphone pendant une période critique avant et immédiatement après la fin de la période de facturation. Mohamed Heny Selmi
  • 90. 2. COMPRÉHENSION DES DONNÉES Les informations statiques des clients sont disponibles dans des fichiers  Factures, paiements, utilisation… Un entrepôt de données est utilisé pour recueillir et organiser les données Un codage pour protéger la vie privée des clients Mohamed Heny Selmi
  • 91. CRÉATION DE L'ENSEMBLE DES DONNÉES CIBLES Les fichiers des clients: Informations sur les clients Déconnexion Reconnexions Données dépendantes du temps Factures Paiements Utilisation 100, 000 clients sur une période de 17 mois L'échantillonnage pour assurer à tous les groupes une représentation appropriée Mohamed Heny Selmi
  • 92. 3. PRÉPARATION DES DONNÉES Filtrer les données incomplètes Les appels en promotion supprimés Le volume des données réduit d'environ 50% Faible nombre des cas de fraude Vérification croisée avec les déconnexions du téléphone Les données retardées sont nécessairement synchronisées Mohamed Heny Selmi
  • 93. 5. MODÉLISATION Analyse discriminante Le modèle linéaire Les arbres de décision Classificateur à base de règles Réseaux de Neurones Le modèle non linéaire Mohamed Heny Selmi
  • 94. 5. EVALUATION Premier objectif est de maximiser la précision de la prédiction des clients insolvables Arbre de décision un classificateur meilleur Deuxième objectif est de minimiser le taux d'erreur pour les clients de solvants Le modèle Réseau de Neurones proche de l’arbre de décision Utilisé tous les 3 sur la base de cas par cas. Mohamed Heny Selmi
  • 95. 6. IMPLÉMENTATION Chaque client a été examiné avec les 3 algorithmes Si tous les 3 sont convenables, utiliser une classification En cas de désaccord, catégorisé comme non classé Correcte sur les données d'essai avec 0.898 Seulement 1 client solvant aurait été débranché Mohamed Heny Selmi