SlideShare a Scribd company logo
1 of 29
Etat de l’art
La Classification des emails
utilisant le modèle MapReduce
Présenter par:
- MEGHERBI Nour El Houda
Département D’informatique
Master2 – WIC
2014-2015
Sidi Bel Abbes
Plan de travail
 1 - Introduction
 2 - Notion de bases
• 2.1.La fouille de données
• 2.2.La fouille de textes
 3 - La classification de textes
• 3.1.Les algorithmes d’apprentissage
• 3.1.1.Les techniques de la classification automatique
 4 - Le courrier électronique
 5 - Le modèle MapReduce
 6 - Les approches
 7 - Tableau comparatif des différentes approches
 8 - Conclusion
 9 - Références bibliographiques
2
1- Introduction
 Avec le développement rapide de l'Internet et de la technologie
informatique, la quantité de données électroniques est en croissance
exponentielle.
 Cette grandes quantité de données est devenu un saillant problème
devrait être résolu. La catégorisation de texte a été une application très
populaire de l'apprentissage automatique dans le passé décennie.
 De nombreux algorithmes parallèles sont implémentés en utilisant
différentes techniques de parallélisation comme le MapReduce.
3
2 - Notion de bases
2.1 Fouille de Donnée (Data Mining)
Le DM est un processus inductif, itératif et interactif de découverte dans les Bases de Données larges, de
modèles de données valides, nouveaux, utiles et compréhensibles.
 Itératif : nécessite plusieurs passes.
 Interactif : l’utilisateur est dans la boucle du processus.
 Valides : valables dans le futur.
 Nouveaux: non prévisibles.
 Utiles : permettent à l’utilisateur de prendre des décisions.
 Compréhensibles: présentation simple.
L’objectif du DM: l’extraction automatique de connaissances à partir de données structurées.
4
2.2 Fouille de Texte (Text Mining)
 Est une technique permettant d’automatiser le traitement de gros volumes de contenus texte pour
en extraire les principales tendances et répertorier de manière statistique les différents sujets
évoqués.
 Les techniques de text mining sont surtout utilisées pour des données déjà disponibles au format
numérique. Sur Internet, le text mining peut être utilisé pour analyser le contenu des e-mails
entrants ou les propos tenus sur des forums et médias sociaux.
 Donc le Text mining: « Traitement automatique d’une base de
données composée exclusivement de texte. »
5
3 - La classification de textes
 La classification de textes consiste à séparer des documents textuels en
plusieurs catégories distinctes, selon leur contenu.
 Chaque catégorie regroupe donc des documents au contenu similaire.
 Le but principal de cette tâche est d’avoir une représentation sommaire du sujet
de chaque document afin de pouvoir rapidement et facilement identifier les
documents connexes à un certain sujet.
6
3.1 Les algorithmes d’apprentissage
3.1.1 Les Techniques de la classification automatique
Apprentissage automatique
A. Supervisé
A. Non
Supervisé
7
Partitionnement
s
Algo de
classification
hiérarchique
- Il existe plusieurs algo
d’App supervisé
Les plus connus parmi eux,
il s’agit de kNN, les réseaux
de neurones et Naïve
Bayes…
8
- Apprentissage non supervisé -
- L'algorithme des k-moyennes (ou K-means en anglais) est un algorithme de partitionnement de
données relevant des statistiques et de l'apprentissage automatique (plus précisément de
l'apprentissage non supervisé).
- C'est une méthode dont le but est de diviser des observations en K partitions (clusters) dans
lesquelles chaque observation appartient à la partition avec la moyenne la plus proche.
- La classification hiérarchique:
il existe deux types de classification hiérarchique :
- Ascendante
- Descendent.
9
- Apprentissage supervisé -
 Il existe plusieurs algorithmes d’apprentissage supervisé.
· kNN : (k nearest neighbor), Il est de type LAZY.
La méthode de k plus proche voisin consiste a déterminer pour chaque nouvel individu que l’on veut
classer, la liste des k plus proches voisins parmi les individus déjà classer.
L’individu est affecté a la classe qui contient le plus proche d’individu parmi ces k plus proches voisins.
Cette méthode nécessite de choisir une distance ( euclidienne ou de Manhattan), et le nombre k de
voisins a prendre en compte.
· NB (Naïve Bayes) : - Modélisation statistique.
- Un algorithme simple et plus efficace.
- Tous les attributs contribuent de façon équitables et indépendantes.
- P(B|A) = P(B|A) P(A) / P(B)
- calcule la probabilité d'une classe, sur la base de la distribution des mots du document.
10
- Apprentissage supervisé -
· Les réseaux de neurones :
Un réseau de neurones (ou Artificial Neural Network en anglais) est un modèle de calcul dont la
conception est très schématiquement inspiré du fonctionnement de vrais neurones(humains ou non).
yk = f(wk1x1 + wk2x2 + ……. + wknxn + bk)
11
- Apprentissage supervisé -
• Machines à support vectoriel :
•Introduite par Vladimir Vapnik en 1995
•Capacité à traiter des données de grande dimensionnalité
•Principe:
Sortie:Entrée:
(Xi; Yi)
Pour n > 2
Pour n = 2
4 - Le courrier électronique
 Le “courrier électronique”, plus connu sous le nom d'email, est une des
formes de communication les plus utilisées aujourd'hui.
 il est possible de classer les messages selon les aspects suivants:
- Type de message
- Type de suivi
- Contenu du message
- Ton du message
12
5- Le modèle MapReduce
5.1 Introduction
 5.1.1.Qu’est-ce que c’est ?
- Un Framework de traitement distribué sur de gros volumes de données.
- Un modèle de programmation parallèle conçu pour la scalabilité et la tolérance
aux pannes.
 5.1.2.Qui utilise MapReduce ?:
- :
* Construction des Index pour Google Search
* Regroupement des articles pour Google News
- :
* Alimenter Yahoo! Search avec “Web map”
• Détection de Spam pour Yahoo! Mail
- l’utilise à des fins de Data Mining
13
5.2 MapReduce,
pour quelle problématique ?
Souvent lors de la manipulation des données, effectuant les mêmes opérations, à
savoir :
 Itérer sur un grand nombre d’enregistrements
 Extraire quelque chose ayant un intérêt de chacun de ces enregistrements
 Regrouper et trier les résultats intermédiaires
 Agréger tous ces résultats ensemble
 Générer le résultat final
14
5.3 - L’Algorithme MapReduce(Modèle de
programmation)
 5.3.1.Fonction globale de MapReduce:
15
5.3.2.Modèle de programmation :
 Map
- Prend en entrée un ensemble de « Clé,
Valeurs »
- Retourne une liste intermédiaire de « Clé1,
Valeur1 »
- Map( key, value ) list(key1,value1)
 Reduce
- Prend en entrée une liste intermédiaire de «
Clé1, Valeur1 »
- Fournit en sortie un ensemble de « Clé1,
Valeur2 »
- reduce(key1, list(value1)) value2
16
 5.3.3.Le ‘Maître” MapReduce (Master) :
- Coordonne l’exécution des “unités de travail” (Workers)
- Attribue aux unités de travail les tâches “map” et “reduce”
- Gère la distribution des données
- Déplace les ‘workers’ vers les données
- Gère la synchronisation
- Regroupe, trie, et réorganise les données intermédiaires
- Détecte les défaillances des unités de travail et relance la tâche
17
18
 5.3.4.Structure de données du ‘Worker’ :
- Un ‘Worker’ est une “unité de travail” qui possède trois états :
18
Worker
Idle: indique qu’un worker
est disponible pour une
nouvelle planification
Completed: indique la fin d’un
traitement, le worker informe
le Master de la taille, de la
localisation des ses fichiers
intermédiaires
In-progress indique qu'un
traitement est en cours
- Les ‘reducers’ sont
informés des états des
workers par le Master
 5.3.5.Exemple de mise en œuvre :19
5.4 - Avantages et Inconvénients :
Avantages Inconvénients
- Fourni une abstraction totale des mécanismes
de parallélisassions sous-jacents
- Peu de tests sont nécessaires. Les librairies
MapReduce ont déjà étaient testées et
fonctionnent correctement
- L’utilisateur se concentre sur son propre code
- Largement utilisé dans les environnements de
Cloud Computing
- Une seule entrée pour les données
- Deux primitives de haut-niveau seulement
- Le flux de données en deux étapes le rend très
rigide
- Le système de fichiers distribués (HDFS)
possède une bande passante limitée en entrée /
sortie
- Les opérations de tris limitent les
performances du Framework (implémentation
Hadoop)
20
5.5 Les différentes implémentations de
MapReduce
 Hadoop (Yahoo) constitue un modèle équivalent et étendu
 DryadLinQ (Microsoft) est une approche un peu plus générique
 MapReduce-Merge qui étend le Framework (modèle) avec la possibilité de fusionner des
résultats
 …
21
5.6 Conclusion
 MapReduce est un modèle de programmation facile d’utilisation Il est robuste et
permet de traiter de très gros volume de données.
 A été mis dans le domaine public avec l’implémentation Hadoop de Yahoo.
 Plusieurs projets universitaires ont permis de l’améliorer
22
6 – Les approches
6.1 Les approches de classification des emails basé sur
apprentissage automatique:
K-NN
Séquentiel SMO
Neural Network
NB
SVM
Arbre de décision
23
6.2 Les approches basé sur les algorithmes
parallèles:
C4.5
K-NN
 parallèle NB
PSMR
PAM
SVM
24
7 - Le tableau comparatif des différentes
approches
25
8 - Conclusion
 Pour un développeur, il est difficile de traiter de grandes volumes de
données, et de paralléliser et distribuer des traitements.
 Le text mining (fouille de texte) et la classification automatique deviennent
des technologies pivots pour structurer les big data et leur donner du
sens, concevoir de nouveaux services documentaires, produire des
connaissances nouvelles ou fournir des outils d’aide à la décision.
 Le MapReduce est un modèle de programmation facile d’utilisation, Il est
robuste et permet de traiter de très gros volume de données
 Donc, ce modèle nous aide à faire une bonne classification des
textes en générale et des emails en spécial.
26
9 – Références bibliographiques
 R.BENKHELIFA, S.GAGUI.(Juin 2013)Fouille de données d’opinion. UKM Ouargla. Université Kasdi Merbah –
Ouargla(Consulter le 01/11/ 2014.)
 P. Habermehl,D. Kesner.(2014)Programmation Logique et IA.Consulter le 17/11/ 2014).
 K.Tannir. (8 May 2011)in Algorithmes, MapReduce. Disponible sur:
http://blog.khaledtannir.net/2011/05/mapreduce/#.VMUAykeG9pt(Consulter le 01/12/ 2014)
 F.X. Jollois.(1 décembre 2014) Paradigme MapReduce et algorithme EM. Paris, Séminaire équipe Fouille de données,
LIPADE, 7 p.(Consulter le 01/12/ 2014.)
 P. Zhou et al. (2011)/Journal of Computational Information Systems 7:16 (Consulter le 02/12/2014 à 18:16)
 Généralités sur HDFS et MapReduce[tutoriel En ligne]. Disponible sur:
http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/#LIV-B.(Consulter le 21/12/2014).
 Y.Hanane, M.zeggane.(2009) Algorithmes d'apprentissage pour la classification de documents.Université de
Mostaganéme,Algérie(Consulter le 22/12/ 2014).
 E-G. Talbi.Laboratoire d’Informatique Fondamentale de Lille(Consulter le 21/12/ 2014).
 Ke Xu,Cui Wen, Qiong Yuan, et al. (JUNE 2014 ). JOURNAL OF NETWORKS, VOL. 9, NO. 6. A MapReduce based
Parallel SVM for Email Classification(Consulter le 21/12/2014).
 Gong-Qing Wu1, Hai-Guang Li. et al. (2009) C4.5 Ensemble Classification with MapReduce University of Vermont
Burlington, U.S.A. (Consulter le 22/12/ 2014)
 F.Andrew (Nov 2004) Investigation of Support Vector Machines for Email Classification Monash University (Consulter le
22/12/ 2014)
27
 Chi Zhang, Feifei Li, Jeffrey Jestes, (2012). Efficient Parallel kNN Joins for Large Data in MapReduce.
Berlin, Germany.(Consulter le 22/12/ 2014)
 Konstantin Tretyakov, (May 2004). Institute of Computer Science, University of Tartu. Machine
Learning Techniques in Spam Filtering.(Consulter le 23/12/ 2014)
 Wei Lu Yanyan Shen Su Chen Beng Chin Ooi. Efficient Processing of k Nearest Neighbor Joins using
MapReduce.National University of Singapore.(Consulter le 23/12/ 2014)
 Amol G. Kakade et al,(2013), International Journal of Computer Science and Mobile Computing Vol.2
Issue. 11, November- 2013,India. pg. 91-98. (Consulter le 23/12/ 2014)
 Sergei Laada.(2014). Suitability of the Spark framework for data classification TARTU 2014.
(Consulter le 23/12/ 2014)
 Lijuan Zhou, Hui Wang, Wenbo Wang.(Sep 2012). Parallel Implementation of Classification Algorithms
Based on Cloud Computing Environment. Beijing, China,(Consulter le 23/12/ 2014).
 JI Yudian, WANG Yuxi, and XU Diwen(Avril 2014).Distributed Learning Algorithms on
MapReduce,(Consulter le 23/12/ 2014).
 Jahnke, Glenn, "MRCRAIG: MapReduce and Ensemble Classifiers for Parallelizing Data Classification
Problems" (2009).Master's Projects. Paper 143.(Consulter le 23/12/ 2014).
 Jimmy Lin and Chris Dyer (April 2010)Data-Intensive Text Processing with MapReduce. University of
Maryland, College ParkManuscript prepared,(Consulter le 23/12/ 2014).
 Cloudera, Inc. (2009)MapReduce Algorithms,(Consulter le 23/12/ 2014).
 Karthika Renuka Dhanaraj, Visalakshi Palaniswami. Firefly and BAYES Classifier for Email Spam
Classification in a Distributed Environment Australian Journal of Basic and Applied Sciences, 8(17)
November 2014, Pages: 118-130 ,(Consulter le 23/12/ 2014).
28
Merci pour votre attention
29

More Related Content

What's hot

BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simuléAchraf Manaa
 
Programmation par contraintes
Programmation par contraintesProgrammation par contraintes
Programmation par contraintesOrochi Krizalid
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmiqueHajer Trabelsi
 
Presentation stage Tunisie Telecom
Presentation stage Tunisie TelecomPresentation stage Tunisie Telecom
Presentation stage Tunisie Telecomlitayem bechir
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'imagesAbdelouahed Abdou
 
Slides de présentation de la thèse du doctorat
Slides de présentation de la thèse du doctoratSlides de présentation de la thèse du doctorat
Slides de présentation de la thèse du doctoratZyad Elkhadir
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétiqueIlhem Daoudi
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomIsmail Sanni
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Rapport restaurant le-roi
Rapport restaurant le-roiRapport restaurant le-roi
Rapport restaurant le-roiMarwa Bhouri
 

What's hot (20)

BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Knn
KnnKnn
Knn
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simulé
 
Programmation par contraintes
Programmation par contraintesProgrammation par contraintes
Programmation par contraintes
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmique
 
Presentation stage Tunisie Telecom
Presentation stage Tunisie TelecomPresentation stage Tunisie Telecom
Presentation stage Tunisie Telecom
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
 
Slides de présentation de la thèse du doctorat
Slides de présentation de la thèse du doctoratSlides de présentation de la thèse du doctorat
Slides de présentation de la thèse du doctorat
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétique
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Rapport restaurant le-roi
Rapport restaurant le-roiRapport restaurant le-roi
Rapport restaurant le-roi
 

Viewers also liked (8)

La détection des spam
La détection des spamLa détection des spam
La détection des spam
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Data Mining
Data MiningData Mining
Data Mining
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similar to La classification des Emails utilisant le modèle MapReduce

Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptxbely26
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDBFastConnect
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesEmna Trabelsi
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Language C++ Ch01
Language C++ Ch01 Language C++ Ch01
Language C++ Ch01 yarsenv47
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfsalmanakbi
 
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdf
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdfCHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdf
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdfYounesOuladSayad1
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 

Similar to La classification des Emails utilisant le modèle MapReduce (20)

Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Presentation Map Reduce
Presentation Map ReducePresentation Map Reduce
Presentation Map Reduce
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
mars2005_BD
mars2005_BDmars2005_BD
mars2005_BD
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Big data
Big dataBig data
Big data
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Language C++ Ch01
Language C++ Ch01 Language C++ Ch01
Language C++ Ch01
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdf
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdfCHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdf
CHAPITRE3_Fondements_Big_Data_MR_YARN - converted (1).pdf
 
Intro merise
Intro meriseIntro merise
Intro merise
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 

Recently uploaded

Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)Sana REFAI
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfInstitut de l'Elevage - Idele
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfInstitut de l'Elevage - Idele
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfInstitut de l'Elevage - Idele
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfmia884611
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...Institut de l'Elevage - Idele
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...Institut de l'Elevage - Idele
 

Recently uploaded (15)

Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 
CAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptxCAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptx
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdf
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdf
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdf
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
 

La classification des Emails utilisant le modèle MapReduce

  • 1. Etat de l’art La Classification des emails utilisant le modèle MapReduce Présenter par: - MEGHERBI Nour El Houda Département D’informatique Master2 – WIC 2014-2015 Sidi Bel Abbes
  • 2. Plan de travail  1 - Introduction  2 - Notion de bases • 2.1.La fouille de données • 2.2.La fouille de textes  3 - La classification de textes • 3.1.Les algorithmes d’apprentissage • 3.1.1.Les techniques de la classification automatique  4 - Le courrier électronique  5 - Le modèle MapReduce  6 - Les approches  7 - Tableau comparatif des différentes approches  8 - Conclusion  9 - Références bibliographiques 2
  • 3. 1- Introduction  Avec le développement rapide de l'Internet et de la technologie informatique, la quantité de données électroniques est en croissance exponentielle.  Cette grandes quantité de données est devenu un saillant problème devrait être résolu. La catégorisation de texte a été une application très populaire de l'apprentissage automatique dans le passé décennie.  De nombreux algorithmes parallèles sont implémentés en utilisant différentes techniques de parallélisation comme le MapReduce. 3
  • 4. 2 - Notion de bases 2.1 Fouille de Donnée (Data Mining) Le DM est un processus inductif, itératif et interactif de découverte dans les Bases de Données larges, de modèles de données valides, nouveaux, utiles et compréhensibles.  Itératif : nécessite plusieurs passes.  Interactif : l’utilisateur est dans la boucle du processus.  Valides : valables dans le futur.  Nouveaux: non prévisibles.  Utiles : permettent à l’utilisateur de prendre des décisions.  Compréhensibles: présentation simple. L’objectif du DM: l’extraction automatique de connaissances à partir de données structurées. 4
  • 5. 2.2 Fouille de Texte (Text Mining)  Est une technique permettant d’automatiser le traitement de gros volumes de contenus texte pour en extraire les principales tendances et répertorier de manière statistique les différents sujets évoqués.  Les techniques de text mining sont surtout utilisées pour des données déjà disponibles au format numérique. Sur Internet, le text mining peut être utilisé pour analyser le contenu des e-mails entrants ou les propos tenus sur des forums et médias sociaux.  Donc le Text mining: « Traitement automatique d’une base de données composée exclusivement de texte. » 5
  • 6. 3 - La classification de textes  La classification de textes consiste à séparer des documents textuels en plusieurs catégories distinctes, selon leur contenu.  Chaque catégorie regroupe donc des documents au contenu similaire.  Le but principal de cette tâche est d’avoir une représentation sommaire du sujet de chaque document afin de pouvoir rapidement et facilement identifier les documents connexes à un certain sujet. 6
  • 7. 3.1 Les algorithmes d’apprentissage 3.1.1 Les Techniques de la classification automatique Apprentissage automatique A. Supervisé A. Non Supervisé 7 Partitionnement s Algo de classification hiérarchique - Il existe plusieurs algo d’App supervisé Les plus connus parmi eux, il s’agit de kNN, les réseaux de neurones et Naïve Bayes…
  • 8. 8 - Apprentissage non supervisé - - L'algorithme des k-moyennes (ou K-means en anglais) est un algorithme de partitionnement de données relevant des statistiques et de l'apprentissage automatique (plus précisément de l'apprentissage non supervisé). - C'est une méthode dont le but est de diviser des observations en K partitions (clusters) dans lesquelles chaque observation appartient à la partition avec la moyenne la plus proche. - La classification hiérarchique: il existe deux types de classification hiérarchique : - Ascendante - Descendent.
  • 9. 9 - Apprentissage supervisé -  Il existe plusieurs algorithmes d’apprentissage supervisé. · kNN : (k nearest neighbor), Il est de type LAZY. La méthode de k plus proche voisin consiste a déterminer pour chaque nouvel individu que l’on veut classer, la liste des k plus proches voisins parmi les individus déjà classer. L’individu est affecté a la classe qui contient le plus proche d’individu parmi ces k plus proches voisins. Cette méthode nécessite de choisir une distance ( euclidienne ou de Manhattan), et le nombre k de voisins a prendre en compte. · NB (Naïve Bayes) : - Modélisation statistique. - Un algorithme simple et plus efficace. - Tous les attributs contribuent de façon équitables et indépendantes. - P(B|A) = P(B|A) P(A) / P(B) - calcule la probabilité d'une classe, sur la base de la distribution des mots du document.
  • 10. 10 - Apprentissage supervisé - · Les réseaux de neurones : Un réseau de neurones (ou Artificial Neural Network en anglais) est un modèle de calcul dont la conception est très schématiquement inspiré du fonctionnement de vrais neurones(humains ou non). yk = f(wk1x1 + wk2x2 + ……. + wknxn + bk)
  • 11. 11 - Apprentissage supervisé - • Machines à support vectoriel : •Introduite par Vladimir Vapnik en 1995 •Capacité à traiter des données de grande dimensionnalité •Principe: Sortie:Entrée: (Xi; Yi) Pour n > 2 Pour n = 2
  • 12. 4 - Le courrier électronique  Le “courrier électronique”, plus connu sous le nom d'email, est une des formes de communication les plus utilisées aujourd'hui.  il est possible de classer les messages selon les aspects suivants: - Type de message - Type de suivi - Contenu du message - Ton du message 12
  • 13. 5- Le modèle MapReduce 5.1 Introduction  5.1.1.Qu’est-ce que c’est ? - Un Framework de traitement distribué sur de gros volumes de données. - Un modèle de programmation parallèle conçu pour la scalabilité et la tolérance aux pannes.  5.1.2.Qui utilise MapReduce ?: - : * Construction des Index pour Google Search * Regroupement des articles pour Google News - : * Alimenter Yahoo! Search avec “Web map” • Détection de Spam pour Yahoo! Mail - l’utilise à des fins de Data Mining 13
  • 14. 5.2 MapReduce, pour quelle problématique ? Souvent lors de la manipulation des données, effectuant les mêmes opérations, à savoir :  Itérer sur un grand nombre d’enregistrements  Extraire quelque chose ayant un intérêt de chacun de ces enregistrements  Regrouper et trier les résultats intermédiaires  Agréger tous ces résultats ensemble  Générer le résultat final 14
  • 15. 5.3 - L’Algorithme MapReduce(Modèle de programmation)  5.3.1.Fonction globale de MapReduce: 15
  • 16. 5.3.2.Modèle de programmation :  Map - Prend en entrée un ensemble de « Clé, Valeurs » - Retourne une liste intermédiaire de « Clé1, Valeur1 » - Map( key, value ) list(key1,value1)  Reduce - Prend en entrée une liste intermédiaire de « Clé1, Valeur1 » - Fournit en sortie un ensemble de « Clé1, Valeur2 » - reduce(key1, list(value1)) value2 16
  • 17.  5.3.3.Le ‘Maître” MapReduce (Master) : - Coordonne l’exécution des “unités de travail” (Workers) - Attribue aux unités de travail les tâches “map” et “reduce” - Gère la distribution des données - Déplace les ‘workers’ vers les données - Gère la synchronisation - Regroupe, trie, et réorganise les données intermédiaires - Détecte les défaillances des unités de travail et relance la tâche 17
  • 18. 18  5.3.4.Structure de données du ‘Worker’ : - Un ‘Worker’ est une “unité de travail” qui possède trois états : 18 Worker Idle: indique qu’un worker est disponible pour une nouvelle planification Completed: indique la fin d’un traitement, le worker informe le Master de la taille, de la localisation des ses fichiers intermédiaires In-progress indique qu'un traitement est en cours - Les ‘reducers’ sont informés des états des workers par le Master
  • 19.  5.3.5.Exemple de mise en œuvre :19
  • 20. 5.4 - Avantages et Inconvénients : Avantages Inconvénients - Fourni une abstraction totale des mécanismes de parallélisassions sous-jacents - Peu de tests sont nécessaires. Les librairies MapReduce ont déjà étaient testées et fonctionnent correctement - L’utilisateur se concentre sur son propre code - Largement utilisé dans les environnements de Cloud Computing - Une seule entrée pour les données - Deux primitives de haut-niveau seulement - Le flux de données en deux étapes le rend très rigide - Le système de fichiers distribués (HDFS) possède une bande passante limitée en entrée / sortie - Les opérations de tris limitent les performances du Framework (implémentation Hadoop) 20
  • 21. 5.5 Les différentes implémentations de MapReduce  Hadoop (Yahoo) constitue un modèle équivalent et étendu  DryadLinQ (Microsoft) est une approche un peu plus générique  MapReduce-Merge qui étend le Framework (modèle) avec la possibilité de fusionner des résultats  … 21
  • 22. 5.6 Conclusion  MapReduce est un modèle de programmation facile d’utilisation Il est robuste et permet de traiter de très gros volume de données.  A été mis dans le domaine public avec l’implémentation Hadoop de Yahoo.  Plusieurs projets universitaires ont permis de l’améliorer 22
  • 23. 6 – Les approches 6.1 Les approches de classification des emails basé sur apprentissage automatique: K-NN Séquentiel SMO Neural Network NB SVM Arbre de décision 23
  • 24. 6.2 Les approches basé sur les algorithmes parallèles: C4.5 K-NN  parallèle NB PSMR PAM SVM 24
  • 25. 7 - Le tableau comparatif des différentes approches 25
  • 26. 8 - Conclusion  Pour un développeur, il est difficile de traiter de grandes volumes de données, et de paralléliser et distribuer des traitements.  Le text mining (fouille de texte) et la classification automatique deviennent des technologies pivots pour structurer les big data et leur donner du sens, concevoir de nouveaux services documentaires, produire des connaissances nouvelles ou fournir des outils d’aide à la décision.  Le MapReduce est un modèle de programmation facile d’utilisation, Il est robuste et permet de traiter de très gros volume de données  Donc, ce modèle nous aide à faire une bonne classification des textes en générale et des emails en spécial. 26
  • 27. 9 – Références bibliographiques  R.BENKHELIFA, S.GAGUI.(Juin 2013)Fouille de données d’opinion. UKM Ouargla. Université Kasdi Merbah – Ouargla(Consulter le 01/11/ 2014.)  P. Habermehl,D. Kesner.(2014)Programmation Logique et IA.Consulter le 17/11/ 2014).  K.Tannir. (8 May 2011)in Algorithmes, MapReduce. Disponible sur: http://blog.khaledtannir.net/2011/05/mapreduce/#.VMUAykeG9pt(Consulter le 01/12/ 2014)  F.X. Jollois.(1 décembre 2014) Paradigme MapReduce et algorithme EM. Paris, Séminaire équipe Fouille de données, LIPADE, 7 p.(Consulter le 01/12/ 2014.)  P. Zhou et al. (2011)/Journal of Computational Information Systems 7:16 (Consulter le 02/12/2014 à 18:16)  Généralités sur HDFS et MapReduce[tutoriel En ligne]. Disponible sur: http://mbaron.developpez.com/tutoriels/bigdata/hadoop/introduction-hdfs-map-reduce/#LIV-B.(Consulter le 21/12/2014).  Y.Hanane, M.zeggane.(2009) Algorithmes d'apprentissage pour la classification de documents.Université de Mostaganéme,Algérie(Consulter le 22/12/ 2014).  E-G. Talbi.Laboratoire d’Informatique Fondamentale de Lille(Consulter le 21/12/ 2014).  Ke Xu,Cui Wen, Qiong Yuan, et al. (JUNE 2014 ). JOURNAL OF NETWORKS, VOL. 9, NO. 6. A MapReduce based Parallel SVM for Email Classification(Consulter le 21/12/2014).  Gong-Qing Wu1, Hai-Guang Li. et al. (2009) C4.5 Ensemble Classification with MapReduce University of Vermont Burlington, U.S.A. (Consulter le 22/12/ 2014)  F.Andrew (Nov 2004) Investigation of Support Vector Machines for Email Classification Monash University (Consulter le 22/12/ 2014) 27
  • 28.  Chi Zhang, Feifei Li, Jeffrey Jestes, (2012). Efficient Parallel kNN Joins for Large Data in MapReduce. Berlin, Germany.(Consulter le 22/12/ 2014)  Konstantin Tretyakov, (May 2004). Institute of Computer Science, University of Tartu. Machine Learning Techniques in Spam Filtering.(Consulter le 23/12/ 2014)  Wei Lu Yanyan Shen Su Chen Beng Chin Ooi. Efficient Processing of k Nearest Neighbor Joins using MapReduce.National University of Singapore.(Consulter le 23/12/ 2014)  Amol G. Kakade et al,(2013), International Journal of Computer Science and Mobile Computing Vol.2 Issue. 11, November- 2013,India. pg. 91-98. (Consulter le 23/12/ 2014)  Sergei Laada.(2014). Suitability of the Spark framework for data classification TARTU 2014. (Consulter le 23/12/ 2014)  Lijuan Zhou, Hui Wang, Wenbo Wang.(Sep 2012). Parallel Implementation of Classification Algorithms Based on Cloud Computing Environment. Beijing, China,(Consulter le 23/12/ 2014).  JI Yudian, WANG Yuxi, and XU Diwen(Avril 2014).Distributed Learning Algorithms on MapReduce,(Consulter le 23/12/ 2014).  Jahnke, Glenn, "MRCRAIG: MapReduce and Ensemble Classifiers for Parallelizing Data Classification Problems" (2009).Master's Projects. Paper 143.(Consulter le 23/12/ 2014).  Jimmy Lin and Chris Dyer (April 2010)Data-Intensive Text Processing with MapReduce. University of Maryland, College ParkManuscript prepared,(Consulter le 23/12/ 2014).  Cloudera, Inc. (2009)MapReduce Algorithms,(Consulter le 23/12/ 2014).  Karthika Renuka Dhanaraj, Visalakshi Palaniswami. Firefly and BAYES Classifier for Email Spam Classification in a Distributed Environment Australian Journal of Basic and Applied Sciences, 8(17) November 2014, Pages: 118-130 ,(Consulter le 23/12/ 2014). 28
  • 29. Merci pour votre attention 29