Ce travail est la contribution de Marie Ndiaye, Cheikh T. Diop du Laboratoire d'Analyse Numérique et d'Informatique de l'Université Gaston Berger de Saint Louis et de Arnaud Giacometti, Patrick Marcel et Arnaud Soulet du Laboratoire d'Informatique de l'Université François Rabelais de Tours aux problèmes de l'extraction et de la représentation du trop grand nombre de règles d'association issues des algorithmes d'extraction de données. Dans le cadre d'un cours d'extraction de connaissances, j'ai juste eu à faire une présentation des différents concepts et méthodes qui y sont exposés.
Mise en place d'un système de messagerie sécurisée pour une PME/PMI
Cube based summaries of large association rule sets
1. Cube Based Summaries Of Large Association Rule SetsMarie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet Présenté par: Sous la direction de: Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh TalibouyaDiop Master 2 Recherche Informatique UGB St-Louis / 2010 – 2011 1
24. A Summary: Définition Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2 et Y1 Í Y2 Exemple: r2: {auto} Þ {stab, yes} est plus spécifique que r1: {auto} Þ {stab} et r1 couvre r2 11
25. Summary Soient deux langages de motifs P et S Une relation de couverture Dentre P et S Un "Summary" de PÍPest un ensemble de motifs SÍStel que: (i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P (iii) |S| £ |P| 12 A Summary: Définition
35. r9: {yes} Þ {auto} (i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P (iii) |S| £ |P| cover(r1,R)={r1,r2}, cover(r10,R)={r5,r6,r8,r9}, cover(r11,R)={r1,r2,r7,r8} Et cover(r12,R)={r2,r3,r4,r6}.
36. A Summary: Définition « Summary minimal » ? {r1,r3,r4,r7,r9} est un Summary minimal. 1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association? 2.Quel est le summary minimal le plus intéressant? 15
37. CBS: Cube Based Summaries Soit A, un ensemble fini d’attributs. X = {a1, ..., ak} tel que aiÎ A, iÎ{1,...,k} et XÍ A est unschéma. 16
38. Exemple: Soit A = {CONTROL, STABILITY, VISIBILITY} dom(CONTROL) = {auto, noauto} dom(STABILITY) = {stab, xstab} dom(VISIBILITY) = {yes, no} <Body.CONTROL, Body.VISIBILITY, Head.CONTROL>est un schéma. 17 CBS: Cube Based Summaries
39. Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations. On appelle référence sur X, un tuple s = <a1,..., ai>tel que : aiÍ (dom(xj) È null) scouvre au moins une règle de R. 18 CBS: Cube Based Summaries
40. Exemple: Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL> dom (CONTROL)= {auto, noauto} dom (STABILITY) = {stab, xstab} dom (VISIBILITY) = {yes, no} {nullC, yes, auto}est une référence du schéma A. 19 CBS: Cube Based Summaries
41. Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R 20 CBS: Cube Based Summaries
42. Soit un schéma <Body.VISIBILITY, Head.CONTROL> CBS = {S1, S3, S7, S9} Différents niveaux de détail 21 CBS: Cube Based Summaries
44. Mesure de la qualité:homogénéité Impossibilité d’identifier le plus intéressant parmi plusieurs CBS. Besoin de mesurer la qualité d’un CBS. La qualité d’un CBS est une fonction qui à tout couple (R, Sc,R) associe une valeur dans R. 23
45. 24 Mesure de la qualité:homogénéité Pour évaluer la qualité d’un CBS.
46. L’heuristique proposée On commence par le CBS Cile plus général possible AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj. Tant que H(Cj) > H(Ci) refaire l’étape 2 avecCjà la place de Ci. Dès que H(C2) = H(C1), arrêt. 25
47. Conclusion Une nouvelle technique de résumé dutrop grand nombre de règles d’association. Une mesure de la qualité des CBS: l’homogénéité. Une heuristique de génération de CBS. 26
48. Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets". Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for ClosedItemsetMining". Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation". 27 Références
49. 28 Merci de votre attention Vos questions sont les bienvenues ...