Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Analyse Exploratoire de Données

Ce cours d'ic05 (UTC compiègne) introduit l'EDA avec sa philosophie, ses étapes, ses outils. Une part importante est consacrée à une augmentation des concepts de dibiase et maceachren.

  • Login to see the comments

Analyse Exploratoire de Données

  1. 1. Exploratory Data Analysis EDA : principes généraux
  2. 2. Qu’est ce qu’une analyse exploratoire de données 1. Une philosophie 2. Des principes 3. Des outils ➡ Améliorer l’EDA
  3. 3. Une approche novatrice ‣ Maximiser les insights dans un jeu de données ‣ découvrir les structures sous-jacentes ‣ extraire les variables importantes ‣ détecter les données aberrantes et les anomalies ‣ tester des suppositions issues des données ‣ développer des modèles minimaux ‣ déterminer les réglages optimaux des différents facteurs
  4. 4. Initié par Tukey (1915 - 2000) Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp. 1-67.
  5. 5. Analyse Exploratoire versus Analyse classique ‣ Analyse classique : Problème - données - modèle - analyse - conclusions ‣ Analyse exploratoire : Problème - données - analyse - modèle - conclusions ‣ Analyse bayesienne : Problème - données - modèle - ébauche distribution - analyse - conclusions
  6. 6. L’EDA est une attitude, une philosophie, pour révéler l’inconnu directement depuis les données
  7. 7. Objectifs Maximiser les insights de l’analyste Lui fournir tout ce qu’il voudrait extraire : ‣ Un modèle parcimonieux qui colle bien ‣ Les données extrêmes ‣ Des conclusions robustes ‣ Une estimation des paramètres ‣ La marge d’erreur pour ces estimations ‣ La liste des facteurs importants et leur importance individuelle relative ‣ Paramètres optimaux
  8. 8. insights When the course of action must respond to new comprehension, new insights and new intuitive flashes of possible explanations or solutions, it will not be an orderly process. Existing means of composing and working with symbol structures penalize disorderly processes very heavily, and it is part of the real promise in the automated H- LAM/T systems of tomorrow that the human can have the freedom and power of disorderly processes
  9. 9. Comment faire ? Utiliser des visualisations !
  10. 10. Visualization can play a key role for such activities, for example : in presenting a visual overview of the data so that categories might be hypothesised (abductively), in evaluating individual examples with respect to their “representativeness” (inductively), and showing the results of applying the new knowledge to structure the data (deductively) M Gahegan, M Takatsuka, M Wheeler, and F Hardisty. Introducing geovista studio : an integrated suite of visualization and computational methods for exploration and ....
  11. 11. Techniques graphiques Des techniques simples qui consiste en différents diagrammes : ‣ Tracer les données brutes (data traces, histogrammes, bihistogrammes, probability plots, lag plots, block plots, and Youden plots). ‣ Tracer des statistiques simples (mean plots, standard deviation plots, box plots) ‣ Positionner les diagrammes pour maximiser notre abilité naturelle à la reconnaissance de motifs en utilisant plusieurs diagrammes par page
  12. 12. 176 Figure 75: A visualization of county-level election results for the State of Michigan from 1998 to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal
  13. 13. '+=+37$&'"+/.$1"+')+(1/%$."'%+3(##')+&'-+.-").+=+,$+#$.-B%"+ Statut des présentations -./5+=+,$+9(%#"+1$%+,6$'.%"+".+&'-+*"+2-*.-)8'"+2"+,6/.$1"+*'-<$)." 6$'3')"+%"**"#4,$)3"+)"+*$'%$-.+3(#4,"%+P>+C,+%"1%/*")."+$-)* '"+2"+1$**$8"+2"+,$+#$.-B%"+=+,$+9(%#"+;+ !"#$% !$&!'$($% )(% !'**'+(% ,% #-% '#.$(% /"$!*% ,% 0-.($!$&.($1% (.% '0-*0% 2(% *#0.(3% 4'-*%/(%5(#1%)(*%20*!"*0.06*%"-.%/(..(%7#')0.&%280-.($9&20'0$(%(-.$(%)'%/:"*(%(.% )(% *0+-(% 7#0% !($9(.% )(% !'**'+(% 2(% )'% 9'.0;$(% ,% )'% 6"$9(% !'$% 2(*% 9'-0!#)'.0"-*% 7#0% 6"-.% &9($+($% )(% *(-*3% <'$% (=(9!)(1% )(% !&2"/"9!'$'.(#$% )*&+'( !($9(.% 2(% !'**($% 2(*% &/:'-.0))"-*% 2(% .($$(% '#% .'>)('#1% 9'0*% #-% &/'$.% 0$$&2#/.0>)(% *&!'$(% ."#5"#$*% )(% .'>)('#% 2(*% 9"..(*% 2(% .($$(% 2#% .'>)('#% 2(*% 7#')060/'.0"-*% 2(% /(*% 9"..(*% 2(% .($$(3% ?:'7#(% ,-.#-&'(*8(-/:'@-(% '0-*0% 2(% )'% !"#$%&'( &.'!(% !$&/&2(-.(% A($*% )'% *#0A'-.(1% !'$% #-% *'#.% 90-#*/#)(% 9'0*% $'20/')1% 7#0% '% $%&'(" -&'-9"0-*%)'%-&/(**0.&%28B.$(%$&A($*0>)(%C% /* % .."+ 9(%#"+ /,/#").$-%"+ *"+ %"1%(2'-.+ ".+ *6")37$:)"+ ,(%*+ 2"+ , 9-&'"5+&'-+9$-.+1$%+"A"#1,"+1$**"%+2"+,$+9(%I.+$#$R()-"))"+$'+2 -./(0,1''*02"&$" ,$%%$" #(7'$(8" &96./(0,1''*02" ;./6<("&8"2*'" ?12.*8%2" ,/6*%1:8$" #$%%$"&$"'(")*%+," !"10&$56$2" 1(%.+2"+#-**-()>+Q7$&'"+/.$1"+-)."%1%B."+')+3(%1*+3(##"+') 3*4,$2"&$",$%%$" !"#(7'$(8"&$" :8('1)1.(,1*02" !" '("'121>%$" ;=6.1)1.1,62"&$" ,)-&./0%12"/#20 *%034/"2#)3%0 % % ?(%7#0%*(%!'**(%)"$*%2(*%$#!.#$(*%-8(*.%!'*%&/)'0$/01%9B9(%*0%!"#$%D'."#$% 0)% (*.% 7#(*.0"-% 2(% !"#$%1% (.% -"#*% '!!$"6"-20$"-*% /(% !"0-.% !)#*% )"0-3%
  14. 14. Principes
  15. 15. Phases de l’EDA
  16. 16. Phases de l’EDA Principe 1 : Voir l’ensemble
  17. 17. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser
  18. 18. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper
  19. 19. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation
  20. 20. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable
  21. 21. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus
  22. 22. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités
  23. 23. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens
  24. 24. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens Principe 9 : Établir la structure
  25. 25. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens Principe 9 : Établir la structure Principe 10 : intégrer la connaissance du domaine
  26. 26. Améliorer l’EDA trouver des prises
  27. 27. Améliorer l’EDA trouver des prises
  28. 28. Principle 1: See the Whole
  29. 29. application de la sémiologie Améliorer l’EDA
  30. 30. application de la sémiologie Améliorer l’EDA
  31. 31. Management de exemples systèmes complexes
  32. 32. Management de exemples systèmes complexes
  33. 33. Management de exemples systèmes complexes
  34. 34. Management de exemples systèmes complexes
  35. 35. Management de exemples systèmes complexes
  36. 36. Management de exemples systèmes complexes
  37. 37. Management de Figure 75: A visualization of county-level election results for the State of Michigan from 1998 exemples to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal systèmes complexes Votes v. Counties scatter plot. coordination on the user’s selection of counties in the
  38. 38. Management de exemples systèmes complexes

×