SlideShare a Scribd company logo
1 of 15
Download to read offline
scikit-learn
                            Machine Learning in Python

                         Data Tuesday - Feb. 26 2013 - Paris




dimanche 24 février 13
• Library of Machine Learning models
                     • Simple fit / predict / transform API
                     • Python / NumPy / SciPy / Cython
                               & wrappers for libsvm / liblinear
                     • Model Assessment, Selection & Ensembles
                     • Some support for multi-core
dimanche 24 février 13
Possible Applications

                     • Text Classification / Sequence Tagging NLP
                     • Computer Vision / Robotics
                     • Learning To Rank - IR and advertisement
                     • Statistical Analysis of the Brain: fMRI / MEG
                     • Astronomy, Biology, Social Sciences...

dimanche 24 février 13
dimanche 24 février 13
dimanche 24 février 13
dimanche 24 février 13
Example:
                         Training a Model for
                          Face Recognition


dimanche 24 février 13
Total dataset size:
   n_samples: 1288, n_features: 1850, n_classes: 7

   Extracting the top 150 eigenfaces from 966 faces
   done in 0.466s

   Projecting the input data on the eigenfaces orthonormal basis
   done in 0.056s

   Fitting the SVM classifier to the training set
   done in 18.549s

   Predicting people's names on the test set
   done in 0.062s
                      precision    recall f1-score    support

        Ariel Sharon             0.90   0.75   0.82        12
        Colin Powell             0.78   0.94   0.85        62
     Donald Rumsfeld             0.86   0.72   0.78        25
       George W Bush             0.89   0.96   0.92       141
   Gerhard Schroeder             0.92   0.74   0.82        31
         Hugo Chavez             0.90   0.53   0.67        17
          Tony Blair             0.81   0.74   0.77        34

                   avg / total   0.86   0.86   0.86       322
dimanche 24 février 13
dimanche 24 février 13
Learned Eigen Faces




dimanche 24 février 13
Contributors
                     • GitHub-centric contribution workflow
                      • each pull request needs 2 x [+1] reviews
                      • code + tests + doc + example
                      • 92% test coverage / Continuous Integr.
                     • 4 major releases per years + 4 bugfix rel.
                     • 66 contributors for release 0.13
dimanche 24 février 13
Users
                     • We support users on                  & ML
                     • 200+ questions tagged with [scikit-learn]
                     • Many          competitors + benchmarks
                     • 500+ answers on ongoing user survey
                      • 60% academics / 40% from industry
                     • Some data-drive Startups use sklearn
dimanche 24 février 13
Thank you!

                     • http://scikit-learn.org - Main Project + doc
                     • @ogrisel on twitter
                     • http://ogrisel.com - ML Consultancy (soon)


dimanche 24 février 13
Backup Slides



dimanche 24 février 13
Caveat Emptor
                     • Domain specific tooling kept to a minimum
                      • Some feature extraction for Bag of
                           Words Text Analysis
                         • Some functions for extracting image
                           patches
                     • Domain integration is the responsibility of
                         the user or 3rd party libraries


dimanche 24 février 13

More Related Content

Viewers also liked

5 Tech-Enabled Business Trends in 2017
5 Tech-Enabled Business Trends in 20175 Tech-Enabled Business Trends in 2017
5 Tech-Enabled Business Trends in 2017eTailing India
 
9 key ways to turn an employee to an intrapreneur
9 key ways to turn an employee to an intrapreneur9 key ways to turn an employee to an intrapreneur
9 key ways to turn an employee to an intrapreneureTailing India
 
Sejarah Perkembangan Matematika Sebelum Masehi
Sejarah Perkembangan Matematika Sebelum MasehiSejarah Perkembangan Matematika Sebelum Masehi
Sejarah Perkembangan Matematika Sebelum MasehiAna Safrida
 
AlibabaKickstarts India Leg With PaytmMall
AlibabaKickstarts India Leg With PaytmMallAlibabaKickstarts India Leg With PaytmMall
AlibabaKickstarts India Leg With PaytmMalleTailing India
 
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)Ana Safrida
 
RPP Perbandingan dan Skala KURIKULUM 2013
RPP Perbandingan dan Skala KURIKULUM 2013RPP Perbandingan dan Skala KURIKULUM 2013
RPP Perbandingan dan Skala KURIKULUM 2013Ana Safrida
 
Funding & Investing: Are There Shortage Of Venture Funds ?
Funding & Investing: Are There Shortage Of Venture Funds ?Funding & Investing: Are There Shortage Of Venture Funds ?
Funding & Investing: Are There Shortage Of Venture Funds ?eTailing India
 
Learn The Way Venture Capital Works
Learn The Way Venture Capital WorksLearn The Way Venture Capital Works
Learn The Way Venture Capital WorkseTailing India
 

Viewers also liked (8)

5 Tech-Enabled Business Trends in 2017
5 Tech-Enabled Business Trends in 20175 Tech-Enabled Business Trends in 2017
5 Tech-Enabled Business Trends in 2017
 
9 key ways to turn an employee to an intrapreneur
9 key ways to turn an employee to an intrapreneur9 key ways to turn an employee to an intrapreneur
9 key ways to turn an employee to an intrapreneur
 
Sejarah Perkembangan Matematika Sebelum Masehi
Sejarah Perkembangan Matematika Sebelum MasehiSejarah Perkembangan Matematika Sebelum Masehi
Sejarah Perkembangan Matematika Sebelum Masehi
 
AlibabaKickstarts India Leg With PaytmMall
AlibabaKickstarts India Leg With PaytmMallAlibabaKickstarts India Leg With PaytmMall
AlibabaKickstarts India Leg With PaytmMall
 
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)
Bahan Ajar Tabung, Kerucut, dan Bola (Kelas IX)
 
RPP Perbandingan dan Skala KURIKULUM 2013
RPP Perbandingan dan Skala KURIKULUM 2013RPP Perbandingan dan Skala KURIKULUM 2013
RPP Perbandingan dan Skala KURIKULUM 2013
 
Funding & Investing: Are There Shortage Of Venture Funds ?
Funding & Investing: Are There Shortage Of Venture Funds ?Funding & Investing: Are There Shortage Of Venture Funds ?
Funding & Investing: Are There Shortage Of Venture Funds ?
 
Learn The Way Venture Capital Works
Learn The Way Venture Capital WorksLearn The Way Venture Capital Works
Learn The Way Venture Capital Works
 

Similar to 6 grisel-scikit-learn-introduction-130228102221-phpapp02

Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7
Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7
Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7OSInet
 
Applications Open Source pour Entreprise
Applications Open Source pour EntrepriseApplications Open Source pour Entreprise
Applications Open Source pour EntrepriseXWiki
 
Réveil en Form' - CETIC - OSH - Robert VISEUR
Réveil en Form' - CETIC - OSH - Robert VISEURRéveil en Form' - CETIC - OSH - Robert VISEUR
Réveil en Form' - CETIC - OSH - Robert VISEUREasyNove
 
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013Xavier NOPRE
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
Découverte de la Graph Data Science
Découverte de la Graph Data ScienceDécouverte de la Graph Data Science
Découverte de la Graph Data ScienceNeo4j
 
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013Rémi Bachelet
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván
 
20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_allCARA_Lyon
 
Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Hidora
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bacheletRémi Bachelet
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Vincent Heuschling
 
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsAgile Montréal
 

Similar to 6 grisel-scikit-learn-introduction-130228102221-phpapp02 (20)

Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7
Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7
Recueil des mauvaises pratiques constatées lors de l'audit de sites Drupal 7
 
Applications Open Source pour Entreprise
Applications Open Source pour EntrepriseApplications Open Source pour Entreprise
Applications Open Source pour Entreprise
 
Réveil en Form' - CETIC - OSH - Robert VISEUR
Réveil en Form' - CETIC - OSH - Robert VISEURRéveil en Form' - CETIC - OSH - Robert VISEUR
Réveil en Form' - CETIC - OSH - Robert VISEUR
 
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013
Mix-IT 2013 - Agilistes : n'oubliez pas la technique - mix-it 2013
 
2012 03-02-sdl-sgi-v03
2012 03-02-sdl-sgi-v032012 03-02-sdl-sgi-v03
2012 03-02-sdl-sgi-v03
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
Découverte de la Graph Data Science
Découverte de la Graph Data ScienceDécouverte de la Graph Data Science
Découverte de la Graph Data Science
 
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Nouveau site web pour bibliothèques ups
Nouveau site web pour bibliothèques upsNouveau site web pour bibliothèques ups
Nouveau site web pour bibliothèques ups
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
 
Commencer avec Hadoop
Commencer avec HadoopCommencer avec Hadoop
Commencer avec Hadoop
 
20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all
 
Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013
 
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
 

More from gtll_systematic

Open source-professionnel
Open source-professionnelOpen source-professionnel
Open source-professionnelgtll_systematic
 
Obeo buiness model editeur réduit (1) (1)
Obeo buiness model editeur   réduit (1) (1)Obeo buiness model editeur   réduit (1) (1)
Obeo buiness model editeur réduit (1) (1)gtll_systematic
 
Business model integrateur_open_source
Business model integrateur_open_sourceBusiness model integrateur_open_source
Business model integrateur_open_sourcegtll_systematic
 
Retour d’expérience sur le business model d’un intégrateur os
Retour d’expérience sur le business model d’un intégrateur osRetour d’expérience sur le business model d’un intégrateur os
Retour d’expérience sur le business model d’un intégrateur osgtll_systematic
 
Wjgtll 8 gaël blondelle
Wjgtll 8 gaël blondelleWjgtll 8 gaël blondelle
Wjgtll 8 gaël blondellegtll_systematic
 
Wjgtll 7 romain berrendonner
Wjgtll 7 romain berrendonnerWjgtll 7 romain berrendonner
Wjgtll 7 romain berrendonnergtll_systematic
 
Wjgtll 5 magali fitzgibbon
Wjgtll 5 magali fitzgibbonWjgtll 5 magali fitzgibbon
Wjgtll 5 magali fitzgibbongtll_systematic
 
Wjgtll 3 roberto di cosmo
Wjgtll 3 roberto di cosmoWjgtll 3 roberto di cosmo
Wjgtll 3 roberto di cosmogtll_systematic
 
7 baldeck-omd-datatuesday-130228102458-phpapp01
7 baldeck-omd-datatuesday-130228102458-phpapp017 baldeck-omd-datatuesday-130228102458-phpapp01
7 baldeck-omd-datatuesday-130228102458-phpapp01gtll_systematic
 
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp02
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp024 picavet-datatuesdayvincentpicavet-130228100952-phpapp02
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp02gtll_systematic
 
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp022 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02gtll_systematic
 
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp021 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02gtll_systematic
 

More from gtll_systematic (17)

Open source-professionnel
Open source-professionnelOpen source-professionnel
Open source-professionnel
 
Obeo buiness model editeur réduit (1) (1)
Obeo buiness model editeur   réduit (1) (1)Obeo buiness model editeur   réduit (1) (1)
Obeo buiness model editeur réduit (1) (1)
 
Gtll modeleco-2013-c
Gtll modeleco-2013-cGtll modeleco-2013-c
Gtll modeleco-2013-c
 
Business model integrateur_open_source
Business model integrateur_open_sourceBusiness model integrateur_open_source
Business model integrateur_open_source
 
Retour d’expérience sur le business model d’un intégrateur os
Retour d’expérience sur le business model d’un intégrateur osRetour d’expérience sur le business model d’un intégrateur os
Retour d’expérience sur le business model d’un intégrateur os
 
Wjgtll 8 gaël blondelle
Wjgtll 8 gaël blondelleWjgtll 8 gaël blondelle
Wjgtll 8 gaël blondelle
 
Wjgtll 7 romain berrendonner
Wjgtll 7 romain berrendonnerWjgtll 7 romain berrendonner
Wjgtll 7 romain berrendonner
 
Wjgtll 6 sylvain steer
Wjgtll 6 sylvain steerWjgtll 6 sylvain steer
Wjgtll 6 sylvain steer
 
Wjgtll 5 magali fitzgibbon
Wjgtll 5 magali fitzgibbonWjgtll 5 magali fitzgibbon
Wjgtll 5 magali fitzgibbon
 
Wjgtll 4 benjamin jean
Wjgtll 4 benjamin jeanWjgtll 4 benjamin jean
Wjgtll 4 benjamin jean
 
Wjgtll 3 roberto di cosmo
Wjgtll 3 roberto di cosmoWjgtll 3 roberto di cosmo
Wjgtll 3 roberto di cosmo
 
Wjgtll 2 pierre ficheux
Wjgtll 2 pierre ficheuxWjgtll 2 pierre ficheux
Wjgtll 2 pierre ficheux
 
7 baldeck-omd-datatuesday-130228102458-phpapp01
7 baldeck-omd-datatuesday-130228102458-phpapp017 baldeck-omd-datatuesday-130228102458-phpapp01
7 baldeck-omd-datatuesday-130228102458-phpapp01
 
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp02
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp024 picavet-datatuesdayvincentpicavet-130228100952-phpapp02
4 picavet-datatuesdayvincentpicavet-130228100952-phpapp02
 
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp022 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02
2 clairmont-ecosystemopensourcebigdata-130228095712-phpapp02
 
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp021 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02
1 fermigierdatatuesdaygtllfev2013-130228083856-phpapp02
 
Guide open-source
Guide open-source Guide open-source
Guide open-source
 

6 grisel-scikit-learn-introduction-130228102221-phpapp02

  • 1. scikit-learn Machine Learning in Python Data Tuesday - Feb. 26 2013 - Paris dimanche 24 février 13
  • 2. • Library of Machine Learning models • Simple fit / predict / transform API • Python / NumPy / SciPy / Cython & wrappers for libsvm / liblinear • Model Assessment, Selection & Ensembles • Some support for multi-core dimanche 24 février 13
  • 3. Possible Applications • Text Classification / Sequence Tagging NLP • Computer Vision / Robotics • Learning To Rank - IR and advertisement • Statistical Analysis of the Brain: fMRI / MEG • Astronomy, Biology, Social Sciences... dimanche 24 février 13
  • 7. Example: Training a Model for Face Recognition dimanche 24 février 13
  • 8. Total dataset size: n_samples: 1288, n_features: 1850, n_classes: 7 Extracting the top 150 eigenfaces from 966 faces done in 0.466s Projecting the input data on the eigenfaces orthonormal basis done in 0.056s Fitting the SVM classifier to the training set done in 18.549s Predicting people's names on the test set done in 0.062s precision recall f1-score support Ariel Sharon 0.90 0.75 0.82 12 Colin Powell 0.78 0.94 0.85 62 Donald Rumsfeld 0.86 0.72 0.78 25 George W Bush 0.89 0.96 0.92 141 Gerhard Schroeder 0.92 0.74 0.82 31 Hugo Chavez 0.90 0.53 0.67 17 Tony Blair 0.81 0.74 0.77 34 avg / total 0.86 0.86 0.86 322 dimanche 24 février 13
  • 11. Contributors • GitHub-centric contribution workflow • each pull request needs 2 x [+1] reviews • code + tests + doc + example • 92% test coverage / Continuous Integr. • 4 major releases per years + 4 bugfix rel. • 66 contributors for release 0.13 dimanche 24 février 13
  • 12. Users • We support users on & ML • 200+ questions tagged with [scikit-learn] • Many competitors + benchmarks • 500+ answers on ongoing user survey • 60% academics / 40% from industry • Some data-drive Startups use sklearn dimanche 24 février 13
  • 13. Thank you! • http://scikit-learn.org - Main Project + doc • @ogrisel on twitter • http://ogrisel.com - ML Consultancy (soon) dimanche 24 février 13
  • 15. Caveat Emptor • Domain specific tooling kept to a minimum • Some feature extraction for Bag of Words Text Analysis • Some functions for extracting image patches • Domain integration is the responsibility of the user or 3rd party libraries dimanche 24 février 13