Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-data-science-avec-langage-r-prise-en-main-des-ide
Dans cette formation nous allons dans l'ordre voir comment installer le noyau de base de R mais aussi des IDE (Interfaces de Développements) alternatifs connus dans Microsoft Windows et Linux, comment configurer/paramétrer la console de R et la différentes manières d'y faire des saisies, la manipulation et l'utilisation des fichiers relatifs à l'écosystème R, la gestion des packages (librairies) permettant d'ajouter des fonctionnalités au système et finalement… l'utilisation de l'Aide et de la documentation associée au logiciel et ses packages comme dans tout bon apprentissage d'un nouvel outil!
3. Une formation
Objectifs
Découvrir le logiciel R, sa philosophie, sa console
d'exécution
Découvrir certains IDE
Découvrir le prototypage en Data Science et plus
spécifiquement pour un de ses sous-domaine qu'est
la Data Analysis
5. Une formation
Public concerné
Analyste statistique numérique ou visuel dans tous
les domaines possibles et imaginables (biostatistique,
pharmaceutique, banque, assurance, data science, data
mining, machine learning, industrie, ingénierie, chimie, text
mining, science de l'information géographique, etc.).
9. Une formation
Plan
Explications quant à l’utilisation des fichiers
d’exercices et de la reproductibilité des exemples de
la formation sur le long terme
12. Une formation
Objectifs
Découvrir le logiciel R, sa philosophie, sa console
d'exécution
Découvrir certains IDE
Découvrir le prototypage en Data Science et plus
spécifiquement pour un de ses sous-domaine qu'est
la Data Analysis
13. Une formation
Raisons
Gratuit
Multiplateforme (Microsoft Windows, Linux, Mac, iPad, iPhone)
Open Source (licence GPL-2 | GPL-3 ou MIT et autres…)
Langage plus intuitif que celui de SPSS et SAS
12’000 packages et d’autant plus de fonctions
Excellent outil pour le prototypage
Excellent pour les applications à faible volumétrie
Utilisé de plus en plus dans le domaine académique
Documentation standardisée
Beaucoup de livres gratuits
14. Une formation
À propos de MRO
Entreprises font confiance à Microsoft
Multithreaded
Se place dans le cursus de certification Data Science
de Microsoft
Est le point d’accès de Microsoft R Server
“Checkpoint” intégrés
15. Une formation
Historique de R
Créé en 1993 par Ross Ihaka et Robert Gentleman en C
et Fortran à l’université d’Auckland en Nouvelle Zélande
Depuis 1997, une vingtaine de développeurs forment
l'équipe de développement de R (R Development Core
team). Les membres de cette équipe ont les droits
d'écriture sur le code source
16. Une formation
Historique de R - suite
En 2003, l'équipe de développement crée la R Foundation
for Statistical Computing pour soutenir le projet R et
devenir un point de contact de référence pour ceux qui
veulent prendre contact avec la communauté R2,5. A ce
moment, le langage compte plus de 200 bibliothèques
développées par la communauté scientifique qui utilise R
En 2015, plusieurs acteurs économiques importants
comme IBM, Microsoft ou encore la société RStudio créent
le R Consortium pour soutenir la communauté R et
financer des projets autour de ce langage
17. Une formation
Autres applications
Ingénierie financière
Biostatistique/Bioinformatique
Calcul actuariel
Statistiques Industrielles
Analyse sensorielle
Ingénierie de la qualité
Management Quantitatif
Business Process Analysis
Logistique
Etc.
21. Une formation
Normes 1/6
ISO 31:2006
Système international d'unités
ISO 3534-1:1999
Vocabulaire et symboles des statistiques
ISO 2602:1980
Interprétation statistique de résultats d'essais - Estimation
de la moyenne - Intervalle de confiance
ISO 3301:1975
Interprétation statistique des données - Comparaison de
deux moyennes dans le cas d'observations appariées
22. Une formation
Normes 2/6
ISO 5479:1997
Interprétation statistique des données - Tests pour les
écarts à la distribution normale
ISO 3494:1976
Interprétation statistique des données - Efficacité des tests
portant sur des moyennes et des variances
ISO 11453:1996
Interprétation statistique des données - Tests et intervalles
de confiance portant sur les proportions
23. Une formation
Normes 3/6
ISO 16269-4:2010
Interprétation statistique des données - Détection et
traitement des valeurs aberrantes
ISO 16269-6:2005
Interprétation statistique des données - Détermination des
intervalles statistiques de tolérance
ISO 16269-8:2004
Interprétation statistique des données - Détermination des
intervalles de prédiction
24. Une formation
Normes 4/6
ISO/TR 18532:2009
Lignes directrices pour l'application des méthodes
statistiques à la qualité et à la normalisation industrielle
ISO 3534-3:1999
Plans d'expérience (ou AFNOR NF X 06-080 + NF X 06-
081)
ISO 8285:1991
Cartes de contrôle de Shewhart
25. Une formation
Normes 5/6
ISO 17025:2005
Exigences générales concernant la compétence des
laboratoires d'étalonnages et d'essais
ISO 10017:2003
Lignes directrices pour les techniques statistiques relatives
à l'ISO 9001:2000
ISO 13300:2006
Guide général à l'attention du personnel des laboratoires
d'analyse sensorielle
ISO 31010:2009
Techniques d'évaluations des risques
26. Une formation
Public concerné
Analyste statistique numérique ou visuel dans tous
les domaines possibles et imaginables (biostatistique,
pharmaceutique, banque, assurance, data science, data
mining, machine learning, industrie, ingénierie, chimie, text
mining, science de l'information géographique, etc.).
27. Une formation
Final Guidance for Industry and FDA Staff, January 11, 2002:
“The device manufacturer is responsible for ensuring that the product
development methodologies used by the off-the-shelf (OTS) software
developer are appropriate and sufficient for the device manufacturer's
intended use of that OTS software. For OTS software and equipment, the
device manufacturer may or may not have access to the vendor's
software validation documentation. If the vendor can provide
information about their system requirements, software requirements,
validation process, and the results of their validation, the medical device
manufacturer can use that information as a beginning point for their
required validation documentation.”
FDA
30. Une formation
Plan
Étape par étape, télécharger R pour Microsoft
Windows de CRAN (Comprehensive R Archive
Network) et MRAN l’installer (en comprenant les
étapes!) et l’ouvrir
32. Une formation
Remarque : Anglais
Toute la documentation technique est en anglais, il
en est de même des articles mathématiques et
scientifiques. Les personnes ne pouvant pas lire
l’anglais seront alors fortement pénalisées sur le
marché de l’emploi de la Data Science.
33. Une formation
Mises à jour
N’oubliez pas de lire le change log à chaque mise à
jour (idem pour les packages critiques) surtout si
vous travaillez dans des domaines sensibles
(nucléaire, pharma, banque, etc.)
https://cran.r-project.org/doc/manuals/r-
release/NEWS.html
39. Une formation
Plan
Étape par étape, télécharger R Studio pour Microsoft
Windows et Scientific Linux, l’installer (en
comprenant les étapes!) et l’ouvrir
42. Une formation
Plan
Étape par étape, télécharger Visual Studio
Community pour Microsoft Windows, l’installer (en
comprenant les étapes!), le configurer pour R.
52. Une formation
Plan
Nous allons voir différentes façons d’ouvrir R et de
fermer ce dernier dans le cadre uniquement de
l’environnement Microsoft Windows (et de sa
console de base)
55. Une formation
Plan
Nous allons voir comment changer la langue de
l’interface de l’IDE native de R, ce qui s’avère souvent
utile dans les multinationales
61. Une formation
Plan
Changer la police de la console R et de script
Cela intéressera surtout les professeurs ou
formateurs en entreprise qui doivent afficher R sur
une rétroprojecteur
64. Une formation
Plan
Changer temporairement ou définitivement le dossier de
travail par défaut de R, ce qui est utile aussi bien pour
exécuter des scripts plus facilement que d’importer des
données plus rapidement!
65. Une formation
Plan
Explications quant à l’utilisation des fichiers
d’exercices et de la reproductibilité des exemples de
la formation sur le long terme
67. Une formation
Plan
Obtenir des informations système comme la version de R, le
système d’exploitation, la langue du système, la date et
l’heure, la mémoire vive, etc. Ceci étant très utile lors du
développement d’applications commercialisées ou
déployées au sein de certaines entreprises
70. Une formation
Plan
Nous allons voir ici comment définir le nombre de
décimales que nous voudrons lors de l’affichage des
résultats de calculs et statistiques de la majorité des
packages
80. Une formation
Plan
Ecrire plusieurs petites commandes sur une seule
ligne
Ecrire des commandes R relativement longues sur
plusieurs lignes
Comprendre les règles y relatives
89. Une formation
Plan
Sauvegarder le contenu de la console R dans un
fichier texte pour usage ultérieur dans un logiciel de
traitement de texte ou pour transmette à une
personne ne possédant pas R
95. Une formation
Plan
Sauvegarder des variables ou jeux de données dans
des fichiers spécifiques à R et qui sont les formats
binaires et compressés (Gzip) *.Rdata (ou *.rda)
98. Une formation
Plan
Utiliser un fichier .Rprofile et Rconsole pour changer
un certain nombre de paramètres de R à chaque
démarrage de ce dernier.
Changer le chemin du fichier .Rprofile avec la
commande SETX R_PROFILE_USER "C:/.../.Rprofile" et
vérifier avec Sys.getenv("R_PROFILE_USER")
101. Une formation
Raisons
Gratuit
Multiplateforme (Microsoft Windows, Linux, Mac, iPad, iPhone)
Open Source (licence GPL-2 | GPL-3 ou MIT et autres…)
Langage plus intuitif que celui de SPSS et SAS
12’000 packages et d’autant plus de fonctions
Excellent outil pour le prototypage
Excellent pour les applications à faible volumétrie
Utilisé de plus en plus dans le domaine académique
Documentation standardisée
Beaucoup de livres gratuits
102. Une formation
Raisons
Gratuit
Multiplateforme (Microsoft Windows, Linux, Mac, iPad, iPhone)
Open Source (licence GPL-2 | GPL-3 ou MIT et autres…)
Langage plus intuitif que celui de SPSS et SAS
12’000 packages et d’autant plus de fonctions
Excellent outil pour le prototypage
Excellent pour les applications à faible volumétrie
Utilisé de plus en plus dans le domaine académique
Documentation standardisée
Beaucoup de livres gratuits
110. Une formation
À propos de MRO
Entreprises font confiance à Microsoft
Multithreaded
Se place dans le cursus de certification Data Science
de Microsoft
Est le point d’accès de Microsoft R Server
“Checkpoint” intégrés
113. Une formation
Plan
Obtenir la liste des packages installés
Installer un package d’un dépôt CRAN
Installer plusieurs packages d’un coup
Charger un package simplement ou en “silencieux”
Charger plusieurs packages simultanément
Comment citer un package
116. Une formation
Plan
Installer et bien évidemment charger un package qui
est en local ce qui est très utile pour certains
packages qui ne sont plus disponibles sur CRAN
mais stockés sur des sites universitaires ou autres
(blogs, etc.).
117. Une formation
Conseil
Faites toujours une copie en local d’un package se
trouvant sur l’Internet car beaucoup de sites
Internet/Blogs disparaissent après 4 à 10 ans
119. Une formation
Historique de R
Créé en 1993 par Ross Ihaka et Robert Gentleman en C
et Fortran à l’université d’Auckland en Nouvelle Zélande
Depuis 1997, une vingtaine de développeurs forment
l'équipe de développement de R (R Development Core
team). Les membres de cette équipe ont les droits
d'écriture sur le code source
121. Une formation
Conseil
Faites toujours une copie en local d’un package se
trouvant sur GitHub même si à ce jour je n’ai pas vu
de package disparaître de ce site… on est jamais
assez prudent!
128. Une formation
Historique de R - suite
En 2003, l'équipe de développement crée la R Foundation
for Statistical Computing pour soutenir le projet R et
devenir un point de contact de référence pour ceux qui
veulent prendre contact avec la communauté R2,5. A ce
moment, le langage compte plus de 200 bibliothèques
développées par la communauté scientifique qui utilise R
En 2015, plusieurs acteurs économiques importants
comme IBM, Microsoft ou encore la société RStudio créent
le R Consortium pour soutenir la communauté R et
financer des projets autour de ce langage
129. Mettre à jour un ou
tous les packages
Une formation
Vincent ISOZ
131. Une formation
Remarque!
Les mises à jour peuvent parfois rendre des
packages incompatibles ou buggés. Effectuez donc
toujours un backup de vos packages avant de faire
une mise à jour (ou faites les mises à jour seulement
si cela s’avère absolument indispensable!).
135. Une formation
Autres applications
Ingénierie financière
Biostatistique/Bioinformatique
Calcul actuariel
Statistiques Industrielles
Analyse sensorielle
Ingénierie de la qualité
Management Quantitatif
Business Process Analysis
Logistique
Etc.
137. Une formation
Plan
Consulter la liste des raccourcis claviers (question
récurrente dans les formations), l’aide générale
(manuels, aide de fonction, etc.), les pages web
connexes, etc.
149. Une formation
Bilan
Prise en main des éléments fondamentaux de l’outil
de travail (son IDE) et quelques éléments de culture
générale d’utilisation et relativement aux statistiques