Interview avec le Prof. Diego Kuonen qui s'exprime sur les opportunités avec le big data et les nouvelles sources de données, et comment faire fasse à la révolution et transformation digitale. Entre autres, il compare un traitement efficace des données à une recette de cuisine ayant fait ses preuves.
Source: Magazine du personnel de l'Office fédéral de la statistique (OFS), 24.08.2017.
1. D-A-CH-Treffen
in Neuchâtel
Seite 12
La GrilLade servie
selon le protocole –
sans protocole de GL
Page 16
C o m pe rs-News
Page 20
InfosLe magazine du personnel de l’OFS
No
3/2017
11:55 – 13:30
Aujourd’hui, la GL vous invite pour un
moment de convivialité et de partage
à l’occasion d’une grillade qui sera of-
ferte sur la terrasse de l’OFS.
Die GL lädt Sie heute zu einem gemüt-
lichen Grill-Zmittag auf der BFS-Ter-
rasse ein!
Demain, le statisticien augmenté
Page 6
2. 6 INFOS No
3/2017
AU CŒUR DU MÉTIER – IM KERNGESCHÄFT
Demain, le statisticien augmenté
Carole Greppin, SKS, en collaboration avec Diego Kuonen, entrepreneur et professeur de data science
Le big data est sur toutes les lèvres: il a envahi l’industrie, le com-
merce, la science… notre quotidien, en quelque sorte. Mais de
quoi parle-t-on, au juste?
Selon une définition commune, le terme big data (ou données
massives ou encore mégadonnées), désigne les informations
massives extraites du monde numérique (par exemple celles qui
circulent sur Internet) qui sont rassemblées, stockées, traitées
puis croisées pour permettre, dans l’idéal, une exploitation des
données résultantes par des méthodes analytiques (analytics).
Selon le statisticien et consultant Diego Kuonen (cf. encadré),
les quatre caractéristiques suivantes – les quatre «V» – définis-
sent ce qu’il préfère appeler une révolution digitale consécutive
à la numérisation de contenus analogues en contenus digitaux
(«la première vague de transformation numérique», selon ses
mots):
Volume, caractérisant la masse d’informations en constante
expansion,
Variety, au regard de la diversité des informations, qu’elles
soient sous forme de texte, image, vidéo, audio…
Velocity, au vu de la vitesse à laquelle elles sont générées et
doivent être traitées et, enfin,
Veracity, qui prend en compte la confiance et la fiabilité des
informations, relativise leur validité et inclut la qualité des
données résultantes.
L’OFS, en tant que producteur de données statistiques, est bien
évidemment concerné par la multitude de données disponibles.
La loi lui recommande d’ailleurs de faire le plus possible recours
à des données existantes pour éviter de produire de nouvelles en-
quêtes et la charge conséquente qu’elles représentent auprès des
milieux interrogés. Mais peut-on faire confiance à ces données?
«La véracité des données est l’élément clé! Elle met en avant
la valeur ajoutée de la statistique (officielle) dans cette data revo-
lution», selon les mots de Diego Kuonen.
De fait, l’OFS bénéficie d’une longue expérience en matière de
véracité des données. Depuis 1860, il remplit son mandat de dif-
fusion d’information en travaillant avec des données de sources
différentes, tout en répondant aux principes fondamentaux de
l’activité statistique que sont: l’exactitude scientifique, la com-
parabilité, la protection des données, la transparence, pour n’en
citer que quelques-uns.
Le phénomène de la révolution digitale ne touche bien évi-
demment pas uniquement l’OFS: sur le plan international, l’accès
et l’utilisation de nouvelles données sont à l’ordre du jour dans
les conférences globales. Au niveau national également, diverses
stratégies (Stratégie Suisse numérique, politique des données de la
Confédération) ont vu le jour. Celles-ci sont cependant principa-
lement orientées solutions technologiques; selon Diego Kuonen,
«elles répondent aux trois premiers «V», et ne tiennent pas tou-
jours compte en détail du 4e
«V» qui est la véracité et qui qualifie
l’utilisation des données».
Le scientifique met en garde des potentiels «cimetières» de
données que nombre d’entreprises sont en train de construire:
«à quoi sert l’accumulation de données si celles-ci ne sont pas
de qualité et représentatives?»
La valeur ajoutée des données
Pour que des données fiables restent utiles et donc vivantes, elles
doivent subir une «seconde vague de transformation numérique»
qui permette d’en tirer une valeur ajoutée: l’apprentissage des
données par des méthodes analytiques (analytics).
De fait, l’OFS ne bénéficie pas seulement d’une longue expéri-
ence en matière de véracité des données, mais aussi en métho-
des statistiques permettant l’apprentissage des données.
Pour Diego Kuonen, la véracité des données est l’élément clé dans la révolution
digitale.
3. 7No
3/2017 INFOS
AU CŒUR DU MÉTIER – IM KERNGESCHÄFT
Data Innovation
Pour faire face à ces nouveaux défis, la direction de l’OFS a créé
un groupe de travail, le groupe New Data Sources, composé
de représentants des différentes divisions de production et des
domaines stratégique et méthodologique, auquel Diego Kuonen
apporte son savoir en tant que consultant externe. C’est qu’il
en connaît un rayon, lui dont la spécialité consiste depuis 2001
à aider les entreprises dans leur tâche complexe consistant à
transformer en avantage les nombreuses données dont elles
disposent.
Une première grande étape sera franchie fin 2017 lorsque
l’OFS rendra publique sa stratégie sur la «Data Innovation».
Cette dernière consiste dans l’application de méthodes analy-
tiques alternatives (par exemple, des méthodes de la statistique
avancée, de la data science et/ou du machine learning) à des
sources de données existantes (ou traditionnelles) et/ou nou-
velles (et/ou non-traditionnelles), tout en garantissant leur fiabilité
et leur transparence.
En d’autres termes: «C’est un peu comme en cuisine», com-
pare Diego Kuonen: «pour concocter un bon plat, vous privilé-
gierez des ingrédients de qualité (les données), exigerez de la
transparence dans la chaîne de production de ces derniers, et
suivrez une recette (la méthode ou l’algorithme analytique) à
la lettre pour obtenir un résultat concluant. Si votre recette est
efficace, vous pouvez ensuite reproduire le plat, voire en changer
les ingrédients, et ainsi élargir votre éventail de menus!»
Données primaires vs données secondaires
Traditionnellement, notre office travaille avec des données pri-
maires qui sont autant de réponses à des questions formulées
dans le cadre d’une enquête.
Citons l’exemple d’un recensement: l’OFS collecte des don-
nées dans un but statistique pour valider une idée ou théorie.
La population est interrogée sur la base de critères établis et la
collection des données est «sous contrôle» de l’OFS. Les résul-
tats permettront d’émettre des déductions.
Les données secondaires quant à elles sont des données qui
n’ont pas été produites (et souvent pas contrôlées) par l’OFS mais
qui sont disponibles et que ce dernier pourrait potentiellement
utiliser à des fins statistiques (si la méthodologique statistique le
permet, comme c’est le cas pour nos registres internes).
Pensons notamment aux nombreux registres, données
administratives et multiples données digitales disponibles; ces
données secondaires, externes à l’OFS, ne sont initialement pas
destinées à des fins statistiques mais peuvent être utilisées pour
créer de nouvelles idées ou théories par induction.
Ces deux approches analytiques – déductive et inductive –
sont complémentaires et s’alimentent l’une l’autre de manière
«infinie» pour permettre une amélioration continue. Le statisticien
George E. P. Box l’illustre avec un exemple très concret: partant
de l’idée qu’on parque sa voiture tous les jours sur sa place privée,
le lien cyclique entre déductive et inductive pourrait se jouer sur
le scénario suivant:
Idée (théorie): Aujourd’hui, c’est comme tous les jours.
Déduction: Ma voiture sera sur la place de parking.
Donnée: Elle n’y est pas!
Induction: Quelqu’un a dû la prendre.
Idée (théorie): Ma voiture a été volée.
Déduction: Ma voiture ne sera pas au parking.
Donnée: Non; elle est là!
Induction: Quelqu’un l’a enlevée et ramenée.
Idée (théorie): Un voleur l’a enlevée et ramenée.
Déduction: Ma voiture aura été forcée.
Donnée: Non: elle est indemne et fermée à clé!
Induction: La personne qui l’a prise avait la clé.
Idée (théorie): Ma femme a utilisé ma voiture
Déduction: Elle a sûrement laissé un mot.
Donnée: Oui; le voici!
Le challenge réside dans la méthodologie assurant le cou-
plement de ces données qui s’alimentent réciproquement et
viennent ainsi augmenter leur valeur ajoutée.
Le statisticien «augmenté»
Quel devient le rôle du statisticien face à ces méthodologies de
plus en plus sophistiquées assurant des calculs de plus en plus
automatisés? Devrons-nous tous devenir des informaticiens? Le
travail du statisticien sera-t-il remplacé par les opérations de l’or-
dinateur? «Il n’en est rien», rassure Diego Kuonen. «L’être humain
est central, il définit tout!» et ainsi de reprendre l’exemple culinaire
cité plus haut: «Si l’on peut gagner du temps en s’aidant d’un
mixer pour confectionner un gâteau, pourquoi battre sa pâte à la
main? Cette augmentation d’efficacité grâce au mixer ne rend
pas moins indispensable le savoir-faire du pâtissier, qui définit
les ingrédients, les étapes de la préparation, toute la chaîne de
production. Il en va de même dans la production statistique.»
Ne pas profiter de ces possibilités informatiques serait aller à
contre-courant. «Bien au contraire, il faut sortir de sa routine et
faire preuve de curiosité, de créativité, de capacité à se remettre
en question pour continuellement améliorer son travail et s’adap-
ter au changement». Et Diego Kuonen de conclure: «Personne ne
connaît l’avenir». Pas même les algorithmes.
4. 8 INFOS No
3/2017
Le regard de Jean-Pierre Renfer,
chef de la section METH
La valeur ajoutée des données
Les données n’ont de sens que si elles permettent d’apporter des
réponses aux questions/problèmes posés.
Leur valeur ajoutée réside dans l’interprétation que l’on est en
droit de faire une fois les données traitées par des méthodes
statistiques.
Les données peuvent être considérées comme le matériel brut
pour cela, à l’instar des diamants qui ne demandent qu’à être
taillés!
La première plus-value réside dans la préparation des données
pour qu’elles soient prêtes pour effectuer des analyses: pour
cela elles doivent subir un traitement qui consiste par exemple à
détecter puis à traiter les inconsistances, les données manquan-
tes et/ou aberrantes. Ces traitements basés sur des méthodes
statistiques éprouvées sont tout aussi importants et utiles lors
AU CŒUR DU MÉTIER – IM KERNGESCHÄFT
Le cartoon de Enrico
Enrico Chavez est titulaire d’un doctorat en statistique de
l’Ecole polytechnique fédérale de Lausanne (EPFL), Senior
Statistician chez Nestlé et vice-président de la Société
Suisse de Statistique SSS.
Il est également cartooniste.
Sa créativité consiste à jeter des ponts entre l'humour et la
statistique, dans des illustrations colorées à découvrir au fil
des numéros de Infos.
Créateur de la société Statoo Consulting, qu’il a fondée et
qu’il dirige depuis 2001, Diego Kuonen est statisticien et pro-
fesseur de data science au Centre de recherche en statis-
tique (Faculté d’économie et de management) à l’Université
de Genève. Originaire de Zermatt dans le Haut-Valais, il est
titulaire d’un Master en mathématiques (1998) et d’un Doc-
torat en statistique (2001) de l’Ecole polytechnique fédérale
de Lausanne (EPFL), qu’il a obtenus grâce à ses travaux
exceptionnels dans la statistique appliquée.
Son visage est connu de nombreux collaborateurs et
collaboratrices à l’OFS, puisqu’il a été pendant treize ans
dans le comité de la SSS (Société Suisse de Statistique),
dont six ans comme président (2009–2015), et engagé
dans l’organisation des Journées suisses de la statistique
pendant de nombreuses années, dont trois fois (2005, 2013,
2015) comme président du comité d’organisation.
L’informatique ne remplace par l’être humain
(ici le statisticien) mais augmente ses capacités.