SlideShare a Scribd company logo
1 of 23
Download to read offline
Exploiter les données issues
de Wikipedia
Rencontres Mondiales
du Logiciel Libre
Développement logiciel
Beauvais (France) – 09 juillet 2015
robert.viseur@cetic.be
Qui suis-je ?
● Je suis : Dr Ir Robert VISEUR.
● Ingénieur civil, Docteur en sciences appliquées de
la Faculté Polytechnique de l'UMONS
(www.umons.ac.be).
● Assistant dans le Service de Management de
l'Innovation Technologique de la Faculté
Polytechnique de l'UMONS(www.umons.ac.be).
● Senior R&D Expert au CETIC (www.cetic.be).
● Photographe indépendant
(www.derriereleviseur.be).
Qu'a-t-on fait avec Wikipédia ? (1/2)
● Contexte général :
– Usage de plus en plus fréquent du contenu de Wikipédia dans les
domaines techniques et scientifiques (classification de documents,
REN, création d'URI, etc.).
– Plus de 22 mille résultats pour la requête « Exploiting Wikipédia »
dans Google Scholar (scholar.google.fr).
● Contexte interne :
– Demande d'une entreprise pour l'aider...
– à créer d'une base de données biographique depuis Wikipedia
(personnalités belges).
● Recherche menée principalement au CETIC, avec le
soutien de l'UMONS (FPMs).
Qu'a-t-on fait avec Wikipédia ? (2/2)
● Ce qui est présenté ici = travail d'évaluation.
● Cinq étapes principales :
– Identification des articles pertinents.
– Extraction des données depuis le texte.
– Inventaire des difficultés rencontrées.
– Évaluation de la qualité de l'extraction.
– Évaluation de la fiabilité des données.
Comment pensait-on pouvoir procéder ?
● En exploitant les informations structurées.
Étape 1 : identification des articles
● Comparaison :
– Interrogation d'une copie de base de données Wikipédia (via les
dumps publics).
– Accès par crawl des catégories (portail Belgique -> Personnalités
belges) vs...
– Accès par requête SPARQL (exploitation de la propriété
« birthPlace » dans DBPedia).
Étape 2 : extraction des données depuis le
texte (1/2)
● Accès au texte des articles
par URL du
type http://fr.wikipedi
a.org/w/index.php?
action=raw&title=xxxxx.
● Extraction du texte de
l'article et de l'Infobox (si
l'article en possède un).
● Extraction depuis le texte
des dates de naissance et de
décès, ainsi que des
professions.
Étape 2 : extraction des données depuis le
texte (2/2)
● L'analyse du texte se fait par la mise en œuvre d'un
jeu d'expressions régulières exploitant des
tournures de phrases typiques.
● Exemples : « né à ... », « naquit à ... », « est
un ... », etc.
● Les outils standards d'extraction d'entités nommées
ou d'étiquetage grammatical n'ont pas été utilisés.
Étape 3 : inventaire des difficultés
rencontrées (1/2)
● Une minorité d'articles dispose d'un
Infobox.
● L'information est donc moins
structurée qu'elle ne peut le sembler
au départ.
● Les propriétés des Infobox ne sont
elles-mêmes pas totalement
standardisées.
● Exemple : les dates de naissance
apparaissent avec différents labels
(→ folksonomie).
?
Étape 3 : inventaire des difficultés
rencontrées (2/2)
● L'extraction doit être mise en œuvre sur le texte par
essais et erreurs en exploitant des tournures de
phrases typiques.
● Le format de date est un bel exemple de
l'hétérogénéité constatée dans le formatage de
l'information au sein de l'encyclopédie.
Étape 4 : évaluation de la qualité de
l'extraction (1/2)
● Volumétries suite au processus d'extraction :
Étape 4 : évaluation de la qualité de
l'extraction (2/2)
● Evaluation de la qualité de l'extraction par la
comparaison entre données extraites dans le texte /
extraites dans les Infobox.
Étape 5 : évaluation de la fiabilité des
données (1/4)
● Comparaison des données extraites de Wikipédia
avec des données de référence.
Étape 5 : évaluation de la fiabilité des
données (2/4)
● Création d'une liste fusionnée (938 lignes)
● Différences de valeurs sur 14,4% des lignes.
– → Problème des homonymies...
● → Vérification manuelle...
Étape 5 : évaluation de la fiabilité des
données (3/4)
● Taux d'erreur :
– Taux d'erreur dans Wikipedia = 0,75%.
– Taux d'erreur dans les sources de référence = 0,21%.
– Evaluation par comparaison à des sources de référence (sites de
musées, de fondations,…).
Étape 5 : évaluation de la fiabilité des
données (4/4)
● Envisageable : automatiser la détection des données
(potentiellement) erronées.
● Moyen : utiliser les critères de qualité des articles
dans Wikipédia.
● Exemples : nombre de mots, nombre d'éditeurs
distincts, nombre d'éditions, etc.
● Voir (Blumenstock, 2008), (Chevalier et al., 2010),
(Stvilia et al., 2005), (Wilkinson et Huberman,
2007), etc.
Que conclure ? (1/4)
● Le projet Dbpedia, version sémantique de
Wikipédia, donne une image de structuration et
d'exhaustivité. Cette image est partiellement
trompeuse.
● Wikipédia est un projet basé sur les contributions
des utilisateurs, et souffre d'un manque de
structuration et d'homogénéisation pour en faciliter
l'exploitation.
Que conclure ? (2/4)
● Dbpedia reflète cette caractéristique. Dbpedia reste
cependant une excellente base pour des opérations
de « linked data ».
(source : data.culture.fr)
Que conclure ? (3/4)
● L'exploitation du texte des articles peut
heureusement être abordée avec des techniques
simples (jeu d'expressions régulières) grâce à la
structure typique des articles et des phrases.
● Résultat obtenu :
– Précision : ~90%.
– Rappel : ~80%.
Que conclure ? (4/4)
● La fiabilité des données paraît fort satisfaisante (>
99%).
– Limitation : test réalisé sur des personnalités encodées dans
plusieurs bases de données, donc probablement populaires (→
davantage de révision par les pairs ?).
● Pas de sureprésentation de personnalités
contemporaines (comparé aux sources de
référence).
– Moyenne (date de naissance) : 1880.
● Sources de références : 1878.
– Ecart-type (date de naissance) : 156.
● Sources de références : 66.
Quelles sont les perspectives ?
● Evaluer l'intérêt d'utiliser des outils spécialisés pour
l'extraction d'entités nommées.
– Plus d'infos sur les outils open source d'extraction de
terminologie dans Viseur (2013b, 2014a).
● Evaluer les possibilités liées à l'utilisation de
Wikidata (www.wikidata.org).
Références
● Robert Viseur (2015), « Utiliser Wikipédia pour la création d'une base de
données biographiques : mise en œuvre et étude des limitations », « Wikipédia,
objet scientifique non identifié » , Presses universitaires de Paris Ouest, 978-2-
84016-205-6.
● Robert Viseur (2014b), « Reliability of User-Generated Data: the Case of
Biographical Data in Wikipedia », « OpenSym » , Berlin, Germany.
● Robert Viseur (2014a), « Automating the Shaping of Metadata Extracted from a
Company Website with Open Source Tools », « International Journal of
Advanced Computer Science and Applications ».
● Robert Viseur (2013c), « Extraction of Biographical Data from Wikipedia » in
« Data », Reykjavik, Islande.
● Robert Viseur (2013b), « Presentation of OpenNLP », « Rencontres Mondiales
du Logiciel Libre (RMLL) », Université Libre de Bruxelles, Bruxelles, juillet
2013.
● Robert Viseur (2013a), « Extraction de données biographiques depuis
Wikipedia », « InforSID », Paris, France.
Aéropôle de Charleroi-Gosselies
Rue des Frères Wright, 29/3
B-6041 Gosselies
info@cetic.be
www.cetic.be
Thanks
Contact :
robert.viseur@cetic.be
Plus d'information :
www.robertviseur.be
twitter.com/robertviseur
www.linkedin.com/in/robertviseur

More Related Content

Viewers also liked

Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapeeRobert Viseur
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libresRobert Viseur
 
La co-création, ou comment innover avec le client?
La co-création, ou comment innover avec le client?La co-création, ou comment innover avec le client?
La co-création, ou comment innover avec le client?Robert Viseur
 
Ctifl Reperes Semo Cocreation Fruit Et LéGumes Def
Ctifl Reperes Semo   Cocreation Fruit Et LéGumes DefCtifl Reperes Semo   Cocreation Fruit Et LéGumes Def
Ctifl Reperes Semo Cocreation Fruit Et LéGumes DefFrançois Abiven
 
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...Robert Viseur
 

Viewers also liked (6)

Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapee
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libres
 
Open Innovation and Co-Creation
Open Innovation and Co-CreationOpen Innovation and Co-Creation
Open Innovation and Co-Creation
 
La co-création, ou comment innover avec le client?
La co-création, ou comment innover avec le client?La co-création, ou comment innover avec le client?
La co-création, ou comment innover avec le client?
 
Ctifl Reperes Semo Cocreation Fruit Et LéGumes Def
Ctifl Reperes Semo   Cocreation Fruit Et LéGumes DefCtifl Reperes Semo   Cocreation Fruit Et LéGumes Def
Ctifl Reperes Semo Cocreation Fruit Et LéGumes Def
 
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
 

Similar to Exploiter les données issues de Wikipedia

Collecter des données sur Wikipédia : application à la création d'une base de...
Collecter des données sur Wikipédia : application à la création d'une base de...Collecter des données sur Wikipédia : application à la création d'une base de...
Collecter des données sur Wikipédia : application à la création d'une base de...Robert Viseur
 
L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives Phonothèque MMSH
 
La recherche documentaire
La recherche documentaireLa recherche documentaire
La recherche documentaireLucie Binetti
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Cm internet 2010 2011_rennes2 v2
Cm internet 2010 2011_rennes2 v2Cm internet 2010 2011_rennes2 v2
Cm internet 2010 2011_rennes2 v2BELVEZE Damien
 
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementRetour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementAntoine Blanchard
 
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013Morgane Le Gall
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2021)
Sensibilisation à la veille documentaire  (Doctorants SHS, juin 2021)Sensibilisation à la veille documentaire  (Doctorants SHS, juin 2021)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2021)Alain Marois
 
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFEquipex Biblissima
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Cours recherche documentaire Master Matières Premières Naturelles en Cosmétique
Cours recherche documentaire Master Matières Premières Naturelles en CosmétiqueCours recherche documentaire Master Matières Premières Naturelles en Cosmétique
Cours recherche documentaire Master Matières Premières Naturelles en CosmétiqueMagalie Le Gall
 
Veille professionnelle : utiliser les ressources numériques
Veille professionnelle : utiliser les ressources numériquesVeille professionnelle : utiliser les ressources numériques
Veille professionnelle : utiliser les ressources numériquesElisabeth Ranguin
 
Cours en Master 2 IEP Journalisme 2009-2010
Cours en Master 2 IEP Journalisme 2009-2010Cours en Master 2 IEP Journalisme 2009-2010
Cours en Master 2 IEP Journalisme 2009-2010Alexandre Serres
 
Présentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiquePrésentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiqueInter-Ligere
 
Restitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeRestitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeJulien Sicot
 
Les TIC et l'art : outils de gestion bibliographique
Les TIC et l'art : outils de gestion bibliographiqueLes TIC et l'art : outils de gestion bibliographique
Les TIC et l'art : outils de gestion bibliographiqueLesticetlart Invisu
 

Similar to Exploiter les données issues de Wikipedia (20)

Collecter des données sur Wikipédia : application à la création d'une base de...
Collecter des données sur Wikipédia : application à la création d'une base de...Collecter des données sur Wikipédia : application à la création d'une base de...
Collecter des données sur Wikipédia : application à la création d'une base de...
 
20111128rechercheinfo_slsh
20111128rechercheinfo_slsh20111128rechercheinfo_slsh
20111128rechercheinfo_slsh
 
L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives
 
La recherche documentaire
La recherche documentaireLa recherche documentaire
La recherche documentaire
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Cm internet 2010 2011_rennes2 v2
Cm internet 2010 2011_rennes2 v2Cm internet 2010 2011_rennes2 v2
Cm internet 2010 2011_rennes2 v2
 
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementRetour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
 
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013
Panorama des outils du Web 2.0 pour la recherche : table ronde du 18 mars 2013
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2021)
Sensibilisation à la veille documentaire  (Doctorants SHS, juin 2021)Sensibilisation à la veille documentaire  (Doctorants SHS, juin 2021)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2021)
 
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Cours recherche documentaire Master Matières Premières Naturelles en Cosmétique
Cours recherche documentaire Master Matières Premières Naturelles en CosmétiqueCours recherche documentaire Master Matières Premières Naturelles en Cosmétique
Cours recherche documentaire Master Matières Premières Naturelles en Cosmétique
 
Veille professionnelle : utiliser les ressources numériques
Veille professionnelle : utiliser les ressources numériquesVeille professionnelle : utiliser les ressources numériques
Veille professionnelle : utiliser les ressources numériques
 
Cours en Master 2 IEP Journalisme 2009-2010
Cours en Master 2 IEP Journalisme 2009-2010Cours en Master 2 IEP Journalisme 2009-2010
Cours en Master 2 IEP Journalisme 2009-2010
 
Présentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiquePrésentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille Technologique
 
Outils de veille informationnelle - Hiver 2017
Outils de veille informationnelle - Hiver 2017Outils de veille informationnelle - Hiver 2017
Outils de veille informationnelle - Hiver 2017
 
Restitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliothequeRestitution veille sur portails de bibliotheque
Restitution veille sur portails de bibliotheque
 
Les TIC et l'art : outils de gestion bibliographique
Les TIC et l'art : outils de gestion bibliographiqueLes TIC et l'art : outils de gestion bibliographique
Les TIC et l'art : outils de gestion bibliographique
 

More from Robert Viseur

Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpRobert Viseur
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationRobert Viseur
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsRobert Viseur
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)Robert Viseur
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifRobert Viseur
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for DummiesRobert Viseur
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Robert Viseur
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueRobert Viseur
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresRobert Viseur
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Robert Viseur
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Robert Viseur
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libresRobert Viseur
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsRobert Viseur
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICRobert Viseur
 
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemfOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemRobert Viseur
 
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Robert Viseur
 
Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Robert Viseur
 
Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Robert Viseur
 
Développer vos photos avec UFraw
Développer vos photos avec UFrawDévelopper vos photos avec UFraw
Développer vos photos avec UFrawRobert Viseur
 
Créer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresCréer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresRobert Viseur
 

More from Robert Viseur (20)

Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec Gimp
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovation
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à Mons
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for Dummies
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en Belgique
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libres
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libres
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editors
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TIC
 
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemfOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
 
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
 
Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)
 
Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)
 
Développer vos photos avec UFraw
Développer vos photos avec UFrawDévelopper vos photos avec UFraw
Développer vos photos avec UFraw
 
Créer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresCréer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libres
 

Exploiter les données issues de Wikipedia

  • 1. Exploiter les données issues de Wikipedia Rencontres Mondiales du Logiciel Libre Développement logiciel Beauvais (France) – 09 juillet 2015 robert.viseur@cetic.be
  • 2. Qui suis-je ? ● Je suis : Dr Ir Robert VISEUR. ● Ingénieur civil, Docteur en sciences appliquées de la Faculté Polytechnique de l'UMONS (www.umons.ac.be). ● Assistant dans le Service de Management de l'Innovation Technologique de la Faculté Polytechnique de l'UMONS(www.umons.ac.be). ● Senior R&D Expert au CETIC (www.cetic.be). ● Photographe indépendant (www.derriereleviseur.be).
  • 3. Qu'a-t-on fait avec Wikipédia ? (1/2) ● Contexte général : – Usage de plus en plus fréquent du contenu de Wikipédia dans les domaines techniques et scientifiques (classification de documents, REN, création d'URI, etc.). – Plus de 22 mille résultats pour la requête « Exploiting Wikipédia » dans Google Scholar (scholar.google.fr). ● Contexte interne : – Demande d'une entreprise pour l'aider... – à créer d'une base de données biographique depuis Wikipedia (personnalités belges). ● Recherche menée principalement au CETIC, avec le soutien de l'UMONS (FPMs).
  • 4. Qu'a-t-on fait avec Wikipédia ? (2/2) ● Ce qui est présenté ici = travail d'évaluation. ● Cinq étapes principales : – Identification des articles pertinents. – Extraction des données depuis le texte. – Inventaire des difficultés rencontrées. – Évaluation de la qualité de l'extraction. – Évaluation de la fiabilité des données.
  • 5. Comment pensait-on pouvoir procéder ? ● En exploitant les informations structurées.
  • 6. Étape 1 : identification des articles ● Comparaison : – Interrogation d'une copie de base de données Wikipédia (via les dumps publics). – Accès par crawl des catégories (portail Belgique -> Personnalités belges) vs... – Accès par requête SPARQL (exploitation de la propriété « birthPlace » dans DBPedia).
  • 7. Étape 2 : extraction des données depuis le texte (1/2) ● Accès au texte des articles par URL du type http://fr.wikipedi a.org/w/index.php? action=raw&title=xxxxx. ● Extraction du texte de l'article et de l'Infobox (si l'article en possède un). ● Extraction depuis le texte des dates de naissance et de décès, ainsi que des professions.
  • 8. Étape 2 : extraction des données depuis le texte (2/2) ● L'analyse du texte se fait par la mise en œuvre d'un jeu d'expressions régulières exploitant des tournures de phrases typiques. ● Exemples : « né à ... », « naquit à ... », « est un ... », etc. ● Les outils standards d'extraction d'entités nommées ou d'étiquetage grammatical n'ont pas été utilisés.
  • 9. Étape 3 : inventaire des difficultés rencontrées (1/2) ● Une minorité d'articles dispose d'un Infobox. ● L'information est donc moins structurée qu'elle ne peut le sembler au départ. ● Les propriétés des Infobox ne sont elles-mêmes pas totalement standardisées. ● Exemple : les dates de naissance apparaissent avec différents labels (→ folksonomie). ?
  • 10. Étape 3 : inventaire des difficultés rencontrées (2/2) ● L'extraction doit être mise en œuvre sur le texte par essais et erreurs en exploitant des tournures de phrases typiques. ● Le format de date est un bel exemple de l'hétérogénéité constatée dans le formatage de l'information au sein de l'encyclopédie.
  • 11. Étape 4 : évaluation de la qualité de l'extraction (1/2) ● Volumétries suite au processus d'extraction :
  • 12. Étape 4 : évaluation de la qualité de l'extraction (2/2) ● Evaluation de la qualité de l'extraction par la comparaison entre données extraites dans le texte / extraites dans les Infobox.
  • 13. Étape 5 : évaluation de la fiabilité des données (1/4) ● Comparaison des données extraites de Wikipédia avec des données de référence.
  • 14. Étape 5 : évaluation de la fiabilité des données (2/4) ● Création d'une liste fusionnée (938 lignes) ● Différences de valeurs sur 14,4% des lignes. – → Problème des homonymies... ● → Vérification manuelle...
  • 15. Étape 5 : évaluation de la fiabilité des données (3/4) ● Taux d'erreur : – Taux d'erreur dans Wikipedia = 0,75%. – Taux d'erreur dans les sources de référence = 0,21%. – Evaluation par comparaison à des sources de référence (sites de musées, de fondations,…).
  • 16. Étape 5 : évaluation de la fiabilité des données (4/4) ● Envisageable : automatiser la détection des données (potentiellement) erronées. ● Moyen : utiliser les critères de qualité des articles dans Wikipédia. ● Exemples : nombre de mots, nombre d'éditeurs distincts, nombre d'éditions, etc. ● Voir (Blumenstock, 2008), (Chevalier et al., 2010), (Stvilia et al., 2005), (Wilkinson et Huberman, 2007), etc.
  • 17. Que conclure ? (1/4) ● Le projet Dbpedia, version sémantique de Wikipédia, donne une image de structuration et d'exhaustivité. Cette image est partiellement trompeuse. ● Wikipédia est un projet basé sur les contributions des utilisateurs, et souffre d'un manque de structuration et d'homogénéisation pour en faciliter l'exploitation.
  • 18. Que conclure ? (2/4) ● Dbpedia reflète cette caractéristique. Dbpedia reste cependant une excellente base pour des opérations de « linked data ». (source : data.culture.fr)
  • 19. Que conclure ? (3/4) ● L'exploitation du texte des articles peut heureusement être abordée avec des techniques simples (jeu d'expressions régulières) grâce à la structure typique des articles et des phrases. ● Résultat obtenu : – Précision : ~90%. – Rappel : ~80%.
  • 20. Que conclure ? (4/4) ● La fiabilité des données paraît fort satisfaisante (> 99%). – Limitation : test réalisé sur des personnalités encodées dans plusieurs bases de données, donc probablement populaires (→ davantage de révision par les pairs ?). ● Pas de sureprésentation de personnalités contemporaines (comparé aux sources de référence). – Moyenne (date de naissance) : 1880. ● Sources de références : 1878. – Ecart-type (date de naissance) : 156. ● Sources de références : 66.
  • 21. Quelles sont les perspectives ? ● Evaluer l'intérêt d'utiliser des outils spécialisés pour l'extraction d'entités nommées. – Plus d'infos sur les outils open source d'extraction de terminologie dans Viseur (2013b, 2014a). ● Evaluer les possibilités liées à l'utilisation de Wikidata (www.wikidata.org).
  • 22. Références ● Robert Viseur (2015), « Utiliser Wikipédia pour la création d'une base de données biographiques : mise en œuvre et étude des limitations », « Wikipédia, objet scientifique non identifié » , Presses universitaires de Paris Ouest, 978-2- 84016-205-6. ● Robert Viseur (2014b), « Reliability of User-Generated Data: the Case of Biographical Data in Wikipedia », « OpenSym » , Berlin, Germany. ● Robert Viseur (2014a), « Automating the Shaping of Metadata Extracted from a Company Website with Open Source Tools », « International Journal of Advanced Computer Science and Applications ». ● Robert Viseur (2013c), « Extraction of Biographical Data from Wikipedia » in « Data », Reykjavik, Islande. ● Robert Viseur (2013b), « Presentation of OpenNLP », « Rencontres Mondiales du Logiciel Libre (RMLL) », Université Libre de Bruxelles, Bruxelles, juillet 2013. ● Robert Viseur (2013a), « Extraction de données biographiques depuis Wikipedia », « InforSID », Paris, France.
  • 23. Aéropôle de Charleroi-Gosselies Rue des Frères Wright, 29/3 B-6041 Gosselies info@cetic.be www.cetic.be Thanks Contact : robert.viseur@cetic.be Plus d'information : www.robertviseur.be twitter.com/robertviseur www.linkedin.com/in/robertviseur