SlideShare a Scribd company logo
1 of 52
Aligner vos données avec
Wikidata grâce à l’outil Open
Refine
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net
Présentation de l’outil
Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... »
• Outil créé en par David Huynh et Stefano Mazzochi
au sein de la société Metaweb
• S’est appelé « Griworks » puis « Google Refine » et
enfin « Open Refine »
• Depuis 2012 dans la communauté
• La V3.0 est sortie officiellement le 16 septembre
2018 après plusieurs années sans sortie
• Très apprécié dans le monde des bibliothèques
• Open source
Pour télécharger l’outil  http://openrefine.org/download.html
Les serveurs de réconciliation Open Refine
•Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine-
wikidata/fr/api
•ORCID http://refine.codefork.com/reconcile/orcid et
http://refine.codefork.com/reconcile/orcid/smartnames
• VIAF http://refine.codefork.com/reconcile/viaf
Outil de réconciliation
Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents
dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF
La requête SPARQL : https://data.archives-ouvertes.fr/sparql
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf
<https://hal.inria.fr/INRIA>; dcterms:creator ?creator.
?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name.
OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')}
}
GROUP BY ?person ?name ?same
ORDER BY DESC(?nbs)
LIMIT 300
https://bit.ly/2C3APY2
Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier-
une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
Aller sur l’IHM du sparql endpoint de HAL
https://data.archives-ouvertes.fr/sparql
Saisir la requête qui permet de retrouver les
personnes qui vous intéressent
Récupérer l’URL de la requête dans la
page de réponse
Aller sur le site https://meyerweb.com/eric/tools/dencoder/
pour encoder la requête conformément aux URLs
Cliquer sur Encode
Récupérer la requête encodé
conformément aux URLs
Modifier le paramètre query avec la chaîne
encodée et le paramètre format avec la valeur
« csv »
Lancer Open Refine et cliquer sur
« Web address (URLs) »
Copier l’URL modifiée de la requête et
cliquer sur « Next »
Après récupération des données, vous
obtenez cette interface
Cliquer ici pour
modifier l’encodage
des caractères
Choisir l’encodage « UTF-8 »
Avec le bon encodage…
Modifier le nom du projet et cliquer
sur « Create project »
Vous pouvez augmenter le nombre de
lignes affichées
Modifier un champ texte en nombre…
…pour permettre de faire une facette
de nombres par exemple
Pour transformer une chaîne de
caractères, cliquer sur « Transform »
pour afficher la boîte de manipulation
des champs
et par exemple ici supprimer une
partie de la chaîne de caractère
Et voilà le résultat
Vous pouvez renommer une colonne
Et voilà le résultat
Pour réconcilier/aligner vos données avec
Wikidata, Orcid, VIAF…
L’interface de réconciliation s’affiche, vous
pouvez ajouter un service de réconciliation
par exemple, la réconciliation avec des entrées
Wikidata par leur étiquette en français
Vous cliquez sur le service ajouté
Vous pouvez préciser une propriété
pour faciliter l’alignement
Une auto-complétion permet
de choisir sur quelle propriété
aligner les valeurs de la colonne
Quand tout est prêt, vous pouvez cliquer sur le
bouton « Start Reconciling »
Et le processus de réconciliation se
lance en tâche de fond…
Lorsque le processus est terminé, les entrées alignées
ont un lien et les autres ont des propositions
Pour choisir une proposition, il suffit
de cliquer sur la coche
En cliquant sur le
lien, vous pouvez
aller sur la pageEn cliquant sur la coche, vous
sélectionnez l’entrée
Et voilà le résultat
Pour récupérer l’identifiant, il faut
ajouter une colonne
Il faut entrer le nom de la nouvelle colonne et indiquer
dans l’expression « cell.recon.match.id »
Et voilà le résultat
Si on veut à présent aligner avec
ORCID…
Sélectionner les entrées qui n’ont pas déjà
un ORCID, en créant une facette
En cliquant sur true, on sélectionne les
lignes sans entrée ORCID
Il faut d’abord créer une autre colonne
pour lancer la réconciliation
On donne un nouveau nom à la
colonne et on clique sur « OK »
On relance l’interface de réconciliation sur
la nouvelle colonne
On ajoute le service de réconciliation à l’adresse «
http://refine.codefork.com/reconcile/orcid » puis on
clique sur « Start Reconciling »
Le processus de réconciliation se lance
Et lorsqu’il aboutit, on retrouve la
même interface que pour wikidata
Il est possible de créer de nouvelles colonnes
avec des données provenant de Wikidata
Une boîte de dialogue s’ouvre pour pouvoir
choisir la propriété à récupérer
En cliquant sur une propriété, vous
pouvez voir une prévisualisation
puis le processus de récupération se
lance
Et voilà le résultat après avoir filtré les
entrées qui avaient une réponse
Une fois le travail terminé, vous
pouvez exporter le résultat

More Related Content

What's hot

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineMathieu Saby
 
Architectures orientés services (SOA)
Architectures orientés services (SOA)Architectures orientés services (SOA)
Architectures orientés services (SOA)Heithem Abbes
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
 
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]Brève introduction au Linked Open Data [appliqué aux institutions culturelles]
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]Antoine Courtin
 
introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQLAbdoulaye Dieng
 
Base de données NoSQL
Base de données NoSQLBase de données NoSQL
Base de données NoSQLOussama ARBI
 
Alphorm.com Formation Docker (1/2) : Installation et Administration
Alphorm.com Formation Docker (1/2) : Installation et AdministrationAlphorm.com Formation Docker (1/2) : Installation et Administration
Alphorm.com Formation Docker (1/2) : Installation et AdministrationAlphorm
 
Services web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiServices web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiEl Habib NFAOUI
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQLkamar MEDDAH
 
DEVOPS - La synthèse
DEVOPS - La synthèseDEVOPS - La synthèse
DEVOPS - La synthèseCOMPETENSIS
 

What's hot (20)

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Big data : défis & technologies
Big data : défis & technologiesBig data : défis & technologies
Big data : défis & technologies
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefine
 
Architectures orientés services (SOA)
Architectures orientés services (SOA)Architectures orientés services (SOA)
Architectures orientés services (SOA)
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]Brève introduction au Linked Open Data [appliqué aux institutions culturelles]
Brève introduction au Linked Open Data [appliqué aux institutions culturelles]
 
introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQL
 
Base de données NoSQL
Base de données NoSQLBase de données NoSQL
Base de données NoSQL
 
Alphorm.com Formation Docker (1/2) : Installation et Administration
Alphorm.com Formation Docker (1/2) : Installation et AdministrationAlphorm.com Formation Docker (1/2) : Installation et Administration
Alphorm.com Formation Docker (1/2) : Installation et Administration
 
Services web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiServices web soap-el-habib-nfaoui
Services web soap-el-habib-nfaoui
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
DEVOPS - La synthèse
DEVOPS - La synthèseDEVOPS - La synthèse
DEVOPS - La synthèse
 

Similar to Aligner vos données avec Wikidata grâce à l'outil Open Refine

_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptxlamourfrantz
 
C2i Web
C2i WebC2i Web
C2i Webc2i
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Laurent Moccozet
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Laurent Moccozet
 
Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Laurent Moccozet
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplexTECOS
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Nazih Heni
 
Héberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudHéberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudNassim Bahri
 
Microsoft business-intelligence
Microsoft business-intelligenceMicrosoft business-intelligence
Microsoft business-intelligenceBENJID Mohamed
 
"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decisionNicolas Georgeault
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web Romain Willmann
 
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...MongoDB
 
Access requete
Access requeteAccess requete
Access requetehassan1488
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_frenchSteph Cliche
 
Conception du portail centenaire.org — Rencontre du web 14-18
Conception du portail centenaire.org — Rencontre du web 14-18Conception du portail centenaire.org — Rencontre du web 14-18
Conception du portail centenaire.org — Rencontre du web 14-18Martin Ferronnière
 

Similar to Aligner vos données avec Wikidata grâce à l'outil Open Refine (20)

Tutoriel web service
Tutoriel  web serviceTutoriel  web service
Tutoriel web service
 
Guidetalendd
GuidetalenddGuidetalendd
Guidetalendd
 
_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx
 
C2i Web
C2i WebC2i Web
C2i Web
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014
 
Présentation netvibes
Présentation netvibesPrésentation netvibes
Présentation netvibes
 
Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplex
 
Tp5 - WINDEV
Tp5 - WINDEVTp5 - WINDEV
Tp5 - WINDEV
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"
 
Héberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudHéberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloud
 
Microsoft business-intelligence
Microsoft business-intelligenceMicrosoft business-intelligence
Microsoft business-intelligence
 
Javascript
JavascriptJavascript
Javascript
 
"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
 
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
 
Access requete
Access requeteAccess requete
Access requete
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_french
 
Conception du portail centenaire.org — Rencontre du web 14-18
Conception du portail centenaire.org — Rencontre du web 14-18Conception du portail centenaire.org — Rencontre du web 14-18
Conception du portail centenaire.org — Rencontre du web 14-18
 

More from Gautier Poupeau

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Gautier Poupeau
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALGautier Poupeau
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information SystemGautier Poupeau
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...Gautier Poupeau
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontologyGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 

More from Gautier Poupeau (16)

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 

Aligner vos données avec Wikidata grâce à l'outil Open Refine

  • 1. Aligner vos données avec Wikidata grâce à l’outil Open Refine Gautier Poupeau gautier.poupeau@gmail.com @lespetitescases http://www.lespetitescases.net
  • 2. Présentation de l’outil Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... » • Outil créé en par David Huynh et Stefano Mazzochi au sein de la société Metaweb • S’est appelé « Griworks » puis « Google Refine » et enfin « Open Refine » • Depuis 2012 dans la communauté • La V3.0 est sortie officiellement le 16 septembre 2018 après plusieurs années sans sortie • Très apprécié dans le monde des bibliothèques • Open source Pour télécharger l’outil  http://openrefine.org/download.html
  • 3. Les serveurs de réconciliation Open Refine •Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine- wikidata/fr/api •ORCID http://refine.codefork.com/reconcile/orcid et http://refine.codefork.com/reconcile/orcid/smartnames • VIAF http://refine.codefork.com/reconcile/viaf Outil de réconciliation Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF La requête SPARQL : https://data.archives-ouvertes.fr/sparql PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf <https://hal.inria.fr/INRIA>; dcterms:creator ?creator. ?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name. OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')} } GROUP BY ?person ?name ?same ORDER BY DESC(?nbs) LIMIT 300 https://bit.ly/2C3APY2 Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier- une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
  • 4. Aller sur l’IHM du sparql endpoint de HAL https://data.archives-ouvertes.fr/sparql
  • 5. Saisir la requête qui permet de retrouver les personnes qui vous intéressent
  • 6. Récupérer l’URL de la requête dans la page de réponse
  • 7. Aller sur le site https://meyerweb.com/eric/tools/dencoder/ pour encoder la requête conformément aux URLs Cliquer sur Encode
  • 8. Récupérer la requête encodé conformément aux URLs
  • 9. Modifier le paramètre query avec la chaîne encodée et le paramètre format avec la valeur « csv »
  • 10. Lancer Open Refine et cliquer sur « Web address (URLs) »
  • 11. Copier l’URL modifiée de la requête et cliquer sur « Next »
  • 12. Après récupération des données, vous obtenez cette interface Cliquer ici pour modifier l’encodage des caractères
  • 14. Avec le bon encodage…
  • 15. Modifier le nom du projet et cliquer sur « Create project »
  • 16. Vous pouvez augmenter le nombre de lignes affichées
  • 17. Modifier un champ texte en nombre…
  • 18. …pour permettre de faire une facette de nombres par exemple
  • 19. Pour transformer une chaîne de caractères, cliquer sur « Transform »
  • 20. pour afficher la boîte de manipulation des champs
  • 21. et par exemple ici supprimer une partie de la chaîne de caractère
  • 22. Et voilà le résultat
  • 23. Vous pouvez renommer une colonne
  • 24. Et voilà le résultat
  • 25. Pour réconcilier/aligner vos données avec Wikidata, Orcid, VIAF…
  • 26. L’interface de réconciliation s’affiche, vous pouvez ajouter un service de réconciliation
  • 27. par exemple, la réconciliation avec des entrées Wikidata par leur étiquette en français
  • 28. Vous cliquez sur le service ajouté
  • 29. Vous pouvez préciser une propriété pour faciliter l’alignement Une auto-complétion permet de choisir sur quelle propriété aligner les valeurs de la colonne
  • 30. Quand tout est prêt, vous pouvez cliquer sur le bouton « Start Reconciling »
  • 31. Et le processus de réconciliation se lance en tâche de fond…
  • 32. Lorsque le processus est terminé, les entrées alignées ont un lien et les autres ont des propositions
  • 33. Pour choisir une proposition, il suffit de cliquer sur la coche En cliquant sur le lien, vous pouvez aller sur la pageEn cliquant sur la coche, vous sélectionnez l’entrée
  • 34. Et voilà le résultat
  • 35. Pour récupérer l’identifiant, il faut ajouter une colonne
  • 36. Il faut entrer le nom de la nouvelle colonne et indiquer dans l’expression « cell.recon.match.id »
  • 37. Et voilà le résultat
  • 38. Si on veut à présent aligner avec ORCID…
  • 39. Sélectionner les entrées qui n’ont pas déjà un ORCID, en créant une facette
  • 40. En cliquant sur true, on sélectionne les lignes sans entrée ORCID
  • 41. Il faut d’abord créer une autre colonne pour lancer la réconciliation
  • 42. On donne un nouveau nom à la colonne et on clique sur « OK »
  • 43. On relance l’interface de réconciliation sur la nouvelle colonne
  • 44. On ajoute le service de réconciliation à l’adresse « http://refine.codefork.com/reconcile/orcid » puis on clique sur « Start Reconciling »
  • 45. Le processus de réconciliation se lance
  • 46. Et lorsqu’il aboutit, on retrouve la même interface que pour wikidata
  • 47. Il est possible de créer de nouvelles colonnes avec des données provenant de Wikidata
  • 48. Une boîte de dialogue s’ouvre pour pouvoir choisir la propriété à récupérer
  • 49. En cliquant sur une propriété, vous pouvez voir une prévisualisation
  • 50. puis le processus de récupération se lance
  • 51. Et voilà le résultat après avoir filtré les entrées qui avaient une réponse
  • 52. Une fois le travail terminé, vous pouvez exporter le résultat