open data, schema.org, DBPedia et Wikidata : Panorama et introduction à la problématique du partage des données structurées sur le web : entre la réutilisation des données des portails open-data, la structuration du contenu des pages web pour Google, l'exploitation des données de DBPedia, et la pose de liens entre les données pour favoriser leur découverte et leur réutilisation...
1. Partager et réutiliser
des données
sur le web
Thomas Francart, sparna.fr
Crédits :
Ce travail monte sur les épaules de Fabien Gandon, Serge Garlatti , Pierre-Yves Vandenbussche,
Sylvie Dalbin, Jean Delahousse, Cyrille Giquello, Julien Cojan
Si vous voulez monter sur mes épaules, ce travail est réutilisable et modifiable librement, y compris à
des fins commerciales, à condition de citer son auteur et d’être placé sous la même licence. Pour plus
d’informations, voir la licence.
2. Sparna
1. Systèmes d’organisation des
connaissances
Thesaurus, taxonomies, dictionnaires, glossaires, plans de
classements, nomenclatures, etc.
1. Moteurs de recherche
d’entreprise & centres de doc
SolR, enrichissement sémantiques
1. Web sémantique et web de
données
RDF, SPARQL, SKOS, OWL, etc.
4. À la 103e
minute, Florent Malouda tire un coup franc à
la hauteur du rond central dans la moitié de terrain
irlandaise. Le ballon passe au-dessus de la défense
irlandaise et est contrôlé par Thierry Henry qui
s’enfonce dans la surface de réparation sur le côté
gauche. Dans la zone des six mètres irlandais, le long
de la ligne de fond du terrain, il contrôle deux fois la
balle avec la main gauche empêchant ainsi la balle de
sortir des limites du terrain, avant de centrer devant le
but déserté par le gardien irlandais Shay Given. La
balle est reprise de la tête par William Gallas qui
marque le but de l’égalisation, synonyme de
qualification pour l’équipe de France.
http://plexus-logos-calx.blogspot.fr/2009/11/a0047-le-meilleur-format-standard.html
http://fr.wikipedia.org/wiki/Match_de_football_France_%E2%80%93_R%C3%A9publique_d%27Irlande_%282009%29
8. Équipe Parcours
Date de
qualification
Phases finales
Nb
d'apparitions
consécutives
Meilleure
performance
passée
ClassementFIFA
1
Afrique du Sud
Qualifié d’office
(hôte)
15 mai 2004 3e
1 1er
tour (1998, 2002) 85e
Danemark
Europe, groupe 1 1re
place
10 octobre 2009 4e
1
Quart de finale (
1998)
27e
Suisse
Europe, groupe 2 1re
place
14 octobre 2009 9e
2
Quart de finale (
1934, 1938, 1954)
13e
Slovaquie
Europe, groupe 3 1re
place
14 octobre 2009 9e2
1
Finaliste (1934, 1962
)
33e
Allemagne
Europe, groupe 4 1re
place
10 octobre 2009 17e3
15
Vainqueur (1954,
1974, 1990)
5e
Espagne
Europe, groupe 5 1re
place
9 septembre 2009 13e
9 4e
place (1950) 2e
Angleterre
Europe, groupe 6 1re
place
9 septembre 2009 13e
4 Vainqueur (1966) 7e
Serbie
Europe, groupe 7 1re
place
10 octobre 2009 11e4
2
4e
place (19305
,
1962)
20e
Italie
Europe, groupe 8 1re
place
10 octobre 2009 17e
13
Vainqueur (1934,
1938, 1982, 2006)
4e
Pays-Bas
Europe, groupe 9 1re
place
6 juin 2009 9e
2
Finaliste (1974, 1978
)
3e
France
Europe, barrage
Vainqueur
18 novembre 2009 13e
4 Vainqueur (1998) 9e
Portugal
Europe, barrage
Vainqueur
18 novembre 2009 5e
3 3e
place (1966) 10e
Grèce
Europe, barrage
Vainqueur
18 novembre 2009 2e
1 1er
tour (1994) 16e
Slovénie
Europe, barrage
Vainqueur
18 novembre 2009 2e
1 1er
tour (2002) 49e
Brésil
Amérique du Sud 1re
place
5 septembre 2009 19e
19
Vainqueur (1958,
1962, 1970, 1994,
2002)
1er
http://fr.wikipedia.org/wiki/%C3%89liminatoires_de_la_coupe_du_monde_de_football_2010
10. Libellé_du_site
Caractéristiqu
e_du_site Code_postal Localité
Temps
d’attente
moyen
(factice)
Nombre de
guichets
(factice)
AMBERIEU EN BUGEY Bureau de poste 1500
AMBERIEU EN
BUGEY 8 3
AMBERIEU EN DOMBES BPBureau de poste 1330
AMBERIEUX EN
DOMBES 2 4
AMBRONAY BP Bureau de poste 1500AMBRONAY 12 1
ANGLEFORT AP
Relais poste
commerçant 1350ANGLEFORT 3 5
ARBENT BP Bureau de poste 1100ARBENT 3 5
ARGIS AP
Relais poste
commerçant 1230ARGIS 4 4
Libellé_du_site
Caractéristiq
ue_du_site Adresse Code_postal Localité
Niveau de
satisfaction
usagers
(factice)
AMBERIEU EN BUGEY Bureau de poste 38 RUE ALEXANDRE BERARD 1500
AMBERIEU EN
BUGEY MOYEN
AMBERIEU EN
DOMBES BP Bureau de poste 240 RUE GOMBETTE 1330
AMBERIEUX EN
DOMBES BON
AMBRONAY BP Bureau de poste PLACE DE LA BOUVERIE 1500AMBRONAY MEDIOCRE
ANGLEFORT AP
Relais poste
commerçant 1350ANGLEFORT BON
ARBENT BP Bureau de poste 56 RUE DU GENERAL ANDREA 1100ARBENT BON
ARGIS AP
Relais poste
commerçant LES RAISINS D OR 1230ARGIS BON
Vs.
Données des bureaux de poste sur http://data.gouv.fr (colonnes de droites factices)
12. nomDuPays indiceDeveloppementHumain
Autriche 0.851
Afghanistan 0.374
Argentine 0.866
Afrique du Sud 0.619
Arabie saoudite 0.752
Arménie 0.695
Angola 0.564
Espagne 0.885
Chypre du Nord "inconnu"@fr
Géographie du Soudan du Sud
Géographie du Moyen-Orient
Fédération d'Afrique de l'Est
Géographie des îles Caïmans
Définition IDH : http://fr.wikipedia.org/wiki/Indice_de_d%C3%A9veloppement_humain
Données : http://fr.dbpedia.org
14. nomVille
populatio
n
"Abbeville"@fr 24155
"Achicourt"@fr 7705
"Achères (Yvelines)"@fr 19626
"Agde"@fr 24567
"Agen"@fr 33981
"Ambérieu-en-Bugey"@fr 13835
"Ambérieux"@fr 572
"Ambérieux-en-
Dombes"@fr 1616
"Amel-sur-l'Étang"@fr 175
"Amelécourt"@fr 150
"Amendeuix-Oneix"@fr 414
Libellé_du_site
Caractéristique_d
u_site Code_postal Localité
AMBERIEU EN BUGEY Bureau de poste 1500AMBERIEU EN BUGEY
AMBERIEU EN DOMBES
BP Bureau de poste 1330AMBERIEUX EN DOMBES
AMBRONAY BP Bureau de poste 1500AMBRONAY
ANGLEFORT AP
Relais poste
commerçant 1350ANGLEFORT
ARBENT BP Bureau de poste 1100ARBENT
ARGIS AP
Relais poste
commerçant 1230ARGIS
Données des bureaux de poste sur http://data.gouv.fr
Extrait de données des
communes françaises sur
http://fr.dbpedia.org/sparql
INSEE, Code Officiel Géographique en RDF sur http://data.insee.fr
La même « chose » !
24. L’Open Data
Les données ouvertes sont des données
mises à disposition par des administrations
nationales, des collectivités ou des
organismes de recherche; elles sont issues
de leur fonctionnement ou produites par
ces organismes; elles sont publiées avec
une licence permettant leur libre accès
et leur réutilisation par tous, sans
restriction technique, juridique ou
financière.
Adaptation de la définition de wikipedia francophone : http://fr.wikipedia.org/wiki/Donn%C3%A9es_ouvertes
25. En date du 10 février 2014
Légende:
Déjà ouvert
En cours
Mouvement citoyen
26. Open Data : Enjeux
• Juridiques
• Économiques
• Démocratiques
• Coopératifs / organisationnels
• Techniques
• …
29. Utilisation des données
publiques : un exemple
« Check that bike » : en
Angleterre, une
application mobile qui
permet de vérifier si un
vélo d’occasion n’a pas
été volé, en
photographiant son
numéro d’identification.
http://theodi.org/blog/open-data-challenge-crime-winner
30. Open Refine
• « A tool to work with messy data »
• http://openrefine.org/
• Sur les bureaux de poste de data.gouv.fr :
1. Importer le fichier
2. Facettes sur « précision_du_géocodage », quelques
colonnes booléennes, facettes numériques,
scatterplot
La précision du géocodage n’est pas toujours
renseignée
1. Renseigner la précision :
« Inconnu » (avec guillemets)
1. Créer une colonne à partir d’une autre colonne
Numéro de téléphone générique : if(value ==
« 3631 »,true,false)
1. Appeler un webservice de géolocalisation
"https://maps.googleapis.com/maps/api/geocode/json
?address="+escape(value,"url")
38. 38
The Man Who Mistook His Wife for a Hat :
And Other Clinical Tales by
In his most extraordinary book, "one of the great clinical writers of the 20th century" (The New
York Times) recounts the case histories of patients lost in the bizarre, apparently inescapable world
of neurological disorders. Oliver Sacks's The Man Who Mistook His Wife for a Hat tells the stories
of individuals afflicted with fantastic perceptual and intellectual aberrations: patients who have lost
their memories and with them the greater part of their pasts; who are no longer able to recognize
people and common objects; who are stricken with violent tics and grimaces or who shout
involuntary obscenities; whose limbs have become alien; who have been dismissed as retarded yet
are gifted with uncanny artistic or mathematical talents.
If inconceivably strange, these brilliant tales remain, in Dr. Sacks's splendid and sympathetic telling, deeply human. They
are studies of life struggling against incredible adversity, and they enable us to enter the world of the neurologically
impaired, to imagine with our hearts what it must be to live and feel as they do. A great healer, Sacks never loses sight of
medicine's ultimate responsibility: "the suffering, afflicted, fighting human subject."
Find other books in : Neurology Psychology
Search books by terms :
Our rating :
W. SacksOliver
Oliver Sacks
47. recette pizza végétarienne rapide
Cherchez sur le web :
La pertinence et la réutilisation
de ce résultat ne peuvent être fait que
par… vous.
« Pizza exotique à l’ananas et au thon » vraiment végétarienne ?
Et si je veux les trier par temps de préparation ? par calories ?
Si je veux exporter une liste de recettes dans un fichier excel ?
49. Pizza de Tiphaine est une recette de pizza
Pizza de Tiphaine a pour ingrédient tomate
Pizza de Tiphaine a pour ingrédient mozarella
Pizza de Tiphaine a pour ingrédient champignon
Pizza de Tiphaine est dans la catégorie facile
Pizza de Tiphaine se prépare en 20 min
Une description plus formelle :
50. Oui mais…
comment exprimer de façon
non-ambigüe
ces descriptions ?
« a pour ingrédient », « contient », « has ingredient »… ?
51. En utilisant une interprétation commune des
descriptions qui s’appuie sur des
Vocabulaires partagés
Autrement appelés
Ontologies
Qui déterminent un sens univoque aux verbes,
aux catégories de sujet et aux compléments
52.
53. ex:pizza23 rdf:type recette de pizza
ex:pizza23 food:hasIngredient tomate
ex:pizza23 food:hasIngredient mozarella
ex:pizza23 food:hasIngredient champignon
ex:pizza23 dc:subject myData:easy
ex:pizza23 schema:cookingTime 20 min
ex:pizza23 rdfs:label « Pizza de Tiphaine »
Une description plus formelle :
58. freebase.com
• ~ wikipedia structuré
• Données éditables, réutilisables
• Racheté par Google en 2010 et forme
la base du Knowledge Graph
• Alimenté par plusieurs autres bases du
web (dont wikipedia)
59. • Vocabulaire permettant de structurer et formater
les données d'une page HTML
– Fait pour les moteurs de recherche, composé d'un
ensemble de vocabulaires typés, articulés entre eux.
• Initié mi 2011
Conjointement par Yahoo!, Bing et Google.
• rejoint par Yandex (russe)
– Groupe de travail dirigé par Dan Brickley (W3C)
• S'appuie notamment sur HTML5 (microdata, mais
aussi RDFa)
64. vs.
Que choisir ?
RDFa Microdata
• Même nombre d’attributs
• Même complexité
• Même expressivité à 99%
• Même support (schema.org supporte RDFa)
lite
65. vs.
Que choisir ?
RDFa Microdata
• RDFa : compatibilité avec le monde RDF (URIs,
triplets, parsers)
• RDFa : plus ancien/stable, plus déployé
• RDFa core : plus de possibilités
• Facebook ne supporte pas Microdata
• 99% du markup microdata encode du schema.org
lite
66. schema.org : outils
• Pour éditer :
– http://schema-creator.org/ (assistance au
balisage à base de formulaires)
– Des plugins pour vos CMS préférés
• Wordpress : http://wordpress.org/plugins/schema-creator/
• Drupal : https://drupal.org/project/schemaorg
• Pour tester
– Google Rich Snippet Testing Tool
• http://www.google.com/webmasters/tools/ric
hsnippets
67. Traitement Automatique
du Language
• Structurer des contenus non-structurés au
départ est – très – couteux
– Annotations manuelles, à base de thesaurus,
mots-clés, listes contrôlées, etc.
• Des outils de TAL peuvent aider
• opencalais.com :
– Gratuit < 50000 appels/jour
– http://viewer.opencalais.com
• alchemyapi.com
– Gratuit < 1000 appels/jour
• Plugins correspondants pour vos CMS préférés
74. Par quel moyen
les ontologies identifient-elles de
façon non-ambigüe les sujets, les
verbes et les compléments ?
75. Grâce à des URIs
http://mydomain.org/mypath/myresource
76. URLidentifier
ce qui existe sur
le web
http://mon.site.fr
URIidentifier,
sur le web,
ce qui existe
http://animaux.fr/mon-zebre
Fabien Gandon : http://fr.slideshare.net/fabien_gandon
77. http://exemple.com/Elvis
joue de la guitare
http://exemple.com/Elvis
habite à Las Vegas
Des données peuvent
parler du même « sujet »
que d’autres données
78. Des données peuvent
utiliser en « complément »
un sujet d’autres données
http://data.insee.fr/Paris
est en France
Elvis est en concert à
http://data.insee.fr/Paris
80. D’un web de documents
identifiés par des URLs et reliés par
des liens hypertextes…
81. … à un web de données
identifiées par des URIs
et reliées grâce à des triplets
« sujets verbe complément »
82. RDFest le modèle de données
permettant d’encoder les descriptions
( sujet , prédicat , objet )
83. Open Data et Web de données
★ Données accessibles sur le web
(sans conditions de formats)
★★ Données accessibles structurées
(Excel au lieu de l’image d’un tableau)
★★★ Formats non-propriétaires
(exemple: csv au lieu d’Excel)
★★★★ Utiliser des URI pour identifier les
ressources
★★★★★ Relier les données à d’autres données
http://5stardata.info/
Open Data
Données liées –
web de données
90. Logiciel d’extraction
GPS culturel
index de
collections
enseignement
accessibilité
international
applications
Julien Cojan et Fabien Gandon : http://fr.slideshare.net/JulienCojan/dbpedia-cafein
dbpedia
wikipedia
91. Julien Cojan et Fabien Gandon : http://fr.slideshare.net/JulienCojan/dbpedia-cafein
92. Trouver une ressource
dans DBPedia
1. Chercher dans Wikipedia en français
– « Jack Sparrow »
1. Noter l’URL de la page Wikipedia
– http://fr.wikipedia.org/Jack_Sparrow
1. Garder seulement la fin de l’URL et
remplacer le début par
« http://fr.dbpedia.org/resource/ »
– http://fr.dbpedia.org/resource/Jack_Sparrow
93. Cherchez le rapport entre:
- Pierre Curie: Physicien Français
- Boutros Boutros Ghali: Diplomate
Egyptien
- Jackie Kennedy : épouse de JFK
101. Les entreprises avec
leur nom…
SELECT ?x ?label
WHERE {
?x rdf:type dbpedia-owl:Company .
?x rdfs:label ?label
FILTER(lang(?label) = "fr")
}
102. Les entreprises avec
leur nom et leur slogan
SELECT ?x ?label ?slogan
WHERE {
?x rdf:type dbpedia-owl:Company .
?x rdfs:label ?label .
FILTER(lang(?label) = "fr")
?x prop-fr:slogan ?slogan
}
103. Les pays avec leur IDH
SELECT ?nomPays ?indiceDeveloppementHumain
WHERE {
?pays rdf:type dbpedia-owl:Country .
?pays rdfs:label ?nomPays .
FILTER (lang(?nomPays) = 'fr') .
OPTIONAL { ?pays prop-fr:idh ?
indiceDeveloppementHumain . }
}
104. Les villes d’Indre-et-loire
SELECT ?ville ?insee ?habitants
WHERE {
?ville dbpedia-owl:geolocDepartment
dbpedia-fr:Indre-et-Loire .
OPTIONAL { ?ville prop-fr:insee ?insee }
?ville dbpedia-owl:populationTotal ?
habitants .
} ORDER BY DESC(?habitants)
105. Les entreprises implantées dans
une ville d’indre-et-loire
SELECT ?nomEntreprise ?nomVille
WHERE {
?entreprise dbpedia-owl:locationCity ?ville .
?ville dbpedia-owl:geolocDepartment dbpedia-
fr:Indre-et-Loire .
?entreprise rdfs:label ?nomEntreprise .
?ville rdfs:label ?nomVille .
FILTER(lang(?nomEntreprise) = 'fr' && lang(?
nomVille) = 'fr') .
}
106. Les artistes qui partagent un genre
musical et un label avec les Rita
Mitsouko
select ?nomArtiste
where {
dbpedia-fr:Les_Rita_Mitsouko prop-fr:genre ?
genreDesRita .
dbpedia-fr:Les_Rita_Mitsouko prop-fr:label ?
labelDesRita .
?autresArtistes prop-fr:genre ?genreDesRita .
?autresArtistes prop-fr:label ?labelDesRita .
?autresArtistes rdfs:label ?nomArtiste .
?autresArtistes rdf:type dbpedia-owl:Agent .
FILTER(lang(?nomArtiste) = 'fr')
}
117. Relier les données :
quels usages ?
• « Relier les données : un enjeu majeur
pour les usages ? »
– Journée d’étude organisée par la FING
dans le cadre du projet Datalift
– jeudi 27 mars 2014, 10h-18h, chez Numa,
39 rue du Caire, 75002 Paris.
– http://fing.org/?page=evenement&id=506
118. Publier/Relier les données :
une vision ecosystémique
http://everywhereishere2009.blogspot.fr/2009/08/first-thoughts-designing-new-knowledge.html
(en attente de la permission de l’auteur)
119. Publier/Relier les données :
une vision ecosystémique
http://everywhereishere2009.blogspot.fr/2009/08/first-thoughts-designing-new-knowledge.html
(en attente de la permission de l’auteur)
127. Sur le web de données, on a
(souvent) 2 représentations de
la même ressource :
1 pour les humains en HTML
1 pour les machines en RDF
128. Les URIs des ressources de DBPedia sont
http://dbpedia.org/resource/xxx
leurs représentations pour un humain sont
http://dbpedia.org/page/xxx
leurs représentations pour une machine sont
http://dbpedia.org/data/xxx
Editor's Notes
L&apos;IDH se fonde sur trois critères majeurs : l&apos;espérance de vie à la naissance, le niveau d&apos;éducation, et le niveau de vie.
SELECT (STR(?nomPays) AS ?nomDuPays) ?indiceDeveloppementHumain
WHERE {
?pays a dbpedia-owl:Country .
?pays rdfs:label ?nomPays .
FILTER (lang(?nomPays) = &apos;fr&apos;) .
OPTIONAL { ?pays prop-fr:idh ?indiceDeveloppementHumain . }
}
select ?nomVille ?population
where {
?ville dbpedia-owl:country dbpedia-fr:France .
?ville rdf:type dbpedia-owl:Settlement .
?ville dbpedia-owl:populationTotal ?population .
?ville rdfs:label ?nomVille .
FILTER(lang(?nomVille) = &apos;fr&apos;)
} ORDER BY ?nomVille