1. Schema.org
Comment faciliter l’accès à ses contenus
via Bing/Google/Yahoo
Sylvie Dalbin
Assistance & Techniques Documentaires (ATD)
http://claimid.com/sylviedalbin
Support de présentation, complété après l'atelier
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche
Mercredi 13 Juin 2012
2. Plan de l'intervention
1. Document numérique structuré
● Chronologie
● Exploitation par les moteurs de recherche
2. Schema.org - Composants, structure, format
3. Schema.org - Comment faire ?
Pour conclure – Points d'attention
Schema.org est un vocabulaire (schéma) de métadonnées, hiérarchisé et structuré,
utilisable pour exposer les données dans le web (pages des sites).
Proposé initialement par les moteurs de recherche Google, Bing et Yahoo !, cette
infrastructure des pages html vise à optimiser la recherche et faciliter l'exploitation
par les utilisateurs du Web. Et prendre mieux en compte le gigantisme du web.
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 2
3. Cet outillage (ensemble de métadonnées) s'inscrit certes dans
une histoire du web et des moteurs de recherche, mais plus
largement dans une histoire du « document numérique structuré »
qui va de SGML à HTML5, en passant par rdf comme syntaxe
pour les métadonnées et rdfa pour HTML5.
On peut aussi inscrire cette évolution dans une histoire plus
ancienne de structuration et d'annotation des contenus (balisage
avec une sémantique « métier »)
Une double histoire est tracée dans ce schéma :
- histoire des systèmes de structuration et d'encodage de
documents numériques ;
- histoire des système de représentation de ressources via des
schémas de métadonnées (DC, Microformats, Schema.org)
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 3
4. 1. Document numérique structuré
Chronologie
Exploitation par les moteurs de recherche
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 4
6. Présentation des résultats#1 étape 1
–
[Code source de cette page]
<h1>Ce qu'il vous faut</h1>
1/2 tasse de farine
1/2 tasse de sucre
2 c. à thé de poudre à pâte Magic
1/2 c. à thé de bicarbonate de soude
1/4 c. à thé de sel
1 oeuf
Dans ce formatage, seul la structure « éditoriale »
est balisées ; les ingrédients sont listés dans le
texte sans marquage particulier.
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 6
7. Présentation des résultats – étape 2
#2 Extraits enrichis (Rich Snippets)
Faire ressortir dans l'extrait :
● Photo
● Durée de préparation
● Appréciation d'internaute
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 7
8. Code source de la page
<div class="ingredients" style="margin-top: 10px;">
Présentation des résultats – étape 2
<h3>
Ingredients</h3>
<ul>
<li class="plaincharacterwrap ingredient">
2 cups all-purpose flour</li>
<li class="plaincharacterwrap ingredient">
1/2 teaspoon baking soda</li>
<li class="plaincharacterwrap ingredient">
1 cup white sugar</li>
<li class="plaincharacterwrap ingredient">
1 egg</li>
<li class="plaincharacterwrap ingredient">
5 tablespoons milk</li>
Quelques éléments sont mis en exergue,
<li class="plaincharacterwrap ingredient"> pour être sélectionnés et présentés dans
1 teaspoon baking powder</li> l'extrait enrichi.
<li class="plaincharacterwrap ingredient">
1/2 teaspoon salt</li>
<li class="plaincharacterwrap ingredient">
1/2 cup margarine</li>
<li class="plaincharacterwrap ingredient">
1 cup mashed bananas</li>
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 8
9. #3 Schema.org
Présentation des résultats – étape 3
Extraits enrichis
Filtrer par des critères spécifiques
Tri par facettes aux recettes de cuisine:
● Ingrédients
● Durée de préparation
● Calories
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 9
10. 2. Schema.org
- composants, structure, format -
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 10
11. Schema.org
● Vocabulaire permettant de structurer et formater
les données d'une page HTML
● Mis en œuvre pour optimiser l'étape de sélection dans une
recherche d'info.
● Profil d'application pour les moteurs, composé d'un
ensemble de vocabulaires typés, articulés entre eux.
● Initié mi 2011
● Conjointement par Yahoo!, Bing et Google.
– rejoint par Yandex (russe)
● Groupe de travail dirigé par Dan Brickley (W3C)
● S'appuie sur les normes techniques HTML5
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 11
12. Schema.org – types et relations
<En ligne>
Thing
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 12
13. Schema.org - profil pour « Recettes de cuisine »
<En ligne>
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 13
14. Schema.org : extensions
● Par des liens vers des valeurs externes
En prenant appui sur des vocabulaires reconnus
ISO 3166-1 pour les Pays, le vocabulaire de l'IPTC, mais aussi les
entités de wikipédia, ...
● Par l'intégration d'autres schémas spécialisés
Emploi > JobPostings (intégré)
Presse-Médias > rNews de l'IPTC (intégré)
Commerce > GoodRelations (en cours d'intégration)
Pédagogie > Learning resource metadata initiative
(projet en cours)
Wiki du W3C - WebSchemas
http://www.w3.org/wiki/WebSchemas
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 14
15. Trois formats de balisage des données
> Microdonnée privilégié par le W3C
● Microformats
● hCard, hReview, hAtom, hNews, hProduct,...
● Microdonnées (HTML5 microdata)
● « … (se) concentrer sur un seul format....éviter que les
webmasters ne soient obligés de faire un choix difficile... »
● attributs simples dans les balises
● souvent <span> ou <div>
● itemscope, itemtype, itemid, itemprop, itemref
● Séparer contenu, sémantique et présentation
● Non encore stabilisé - http://www.w3.org/TR/html5/microdata.html
● RDFa
● v1.1 : RDFa Core, RDFa Lite et XHTML+RDFa
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 15
16. Remarques : des vocabulaires de nature différente
– les microformats ne couvrent que quelques types
d'objet (agenda, CV, critique, …) et associent
entités / propriétés et syntaxe d'encodage.
– les deux autres vocabulaires (microdonnées
HTML5 ou RDFa) correspondent à des syntaxes
et sont indépendantes des ressources à
modéliser. Ils sont utilisables avec Schema.org
Etudier et comparer les vocabulaires que vous utilisez
et les profils proposés dans Schema.org (ainsi que les
extensions tels GoodRelations,, …)
– Chercher au maximum à aligner les entités /
propriétés
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 16
17. Microdata HTML5
Exemple d'encodage
Schema.org
Le contenu !
schema.org/Recipe
et microdonnees HTML5
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 17
18. 3. Comment faire ?
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 18
19. Différentes solutions – en cours de développement
● Editer directement le code html enrichi
– Avec vos outils éditoriaux
– En récupérant le code à partir d'un outil autonome (voir page suivante)
● Appliquettes adossées aux gestionnaires de
contenus
– Wordpress (EasyRecipe,...), Drupal (schema.org),...
● Outils de développement
– Outils pour langages de programmation - http://schema.rdfs.org/tools.html
● Outils de publication « internes »
– Alignement et transformation
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 19
20. Outillage d'édition du code (un exemple)
http://schema-creator.org/person.php
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 20
21. Pour conclure : points d'attention
● Approche « normalisatrice » du Web
● Qui n'interdit pas les approches linguistiques (TALN) ou
sociales
● Stratégie de publication Web à repenser
● Fonction de votre situation et contexte
– « données ouvertes » versus « commerce » ; données d'appel ?
– Un existant ou pas, en interne de l'organisme
● Etre Présent ou Absent dans les résultats des moteurs ?
Un équilibre à trouver entre deux extrêmes
=> les utilisateurs pourraient rester DANS le moteur ?
=> vous disparaissez des résultats ?
● Economie de déploiement
– Coût, compétences, qualité, ....
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 21
22. Merci pour votre attention.
Des questions ?
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 22
23. Références
● Schema.org et blog.schema.org
● Schema.org – FAQ
http://support.google.com/webmasters/bin/answer.py?
hl=fr&answer=1211158&topic=1088472&ctx=topic
● Schema.org - Extraits enrichis
http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=99170
● Liste de diffusion publique : public-vocabs.w3.org
● Outils de test du balisage - http://www.google.com/webmasters/tools/richsnippets
● Webschemas – site d'évolution du schéma avec alignement et intégration de
vocabulaires
http://www.w3.org/wiki/WebSchemas
● Présentation Schéma.org / microdata : la sémantique au plus près
du lecteur et des moteurs, Jean Delahousse, mai 2012 -
http://www.semweb.pro/talk/2688
● Schema.org, T.Cuvelier, 01/09/2011,
http://tcuvelier.developpez.com/tutoriels/web-semantique/html5-microdonnees/schema-org/
● Traductions en FR de recommandations du W3C, dont RDFa
http://www.yoyodesign.org/doc/w3c/index.php
● What tools are available? http://schema.rdfs.org/tools.html
I-expo 2012 – Atelier 3 - Actualite des moteurs de recherche – Mercredi 13 Juin 2012 23