1. Phase 2 EDA :
Exploration
Web Sémantique, ou comment donner du sens
2. Enjeux
‣ Construire un corpus compréhensible par celles
qui suppléées vos explorations : les machines
‣ Faire du web une base de données
décentralisée : passer d’un web de documents à
un web de données
‣ Fournir des résultats les plus pertinents possibles
7. Voyage à Mumbai
Et mettons nos photos sur flickr
Ou picasa
Ou encore realtravel
8. Le problème
‣ Quantité de sites à consulter de styles, languages,
objectifs différents
‣ Faire une intégration de toutes ces informations
‣ Où se trouvent les données ?
9. La solution web
sémantique
Utiliser les données du web de la même façon qu’on
le fait avec les documents :
‣ Lien aux données (off presentation)
‣ Utiliser les données pour soi
‣ Permettre à des agents, applications d’interpréter
les données
10. Comment atteindre cet
objectif ?
‣ Réduire la distance entre les deux webs (data &
documents) avec des objets typés et des relations
typés
‣ Ajouter des meta-data lisible par une machine au
contenu existant pour permettre une information
parsable, interrogeable, réutilisable
‣ Définir des sémantiques partagées pour ces
méta-data pour l’interopérabilité entre
applications et le raisonnement
11. La sémantique c’est quoi ?
‣ Étude du sens des mots
‣ Trois acceptations suivant 3 sciences : linguistique,
logique, psychologie
‣ Définir des sémantiques partagées pour ces
méta-data pour l’interopérabilité entre
applications et le raisonnement
12. Le web sémantique
aujourd’hui
‣ Gros travail de standardisation du w3.org
‣ Activité du web sémantique : w3.org/2001/sw
‣ Beaucoup d’activité d’incubateurs, groupes de
travail et groupement d’intérêt
‣ SPARQL
‣ RDB2RDF
‣ Etc.
15. URI
Une Uniform Resource Identifier (URI) est une
séquence de caractère qui identifie une resource
Les URI identifient tout (pas que des pages) de
manière unique
Exemple :
http://ic05.net/fabien - moi
http://ic05.net - la page de l’uv
16. Content-negociation
URI pour des humains, URI pour des documents
Négociation de contenu : rediriger une ressource
URI vers une description de cette ressource
suivant l’accesseur
Exemple :
http://dbpedia.org/resource/compiègne
http://dbpedia.org/page/compiègne
http://dbpedia.org/data/compiègne
17. RDF
L’URI représente des ressources mais comment
définir des choses à propos de ces ressources ?
RDF - Resource Description Framework - est une
syntaxe abstraite, un modèle de donnée qui
représente un graphe orienté et labelisé basé sur
les URIs
Le RDF est basé sur des triplets
<subjet> <prédicat> <objet>
18. RDF RDF
Digital Enterprise Research Institute www.deri.ie
@prefix dct: <http://purl.org/dc/terms/> . !
<http://example.org/dm110-semweb>!
dct:title “Introduction to the Semantic Web” ; !
dct:author <http://apassant.net/alex> ;!
dct:subject <http://dbpedia.org/resource/Semantic_Web> .!
19. Les ontologies
Le RDF fait des assertions à propos des URIs mais
comment qualifier ces assertions comment savoir
que :knows on FOAF identifie une relation de
connaissance entre humains ?
Rôle des ontologies
Languages d’ontologies : RDFS ou OWL
20. ntologies
rprise Research Institute Les ontologies www.deri.ie
Classes and properties
"! :Person a rdfs:Class .
"! :father a rdfs:Property .
"! :father rdfs:domain :Person .
"! :father rdfs:range :Person .
21. Les ontologies - RDFS
RDFS définie des classes, des propriétés et des
relations
ex:Person rdfs:subClassOf ex:humanLiving
ex:workWith rdfs:subPropertyOf ex:knows
Ces relations permettent d’inférencer de nouvelles
connaissances
:fabien rdf:type ex:Person
:fabien ex:worksWith :dominique
Fabien est un humain et connait dominique
22. Les ontologies - OWL
OWL va plus loin avec de nouveaux axiomes
Disjonction
Transitivité
symétrie
Contraintes de cardinalité
OWL2 introduit de nouvelles fonctionnalité pour le
raisonnement
Chaines de propriétés
Parent + brother => uncle
Les liens sont de simples liens, pas qualifier, ils ne repr&#xE9;sentent rien
KLM / air india / easyjet
Hilton, b&b, youth hostel
Long et douloureux
Divers db, xml, excel, designer. Mashup possible mais sp&#xE9;cifique
On finit par faire son propre site...
Ce n&#x2019;est pas un mashup !
Notion URI
S&#xE9;mantique linguistique : &#xE9;tude des changements de sens, th&#xE9;orie du signe, fonction psychosociale du langage, structure lexicologique
Sens statique, signification dynamique
Signification : proc&#xE8;s qui associe un objet &#xE0; un signe (naturel) ou symbole (artificiel) (saussure signe uni concept et image)
Saussure le mot en 4 : la chose (arbre), image de l&#x2019;arbre (signifi&#xE9;), image de la forme phonique (signifiant), forme phonique elle m&#xEA;me (le mot arbre)
En logique, traduction de signifiant formels issues de l&#x2019;IA (signifiant car repr&#xE9;sentent des connaissances)
Constellation, page rank, random surfer
Les annuaires dmoz, yahoo
Augmentation progressive avec les bonnes pratiques de construction de l&#x2019;index mais aussi de compr&#xE9;hension des recherches utilisateurs
Et encore moi dans le contexte de l&#x2019;uv mais on peut identifier des gens, des objets, etc.
Resource -> page si depuis le navigateur
Attention le RDF n&#x2019;est pas du XML RDF/XML oui mais il y en a d&#x2019;autre (N3, RDFa)
Bas&#xE9; sur le dublin core utilis&#xE9; dans les grandes instances gouvernementales
Sp&#xE9;cification d&#x2019;une conceptualisation : megathesaurus
OWL ontology web language
Sp&#xE9;cification d&#x2019;une conceptualisation : megathesaurus
OWL ontology web language
Sp&#xE9;cification d&#x2019;une conceptualisation : megathesaurus
OWL ontology web language
Sp&#xE9;cification d&#x2019;une conceptualisation : megathesaurus
OWL ontology web language
Si le nombre de liens sur une page augmente plus vite que pour une page plus ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un spamming.Si un document est plus r&#xE9;cent que la moyenne des pages dans un r&#xE9;sultat, on peut lui attribuer un meilleur score pour am&#xE9;liorer sa position afin de tenir compte de sa nouveaut&#xE9;.
Le score peut &#xEA;tre positif ou n&#xE9;gatif selon ces changements.
Si un document appara&#xEE;t dans des requ&#xEA;tes sans rapports entre elles, cela signale un spam et le score est r&#xE9;duit.
Apparition de backlink
Si rangs haut malgr&#xE9; actualit&#xE9; et changement des autres, proba spam augmente