2. Motivation
Dave plant eine Reise
von London
zum Kunden in Köln
Wie geht er vor?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 2 of 42
3. Webseite der Deutschen Bahn
Funktioniert, aber …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 3 of 42
4. Versuchen wir andere Anfragen
Engpässe im öffentlichen Personenverkehr
Visualisierung der Route auf einer Karte
Vergleich mit Flugverbindungen
Verknüpfung mit anderen Daten
Anfragen können nicht beantwortet werden
Denn im Internet von heute sind die Daten …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 4 of 42
5. … eingeschlossen in Silos!
Hoher Integrationsaufwand
Nicht wiederverwendbar
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 5 of 42
B. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY
6. Lösung: vernetzte Daten
Vernetzte Daten (engl. Linked Data)
Veröffentlichung und Verknüpfung von Daten
unterschiedlicher Qualität und Zweck
aus verschiedenen Quellen im Internet
Web Linked Data
Entitäten Dokumente Daten
Relationen Hyperlinks Typisierte Links
Format HTML RDF
Identität / Protokoll URI / HTTP URI / HTTP
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 6 of 42
7. Linked Data: Mai „07 Sept. „11
Web 2.0
Medien
Publikationen
Government
Cross-Domain
Lebenswissen-
Geographisch schaften
< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten
Ansgar Scherp Triple Quelle: http://lod-cloud.net
7 of 42
8. Facettierte, interaktive Exploration
Daten verschiedener Qualität und Herkunft:
DBpedia, GeoNames, WordNet, FOAF und Flickr
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 8 of 42
9. Übersicht
Motivation
Prinzipien
1. Identifikation
2. Verknüpfung
3. Dereferenzierung
4. Beschreibung
Muster
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 9 of 42
10. Beispiel: Big Lynx
Matt Briggs
Scott Miller
?Big Lynx
Firma
< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten
Ansgar Scherp Triple Quelle: http://lod-cloud.net
10 of 42
11. 1. Verwende URIs für Dinge
Matt Briggs
Scott Miller
http://biglynx.co.uk/
people/matt-briggs
http://biglynx.co.uk/
people/scott-miller
B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 11 of 42
12. Beispiel: Big Lynx
Matt Briggs
Scott Miller
Big Lynx
Firma
Was ist mit Relationen wie z.B. kennt ?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 12 of 42
13. Resource Description Framework (RDF)
Beschreibung von Ressourcen mit RDF-Triple
Spiegelt die Struktur einfacher Sätze wider, z. B.
Matt Briggs ist eine Person
Subjekt Prädikat Objekt
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 13 of 42
14. Beispiel in Turtle Syntax
<http://biglynx.co.uk/people/matt-briggs>
<http://w3.org/1999/02/22-rdf-syntax-ns#type>
<http://xmlns.com/foaf/0.1/Person> .
Namensräume zum Abkürzen von URIs
Etablierte Namensräume: rdf, foaf, …
@prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix foaf:<http://xmlns.com/foaf/0.1/> .
<http://biglynx.co.uk/people/matt-briggs>
rdf:type foaf:Person .
Präfix ist im aktuellen Dokument gültig
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 14 of 42
15. 1. Verwende URIs für Relationen
http://biglynx.co.uk/
people/matt-briggs
http://biglynx.co.uk/
people/scott-miller
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten
B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY 15 of 42
16. Beispiel: Big Lynx Dave Smith
London
„lebt hier“
Matt Briggs
„dieselbe
Scott Miller
Person“ Big Lynx
…
Firma
DBpedia Matt Briggs
Matts private
Webseite
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 16 of 42
17. 2. Verknüpfungen herstellen
Verknüpfen von Ressourcen mit RDF-Links
Beziehungslinks
Identitätslinks
Vokabularlinks
Ermöglichen es weitere Ressourcen zu finden
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 17 of 42
18. Beziehungslinks in RDF
Definieren Beziehungen zwischen Ressourcen
Beispiel
<http://biglynx.co.uk/people/dave-smith>
foaf:based_near
<http://dbpedia.org/resource/London> .
Externe Beziehungslinks: Subjekt und Objekt
kommen aus verschiedenen Namensräumen
Interne Beziehungslinks: gleicher Namensraum
biglynx:matt-briggs foaf:knows biglynx:dave-smith .
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 18 of 42
19. Identitätslinks
URI-Aliase zur Verknüpfung von Datenquellen,
die dieselben Dinge der realen Welt beschreiben
Beispiel
<http://biglynx.co.uk/people/matt-briggs>
<http://www.w3.org/2002/07/owl#sameAs>
<http://www.matt-briggs.eg.uk#me> .
Dienst für Identitätslinks: .org
Wann sind zwei Ressourcen identisch?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 19 of 42
20. Gleichheit von Entitäten
Problem bekannt aus Datenbanken und
Datamining
K. Mayer und K. M. Mayer dieselbe Person?
Auflösen von Name, Koautoren, Titel und
Veranstaltungsort oftmals nicht ausreichend
413.000 DBpedia Orte mit GeoNames abgleichen
Werkzeuge zur Formulierung von Heuristiken
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 20 of 42
21. Vokabularlinks
Verweise auf Definitionen in eigenen und
existierenden Vokabularen
Ziel: Daten werden selbstbeschreibend
Spezifikation eigener Vokabulare mit
RDF Vocabulary Description Language (RDFS)
Simple Knowledge Organization System (SKOS)
Web Ontology Language (OWL):
typischerweise nur owl:sameAs
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 21 of 42
22. Existierende Vokabulare
Friend-of-a-Friend (foaf): Personen
und Beziehungen
Dublin Core (dc): Metadaten wie Titel,
Ersteller, Datum und Thema
Programmontologie der BBC
Schema.org Web-Seiten-Markup
von Google, Bing und Yahoo!
Facebook Graph API
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 22 of 42
23. Abgleich von Vokabularen
Integration von Vokabularen
Ähnlich zum Problem der Identität
Beispiel: foaf:name vs. vcard:family-name
Nicht trivial, selbst für ähnliche Vokabulare
Domänenontologien können sehr groß sein
Methoden zum Abgleich von Vokabularen und
Re-Engineering
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 23 of 42
24. Beispiel: Big Lynx Dave Smith
London
foaf:based_near
„lebt hier“
Matt Briggs
„dieselbe
owl:sameAs
Person“ Big Lynx
Firma
DBpedia Matt Briggs
Matts private
Webseite
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 24 of 42
25. 3. Dereferenzierung von URIs
Nachschlagen von URIs mittels HTTP GET
Anwendbar für Dokumente und digitale Inhalte
Nachschlagen von Dingen der realen Welt ?
http://biglynx.co.uk/
people/matt-briggs
Verschiedene URIs für Dinge und Beschreibung
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 25 of 42
26. Variante 1: 303 See Other
Linked HTTP GET (Accept: appl./rdf+xml) Big
Data http://biglynx.co.uk/people/matt-briggs Lynx
Client Server
303 See Other
http://biglynx.co.uk/people/matt-briggs.rdf
HTTP GET
http://biglynx.co.uk/people/matt-briggs.rdf
200 OK
(Dokument in RDF)
- Höhere Netzwerklatenz
+ Geeignet für große Datensätze, z. B. DBpedia
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 26 of 42
27. Variante 2: Hash URIs
URI enthält einen mit # getrennten Teil, z. B.
http://biglynx.co.uk/vocab/sme#Team
Abschneiden des #<…>-Fragmentes
Verbleibende URI dereferenzieren
Beschreibung mehrerer Ressourcen, u. A. Team
- Höhere Datenübertragung
+ Geeignet zum Empfang ganzer Vokabulare
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 27 of 42
28. Beispiel: Big Lynx Dave Smith
London
foaf:based_near
Matt Briggs
owl:sameAs
Big Lynx
Firma
DBpedia Matt Briggs
Matts private Beschreibung
Webseite von Matt?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 28 of 42
29. 4. Beschreibung von URIs
Dereferenzierung einer Ressource
Liefert eine Beschreibung in RDF zurück
Was ist eine sinnvolle Beschreibung?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 29 of 42
30. Beispiel: Beschreibung von Matt
foaf:Person …
… dp:Birmingham
rdf:type …
foaf:based_near
biglynx:matt-briggs ex:loc
_:point
foaf:knows
wgs84:
wgs84: long
biglynx:dave-smith
lat
“-0.118”
foaf:based_near
“51.509”
dp:London
… …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 30 of 42
31. Concise Bounded Description
Gegeben ein RDF-Graph G = (V, P, E) mit
V = R B L endliche Knotenmenge aus
∩ ∩
Ressourcen R, Blank-Nodes B und Literale L
P endliche Menge an Prädikaten
∩
E R B x P x V Menge typisierter Kanten
Startknoten n R
Blank-Node: eindeutige Ressource, ohne URI
Literal: XSD-typisiertes Objekt (z. B. string, int)
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 31 of 42
32. Concise Bounded Description
Einfache Concise Bounded Description (CBD)
∞ ∩
SimpleCBD(n) = I j mit
j=0
I 0 = { (s, p, o) | (s, p, o) E s=n}
I j+1 = { (o, p‘, o‘) E| (s, p, o) Ij : o B
∩j
(o, p‘, o‘) Ik}
k=0
Weitere CBDs berücksichtigen bspw. noch
RDF-Reifikation, Symmetrie und RDF-Label
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 32 of 42
33. Beispiel: Beschreibung von Matt
foaf:Person …
… dp:Birmingham
rdf:type …
foaf:based_near
biglynx:matt-briggs ex:loc
_:point
foaf:knows
wgs84:
wgs84: long
biglynx:dave-smith
lat
“-0.118”
foaf:based_near
“51.509”
dp:London
… …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 33 of 42
34. Datensätze beschreiben mit voiD
Profile der Mitarbeiter sind gebündelt zu einem
großen Datensatz
<http://biglynx.co.uk/datasets/people>
rdf:type void:Dataset;
dc:hasPart
<http://biglynx.co.uk/people/dave-smith.rdf>;
dc:isPartOf
<http://biglynx.co.uk/datasets/all>.
…
voiD hat keine explizite Schemainformation
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 34 of 42
35. Schemaextraktion
Finde Quellen mit bestimmten Datentypen
Erkenne die Verknüpfung von Datenquellen
Präzise Indexstrukturen benötigt
Beispielsweise für RDF-Typen, Typ-Cluster und
prädikatsbasierte Äquivalenzklassen
Ermöglicht verteilte Anfragen
auf der Linked-Data-Wolke
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 35 of 42
36. Übersicht
Motivation
Prinzipien
1. Identifikation
2. Verknüpfung
3. Dereferenzierung
4. Beschreibung
Muster
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 36 of 42
37. Muster in vernetzten Daten
Generische Lösung für ein wiederkehrendes
Modellierungsproblem
Klare Kommunikation durch festgelegte Begriffe
(Oft) eher Best Practices als Muster
[Dodds und Davis, 2011]
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 37 of 42
38. Muster: Topic Autodiscovery
Problem
Web-Seiten handeln oft von einem
bestimmten Thema
Lösung
Einbetten eines <link>-Elements
<link rel="primarytopic"
href="http://dbpedia.org/resource/London"/>
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 38 of 42
39. Muster: Reified Statement
Problem
Modellierung von „Aussagen über Aussagen“
Triple annotieren mit Autor, Datum der
Erstellung usw.
Lösung
Beschreibung von Graphänderungen mit
herkömmlicher RDF-Reifikation
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 39 of 42
40. Beispiel: Reified Statement
rdf:Statement
rdf:type
dc:created
_:ex1 "2011-10-28"
rdf:subject rdf:object
rdf:predicate
ex:/book/1 biglynx:
matt-briggs
foaf:maker
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 40 of 42
41. Muster: Qualified Relation
Relation mit zwei gleichberechtigen Ressourcen
Spezieller Fall des Musters N-ary Relation
Beispiel
_:mattMaryMarriage rdf:type ex:Marriage;
ex:partner biglynx:matt-briggs;
ex:partner ex:mary;
ex:date "2010-08-06"^^xsd:date .
Warum nicht als Reified Statement?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 41 of 42
42. Zusammenfassung
Veröffentlichung und Verknüpfung von Daten
Einheitliches Datenmodell RDF
Beschreiben und Auffinden von Daten
Web-Standards wie URI und HTTP
Herausforderungen
Identität und Verknüpfung von Ressourcen
Abgleich von Vokabularen
Extrahieren von Schemata
Intuitiv benutzbare Anwendungen
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 42 of 42
43. Literatur
http://linkeddatabook.com/ http://patterns.dataincubator.org/
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 43 of 42
44. Weitere Literatur
T. Berners-Lee: Linked Data, June, 2009.
URL: http://www.w3.org/DesignIssues/LinkedData.html
T. Berners-Lee: Cool URIs don't change, 1998.
URL: http://www.w3.org/Provider/Style/URI
M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective
Intelligence on the Web. In: Informatik Spektrum, Springer, 2011.
F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL:
http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification
L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the
Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/
P. Stickler: CBD - Concise Bounded Description, 2005.
URL: http://www.w3.org/Submission/CBD/
Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL:
http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf
J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and
Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009.
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 44 of 42