SlideShare a Scribd company logo
1 of 44
Entwurfsprinzipien
und Muster für
vernetzte Daten
Ansgar Scherp
Habilitationskolloquium
Universität Koblenz-Landau

9. November 2011             CC-BY
Motivation
 Dave plant eine Reise
   von London
   zum Kunden in Köln



 Wie geht er vor?

 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   2 of 42
Webseite der Deutschen Bahn




Funktioniert, aber …
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   3 of 42
Versuchen wir andere Anfragen
 Engpässe im öffentlichen Personenverkehr
 Visualisierung der Route auf einer Karte
 Vergleich mit Flugverbindungen
 Verknüpfung mit anderen Daten

 Anfragen können nicht beantwortet werden
 Denn im Internet von heute sind die Daten …


  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   4 of 42
… eingeschlossen in Silos!




 Hoher Integrationsaufwand
 Nicht wiederverwendbar
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                                                5 of 42
                                                             B. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY
Lösung: vernetzte Daten
 Vernetzte Daten (engl. Linked Data)
 Veröffentlichung und Verknüpfung von Daten
   unterschiedlicher Qualität und Zweck
   aus verschiedenen Quellen im Internet

                       Web                                            Linked Data
 Entitäten             Dokumente                                      Daten
 Relationen            Hyperlinks                                     Typisierte Links
 Format                HTML                                           RDF
 Identität / Protokoll URI / HTTP                                     URI / HTTP

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                 6 of 42
Linked Data: Mai „07  Sept. „11
                                                         Web 2.0


                                      Medien



                                                                                   Publikationen

     Government

                                        Cross-Domain



                                                                 Lebenswissen-
                Geographisch                                        schaften



< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten
   Ansgar Scherp Triple                                                     Quelle: http://lod-cloud.net
                                                                                                 7 of 42
Facettierte, interaktive Exploration




 Daten verschiedener Qualität und Herkunft:
  DBpedia, GeoNames, WordNet, FOAF und Flickr
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   8 of 42
Übersicht
 Motivation
 Prinzipien
  1. Identifikation
  2. Verknüpfung
  3. Dereferenzierung
  4. Beschreibung
 Muster
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   9 of 42
Beispiel: Big Lynx
                                                    Matt Briggs




                                                 Scott Miller
                                                                     ?Big Lynx
                                                                       Firma




< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten
   Ansgar Scherp Triple                                              Quelle: http://lod-cloud.net
                                                                                         10 of 42
1. Verwende URIs für Dinge



Matt Briggs


                                                                            Scott Miller
      http://biglynx.co.uk/
      people/matt-briggs
                                                                       http://biglynx.co.uk/
                                                                       people/scott-miller

                 B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                             11 of 42
Beispiel: Big Lynx
                                                   Matt Briggs




                                                Scott Miller
                                                                     Big Lynx
                                                                      Firma



 Was ist mit Relationen wie z.B. kennt ?
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten              12 of 42
Resource Description Framework (RDF)

 Beschreibung von Ressourcen mit RDF-Triple

 Spiegelt die Struktur einfacher Sätze wider, z. B.

           Matt Briggs                                  ist eine Person


                   Subjekt                              Prädikat      Objekt



  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten            13 of 42
Beispiel in Turtle Syntax
<http://biglynx.co.uk/people/matt-briggs>
  <http://w3.org/1999/02/22-rdf-syntax-ns#type>
  <http://xmlns.com/foaf/0.1/Person> .

 Namensräume zum Abkürzen von URIs
 Etablierte Namensräume: rdf, foaf, …

@prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix foaf:<http://xmlns.com/foaf/0.1/> .
<http://biglynx.co.uk/people/matt-briggs>
   rdf:type foaf:Person .

 Präfix ist im aktuellen Dokument gültig
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   14 of 42
1. Verwende URIs für Relationen




     http://biglynx.co.uk/
     people/matt-briggs

                                                                       http://biglynx.co.uk/
                                                                       people/scott-miller

 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten
                 B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY                       15 of 42
Beispiel: Big Lynx                                                    Dave Smith
      London
                                               „lebt hier“


                                                Matt Briggs

                                                   „dieselbe
                                                Scott Miller
                                                        Person“      Big Lynx
                          …
                                                                      Firma

         DBpedia                                                      Matt Briggs

                                Matts private
                                Webseite
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten              16 of 42
2. Verknüpfungen herstellen
 Verknüpfen von Ressourcen mit RDF-Links
   Beziehungslinks
   Identitätslinks
   Vokabularlinks

 Ermöglichen es weitere Ressourcen zu finden




  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   17 of 42
Beziehungslinks in RDF
 Definieren Beziehungen zwischen Ressourcen
 Beispiel
  <http://biglynx.co.uk/people/dave-smith>
      foaf:based_near
      <http://dbpedia.org/resource/London> .

 Externe Beziehungslinks: Subjekt und Objekt
  kommen aus verschiedenen Namensräumen

 Interne Beziehungslinks: gleicher Namensraum
  biglynx:matt-briggs foaf:knows biglynx:dave-smith .

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   18 of 42
Identitätslinks
 URI-Aliase zur Verknüpfung von Datenquellen,
  die dieselben Dinge der realen Welt beschreiben
 Beispiel
     <http://biglynx.co.uk/people/matt-briggs>
       <http://www.w3.org/2002/07/owl#sameAs>
       <http://www.matt-briggs.eg.uk#me> .


 Dienst für Identitätslinks:                                         .org

 Wann sind zwei Ressourcen identisch?

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten          19 of 42
Gleichheit von Entitäten
 Problem bekannt aus Datenbanken und
  Datamining


 K. Mayer und K. M. Mayer dieselbe Person?
 Auflösen von Name, Koautoren, Titel und
  Veranstaltungsort oftmals nicht ausreichend

 413.000 DBpedia Orte mit GeoNames abgleichen
 Werkzeuge zur Formulierung von Heuristiken

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   20 of 42
Vokabularlinks
 Verweise auf Definitionen in eigenen und
  existierenden Vokabularen
 Ziel: Daten werden selbstbeschreibend

 Spezifikation eigener Vokabulare mit
   RDF Vocabulary Description Language (RDFS)
   Simple Knowledge Organization System (SKOS)
   Web Ontology Language (OWL):
    typischerweise nur owl:sameAs

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   21 of 42
Existierende Vokabulare
 Friend-of-a-Friend (foaf): Personen
  und Beziehungen
 Dublin Core (dc): Metadaten wie Titel,
  Ersteller, Datum und Thema


 Programmontologie der BBC
 Schema.org Web-Seiten-Markup
  von Google, Bing und Yahoo!
 Facebook Graph API

  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   22 of 42
Abgleich von Vokabularen
 Integration von Vokabularen
 Ähnlich zum Problem der Identität
 Beispiel: foaf:name vs. vcard:family-name

 Nicht trivial, selbst für ähnliche Vokabulare
 Domänenontologien können sehr groß sein
 Methoden zum Abgleich von Vokabularen und
  Re-Engineering


  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   23 of 42
Beispiel: Big Lynx                                                    Dave Smith
      London
                                       foaf:based_near
                                           „lebt hier“


                                                Matt Briggs

                                                    „dieselbe
                                                 owl:sameAs
                                                    Person“          Big Lynx
                                                                      Firma

         DBpedia                                                      Matt Briggs

                                Matts private
                                Webseite
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten              24 of 42
3. Dereferenzierung von URIs
 Nachschlagen von URIs mittels HTTP GET
 Anwendbar für Dokumente und digitale Inhalte
 Nachschlagen von Dingen der realen Welt ?




                                http://biglynx.co.uk/
                                people/matt-briggs


 Verschiedene URIs für Dinge und Beschreibung
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   25 of 42
Variante 1: 303 See Other
Linked            HTTP GET (Accept: appl./rdf+xml)                     Big
 Data               http://biglynx.co.uk/people/matt-briggs           Lynx
Client                                                               Server
                                      303 See Other
                http://biglynx.co.uk/people/matt-briggs.rdf

                                          HTTP GET
                http://biglynx.co.uk/people/matt-briggs.rdf

                                                200 OK
                                     (Dokument in RDF)

- Höhere Netzwerklatenz
+ Geeignet für große Datensätze, z. B. DBpedia
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten     26 of 42
Variante 2: Hash URIs
 URI enthält einen mit # getrennten Teil, z. B.
  http://biglynx.co.uk/vocab/sme#Team

 Abschneiden des #<…>-Fragmentes
 Verbleibende URI dereferenzieren
 Beschreibung mehrerer Ressourcen, u. A. Team


 - Höhere Datenübertragung
 + Geeignet zum Empfang ganzer Vokabulare
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   27 of 42
Beispiel: Big Lynx                                                       Dave Smith
      London
                                       foaf:based_near


                                                Matt Briggs

                                                 owl:sameAs
                                                                        Big Lynx
                                                                         Firma

         DBpedia                                                         Matt Briggs

                                Matts private                        Beschreibung
                                Webseite                             von Matt?
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                 28 of 42
4. Beschreibung von URIs
 Dereferenzierung einer Ressource
 Liefert eine Beschreibung in RDF zurück


 Was ist eine sinnvolle Beschreibung?




  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   29 of 42
Beispiel: Beschreibung von Matt
                foaf:Person                                                            …
…                                                             dp:Birmingham
                                rdf:type                                                …
                                                             foaf:based_near
        biglynx:matt-briggs                                   ex:loc
                                                                        _:point
                                foaf:knows
                                                                                   wgs84:
                                                                     wgs84:          long
       biglynx:dave-smith
                                                                     lat
                                                                                  “-0.118”
                                foaf:based_near
                                                                       “51.509”
                 dp:London

      …                                                       …
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                    30 of 42
Concise Bounded Description
 Gegeben ein RDF-Graph G = (V, P, E) mit
   V = R B L endliche Knotenmenge aus
                     ∩          ∩
    Ressourcen R, Blank-Nodes B und Literale L
   P endliche Menge an Prädikaten
                     ∩
   E R B x P x V Menge typisierter Kanten
 Startknoten n                            R


 Blank-Node: eindeutige Ressource, ohne URI
 Literal: XSD-typisiertes Objekt (z. B. string, int)
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   31 of 42
Concise Bounded Description
 Einfache Concise Bounded Description (CBD)
                  ∞                          ∩
  SimpleCBD(n) =     I j mit
                                            j=0

       I 0 = { (s, p, o) | (s, p, o)                                  E     s=n}
   I j+1 = { (o, p‘, o‘)                           E|           (s, p, o)      Ij : o   B
                                                                                        ∩j
                                                                          (o, p‘, o‘)          Ik}
                                                                                        k=0


 Weitere CBDs berücksichtigen bspw. noch
  RDF-Reifikation, Symmetrie und RDF-Label
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                          32 of 42
Beispiel: Beschreibung von Matt
                foaf:Person                                                            …
…                                                             dp:Birmingham
                                rdf:type                                                …
                                                             foaf:based_near
        biglynx:matt-briggs                                   ex:loc
                                                                        _:point
                                foaf:knows
                                                                                   wgs84:
                                                                     wgs84:          long
       biglynx:dave-smith
                                                                     lat
                                                                                  “-0.118”
                                foaf:based_near
                                                                       “51.509”
                 dp:London

      …                                                       …
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                    33 of 42
Datensätze beschreiben mit voiD
 Profile der Mitarbeiter sind gebündelt zu einem
  großen Datensatz
  <http://biglynx.co.uk/datasets/people>
     rdf:type void:Dataset;
  dc:hasPart
     <http://biglynx.co.uk/people/dave-smith.rdf>;
  dc:isPartOf
     <http://biglynx.co.uk/datasets/all>.
   …

 voiD hat keine explizite Schemainformation
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   34 of 42
Schemaextraktion
 Finde Quellen mit bestimmten Datentypen
 Erkenne die Verknüpfung von Datenquellen



 Präzise Indexstrukturen benötigt
 Beispielsweise für RDF-Typen, Typ-Cluster und
  prädikatsbasierte Äquivalenzklassen

 Ermöglicht verteilte Anfragen
  auf der Linked-Data-Wolke
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   35 of 42
Übersicht
 Motivation
 Prinzipien
  1. Identifikation
  2. Verknüpfung
  3. Dereferenzierung
  4. Beschreibung
 Muster
 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   36 of 42
Muster in vernetzten Daten
 Generische Lösung für ein wiederkehrendes
  Modellierungsproblem
 Klare Kommunikation durch festgelegte Begriffe

 (Oft) eher Best Practices als Muster

                                                                 [Dodds und Davis, 2011]




  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                 37 of 42
Muster: Topic Autodiscovery
 Problem
    Web-Seiten handeln oft von einem
     bestimmten Thema

 Lösung
    Einbetten eines <link>-Elements
      <link rel="primarytopic"
         href="http://dbpedia.org/resource/London"/>




  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   38 of 42
Muster: Reified Statement
 Problem
    Modellierung von „Aussagen über Aussagen“
    Triple annotieren mit Autor, Datum der
     Erstellung usw.

 Lösung
    Beschreibung von Graphänderungen mit
     herkömmlicher RDF-Reifikation


 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   39 of 42
Beispiel: Reified Statement
                                      rdf:Statement

                                   rdf:type
                                                                dc:created
                                                _:ex1                        "2011-10-28"

    rdf:subject                                                         rdf:object

                                                       rdf:predicate
    ex:/book/1                                                                biglynx:
                                                                             matt-briggs
                                           foaf:maker

 Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                    40 of 42
Muster: Qualified Relation
 Relation mit zwei gleichberechtigen Ressourcen
 Spezieller Fall des Musters N-ary Relation
 Beispiel
   _:mattMaryMarriage rdf:type ex:Marriage;
      ex:partner biglynx:matt-briggs;
      ex:partner ex:mary;
      ex:date "2010-08-06"^^xsd:date .


 Warum nicht als Reified Statement?
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   41 of 42
Zusammenfassung
 Veröffentlichung und Verknüpfung von Daten
   Einheitliches Datenmodell RDF
   Beschreiben und Auffinden von Daten
   Web-Standards wie URI und HTTP

 Herausforderungen
    Identität und Verknüpfung von Ressourcen
    Abgleich von Vokabularen
    Extrahieren von Schemata
    Intuitiv benutzbare Anwendungen
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   42 of 42
Literatur




http://linkeddatabook.com/                                    http://patterns.dataincubator.org/
  Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten                      43 of 42
Weitere Literatur
 T. Berners-Lee: Linked Data, June, 2009.
  URL: http://www.w3.org/DesignIssues/LinkedData.html
 T. Berners-Lee: Cool URIs don't change, 1998.
  URL: http://www.w3.org/Provider/Style/URI
 M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective
  Intelligence on the Web. In: Informatik Spektrum, Springer, 2011.
 F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL:
  http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification
 L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the
  Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/
 P. Stickler: CBD - Concise Bounded Description, 2005.
  URL: http://www.w3.org/Submission/CBD/
 Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL:
  http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf
 J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and
  Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009.
   Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten   44 of 42

More Related Content

Similar to Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

20080822barcamp Traunkirchen
20080822barcamp Traunkirchen20080822barcamp Traunkirchen
20080822barcamp TraunkirchenAndreas Blumauer
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzen
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzenKunden-Netzwerke: Soziale Bindungen analysieren und nutzen
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzenPeter Gerngross
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
RDF Application Profiles
RDF Application ProfilesRDF Application Profiles
RDF Application ProfilesKai Eckert
 

Similar to Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten) (7)

20080822barcamp Traunkirchen
20080822barcamp Traunkirchen20080822barcamp Traunkirchen
20080822barcamp Traunkirchen
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzen
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzenKunden-Netzwerke: Soziale Bindungen analysieren und nutzen
Kunden-Netzwerke: Soziale Bindungen analysieren und nutzen
 
NoSQL - Mongo, Couch und Co
NoSQL - Mongo, Couch und CoNoSQL - Mongo, Couch und Co
NoSQL - Mongo, Couch und Co
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
RDF Application Profiles
RDF Application ProfilesRDF Application Profiles
RDF Application Profiles
 

More from Ansgar Scherp

Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...
Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...
Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...Ansgar Scherp
 
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...Ansgar Scherp
 
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...Text Localization in Scientific Figures using Fully Convolutional Neural Netw...
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...Ansgar Scherp
 
A Comparison of Approaches for Automated Text Extraction from Scholarly Figures
A Comparison of Approaches for Automated Text Extraction from Scholarly FiguresA Comparison of Approaches for Automated Text Extraction from Scholarly Figures
A Comparison of Approaches for Automated Text Extraction from Scholarly FiguresAnsgar Scherp
 
Mining and Managing Large-scale Linked Open Data
Mining and Managing Large-scale Linked Open DataMining and Managing Large-scale Linked Open Data
Mining and Managing Large-scale Linked Open DataAnsgar Scherp
 
A Comparison of Different Strategies for Automated Semantic Document Annotation
A Comparison of Different Strategies for Automated Semantic Document AnnotationA Comparison of Different Strategies for Automated Semantic Document Annotation
A Comparison of Different Strategies for Automated Semantic Document AnnotationAnsgar Scherp
 
Events in Multimedia - Theory, Model, Application
Events in Multimedia - Theory, Model, ApplicationEvents in Multimedia - Theory, Model, Application
Events in Multimedia - Theory, Model, ApplicationAnsgar Scherp
 
Can you see it? Annotating Image Regions based on Users' Gaze Information
Can you see it? Annotating Image Regions based on Users' Gaze InformationCan you see it? Annotating Image Regions based on Users' Gaze Information
Can you see it? Annotating Image Regions based on Users' Gaze InformationAnsgar Scherp
 
Linked open data - how to juggle with more than a billion triples
Linked open data - how to juggle with more than a billion triplesLinked open data - how to juggle with more than a billion triples
Linked open data - how to juggle with more than a billion triplesAnsgar Scherp
 
SchemEX -- Building an Index for Linked Open Data
SchemEX -- Building an Index for Linked Open DataSchemEX -- Building an Index for Linked Open Data
SchemEX -- Building an Index for Linked Open DataAnsgar Scherp
 
A Model of Events for Integrating Event-based Information in Complex Socio-te...
A Model of Events for Integrating Event-based Information in Complex Socio-te...A Model of Events for Integrating Event-based Information in Complex Socio-te...
A Model of Events for Integrating Event-based Information in Complex Socio-te...Ansgar Scherp
 
SchemEX - Creating the Yellow Pages for the Linked Open Data Cloud
SchemEX - Creating the Yellow Pages for the Linked Open Data CloudSchemEX - Creating the Yellow Pages for the Linked Open Data Cloud
SchemEX - Creating the Yellow Pages for the Linked Open Data CloudAnsgar Scherp
 
strukt - A Pattern System for Integrating Individual and Organizational Knowl...
strukt - A Pattern System for Integrating Individual and Organizational Knowl...strukt - A Pattern System for Integrating Individual and Organizational Knowl...
strukt - A Pattern System for Integrating Individual and Organizational Knowl...Ansgar Scherp
 
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...Ansgar Scherp
 

More from Ansgar Scherp (14)

Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...
Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...
Analysis of GraphSum's Attention Weights to Improve the Explainability of Mul...
 
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...
STEREO: A Pipeline for Extracting Experiment Statistics, Conditions, and Topi...
 
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...Text Localization in Scientific Figures using Fully Convolutional Neural Netw...
Text Localization in Scientific Figures using Fully Convolutional Neural Netw...
 
A Comparison of Approaches for Automated Text Extraction from Scholarly Figures
A Comparison of Approaches for Automated Text Extraction from Scholarly FiguresA Comparison of Approaches for Automated Text Extraction from Scholarly Figures
A Comparison of Approaches for Automated Text Extraction from Scholarly Figures
 
Mining and Managing Large-scale Linked Open Data
Mining and Managing Large-scale Linked Open DataMining and Managing Large-scale Linked Open Data
Mining and Managing Large-scale Linked Open Data
 
A Comparison of Different Strategies for Automated Semantic Document Annotation
A Comparison of Different Strategies for Automated Semantic Document AnnotationA Comparison of Different Strategies for Automated Semantic Document Annotation
A Comparison of Different Strategies for Automated Semantic Document Annotation
 
Events in Multimedia - Theory, Model, Application
Events in Multimedia - Theory, Model, ApplicationEvents in Multimedia - Theory, Model, Application
Events in Multimedia - Theory, Model, Application
 
Can you see it? Annotating Image Regions based on Users' Gaze Information
Can you see it? Annotating Image Regions based on Users' Gaze InformationCan you see it? Annotating Image Regions based on Users' Gaze Information
Can you see it? Annotating Image Regions based on Users' Gaze Information
 
Linked open data - how to juggle with more than a billion triples
Linked open data - how to juggle with more than a billion triplesLinked open data - how to juggle with more than a billion triples
Linked open data - how to juggle with more than a billion triples
 
SchemEX -- Building an Index for Linked Open Data
SchemEX -- Building an Index for Linked Open DataSchemEX -- Building an Index for Linked Open Data
SchemEX -- Building an Index for Linked Open Data
 
A Model of Events for Integrating Event-based Information in Complex Socio-te...
A Model of Events for Integrating Event-based Information in Complex Socio-te...A Model of Events for Integrating Event-based Information in Complex Socio-te...
A Model of Events for Integrating Event-based Information in Complex Socio-te...
 
SchemEX - Creating the Yellow Pages for the Linked Open Data Cloud
SchemEX - Creating the Yellow Pages for the Linked Open Data CloudSchemEX - Creating the Yellow Pages for the Linked Open Data Cloud
SchemEX - Creating the Yellow Pages for the Linked Open Data Cloud
 
strukt - A Pattern System for Integrating Individual and Organizational Knowl...
strukt - A Pattern System for Integrating Individual and Organizational Knowl...strukt - A Pattern System for Integrating Individual and Organizational Knowl...
strukt - A Pattern System for Integrating Individual and Organizational Knowl...
 
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...
Identifying Objects in Images from Analyzing the User‘s Gaze Movements for Pr...
 

Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

  • 1. Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Habilitationskolloquium Universität Koblenz-Landau 9. November 2011 CC-BY
  • 2. Motivation  Dave plant eine Reise  von London  zum Kunden in Köln  Wie geht er vor? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 2 of 42
  • 3. Webseite der Deutschen Bahn Funktioniert, aber … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 3 of 42
  • 4. Versuchen wir andere Anfragen  Engpässe im öffentlichen Personenverkehr  Visualisierung der Route auf einer Karte  Vergleich mit Flugverbindungen  Verknüpfung mit anderen Daten  Anfragen können nicht beantwortet werden  Denn im Internet von heute sind die Daten … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 4 of 42
  • 5. … eingeschlossen in Silos!  Hoher Integrationsaufwand  Nicht wiederverwendbar Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 5 of 42 B. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY
  • 6. Lösung: vernetzte Daten  Vernetzte Daten (engl. Linked Data)  Veröffentlichung und Verknüpfung von Daten  unterschiedlicher Qualität und Zweck  aus verschiedenen Quellen im Internet Web Linked Data Entitäten Dokumente Daten Relationen Hyperlinks Typisierte Links Format HTML RDF Identität / Protokoll URI / HTTP URI / HTTP Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 6 of 42
  • 7. Linked Data: Mai „07  Sept. „11 Web 2.0 Medien Publikationen Government Cross-Domain Lebenswissen- Geographisch schaften < 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Triple Quelle: http://lod-cloud.net 7 of 42
  • 8. Facettierte, interaktive Exploration  Daten verschiedener Qualität und Herkunft: DBpedia, GeoNames, WordNet, FOAF und Flickr Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 8 of 42
  • 9. Übersicht  Motivation  Prinzipien 1. Identifikation 2. Verknüpfung 3. Dereferenzierung 4. Beschreibung  Muster Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 9 of 42
  • 10. Beispiel: Big Lynx Matt Briggs Scott Miller ?Big Lynx Firma < 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Triple Quelle: http://lod-cloud.net 10 of 42
  • 11. 1. Verwende URIs für Dinge Matt Briggs Scott Miller http://biglynx.co.uk/ people/matt-briggs http://biglynx.co.uk/ people/scott-miller B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 11 of 42
  • 12. Beispiel: Big Lynx Matt Briggs Scott Miller Big Lynx Firma  Was ist mit Relationen wie z.B. kennt ? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 12 of 42
  • 13. Resource Description Framework (RDF)  Beschreibung von Ressourcen mit RDF-Triple  Spiegelt die Struktur einfacher Sätze wider, z. B. Matt Briggs ist eine Person Subjekt Prädikat Objekt Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 13 of 42
  • 14. Beispiel in Turtle Syntax <http://biglynx.co.uk/people/matt-briggs> <http://w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .  Namensräume zum Abkürzen von URIs  Etablierte Namensräume: rdf, foaf, … @prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>. @prefix foaf:<http://xmlns.com/foaf/0.1/> . <http://biglynx.co.uk/people/matt-briggs> rdf:type foaf:Person .  Präfix ist im aktuellen Dokument gültig Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 14 of 42
  • 15. 1. Verwende URIs für Relationen http://biglynx.co.uk/ people/matt-briggs http://biglynx.co.uk/ people/scott-miller Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY 15 of 42
  • 16. Beispiel: Big Lynx Dave Smith London „lebt hier“ Matt Briggs „dieselbe Scott Miller Person“ Big Lynx … Firma DBpedia Matt Briggs Matts private Webseite Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 16 of 42
  • 17. 2. Verknüpfungen herstellen  Verknüpfen von Ressourcen mit RDF-Links  Beziehungslinks  Identitätslinks  Vokabularlinks  Ermöglichen es weitere Ressourcen zu finden Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 17 of 42
  • 18. Beziehungslinks in RDF  Definieren Beziehungen zwischen Ressourcen  Beispiel <http://biglynx.co.uk/people/dave-smith> foaf:based_near <http://dbpedia.org/resource/London> .  Externe Beziehungslinks: Subjekt und Objekt kommen aus verschiedenen Namensräumen  Interne Beziehungslinks: gleicher Namensraum biglynx:matt-briggs foaf:knows biglynx:dave-smith . Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 18 of 42
  • 19. Identitätslinks  URI-Aliase zur Verknüpfung von Datenquellen, die dieselben Dinge der realen Welt beschreiben  Beispiel <http://biglynx.co.uk/people/matt-briggs> <http://www.w3.org/2002/07/owl#sameAs> <http://www.matt-briggs.eg.uk#me> .  Dienst für Identitätslinks: .org  Wann sind zwei Ressourcen identisch? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 19 of 42
  • 20. Gleichheit von Entitäten  Problem bekannt aus Datenbanken und Datamining  K. Mayer und K. M. Mayer dieselbe Person?  Auflösen von Name, Koautoren, Titel und Veranstaltungsort oftmals nicht ausreichend  413.000 DBpedia Orte mit GeoNames abgleichen  Werkzeuge zur Formulierung von Heuristiken Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 20 of 42
  • 21. Vokabularlinks  Verweise auf Definitionen in eigenen und existierenden Vokabularen  Ziel: Daten werden selbstbeschreibend  Spezifikation eigener Vokabulare mit  RDF Vocabulary Description Language (RDFS)  Simple Knowledge Organization System (SKOS)  Web Ontology Language (OWL): typischerweise nur owl:sameAs Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 21 of 42
  • 22. Existierende Vokabulare  Friend-of-a-Friend (foaf): Personen und Beziehungen  Dublin Core (dc): Metadaten wie Titel, Ersteller, Datum und Thema  Programmontologie der BBC  Schema.org Web-Seiten-Markup von Google, Bing und Yahoo!  Facebook Graph API Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 22 of 42
  • 23. Abgleich von Vokabularen  Integration von Vokabularen  Ähnlich zum Problem der Identität  Beispiel: foaf:name vs. vcard:family-name  Nicht trivial, selbst für ähnliche Vokabulare  Domänenontologien können sehr groß sein  Methoden zum Abgleich von Vokabularen und Re-Engineering Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 23 of 42
  • 24. Beispiel: Big Lynx Dave Smith London foaf:based_near „lebt hier“ Matt Briggs „dieselbe owl:sameAs Person“ Big Lynx Firma DBpedia Matt Briggs Matts private Webseite Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 24 of 42
  • 25. 3. Dereferenzierung von URIs  Nachschlagen von URIs mittels HTTP GET  Anwendbar für Dokumente und digitale Inhalte  Nachschlagen von Dingen der realen Welt ? http://biglynx.co.uk/ people/matt-briggs  Verschiedene URIs für Dinge und Beschreibung Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 25 of 42
  • 26. Variante 1: 303 See Other Linked HTTP GET (Accept: appl./rdf+xml) Big Data http://biglynx.co.uk/people/matt-briggs Lynx Client Server 303 See Other http://biglynx.co.uk/people/matt-briggs.rdf HTTP GET http://biglynx.co.uk/people/matt-briggs.rdf 200 OK (Dokument in RDF) - Höhere Netzwerklatenz + Geeignet für große Datensätze, z. B. DBpedia Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 26 of 42
  • 27. Variante 2: Hash URIs  URI enthält einen mit # getrennten Teil, z. B. http://biglynx.co.uk/vocab/sme#Team  Abschneiden des #<…>-Fragmentes  Verbleibende URI dereferenzieren  Beschreibung mehrerer Ressourcen, u. A. Team - Höhere Datenübertragung + Geeignet zum Empfang ganzer Vokabulare Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 27 of 42
  • 28. Beispiel: Big Lynx Dave Smith London foaf:based_near Matt Briggs owl:sameAs Big Lynx Firma DBpedia Matt Briggs Matts private Beschreibung Webseite von Matt? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 28 of 42
  • 29. 4. Beschreibung von URIs  Dereferenzierung einer Ressource  Liefert eine Beschreibung in RDF zurück  Was ist eine sinnvolle Beschreibung? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 29 of 42
  • 30. Beispiel: Beschreibung von Matt foaf:Person … … dp:Birmingham rdf:type … foaf:based_near biglynx:matt-briggs ex:loc _:point foaf:knows wgs84: wgs84: long biglynx:dave-smith lat “-0.118” foaf:based_near “51.509” dp:London … … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 30 of 42
  • 31. Concise Bounded Description  Gegeben ein RDF-Graph G = (V, P, E) mit  V = R B L endliche Knotenmenge aus ∩ ∩ Ressourcen R, Blank-Nodes B und Literale L  P endliche Menge an Prädikaten ∩  E R B x P x V Menge typisierter Kanten  Startknoten n R  Blank-Node: eindeutige Ressource, ohne URI  Literal: XSD-typisiertes Objekt (z. B. string, int) Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 31 of 42
  • 32. Concise Bounded Description  Einfache Concise Bounded Description (CBD) ∞ ∩ SimpleCBD(n) = I j mit j=0 I 0 = { (s, p, o) | (s, p, o) E s=n} I j+1 = { (o, p‘, o‘) E| (s, p, o) Ij : o B ∩j (o, p‘, o‘) Ik} k=0  Weitere CBDs berücksichtigen bspw. noch RDF-Reifikation, Symmetrie und RDF-Label Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 32 of 42
  • 33. Beispiel: Beschreibung von Matt foaf:Person … … dp:Birmingham rdf:type … foaf:based_near biglynx:matt-briggs ex:loc _:point foaf:knows wgs84: wgs84: long biglynx:dave-smith lat “-0.118” foaf:based_near “51.509” dp:London … … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 33 of 42
  • 34. Datensätze beschreiben mit voiD  Profile der Mitarbeiter sind gebündelt zu einem großen Datensatz <http://biglynx.co.uk/datasets/people> rdf:type void:Dataset; dc:hasPart <http://biglynx.co.uk/people/dave-smith.rdf>; dc:isPartOf <http://biglynx.co.uk/datasets/all>. …  voiD hat keine explizite Schemainformation Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 34 of 42
  • 35. Schemaextraktion  Finde Quellen mit bestimmten Datentypen  Erkenne die Verknüpfung von Datenquellen  Präzise Indexstrukturen benötigt  Beispielsweise für RDF-Typen, Typ-Cluster und prädikatsbasierte Äquivalenzklassen  Ermöglicht verteilte Anfragen auf der Linked-Data-Wolke Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 35 of 42
  • 36. Übersicht  Motivation  Prinzipien 1. Identifikation 2. Verknüpfung 3. Dereferenzierung 4. Beschreibung  Muster Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 36 of 42
  • 37. Muster in vernetzten Daten  Generische Lösung für ein wiederkehrendes Modellierungsproblem  Klare Kommunikation durch festgelegte Begriffe  (Oft) eher Best Practices als Muster [Dodds und Davis, 2011] Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 37 of 42
  • 38. Muster: Topic Autodiscovery  Problem  Web-Seiten handeln oft von einem bestimmten Thema  Lösung  Einbetten eines <link>-Elements <link rel="primarytopic" href="http://dbpedia.org/resource/London"/> Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 38 of 42
  • 39. Muster: Reified Statement  Problem  Modellierung von „Aussagen über Aussagen“  Triple annotieren mit Autor, Datum der Erstellung usw.  Lösung  Beschreibung von Graphänderungen mit herkömmlicher RDF-Reifikation Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 39 of 42
  • 40. Beispiel: Reified Statement rdf:Statement rdf:type dc:created _:ex1 "2011-10-28" rdf:subject rdf:object rdf:predicate ex:/book/1 biglynx: matt-briggs foaf:maker Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 40 of 42
  • 41. Muster: Qualified Relation  Relation mit zwei gleichberechtigen Ressourcen  Spezieller Fall des Musters N-ary Relation  Beispiel _:mattMaryMarriage rdf:type ex:Marriage; ex:partner biglynx:matt-briggs; ex:partner ex:mary; ex:date "2010-08-06"^^xsd:date .  Warum nicht als Reified Statement? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 41 of 42
  • 42. Zusammenfassung  Veröffentlichung und Verknüpfung von Daten  Einheitliches Datenmodell RDF  Beschreiben und Auffinden von Daten  Web-Standards wie URI und HTTP  Herausforderungen  Identität und Verknüpfung von Ressourcen  Abgleich von Vokabularen  Extrahieren von Schemata  Intuitiv benutzbare Anwendungen Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 42 of 42
  • 43. Literatur http://linkeddatabook.com/ http://patterns.dataincubator.org/ Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 43 of 42
  • 44. Weitere Literatur  T. Berners-Lee: Linked Data, June, 2009. URL: http://www.w3.org/DesignIssues/LinkedData.html  T. Berners-Lee: Cool URIs don't change, 1998. URL: http://www.w3.org/Provider/Style/URI  M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective Intelligence on the Web. In: Informatik Spektrum, Springer, 2011.  F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL: http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification  L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/  P. Stickler: CBD - Concise Bounded Description, 2005. URL: http://www.w3.org/Submission/CBD/  Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL: http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf  J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009. Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 44 of 42