Präsentation von Martin Kaltenböck (SWC) bei den Wissenschaftstagen der Akademie der Wissenschaften am 3.12. 2014 zum Thema - Einführung, Basis und Benefits von Linked Open Data (LOD) inkl. Best Practise: Linked Open Data Pilot Österreich (LOD Pilot AT - http://linkeddata.gv.at).
Enterprise Terminology Management as a Basis for powerful Semantic Services
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
1. Linked Open Data (LOD)
Basis, Principles, Benefits; Best Practise: LOD PILOT Austria/
Martin Kaltenböck
CFO, Semantic Web Company
www.semantic-web.at
www.poolparty.biz
@semwebcompany
Digital Humanities Tage, 3.12.2014, Wien
3. About Semantic Web Company
Company was founded 2001 in Vienna, Austria
>20 experts in linked data technologies
Product: PoolParty Suite (launched 2009)
Serving global 500 companies
EU- & US-based consulting services
4. Customers we serve
Finance / Automotive / Publisher / Health Care / Public Administration /
Energy / Education
Customers
● Credit Suisse
● Daimler
● Roche
● Wolters Kluwer
● Tieto
● Canadian Broadcasting
Corporation (CBC)
● World Bank Group
● The Pokémon Company
● Healthdirect Australia
● Ministry of Finance (A)
● Wood Mackenzie
● Red Bull Media House
● Council of the E.U.
● TC Media
● American Physical Society
● Education Services Australia
● Pearson
● Techtarget
● Norwegian Directorate of
Immigration
● REEEP
● European Commission
● Bank of America
Partners
● Cognizant
● EBCONT
● EPAM Systems
● iQuest
● PwC
● DTI AG
● Tenforce
● OpenLink Software
● Ontotext
● MarkLogic
● Gravity Zero
● Altotech
● Wolters Kluwer
● Term Management
● Taxonomy Strategies
● Search explained
● WAND
● Digirati
● Cognistreamer
● Linked Data Factory
● Taxonic
● semweb
5. 2 Main Areas of Work
PoolParty Semantic Suite
http://www.poolparty.biz
Data-, Information- and Knowledge Portals
and Data Tools, http://bit.ly/1DWtp1a
www.buildingsdata.eu
www.gbpn.org
www.eip-water.eu
www.reegle.info
6. Solutions…
Thesaurus Publishing Business Intelligence Content Recommendation Semantic Expert Finder
Web Mining Semantic Search Semantic Tagging in
SharePoint
Symptom Checker
7. … About me
Background: Communication Science, Psychology & Marketing
Work: Requirements Engineering & PM of nat. & internat. Industry & Research Projects
Co-Founder, CFO & Managing Partner SWC, www.semantic-web.at
Advisory Board Member Open Knowledge UK, www.okfn.org
Executive Board Member OKF Austria, www.okfn.at
Founding Member of Cooperation OGD Austria
Invited Expert in W3C and ISA Working Groups on Data Management Issues
Steering Group Member, European Data Forum (EDF), www.data-forum.eu
9. 9
Was istW Oapse inst GOopveernn mGeonvte? rnment
Hier wird eine moderne Zusammenarbeit von
Politik, Verwaltung, Zivilgesellschaft und
Wirtschaft postuliert, mit den Zielen:
• Transparenz zu fördern
• Partizipation und
• Kollaboration zu ermöglichen
Teilbereich von Open Government =
Open Government Data
10. Was ist Open Government Data?
Was ist Open (Government) Data?
OKFO – Open Knowledge Forum Österreich
Open Government Data is a worldwide movement to open data
(& information/content) of the government / public administration* - that is
NOT personal (individual related) – in human- AND maschine-readable
open (non proprietary) formats for re-use (by civil society, economy, media,
academia AND politics & public administration itsself)!
•….. data and information produced or commissioned by government or government controlled entities
Lucke & Geiger (Zeppelin Universität, DE)
Offene Verwaltungsdaten sind jene Datenbestände des öffentlichen
Sektors, die von Staat und Verwaltung im Interesse der Allgemeinheit ohne
jedwede Einschränkung zur freien Nutzung, zur Weiterverbreitung und zur
freien Weiterverwendung frei zugänglich gemacht werden.
OKFO – http://www.okfn.at
Prof. Dr. Jörn von Lucke Christian P. Geiger, M.A
http://www.zeppelin-university.de/deutsch/
OKF-AT: http://www.okfn.at ; @OKFNat
11. 8 Prinzipien von Open Government Data
11
1. Vollständigkeit
Alle öffentlichen Daten werden verfügbar gemacht. Als Öffentliche Daten werden hierbei Daten verstanden, die
nicht berechtigten Datenschutz-, Sicherheits- oder Zugangsbeschränkungen unterliegen.
2. Primärquelle
Die Daten werden an ihrem Ursprung gesammelt. Dies geschieht mit dem höchstmöglichen
Feinheitsgrad, nicht in aggregierten oder sonst wie modifizierten Formaten.
3. Zeitnah
Daten werden so zügig, wie zur Werterhaltung, notwendig zur Verfügung gestellt.
4. Leichter Zugang
Der Zugang zu Daten soll so leicht wie möglich sein (z.B.: Angebot von Formaten, APIs etc).
5. Maschinenlesbar
Daten werden zur automatisierten Verarbeitung strukturiert zur Verfügung gestellt.
6. Nicht diskriminierend
Daten sind für ALLE verfügbar, ohne dass z.B. eine Registrierung notwendig ist.
7. Nicht proprietär
Daten werden in standardisierten Formaten bereit gestellt, über die keine juristische Person
die alleinige Kontrolle hat.
8. Lizenzfrei
Daten unterliegen keinem Urheberrecht, Patenten, Markenzeichen oder Geschäftsgeheimnissen. Sinnvolle
Datenschutz-, Sicherheits- und Zugangsbeschränkungen sind zulässig.
Die Einhaltung dieser Prinzipien ist überprüfbar.
PLUS: Sunlight Foudation, August 2010: 9) Dauerhaftigkeit / Stetigkeit & 10) Nutzungskosten
http://www.opengovdata.org/home/8principles
http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
8 Prinzipien von Open Government Data
12. Open Data …
12
Verstärkt werden Daten auch durch Nichtregierungen geöffnet und
zur Wiederverwendung bereitgestellt…
ODP
Open Data Portal Österreich
www.opendataportal.at
Eine Kooperation von
OKF-AT, Wikimedia AT und
Cooperation OGD Österreich
Single Point of Access für Daten aus:
• Wirtschaft
• Wissenschaft
• GLAM
• NPO & NGO
• Gesellschaft / Privatpersonen
13. Open Data in Europe
13
Bis zu 100 Mio Euro durch
Projekte, H2020 Research et al
• EU Data Incubator
• 2015 Launch Pan EU Data Portal
• H2020: Open & Big Data Uptake
• EC Open Data Portal
• LOD as objective for publishing
• EU28 National Open Data Activities
• Austria: UN Public Award & EDI Award
14. Open Data in use…
14
Was ist wichtig, wenn man über Open Data in Use nachdenkt?
• Interoperabilität um breite & einfache Nutzung zu ermöglichen
• Menschen- UND Maschinen- Lesbarkeit von Daten & Metadaten
• In möglichst offenen Formaten
• Für eine rasche und kosteneffiziente Datenintegration
• Um auf mehreren Ebenen Effekte & Nutzen generieren zu können:
Lokal - Regional - National - EU-weit & Weltweit
Für verschiedene Nutzergruppen mit verschiedenen Interessen
• Öffentliche Verwaltung (auch für interne Nutzung!)
• Politiker und Entscheidungsträger
• Bürger & Zivilgesellschaft (Citizen Analysts)
• Wirtschaft & Industrie (Datenintegration, -anreicherung, APPs, …)
• (Daten) Journalismus, Medien & Publisher
• Lehre & Wissenschaft
15. Putting the L in front
Von Open Data zu Linked Open Data (LOD)
16. Interoperabilität
16
Henry Maudslay (1771 – 1831)
He also developed the first industrially practical
screw-cutting lathe in 1800, allowing
standardisation of screw thread sizes for the first
time. This allowed the concept of
interchangeability (a idea that was already taking
hold) to be practically applied to nuts and bolts.
Before this, all nuts and bolts had to be made as
matching pairs only. This meant that when
machines were disassembled, careful account had
to be kept of the matching nuts and bolts ready for
when reassembly took place.
http://en.wikipedia.org/wiki/Henry_Maudslay
John Sheridan, OGD2011 Conference, Vienna, Austria:
http://www.slideshare.net/semwebcompany/linking-uk-government-data-john-sheridan/
18. 18
Documents
on theWeb
Web of Documents
AKA Hypertext
Data on theWeb
AKA Open Data
Web of Data
AKA Hyperdata
The Evolution of the Internet
19. Tim Berners-Lee outlined four principles of linked data in his
Design Issues: Linked Data
• Use URIs to denote things.
• Use HTTP URIs so that these things can be referred to and
looked up (“dereferenced”) by people and user agents.
• Provide useful information about the thing when its URI is de-referenced,
leveraging standards such as RDF, SPARQL.
• Include links to other related things (using their URIs) when
publishing data on the Web.
Further Reading:
• Wikipedia
• W3C Wiki
Linked Data Design Principles
19
20. Von Open Data zu Linked Open Data
Von Open Data zu Linked Open Data
•Provide an API!
• Give things an URI!
• Use RDF for Publishing!
• Link your Data to other Data
(as well as the data models)!
• Provide a Standard-API on top
•Organise Data!
•License Data!
•Raw Data now!
20
Publish Data!
Use Web-Technologies
• The web is an Ecosystem Use Linked Data!
• Networked Data creates
Network Effects
• Lowers Costs of Data
Integration
21. Die Idee von Hyperdata
21
Die Idee von Hyperdata
Data Integration on User Level and Application Level
22. Die Idee von Hyperdata
22
Die Idee von Hyperdata
Application and/or API
Integration on Data Level
23. “Linked Data realizes the vision of
evolving the Web into a global data
commons, allowing applications to
operate on top of an unbounded set of
data sources, via standardised
access mechanisms.
I expect that Linked Data will enable a
significant evolutionary step in leading
theWeb to ist full potential.“
CC-BY-SA von campuspartybrasil (flickr)
The Vision of the new Internet
23
25. 1. Uses RDF Data Model
LOD WS
03.12. 2014
Vienna
SWC
presents at
starts
takesPlaceIn
Subject Predicate Object
2. Is serialised in triples:
SWC presents at LOD WS .
LOD WS starts “20141203”^^xsd:date .
LOD WS takesPlaceAt Vienna .
3. Uses Content-negotiation
Linked Data in a Nutshell
25
26. 1. Identify & analyse your data
2. Clean the data
Quick Guide: Publish LOD
3. Model your data (URI schema, vocabularies)
4. Select & specify license(s)
5. Convert data to RDF
6. Link your data to other data
7. Publish and promote your Linked Open Data
26
27. Quick Guide: Consume LOD
1. Specify concrete use cases
2. Evaluate relevant data sources & data sets
3. License clearing: check respective licenses
4. Create data consumption patterns
5. Manage alignment, caching & update mechanisms
6. Create mash-ups, GUIs, services & applications on top
7. Establish sustainable new partnerships
27
28. Establishing a digital LOD based Data Infrastructure for Austria
http://www.linkeddata.gv.at (coming soon)
LOD Pilot
Österreich
29. Anforderungen an Open Data in AT
• Wiederverwendung erleichtern durch Standard Formate
• Effiziente Datenintegration ermöglichen (z.B. durch APIs)
• Daten vernetzen um die echten Potentiale zu heben (LOD)
• Die wichtigsten Basisdaten zentral bereitstellen
• Den ‚digitalen Standort Österreich‘ attraktiv gestalten
• Internationalen Trends & Standards folgen
• Bereitstellung von vertrauenswürdigen Datenquellen welche
von Verwaltung, Wirtschaft, F&E und Gesellschaft verwendet
werdet können
29
30. Anforderungen an Open Data in AT
Relevante & wichtigste ~30-50 Basisdaten evaluieren
Postleitzahlen (PLZ)
Politische Bezirke
Points of Interest
Demographische Basisdaten
Schultypen
Industriesektoren
Daten mit (trusted) URIs (Uniform Resource Identifier) versehen
Datensätze nach RDF (Resource Description Framework) konvertieren
Daten untereinander und extern (Dbpedia, Eurovoc, ..) verlinken
Basisdaten via HTTP frei verfügbar machen (unter: data.gv.at)
Die LOD Infrastruktur zur breiten Verwendung bewerben
Add on: LOD basierte Use Cases realisieren
30
31. Anforderungen an Open Data in AT
31
Projekt Set Up
Identifizieren & Ansprache von relevanten Stakeholdern
Aufbau von Kooperationen
Projekt Setup: Team, Umfeld, …
Spezifikation- & Data Analyse Phase
Workshops mit relevanten Stakeholdern
Core Datensätze spezifizieren, URI Konzept, Lizenz, Rechtl. Fragen
Spezifikation der Infrastruktur, Architektur und Tools
Implementierungs Phase
Technische Implementierung (Infrastruktur, Tools, et al)
LOD Publishing / Datenpublikation
Promotion, Events & Trainings, Support
Maintenance & Operation Phase
Laufende Maintenance
Support für zukünftige Publikation und Verwendung
11-12/2013
01 - 04/2014
05- 10/2013
from 11/2014
32. LOD Pilot: Datenanalyse
In zwei Workshops, mit gesamt 20 TeilnehmerInnen, wurden mit Experten
unterschiedlicher Einrichtungen Basisdatensätze ermittelt, wobei entlang der
Kategorisierung von help.gv.at (sprich: Lebenslagen) vorgegangen wurde.
32
• 2 Stakeholder Workshops: 10.12. 2013 & 14.2.2014
• Evaluierung & Analyse data.gv.at ( & opendataportal.at)
• Empfehlung EC zu Open Data (Link)
• G8 Open Data Charter (Link) & EC Implementierung (Link)
• Konzept Basic Data Dänemark (Link)
33. LOD Pilot: Tools & Architektur
• PoolParty Server für LOD Publishing:
Conversion – Creation- Linking –
Publikation von Taxonomien, Code Lists
et al: http://www.poolparty.biz/
33
• Virtuoso Triple Store für
Datenspeicherung & SPARQL Endpoint:
http://virtuoso.openlinksw.com/
• ETL & andere LOD Jobs: UnifiedViews
http://www.semantic-web.at/linked-open-
data-management-suite-lodms/
• SILK für Linking: http://wifo5-03.informatik.uni-mannheim.
de/bizer/silk/
• Weitere RDF Converter wie Triplify oder D2R et
al: http://d2rq.org/d2r-server
34. Anforderungen an Open Data in AT
• Aufbau & Etablierung einer Basis LOD Infrastruktur für AT
• Angebot eines zentralen Repositories für semantische Assets in
Österreich (nach ISA Ansatz, beschrieben in ADMS)
• Angebot & Etablierung von offiziellen & vertrauenswürdigen
referenzierbaren Entitäten
• Angebot von Basisdaten, um Impact zu generieren (Bspl. DK)
• Umsetzung von LOD Use Cases um Potentiale aufzuzeigen
• Data Literacy vorantreiben durch LOD Trainings
• Alle relevanten Stakeholder zusammenbringen
• Die (Linked) Open Data Community einbinden (WU, TU, …)
34
35. Contact
Martin Kaltenböck
CFO, Semantic Web Company
+43 1 4021235
m.kaltenboeck@semantic-web.at
www.semantic-web.at
www.poolparty.biz
These slides are published under :
Copyright SWC 2014
36. Gruppenarbeit
• Frage 1: welche Basis Datensätze sehen Sie in Ihrer
Organisation (Orte, Branchen, Organisationen, …)
36
• Frage 2: Welche Datensätze würden (intern /
extern) verlinkt Ihrer Ansicht nach Mehrwert
generieren?
Organisation 1
Organisation 2
Organisation 3
Dataset 1
Dataset 2
Dataset 3
Dataset 1
Dataset 2
Dataset 3
Dataset 1
Dataset 2
Dataset 3
37. The Benefits of Linked Open Data
• Less replication (offering same datasets in different
places)
• Encouragement to re-use existing datasets (open
standards, open formats, reduce semantic &
syntactic heterogeneity)
• Clear which datasets are providing
similar / same information
• More innovation and creation of new
knowledge by contextualisation
• Creating network effects by linking
• Enable scale out of the growing amounts of data
37
38. From Open Data 2 Linked Open Data
What are the costs and benefits of ★ web data?
As a consumer ...
✔ You can look at it.
✔ You can print it.
✔ You can store it locally (on your hard drive or on an USB stick).
✔ You can enter the data into any other system.
✔ You can change the data as you wish.
✔ You can share the data with anyone you like.
As a publisher ...
✔ It's simple to publish.
✔ You do not have explain repeatedly to others that they can use your data.
5 Stars Model on OGD, M. Hausenblas et al: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/
38
39. From Open Data 2 Linked Open Data
What are the costs and benefits of ★★ web data?
As a consumer …
you can do all what you can do with ★ Web data and additionally:
✔ You can directly process it with proprietary software to aggregate it,
perform calculations, visualise it, etc.
✔ You can export it into another (structured) format.
As a publisher ...
✔ It's still simple to publish.
5 Stars Model on OGD, M. Hausenblas et al: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ 39
40. From Open Data 2 Linked Open Data
What are the costs and benefits of ★★★web data?
As a consumer …
you can do all what you can do with ★★ Web data and additionally:
✔ You can manipulate the data in any way you like, without being confined
by the capabilities of any particular software.
As a publisher ...
✔ It's still rather simple to publish.
! You might need converters or plug-ins to export the data from
the proprietary format.
5 Stars Model on OGD, M. Hausenblas et al: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ 40
41. From Open Data 2 Linked Open Data
What are the costs and benefits of ★★★★ web data?
As a consumer …
you can do all what you can do with ★★★ Web data and additionally:
✔ You can link to it from any other place (on the Web or locally).
✔ You can bookmark it.
✔ You can reuse parts of the data.
✔ You may be able to reuse existing tools and libraries, even if they only understand
parts of the pattern the publisher used.
✔ You can combine the data safely with other data.
As a publisher ...
✔ You have fine-granular control over the data items and can optimise their access
(load balancing, caching, etc.)
✔ Other data publishers can now link into your data, promoting it to 5 star!
! You typically invest some time slicing and dicing your data.
! You'll need to assign URIs to data items and think about how to represent the data.
! You need to either find existing patterns to reuse or create your own.
5 Stars Model on OGD, M. Hausenblas et al: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ 41
42. From Open Data 2 Linked Open Data
What are the costs and benefits of ★★★★★ web data?
As a consumer …
you can do all what you can do with ★★★★ Web data and additionally:
✔ You can discover more (related) data while consuming the data.
✔ You can directly learn about the data schema.
! You now have to deal with broken data links, just like 404 errors in web pages.
! Presenting data from an arbitrary link as fact is as risky as letting people include
content from any website in your pages. Caution, trust and common sense are
all still necessary.
As a publisher ...
✔ You make your data discoverable.
✔ You increase the value of your data.
✔ You own organisation will gain the same benefits from the links as the consumers.
! You'll need to invest resources to link your data to other data on the Web.
! You may need to repair broken or incorrect links.
5 Stars Model on OGD, M. Hausenblas et al: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ 42
43.
44. Example: Clean Energy Data Portal
Clean Energy Open Data Portal
fully based on LOD…
http://data.reegle.info
45. Example: LOD Pilot Austria
Linked Open Data Pilot Austria
… open data as LOD of
Austrian national government,
City of Vienna and
OpenDataPortal Austria (ODP)
http://lodpilot.at
46. Example: Labour Law Thesaurus
• EuroVoc
• Thesaurus
Sozial-Wissenschaften
• DBPedia
• Standard-Thesaurus
Wirtschaft
http://vocabulary.wolterskluwer.de/arbeitsrecht/10913
50 Billions
Facts