Adrian Wilke wrote his Bachelor thesis about the integration of additional Research 2.0 services into the infrastructure of Artefact-Actor-Networks. See his slides from the defense.
Awareness Support in Scientific Events with SETapp
Extension of AANs with SlideShare, Delicious, and Scribd (by Adrian Wilke)
1. Analysis and integration of Web 2.0 data sources
into a system for analysis and storage of
Artefact-Actor-Networks
Adrian Wilke
wilke@[REMOVE]campus.upb.de
09. September 2010
2. Ziele
Zielsetzung der Bachelorarbeit
Aus der Zielvereinbarung:
Datenquellen f¨r Artefact-Actor-Networks System
u
Ontologien definieren
Crawler- und Parser-Komponenten entwickeln
AAN: Analysis and integration of Web 2.0 data sources 2
3. Ziele
Zielsetzung der Bachelorarbeit
Aus der Zielvereinbarung:
Datenquellen f¨r Artefact-Actor-Networks System
u
Ontologien definieren
Crawler- und Parser-Komponenten entwickeln
Konkrete Arbeitsschritte:
Relevante Daten?
Nutzbare Schnittstellen?
Einbettung Ontologie?
Konzeption & Implementierung Komponenten
AAN: Analysis and integration of Web 2.0 data sources 2
4. ¨
Ubersicht
¨
Ubersicht Vortrag
I. Artefact-Actor-Networks
Vorstellung des Konzepts
II. Datenformate
Wie werden Daten abgelegt?
III. Web 2.0 Netzwerke als Datenquellen
Analyse von Delicious, SlideShare und Scribd
IV. AAN Framework
Vorstellung des Systems
V. Entwickelte Komponenten
Netzwerke durchlaufen, Daten-Extraktion und -Speicherung
VI. Ergebnisse und Ausblick
Aktuelle und zuk¨nftige Projekte
u
AAN: Analysis and integration of Web 2.0 data sources 3
5. Vorstellung AAN I. Artefact-Actor-Networks
I. Vorstellung Artefact-Actor-Networks (AAN)
Artefact-Actor-Networks - Was steckt dahinter?
Dokumentennetzwerke
einfaches Beispiel: Verlinkte Webseiten
Soziale Netzwerke
In Organisationen oder auch im Web (Facebook)
Ansatz: Zusammenschluß beider Netzwerkarten
Neue (indirekte) Verbindungen
AAN: Analysis and integration of Web 2.0 data sources 4
6. Dokumentennetzwerke I. Artefact-Actor-Networks
Konsolidierung von Dokumentennetzwerken
Network in World Wide Web Network of documents Consolidated artefact network I
Document D
B
Website B D
C
Document C A
Website A
(1) (2) (3)
Consolidated artefact network I Network with bookmarks Consolidated artefact network II
Website B
Bookmark E
(1) (2) (3)
AAN: Analysis and integration of Web 2.0 data sources 5
7. Soziale Netzwerke I. Artefact-Actor-Networks
Konsolidierung sozialer Netzwerke
Actor network of company Private actor network Consolidated actor network
Person Y Person Y
Person Z
Person Z
Person X Person X Person X
(1) (2) (3)
Verbindung uber berufliches und privates Umfeld von Person X
¨
AAN: Analysis and integration of Web 2.0 data sources 6
8. Konsolidierung I. Artefact-Actor-Networks
Konsolidierung beider Netzwerkarten
Consolidated artefact network II Consolidated actor network
Typen semantischer Relationen
AAN: Analysis and integration of Web 2.0 data sources 7
9. Semantische Relationen I. Artefact-Actor-Networks
Semantische Relationen zwischen Akteuren
Zusammenschluß der verschiedenartigen Netzwerkarten:
3 Typen von semantischen Relationen
hasInBuddyList : relates : ACT² relates : ACT²
isInBuddyList : isRelatedBy : ACT² isRelatedBy : ACT²
Actor Y Actor X Actor Z
Eigenschaften in Abbildungen:
Vererbung, Inversion
Standards, Vokabularien: FOAF, RELATIONSHIP
AAN: Analysis and integration of Web 2.0 data sources 8
10. Semantische Relationen I. Artefact-Actor-Networks
Relationen zwischen Artefakten,
Relationen zwischen Akteuren und Artefakten
Standards, Vokabularien: Dublin Core, SIOC
linksTo : references : ART² references : ART²
hasLink : isReferencedBy : ART² isReferencedBy : ART²
Website A Website B Document C
AAN: Analysis and integration of Web 2.0 data sources 9
11. Semantische Relationen I. Artefact-Actor-Networks
Relationen zwischen Artefakten,
Relationen zwischen Akteuren und Artefakten
Standards, Vokabularien: Dublin Core, SIOC
linksTo : references : ART² references : ART²
hasLink : isReferencedBy : ART² isReferencedBy : ART²
Website A Website B Document C
bookmarkerOf : ACT-ART
hasBookmarker : ART-ACT
Actor Y Bookmark Q
AAN: Analysis and integration of Web 2.0 data sources 9
12. Stand der Dinge I. Artefact-Actor-Networks
Stand der Dinge
Nutzen und Mehrwert durch lokalen Zugriff und
neu erschließbare Verbindungen
Wolfgang Reinhardt et al.: Artefact-Actor-Networks
Tobias Varlemann: Konzeption und Entw. Architektur
Außerdem: Twitter, HTML
Matthias Moi: Anwendung im Kontekt von Wikis
¨
Außerdem: Semantische Ahnlichkeit (SemSim)
Zusammen mit ihnen: Modeling, obtaining and storing data
”
from social media tools with Artefact-Actor-Networks“,
ABIS 2010 Workshop, 4.-6. Oktober in Kassel
AAN: Analysis and integration of Web 2.0 data sources 10
13. Datenformate II. Datenformate
II. Datenformate
Bisher: Konzept von Artefact-Actor-Networks
Aber: Speicherung semantisch angereicherter Daten?
Drei aufeinander aufbauende Formate: RDF, RDFS, OWL
AAN: Analysis and integration of Web 2.0 data sources 11
14. RDF II. Datenformate
Resource Description Framework (RDF)
Tripel: Subjekt,
Pr¨dikat, Objekt
a http://www.cs.uni-paderborn.de
Subjekt: Resource http://www.terms.example.org/has-working-group
(URI oder Blank Node) http://ddi.uni-paderborn.de
Pr¨dikat: Resource,
a http://purl.org/dc/elements/1.1/description
keine Blank Nodes Didactics of Informatics
Objekt: Resource oder
Literal
Terminologie: Ressource hat Eigenschaft mit
Eigenschafts-Beschreibung
Repr¨sentation von Informationen
a Semantische Beschreibung?
AAN: Analysis and integration of Web 2.0 data sources 12
15. RDFS II. Datenformate
RDF Schema (RDFS)
Zur Definition von Ontologien
hasEmployee
rdfs:domain rdfs:range
Corporation Person
rdfs:subClassOf
University
Ontologie (im Kontext des Semantic Web):
Terme zur Beschreibung und Repr¨sentation eines Wissensgebiets.
a
Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung,
Eigenschaft.
AAN: Analysis and integration of Web 2.0 data sources 13
16. OWL II. Datenformate
Web Ontology Language (OWL)
Repr¨sentation der Bedeutung von Termen in Vokabularien
a
und den Beziehungen zwischen solchen Termen.
Hatten wir das nicht gerade?
Ja, aber OWL kann mehr, z.B.:
Inversion,
Transitivit¨t,
a
Symmetrie,
Beschr¨nkungen in der Kardinalit¨t ...
a a
Die AAN Ontologie basiert auf OWL.
AAN: Analysis and integration of Web 2.0 data sources 14
17. AAN Ontologie (Version 2) II. Datenformate
AAN Grundontologie
<!– http://AAN/AANBase
#bookmarkerOf –>
<owl:ObjectProperty rdf:about=
”http://AAN/AANBase
#bookmarkerOf”>
<rdfs:subPropertyOf
rdf:resource=
”http://AAN/AANBase
#act art”/>
</owl:ObjectProperty>
AAN := artefact-actor-
networks.net/ontologies/
2010/03
¨
Ubersicht Ontologie
AAN: Analysis and integration of Web 2.0 data sources 15
18. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
III. Netzwerke als Datenquellen
Bisherige Grundlagen:
Artefact-Actor-Networks Konzept
Ablage von semantischen Daten
Welche Daten der Netzwerke sind relevant?
AAN: Analysis and integration of Web 2.0 data sources 16
19. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
Kriterien f¨r Daten
u
Relevanz f¨r AAN
u
¨
Offentliche Daten
Statische Eingenschaften
Konsistente Nutzung
AAN: Analysis and integration of Web 2.0 data sources 17
20. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
Kriterien f¨r Daten
u
Relevanz f¨r AAN
u
¨
Offentliche Daten
Statische Eingenschaften
Konsistente Nutzung
Verf¨gbare Datentypen
u
Klassen
Relationen
Eigenschaften
AAN: Analysis and integration of Web 2.0 data sources 17
21. Delicious III. Web 2.0 Netzwerke als Datenquellen
Delicious: Social Bookmarking
AAN: Analysis and integration of Web 2.0 data sources 18
22. Delicious III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 19
23. SlideShare III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 20
24. Scribd III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 21
25. Dokumentennetzwerke III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 22
26. Schnittstellen III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen der Netzwerke
Kriterien f¨r Schnittstellen
u
¨
Offentlich zug¨ngliche Daten
a
Alle zuvor gew¨hlten Daten
a
M¨glichst keine st¨renden Restriktionen
o o
M¨glichst strukturierte Daten
o
AAN: Analysis and integration of Web 2.0 data sources 23
27. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: Delicious
API: Zugriff pers¨nlicher Daten (Login)
o
Feeds: Beschr¨nkungen
a
1 Aufruf pro Sekunde
Maximal 100 zur¨ckgegebene Bookmarks
u
HTML: Nicht strukturiert
¨
Offentlich Strukturiert
API -
Feeds
HTML -
AAN: Analysis and integration of Web 2.0 data sources 24
28. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Genutzte Delicous Feeds (10/23)
Tag bmPopularByTag
URL(s)
Tag(s) bmByTags Actor
URL bmByUrl Bookmarks URL
Actor bmByUser Tag(s)
Tag(s) Actor bmByUserAndTags
Actor networkFans
Users Actor(s)
Actor networkMembers
Actor tagsByUser
Tags Tag(s)
Tag(s) Actor tagsByUserAndTags
URL urlInfo URL Tag(s) URL
Input classes Feed patterns Output schemes Output classes
AAN: Analysis and integration of Web 2.0 data sources 25
29. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: SlideShare
get_user_contacts(username)
Actor Keyword
API:
4 von 13 Methoden
decken Bedarf
get_slideshows_by_user(username)
get_slideshows_by_tag(tag) semantischer Daten
Artefact HTML:
Zus¨tzlich f¨r
a u
search_slideshows(query) get_slideshow(id | url)
Volltexte und
Query ID | URL Kategorien
API method
XML Response
AAN: Analysis and integration of Web 2.0 data sources 26
30. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: Scribd
ACT²
Actor Keyword
Keywords
API:
AA of Artefact 1 von 24 Methoden
liefert verwendbare
AA docs.search(@tag)
Daten
HTML:
Artefact
F¨r zus¨tzlichen
u a
docs.search(query) Bedarf
API method
Query
HTML parser
AAN: Analysis and integration of Web 2.0 data sources 27
31. AAN Framework IV. AAN Framework
IV. Das AAN Framework
Wir kennen:
Artefact-Actor-Networks Konzept
Ablage von semantischen Daten
Daten in Netzwerken
Jetzt wird es praktischer: Das AAN Framework
Grundlage: Die OSGi Service Platform (Java)
Architektur des AAN Frameworks
In Arbeit entwickelte Komponenten
AAN: Analysis and integration of Web 2.0 data sources 28
32. OSGi IV. AAN Framework
OSGi Service Platform
Spezifikation der OSGi Alliance
Verschiedene Implementationen,
u.a. Equinox (Eclipse Foundation)
Java-basiert → Portabilit¨t
a
Abh¨ngigkeitsmanagement operiert auf Versionierung
a
Bundles: Ressourcen und Klassen
Statischer Export oder
dynamisch angebotene Services
Implementierungen von Interfaces,
registriet bei Service Registry
AAN: Analysis and integration of Web 2.0 data sources 29
33. AAN Framework IV. AAN Framework
Architektur AAN Framework
AAN: Analysis and integration of Web 2.0 data sources 30
34. Entwickelte Komponenten V. Entwickelte Komponenten
V. Entwickelte Komponenten
Bisher behandelt:
AAN Konzept
Semantische Daten
Daten in Netzwerken
AAN Framework
Nun zu den entwickelten Komponenten.
F¨r jede der 3 Datenquellen war zu entwickeln:
u
Crawler Komponente
Parser Komponente
AAN: Analysis and integration of Web 2.0 data sources 31
35. Entwickelte Komponenten V. Entwickelte Komponenten
Entwickelte OSGi Bundles
Crawler Komponenten:
Schnittstellen: Webservice, Observierung, Job Behandlung
Durchlaufen der Netzwerk-Strukturen
Parser Komponenten:
Schnittstellen: Parsen m¨glich? Parsen.
o
Extraktion relevanter Daten
Speicherung im Modell
Erstellen von Folgeauftr¨gen
a
AAN: Analysis and integration of Web 2.0 data sources 32
36. Workflows V. Entwickelte Komponenten
Workflows Crawling Komponenten
AAN: Analysis and integration of Web 2.0 data sources 33
37. Workflows V. Entwickelte Komponenten
Workflow Scribd Parser
AAN: Analysis and integration of Web 2.0 data sources 34
38. Workflows V. Entwickelte Komponenten
Workflow Delicious Crawler Manager
AAN: Analysis and integration of Web 2.0 data sources 35
39. Workflows V. Entwickelte Komponenten
Workflow Delicious Crawler Manager
AAN: Analysis and integration of Web 2.0 data sources 36
40. Ergebnisse und Ausblick VI. Ergebnisse und Ausblick
VI. Ergebnisse und Ausblick
Behandelt wurden:
AAN Konzept
Semantische Daten
Daten in Netzwerken
AAN Framework
Entwickelte Komponenten
¨
Abschließend eine Ubersicht der Ergebnisse und ein Ausblick
AAN: Analysis and integration of Web 2.0 data sources 37
41. Ergebnisse VI. Ergebnisse und Ausblick
Ergebnisse
Komplette Daten Ontologie aus allen Netzwerken
Vollst¨ndige Ergebnisse f¨r SlideShare und Scribd
a u
Volltexte f¨r Delicious und SlideShare
u
Keine Volltexte aus Scribd
(Optionale Anforderung in der Zielvereinbarung)
In Zukunft: Daten aus PDFs extrahieren?
Keine vollst¨ndigen Ergebnisse f¨r Delicious
a u
Warum?
AAN: Analysis and integration of Web 2.0 data sources 38
42. Ergebnisse VI. Ergebnisse und Ausblick
Beschr¨nkungen Delicious Feeds
a
AAN: Analysis and integration of Web 2.0 data sources 39
43. Ergebnisse VI. Ergebnisse und Ausblick
Delicious Analyse Fallbeispiel
Job: Delicios Tag fsln10“
”
Es gibt 387 BM von 12 Akteuren,
384 BM ohne Doppel-Eintr¨ge
a
Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten)
630 Artefakte von 7 Akteuren wurden gecrawlt
Das sind 327 BM
(grep -o http://delicious.com/url/ artefact-list.xml | wc -w)
Job mit rekursiven Anfragen, interner Tiefe 2
733 Artefakte von 10 Akteuren wurden gecrawlt
Das sind 383 BM
AAN: Analysis and integration of Web 2.0 data sources 40
45. Ausblick VI. Ergebnisse und Ausblick
Ausblick
Analyse: Auswertung zu Delicious und Slideshare
im Journal of Computer Science and Technology
(Beitr¨ge bis 1. Oktober 2010)
a
Aktive Weiterentwicklung Visualisierung und Analyse im
Fachgebiet DDI
Projektgruppe: knowAAN Voraussichtlich im WS 2010/11
Seminar: Future Social Learning Networks im WS 2010/11
AAN: Analysis and integration of Web 2.0 data sources 42
46. Fazit VI. Ergebnisse und Ausblick
Pers¨nliches Fazit
o
Wissen in verschiedenen Bereiche erworben:
Theorie (z.B. Repr¨sentation von Semantiken)
a
Technik (z.B. Architektur OSGi Platform & AAN Framework)
Praxis (Entwurf & Entwicklung der Komponenten)
Teamarbeit, Englisch-Kenntnisse
Vielen Dank!
AAN: Analysis and integration of Web 2.0 data sources 43
47. Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010
Grundontologie
AAN: Analysis and integration of Web 2.0 data sources 44