SlideShare a Scribd company logo
1 of 47
Analysis and integration of Web 2.0 data sources
    into a system for analysis and storage of
            Artefact-Actor-Networks

                    Adrian Wilke
           wilke@[REMOVE]campus.upb.de



                09. September 2010
Ziele


Zielsetzung der Bachelorarbeit

 Aus der Zielvereinbarung:
     Datenquellen f¨r Artefact-Actor-Networks System
                   u
     Ontologien definieren
     Crawler- und Parser-Komponenten entwickeln




                  AAN: Analysis and integration of Web 2.0 data sources      2
Ziele


Zielsetzung der Bachelorarbeit

 Aus der Zielvereinbarung:
     Datenquellen f¨r Artefact-Actor-Networks System
                   u
     Ontologien definieren
     Crawler- und Parser-Komponenten entwickeln

 Konkrete Arbeitsschritte:
     Relevante Daten?
     Nutzbare Schnittstellen?
     Einbettung Ontologie?
     Konzeption & Implementierung Komponenten


                  AAN: Analysis and integration of Web 2.0 data sources      2
¨
                                                                          Ubersicht


¨
Ubersicht Vortrag
 I. Artefact-Actor-Networks
     Vorstellung des Konzepts
 II. Datenformate
     Wie werden Daten abgelegt?
 III. Web 2.0 Netzwerke als Datenquellen
      Analyse von Delicious, SlideShare und Scribd
 IV. AAN Framework
     Vorstellung des Systems
 V. Entwickelte Komponenten
    Netzwerke durchlaufen, Daten-Extraktion und -Speicherung
 VI. Ergebnisse und Ausblick
     Aktuelle und zuk¨nftige Projekte
                     u

                  AAN: Analysis and integration of Web 2.0 data sources          3
Vorstellung AAN                                                                  I. Artefact-Actor-Networks


 I. Vorstellung Artefact-Actor-Networks (AAN)


    Artefact-Actor-Networks - Was steckt dahinter?

            Dokumentennetzwerke
            einfaches Beispiel: Verlinkte Webseiten
            Soziale Netzwerke
            In Organisationen oder auch im Web (Facebook)
            Ansatz: Zusammenschluß beider Netzwerkarten
            Neue (indirekte) Verbindungen




                         AAN: Analysis and integration of Web 2.0 data sources                           4
Dokumentennetzwerke                                                                                       I. Artefact-Actor-Networks


 Konsolidierung von Dokumentennetzwerken
                  Network in World Wide Web            Network of documents         Consolidated artefact network I



                                                       Document D
                                                                                                         B
                                     Website B                                             D

                                                                                                                C
                                                             Document C                         A
                         Website A



                                             (1)                              (2)                              (3)




                 Consolidated artefact network I      Network with bookmarks        Consolidated artefact network II


                                                             Website B




                                                              Bookmark E


                                             (1)                              (2)                              (3)




                                     AAN: Analysis and integration of Web 2.0 data sources                                        5
Soziale Netzwerke                                                                                 I. Artefact-Actor-Networks


 Konsolidierung sozialer Netzwerke


                Actor network of company             Private actor network          Consolidated actor network


                    Person Y                                                           Person Y

                                                             Person Z


                                                                                                    Person Z




                         Person X                          Person X                         Person X
                                        (1)                                  (2)                            (3)




        Verbindung uber berufliches und privates Umfeld von Person X
                   ¨




                                    AAN: Analysis and integration of Web 2.0 data sources                                 6
Konsolidierung                                                                       I. Artefact-Actor-Networks


 Konsolidierung beider Netzwerkarten

                 Consolidated artefact network II       Consolidated actor network




                         Typen semantischer Relationen



                        AAN: Analysis and integration of Web 2.0 data sources                                7
Semantische Relationen                                                                                    I. Artefact-Actor-Networks


 Semantische Relationen zwischen Akteuren

            Zusammenschluß der verschiedenartigen Netzwerkarten:
            3 Typen von semantischen Relationen

                                   hasInBuddyList : relates : ACT²             relates : ACT²


                               isInBuddyList : isRelatedBy : ACT²          isRelatedBy : ACT²

                         Actor Y                                     Actor X                    Actor Z




            Eigenschaften in Abbildungen:
            Vererbung, Inversion
            Standards, Vokabularien: FOAF, RELATIONSHIP


                                    AAN: Analysis and integration of Web 2.0 data sources                                         8
Semantische Relationen                                                                          I. Artefact-Actor-Networks



 Relationen zwischen Artefakten,
  Relationen zwischen Akteuren und Artefakten
            Standards, Vokabularien: Dublin Core, SIOC

                               linksTo : references : ART²           references : ART²


                            hasLink : isReferencedBy : ART²       isReferencedBy : ART²

                         Website A                           Website B             Document C




                                AAN: Analysis and integration of Web 2.0 data sources                                   9
Semantische Relationen                                                                          I. Artefact-Actor-Networks



 Relationen zwischen Artefakten,
  Relationen zwischen Akteuren und Artefakten
            Standards, Vokabularien: Dublin Core, SIOC

                               linksTo : references : ART²           references : ART²


                            hasLink : isReferencedBy : ART²       isReferencedBy : ART²

                         Website A                           Website B             Document C




                                           bookmarkerOf : ACT-ART


                                          hasBookmarker : ART-ACT

                              Actor Y                                        Bookmark Q




                                AAN: Analysis and integration of Web 2.0 data sources                                   9
Stand der Dinge                                                                I. Artefact-Actor-Networks


 Stand der Dinge

            Nutzen und Mehrwert durch lokalen Zugriff und
            neu erschließbare Verbindungen
            Wolfgang Reinhardt et al.: Artefact-Actor-Networks
            Tobias Varlemann: Konzeption und Entw. Architektur
            Außerdem: Twitter, HTML
            Matthias Moi: Anwendung im Kontekt von Wikis
                                   ¨
            Außerdem: Semantische Ahnlichkeit (SemSim)
            Zusammen mit ihnen: Modeling, obtaining and storing data
                                  ”
            from social media tools with Artefact-Actor-Networks“,
            ABIS 2010 Workshop, 4.-6. Oktober in Kassel



                       AAN: Analysis and integration of Web 2.0 data sources                          10
Datenformate                                                                II. Datenformate


 II. Datenformate




    Bisher: Konzept von Artefact-Actor-Networks

    Aber: Speicherung semantisch angereicherter Daten?

    Drei aufeinander aufbauende Formate: RDF, RDFS, OWL




                    AAN: Analysis and integration of Web 2.0 data sources                11
RDF                                                                                              II. Datenformate


 Resource Description Framework (RDF)
       Tripel: Subjekt,
       Pr¨dikat, Objekt
         a                                    http://www.cs.uni-paderborn.de


       Subjekt: Resource                                       http://www.terms.example.org/has-working-group


       (URI oder Blank Node)                    http://ddi.uni-paderborn.de


       Pr¨dikat: Resource,
         a                                                     http://purl.org/dc/elements/1.1/description

       keine Blank Nodes                          Didactics of Informatics

       Objekt: Resource oder
       Literal
               Terminologie: Ressource hat Eigenschaft mit
                       Eigenschafts-Beschreibung

      Repr¨sentation von Informationen
          a                                             Semantische Beschreibung?

                     AAN: Analysis and integration of Web 2.0 data sources                                    12
RDFS                                                                        II. Datenformate


 RDF Schema (RDFS)

   Zur Definition von Ontologien

                                         hasEmployee

                       rdfs:domain                        rdfs:range


                       Corporation                          Person


                              rdfs:subClassOf


                        University




   Ontologie (im Kontext des Semantic Web):
   Terme zur Beschreibung und Repr¨sentation eines Wissensgebiets.
                                    a
   Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung,
   Eigenschaft.


                    AAN: Analysis and integration of Web 2.0 data sources                13
OWL                                                                            II. Datenformate


 Web Ontology Language (OWL)

      Repr¨sentation der Bedeutung von Termen in Vokabularien
          a
           und den Beziehungen zwischen solchen Termen.

                        Hatten wir das nicht gerade?

                       Ja, aber OWL kann mehr, z.B.:
      Inversion,
      Transitivit¨t,
                 a
      Symmetrie,
      Beschr¨nkungen in der Kardinalit¨t ...
            a                         a

                   Die AAN Ontologie basiert auf OWL.

                       AAN: Analysis and integration of Web 2.0 data sources                14
AAN Ontologie (Version 2)                                                             II. Datenformate

                                                               AAN Grundontologie

                                                               <!– http://AAN/AANBase
                                                               #bookmarkerOf –>
                                                               <owl:ObjectProperty rdf:about=
                                                               ”http://AAN/AANBase
                                                               #bookmarkerOf”>
                                                               <rdfs:subPropertyOf
                                                               rdf:resource=
                                                               ”http://AAN/AANBase
                                                               #act art”/>
                                                               </owl:ObjectProperty>

                                                               AAN := artefact-actor-
                                                               networks.net/ontologies/
                                                               2010/03

                                                                ¨
                                                                Ubersicht Ontologie



                            AAN: Analysis and integration of Web 2.0 data sources                  15
Web 2.0 Datenquellen                                                     III. Web 2.0 Netzwerke als Datenquellen


 III. Netzwerke als Datenquellen



    Bisherige Grundlagen:
            Artefact-Actor-Networks Konzept
            Ablage von semantischen Daten


                   Welche Daten der Netzwerke sind relevant?




                         AAN: Analysis and integration of Web 2.0 data sources                               16
Web 2.0 Datenquellen                                                    III. Web 2.0 Netzwerke als Datenquellen




    Kriterien f¨r Daten
               u
            Relevanz f¨r AAN
                      u
            ¨
            Offentliche Daten
            Statische Eingenschaften
            Konsistente Nutzung




                        AAN: Analysis and integration of Web 2.0 data sources                               17
Web 2.0 Datenquellen                                                     III. Web 2.0 Netzwerke als Datenquellen




    Kriterien f¨r Daten
               u
            Relevanz f¨r AAN
                      u
            ¨
            Offentliche Daten
            Statische Eingenschaften
            Konsistente Nutzung

    Verf¨gbare Datentypen
        u
            Klassen
            Relationen
            Eigenschaften




                         AAN: Analysis and integration of Web 2.0 data sources                               17
Delicious                                                      III. Web 2.0 Netzwerke als Datenquellen


 Delicious: Social Bookmarking




               AAN: Analysis and integration of Web 2.0 data sources                               18
Delicious                                                   III. Web 2.0 Netzwerke als Datenquellen




            AAN: Analysis and integration of Web 2.0 data sources                               19
SlideShare                                                   III. Web 2.0 Netzwerke als Datenquellen




             AAN: Analysis and integration of Web 2.0 data sources                               20
Scribd                                                   III. Web 2.0 Netzwerke als Datenquellen




         AAN: Analysis and integration of Web 2.0 data sources                               21
Dokumentennetzwerke                                                   III. Web 2.0 Netzwerke als Datenquellen




                      AAN: Analysis and integration of Web 2.0 data sources                               22
Schnittstellen                                                               III. Web 2.0 Netzwerke als Datenquellen


 Schnittstellen der Netzwerke



     Kriterien f¨r Schnittstellen
                u
          ¨
         Offentlich zug¨ngliche Daten
                      a
                 Alle zuvor gew¨hlten Daten
                               a
                 M¨glichst keine st¨renden Restriktionen
                  o                o
                 M¨glichst strukturierte Daten
                  o




                             AAN: Analysis and integration of Web 2.0 data sources                               23
Schnittstellen: Delicious                                                    III. Web 2.0 Netzwerke als Datenquellen


 Schnittstellen: Delicious

              API: Zugriff pers¨nlicher Daten (Login)
                              o
              Feeds: Beschr¨nkungen
                           a
                      1 Aufruf pro Sekunde
                      Maximal 100 zur¨ckgegebene Bookmarks
                                      u
              HTML: Nicht strukturiert
                                           ¨
                                           Offentlich           Strukturiert
                             API              -
                             Feeds
                             HTML                                       -




                             AAN: Analysis and integration of Web 2.0 data sources                               24
Schnittstellen: Delicious                                                     III. Web 2.0 Netzwerke als Datenquellen


 Genutzte Delicous Feeds (10/23)

          Tag                 bmPopularByTag
                                                                     URL(s)
        Tag(s)                bmByTags                                                    Actor
                      URL     bmByUrl                          Bookmarks                  URL

                     Actor    bmByUser                                                   Tag(s)

        Tag(s)       Actor    bmByUserAndTags

                     Actor    networkFans
                                                                  Users                 Actor(s)
                     Actor    networkMembers

                     Actor    tagsByUser
                                                                   Tags                  Tag(s)
        Tag(s)       Actor    tagsByUserAndTags

                      URL     urlInfo                              URL                   Tag(s)        URL



          Input classes          Feed patterns              Output schemes                 Output classes




                             AAN: Analysis and integration of Web 2.0 data sources                                25
Schnittstellen: Delicious                                                               III. Web 2.0 Netzwerke als Datenquellen


 Schnittstellen: SlideShare
  get_user_contacts(username)




                            Actor                                Keyword
                                                                                           API:
                                                                                           4 von 13 Methoden
                                                                                           decken Bedarf
 get_slideshows_by_user(username)
                                                          get_slideshows_by_tag(tag)       semantischer Daten

                                              Artefact                                     HTML:
                                                                                           Zus¨tzlich f¨r
                                                                                               a       u
             search_slideshows(query)                     get_slideshow(id | url)
                                                                                           Volltexte und
                                    Query                  ID | URL                        Kategorien

              API method
             XML Response




                                        AAN: Analysis and integration of Web 2.0 data sources                               26
Schnittstellen: Delicious                                                       III. Web 2.0 Netzwerke als Datenquellen


 Schnittstellen: Scribd

 ACT²

                        Actor                                 Keyword

                                             Keywords
                                                                                   API:
                                      AA     of Artefact                           1 von 24 Methoden
                                                                                   liefert verwendbare
                                 AA                    docs.search(@tag)
                                                                                   Daten

                                                                                   HTML:
                                           Artefact
                                                                                   F¨r zus¨tzlichen
                                                                                    u     a
                                                 docs.search(query)                Bedarf
                API method
                                           Query
               HTML parser




                                AAN: Analysis and integration of Web 2.0 data sources                               27
AAN Framework                                                                 IV. AAN Framework


 IV. Das AAN Framework

    Wir kennen:
          Artefact-Actor-Networks Konzept
          Ablage von semantischen Daten
          Daten in Netzwerken

    Jetzt wird es praktischer: Das AAN Framework
          Grundlage: Die OSGi Service Platform (Java)
          Architektur des AAN Frameworks
          In Arbeit entwickelte Komponenten



                      AAN: Analysis and integration of Web 2.0 data sources                 28
OSGi                                                                       IV. AAN Framework


 OSGi Service Platform

       Spezifikation der OSGi Alliance
       Verschiedene Implementationen,
       u.a. Equinox (Eclipse Foundation)
       Java-basiert → Portabilit¨t
                                a
       Abh¨ngigkeitsmanagement operiert auf Versionierung
          a
       Bundles: Ressourcen und Klassen
       Statischer Export oder
       dynamisch angebotene Services
       Implementierungen von Interfaces,
       registriet bei Service Registry


                   AAN: Analysis and integration of Web 2.0 data sources                 29
AAN Framework                                                           IV. AAN Framework


 Architektur AAN Framework




                AAN: Analysis and integration of Web 2.0 data sources                 30
Entwickelte Komponenten                                                           V. Entwickelte Komponenten


 V. Entwickelte Komponenten

    Bisher behandelt:
           AAN Konzept
           Semantische Daten
           Daten in Netzwerken
           AAN Framework

    Nun zu den entwickelten Komponenten.

    F¨r jede der 3 Datenquellen war zu entwickeln:
     u
           Crawler Komponente
           Parser Komponente


                          AAN: Analysis and integration of Web 2.0 data sources                          31
Entwickelte Komponenten                                                           V. Entwickelte Komponenten


 Entwickelte OSGi Bundles

    Crawler Komponenten:
           Schnittstellen: Webservice, Observierung, Job Behandlung
           Durchlaufen der Netzwerk-Strukturen

    Parser Komponenten:
           Schnittstellen: Parsen m¨glich? Parsen.
                                   o
           Extraktion relevanter Daten
           Speicherung im Modell
           Erstellen von Folgeauftr¨gen
                                   a



                          AAN: Analysis and integration of Web 2.0 data sources                          32
Workflows                                                             V. Entwickelte Komponenten


 Workflows Crawling Komponenten




             AAN: Analysis and integration of Web 2.0 data sources                          33
Workflows                                                              V. Entwickelte Komponenten


 Workflow Scribd Parser




              AAN: Analysis and integration of Web 2.0 data sources                          34
Workflows                                                              V. Entwickelte Komponenten


 Workflow Delicious Crawler Manager




              AAN: Analysis and integration of Web 2.0 data sources                          35
Workflows                                                              V. Entwickelte Komponenten


 Workflow Delicious Crawler Manager




              AAN: Analysis and integration of Web 2.0 data sources                          36
Ergebnisse und Ausblick                                                           VI. Ergebnisse und Ausblick


 VI. Ergebnisse und Ausblick

     Behandelt wurden:
            AAN Konzept
            Semantische Daten
            Daten in Netzwerken
            AAN Framework
            Entwickelte Komponenten


                           ¨
         Abschließend eine Ubersicht der Ergebnisse und ein Ausblick




                          AAN: Analysis and integration of Web 2.0 data sources                           37
Ergebnisse                                                                        VI. Ergebnisse und Ausblick


 Ergebnisse


             Komplette Daten Ontologie aus allen Netzwerken
             Vollst¨ndige Ergebnisse f¨r SlideShare und Scribd
                   a                  u
             Volltexte f¨r Delicious und SlideShare
                        u

             Keine Volltexte aus Scribd
             (Optionale Anforderung in der Zielvereinbarung)
             In Zukunft: Daten aus PDFs extrahieren?
             Keine vollst¨ndigen Ergebnisse f¨r Delicious
                         a                   u
             Warum?




                          AAN: Analysis and integration of Web 2.0 data sources                           38
Ergebnisse                                                             VI. Ergebnisse und Ausblick


 Beschr¨nkungen Delicious Feeds
       a




               AAN: Analysis and integration of Web 2.0 data sources                           39
Ergebnisse                                                                          VI. Ergebnisse und Ausblick


 Delicious Analyse Fallbeispiel

             Job: Delicios Tag fsln10“
                              ”
             Es gibt 387 BM von 12 Akteuren,
             384 BM ohne Doppel-Eintr¨ge
                                       a

             Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten)
             630 Artefakte von 7 Akteuren wurden gecrawlt
             Das sind 327 BM
             (grep -o http://delicious.com/url/ artefact-list.xml | wc -w)

             Job mit rekursiven Anfragen, interner Tiefe 2
             733 Artefakte von 10 Akteuren wurden gecrawlt
             Das sind 383 BM

                            AAN: Analysis and integration of Web 2.0 data sources                           40
Ergebnisse                                                                    VI. Ergebnisse und Ausblick


 Delicious Analyse Fallbeispiel
       Benutzer   Webseite         Job 1         Differenz             Job 2      Differenz
          jul.        120            120                0               120              0
         wol.         126            126                0               126              0
         syw.           97            52               45                96              1
         seb.            9             9                0                 9              0
         Den.           12            12                0                12              0
          rol.           1             1                0                 1              0
         mey.            7             7                0                 7              0
         chr.            1             0                1                 1              0
         eva.           10             0               10                10              0
         dig.            2             0                2                 1              1
         moi.            1             0                1                 1              0
         cwa.            1             0                1                 0              1
       Gesamt         387            327               60               383       3 oder 4

                     AAN: Analysis and integration of Web 2.0 data sources                            41
Ausblick                                                                       VI. Ergebnisse und Ausblick


 Ausblick



           Analyse: Auswertung zu Delicious und Slideshare
           im Journal of Computer Science and Technology
           (Beitr¨ge bis 1. Oktober 2010)
                 a
           Aktive Weiterentwicklung Visualisierung und Analyse im
           Fachgebiet DDI
           Projektgruppe: knowAAN Voraussichtlich im WS 2010/11
           Seminar: Future Social Learning Networks im WS 2010/11




                       AAN: Analysis and integration of Web 2.0 data sources                           42
Fazit                                                                            VI. Ergebnisse und Ausblick


 Pers¨nliches Fazit
     o


        Wissen in verschiedenen Bereiche erworben:
            Theorie (z.B. Repr¨sentation von Semantiken)
                              a
            Technik (z.B. Architektur OSGi Platform & AAN Framework)
            Praxis (Entwurf & Entwicklung der Komponenten)
            Teamarbeit, Englisch-Kenntnisse


                                       Vielen Dank!




                         AAN: Analysis and integration of Web 2.0 data sources                           43
Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010




                   Grundontologie



AAN: Analysis and integration of Web 2.0 data sources                               44

More Related Content

More from Wolfgang Reinhardt

PUSHPIN: Supporting Scholarly Awareness in Publications and Social Networks
PUSHPIN: Supporting Scholarly Awareness in Publications and Social NetworksPUSHPIN: Supporting Scholarly Awareness in Publications and Social Networks
PUSHPIN: Supporting Scholarly Awareness in Publications and Social NetworksWolfgang Reinhardt
 
Formalized Processes at EATEL (here: SIGs and EC-TEL)
Formalized Processes at EATEL (here: SIGs and EC-TEL)Formalized Processes at EATEL (here: SIGs and EC-TEL)
Formalized Processes at EATEL (here: SIGs and EC-TEL)Wolfgang Reinhardt
 
Developing electronic classroom response apps for a wide variety of mobile de...
Developing electronic classroom response apps for a wide variety of mobile de...Developing electronic classroom response apps for a wide variety of mobile de...
Developing electronic classroom response apps for a wide variety of mobile de...Wolfgang Reinhardt
 
Mobile access to scientific event information: An Android tablet application ...
Mobile access to scientific event information: An Android tablet application ...Mobile access to scientific event information: An Android tablet application ...
Mobile access to scientific event information: An Android tablet application ...Wolfgang Reinhardt
 
PINGO: Peer Instruction in Very Large Groups
PINGO: Peer Instruction in Very Large GroupsPINGO: Peer Instruction in Very Large Groups
PINGO: Peer Instruction in Very Large GroupsWolfgang Reinhardt
 
Understanding the meaning of awareness in Research Networks
Understanding the meaning of awareness in Research NetworksUnderstanding the meaning of awareness in Research Networks
Understanding the meaning of awareness in Research NetworksWolfgang Reinhardt
 
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...Wolfgang Reinhardt
 
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...Wolfgang Reinhardt
 
A widget-based dashboard approach for awareness and reflection in online lear...
A widget-based dashboard approach for awareness and reflection in online lear...A widget-based dashboard approach for awareness and reflection in online lear...
A widget-based dashboard approach for awareness and reflection in online lear...Wolfgang Reinhardt
 
Personal dashboards for individual learning and project awareness in social s...
Personal dashboards for individual learning and project awareness in social s...Personal dashboards for individual learning and project awareness in social s...
Personal dashboards for individual learning and project awareness in social s...Wolfgang Reinhardt
 
TEL-MOOC workshop at #jtelss12
TEL-MOOC workshop at #jtelss12TEL-MOOC workshop at #jtelss12
TEL-MOOC workshop at #jtelss12Wolfgang Reinhardt
 
Research 2.0 - Wie Forscher das Web 2.0 nutzen
Research 2.0 - Wie Forscher das Web 2.0 nutzenResearch 2.0 - Wie Forscher das Web 2.0 nutzen
Research 2.0 - Wie Forscher das Web 2.0 nutzenWolfgang Reinhardt
 
PhD Defense - Awareness Support for Knowledge Workers in Research Networks
PhD Defense - Awareness Support for Knowledge Workers in Research NetworksPhD Defense - Awareness Support for Knowledge Workers in Research Networks
PhD Defense - Awareness Support for Knowledge Workers in Research NetworksWolfgang Reinhardt
 
Idea presentation for the project group PUSHPIN
Idea presentation for the project group PUSHPINIdea presentation for the project group PUSHPIN
Idea presentation for the project group PUSHPINWolfgang Reinhardt
 
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...Wolfgang Reinhardt
 
ViLM im Einsatz in Tutorenschulungen an der UPB
ViLM im Einsatz in Tutorenschulungen an der UPBViLM im Einsatz in Tutorenschulungen an der UPB
ViLM im Einsatz in Tutorenschulungen an der UPBWolfgang Reinhardt
 
Informationsqualität in Unternehmenswikis
Informationsqualität in UnternehmenswikisInformationsqualität in Unternehmenswikis
Informationsqualität in UnternehmenswikisWolfgang Reinhardt
 
Awareness Support in Scientific Events with SETapp
Awareness Support in Scientific Events with SETappAwareness Support in Scientific Events with SETapp
Awareness Support in Scientific Events with SETappWolfgang Reinhardt
 

More from Wolfgang Reinhardt (20)

PUSHPIN: Supporting Scholarly Awareness in Publications and Social Networks
PUSHPIN: Supporting Scholarly Awareness in Publications and Social NetworksPUSHPIN: Supporting Scholarly Awareness in Publications and Social Networks
PUSHPIN: Supporting Scholarly Awareness in Publications and Social Networks
 
Formalized Processes at EATEL (here: SIGs and EC-TEL)
Formalized Processes at EATEL (here: SIGs and EC-TEL)Formalized Processes at EATEL (here: SIGs and EC-TEL)
Formalized Processes at EATEL (here: SIGs and EC-TEL)
 
Developing electronic classroom response apps for a wide variety of mobile de...
Developing electronic classroom response apps for a wide variety of mobile de...Developing electronic classroom response apps for a wide variety of mobile de...
Developing electronic classroom response apps for a wide variety of mobile de...
 
Mobile access to scientific event information: An Android tablet application ...
Mobile access to scientific event information: An Android tablet application ...Mobile access to scientific event information: An Android tablet application ...
Mobile access to scientific event information: An Android tablet application ...
 
Analysis of mLearn 2002-2012
Analysis of mLearn 2002-2012Analysis of mLearn 2002-2012
Analysis of mLearn 2002-2012
 
PINGO: Peer Instruction in Very Large Groups
PINGO: Peer Instruction in Very Large GroupsPINGO: Peer Instruction in Very Large Groups
PINGO: Peer Instruction in Very Large Groups
 
Understanding the meaning of awareness in Research Networks
Understanding the meaning of awareness in Research NetworksUnderstanding the meaning of awareness in Research Networks
Understanding the meaning of awareness in Research Networks
 
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...
Supporting Scholarly Awareness and Researchers’ Social Interactions using PUS...
 
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...
Exploration wissenschaftlicher Netzwerke und Publikationen mittels einer Mult...
 
A widget-based dashboard approach for awareness and reflection in online lear...
A widget-based dashboard approach for awareness and reflection in online lear...A widget-based dashboard approach for awareness and reflection in online lear...
A widget-based dashboard approach for awareness and reflection in online lear...
 
Personal dashboards for individual learning and project awareness in social s...
Personal dashboards for individual learning and project awareness in social s...Personal dashboards for individual learning and project awareness in social s...
Personal dashboards for individual learning and project awareness in social s...
 
TEL-MOOC workshop at #jtelss12
TEL-MOOC workshop at #jtelss12TEL-MOOC workshop at #jtelss12
TEL-MOOC workshop at #jtelss12
 
Research 2.0 - Wie Forscher das Web 2.0 nutzen
Research 2.0 - Wie Forscher das Web 2.0 nutzenResearch 2.0 - Wie Forscher das Web 2.0 nutzen
Research 2.0 - Wie Forscher das Web 2.0 nutzen
 
FSLN12 Introduction Paderborn
FSLN12 Introduction PaderbornFSLN12 Introduction Paderborn
FSLN12 Introduction Paderborn
 
PhD Defense - Awareness Support for Knowledge Workers in Research Networks
PhD Defense - Awareness Support for Knowledge Workers in Research NetworksPhD Defense - Awareness Support for Knowledge Workers in Research Networks
PhD Defense - Awareness Support for Knowledge Workers in Research Networks
 
Idea presentation for the project group PUSHPIN
Idea presentation for the project group PUSHPINIdea presentation for the project group PUSHPIN
Idea presentation for the project group PUSHPIN
 
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...
Awareness Support for Knowledge Workers in Research Networks - Very brief PhD...
 
ViLM im Einsatz in Tutorenschulungen an der UPB
ViLM im Einsatz in Tutorenschulungen an der UPBViLM im Einsatz in Tutorenschulungen an der UPB
ViLM im Einsatz in Tutorenschulungen an der UPB
 
Informationsqualität in Unternehmenswikis
Informationsqualität in UnternehmenswikisInformationsqualität in Unternehmenswikis
Informationsqualität in Unternehmenswikis
 
Awareness Support in Scientific Events with SETapp
Awareness Support in Scientific Events with SETappAwareness Support in Scientific Events with SETapp
Awareness Support in Scientific Events with SETapp
 

Extension of AANs with SlideShare, Delicious, and Scribd (by Adrian Wilke)

  • 1. Analysis and integration of Web 2.0 data sources into a system for analysis and storage of Artefact-Actor-Networks Adrian Wilke wilke@[REMOVE]campus.upb.de 09. September 2010
  • 2. Ziele Zielsetzung der Bachelorarbeit Aus der Zielvereinbarung: Datenquellen f¨r Artefact-Actor-Networks System u Ontologien definieren Crawler- und Parser-Komponenten entwickeln AAN: Analysis and integration of Web 2.0 data sources 2
  • 3. Ziele Zielsetzung der Bachelorarbeit Aus der Zielvereinbarung: Datenquellen f¨r Artefact-Actor-Networks System u Ontologien definieren Crawler- und Parser-Komponenten entwickeln Konkrete Arbeitsschritte: Relevante Daten? Nutzbare Schnittstellen? Einbettung Ontologie? Konzeption & Implementierung Komponenten AAN: Analysis and integration of Web 2.0 data sources 2
  • 4. ¨ Ubersicht ¨ Ubersicht Vortrag I. Artefact-Actor-Networks Vorstellung des Konzepts II. Datenformate Wie werden Daten abgelegt? III. Web 2.0 Netzwerke als Datenquellen Analyse von Delicious, SlideShare und Scribd IV. AAN Framework Vorstellung des Systems V. Entwickelte Komponenten Netzwerke durchlaufen, Daten-Extraktion und -Speicherung VI. Ergebnisse und Ausblick Aktuelle und zuk¨nftige Projekte u AAN: Analysis and integration of Web 2.0 data sources 3
  • 5. Vorstellung AAN I. Artefact-Actor-Networks I. Vorstellung Artefact-Actor-Networks (AAN) Artefact-Actor-Networks - Was steckt dahinter? Dokumentennetzwerke einfaches Beispiel: Verlinkte Webseiten Soziale Netzwerke In Organisationen oder auch im Web (Facebook) Ansatz: Zusammenschluß beider Netzwerkarten Neue (indirekte) Verbindungen AAN: Analysis and integration of Web 2.0 data sources 4
  • 6. Dokumentennetzwerke I. Artefact-Actor-Networks Konsolidierung von Dokumentennetzwerken Network in World Wide Web Network of documents Consolidated artefact network I Document D B Website B D C Document C A Website A (1) (2) (3) Consolidated artefact network I Network with bookmarks Consolidated artefact network II Website B Bookmark E (1) (2) (3) AAN: Analysis and integration of Web 2.0 data sources 5
  • 7. Soziale Netzwerke I. Artefact-Actor-Networks Konsolidierung sozialer Netzwerke Actor network of company Private actor network Consolidated actor network Person Y Person Y Person Z Person Z Person X Person X Person X (1) (2) (3) Verbindung uber berufliches und privates Umfeld von Person X ¨ AAN: Analysis and integration of Web 2.0 data sources 6
  • 8. Konsolidierung I. Artefact-Actor-Networks Konsolidierung beider Netzwerkarten Consolidated artefact network II Consolidated actor network Typen semantischer Relationen AAN: Analysis and integration of Web 2.0 data sources 7
  • 9. Semantische Relationen I. Artefact-Actor-Networks Semantische Relationen zwischen Akteuren Zusammenschluß der verschiedenartigen Netzwerkarten: 3 Typen von semantischen Relationen hasInBuddyList : relates : ACT² relates : ACT² isInBuddyList : isRelatedBy : ACT² isRelatedBy : ACT² Actor Y Actor X Actor Z Eigenschaften in Abbildungen: Vererbung, Inversion Standards, Vokabularien: FOAF, RELATIONSHIP AAN: Analysis and integration of Web 2.0 data sources 8
  • 10. Semantische Relationen I. Artefact-Actor-Networks Relationen zwischen Artefakten, Relationen zwischen Akteuren und Artefakten Standards, Vokabularien: Dublin Core, SIOC linksTo : references : ART² references : ART² hasLink : isReferencedBy : ART² isReferencedBy : ART² Website A Website B Document C AAN: Analysis and integration of Web 2.0 data sources 9
  • 11. Semantische Relationen I. Artefact-Actor-Networks Relationen zwischen Artefakten, Relationen zwischen Akteuren und Artefakten Standards, Vokabularien: Dublin Core, SIOC linksTo : references : ART² references : ART² hasLink : isReferencedBy : ART² isReferencedBy : ART² Website A Website B Document C bookmarkerOf : ACT-ART hasBookmarker : ART-ACT Actor Y Bookmark Q AAN: Analysis and integration of Web 2.0 data sources 9
  • 12. Stand der Dinge I. Artefact-Actor-Networks Stand der Dinge Nutzen und Mehrwert durch lokalen Zugriff und neu erschließbare Verbindungen Wolfgang Reinhardt et al.: Artefact-Actor-Networks Tobias Varlemann: Konzeption und Entw. Architektur Außerdem: Twitter, HTML Matthias Moi: Anwendung im Kontekt von Wikis ¨ Außerdem: Semantische Ahnlichkeit (SemSim) Zusammen mit ihnen: Modeling, obtaining and storing data ” from social media tools with Artefact-Actor-Networks“, ABIS 2010 Workshop, 4.-6. Oktober in Kassel AAN: Analysis and integration of Web 2.0 data sources 10
  • 13. Datenformate II. Datenformate II. Datenformate Bisher: Konzept von Artefact-Actor-Networks Aber: Speicherung semantisch angereicherter Daten? Drei aufeinander aufbauende Formate: RDF, RDFS, OWL AAN: Analysis and integration of Web 2.0 data sources 11
  • 14. RDF II. Datenformate Resource Description Framework (RDF) Tripel: Subjekt, Pr¨dikat, Objekt a http://www.cs.uni-paderborn.de Subjekt: Resource http://www.terms.example.org/has-working-group (URI oder Blank Node) http://ddi.uni-paderborn.de Pr¨dikat: Resource, a http://purl.org/dc/elements/1.1/description keine Blank Nodes Didactics of Informatics Objekt: Resource oder Literal Terminologie: Ressource hat Eigenschaft mit Eigenschafts-Beschreibung Repr¨sentation von Informationen a Semantische Beschreibung? AAN: Analysis and integration of Web 2.0 data sources 12
  • 15. RDFS II. Datenformate RDF Schema (RDFS) Zur Definition von Ontologien hasEmployee rdfs:domain rdfs:range Corporation Person rdfs:subClassOf University Ontologie (im Kontext des Semantic Web): Terme zur Beschreibung und Repr¨sentation eines Wissensgebiets. a Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung, Eigenschaft. AAN: Analysis and integration of Web 2.0 data sources 13
  • 16. OWL II. Datenformate Web Ontology Language (OWL) Repr¨sentation der Bedeutung von Termen in Vokabularien a und den Beziehungen zwischen solchen Termen. Hatten wir das nicht gerade? Ja, aber OWL kann mehr, z.B.: Inversion, Transitivit¨t, a Symmetrie, Beschr¨nkungen in der Kardinalit¨t ... a a Die AAN Ontologie basiert auf OWL. AAN: Analysis and integration of Web 2.0 data sources 14
  • 17. AAN Ontologie (Version 2) II. Datenformate AAN Grundontologie <!– http://AAN/AANBase #bookmarkerOf –> <owl:ObjectProperty rdf:about= ”http://AAN/AANBase #bookmarkerOf”> <rdfs:subPropertyOf rdf:resource= ”http://AAN/AANBase #act art”/> </owl:ObjectProperty> AAN := artefact-actor- networks.net/ontologies/ 2010/03 ¨ Ubersicht Ontologie AAN: Analysis and integration of Web 2.0 data sources 15
  • 18. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen III. Netzwerke als Datenquellen Bisherige Grundlagen: Artefact-Actor-Networks Konzept Ablage von semantischen Daten Welche Daten der Netzwerke sind relevant? AAN: Analysis and integration of Web 2.0 data sources 16
  • 19. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen Kriterien f¨r Daten u Relevanz f¨r AAN u ¨ Offentliche Daten Statische Eingenschaften Konsistente Nutzung AAN: Analysis and integration of Web 2.0 data sources 17
  • 20. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen Kriterien f¨r Daten u Relevanz f¨r AAN u ¨ Offentliche Daten Statische Eingenschaften Konsistente Nutzung Verf¨gbare Datentypen u Klassen Relationen Eigenschaften AAN: Analysis and integration of Web 2.0 data sources 17
  • 21. Delicious III. Web 2.0 Netzwerke als Datenquellen Delicious: Social Bookmarking AAN: Analysis and integration of Web 2.0 data sources 18
  • 22. Delicious III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 19
  • 23. SlideShare III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 20
  • 24. Scribd III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 21
  • 25. Dokumentennetzwerke III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 22
  • 26. Schnittstellen III. Web 2.0 Netzwerke als Datenquellen Schnittstellen der Netzwerke Kriterien f¨r Schnittstellen u ¨ Offentlich zug¨ngliche Daten a Alle zuvor gew¨hlten Daten a M¨glichst keine st¨renden Restriktionen o o M¨glichst strukturierte Daten o AAN: Analysis and integration of Web 2.0 data sources 23
  • 27. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: Delicious API: Zugriff pers¨nlicher Daten (Login) o Feeds: Beschr¨nkungen a 1 Aufruf pro Sekunde Maximal 100 zur¨ckgegebene Bookmarks u HTML: Nicht strukturiert ¨ Offentlich Strukturiert API - Feeds HTML - AAN: Analysis and integration of Web 2.0 data sources 24
  • 28. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Genutzte Delicous Feeds (10/23) Tag bmPopularByTag URL(s) Tag(s) bmByTags Actor URL bmByUrl Bookmarks URL Actor bmByUser Tag(s) Tag(s) Actor bmByUserAndTags Actor networkFans Users Actor(s) Actor networkMembers Actor tagsByUser Tags Tag(s) Tag(s) Actor tagsByUserAndTags URL urlInfo URL Tag(s) URL Input classes Feed patterns Output schemes Output classes AAN: Analysis and integration of Web 2.0 data sources 25
  • 29. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: SlideShare get_user_contacts(username) Actor Keyword API: 4 von 13 Methoden decken Bedarf get_slideshows_by_user(username) get_slideshows_by_tag(tag) semantischer Daten Artefact HTML: Zus¨tzlich f¨r a u search_slideshows(query) get_slideshow(id | url) Volltexte und Query ID | URL Kategorien API method XML Response AAN: Analysis and integration of Web 2.0 data sources 26
  • 30. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: Scribd ACT² Actor Keyword Keywords API: AA of Artefact 1 von 24 Methoden liefert verwendbare AA docs.search(@tag) Daten HTML: Artefact F¨r zus¨tzlichen u a docs.search(query) Bedarf API method Query HTML parser AAN: Analysis and integration of Web 2.0 data sources 27
  • 31. AAN Framework IV. AAN Framework IV. Das AAN Framework Wir kennen: Artefact-Actor-Networks Konzept Ablage von semantischen Daten Daten in Netzwerken Jetzt wird es praktischer: Das AAN Framework Grundlage: Die OSGi Service Platform (Java) Architektur des AAN Frameworks In Arbeit entwickelte Komponenten AAN: Analysis and integration of Web 2.0 data sources 28
  • 32. OSGi IV. AAN Framework OSGi Service Platform Spezifikation der OSGi Alliance Verschiedene Implementationen, u.a. Equinox (Eclipse Foundation) Java-basiert → Portabilit¨t a Abh¨ngigkeitsmanagement operiert auf Versionierung a Bundles: Ressourcen und Klassen Statischer Export oder dynamisch angebotene Services Implementierungen von Interfaces, registriet bei Service Registry AAN: Analysis and integration of Web 2.0 data sources 29
  • 33. AAN Framework IV. AAN Framework Architektur AAN Framework AAN: Analysis and integration of Web 2.0 data sources 30
  • 34. Entwickelte Komponenten V. Entwickelte Komponenten V. Entwickelte Komponenten Bisher behandelt: AAN Konzept Semantische Daten Daten in Netzwerken AAN Framework Nun zu den entwickelten Komponenten. F¨r jede der 3 Datenquellen war zu entwickeln: u Crawler Komponente Parser Komponente AAN: Analysis and integration of Web 2.0 data sources 31
  • 35. Entwickelte Komponenten V. Entwickelte Komponenten Entwickelte OSGi Bundles Crawler Komponenten: Schnittstellen: Webservice, Observierung, Job Behandlung Durchlaufen der Netzwerk-Strukturen Parser Komponenten: Schnittstellen: Parsen m¨glich? Parsen. o Extraktion relevanter Daten Speicherung im Modell Erstellen von Folgeauftr¨gen a AAN: Analysis and integration of Web 2.0 data sources 32
  • 36. Workflows V. Entwickelte Komponenten Workflows Crawling Komponenten AAN: Analysis and integration of Web 2.0 data sources 33
  • 37. Workflows V. Entwickelte Komponenten Workflow Scribd Parser AAN: Analysis and integration of Web 2.0 data sources 34
  • 38. Workflows V. Entwickelte Komponenten Workflow Delicious Crawler Manager AAN: Analysis and integration of Web 2.0 data sources 35
  • 39. Workflows V. Entwickelte Komponenten Workflow Delicious Crawler Manager AAN: Analysis and integration of Web 2.0 data sources 36
  • 40. Ergebnisse und Ausblick VI. Ergebnisse und Ausblick VI. Ergebnisse und Ausblick Behandelt wurden: AAN Konzept Semantische Daten Daten in Netzwerken AAN Framework Entwickelte Komponenten ¨ Abschließend eine Ubersicht der Ergebnisse und ein Ausblick AAN: Analysis and integration of Web 2.0 data sources 37
  • 41. Ergebnisse VI. Ergebnisse und Ausblick Ergebnisse Komplette Daten Ontologie aus allen Netzwerken Vollst¨ndige Ergebnisse f¨r SlideShare und Scribd a u Volltexte f¨r Delicious und SlideShare u Keine Volltexte aus Scribd (Optionale Anforderung in der Zielvereinbarung) In Zukunft: Daten aus PDFs extrahieren? Keine vollst¨ndigen Ergebnisse f¨r Delicious a u Warum? AAN: Analysis and integration of Web 2.0 data sources 38
  • 42. Ergebnisse VI. Ergebnisse und Ausblick Beschr¨nkungen Delicious Feeds a AAN: Analysis and integration of Web 2.0 data sources 39
  • 43. Ergebnisse VI. Ergebnisse und Ausblick Delicious Analyse Fallbeispiel Job: Delicios Tag fsln10“ ” Es gibt 387 BM von 12 Akteuren, 384 BM ohne Doppel-Eintr¨ge a Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten) 630 Artefakte von 7 Akteuren wurden gecrawlt Das sind 327 BM (grep -o http://delicious.com/url/ artefact-list.xml | wc -w) Job mit rekursiven Anfragen, interner Tiefe 2 733 Artefakte von 10 Akteuren wurden gecrawlt Das sind 383 BM AAN: Analysis and integration of Web 2.0 data sources 40
  • 44. Ergebnisse VI. Ergebnisse und Ausblick Delicious Analyse Fallbeispiel Benutzer Webseite Job 1 Differenz Job 2 Differenz jul. 120 120 0 120 0 wol. 126 126 0 126 0 syw. 97 52 45 96 1 seb. 9 9 0 9 0 Den. 12 12 0 12 0 rol. 1 1 0 1 0 mey. 7 7 0 7 0 chr. 1 0 1 1 0 eva. 10 0 10 10 0 dig. 2 0 2 1 1 moi. 1 0 1 1 0 cwa. 1 0 1 0 1 Gesamt 387 327 60 383 3 oder 4 AAN: Analysis and integration of Web 2.0 data sources 41
  • 45. Ausblick VI. Ergebnisse und Ausblick Ausblick Analyse: Auswertung zu Delicious und Slideshare im Journal of Computer Science and Technology (Beitr¨ge bis 1. Oktober 2010) a Aktive Weiterentwicklung Visualisierung und Analyse im Fachgebiet DDI Projektgruppe: knowAAN Voraussichtlich im WS 2010/11 Seminar: Future Social Learning Networks im WS 2010/11 AAN: Analysis and integration of Web 2.0 data sources 42
  • 46. Fazit VI. Ergebnisse und Ausblick Pers¨nliches Fazit o Wissen in verschiedenen Bereiche erworben: Theorie (z.B. Repr¨sentation von Semantiken) a Technik (z.B. Architektur OSGi Platform & AAN Framework) Praxis (Entwurf & Entwicklung der Komponenten) Teamarbeit, Englisch-Kenntnisse Vielen Dank! AAN: Analysis and integration of Web 2.0 data sources 43
  • 47. Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010 Grundontologie AAN: Analysis and integration of Web 2.0 data sources 44