Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bdk fachforum (gpec) big data und intelligente datenanalyse

Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.

  • Login to see the comments

Bdk fachforum (gpec) big data und intelligente datenanalyse

  1. 1. Na0onal Research University Higher School of Economics Big Data und intelligente Datenanalyse Impulsvortrag BDK-Fachforum 09.09.2014 09 September 2014 “ Pak Poisk” Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG Täglich werden 2.5 Trillionen Bytes an Daten produziert
  2. 2. Daten und Analyse 2 Structured data sources like CSV, XLS, RDBMS Unstructured text document sources like HTML Smart Data Integration based on Linked Data Data storages RDBMS BI, Reporting, Analisys TextMining RDF Store
  3. 3. 3 Herausforderungen (Semi-) Strukturierte und unstrukturierte Daten Datenanalyse Web, Deep Web (External) Herausforderungen (Auszug) • Data Crawling (web, deep web…) • Aggregation • Daten verstehen, extrahieren • Daten integrieren • Daten speichern (flexibel) • Daten auswerten, analysieren Semantic Knowledge Base
  4. 4. Wissen aus Text generieren 4 Läsungsansätze – NLP/HLT 1. Manuelles Annotieren Mittels Vokabular (Taxonomie/Ontologie) 2. Extraktion mittels Hintergrundwissen Dictionary, LOD, etc Bsp.: DBpedia Spotlight 3. Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA 4. Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos 5. Kombination 1-4
  5. 5. Triplifizierung, No-­‐SQL / RDF Store No-SQL / RDF Vorteile • Flexibilität (Schema less) • Standard -> RDF / SPARQL • Semantische Suche • Triplifizierung RDBMS nach RDF Nachteil(e) • Performance (Noch) • (Noch) Keine Out-of-the-box BI 5 Tools RDF Store
  6. 6. Datenintegra0on / Linking and Fusion Entity “A” Entity “B” 6 Properties of A Properties of B
  7. 7. Das Gleiche ? Ein Beispiel… 7 Fuzzy string comparison methods Scores: Best Match „0.89“ vs Worst Match „0.138“ VSM – TFIDF = 0.92 Vector Space Model
  8. 8. Praxisbeispiel “Special Troops, Russland” PAK POISK
  9. 9. 9 Pak Poisk -­‐ Portal
  10. 10. 10 Pak Poisk -­‐ Visualisierungen
  11. 11. Pak Poisk -­‐ Timeline Analyse 11
  12. 12. 12 Ausblick -­‐ LiDaKrA
  13. 13. Danke 13
  14. 14. Daniel Hladky Research Interest Linked (Open) Data for Government & Enterprises NLP, Seman0c Web, Business Impact of Linked Data Linked Data and Value Chain Ac3vi3es Ontos: Forschung EU FP7 – GeoKnow, Forschung KTI-­‐DoW (SAKE, LiDaKrA) NRU/HSE: LOD Russia, RIA Novos0, LOD for City of Moscow KESW 2012 (Lecture Linked Enterprise Data), KESW’13 (Co-­‐Chair) PC member at ISWC/WoLE (2012, 2013), MLW Rome (2013) W3C Russia office hosted by NRU HSE NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: dhladky@hse.ru E: dhladky@w3c.org.ru E: daniel.hladky@ontos.com http://www.hse.ru/org/hse/iit/semant/ 14

×