German only!
Meine Folien des Einführungsvortrags für Nicht-Informatiker bei der BDK-Fachtagung "Auswertung von Massendaten" zum Thema semantische Suche an der Polizei Fachhochschule Brandenburg. Inhalte: 1) Probleme heutiger Suchtechnologien, 2) Überblick zu semantischen Technologien, 3) Verbesserung des Information Retrieval durch Semantik
https://www.bdk.de/der-bdk/aktuelles/bdk-fachtagung-auswertung-von-massendaten
11. Daten, Daten, Daten, …
… und der Mensch?
11
Key et al: VizDeck: self-organizing dashboards for visual analytics. Procs. of the 2012 ACM SIGMOD International Conference on Management of Data, ACM, 2012.
13. Klassisches Information Retrieval
Ziel: Erzeugung einer gewichteten Ergebnisliste unter Verwendung versch. Algorithmen (TFIDF, PageRank, …)
ggf. Nutzung von
Personalisierung
Facettierung
multimediale Ergebnisse
13
http://www.photocase.de/foto/187761
14. Klassisches Information Retrieval
Funktionsweise von IR
14
Suchanfrage Dokumente
Index
Suchterme Schlüsselwörter
Ergebnisse http://www.photocase.de/foto/140872
http://www.photocase.de/foto/109526
15. Klassisches Information Retrieval
15
Dominik Kuropka: ModellezurRepräsentationnatürlichsprachlicherDokumente. Ontologie-basiertesInformation-Filtering und –Retrieval mitrelationalenDatenbanken. In Advances in Information Systems and Management Science, Bd.10, 2004, 3-8325-0514-8
16. Suchmaschinen im Web
3 wesentliche Aufgaben
Crawlen
Verarbeiten der Suchanfrage (IR + Rangfolge)
Darstellung der Ergebnisse
16
http://www.photocase.de/stock-fotos/118186
http://www.photocase.de/stock-fotos/184687
24. Zusammenfassung
Grundproblem: 4 „V“ der Daten
Information Retrievaletabliert
Maschinelles Lernen hunderter von Dimensionen über ca. 45 Mrd. Dokumente (http://www.worldwidewebsize.com/)
große Investitionen in Rechenkraft
Bleibende Herausforderungen beziehen sich insbesondere auf die Modellierung menschlicher Wahrnehmung
24
26. Das Verständnisproblem
26
<html>
…
<b>Dr. Mark Smith</b>
<i>Physician</i>
Main St. 14
Smalltown
Mon-Fri9-11 am
Wed3-6 pm
…
</html>
Dr. Mark Smith
Physician
Main St. 14
Smalltown
Mon-Fri9-11 am
Wed3-6 pm
Print in bold: „hmf298hmhudsa“
Print in italics: „mj2i9ji0“
Print normal: „fdsah
02hfadsh0um2m0adsmf0ihm2mjpoimjiofdpmsajiomjm“
http://www.photocase.de/stock-fotos/279931
27. Das Verständnisproblem
Volltextsuche mit klassischem IR
„Mark Smith“
„Physician in Smalltown“
„Doctor in Smalltown“
„Physician in Smalltownwith opening hours on Wednesday afternoon“
Informationen nicht„maschinenverstehbar“
27
<html>
…
<b>Dr. Mark Smith</b>
<i>Physician</i>
Main St. 14
Smalltown
Mon-Fri9-11 am
Wed3-6 pm
…
</html>
28. Lösungsansatz: Semantic Web
VieleNamen…
Semantic Web
Web of Data
Data Web
Web 3.0
Linked Data
Linked Data Web
Linked Open Data
Semantic Data
…
28
http://geekandpoke.typepad.com/geekandpoke/
29. Lösungsansatz: Semantic Web
Zweiwesentliche Sichten
1) Explizite Links zwischen Datenim WWW Semantic Web als „Web der Daten“
2) Familie standardisierter Technologien, die gut zusammenspielen, u.a. flexibles Datenmodel (RDF), Ontologiesprachen(RDFS, OWL), Anfragesprache (SPARQL), …
Fazit: neue Lösungen/Anwendungen, die vorher nicht möglichen oder praktikabel waren (http://www.thefigtrees.net/lee/blog/2011/08/why_semantic_web_technologies)
29
30. Grundlagen / Prinzipien
HTTP URIs als Bezeichner für „Dinge“, so dass man nachschauen kann Ressourcen
http://www.bbc.co.uk/nature/life/Gray_Wolf
30
31. Grundlagen / Prinzipien
Verknüpfe Ressourcen untereinander Triple Schaffung von Kontext
31
http://www.bbc.co.uk/nature/life/Gray_Wolf
http://www.bbc.co.uk/nature/life/Mammal
http://www.bbc.co.uk/nature/habitats/ Temperate_broadleaf_and_mixed_forests
is a
lives in
34. LOD Knowledge Graphs
LOD in Zahlen(2014)
http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/
1014 Datensätze in RDF
aber nur ca. 8%mit Lizenz!
DBpediaals „Herz“ (http://blog.dbpedia.org/category/dataset-releases/)
4,58 Mio„Dinge“ und ca. 3 Mrd. Triple
LOD als Basis für Wissensgraphen
„Knowledge Graph“ (Google, Yahoo), Satori(Bing)
34
http://lod-cloud.net/
36. SemantischeSuche
„Semantic search over documents is about finding information that is not based just on the presence of words, but also on their meaning“ (http://link.springer.com/chapter/10.1007%2F978-3-642-54798-0_2)
Kombination von Text mit „Wissensstrukturen“
Entität-zentrierte Suche
Kombination verschiedener Techniken
Information Retrieval(IR)
Natural Language Processing (NLP)
Semantic Web (SW)
36
37. Suchprozess im Überblick
37
Query
Construction
Query
Processing
Result
Presentation
Query
Refinement
Keywords
Keywords ++
Natural Language
Formal Query Languages
IR-based Matching &
Ranking
KB-based Matching &
Iinferencing
Query Visualization
Document & Data
Presentation
Summarization
Implicit Feedback
Explicit Feedback
Incentives
Semantic Models
Real World
Resources
38. Basis: Entity Linking
Wechselseitige Verknüpfung von „Ressourcen“ mit ihrer semantischer Repräsentation
NamedEntity Recognition(NER)
Entweder basierend auf Regeln, Statistikenoder Wörterbüchern(oder Kombination)
NamedEntity Disambiguation(NED)
Nutzung des Kontextes im Vektorraum und/oder im Wissensgraphen Relatedness
38
39. Basis: Entity Linking
auch in Metadaten von Multimedia
39
Folieaushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search
40. Suchprozess im Überblick
40
Query
Construction
Query
Processing
Result
Presentation
Query
Refinement
Keywords
Keywords ++
Natural Language
Formal Query Languages
IR-based Matching &
Ranking
KB-based Matching &
Iinferencing
Query Visualization
Document & Data
Presentation
Summarization
Implicit Feedback
Explicit Feedback
Incentives
Semantic Models
Real World
Resources
41. Anfragen & Semantik
Stichwortsuche (Keywords)
Paradigma der „Single Search Box“
vom Stil eher telegraphisch, z.B. keine Grammatik
wie aus der Einleitung
Erweiterte Stichwortsuche (Keywords ++)
Stichwort mit Kontext
Bsp.:
typisierte Formularfelder
Facettierte Suche
Ortsauswahl in Karte
41
http://www.ebay.de
46. Anfragen & Semantik
NatürlichsprachigeAnfragen, z.B.
Apple‘sSiri(http://searchengineland.com)
47
47. Suchprozess im Überblick
48
Query
Construction
Query
Processing
Result
Presentation
Query
Refinement
Keywords
Keywords ++
Natural Language
Formal Query Languages
IR-based Matching &
Ranking
KB-based Matching &
Iinferencing
Query Visualization
Document & Data
Presentation
Summarization
Implicit Feedback
Explicit Feedback
Incentives
Semantic Models
Real World
Resources
48. Verarbeitung & Semantik
Entitätensind wichtig für Anfragen:
ca. 70%mit NamedEntitys (NE) (entitymentionqueries), z. B. “bradpittKatie holmes”
ca. 50%mit Fokus auf eine NE (entityseekingqueries), z. B. “bradpittattackedbyfans”
ca. 10%suchen nach Klassen von NEs, z. B. “bradpittmovies”
49
•Jeffrey Pound, Peter Mika, Hugo Zaragoza: Ad-hoc object retrieval in the web of data. WWW 2010: 771-780
•Thomas Lin, Patrick Pantel, Michael Gamon, AnithaKannan, Ariel Fuxman: Active objects: actions for entity-centric search. WWW 2012: 589-598
49. Verarbeitung & Semantik
Ziel: Entity Linking der Query Abgleich mit Entitäten in den Dokumenten
Gutes Tutorial: http://ejmeij.github.io/entity-linking- and-retrieval-tutorial/
Vorgehen
1) „Linkbare“ Phrasen identifizieren
50
„Golfvergleichen Deutschland“
69. Offene F&E-Fragen
Automatische Zusammenfassung von
Ergebnissen zu „Stories“ „Robot Journalism“
70
Merge
Analyse
Linked Data Set
Features
Phrase Selection Phrase
Template
Inclusion
First Text
NL Generation &
Cleaning
Text
http://www.slate.com/blogs/future_tense/2014/03/17/
quakebot_los_angeles_times_robot_journalist_writes_article_on_la_earthquake.html
71. Was nehme ich mit?
Information Retrievaletabliert
Verbesserung der Suche nur durch Modellierung menschlicher Wahrnehmung
Nutzung semantischer Technologien und Wissenbasenvielversprechend
Trend zur „natürlichen Kommunikation“ mit Maschine
72
72. Was nehme ich mit?
“When we started Google 15 years ago my vision was that information would come to you as you need it. You wouldn’t have to search query at all.”
Sergey Brin, Google
73
http://blog.ted.com/2013/02/27/sergey-brin-with-google-glass-at-ted2013/