5. AGENDA
▫︎Was ist ‘Big Data’
▫︎Preis Informationen im Einzelhandel
!
▫︎Agile Analytics
▫︎Data Engineer und Data Scientist
!
▫︎AutoTrader und BigQuery
!
▫︎Social Backlash und Datensparsamkeit
5
13. THE CHALLENGE: PREISINFORMATIONSSYSTEM
!
!
▫︎ Datewarehouse auf TerraData Basis
!
▫︎ Business Requirements änderten sich - IT kam nicht mit
!
▫︎ ~50 analytische Vektoren
!
▫︎ 12 Stunden -> Realtime
13
22. NEO4J
!
▫︎“Natural fit” für Graphen basierte Queries
!
▫︎Basis Graph Algorithmen “on-board”
▫︎Shortest Path, Centrality, Pattern Matching
!
▫︎Java API mit guter Performance
▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde
22
23. 23
Data Lab Operationalisierung
2 Wochen 2 Monate
!
!
Neo4j als Datastore
Batch Import (14 Jahre) aus MSSQL
- ~95.000.000 Edges
Dropwizard (REST, HealtChecks) - read only
A/B Testing via Email
24. ROLLEN: WER MACHT WAS?
!
▫︎Ergänzung zur klassischen IT
!
▫︎Kernkompetenzen
24
data
engineer
data
scientist
25. DATA ENGINEER
!
!
▫︎Implementiert das analytische Modell in Produktion
!
▫︎Schnittstelle zur Softwareentwicklung
!
▫︎Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur
(Hadoop...)
!
▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung
25
27. “SEXIEST JOB OF THE 21ST CENTURY”
Hat Annahmen und überprüft diese
!
“Hacker-Mentalität”
!
Hilft durch fundierte Informationen
Entscheidungen zu treffen
!
Validiert das Alleinstellungsmerkmal
des Produktes
!
Weiss wie man die richtigen Fragen stellt
27
28. DATA SCIENTIST
Machine Learning
Support Vector Machines
Decision Trees
Clustering, ...
Domain-Wissen
Geschäftliches Detailwissen
Statistische Modellierung
Bayes-Klassifikation
K-Nearest-Neighbour, ...
Programmierung
R, Matlab, Python, ...
28
34. GOOGLE BIG QUERY
!
!
▫︎Queries über Milliarden von Zeilen in Sekunden
!
▫︎Gut zum analysieren, aber nicht zum modifizieren
!
▫︎Keine eigene Infrastruktur benötigt
!
▫︎Einfaches Setup durch gutes Tooling: gsutil / bq
34
35. AUTOTRADER UK / GOOGLE BIG QUERY
!
▫︎3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen)
!
▫︎Queries via BigQuery WebConsole, später API
!
▫︎Google App Engine Frontend mit Google Charts
35
40. DOE VERSUS NETFLIX
▫︎$1.000.000 Wettbewerb um das Netflix Recommendation-System zu
verbessern
!
▫︎Veröffentlichung eines pseudonymisierter Datensets
!
▫︎Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com
!
▫︎Ermöglichte Zuordnung zu bekannten Benutzerprofilen
40