3. Opowiem o
● czym jest clickstream (co?)
● potrzebach biznesowych i
technicznych (dlaczego?)
● ogólnej architekturze systemu,
technicznych aspektach (jak?)
● skąd się uczyć oraz czego warto się
uczyć ?
4. Clickstream w Allegro
● Czym jest clickstream?
● Zbierane z frontu, web i mobile
● Ponad 400 mln zdarzeń dziennie (15k / sek)
● Podstawa do wielu decyzji biznesowych
(przykład PS3 vs XBox)
5. Jak być powinno
● Dane dostępne od razu - małe opóźnienia (streaming
danych)
● Dobrze opisane, łatwo dostępne dla innych (Avro -
schematy - real time, Hive-tabelki i dostęp w SQL - offline)
● Efektywny format danych (kompresja, dyski)
● Stabilnie
● Skalowalnie
7. Technologia
● Potrzeba nr 1: szybciej!
● Kolejka + przetw. strumieniowe: po 2s
● Stabilnie i skalowalnie
● Log zdarzeń (Kafka)
● Spark Streaming (mini batche)
8. Technologia vol.2
Potrzeba nr 2: miejsce. Rozwiązanie: format Avro
● dojrzałe rozwiązanie
● schematy: struktura + dokumentacja (opcjonalne
pola, co oznacza pole, przykład wartości)
● Kompatybilność (repozytorium schematów)
● Dane nieskompresowane: Avro zajmuje 45% JSON-a