Fast data platforms - Hadoop User Group (Italy)

Fast Data Platforms
@HUG_Italy Meetup (17/4/2015)
@andrea_gioia

Un po’ di storia
VoltDB e i Fast Data
Utilizzo di VoltDB in una Enterprise
Data Platform

…MA I VOLUMI CRESCONO VELOCEMENTE

PROBLEMA: SCALABILITA’ SOLO VERTICALE

SOLUZIONE: CODE + SHARDING
Partition-1 Partition-2 Partition-3 Partition-4 Partition-5 Partition-6

Problemi
PROBLEMI
1. Gestione dei
fault
2. Gestione
applicativa
del cluster
3. Ricalcolo
massivo

FASE 3: HADOOP 1.0
Componenti
1. Dati distribuiti (HDFS)
2. Computazione distribuita (Map-Reduce)
Vantaggi
1. Maschera la complessità della gestione
del cluster
2. Minimizza gli spostamenti dei dati
3. Scala orizzontalmente su commodity
hardware

FASE 3: DATA LAKE
Caratteristiche
1. Tutti i dati al massimo livello di
dettaglio (Volume)
2. Dati strutturati e non (Varietà)
3. Dati aggiunti appena disponibili
(Velocità)
4. Dati processabili in modalità
distribuita (Valore)

PROBLEMA: BIG MA NON FAST
COLLECT EXPLORE
ANALYZEACT
RISULTATI
1. Scoperta
2. Interrogazione
3. Ottimizzazione

PROBLEMA: VELOCE MA NON ABBASTANZA

…PERCHE’ I DATI CRESCONO IN VOLUME E IN VELOCITA’

FASE 5: LAMBDA ARCHITECTURE
Marged View
(QUERY)

LAMBDA ARCHITECTURE: PAIN POINTS
Problematiche
1. Duplicazione della logica di calcolo
2. Integrazione viste effettuata a livello
applicativo
3. Molte componenti software da
gestire
4. Molte componenti hardware
esposte a possibili fault
5. Velocità del fast layer limitata dal
sistema di storage dello stato
utilizzato

VoltDB è un database…
1. In memory
2. Partitioned
3. Single-threaded
4. Distributed
5. ACID compliant
COS’E’?

A tutte quelle applicazioni che
hanno bisogno di processare
grosse quantità di dati in
modo affidabile e veloce (fast
data)
Requisiti chiave per queste
applicazioni sono…
1. Altissimo throughput
2. Scalabilità
3. Affidabilità
4. High Availability
A CHI SERVE

A CHI NON SERVE
A tutte quelle applicazioni che
hanno bisogno di immagazzinare e
confrontare grosse quantità di dati
storici suddivisi su più tabelle (dwh
e bi)

Garantita per mezzo di …
1. Replica delle partizioni
(K-SAFETY)
HIGH AVAILABILITY

DURABILITY
Garantita per mezzo di …
1. Snapshots periodici
2. Command logging (sincrono o
asincrono)
3. Replication (business continuity)

BIBLIOGRAFIA
1. How to beat the CAP (Nathan Marz)
2. Questioning the Lambda Architecture (Jay Kreps)
3. The Log: What every software engineer should know about real-
time data's unifying abstraction (Jay Kreps)
4. Polyglot Persistence (Martin Fowler)
5. Fast Data and the New Enterprise Data Architecture (Scott Jarr)
6. Simplifying the (complex) Lambda architecture (John Piekos)

@andrea_gioia
andrea.gioia@quantyca.it
@quantycabi
www.quantyca.it

Fast data platforms - Hadoop User Group (Italy)

Recommended

Recommended

More Related Content

Similar to Fast data platforms - Hadoop User Group (Italy)

Similar to Fast data platforms - Hadoop User Group (Italy) (20)

More from Andrea Gioia

More from Andrea Gioia (11)

Fast data platforms - Hadoop User Group (Italy)