Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria

•

11 likes•6,913 views

Apache Spark es un motor de procesamiento de datos de código abierto y de alta velocidad. Proporciona procesamiento in-memory de datos a través de RDD (Resilient Distributed Datasets) que permiten operaciones paralelas tolerantes a fallas. Spark también ofrece un entorno de desarrollo interactivo y una API unificada para procesamiento por lotes e incremental sobre Hadoop u otros sistemas de almacenamiento distribuido.

Technology

Introducción Apache Spark
Gustavo Arjones
gustavo@socialmetrix.com
@arjones

Co-founder & CTO, Socialmetrix
Lic. Ciencias Computación
MBA Marketing Servicios
@arjones
gustavo@socialmetrix.com
Brasileño, en ARG desde 2008
Gustavo Arjones

Qué es Spark?
Apache Spark™ is a fast and general engine for large-scale data
processing.
•  Procesamiento In-memory (preferencialmente)
•  Framework de Procesamiento Unificado
•  Para Ingenieros & Data Scientists

Principales Pilares
Task Scheduler
•  Prepara los jobs a traves de DAG (Directed acyclic
graph)
•  Enganchan funciones para ejecutar los stages
•  Cache-aware; considera data utilización &
localización (data locality)
•  Partitioning-aware para reducir shuﬀles por la red
RDD (Resilient Distributed Datasets)
• 
Estructura de datos Immutable (In-memory)
•  Tolerante a fallas (Se reama en caso de falla)
•  Estructura de datos que puede ser operada en
paralelo
• Rica interfaz de Transformations & Actions

Viene de buen “origen”
BDAS, the Berkeley Data Analytics Stack (AMPLAB)

Compacto y poderoso
•  Escrito en Scala, con wrappers para Python y Java*

API muy expresiva
Ver: https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD

•  Aprender, prototipado rápido
•  Análisis interactivo sobre los datos
Consola interactiva

Plataforma Unificada
•  No es necesario copiar datos/ETL entre sistemas
•  Varios tipos de procesamientos en el mismo código (claridad)
•  Reutilización de código (Batch & Realtime)
•  Un único sistema para aprender
•  Un único sistema para mantener
Big Deal para
Arquitectura Lambda

Plataforma Unificada (lines of code)
0
20000
40000
60000
80000
100000
120000
140000
Hadoop
MapReduce
Storm
(Streaming)
Impala (SQL) Giraph
(Graph)
Spark
non-test, non-example source lines
GraphX
Streaming
SparkSQL

Código Testeable!
•  El contexto puede crear RDD

Proyecto muy activo (y ganando tracción)

Proyecto MUY activo (y ganando tracción)
*as of June 1, 2014
0

50

100

150

200

250

Patches

MapReduce
Storm

Yarn
Spark

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

Lines
Added

MapReduce
Storm

Yarn
Spark

0

2000

4000

6000

8000

10000

12000

14000

16000

Lines
Removed

MapReduce
Storm

Yarn
Spark

Y más …
•  Esfuerzo para estandarización de la plataforma
•  Certificación para Distros & Apps gratis
•  Material de training gratis
•  Databricks levantó $47M
•  Databricks Cloud???

Modelo Map-Reduce
iter. 1 iter. 2 . . .
Input
HDFS
read
HDFS
write
HDFS
read
HDFS
write
Input
query 1
query 2
query 3
result 1
result 2
result 3
. . .
HDFS
read
Lento porque necesita replicación, serialización y I/O

iter. 1 iter. 2 . . .
Input
Distributed
memory
Input
query 1
query 2
query 3
. . .
one-time
processing
10-100× más rápido
Spark (in-memory + DAG execution engine)

Spark y Hadoop pueden ser amigos
•  YARN / Mesos
•  Acceso HDFS / S3
•  Usando Input/Output formats
de Hadoop

Mucha documentación disponible
https://spark.apache.org/documentation.html
http://spark-summit.org/2014/training
http://shop.oreilly.com/product/
0636920028512.do
http://arjon.es/tag/spark/

Gracias & Obrigado!
Gustavo Arjones
gustavo@socialmetrix.com
@arjones

What's hot

Hadoop technologytipanagiriharika

Flink vs. SparkSlim Baltagi

Real-Life Use Cases & Architectures for Event Streaming with Apache KafkaKai Wähner

Apache Kafka in the Transportation and LogisticsKai Wähner

Cassandra Introduction & FeaturesDataStax Academy

Intro to Apache SparkRobert Sanders

Real-time Data Streaming from Oracle to Apache Kafka confluent

Apache Kafka IntroductionAmita Mirajkar

Introduction to Apache KafkaAIMDek Technologies

Improving fault tolerance and scaling out in Kafka Streams with Bill Bejeck |...HostedbyConfluent

IBM Cloud Pak for Integration with Confluent Platform powered by Apache KafkaKai Wähner

Using Redis Streams To Build Event Driven Microservices And User Interface In...Redis Labs

When NOT to use Apache Kafka?Kai Wähner

Developing Real-Time Data Pipelines with Apache KafkaJoe Stein

Apache Kafka for Real-time Supply Chainin the Food and Retail IndustryKai Wähner

Advanced Streaming Analytics with Apache Flink and Apache Kafka, Stephan Ewenconfluent

Can Apache Kafka Replace a Database?Kai Wähner

Lambda architecture for real time big dataTrieu Nguyen

Building Event-Driven Services with Apache Kafkaconfluent

What to do if Your Kafka Streams App Gets OOMKilled? with Andrey SerebryanskiyHostedbyConfluent

What's hot (20)

Hadoop technology

Flink vs. Spark

Real-Life Use Cases & Architectures for Event Streaming with Apache Kafka

Apache Kafka in the Transportation and Logistics

Cassandra Introduction & Features

Intro to Apache Spark

Real-time Data Streaming from Oracle to Apache Kafka

Apache Kafka Introduction

Introduction to Apache Kafka

Improving fault tolerance and scaling out in Kafka Streams with Bill Bejeck |...

IBM Cloud Pak for Integration with Confluent Platform powered by Apache Kafka

Using Redis Streams To Build Event Driven Microservices And User Interface In...

When NOT to use Apache Kafka?

Developing Real-Time Data Pipelines with Apache Kafka

Apache Kafka for Real-time Supply Chainin the Food and Retail Industry

Advanced Streaming Analytics with Apache Flink and Apache Kafka, Stephan Ewen

Can Apache Kafka Replace a Database?

Lambda architecture for real time big data

Building Event-Driven Services with Apache Kafka

What to do if Your Kafka Streams App Gets OOMKilled? with Andrey Serebryanskiy

Viewers also liked

Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix

Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix

¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix

Spark Hands-onGaspar Muñoz Soria

Adios hadoop, Hola Spark! T3chfest 2015dhiguero

Primeros pasos con Apache Spark - Madrid Meetupdhiguero

Manual SparkCristhian Cuba Bendezú

Meetup Real Time Aggregations Spark Streaming + Spark SqlJosé Carlos García Serrano

Revelando los secretos de twitter, Festival de Software Libre 2014Abel Alejandro Coronado Iruegas

RHive tutorial - HDFS functionsAiden Seonghak Hong

7 Disparadores de Engagement para o mercado de consumo massivoSocialmetrix

RHive tutorials - Basic functionsAiden Seonghak Hong

R hive tutorial - udf, udaf, udtf functionsAiden Seonghak Hong

RHive tutorial - InstallationAiden Seonghak Hong

Cloud or not to Cloud? That’s the question Businesses need an answer for!Diego López-de-Ipiña González-de-Artaza

Guia practica de_gestion_de_riesgosMM CO

Arquitectura LambdaIsrael Gaytan

24 HOP edición Español - Machine learning - Cesar OviedoSpanishPASSVC

Big data big opportunitiesAbel Alejandro Coronado Iruegas

Technological pillars to enable Smarter (Collaborative + Inclusive) Environme...Diego López-de-Ipiña González-de-Artaza

Viewers also liked (20)

Tutorial en Apache Spark - Clasificando tweets en realtime

Introducción a Apache Spark a través de un caso de uso cotidiano

¿Por que cambiar de Apache Hadoop a Apache Spark?

Spark Hands-on

Adios hadoop, Hola Spark! T3chfest 2015

Primeros pasos con Apache Spark - Madrid Meetup

Manual Spark

Meetup Real Time Aggregations Spark Streaming + Spark Sql

Revelando los secretos de twitter, Festival de Software Libre 2014

RHive tutorial - HDFS functions

7 Disparadores de Engagement para o mercado de consumo massivo

RHive tutorials - Basic functions

R hive tutorial - udf, udaf, udtf functions

RHive tutorial - Installation

Cloud or not to Cloud? That’s the question Businesses need an answer for!

Guia practica de_gestion_de_riesgos

Arquitectura Lambda

24 HOP edición Español - Machine learning - Cesar Oviedo

Big data big opportunities

Technological pillars to enable Smarter (Collaborative + Inclusive) Environme...

Similar to Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria

Introducción a Apache SparkSocialmetrix

Spark meetup barcelonaJorge Lopez-Malla

M04 09 20_v05_plataformas_bdrussellmrr

Herramientas BigData.pptxMauricio Bedoya

Analitica y toma de decisiones en tiempo real sobre plataformas big dataJosé Carlos García Serrano

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre

Congreso Academy Journal Celaya 2017Fernando Alfonso Casas De la Torre

Lado oscuro de big data y el ingeniero del siglo xxiJosé Carlos García Serrano

Why Apache Flink is better than Spark by Rubén CasadoBig Data Spain

Herramientas de visualización de datosBBVA API Market

Tecnicas Big Data: Meetup CassandraStratebi

Open platform - Conferencia Esri 2016Esri España

2016 ULL Cabildo KEEDIO - KEEDIO DATA STACKKEEDIO

PolybaseSolidQ

Scala @ Real lifeJavier Santos Paniego

Meetup Junio Apache Spark FundamentalsDataLab Community

Azure Data LakeRaul Martin Sarachaga Diaz

Azure data lakeIvan Martinez

Scala@real lifeDavid Vallejo Navarro

Big Data en Azure: Azure Data LakeGuillermo Javier Bellmann

Similar to Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria (20)

Introducción a Apache Spark

Spark meetup barcelona

M04 09 20_v05_plataformas_bd

Herramientas BigData.pptx

Analitica y toma de decisiones en tiempo real sobre plataformas big data

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?

Congreso Academy Journal Celaya 2017

Lado oscuro de big data y el ingeniero del siglo xxi

Why Apache Flink is better than Spark by Rubén Casado

Herramientas de visualización de datos

Tecnicas Big Data: Meetup Cassandra

Open platform - Conferencia Esri 2016

2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK

Polybase

Scala @ Real life

Meetup Junio Apache Spark Fundamentals

Azure Data Lake

Azure data lake

Scala@real life

Big Data en Azure: Azure Data Lake

Recently uploaded

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2

Proyecto integrador. Las TIC en la sociedad S4.pptx241521559

Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48

ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1

KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD

La era de la educación digital y sus desafiosFundación YOD YOD

CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega

guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM

Plan de aula informatica segundo periodo.docxpabonheidy28

Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11

Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez

Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9

Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology

Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg

El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770

International Women's Day Sucre 2024 (IWD)GDGSucre

trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill

SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho

Recently uploaded (20)

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...

Proyecto integrador. Las TIC en la sociedad S4.pptx

Presentación inteligencia artificial en la actualidad

ejercicios pseint para aprogramacion sof

KELA Presentacion Costa Rica 2024 - evento Protégeles

La era de la educación digital y sus desafios

CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA

guía de registro de slideshare por Brayan Joseph

Plan de aula informatica segundo periodo.docx

Hernandez_Hernandez_Practica web de la sesion 12.pptx

Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric

Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...

Redes direccionamiento y subredes ipv4 2024 .pdf

Cortes-24-de-abril-Tungurahua-3 año 2024

El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf

International Women's Day Sucre 2024 (IWD)

trabajotecologiaisabella-240424003133-8f126965.pdf

SalmorejoTech 2024 - Spring Boot <3 Testcontainers

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx

Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria

1. Introducción Apache Spark Gustavo Arjones gustavo@socialmetrix.com @arjones

2. Co-founder & CTO, Socialmetrix Lic. Ciencias Computación MBA Marketing Servicios @arjones gustavo@socialmetrix.com Brasileño, en ARG desde 2008 Gustavo Arjones

3. Qué es Apache Spark?

4. Qué es Spark? Apache Spark™ is a fast and general engine for large-scale data processing. •  Procesamiento In-memory (preferencialmente) •  Framework de Procesamiento Unificado •  Para Ingenieros & Data Scientists

5. Principales Pilares Task Scheduler •  Prepara los jobs a traves de DAG (Directed acyclic graph) •  Enganchan funciones para ejecutar los stages •  Cache-aware; considera data utilización & localización (data locality) •  Partitioning-aware para reducir shuﬀles por la red RDD (Resilient Distributed Datasets) •  Estructura de datos Immutable (In-memory) •  Tolerante a fallas (Se reama en caso de falla) •  Estructura de datos que puede ser operada en paralelo • Rica interfaz de Transformations & Actions

6. Porqué me gusta?

7. Viene de buen “origen” BDAS, the Berkeley Data Analytics Stack (AMPLAB)

8. Compacto y poderoso •  Escrito en Scala, con wrappers para Python y Java*

9. API muy expresiva Ver: https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD

10. •  Aprender, prototipado rápido •  Análisis interactivo sobre los datos Consola interactiva

11. Plataforma Unificada

12. Plataforma Unificada •  No es necesario copiar datos/ETL entre sistemas •  Varios tipos de procesamientos en el mismo código (claridad) •  Reutilización de código (Batch & Realtime) •  Un único sistema para aprender •  Un único sistema para mantener Big Deal para Arquitectura Lambda

13. Plataforma Unificada (lines of code) 0 20000 40000 60000 80000 100000 120000 140000 Hadoop MapReduce Storm (Streaming) Impala (SQL) Giraph (Graph) Spark non-test, non-example source lines GraphX Streaming SparkSQL

14. Spark UI

15. Código Testeable! •  El contexto puede crear RDD

16. Proyecto muy activo (y ganando tracción)

17. Proyecto MUY activo (y ganando tracción) *as of June 1, 2014 0 50 100 150 200 250 Patches MapReduce Storm Yarn Spark 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 Lines Added MapReduce Storm Yarn Spark 0 2000 4000 6000 8000 10000 12000 14000 16000 Lines Removed MapReduce Storm Yarn Spark

18. Y más … •  Esfuerzo para estandarización de la plataforma •  Certificación para Distros & Apps gratis •  Material de training gratis •  Databricks levantó $47M •  Databricks Cloud???

19. Y Hadoop?

20. Modelo Map-Reduce iter. 1 iter. 2 . . . Input HDFS read HDFS write HDFS read HDFS write Input query 1 query 2 query 3 result 1 result 2 result 3 . . . HDFS read Lento porque necesita replicación, serialización y I/O

21. iter. 1 iter. 2 . . . Input Distributed memory Input query 1 query 2 query 3 . . . one-time processing 10-100× más rápido Spark (in-memory + DAG execution engine)

22. Spark y Hadoop pueden ser amigos •  YARN / Mesos •  Acceso HDFS / S3 •  Usando Input/Output formats de Hadoop

23. DEMO http://bit.ly/NardozSparkDemo

24. Donde aprender más?

25. Mucha documentación disponible https://spark.apache.org/documentation.html http://spark-summit.org/2014/training http://shop.oreilly.com/product/ 0636920028512.do http://arjon.es/tag/spark/

26. Gracias & Obrigado! Gustavo Arjones gustavo@socialmetrix.com @arjones

Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria

Similar to Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria (20)

Recently uploaded

Recently uploaded (20)

Introducción a Apache Spark - Framework de procesamiento de datos distribuido y en memoria