OpenAnalytics Madrid 2014: Spark

•Descargar como PPTX, PDF•

3 recomendaciones•1,382 vistas

Francisco Javier Pulido Piñero

Spark - una alternativa eficiente a Hadoop

Ingeniería

Lightning-fast cluster computing
@javituiter
www.franciscojavierpulido.com www.exploradata.com

Sobre mí
Graduado en
Ingeniera del
Software

Sobre mí
Graduado en
Ingeniera del
Software
Master en
Sistemas en
Ingeniería de
la Información

Sobre mí
Graduado en
Ingeniera del
Software
Especialista
en
Tecnologías
Big Data
Master en
Sistemas en
Ingeniería de
la Información

Sobre mí
Graduado en
Ingeniera del
Software
Master en
Sistemas en
Ingeniería de
la Información
Especialista
en
Tecnologías
Big Data
Bloguero
&
Tuitero
@javituiter
www.franciscojavierpulido.com

Sobre mí
Miembro del equipo
www.ExploraData.com

Segundo Problema: MapReduce
<k1, v1> -> map -> <k2, v2>
<k2, v2> -> combine -> <k2, v2>
<k2, v2> -> reduce -> <k3, v3>

Tercer Problema: Cálculos iterativos
MAP
COMBINE
REDUCE

Spark
· Es un motor para el procesamiento en memoria de grandes
volúmenes de datos.
· Se facilita el paradigma MapReduce (reduciendo costes y
tiempos de ejecución) a gracias a los RDDs.
· Tiene API´s para Scala, Java & Python.

La “magia”:
Resilient Distributed Datasets

¿Qué es un RDD?
· Colecciones lógicas, inmutables y particionadas de los
registros a lo largo del clúster.
Datos
Paper RDD 2011. Matei Zaharia…

Beneficios
· La consistencia se vuelve más sencilla gracias a la
inmutabilidad.
· Tolerante a fallos: a través del “Lineage” los RDDs se pueden
reconstruir si alguna partición se pierde.
· A pesar de que Batch Processing es un modelo restringido a una
serie de casos de uso por defecto, gracias a los RDDs se puede
utilizar en multitud de aplicaciones.
· Es bueno para algoritmos iterativos.
· Más rápido que Hadoop.

Operaciones sobre RDDs
Transformations Actions
Map
Filter
Sample
Union
groupByKey
reduceByKey
Join
Cache
…
Reduce
Collect
Count
Save
lookupKey
…

Análisis Interactivo de los Datos
· Exploración de datos mediante una Shell interactiva en Scala.

Además…
· Spark es agnóstico.
· Si las operaciones no caben en memoria, pagina a disco.
· Aplicaciones aisladas: cada aplicación tiene su propio
Executor.

Ejemplo 1: Paralelizar una colección
Creamos la
colleción

Ejemplo 1: Paralelizar una colección
Action

Ejemplo 2: Utilizar Datasets
Cargar archivo en
variable

Ejemplo 3: Utilizar Datasets de HDFS
Cargar archivo de
HDFS en variable

Ejemplo 3: Utilizar Datasets de HDFS
Action

Ejemplo 4: MapReduce Wordcount
Leemos de HDFS

Ejemplo 4: MapReduce Wordcount
“MapReducimos”
el texto

Ejemplo 4: MapReduce Wordcount
Guardamos en
HDFS

Lanzar una Query
https://amplab.cs.berkeley.edu/benchma
rk/

Agrupaciones
https://amplab.cs.berkeley.edu/benchma
rk/

Join
https://amplab.cs.berkeley.edu/benchma
rk/

Lanzar una Query desde un Script
https://amplab.cs.berkeley.edu/benchma
rk/

Migrando de Hadoop a Spark
https://blogs.apache.org/foundation/entry
/…

Ya lo tienen en producción
https://blogs.apache.org/foundation/entry
/…

Conclusiones
· Spark está ahí fuera.
· Extremadamente sencillo de instalar para jugar con el >>
Para pasar a producción hacen falta especialistas.
· Spark es más rápido para ciertos casos de uso.
· Si utilizas Hadoop, prueba Spark.
· Es sencillo mezclar Batch Processing con Real Time.
· Se puede utilizar Scala, Java & Python.

Gracias
@javituiter
www.franciscojavierpulido.com www.exploradata.com

Más contenido relacionado

La actualidad más candente

Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix

HadoopTomás Fernández Pena

Introducción a HadoopTomás Fernández Pena

Introduccion a Apache SparkGustavo Arjones

BigData y MapReduceTomás Fernández Pena

Introducción a hadoopCarlos Meseguer Gimenez

Big Data a traves de una implementaciónDiego Krauthamer

¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix

Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix

Meetup Real Time Aggregations Spark Streaming + Spark SqlJosé Carlos García Serrano

Big data con Hadoop y SSIS 2016Ángel Rayo

Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom

Introducción a Apache SparkSocialmetrix

Spark meetup barcelonaJorge Lopez-Malla

Hadoop en accioncampus party

Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

PresentacionDavid Albela Pérez

HadoopCamilo Andrés Berrios Terreros

Cloud Computing y MapReduceJose Emilio Labra Gayo

La actualidad más candente (20)

Introducción a Apache Spark a través de un caso de uso cotidiano

Hadoop

Introducción a Hadoop

Introduccion a Apache Spark

BigData y MapReduce

Introducción a hadoop

Big Data a traves de una implementación

¿Por que cambiar de Apache Hadoop a Apache Spark?

Tutorial en Apache Spark - Clasificando tweets en realtime

Meetup Real Time Aggregations Spark Streaming + Spark Sql

Big data con Hadoop y SSIS 2016

Estudio sobre Spark, Storm, Kafka y Hive

Introducción a Apache Spark

Spark meetup barcelona

Hadoop en accion

Monta una Infraestructura para Big Data en tu Empresa

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...

Presentacion

Hadoop

Cloud Computing y MapReduce

Similar a OpenAnalytics Madrid 2014: Spark

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre

Congreso Academy Journal Celaya 2017Fernando Alfonso Casas De la Torre

Cursos Big Data Open SourceStratebi

G te c sesion3b- mapreduceVictoria López

Herramientas de visualización de datosBBVA API Market

Big Data perspectiva DevOpsEnrique Carbonell

Desmitificando el Big DataStratebi

Arquitectura LambdaIsrael Gaytan

Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias

BigDataCristhian Herrera

Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru

69 claves para conocer Big DataStratebi

Meetup Junio Apache Spark FundamentalsDataLab Community

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Optimización de aplicaciones web con base de datos NoSQL In-MemoryGonzalo Chacaltana

Workshop Técnicas Replicacion ILorenzo Jose Mota Garcia

Hadoop, Cloud y Spring Miguel Pastor

Computación Grid (PRP)vanesav

Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro

Apache Spark y Big DataSoftware Guru

Similar a OpenAnalytics Madrid 2014: Spark (20)

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?

Congreso Academy Journal Celaya 2017

Cursos Big Data Open Source

G te c sesion3b- mapreduce

Herramientas de visualización de datos

Big Data perspectiva DevOps

Desmitificando el Big Data

Arquitectura Lambda

Cluster Multinodo en Apache Hadoop - Arquitectura Lambda

BigData

Taller: Limpieza y preparación de datos con Optimus y Apache Spark

69 claves para conocer Big Data

Meetup Junio Apache Spark Fundamentals

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...

Optimización de aplicaciones web con base de datos NoSQL In-Memory

Workshop Técnicas Replicacion I

Hadoop, Cloud y Spring

Computación Grid (PRP)

Que debe saber un DBA de SQL Server sobre Hadoop

Apache Spark y Big Data

Último

Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5

ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58

CLASE 2 MUROS CARAVISTA EN CONCRETO Y UNIDAD DE ALBAÑILERIAMayraOchoa35

Normas para los aceros basados en ASTM y AISIfimumsnhoficial

2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia

VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfHerbert ELmer Vasquez MOntenegro

TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASfranzEmersonMAMANIOC

Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi

Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...SuannNeyraChongShing

183045401-Terminal-Terrestre-de-Trujillo.pdfEdwinAlexanderSnchez2

Unidad 3 Administracion de inventarios.pptxEverardoRuiz8

Curso intensivo de soldadura electrónica en pdfFernandaGarca788912

Manual_Identificación_Geoformas_140627.pdfedsonzav8

Presentación Proyecto Trabajo Creativa Profesional Azul.pdfMirthaFernandez12

estadisticasII Metodo-de-la-gran-M.pdfFlorenciopeaortiz

IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAJAMESDIAZ55

Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD

Edificio residencial Tarsia de AEDAS Homes GranadaANDECE

CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALKATHIAMILAGRITOSSANC

Calavera calculo de estructuras de cimentacion.pdfyoseka196

OpenAnalytics Madrid 2014: Spark

1. Lightning-fast cluster computing @javituiter www.franciscojavierpulido.com www.exploradata.com

2. ¿Quién soy? ¿? ¿? ¿?

3. Sobre mí Graduado en Ingeniera del Software

4. Sobre mí Graduado en Ingeniera del Software Master en Sistemas en Ingeniería de la Información

5. Sobre mí Graduado en Ingeniera del Software Especialista en Tecnologías Big Data Master en Sistemas en Ingeniería de la Información

6. Sobre mí Graduado en Ingeniera del Software Master en Sistemas en Ingeniería de la Información Especialista en Tecnologías Big Data Bloguero & Tuitero @javituiter www.franciscojavierpulido.com

7. Sobre mí Miembro del equipo www.ExploraData.com

8. Sobre mí

9. ¿Big Data = Hadoop?

10. Hadoop Precio Volumen de datos

11. MapReduce

12. Primer Problema: La Persistencia

13. Segundo Problema: MapReduce <k1, v1> -> map -> <k2, v2> <k2, v2> -> combine -> <k2, v2> <k2, v2> -> reduce -> <k3, v3>

14. Tercer Problema: Cálculos iterativos MAP COMBINE REDUCE

15. Spark · Es un motor para el procesamiento en memoria de grandes volúmenes de datos. · Se facilita el paradigma MapReduce (reduciendo costes y tiempos de ejecución) a gracias a los RDDs. · Tiene API´s para Scala, Java & Python.

16. La “magia”: Resilient Distributed Datasets

17. ¿Qué es un RDD? · Colecciones lógicas, inmutables y particionadas de los registros a lo largo del clúster. Datos Paper RDD 2011. Matei Zaharia…

18. Beneficios · La consistencia se vuelve más sencilla gracias a la inmutabilidad. · Tolerante a fallos: a través del “Lineage” los RDDs se pueden reconstruir si alguna partición se pierde. · A pesar de que Batch Processing es un modelo restringido a una serie de casos de uso por defecto, gracias a los RDDs se puede utilizar en multitud de aplicaciones. · Es bueno para algoritmos iterativos. · Más rápido que Hadoop.

19. Operaciones sobre RDDs Transformations Actions Map Filter Sample Union groupByKey reduceByKey Join Cache … Reduce Collect Count Save lookupKey …

20. Características adicionales de Spark

21. Análisis Interactivo de los Datos · Exploración de datos mediante una Shell interactiva en Scala.

22. Real Time

23. Gran apoyo de la comunidad

24. Clústers en Spark

25. Arquitectura

26. Además… · Spark es agnóstico. · Si las operaciones no caben en memoria, pagina a disco. · Aplicaciones aisladas: cada aplicación tiene su propio Executor.

27. Algunos ejemplos

28. Variables Broadcast:

29. Variables Broadcast: Accumulators:

30. Ejemplo 1: Paralelizar una colección

31. Ejemplo 1: Paralelizar una colección

32. Ejemplo 1: Paralelizar una colección Creamos la colleción

33. Ejemplo 1: Paralelizar una colección Action

34. Ejemplo 2: Utilizar Datasets

35. Ejemplo 2: Utilizar Datasets Cargar archivo en variable

36. Ejemplo 2: Utilizar Datasets Action

37. Ejemplo 3: Utilizar Datasets de HDFS

38. Ejemplo 3: Utilizar Datasets de HDFS Cargar archivo de HDFS en variable

39. Ejemplo 3: Utilizar Datasets de HDFS Action

40. Ejemplo 4: MapReduce Wordcount

41. Ejemplo 4: MapReduce Wordcount Leemos de HDFS

42. Ejemplo 4: MapReduce Wordcount “MapReducimos” el texto

43. Ejemplo 4: MapReduce Wordcount Guardamos en HDFS

44. Benchmarks

45. Lanzar una Query https://amplab.cs.berkeley.edu/benchma rk/

46. Agrupaciones https://amplab.cs.berkeley.edu/benchma rk/

47. Join https://amplab.cs.berkeley.edu/benchma rk/

48. Join https://amplab.cs.berkeley.edu/benchma rk/

49. Lanzar una Query desde un Script https://amplab.cs.berkeley.edu/benchma rk/

50. Lanzar una Query desde un Script https://amplab.cs.berkeley.edu/benchma rk/

51. ¿Quién lo utiliza?

52. Migrando de Hadoop a Spark https://blogs.apache.org/foundation/entry /…

53. Ya lo tienen en producción https://blogs.apache.org/foundation/entry /…

54. Conclusiones

55. Conclusiones · Spark está ahí fuera. · Extremadamente sencillo de instalar para jugar con el >> Para pasar a producción hacen falta especialistas. · Spark es más rápido para ciertos casos de uso. · Si utilizas Hadoop, prueba Spark. · Es sencillo mezclar Batch Processing con Real Time. · Se puede utilizar Scala, Java & Python.

56. Gracias @javituiter www.franciscojavierpulido.com www.exploradata.com

Notas del editor

Motivación. Cada vez que escuchamos hablar de Big Data, la mayoría de las empresas y de las personas pensamos en Hadoop.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Motivación. Cada vez que escuchamos hablar de Big Data, la mayoría de las empresas y de las personas pensamos en Hadoop.
Hadoop revolucionó el procesamiento de grandes volúmenes de datos, permitiendo a los usuarios almacenar gran cantidad de datos a precios muy bajos.
Además, la técnica MapReduce es ideal para implementar aplicaciones Batch Processing muy complejas que tratan de dar soluciones a: · Sistemas de Log, ejecución de ETLs o Sistemas de Recomendación.
La persistencia se realiza en discos duros y el problema principal es la latencia.
MapReduce en Hadoop, se limita a realizar Map, Combine y Reduce.
Los dos problemas anteriores hace que Hadoop no sea eficiente para la realización de cálculos iterativos
Una operación de tipo transformación modifica el RDD. Una operación de tipo action nos devuelve una carácterística del RDD. Un count, collect, reduce, etc.
Con tener instalado Scala y Spark en Pseudo-distribuido es suficiente para tener el sistema funcionando.
1. Las aplicaciones de Spark se ejecutan en sets de procesos independientes en el cluster y que a su vez son coordinados por el objecto SparkContext del programa principal (llamado driver program). 2. El SparkContext puede conectarse a muchos tipos de clúster managers (tanto Spark StandAlone como los administrador por Mesos/YARN), el cual asigna recursos a través de las aplicaciones. Una vez conectado, Spark toma los executors en los nodos del cluster, los cuales son "worker processess" que ejecutan operaciones y almacenan los datos de la aplicación. 3. Después se envía el código de tu aplicación (definido por el archivo JAR o Python que hemos enviado al SparkContext) a los executors. 4. Por último, el SparkContext envía las tareas a los executors para ejecutarlas.
· Broadcast variables: las cuales se usan para cachear un valor en memoria a todos los nodos. · Accumulators: las cuales son variables que solo admiten "añadir algo", como contadores y sumas.
· Broadcast variables: las cuales se usan para cachear un valor en memoria a todos los nodos. · Accumulators: las cuales son variables que solo admiten "añadir algo", como contadores y sumas.

OpenAnalytics Madrid 2014: Spark

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a OpenAnalytics Madrid 2014: Spark

Similar a OpenAnalytics Madrid 2014: Spark (20)

Último

Último (20)

OpenAnalytics Madrid 2014: Spark

Notas del editor