SlideShare a Scribd company logo
1 of 24
Download to read offline
PPrroocceessaammiieennttoo ddee ddaattooss 
rroobbuussttoo yy eessccaallaabbllee ccoonn 
AAppaacchhee SSppaarrkk 
Ing. Adrián Fernando Fiore 
Ingeniero en Sistemas UTN FRBA 
Docente de Algoritmos y Estructura de Datos 
Desarrollador Backend en Socialmetrix 
@AdrianFiore 
Ing. Pablo Romanelli 
Ingeniero en Sistemas UTN FRBA 
Docente de Técnicas Avanzadas de Programación 
Desarrollador Scala en Socialmetrix 
@PabloRomanelli2
Agenda 
• Qué hacemos? 
• Problema a resolver 
• Evolución de la solución 
• Spark 
• Resolución del problema 
• Ventajas obtenidas
Medimos la actividad de las compañías y 
personalidades en las redes sociales para 
generar valor a profesionales de Marketing, 
Investigación de Mercado y Producto. 
Software As A Service
Problema 
Econtrar cuantas veces una cuenta 
de Twitter es mencionada junto 
con un hashtag 
Restricciones: 
•En un intervalo de tiempo 
•Para un conjunto finito de cuentas 
y tweets
Necesitamos una herramienta de 
procesamiento distribuido para grandes 
volúmenes de datos!!!
Evolución de la solución 
HHaaddoooopp MMaapp RReedduuccee 
Ventajas 
• Escalable (voy creciendo a demanda) 
• Se puede usar Amazon EMR (fácil de administrar) 
• No hay costo de licencias, solo levantar los servers 
Desventajas 
• Hay que implementar la lógica en términos de map 
y reduce 
• Se necesita mucho código para implementar 
acciones simples como join, group, etc. 
• Es batch, lento (baja a disco por cada etapa de 
procesamiento)
Evolución de la solución 
AAppaacchhee HHiivvee 
Ventajas 
• Capa de abstracción sobre Hadoop Map Reduce 
(tenemos todas sus ventajas) 
• La lógica se implementa en SQL (algo ya conocido 
que me abstrae del código complejo de map y 
reduce) 
Desventajas 
• Lenguaje SQL no está orientado a flujo de datos 
sino a consultas 
• No hay un IDE de desarrollo 
• Difícil de testear, difícil de encontrar bugs 
• Tiempos de ejecución prolongados y variables
Evolución de la solución 
AAppaacchhee SSppaarrkk 
• Motor de procesamiento distribuido para Big Data 
• Puede utilizarse sobre Java, Scala o Python 
• Por qué lo elegimos? 
• Qué ventajas nos trae? 
• Cómo resulvo el problema usando Spark?
Ejemplos para entender el problema 
{ 
"text": "@adrian vamos a la #javaconf", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} 
List( 
(adrian, javaconf) 
) 
RReessuultltaaddoo
Ejemplos para entender el problema 
{ 
"text": "Hola @adrian", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} RReessuultltaaddoo List()
Ejemplos para entender el problema 
{ 
"text": "Codeando en #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
], 
... 
}, 
... 
} RReessuultltaaddoo List()
Ejemplos para entender el problema 
{ 
"text": "@adrian aca en #javaconf usando #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
}, 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} 
List( 
(adrian, javaconf), 
(adrian, spark) 
) 
RReessuultltaaddoo
Ejemplos para entender el problema 
"text": "@adrian aca en #javaconf usando #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
}, 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
{ 
"text": "RT @pablo: @adrian aca en #javaconf usando ...", 
"user": { 
"screen_name": "pedro", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
}, 
{ 
"screen_name": "pablo", 
... 
} 
], 
... 
}, 
"retweeted_status": {…}, 
... 
} 
List( 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
Resultado
Ejemplos para entender el problema 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
List( 
( 
(adrian, javaconf), 
3 
), 
( 
(adrian,spark), 
2 
), 
( 
(pablo,javaconf), 
1 
), 
( 
(pablo,spark), 
1 
) 
)
Algunos ejemplos en Spark Shell
Ejemplos para entender el problema 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
Tweets en Json
Ejemplos para entender el problema 
List( 
(adrian, javaconf), 
(adrian, javaconf), 
(adrian, spark), 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
fflalattMMaapp
Ejemplos para entender el problema 
List( 
( (adrian, javaconf), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1) 
) 
List( 
(adrian, javaconf), 
(adrian, javaconf), 
(adrian, spark), 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
mmaapp
Ejemplos para entender el problema 
List( 
( (adrian, javaconf), 3 ), 
( (adrian, spark), 2 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1 ) 
) 
List( 
( (adrian, javaconf), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1) 
) 
rreedduucceeBByyKKeeyy
Código Fuente 
Con la resolución paso a paso 
https://github.com/socialmetrix/spark-javaconf
Ventajas que nos da Spark 
•Es open source, comunidad activa, suben material online 
•Consola interactiva para hacer pruebas 
•Lenguaje de programación (Scala, Java, Python): 
• Programo en un lenguaje que conozco 
• Puedo usar mis abstracciones (mis tipos de datos) 
• Tengo un IDE que me ayuda a codear, a hacer refactors, etc. 
• Las funciones del RDD se comportan igual que las de las listas (me abstrae que 
luego corre distribuido) 
•Testeable y Mantenible: 
• Código corto y claro 
• Me genera confianza en mi proceso 
• Si hay un bug, puedo hacer un nuevo test y reproducirlo 
•Consola de monitoreo simple y útil
MUCHAS GRACIAS! 
jobs@socialmetrix.com 
Pablo y Adrián
Consultas

More Related Content

What's hot

Herramientas de Programacion Cliente Servidor
Herramientas de Programacion Cliente ServidorHerramientas de Programacion Cliente Servidor
Herramientas de Programacion Cliente ServidorHectlys Piña
 
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Micael Gallego
 
Modelado UML de sistema punto venta
Modelado UML de sistema punto ventaModelado UML de sistema punto venta
Modelado UML de sistema punto ventaRafael Diaz
 
Framework Laravel
Framework LaravelFramework Laravel
Framework LaravelRafael Lobo
 
Arquitectura de cliente-servidor de tres capas
Arquitectura de cliente-servidor de tres capasArquitectura de cliente-servidor de tres capas
Arquitectura de cliente-servidor de tres capasanibalsmit
 
Principios de diseño de la arquitectura del software
Principios de diseño de la arquitectura del softwarePrincipios de diseño de la arquitectura del software
Principios de diseño de la arquitectura del softwareJose Patricio Bovet Derpich
 
Generación de documentación con star UML
Generación de documentación con star UMLGeneración de documentación con star UML
Generación de documentación con star UMLSoftware Guru
 
Fundamentos de Calidad del Software - Modelos y Estándares
Fundamentos de Calidad del Software - Modelos y EstándaresFundamentos de Calidad del Software - Modelos y Estándares
Fundamentos de Calidad del Software - Modelos y EstándaresLuis Eduardo Pelaez Valencia
 
Fundamentos de la ingenieria del software
Fundamentos de la ingenieria del softwareFundamentos de la ingenieria del software
Fundamentos de la ingenieria del softwarealberto calatayu
 
Introducción a los contenedores Docker
Introducción a los contenedores DockerIntroducción a los contenedores Docker
Introducción a los contenedores DockerCarlos E. Vasquez P.
 
Modelo componentes
Modelo componentesModelo componentes
Modelo componentesmartin
 
Normas y Estándares de calidad para el desarrollo de Software
Normas y Estándares de calidad para el desarrollo de SoftwareNormas y Estándares de calidad para el desarrollo de Software
Normas y Estándares de calidad para el desarrollo de SoftwareEvelinBermeo
 
tipos de pruebas.
tipos de pruebas.tipos de pruebas.
tipos de pruebas.Juan Ravi
 
Arquitectura de software
Arquitectura de softwareArquitectura de software
Arquitectura de softwareLiliana Pacheco
 

What's hot (20)

Herramientas de Programacion Cliente Servidor
Herramientas de Programacion Cliente ServidorHerramientas de Programacion Cliente Servidor
Herramientas de Programacion Cliente Servidor
 
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
 
Modelado UML de sistema punto venta
Modelado UML de sistema punto ventaModelado UML de sistema punto venta
Modelado UML de sistema punto venta
 
infrastructure as code
infrastructure as codeinfrastructure as code
infrastructure as code
 
Framework Laravel
Framework LaravelFramework Laravel
Framework Laravel
 
HDFS
HDFSHDFS
HDFS
 
Arquitectura de cliente-servidor de tres capas
Arquitectura de cliente-servidor de tres capasArquitectura de cliente-servidor de tres capas
Arquitectura de cliente-servidor de tres capas
 
Arquitectura de software
Arquitectura de softwareArquitectura de software
Arquitectura de software
 
Principios de diseño de la arquitectura del software
Principios de diseño de la arquitectura del softwarePrincipios de diseño de la arquitectura del software
Principios de diseño de la arquitectura del software
 
Generación de documentación con star UML
Generación de documentación con star UMLGeneración de documentación con star UML
Generación de documentación con star UML
 
Fundamentos de Calidad del Software - Modelos y Estándares
Fundamentos de Calidad del Software - Modelos y EstándaresFundamentos de Calidad del Software - Modelos y Estándares
Fundamentos de Calidad del Software - Modelos y Estándares
 
Fundamentos de la ingenieria del software
Fundamentos de la ingenieria del softwareFundamentos de la ingenieria del software
Fundamentos de la ingenieria del software
 
Introducción a los contenedores Docker
Introducción a los contenedores DockerIntroducción a los contenedores Docker
Introducción a los contenedores Docker
 
Como Documentar Casos De Uso
Como Documentar Casos De UsoComo Documentar Casos De Uso
Como Documentar Casos De Uso
 
Modelo componentes
Modelo componentesModelo componentes
Modelo componentes
 
Normas y Estándares de calidad para el desarrollo de Software
Normas y Estándares de calidad para el desarrollo de SoftwareNormas y Estándares de calidad para el desarrollo de Software
Normas y Estándares de calidad para el desarrollo de Software
 
tipos de pruebas.
tipos de pruebas.tipos de pruebas.
tipos de pruebas.
 
Frameworks Java
Frameworks JavaFrameworks Java
Frameworks Java
 
Presentacion: Usando Archimate
Presentacion: Usando ArchimatePresentacion: Usando Archimate
Presentacion: Usando Archimate
 
Arquitectura de software
Arquitectura de softwareArquitectura de software
Arquitectura de software
 

Similar to Procesamiento de datos robusto y escalable con Apache Spark

"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguezwebcat
 
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Aragón Open Data
 
Novedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGNovedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGjose diaz
 
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RGestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RFrancisco Palm
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Intro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaIntro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaDaniel Gómez
 
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Eudris Cabrera
 
Introducción a RubyOnRails
Introducción a RubyOnRailsIntroducción a RubyOnRails
Introducción a RubyOnRailsPablo Marrero
 
Computación evolutiva no tradicional
Computación evolutiva no tradicionalComputación evolutiva no tradicional
Computación evolutiva no tradicionalJuan J. Merelo
 
09b jsf (1)
09b jsf (1)09b jsf (1)
09b jsf (1)UTN
 
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018Eudris Cabrera
 
Programacion web
Programacion webProgramacion web
Programacion webIACSA
 
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfFundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfssuserf46a26
 
Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Eudris Cabrera
 
Programacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptProgramacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptRobert Moreira
 
Compilador Usando Jflex y Cup
Compilador Usando Jflex y CupCompilador Usando Jflex y Cup
Compilador Usando Jflex y Cupditopo
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
 
RAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryRAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryJack A. Rider
 

Similar to Procesamiento de datos robusto y escalable con Apache Spark (20)

"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez
 
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
 
Novedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGNovedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUG
 
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RGestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Intro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaIntro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - Algoritmia
 
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
 
Introducción a RubyOnRails
Introducción a RubyOnRailsIntroducción a RubyOnRails
Introducción a RubyOnRails
 
Computación evolutiva no tradicional
Computación evolutiva no tradicionalComputación evolutiva no tradicional
Computación evolutiva no tradicional
 
09b jsf (1)
09b jsf (1)09b jsf (1)
09b jsf (1)
 
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
 
Programacion web
Programacion webProgramacion web
Programacion web
 
Visualfoxpro
VisualfoxproVisualfoxpro
Visualfoxpro
 
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfFundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
 
Empezando con Angular 2
Empezando con Angular 2Empezando con Angular 2
Empezando con Angular 2
 
Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018
 
Programacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptProgramacion orientada a objetos en javascript
Programacion orientada a objetos en javascript
 
Compilador Usando Jflex y Cup
Compilador Usando Jflex y CupCompilador Usando Jflex y Cup
Compilador Usando Jflex y Cup
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
RAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryRAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactory
 

More from Socialmetrix

7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivoSocialmetrix
 
The Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsThe Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsSocialmetrix
 
Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Socialmetrix
 
How to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignHow to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignSocialmetrix
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsAWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsSocialmetrix
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache SparkSocialmetrix
 
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Socialmetrix
 
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas SociaisSocialmetrix
 
Jugar Introduccion a Scala
Jugar Introduccion a ScalaJugar Introduccion a Scala
Jugar Introduccion a ScalaSocialmetrix
 
Endeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisEndeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisSocialmetrix
 
MongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeMongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeSocialmetrix
 

More from Socialmetrix (17)

7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo
 
The Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsThe Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media Analytics
 
Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...
 
How to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignHow to Create a Successful Social Media Campaign
How to Create a Successful Social Media Campaign
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsAWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtime
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
 
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
 
Call2Social
Call2SocialCall2Social
Call2Social
 
Redis
RedisRedis
Redis
 
Jugar Introduccion a Scala
Jugar Introduccion a ScalaJugar Introduccion a Scala
Jugar Introduccion a Scala
 
Endeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisEndeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociais
 
MongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeMongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en Nube
 

Recently uploaded

Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalEmanuelCastro64
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaElizabethLpezSoto
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024anasofiarodriguezcru
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfTENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfJoseAlejandroPerezBa
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskbydaniela5
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nóminacuellosameidy
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxhellendiaz12
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888ElianaValencia28
 
tecno 2024.pdf sara mineiro palacio 10-6
tecno 2024.pdf sara mineiro palacio 10-6tecno 2024.pdf sara mineiro palacio 10-6
tecno 2024.pdf sara mineiro palacio 10-6SaraMineiropalacio
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdflauralizcano0319
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 

Recently uploaded (18)

Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamental
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestría
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdfTENDENCIAS DE IA Inteligencia artificial generativa.pdf
TENDENCIAS DE IA Inteligencia artificial generativa.pdf
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nómina
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888
 
tecno 2024.pdf sara mineiro palacio 10-6
tecno 2024.pdf sara mineiro palacio 10-6tecno 2024.pdf sara mineiro palacio 10-6
tecno 2024.pdf sara mineiro palacio 10-6
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 

Procesamiento de datos robusto y escalable con Apache Spark

  • 1. PPrroocceessaammiieennttoo ddee ddaattooss rroobbuussttoo yy eessccaallaabbllee ccoonn AAppaacchhee SSppaarrkk Ing. Adrián Fernando Fiore Ingeniero en Sistemas UTN FRBA Docente de Algoritmos y Estructura de Datos Desarrollador Backend en Socialmetrix @AdrianFiore Ing. Pablo Romanelli Ingeniero en Sistemas UTN FRBA Docente de Técnicas Avanzadas de Programación Desarrollador Scala en Socialmetrix @PabloRomanelli2
  • 2. Agenda • Qué hacemos? • Problema a resolver • Evolución de la solución • Spark • Resolución del problema • Ventajas obtenidas
  • 3. Medimos la actividad de las compañías y personalidades en las redes sociales para generar valor a profesionales de Marketing, Investigación de Mercado y Producto. Software As A Service
  • 4.
  • 5. Problema Econtrar cuantas veces una cuenta de Twitter es mencionada junto con un hashtag Restricciones: •En un intervalo de tiempo •Para un conjunto finito de cuentas y tweets
  • 6. Necesitamos una herramienta de procesamiento distribuido para grandes volúmenes de datos!!!
  • 7. Evolución de la solución HHaaddoooopp MMaapp RReedduuccee Ventajas • Escalable (voy creciendo a demanda) • Se puede usar Amazon EMR (fácil de administrar) • No hay costo de licencias, solo levantar los servers Desventajas • Hay que implementar la lógica en términos de map y reduce • Se necesita mucho código para implementar acciones simples como join, group, etc. • Es batch, lento (baja a disco por cada etapa de procesamiento)
  • 8. Evolución de la solución AAppaacchhee HHiivvee Ventajas • Capa de abstracción sobre Hadoop Map Reduce (tenemos todas sus ventajas) • La lógica se implementa en SQL (algo ya conocido que me abstrae del código complejo de map y reduce) Desventajas • Lenguaje SQL no está orientado a flujo de datos sino a consultas • No hay un IDE de desarrollo • Difícil de testear, difícil de encontrar bugs • Tiempos de ejecución prolongados y variables
  • 9. Evolución de la solución AAppaacchhee SSppaarrkk • Motor de procesamiento distribuido para Big Data • Puede utilizarse sobre Java, Scala o Python • Por qué lo elegimos? • Qué ventajas nos trae? • Cómo resulvo el problema usando Spark?
  • 10. Ejemplos para entender el problema { "text": "@adrian vamos a la #javaconf", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } List( (adrian, javaconf) ) RReessuultltaaddoo
  • 11. Ejemplos para entender el problema { "text": "Hola @adrian", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } RReessuultltaaddoo List()
  • 12. Ejemplos para entender el problema { "text": "Codeando en #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "spark", ... } ], "user_mentions": [ ], ... }, ... } RReessuultltaaddoo List()
  • 13. Ejemplos para entender el problema { "text": "@adrian aca en #javaconf usando #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... }, { "text": "spark", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } List( (adrian, javaconf), (adrian, spark) ) RReessuultltaaddoo
  • 14. Ejemplos para entender el problema "text": "@adrian aca en #javaconf usando #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... }, { "text": "spark", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... { "text": "RT @pablo: @adrian aca en #javaconf usando ...", "user": { "screen_name": "pedro", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... } ], "user_mentions": [ { "screen_name": "adrian", ... }, { "screen_name": "pablo", ... } ], ... }, "retweeted_status": {…}, ... } List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) Resultado
  • 15. Ejemplos para entender el problema List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) List( ( (adrian, javaconf), 3 ), ( (adrian,spark), 2 ), ( (pablo,javaconf), 1 ), ( (pablo,spark), 1 ) )
  • 16. Algunos ejemplos en Spark Shell
  • 17. Ejemplos para entender el problema List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) Tweets en Json
  • 18. Ejemplos para entender el problema List( (adrian, javaconf), (adrian, javaconf), (adrian, spark), (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) fflalattMMaapp
  • 19. Ejemplos para entender el problema List( ( (adrian, javaconf), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1) ) List( (adrian, javaconf), (adrian, javaconf), (adrian, spark), (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) mmaapp
  • 20. Ejemplos para entender el problema List( ( (adrian, javaconf), 3 ), ( (adrian, spark), 2 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1 ) ) List( ( (adrian, javaconf), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1) ) rreedduucceeBByyKKeeyy
  • 21. Código Fuente Con la resolución paso a paso https://github.com/socialmetrix/spark-javaconf
  • 22. Ventajas que nos da Spark •Es open source, comunidad activa, suben material online •Consola interactiva para hacer pruebas •Lenguaje de programación (Scala, Java, Python): • Programo en un lenguaje que conozco • Puedo usar mis abstracciones (mis tipos de datos) • Tengo un IDE que me ayuda a codear, a hacer refactors, etc. • Las funciones del RDD se comportan igual que las de las listas (me abstrae que luego corre distribuido) •Testeable y Mantenible: • Código corto y claro • Me genera confianza en mi proceso • Si hay un bug, puedo hacer un nuevo test y reproducirlo •Consola de monitoreo simple y útil