Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Big Data Analysis
Óscar Marín Miró
oscar@outliers.es
04/05/2016
Contenidos
Introducción Análisis de datos
Valor
Arquitectura
★ Historia

★ Problemática

★ Soluciones
★ Arquitectura Lambd...
Introducción
"Data will help us" - Jonathan Harris
Big Data: Historia
“Big Data is a collection of data sets so large
and complex that it becomes difficult to
process using o...
- Twitter: 340 millones de tweets diarios
(~= 1TB/día)
- Facebook: 800 millones de status diarios
- Instagram: 70 millones...
Big Data: Historia
- Big Data y las 3 ‘V’
- Velocidad
- Volumen
- Variedad
http://blogs.gartner.com/doug-laney/files/2012/0...
LOS PROBLEMAS: ELVOLUMEN
http://royal.pingdom.com/2010/02/18/amazing-facts-and-figures-about-
the-evolution-of-hard-disk-dr...
LOS PROBLEMAS: ELVOLUMEN
http://en.wikipedia.org/wiki/File:Hard_drive_capacity_over_time.png
¿Qué hacemos cuando los datos...
LOS PROBLEMAS: LAVELOCIDAD
http://en.wikipedia.org/wiki/Moore's_law
¿Qué hacemos cuando los datos llegan a un
ritmo superi...
LOS PROBLEMAS: LAVELOCIDAD
http://arstechnica.com/business/2012/05/bandwidth-explosion-as-
internet-use-soars-can-bottlene...
LOS PROBLEMAS: LAVARIEDAD
El problema del join en RDMS
Big Data: Soluciones
- Frente al volumen:
- Batch processing: MapReduce (Hadoop)
- Frente a la velocidad:
- Real-time proc...
ElValor de Big Data
http://labratrevenge.com/pdx
ElValor de Big Data:
Big Data Analysis
‣Estadístico
‣Texto
‣Análisis de Redes Sociales
‣Análisis GeoEspacial
ElValor de Big Data:
Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación
‣Customer Insights
‣Growth Hacking
‣Salud
‣E...
Big Data - Arquitectura
Big Data - Arquitectura
http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for
Big Data - “Age of Data”
Big Data - Arquitectura
Big Data - Arquitectura
4.La plataforma Big Data: Componentes.Ingestión.
• Sqoop:	
  
• Ingestión	
  tipo	
  ‘pull’.	
  BBDD	
  externas	
  (BI)	
...
• SQL-­‐on-­‐hadoop	
  
• Formato	
  columnar	
  (Parquet)	
  
• SerDes:	
  XML,	
  JSON	
  
• Procesos	
  MapReduce	
  
•...
• Diseñada	
  para	
  evitar	
  MapReduce	
  (MPP)	
  
• BI	
  
• Comparte	
  metastore	
  con	
  Hive	
  
• Explota	
  pa...
• ElasticSearch,	
  LogStash,	
  Kibana	
  
• ElasticSearch:	
  
• Escalado	
  elástico	
  
• Réplicas	
  y	
  sharding	
 ...
Componentes Big Data: (no)SQL
Componentes Big Data: (no)SQL
• Orientación	
  a	
  Data	
  Streaming	
  (<	
  2	
  secs)	
  
• Procesos	
  en	
  memoria	
  
• Hive	
  on	
  Spark	
  (...
Análisis de Datos
Map of Iranian Blogosphere
Minería/Analítica de Datos
Extracción de información subyacente en los
datos, para generar conocimiento (normalmente
accio...
Análisis del lenguaje (I)
★ Conversión de un texto a una serie de ‘features’

★ Niveles de interpretación: sintáctico, gra...
★ Abstraer el lenguaje en un conjunto de ‘features’

★ Arranca del Information Retrieval (buscadores de
texto)

★ Tradicio...
SemánticaTokenizar MorfoSyn Gramática
El gato maulla El/DET gato/N maullar/V
El/DET gato/N/Animal maullar/V
SN_Animal = El...
• “Morfo”: Contienen una morfología que nos permite pasar de formas
derivadas a raíces (también llamada Normalización)

• ...
• Nos permiten analizar la estructura de una frase y buscar patrones

• Ej: 

• [Artículo + Nombre ] ==> SN

• [Pronombre ...
Análisis del lenguaje

Aplicaciones
• Detección de Entidades

• Análisis de sentimiento

• Intención de compra

• Minería ...
LexiconCorpus
Profile mining
Profile mining
‘Podemos’ fanbase jobs
https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
Profile mining
‘PP’ fanbase jobs
https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
Análisis estadístico
★ Análisis de distribuciones (histogramas)

★ Análisis de series temporales

★ Correlaciones - Regres...
Machine Learning
★ Descomposición de una observación en ‘features’

★ ‘Clustering’: Basado en distancias entre ‘features’
...
Deep Learning
★ Descomposición de una observación en ‘relaciones’

★ Modelado de la red final
Deep Learning
Deep Learning
Análisis de redes
★ Cambio de un paradigma descriptivo (‘features’) a
una caracterización basada en las relaciones

★ Métr...
http://mashable.com/2011/05/06/bin-laden-visualization/
Análisis de redes
Análisis de redes
Análisis de redes
Análisis de redes
Comm1
Seed
Comm2
Seed
Comm3
Seed
Análisis de redes
Análisis geoespacial
★ Correlación entre ‘features’ y variables espaciales

★ ‘Contagio’ espacial

★ ‘Geohashing’ 

★ Apli...
Análisis geoespacial
Análisis geoespacial
#sonar2014BCN (general)
Análisis geoespacial
Twitter
Feed
DB Hashtag aggregation
Spatial skew
Time skew
Hashtag
classfication
Análisis geoespacial
Análisis geoespacial
Referencias
★ Think stats

★ Data Algorithms

★ Speech and Language Processing

★ Understanding Social Networks

★ New Science of Citi...
Upcoming SlideShare
Loading in …5
×

El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso

Material utilizado en la sesión técnica que tuvo lugar el 5 de mayo de 2016. A lo largo de la sesión Óscar Miró presentó ejemplos de qué es lo que funciona (y lo que no funciona) a nivel de análisis en proyectos de Big Data.

Sobre el ponente: Oscar Marín Miró (outliers.es)
Ingeniero de Telecomunicaciones, trabaja e investiga desde el año 2001 en lo que ahora llamamos ‘Big Data’. Especializado en el análisis de texto, redes sociales, datos urbanos y visualización de datos. Fundador del colectivo Outliers, desde donde se fomenta la aplicación del valor de los datos a todos los campos (Ciencia, Periodismo, Urbanismo, Sociología, Marketing…).
Miembro del equipo de investigación transdisciplinar DatAnalysis15m, enfocado en el análisis entre la viralidad y el contenido emocional del mensaje. En la faceta docente, imparte cursos regularmente sobre análisis y visualización de datos, en diversas Universidades, Compañías e Instituciones (UOC, UAB, Telenoika Audiovisual Community, Convent de Sant Agustí, Telefónica Digital).

El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso

  1. 1. Big Data Analysis Óscar Marín Miró oscar@outliers.es 04/05/2016
  2. 2. Contenidos Introducción Análisis de datos Valor Arquitectura ★ Historia ★ Problemática ★ Soluciones ★ Arquitectura Lambda ★ Componentes ★ Lenguaje ★ Estadística y deep learning ★ Redes ★ Geoespacial ★ Análisis ★ Ámbitos Referencias
  3. 3. Introducción "Data will help us" - Jonathan Harris
  4. 4. Big Data: Historia “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data
  5. 5. - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Instagram: 70 millones de foros diarias - Google: 1000 millones de consultas diarias http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from- structuredata-2012 ¿Qué es el Big Data? (de verdad)
  6. 6. Big Data: Historia - Big Data y las 3 ‘V’ - Velocidad - Volumen - Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data- Volume-Velocity-and-Variety.pdf
  7. 7. LOS PROBLEMAS: ELVOLUMEN http://royal.pingdom.com/2010/02/18/amazing-facts-and-figures-about- the-evolution-of-hard-disk-drives/
  8. 8. LOS PROBLEMAS: ELVOLUMEN http://en.wikipedia.org/wiki/File:Hard_drive_capacity_over_time.png ¿Qué hacemos cuando los datos superan con creces el tamaño de un disco duro?
  9. 9. LOS PROBLEMAS: LAVELOCIDAD http://en.wikipedia.org/wiki/Moore's_law ¿Qué hacemos cuando los datos llegan a un ritmo superior al que pueden ser analizados?
  10. 10. LOS PROBLEMAS: LAVELOCIDAD http://arstechnica.com/business/2012/05/bandwidth-explosion-as- internet-use-soars-can-bottlenecks-be-averted/ ¿Y si no nos llega el ancho de banda?
  11. 11. LOS PROBLEMAS: LAVARIEDAD El problema del join en RDMS
  12. 12. Big Data: Soluciones - Frente al volumen: - Batch processing: MapReduce (Hadoop) - Frente a la velocidad: - Real-time processing: Streaming (Spark) - Frente a la variedad: NoSQL
  13. 13. ElValor de Big Data http://labratrevenge.com/pdx
  14. 14. ElValor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial
  15. 15. ElValor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad
  16. 16. Big Data - Arquitectura
  17. 17. Big Data - Arquitectura http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for
  18. 18. Big Data - “Age of Data”
  19. 19. Big Data - Arquitectura
  20. 20. Big Data - Arquitectura
  21. 21. 4.La plataforma Big Data: Componentes.Ingestión. • Sqoop:   • Ingestión  tipo  ‘pull’.  BBDD  externas  (BI)   • Modo  batch   • Crea  tablas  Hive  directamente   • Flume:   • Ingestión  tipo  ‘push’   • Señalización  a  través  de  JMS   • Configuración  a  través  de  HTTP  POST   • Configuración  de  tamaños  en  entrada  y  salida   • Monitor   • Señalización  +  Señales  nativas   • Particionado   • Tolerancia  a  fallos  y  esquemas  HA Componentes Big Data: Ingestión
  22. 22. • SQL-­‐on-­‐hadoop   • Formato  columnar  (Parquet)   • SerDes:  XML,  JSON   • Procesos  MapReduce   • Hive  Metastore   Componentes Big Data: (no)SQL
  23. 23. • Diseñada  para  evitar  MapReduce  (MPP)   • BI   • Comparte  metastore  con  Hive   • Explota  paradigma  columnar  y  particionado   • Conector  JDBC/ODBC   • Diseñada  para  alta  concurrencia Componentes Big Data: (no)SQL
  24. 24. • ElasticSearch,  LogStash,  Kibana   • ElasticSearch:   • Escalado  elástico   • Réplicas  y  sharding   • Agregaciones  y  timelines   • 200  Millones  por  nodo   • Open  Source   • Conector  dúplex  con  Hive Componentes Big Data: (no)SQL
  25. 25. Componentes Big Data: (no)SQL
  26. 26. Componentes Big Data: (no)SQL
  27. 27. • Orientación  a  Data  Streaming  (<  2  secs)   • Procesos  en  memoria   • Hive  on  Spark  (inestable)   • Spark  SQL https://blog.cloudera.com/blog/2016/02/new-sql-benchmarks-apache-impala-incubating-2-3-uniquely-delivers-analytic-database-performance/ Componentes Big Data: (no)SQL
  28. 28. Análisis de Datos Map of Iranian Blogosphere
  29. 29. Minería/Analítica de Datos Extracción de información subyacente en los datos, para generar conocimiento (normalmente accionable)
  30. 30. Análisis del lenguaje (I) ★ Conversión de un texto a una serie de ‘features’ ★ Niveles de interpretación: sintáctico, gramatical, semántico, discurso ★ Ejemplos: Análisis de sentimiento, reconocimiento de entidades (NER)
  31. 31. ★ Abstraer el lenguaje en un conjunto de ‘features’ ★ Arranca del Information Retrieval (buscadores de texto) ★ Tradicionalmente NLP (Natural Language Processing) Análisis del lenguaje (II)
  32. 32. SemánticaTokenizar MorfoSyn Gramática El gato maulla El/DET gato/N maullar/V El/DET gato/N/Animal maullar/V SN_Animal = El gato SV = maulla Análisis del lenguaje: Pipeline
  33. 33. • “Morfo”: Contienen una morfología que nos permite pasar de formas derivadas a raíces (también llamada Normalización) • Me gusta llegar caminando a los sitios-> Me/gustar/llegar/caminar/a/el/ sitio • “Sintáctico”: Contienen un modelo del lenguaje para identificar el rol sintáctico de cada palabra (también llamado POS-tagging) • Me/PP gustar/V llegar/V caminar/V a/SP el/DA sitio/NC • Suelen incorporar gramáticas para análisis gramatical (parsing) • Algunos incorporan detección de entidades • Demo ejemplo con Freeling , (PAROLE tag-set) • También NLTK Análisis del lenguaje: Morfosintaxis
  34. 34. • Nos permiten analizar la estructura de una frase y buscar patrones • Ej: • [Artículo + Nombre ] ==> SN • [Pronombre + Verbo_agradar ] ==> SV_agradar • [AdverbioNeg + Pronombre + Verbo_agradar] ==> SV_desagradar • SN + SV_agradar ===> Sentimiento_positivo • SN + SV_desagradar => Sentimiento_negativo • Se suelen apoyar en formas normalizadas y/o taggeadas • “ser una pena” vs “merece la pena” • Son (muy) dependientes el lenguaje y del dominio • Necesitan mucho contexto lingüístico Análisis del lenguaje: Gramáticas
  35. 35. Análisis del lenguaje Aplicaciones • Detección de Entidades • Análisis de sentimiento • Intención de compra • Minería de perfiles • Detección de conversaciones
  36. 36. LexiconCorpus Profile mining
  37. 37. Profile mining ‘Podemos’ fanbase jobs https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
  38. 38. Profile mining ‘PP’ fanbase jobs https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
  39. 39. Análisis estadístico ★ Análisis de distribuciones (histogramas) ★ Análisis de series temporales ★ Correlaciones - Regresiones ★ Análisis factorial
  40. 40. Machine Learning ★ Descomposición de una observación en ‘features’ ★ ‘Clustering’: Basado en distancias entre ‘features’ ★ ‘Clasificación’: (entre N ‘salidas’). Probabilidad de que una ‘feature’ pertenezca a una ‘salida’
  41. 41. Deep Learning ★ Descomposición de una observación en ‘relaciones’ ★ Modelado de la red final
  42. 42. Deep Learning
  43. 43. Deep Learning
  44. 44. Análisis de redes ★ Cambio de un paradigma descriptivo (‘features’) a una caracterización basada en las relaciones ★ Métricas: ★ Centralidad, análisis de comunidades, modularidad ★ Ejemplos: Motores de recomendación, análisis de flujos, viralidad, caracterización de la audiencia
  45. 45. http://mashable.com/2011/05/06/bin-laden-visualization/
  46. 46. Análisis de redes
  47. 47. Análisis de redes
  48. 48. Análisis de redes
  49. 49. Análisis de redes Comm1 Seed Comm2 Seed Comm3 Seed Análisis de redes
  50. 50. Análisis geoespacial ★ Correlación entre ‘features’ y variables espaciales ★ ‘Contagio’ espacial ★ ‘Geohashing’ ★ Aplicaciones: ★ Detección de patrones espaciales (migraciones, manifestaciones, etc..) ★ Geomarketing
  51. 51. Análisis geoespacial
  52. 52. Análisis geoespacial #sonar2014BCN (general)
  53. 53. Análisis geoespacial Twitter Feed DB Hashtag aggregation Spatial skew Time skew Hashtag classfication Análisis geoespacial
  54. 54. Análisis geoespacial
  55. 55. Referencias
  56. 56. ★ Think stats ★ Data Algorithms ★ Speech and Language Processing ★ Understanding Social Networks ★ New Science of Cities ★ Dataclysm Referencias

×