Big Data y su valor en el mercado

Big Data
Valor y Mercado
Óscar Marín Miró
@outliers_es
www.outliers.es

Contenidos
‣Historia
‣Las 3V’s
‣Problema, Solución y Fenómeno
¿Qué es Big Data? Pitfalls
‣Data vs Big Data
‣Data Science vs Big Data
‣Costes ocultos
Herramientas
+Escenarios
‣Ecosistema Hadoop
‣NoSQL
‣Real-time
Valor del Big Data
‣Los Gigantes de la Generación de Datos
‣Nadamos en un mar de datos
‣Sectores de Aplicación
Bibliografía

¿Qué es el Big Data?
“Data will help us” - Jonathan Harris

Historiahttp://assets.outliers.es/infographics/BigData_A_Brief_History.pdf

“Big Data is a collection of data sets so large
and complex that it becomes difﬁcult to
process using on-hand database management
tools or traditional data processing
applications”
http://en.wikipedia.org/wiki/Big_data

- Big Data y las 3 ‘V’
- Velocidad
- Volumen
- Variedad
http://blogs.gartner.com/doug-laney/ﬁles/2012/01/ad949-3D-Data-Management-Controlling-Data-
Volume-Velocity-and-Variety.pdf

- Twitter: 340 millones de
tweets diarios (~= 1TB/día)
- Facebook: 800 millones de
status diarios
- Google: 1000 millones de
consultas diarias
http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-
and-volume-from-structuredata-2012
¿Qué es el Big Data? (de verdad)

Explosión de Uso Explosión Social
Explosión Móvil
¿Qué es el Big Data? (de verdad)

Big Data: Dimensiones
‣Problema: 3V’s
‣Solución: Herramientas
‣Fenómeno: Posibilidades

ElValor de Big Data
http://labratrevenge.com/pdx

http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
ElValordeBigData

ElValor de Big Data:
Big Data Analysis
‣Estadístico
‣Texto
‣Análisis de Redes Sociales
‣Análisis GeoEspacial

Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación
‣Customer Insights
‣Growth Hacking
‣Salud
‣Escalabilidad

Publicidad
https://de5w14y12gh72.cloudfront.net/website/blueﬁn_mit-tech-review.pdf

Customer Insights
http://innovabbva.outliers.es/mapas.html

Location Analytics
https://meraki.cisco.com/

Growth Hacking
‣Impactos de tests A/B
‣Incrementar el Retention Rate
‣Incrementar los leads
‣Incremental el engagement

Growth Hacking
https://www.youtube.com/watch?v=eqeS8US10_k

Salud
https://www.23andme.com/ancestry/

Publicidad
http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html

ElValor de Big Data
Escalabilidad
http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare

ElValor de Big Data
Antropología
http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/
http://www.ted.com/talks/what_we_learned_from_5_million_books.html

ElValor de Big Data
Urbanismo
http://bcnbeats.com

Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB
‣El 90% de los trabajos hablan de Big Data y
quieren decir Data
‣No es lo mismo coger datos de Twitter
que ser Twitter
‣Se confunde el fenómeno con el problema

Data Science vs Big Data
‣Técnicamente:
‣Data Science crea modelos
‣Big Data provee de infraestructura
‣En la práctica:
‣Si creas un modelo a partir de una
muestra de Big Data haces Big Data
‣Los perﬁles son COMPLETAMENTE
diferentes!!
‣Big Data sin Data Science no es NADA

Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!
‣Probar en muestras signiﬁcativas, SIEMPRE
‣Llegar hasta la presentación de los datos
con la muestra, lo más rápido posible
‣Funcionar con hipótesis

¿Qué es un Cluster Hadoop?
Un conjunto de servidores (nodos), sobre el que se
ejecutan procesos MapReduce y que comparten
datos mediante HDFS (Hadoop Distributed File
System
El ecosistema Hadoop

MAPREDUCE: Divide y vencerás
MAP:
Función de procesado.
Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’
La función ‘map’ es sin estado
REDUCE
Función de reducción
La salida del map es la entrada del reduce
Se usa para consolidar y eliminar redundancias
Ecosistema Hadoop

MAPREDUCE: Contar las palabras de
un ﬁchero
MAP:
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
REDUCE:
< Hello, 1>
< World, 2>
< Bye, 1>
Ecosistema Hadoop

MAPREDUCE: Control
‣ Se ejecutan ‘jobs’ que el framework divide
en ‘tasks’
‣ Master JobTracker
‣ TaskTracker por nodo
Ecosistema Hadoop

HDFS
‣ Implementa un único sistema de ﬁcheros
‘juntando las capacidades’ de todos los
nodos
‣ Es transparente para el programador
‣ Se implementa tolerancia a fallos con nodos
de ‘backup’
Ecosistema Hadoop

HDFS
http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs-
and-mapreduce/
Ecosistema Hadoop

http://oreilly.com/data/radarreports/planning-for-big-data.csp
Ecosistema Hadoop

Problemas de las BBDD
relacionales
‣ Leer datos completos es costoso (‘joins’)
‣ Transacciones (‘integridad’)
‣ Escalabilidad
‣ Cambio del modelo de datos (migraciones)

Soluciones NoSQL
‣ Almacenes clave-valor (Redis, BerkeleyDB,
Tokyo Cabinet)
‣ Orientadas a documento (MongoDB,
CouchDB, ElasticSearch, Solr)
‣ Orientadas a columnas (Cassandra, HBase,
BigTable)

NoSQL: Elasticsearch
http://www.elasticsearch.org/

NoSQL: Elasticsearch
http://www.elasticsearch.org/overview/kibana/

Big Data: Streaming
TwitterGet
GetSentiment
GetInﬂuence
Index
in out
outin
out
in

Big Data: Spark
‣ Procesado en memoria (x100 faster)
‣ Data pipe-lines (streaming)
‣ APIs: Java, Scala, Python (2-5 menos código)
‣ El proyecto más activo del ecosistema
Hadoop
‣ “Data-sharing”
‣ “Big Data Uniﬁer”

Real-time processing
‣ Batch vs Real-time
‣ Hadoop anclado en Java
‣ Spark (Scala)
‣ Storm (Clojure)
http://www.ibm.com/developerworks/library/os-spark/#resources

Outliers Collective: Nuestras
Herramientas
‣ Visualización: D3.js
‣ Análisis:
‣ Texto: Python + Pattern
‣ Redes: Networkx + Gephi
‣ Estadística: R
‣ Persistencia: MongoDB, ElasticSearch

Profile mining
‘Podemos’ fanbase affiliation
https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Proﬁle mining
PSOE fanbase aﬃliation

Proﬁle mining
‘Podemos’ fanbase jobs

Proﬁle mining
‘PP’ fanbase jobs

http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/
Outliers Collective+ProdigiosoVolcán, 2014

http://www.324.cat/eleccions-catalunya-2012/tuitometre
Outliers Collective, 2012

http://www.lainformacion.com/
En Paradigma Tecnológico, 2008

Outliers Collective yYolanda Quintana, 2013
http://viralgezi.outliers.es/

Outliers Collective,Alberto González Paje, Rafael Höhr, 2013
http://innovabbva.outliers.es/

#LoQueCrece-@pentagrowth: IdeasForChange + Outliers Collective

http://ﬂocker.outliers.es
Outliers Collective, 2013

http://assets.outliers.es/SocialGood/
Outliers Collective + Alberto González, 2013

http://vimeo.com/71084828
http://bcnbeats.outliers.es/
Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013

Referencias
http://www.goodreads.com/shelf/show/big-data

¿Preguntas?
¡Gracias por el interés!

Big Data y su valor en el mercado

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Viewers also liked

Viewers also liked (20)

Similar to Big Data y su valor en el mercado

Similar to Big Data y su valor en el mercado (20)

More from Outliers Collective

More from Outliers Collective (20)

Recently uploaded

Recently uploaded (20)

Big Data y su valor en el mercado