SlideShare a Scribd company logo
1 of 111
Hadoop MapReducepara procesar grandes cantidades dedatos Raúl Ochoa
Antecedentes
Antecedentes Sistemas Distribuidos
Antecedentes Sistemas Distribuidos Programación Funcional
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google Crédito de Libre Elección
Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google Crédito de Libre Elección
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
Introducción
Introducción Objetivos Base Características Historia Powered by Comparación con otros sistemas
Objetivos Open Source Computación distribuida Procesar grandes cantidades de datos
Objetivos Open Source Computación distribuida Procesar grandes cantidades de datos
Objetivos Open Source Computación distribuida Procesar grandes cantidades de datos
Base MapReduce GFS
Características Escalable Económico Eficiente Fiable
Características Escalable Económico Eficiente Fiable
Características Escalable Económico Eficiente Fiable
Características Escalable Económico Eficiente Fiable
Historia Creador: Doug Cutting 2002-2004: Nutch 2004-2006: GFS & MapReducePapers 2006-2008: Yahoo!
Historia Creador: Doug Cutting 2002-2004: Nutch 2004-2006: GFS & MapReducePapers 2006-2008: Yahoo!
Historia Creador: Doug Cutting 2002-2004: Nutch 2004-2006: GFS & MapReducePapers 2006-2008: Yahoo!
Historia Creador: Doug Cutting 2002-2004: Nutch 2004-2006: GFS & MapReducePapers 2006-2008: Yahoo!
Powered by Hadoop http://wiki.apache.org/hadoop/PoweredBy
Comparación RDBMS GridComputing SETI@home et al.
Comparación RDBMS GridComputing SETI@home et al.
Comparación RDBMS GridComputing SETI@home et al.
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
MapReduce
MapReduce Computación distribuida
DEAD LOCK
MapReduce Computación distribuida Programación Funcional
MapReduce Computación distribuida Programación Funcional Funciones Map y Reduce
Map Input map() Output
Reduce Input reduce() Output
MapReduce Computación distribuida Programación Funcional Funciones Map y Reduce map() y reduce() en Python
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
HDFS
HDFS Suposiciones y Objetivos Arquitectura NameNodes DataNodes Otras características
Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad
Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad
Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad
Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad
Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad
Arquitectura
Arquitectura Espacio de nombres único Escribir una vez, leer varias Archivos divididos en bloques Acceso directo a los datos
Arquitectura Espacio de nombres único Escribir una vez, leer varias Archivos divididos en bloques Acceso directo a los datos
Arquitectura Espacio de nombres único Escribir una vez, leer varias Archivos divididos en bloques Acceso directo a los datos
Arquitectura Espacio de nombres único Escribir una vez, leer varias Archivos divididos en bloques Acceso directo a los datos
Arquitectura
NameNode Controla el espacio de nombres Ficheros <> Bloques Bloques <> DataNodes Configuración de cluster Metadata
NameNodeMetadata En memoria Ficheros Atributos: creación, factor de replica. Bloques Bloques <> DataNodes LOG
Arquitectura
DataNode Servidor de bloques Reportes al NameNode Envió de datos a otros DataNodes
DataNode Servidor de bloques Reportes al NameNode Envió de datos a otros DataNodes
DataNode Servidor de bloques Reportes al NameNode Envió de datos a otros DataNodes
Arquitectura
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web
Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz de acceso
Fallos en NameNode Single Point of Failure LOG NameNode secundario
Lectura/Escritura Lectura Escritura
Lectura/Escritura Lectura Escritura
Más HDFS HDFS APIs MountableHDFS
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
MapReduce + HDFS
Nuevos componentes JobTracker TaskTracker
Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Format ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region
HadoopStreaming Utilidad Sencillez Pensar en tuberías (à la POSIX) Prototipado rápido No Java Demo
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
Subproyectos
Subproyectos Pig Hive HBase MapReduce HDFS ZooKeeper Core
Pig Hive HBase ZooKeeper Core MapReduce HDFS Core
ZooKeeper Pig Hive HBase MapReduce HDFS ZooKeeper Core
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento
Pig Pig Hive HBase MapReduce HDFS ZooKeeper Core
Pig Lenguaje de script: PigLatin Nivel de abstracción Operaciones y transformaciones MapReduce Jobs No es SQL
Hive Pig Hive HBase MapReduce HDFS ZooKeeper Core
Hive Análisis de datos Datos estructurados Query Language (à la SQL) No es un sistema Real Time
HBase Pig Hive HBase MapReduce HDFS ZooKeeper Core
HBase Base de Datos Distribuida Orientada a columnas Basada en BigTable
Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo
Demo
Documentación Hadoop Homepagehttp://hadoop.apache.org/ HadoopWikihttp://wiki.apache.org/hadoop/
Libros Hadoop: TheDefinitiveGuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/ Hadoop in ActionChuck Lam y James Warren –Manning (Octubre 2009)http://www.manning.com/lam/ Pro HadoopJason Venner–Apress (No publicado)http://www.apress.com/book/view/1430219424
Preguntas?
Créditos imágenes Deadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic
Gracias Raúl Ochoa rochoaf@gmail.com

More Related Content

What's hot

What's hot (20)

BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache HadoopHerramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
 
Presentacion
PresentacionPresentacion
Presentacion
 
Hadoop
HadoopHadoop
Hadoop
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
3. Hadoop
3.  Hadoop3.  Hadoop
3. Hadoop
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Taller hadoop
Taller hadoopTaller hadoop
Taller hadoop
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Webinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinWebinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y Zeppelin
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
 
GOsa+samba+ldap
GOsa+samba+ldapGOsa+samba+ldap
GOsa+samba+ldap
 

Viewers also liked

Viewers also liked (6)

Introduccion apache hadoop
Introduccion apache hadoopIntroduccion apache hadoop
Introduccion apache hadoop
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Seminario mongo db springdata 10-11-2011
Seminario mongo db springdata 10-11-2011Seminario mongo db springdata 10-11-2011
Seminario mongo db springdata 10-11-2011
 
PPT on Hadoop
PPT on HadoopPPT on Hadoop
PPT on Hadoop
 

Similar to Hadoop: MapReduce para procesar grandes cantidades de datos

Servicios de datos en la nube
Servicios de datos en la nubeServicios de datos en la nube
Servicios de datos en la nube
Juan Pablo
 
Active directory
Active directoryActive directory
Active directory
Erii Amaya
 
Presentacion 3 archivos
Presentacion 3 archivosPresentacion 3 archivos
Presentacion 3 archivos
ackroes
 

Similar to Hadoop: MapReduce para procesar grandes cantidades de datos (20)

Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Obvios herramientas de un SGDB
Obvios herramientas de un SGDBObvios herramientas de un SGDB
Obvios herramientas de un SGDB
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
SMBD 2011
SMBD 2011SMBD 2011
SMBD 2011
 
SMBD 2011
SMBD 2011SMBD 2011
SMBD 2011
 
Servicios de datos en la nube
Servicios de datos en la nubeServicios de datos en la nube
Servicios de datos en la nube
 
Active directory
Active directoryActive directory
Active directory
 
Práctica 7
Práctica 7Práctica 7
Práctica 7
 
Experts Live 2018: Azure Storage y la plataforma de datos
Experts Live 2018: Azure Storage y la plataforma de datosExperts Live 2018: Azure Storage y la plataforma de datos
Experts Live 2018: Azure Storage y la plataforma de datos
 
Pre-POSTGIS_F36sy7E.pptx
Pre-POSTGIS_F36sy7E.pptxPre-POSTGIS_F36sy7E.pptx
Pre-POSTGIS_F36sy7E.pptx
 
Base de datos sql
Base de datos sqlBase de datos sql
Base de datos sql
 
mini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQLmini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQL
 
Active directory
Active directoryActive directory
Active directory
 
Polybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datosPolybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datos
 
Sistemas de gestión de base de datos
Sistemas de gestión de base de datosSistemas de gestión de base de datos
Sistemas de gestión de base de datos
 
Comparación de algunos SGBDR
Comparación de algunos SGBDRComparación de algunos SGBDR
Comparación de algunos SGBDR
 
Base De Datos
Base De DatosBase De Datos
Base De Datos
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Presentacion 3 archivos
Presentacion 3 archivosPresentacion 3 archivos
Presentacion 3 archivos
 

Recently uploaded

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Recently uploaded (12)

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Hadoop: MapReduce para procesar grandes cantidades de datos