SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Hadoop
Rodolfo Campos
@camposer
Madrid, Noviembre de 2015
Agenda
1. Introducción a Big Data.
2. NoSQL
3. Hadoop
- HDFS
- MapReduce
- Pig
- Hive
- HBase
Justificación
Tendencia: Usuarios de Facebook
Justificación
Tendencia: Twitter. Tweets por día
Justificación
●Walmart maneja más de 1 millón de transacciones por hora
●Google procesa aprox. 24 PB de data al día
●AT&T transfiere aprox. 30 PB de data al día
●Todos los días son enviados aprox. 90 mil millones de correos
electrónicos
●World of Warcraft utiliza 1.3 PB de almacenamiento
www.internetlivestats.com
Justificación
Tendencia: Crecimiento de la data en el mundo
Definición
Según Wikipedia en Español, Big Data es:
●Big Data es en el sector de tecnologías de la información y la
comunicación una referencia a los sistemas que manipulan
grandes conjuntos de datos (o data sets).
●Las dificultades más habituales en estos casos se centran en la
captura, el almacenado, búsqueda, compartición, análisis, y
visualización.
●La tendencia a manipular ingentes cantidades de datos se debe
a la necesidad en muchos casos de incluir los datos
relacionados del análisis en un gran conjunto de datos
relacionado, tal es el ejemplo de los análisis de negocio, los
datos de enfermedades infecciosas, o la lucha contra el crimen
organizado.
La búsqueda
●La búsqueda de datos se realiza a través de diferentes
herramientas, generalmente: lenguajes SQL, pseudo SQL y
específicos.
●Debido a la naturaleza, generalmente distribuida del
almacenamiento, algunos motores se valen de entornos de
trabajo específicos como MapReduce que buscan operar sobre
los diferentes nodos del sistema de forma independiente y
generar resultados independientes a partir de estos.
El almacenado
●El almacenamiento se lleva a cabo generalmente apoyándose
en motores de bases de datos NoSQL
●El volumen de datos es un reto, por lo que las escalabilidad y la
tolerancia a fallos son de los principales retos a manejar.
●Generalmente el almacenamiento se realiza en Sistemas
Distribuidos en lugar de Centralizados
El análisis
●El análisis de los datos se realiza de forma inline y offline,
dependiendo del problema a resolver y del motor de base de
datos utilizado.
●La mayoría de motores de bases de datos (en la mayoría
NoSQL) proveen conectores para trabajar con los lenguajes de
programación más populares.
●Si el problema a resolver no requiere de un mayor
procesamiento, el análisis de los datos se puede elaborar de
forma inline, en caso contrario, se suelen utilizar técnicas offline
(Ej. trabajos por lote)
NoSQL
Según la Wikipedia en Español, NoSQL se refiere a:
●Una amplia clase de sistemas de gestión de bases de datos que
difieren del modelo clásico del sistema de gestión de bases de
datos relacionales (RDBMS) en aspectos importantes, el más
destacado que no usan SQL como el principal lenguaje de
consultas.
●Los datos almacenados no requieren estructuras fijas como
tablas, normalmente no soportan operaciones JOIN, ni
garantizan completamente ACID (atomicidad, coherencia,
aislamiento y durabilidad), y habitualmente escalan bien
horizontalmente
Tipos de motores NoSQL
Los tipos de motores NoSQL más importantes son:
●Tabulares u Orientados a Columnas (Ej. HBase, Cassandra)
●Orientados a documentos (Ej. MongoDB)
●De clave-valor (Ej. Redis)
●Orientados a grafos (Ej. Neo4J)
Teorema de CAP
Hadoop
●Apache Hadoop es un marco de trabajo que facilita la computación
distribuida para grandes conjuntos de datos sobre clusters de
máquinas utilizando modelos de programación sencillos.
●Fue diseñado para escalar rápidamente y está compuesto por los
siguientes módulos:
● Hadoop Common. Utilidades comunes usadas por todos los
módulos.
● Hadoop Distributed File System (HDFS). Un sistema de archivos
distribuido que provee un alto rendimiento en el acceso a datos.
● Hadoop YARN (Yet Another Resource Negotiator). Un marco de
trabajo para planificación de trabajos (jobs) y gestión de los
recursos de cluster.
● Hadoop MapReduce. Un systema basado en YARN para el
procesamiento de grandes volúmenes de datos.
Hadoop
Aparte de los módulos mencionados anteriormente, hay un conjunto
de tecnologías relacionadas al proyecto. Algunas de las más
importantes:
● Pig. Lenguaje de flujo de datos para consultar HDFS o HBase. Las
sentencias son traducidas a MapReduce.
● Hive. Interfaz SQL para consultar HDFS o HBase. Las sentencias
son traducidas a MapReduce.
● HBase. Manejador de Bases de Datos NoSQL tabular que provee
acceso aleatorio rápido, sobre HDFS y soporta MapReduce.
● Sqoop. Permite transferir datos entre RDBMS y Hadoop.
● Oozie. Automatiza la gestión de trabajos (jobs).
● Flume. Herramientas de agregación distribuida.
● Avro. Sistema de serialización de datos flexible basado en JSON.
● Mahout. Librería scalable de Aprendizaje Automático (Machine
Learning).
Hadoop - HDFS
Hadoop - MapReduce
Hadoop - MapReduce
Hadoop - MapReduce
Pig
●Pig provee una herramienta para el procesamiento de datasets a
través de transformaciones. Las diferentes transformaciones son
traducidas a operaciones MapReduce.
●Pig tiene dos componentes: el lenguaje (PigLatin) y el entorno de
ejecución (sobre Hadoop).
●Pig posee un intérprete de comandos llamado Grunt, aunque también
permite scripts y modo embebido (nativo Java)
●El lenguaje permite utilizar estructuras, sentencias, expresiones,
tipos, esquemas, funciones predefinidas, macros (procedimientos) y
funciones definidas por el usuario.
Hive
●Apache Hive permite realizar búsquedas y gestionar grandes
conjuntos de datos almacenados de forma distribuida.
●Provee un mecanismo que permite proyectar la data de forma
estructurada y consultarla a través de sentencias pseudo SQL
(HiveQL).
●El lenguaje también permite a los programadores de MapReduce
incluir mappers y reducers personalizados cuando es inconveniente o
ineficiente expresar la lógica a través de HiveQL.
HBase
●Motor NoSQL Orientado a Columnas, específicamente a familia de
columnas. Cada fila contiene un conjunto de columnas pertenecientes
a una familia.
●Funciona sobre HDFS y ZooKeeper.
●Ofrece acceso aleatorio garantizando alta disponibilidad
●Se pueden agregar dinámicamente nuevas columnas siempre y
cuando pertenezcan a familias previamente definidas.
●Las tablas son particionadas horizontalmente automáticamente en
regiones.
●Las actualizaciones de filas son atómicas.
HBase

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con Cloudera
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Hadoop
HadoopHadoop
Hadoop
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 

Similar a Hadoop

Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
eduardojose55
 
Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.
uggi2003
 

Similar a Hadoop (20)

MongoDB
MongoDBMongoDB
MongoDB
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Base de datos no sql
Base de datos no sqlBase de datos no sql
Base de datos no sql
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Act4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaAct4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalba
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Big Data
Big DataBig Data
Big Data
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Big data
Big dataBig data
Big data
 
Base de datos
Base de datos Base de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Que es una base de datos
Que es una base de datosQue es una base de datos
Que es una base de datos
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.
 

Más de camposer (8)

Fundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQLFundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQL
 
Fundamentos de SQL
Fundamentos de SQLFundamentos de SQL
Fundamentos de SQL
 
Javascript Básico
Javascript BásicoJavascript Básico
Javascript Básico
 
Seguridad web
Seguridad webSeguridad web
Seguridad web
 
Linear Regression Parameters
Linear Regression ParametersLinear Regression Parameters
Linear Regression Parameters
 
Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupal
 
Extracción de Requerimientos
Extracción de RequerimientosExtracción de Requerimientos
Extracción de Requerimientos
 

Último

Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
arteagaara
 

Último (20)

Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 

Hadoop

  • 2. Agenda 1. Introducción a Big Data. 2. NoSQL 3. Hadoop - HDFS - MapReduce - Pig - Hive - HBase
  • 5. Justificación ●Walmart maneja más de 1 millón de transacciones por hora ●Google procesa aprox. 24 PB de data al día ●AT&T transfiere aprox. 30 PB de data al día ●Todos los días son enviados aprox. 90 mil millones de correos electrónicos ●World of Warcraft utiliza 1.3 PB de almacenamiento www.internetlivestats.com
  • 7. Definición Según Wikipedia en Español, Big Data es: ●Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). ●Las dificultades más habituales en estos casos se centran en la captura, el almacenado, búsqueda, compartición, análisis, y visualización. ●La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.
  • 8. La búsqueda ●La búsqueda de datos se realiza a través de diferentes herramientas, generalmente: lenguajes SQL, pseudo SQL y específicos. ●Debido a la naturaleza, generalmente distribuida del almacenamiento, algunos motores se valen de entornos de trabajo específicos como MapReduce que buscan operar sobre los diferentes nodos del sistema de forma independiente y generar resultados independientes a partir de estos.
  • 9. El almacenado ●El almacenamiento se lleva a cabo generalmente apoyándose en motores de bases de datos NoSQL ●El volumen de datos es un reto, por lo que las escalabilidad y la tolerancia a fallos son de los principales retos a manejar. ●Generalmente el almacenamiento se realiza en Sistemas Distribuidos en lugar de Centralizados
  • 10. El análisis ●El análisis de los datos se realiza de forma inline y offline, dependiendo del problema a resolver y del motor de base de datos utilizado. ●La mayoría de motores de bases de datos (en la mayoría NoSQL) proveen conectores para trabajar con los lenguajes de programación más populares. ●Si el problema a resolver no requiere de un mayor procesamiento, el análisis de los datos se puede elaborar de forma inline, en caso contrario, se suelen utilizar técnicas offline (Ej. trabajos por lote)
  • 11. NoSQL Según la Wikipedia en Español, NoSQL se refiere a: ●Una amplia clase de sistemas de gestión de bases de datos que difieren del modelo clásico del sistema de gestión de bases de datos relacionales (RDBMS) en aspectos importantes, el más destacado que no usan SQL como el principal lenguaje de consultas. ●Los datos almacenados no requieren estructuras fijas como tablas, normalmente no soportan operaciones JOIN, ni garantizan completamente ACID (atomicidad, coherencia, aislamiento y durabilidad), y habitualmente escalan bien horizontalmente
  • 12. Tipos de motores NoSQL Los tipos de motores NoSQL más importantes son: ●Tabulares u Orientados a Columnas (Ej. HBase, Cassandra) ●Orientados a documentos (Ej. MongoDB) ●De clave-valor (Ej. Redis) ●Orientados a grafos (Ej. Neo4J)
  • 14. Hadoop ●Apache Hadoop es un marco de trabajo que facilita la computación distribuida para grandes conjuntos de datos sobre clusters de máquinas utilizando modelos de programación sencillos. ●Fue diseñado para escalar rápidamente y está compuesto por los siguientes módulos: ● Hadoop Common. Utilidades comunes usadas por todos los módulos. ● Hadoop Distributed File System (HDFS). Un sistema de archivos distribuido que provee un alto rendimiento en el acceso a datos. ● Hadoop YARN (Yet Another Resource Negotiator). Un marco de trabajo para planificación de trabajos (jobs) y gestión de los recursos de cluster. ● Hadoop MapReduce. Un systema basado en YARN para el procesamiento de grandes volúmenes de datos.
  • 15. Hadoop Aparte de los módulos mencionados anteriormente, hay un conjunto de tecnologías relacionadas al proyecto. Algunas de las más importantes: ● Pig. Lenguaje de flujo de datos para consultar HDFS o HBase. Las sentencias son traducidas a MapReduce. ● Hive. Interfaz SQL para consultar HDFS o HBase. Las sentencias son traducidas a MapReduce. ● HBase. Manejador de Bases de Datos NoSQL tabular que provee acceso aleatorio rápido, sobre HDFS y soporta MapReduce. ● Sqoop. Permite transferir datos entre RDBMS y Hadoop. ● Oozie. Automatiza la gestión de trabajos (jobs). ● Flume. Herramientas de agregación distribuida. ● Avro. Sistema de serialización de datos flexible basado en JSON. ● Mahout. Librería scalable de Aprendizaje Automático (Machine Learning).
  • 20. Pig ●Pig provee una herramienta para el procesamiento de datasets a través de transformaciones. Las diferentes transformaciones son traducidas a operaciones MapReduce. ●Pig tiene dos componentes: el lenguaje (PigLatin) y el entorno de ejecución (sobre Hadoop). ●Pig posee un intérprete de comandos llamado Grunt, aunque también permite scripts y modo embebido (nativo Java) ●El lenguaje permite utilizar estructuras, sentencias, expresiones, tipos, esquemas, funciones predefinidas, macros (procedimientos) y funciones definidas por el usuario.
  • 21. Hive ●Apache Hive permite realizar búsquedas y gestionar grandes conjuntos de datos almacenados de forma distribuida. ●Provee un mecanismo que permite proyectar la data de forma estructurada y consultarla a través de sentencias pseudo SQL (HiveQL). ●El lenguaje también permite a los programadores de MapReduce incluir mappers y reducers personalizados cuando es inconveniente o ineficiente expresar la lógica a través de HiveQL.
  • 22. HBase ●Motor NoSQL Orientado a Columnas, específicamente a familia de columnas. Cada fila contiene un conjunto de columnas pertenecientes a una familia. ●Funciona sobre HDFS y ZooKeeper. ●Ofrece acceso aleatorio garantizando alta disponibilidad ●Se pueden agregar dinámicamente nuevas columnas siempre y cuando pertenezcan a familias previamente definidas. ●Las tablas son particionadas horizontalmente automáticamente en regiones. ●Las actualizaciones de filas son atómicas.
  • 23. HBase