SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Deduplicación en el backup de datos
OpenExpo Day 2015
16 de junio 2015
Martín Domínguez Fernández
Responsable de Consultoría y Preventa
en WhiteBearSolutions
Objetivos del taller
Entender qué es la deduplicación y porque
se necesita…
Entender qué opciones tecnológicas
tenemos y cuál debemos elegir…
Dimensionar correctamente un sistema de
backup con deduplicación…
Presentar alternativas Open y sus ventajas
frente a las soluciones cerradas…
La deduplicación
El escenario...
Las organizaciones almacenan
gran cantidad de datos.
El respaldo de los datos es
necesario, pero es caro.
Los datos siguen creciendo,
entre un 50 – 60 % anual!!
Se hace necesario recurrir a cintas para el almacenamiento de grandes
cantidades de datos, pero....
Las cintas son lentas!!
Las cintas fallan!!
Las cintas ocupan espacio!!
La deduplicación…
La deduplicación es una tecnología que elimina los datos duplicados
reduciendo considerablemente el tamaño de los datos almacenados.
Se mantiene un listado de referencias a los bloques con datos
No es compresión ni thin provisioning , pero tiene un poco de ambas
y se puede combinar con ellas
Reduce los costes de almacenamiento
El backup es un candidato ideal!!
Qué puede hacer por mi…
Nuestra organización tiene 20TB de datos almacenados
Mensualmente se crean 2TB de datos nuevos
¿Cuanto almacenamiento necesitamos?
Sin deduplicación:
tamaño = (datos almacenados + cambio semanal) x retención
Con deduplicación:
tamaño = (datos almacenados + cambio semanal) x retención
0 TB
50 TB
100 TB
150 TB
Week 1 Week 2 Week 3 Week 4 Week 5
20 TB 22 TB 24 TB 26 TB 28 TB
20 TB
42 TB
66 TB
92 TB
120 TB
with dedup
without dedup
Datos en 5 semanas de retención:
Información única: 28TB
Información duplicada: 92TB
¿Cómo funciona?
La unidad…
A nivel de fichero:
A nivel de software
Mejor rendimiento general
Falta de granularidad
Peores ratios de deduplicación
SOLUCIÓN:
Dividir los ficheros en
pequeñas partes: “chunks”
A nivel de bloque:
A nivel de filesystem
Necesidad de más recursos
Buenos ratios de dedupliación
menor tamaño de bloque
+ ratio
+ recursos
MEJORA:
Bloque de tamaño variable
9
El momento…
deduplicación off-line:
no afecta al rendimiento R/W
requiere espacio para alojar los
datos antes de ser deduplicados
requiere más I/O
deduplicación in-line
aporta el ahorro de espacio de
forma instantánea
puede afectar al rendimiento
R/W
Más trabajo en RAM, menos I/O
10
El lugar…
en origen “source”:
la carga está en el cliente
su objetivo es enviar la mínima
cantidad de datos, pero hay que tener
cuidado con el proceso
en destino “target”
la carga está en el servidor
permite deduplicar los datos de varios
clientes, lo cual hace que se consigan
mejores ratios
11
Qué elegir…
(File-level + chunks) ≈ Block-level
(in-line + recursos) > off-line
¿target vs source? Lo ideal sería contar con ambas tecnologías…
Global data deduplication
Deduplica en el origen
Antes de enviar un bloque, comprueba
si está en destino
Deduplica entre varios clientes
Maximiza el uso del ancho de banda
Mejora los tiempos de restauración
Reparte el trabajo entre clientes y
servidor
12
Dimensionando el sistema…
13
Información clásica que recopilar…
Datos de origen: conoce cuanta información vas a respaldar, eso te
dará un punto de partida para dimensionar el sistema.
Numero de copias a guardar: establece tu RPO y tu RTO para tus
necesidades y define una retención.
Incremento de datos por copia: te dará el dato definitivo de
dimensionamiento teórico del sistema.
0 TB
50 TB
100 TB
150 TB
Week 1 Week 2 Week 3 Week 4 Week 5
20 TB
42 TB
66 TB
92 TB
120 TB
20 TB 22 TB 24 TB 26 TB 28 TB
with dedup
without dedup
Estimación para 5 semanas:
Tamaño necesario: 28TB
Con compresión (2:1): 14TB
14
¿Es suficiente…?
NO. Muchos sistemas de backup con
deduplicación fracasan y las principales causas
son dos:
las tasas de deduplicación no son las
esperadas y el almacenamiento
dimensionado no es suficiente, haciéndonos
invertir más dinero del esperado
el rendimiento de la solución es muy bajo,
tanto en backup como en restauración y
hace que incumplamos nuestras ventanas
15
Cuál es el problema…
La deduplicación no es gratis, tiene unos
costes:
Posibilidad de colisiones: corrupción de datos
Uso intensivo de CPU: hashing, indexación…
Uso de grandes cantidades de memoria:
tablas de referencia a bloques
Fragmentación de la información: bloques
dispersos en disco
Planificación de sistemas en función de los
datasheets comerciales de los fabricantes:
dimensionamiento erróneo
16
Conoce la tecnología…
El hashing consume CPU
Las tablas de índices consumen memoria
Los sistemas de caché consumen memoria
Los accesos a disco son lentos. Si algo no cabe en memoria, mejor
en SSD
El tamaño del bloque importa:
Muy grande, baja deduplicación
Muy pequeño, bajo rendimiento
Opciones de bloque variable
17
El tipo de dato…
¿Qué deduplica bien? En general, conjuntos de datos que cambian
poca información
Directorios de usuarios, sistemas de log, Directorios de OS, sistemas de
archivado…
¿Qué deduplica mal? Conjuntos de datos muy cambiantes,
comprimidos o cifrados.
BBDD relacionales, Datawharehouses / BI, Sistemas de correo maildir,
Sistemas que comprimen o cifran datos…
Backups incrementales
A mayor numero de copias, mejor tasa de deduplicación
Es importante es probar que los datos deduplican tal como
esperamos
18
WBSAirback®
&
Bacula Enterprise Edition
19
WBSAirback: ZFS on Linux...
Es un appliance de backup que ofrece
“target deduplication”.
Integra Bacula Enterprise como motor
de backup y su plugin “Aligned
volumes”
ZOL es un porting de ZFS de SUN para Linux
Deduplica a nivel de bloque, de tamaño
variable
Ofrece deduplicación in-line y compresión LZ4
Utiliza un sistema de caché multinivel que hace
que el rendimiento del sistema sea muy alto
20
WBSAirback: ZFS on Linux...
21
Bacula Global Endpoint Dedup.
Permite aplicación en origen y destino
Trabaja con “chunks” de ficheros de tamaño
variable
Mantiene una tabla de hash por “chunk”, residente
en SSD
Utiliza sistemas de caché en memoria para más
rápido acceso
Implementa la funcionalidad “Client Rehydration”
que permite utilizar los datos residentes en el
cliente para no enviarlos de nuevo.
22
Bacula Global Endpoint Dedup.
¿Preguntas?
¡Muchas gracias!
http://www.whitebearsolutions.com
@WhiteBear_WBSgo
@mtindominguez

Más contenido relacionado

Destacado

Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015OpenExpoES
 
OpenStack: Retos y oportunidades- OpenExpo Day 2015
OpenStack: Retos y oportunidades- OpenExpo Day 2015OpenStack: Retos y oportunidades- OpenExpo Day 2015
OpenStack: Retos y oportunidades- OpenExpo Day 2015OpenExpoES
 
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015OpenExpoES
 
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...OpenExpoES
 
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015OpenExpoES
 
Typo3: El CMS que vino del frío
Typo3: El CMS que vino del fríoTypo3: El CMS que vino del frío
Typo3: El CMS que vino del fríoOpenExpoES
 
Modelos y experiencias de innovación en marketing digital usando Open Source ...
Modelos y experiencias de innovación en marketing digital usando Open Source ...Modelos y experiencias de innovación en marketing digital usando Open Source ...
Modelos y experiencias de innovación en marketing digital usando Open Source ...OpenExpoES
 
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...OpenExpoES
 
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015OpenExpoES
 
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)GESSI UPC
 
Casos éxito con Woocommerce- OpenExpo Day
Casos éxito con Woocommerce- OpenExpo Day Casos éxito con Woocommerce- OpenExpo Day
Casos éxito con Woocommerce- OpenExpo Day OpenExpoES
 
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015OpenExpoES
 
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015OpenExpoES
 
Cloud Wars- OpenExpo Day 2015
Cloud Wars- OpenExpo Day 2015Cloud Wars- OpenExpo Day 2015
Cloud Wars- OpenExpo Day 2015OpenExpoES
 
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015OpenExpoES
 
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015OpenExpoES
 
Taller de Angular JS: La solución tecnológica perfecta
Taller de Angular JS: La solución tecnológica perfectaTaller de Angular JS: La solución tecnológica perfecta
Taller de Angular JS: La solución tecnológica perfectaOpenExpoES
 
El software libre como una buena oportunidad para las grandes empresas- OpenE...
El software libre como una buena oportunidad para las grandes empresas- OpenE...El software libre como una buena oportunidad para las grandes empresas- OpenE...
El software libre como una buena oportunidad para las grandes empresas- OpenE...OpenExpoES
 
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...OpenExpoES
 

Destacado (20)

Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
 
OpenStack: Retos y oportunidades- OpenExpo Day 2015
OpenStack: Retos y oportunidades- OpenExpo Day 2015OpenStack: Retos y oportunidades- OpenExpo Day 2015
OpenStack: Retos y oportunidades- OpenExpo Day 2015
 
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
 
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
 
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
 
Typo3: El CMS que vino del frío
Typo3: El CMS que vino del fríoTypo3: El CMS que vino del frío
Typo3: El CMS que vino del frío
 
Modelos y experiencias de innovación en marketing digital usando Open Source ...
Modelos y experiencias de innovación en marketing digital usando Open Source ...Modelos y experiencias de innovación en marketing digital usando Open Source ...
Modelos y experiencias de innovación en marketing digital usando Open Source ...
 
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
 
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
 
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
 
Casos éxito con Woocommerce- OpenExpo Day
Casos éxito con Woocommerce- OpenExpo Day Casos éxito con Woocommerce- OpenExpo Day
Casos éxito con Woocommerce- OpenExpo Day
 
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
 
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
 
Cloud Wars- OpenExpo Day 2015
Cloud Wars- OpenExpo Day 2015Cloud Wars- OpenExpo Day 2015
Cloud Wars- OpenExpo Day 2015
 
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
 
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
 
Taller de Angular JS: La solución tecnológica perfecta
Taller de Angular JS: La solución tecnológica perfectaTaller de Angular JS: La solución tecnológica perfecta
Taller de Angular JS: La solución tecnológica perfecta
 
El software libre como una buena oportunidad para las grandes empresas- OpenE...
El software libre como una buena oportunidad para las grandes empresas- OpenE...El software libre como una buena oportunidad para las grandes empresas- OpenE...
El software libre como una buena oportunidad para las grandes empresas- OpenE...
 
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
 
ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.
ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.
ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.
 

Similar a Practices: Deduplicación en el backup de datos- OpenExpo Day 2015

Taller no1 introducción_a_base_de_datos yeison pulido
Taller no1 introducción_a_base_de_datos yeison pulidoTaller no1 introducción_a_base_de_datos yeison pulido
Taller no1 introducción_a_base_de_datos yeison pulidoYeisonAndresPulidoLo
 
presentacion de base de datos para su creacion de ella
presentacion de  base de datos para su creacion de ellapresentacion de  base de datos para su creacion de ella
presentacion de base de datos para su creacion de ellaLuisMagaa45
 
Recuperación de desastres y soluciones de alta disponibilidad con SQL Server
Recuperación de desastres y soluciones de alta disponibilidad con SQL ServerRecuperación de desastres y soluciones de alta disponibilidad con SQL Server
Recuperación de desastres y soluciones de alta disponibilidad con SQL ServerSpanishPASSVC
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de informaciónEduardo Agila
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de informaciónEduardo Agila
 
Retos de almacenamiento en la PYME
Retos de almacenamiento en la PYMERetos de almacenamiento en la PYME
Retos de almacenamiento en la PYMENETGEAR Iberia
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de informaciónEduardo Agila
 
Nuevas Tecnologias Del Almacenamiento De InformaciòN
Nuevas Tecnologias Del Almacenamiento De InformaciòNNuevas Tecnologias Del Almacenamiento De InformaciòN
Nuevas Tecnologias Del Almacenamiento De InformaciòNfia
 
material bases de datos
material bases de datosmaterial bases de datos
material bases de datosjoaquin_trejo
 
Resumen Nuevas Tecnologias De Almacenamiento De Informacion
Resumen Nuevas Tecnologias De Almacenamiento De InformacionResumen Nuevas Tecnologias De Almacenamiento De Informacion
Resumen Nuevas Tecnologias De Almacenamiento De Informacionfia
 
Trabajo bases de datos equipo 3 seccion 5
Trabajo bases de datos equipo 3 seccion 5Trabajo bases de datos equipo 3 seccion 5
Trabajo bases de datos equipo 3 seccion 5gerenciaseccion5
 
Trabajo bases de datos equipo 3 sección 5
Trabajo bases de datos equipo 3 sección 5Trabajo bases de datos equipo 3 sección 5
Trabajo bases de datos equipo 3 sección 5milagrocabeza
 

Similar a Practices: Deduplicación en el backup de datos- OpenExpo Day 2015 (20)

Evidencia taller bases de datos
Evidencia taller bases de datosEvidencia taller bases de datos
Evidencia taller bases de datos
 
Taller no1 introducción_a_base_de_datos yeison pulido
Taller no1 introducción_a_base_de_datos yeison pulidoTaller no1 introducción_a_base_de_datos yeison pulido
Taller no1 introducción_a_base_de_datos yeison pulido
 
Taller no1 introducción_a_base_de_datos
Taller no1 introducción_a_base_de_datosTaller no1 introducción_a_base_de_datos
Taller no1 introducción_a_base_de_datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Big data
Big dataBig data
Big data
 
presentacion de base de datos para su creacion de ella
presentacion de  base de datos para su creacion de ellapresentacion de  base de datos para su creacion de ella
presentacion de base de datos para su creacion de ella
 
Recuperación de desastres y soluciones de alta disponibilidad con SQL Server
Recuperación de desastres y soluciones de alta disponibilidad con SQL ServerRecuperación de desastres y soluciones de alta disponibilidad con SQL Server
Recuperación de desastres y soluciones de alta disponibilidad con SQL Server
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de información
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de información
 
Retos de almacenamiento en la PYME
Retos de almacenamiento en la PYMERetos de almacenamiento en la PYME
Retos de almacenamiento en la PYME
 
Sistemas de respaldo de información
Sistemas de respaldo de informaciónSistemas de respaldo de información
Sistemas de respaldo de información
 
Nuevas Tecnologias Del Almacenamiento De InformaciòN
Nuevas Tecnologias Del Almacenamiento De InformaciòNNuevas Tecnologias Del Almacenamiento De InformaciòN
Nuevas Tecnologias Del Almacenamiento De InformaciòN
 
Qué es una base de datos
Qué es una base de datosQué es una base de datos
Qué es una base de datos
 
Flash, un paso adelante
Flash, un paso adelante Flash, un paso adelante
Flash, un paso adelante
 
material bases de datos
material bases de datosmaterial bases de datos
material bases de datos
 
Resumen Nuevas Tecnologias De Almacenamiento De Informacion
Resumen Nuevas Tecnologias De Almacenamiento De InformacionResumen Nuevas Tecnologias De Almacenamiento De Informacion
Resumen Nuevas Tecnologias De Almacenamiento De Informacion
 
Trabajo bases de datos equipo 3 seccion 5
Trabajo bases de datos equipo 3 seccion 5Trabajo bases de datos equipo 3 seccion 5
Trabajo bases de datos equipo 3 seccion 5
 
Trabajo bases de datos equipo 3 sección 5
Trabajo bases de datos equipo 3 sección 5Trabajo bases de datos equipo 3 sección 5
Trabajo bases de datos equipo 3 sección 5
 
Base de datos
Base de datosBase de datos
Base de datos
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 

Más de OpenExpoES

Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...OpenExpoES
 
Las grandes tendencias en IoT y su encaje social
Las grandes tendencias en IoT y su encaje socialLas grandes tendencias en IoT y su encaje social
Las grandes tendencias en IoT y su encaje socialOpenExpoES
 
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCNOpenExpoES
 
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ..."Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...OpenExpoES
 
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCNLa integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCNOpenExpoES
 
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de MadridCómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de MadridOpenExpoES
 
CartoDB Open Source Perks, por Raúl Ochoa de CartoDB
CartoDB Open Source Perks, por Raúl Ochoa de CartoDBCartoDB Open Source Perks, por Raúl Ochoa de CartoDB
CartoDB Open Source Perks, por Raúl Ochoa de CartoDBOpenExpoES
 
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...OpenExpoES
 
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...OpenExpoES
 
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...OpenExpoES
 
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015OpenExpoES
 
Dossier OpenExpo Day 2015 v1.0.4
Dossier OpenExpo Day 2015 v1.0.4 Dossier OpenExpo Day 2015 v1.0.4
Dossier OpenExpo Day 2015 v1.0.4 OpenExpoES
 

Más de OpenExpoES (12)

Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
 
Las grandes tendencias en IoT y su encaje social
Las grandes tendencias en IoT y su encaje socialLas grandes tendencias en IoT y su encaje social
Las grandes tendencias en IoT y su encaje social
 
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
 
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ..."Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
 
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCNLa integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
 
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de MadridCómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
 
CartoDB Open Source Perks, por Raúl Ochoa de CartoDB
CartoDB Open Source Perks, por Raúl Ochoa de CartoDBCartoDB Open Source Perks, por Raúl Ochoa de CartoDB
CartoDB Open Source Perks, por Raúl Ochoa de CartoDB
 
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
 
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
 
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
 
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
 
Dossier OpenExpo Day 2015 v1.0.4
Dossier OpenExpo Day 2015 v1.0.4 Dossier OpenExpo Day 2015 v1.0.4
Dossier OpenExpo Day 2015 v1.0.4
 

Último

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 

Último (11)

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 

Practices: Deduplicación en el backup de datos- OpenExpo Day 2015

  • 1. Deduplicación en el backup de datos OpenExpo Day 2015 16 de junio 2015 Martín Domínguez Fernández Responsable de Consultoría y Preventa en WhiteBearSolutions
  • 2. Objetivos del taller Entender qué es la deduplicación y porque se necesita… Entender qué opciones tecnológicas tenemos y cuál debemos elegir… Dimensionar correctamente un sistema de backup con deduplicación… Presentar alternativas Open y sus ventajas frente a las soluciones cerradas…
  • 4. El escenario... Las organizaciones almacenan gran cantidad de datos. El respaldo de los datos es necesario, pero es caro. Los datos siguen creciendo, entre un 50 – 60 % anual!! Se hace necesario recurrir a cintas para el almacenamiento de grandes cantidades de datos, pero.... Las cintas son lentas!! Las cintas fallan!! Las cintas ocupan espacio!!
  • 5. La deduplicación… La deduplicación es una tecnología que elimina los datos duplicados reduciendo considerablemente el tamaño de los datos almacenados. Se mantiene un listado de referencias a los bloques con datos No es compresión ni thin provisioning , pero tiene un poco de ambas y se puede combinar con ellas Reduce los costes de almacenamiento El backup es un candidato ideal!!
  • 6. Qué puede hacer por mi… Nuestra organización tiene 20TB de datos almacenados Mensualmente se crean 2TB de datos nuevos ¿Cuanto almacenamiento necesitamos? Sin deduplicación: tamaño = (datos almacenados + cambio semanal) x retención Con deduplicación: tamaño = (datos almacenados + cambio semanal) x retención 0 TB 50 TB 100 TB 150 TB Week 1 Week 2 Week 3 Week 4 Week 5 20 TB 22 TB 24 TB 26 TB 28 TB 20 TB 42 TB 66 TB 92 TB 120 TB with dedup without dedup Datos en 5 semanas de retención: Información única: 28TB Información duplicada: 92TB
  • 8. La unidad… A nivel de fichero: A nivel de software Mejor rendimiento general Falta de granularidad Peores ratios de deduplicación SOLUCIÓN: Dividir los ficheros en pequeñas partes: “chunks” A nivel de bloque: A nivel de filesystem Necesidad de más recursos Buenos ratios de dedupliación menor tamaño de bloque + ratio + recursos MEJORA: Bloque de tamaño variable
  • 9. 9 El momento… deduplicación off-line: no afecta al rendimiento R/W requiere espacio para alojar los datos antes de ser deduplicados requiere más I/O deduplicación in-line aporta el ahorro de espacio de forma instantánea puede afectar al rendimiento R/W Más trabajo en RAM, menos I/O
  • 10. 10 El lugar… en origen “source”: la carga está en el cliente su objetivo es enviar la mínima cantidad de datos, pero hay que tener cuidado con el proceso en destino “target” la carga está en el servidor permite deduplicar los datos de varios clientes, lo cual hace que se consigan mejores ratios
  • 11. 11 Qué elegir… (File-level + chunks) ≈ Block-level (in-line + recursos) > off-line ¿target vs source? Lo ideal sería contar con ambas tecnologías… Global data deduplication Deduplica en el origen Antes de enviar un bloque, comprueba si está en destino Deduplica entre varios clientes Maximiza el uso del ancho de banda Mejora los tiempos de restauración Reparte el trabajo entre clientes y servidor
  • 13. 13 Información clásica que recopilar… Datos de origen: conoce cuanta información vas a respaldar, eso te dará un punto de partida para dimensionar el sistema. Numero de copias a guardar: establece tu RPO y tu RTO para tus necesidades y define una retención. Incremento de datos por copia: te dará el dato definitivo de dimensionamiento teórico del sistema. 0 TB 50 TB 100 TB 150 TB Week 1 Week 2 Week 3 Week 4 Week 5 20 TB 42 TB 66 TB 92 TB 120 TB 20 TB 22 TB 24 TB 26 TB 28 TB with dedup without dedup Estimación para 5 semanas: Tamaño necesario: 28TB Con compresión (2:1): 14TB
  • 14. 14 ¿Es suficiente…? NO. Muchos sistemas de backup con deduplicación fracasan y las principales causas son dos: las tasas de deduplicación no son las esperadas y el almacenamiento dimensionado no es suficiente, haciéndonos invertir más dinero del esperado el rendimiento de la solución es muy bajo, tanto en backup como en restauración y hace que incumplamos nuestras ventanas
  • 15. 15 Cuál es el problema… La deduplicación no es gratis, tiene unos costes: Posibilidad de colisiones: corrupción de datos Uso intensivo de CPU: hashing, indexación… Uso de grandes cantidades de memoria: tablas de referencia a bloques Fragmentación de la información: bloques dispersos en disco Planificación de sistemas en función de los datasheets comerciales de los fabricantes: dimensionamiento erróneo
  • 16. 16 Conoce la tecnología… El hashing consume CPU Las tablas de índices consumen memoria Los sistemas de caché consumen memoria Los accesos a disco son lentos. Si algo no cabe en memoria, mejor en SSD El tamaño del bloque importa: Muy grande, baja deduplicación Muy pequeño, bajo rendimiento Opciones de bloque variable
  • 17. 17 El tipo de dato… ¿Qué deduplica bien? En general, conjuntos de datos que cambian poca información Directorios de usuarios, sistemas de log, Directorios de OS, sistemas de archivado… ¿Qué deduplica mal? Conjuntos de datos muy cambiantes, comprimidos o cifrados. BBDD relacionales, Datawharehouses / BI, Sistemas de correo maildir, Sistemas que comprimen o cifran datos… Backups incrementales A mayor numero de copias, mejor tasa de deduplicación Es importante es probar que los datos deduplican tal como esperamos
  • 19. 19 WBSAirback: ZFS on Linux... Es un appliance de backup que ofrece “target deduplication”. Integra Bacula Enterprise como motor de backup y su plugin “Aligned volumes” ZOL es un porting de ZFS de SUN para Linux Deduplica a nivel de bloque, de tamaño variable Ofrece deduplicación in-line y compresión LZ4 Utiliza un sistema de caché multinivel que hace que el rendimiento del sistema sea muy alto
  • 21. 21 Bacula Global Endpoint Dedup. Permite aplicación en origen y destino Trabaja con “chunks” de ficheros de tamaño variable Mantiene una tabla de hash por “chunk”, residente en SSD Utiliza sistemas de caché en memoria para más rápido acceso Implementa la funcionalidad “Client Rehydration” que permite utilizar los datos residentes en el cliente para no enviarlos de nuevo.