SlideShare a Scribd company logo
1 of 93
Big Data con SQL
Server 2014 y la
nube
Dr. Eduardo Castro, MBA
Introducción para BI & Big Data
DAX
MDX
Minería de Datos
Excel BI
Recursos adicionales
Análisis de
grandes
cantidades de
datos
Big Data
Objetivos
Big data, o los datos sólo complejos?
velocidad
variedad complejidad
volumen
Datos
interpretarpreparación
Grandes volúmenes de datos de hoy en día, pocos
datos del mañana
Complejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
¿Qué es BIG Data?
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data
• Big Data tiene importantes cualidades distintivas
que lo diferencian de los datos corporativos
"tradicionales".
• Los datos no son centralizadas, muy estructurados
y de fácil manejo, ahora más que nunca los datos
están muy dispersos, poco estructurados (o no tiene
estructura en absoluto), y cada vez más con
volúmenes más grandes
La naturaleza cambiante del Big Data
• La web
• Dispositivos móviles
• Infraestructura de TI
• y otras fuentes está creciendo exponencialmente cada año.
Volumen - La cantidad de datos que han
creado las empresas a través de
La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez
mayor,
• No estructurados de datos basados ​​en texto
• Datos semi-estructurados como los datos de los medios sociales
• Los datos basados ​​en la localización
• Datos de logs, ejemplo servidores Web
La naturaleza cambiante del Big Data
Velocidad
• La velocidad a la que se está creando nuevos datos
• La necesidad de análisis en tiempo real para obtener valor de negocio
de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
Principales fuentes de datos
• Redes sociales y medios de comunicación
• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156
millones de blogs públicos
• Dispositivos móviles
• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
• Transacciones en Internet
• miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
• Dispositivos de red y sensores
Big Data
Casos en los cuales se utiliza Big Data
• Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
• Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
• Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
Casos en los cuales se utiliza Big Data
Sentiment Analysis
• Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
• Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas, marcas
o productos.
• El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.
Casos en los cuales se utiliza Big Data
Modelado de riesgo
• Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de los
activos financieros
• Para preparar la posible "qué pasaría si" los escenarios basados ​​en el
comportamiento del mercado simulado, y para puntuación de
clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big Data
Motor de recomendación
• Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados ​​en el
análisis del perfil de usuario y los datos de comportamiento.
• LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a
la venta a los consumidores en línea.
Casos en los cuales se utiliza Big Data
Detección de Fraude
• Utilizar técnicas de Big Data para combinar el comportamiento
del cliente, históricos y datos de transacciones para detectar la
actividad fraudulenta.
• Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
• Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear y
determinar la efectividad de las campañas de marketing.
• Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares, como los
datos de click-stream y registros detallados de llamadas, para
aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big Data
Análisis Social Graph
• Junto con Hadoop los datos de redes sociales se extraen
para determinar qué clientes representan la mayor
influencia sobre los demás dentro de las redes sociales.
• Esto ayuda a determinar las empresas que son sus
clientes "más importantes", que no siempre son los que
compran la mayoría de los productos o de los que más
gastan, pero los que tienden a influir en el
comportamiento de compra de la mayoría de los
demás.
Casos en los cuales se utiliza Big Data
Customer Experience Analytics
• Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
• Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
Nuevos Enfoques para el procesamiento y análisis de datos
• Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
• Hadoop
• NoSQL
• Bases de datos analíticos masivamente paralelo
Nuevos Enfoques para el procesamiento y análisis de datos grandes
Introducción a Big Data y Hadoop
• Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
• Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que
puede:
• Almacenar petabytes de información
• Permite procedamiento distribuido
• Principales atributos:
• Redundante y confiable (no se pierden datos)
• Centrado en el análisis por lotes
• Facilidad de crear aplicaciones y procesamiento distribuido
• Ejecuta en cualquier hardware
Componentes de Hadoop
• Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto
en cualquier clúster Hadoop dado;
• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información
del cliente en lugar del grupo de datos en particular se almacenan y si los nodos
fallan;
• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica
periódicamente y almacena los datos del nombre de nodo debe fallar;
• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce, o el tratamiento de los datos.
• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce: Mover Código a los Datos
Cómo trabaja?
Principios de Hadoop
Método práctico
procesamiento
paralelización de análisis
masivo de datos
Datos en Hadoop
MapReduce
De bajo nivel, fundamentos de Hadoop
Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles Osborne,
de la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
Cluster Hadoop
Nube
Rent-A-Hadoop-cluster, o bien:
"Superordenador de centavos"
Windows Azure HD Insight
Procesamiento de la lógica en HDInsight
1.6, 2.1, 3.0
Hadoop 1.x: Lote para el procesamiento
Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes
JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};
Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora,
consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión
Plataforma de Big Data Micrsooft
Interoperatibilidad
Integración con
las herramientas
de Análisis de
Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP,
POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
Principios PDW
• Procesamiento paralelo masivo (MPP) para las
consultas
• Dentro de la memoria de columnas
• Múltiples nodos con CPU dedicada, memoria, almacenamiento
• Incremental extensible
• Escala de terabytes a múltiples petabytes
Lapache Hadoop distribución
Desarrollado por Hortonworks Y Microsoft
Integrado con Microsoft BI
Microsoft HDInsight
Big data + BI tradicional = poderoso + easy
Grandes, de
datos
rápida, o
complejo
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
La interacción,
exploración,
rNFORMES,
visualización
PDW +
Polibase
Windows HADOOP
• 2 Versiones
• Cloud
• Azure Service
• On Permise
• Integración con el Hadoop File System with Active Directory
• Integración con BI
• Herramientas de integración
• Sqoop
• Integración con SQL Server
Introducción a HDInsight
• HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
• Disponible tanto para Windows Server y como un servicio
Windows Azure
• Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel
Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:
Windows Azure HDInsight Service
HADOOP PARA WINDOWS
HDP para Windows
Hortonworks
Data Platform (HDP)
For Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
Modelando “Big Data” con PowerPivot
• Big data puede ser integrado con otras fuentes de
datos
• Potencial de Autoservicio de BI:
• PowerPivot puede cargar Big Data mediante el Table Import Wizard
• ODBC para HDInsight
• OLE DB para SQL Server con enlace a HDInsight
• PowerPivot puede ser fuente para:
• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
• Otras herramientas de análisis (una vez publicado en SharePoint)
Consideraciones de modelar “Big Data” con PowerPivot
• Los resultados de Big Data pueden ser muy grandes
para almacenamiento en memoria
• Workaround: minizar la cantidad de datos
consultados
• Recuperar un periodo de tiempo más pequeño
• Reducir las dimensiones o ser más granular
• Una vez que está cargado el modelo puede ser
manipulado con rapidez
Formas de carga de datos
Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC
connections to data sources)
Yes
Hadoop Connectors
• SQL Server versions
• Azure
• PDW
• SQL 2012
• SQL 2008 R2
• SQL Server 2014
http://www.microsoft.com/download/en/details.aspx?id=27584
Resumen
Siga: @rafaldotnet
Email: rafal@projectbotticelli.com
Descubra: rafal.net
"... Almacenamiento de datos ha alcanzado
el punto de inflexión más importante
desde su creación. La gestión de datos en
TI está cambiando. "
- Gartner, "El estado de almacenamiento de datos en
2012"
Creciente
volumenes de
datos
1
En
tiempo
real
datos
2
Nuevo datos
fuentes y tipos
3
Nacido en
la nube
datos
4
El almacén de datos tradicional
Las fuentes de datos

Las fuentes de
datos
Los datos no relacional
El almacén de datos moderna
Técnicas de diseñadores toda tu datos
Enriquecer y optimizar sus datos con fuentes no tradicional
6
Mantener la inversión
legado
Comprar nuevo nivel
uno dispositivo de
hardware
Adquirir Big Data
solución
Adquirir la
inteligencia de
negocios
Obstáculos para un almacén de datos moderna
Escalabilidad limitada y
capacidad de gestionar
nuevos tipos de datos
Entrenamiento Alta adquisición y
costos de
migración
Complejidad y
adopción
Introducción al sistema Microsoft Analytics Platform
Un moderno dispositivo de almacenamiento de datos llave en mano
• De datos relacionales y no
relacionales en un único
dispositivo
• Hadoop lista para la empresa
• Consultas integradas a través
de Hadoop y PDW utilizando
T-SQL
• La integración directa con las
herramientas de BI de
Microsoft, como Microsoft
Excel
• Cerca de rendimiento en
tiempo real con In-Memory
Columnstore
• Capacidad de escalabilidad
para incluir cada vez mayor de
datos
• La eliminación del almacén de
datos cuellos de botella con
MPP SQL Server
• Concurrencia que ayuda
rápida adopción
• Precio de appliance de datos
más bajo por terabyte
• Valor a través de una única
solución
• Valor con opciones de
hardware flexibles utilizando
hardware comercial
Alto rendimiento y
sintonizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible ideas para
todo el mundo con
las herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento de
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
Carga en paralelo de
depósito de datos
HDInsight carga de trabajo
Fabric
Hardware
Aparato
Una región es un contenedor lógico
dentro de un appliance
Cada carga de trabajo contiene los
siguientes límites:
• Seguridad
• Medida
• Prestación de servicios
Resumen hardware APS
Proporciona un único Modelo de consulta T-
SQL para PDW y Hadoop con ricas
características de T-SQL, incluyendo joins sin
ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight para
permitir escenarios híbrido de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
PDWMicrosoft Azure
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con polibase
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI
Conjunto de
resultados
Seleccionar
...
(HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
Automatic MapReduce pushdown
Hadoop / Data Lake
(Cloudera, Hortonworks,
HDInsight)
Fuente sistemas
Actualizar Día / Hora / Minuto
SQL Server
Data Marts
SQL Server
Reporting Services
SQL Server
Analysis Services
APS
MapReduce T-SQL
Analytics / Ad-hoc / Visualización
Microsoft
HDInsight
SQL Server
Parallel Data
Warehouse
Polibase
HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0
Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando
Herramientas de Microsoft BI
Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de dato
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo / carpeta
Hadoop
3
(Opcional) Rechazar parámetros4
Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
Tipo de fuente de datos externa1
Lugar de origen de datos externos2
La activación o desactivación de la
generación de trabajo MapReduce
3
Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive
fichero de recursos]
2
Método de compresión3
(Opcional) Formato Opciones [Texto
Archivos]
4
<Format Options> :: =
[,FIELD_TERMINATOR = ‘value’],
[,STRING_DELIMITER = ‘value’],
[,DATE_FORMAT = ‘value’],
[USE_TYPE_DEFAULT = ‘value’]
Opciones de formato
Delimitador de columna1
Carácter de separación para los tipos
de datos de cadena
2
Para especificar un formato de fecha
determinado
3
¿Cómo se manejan las entradas que
faltan
4
PolyBase utilizando datos de Hadoop
Traer islas de datos Hadoop juntos
Ejecución de alta consultas de rendimiento contra los
datos Hadoop
De datos de almacenamiento de datos de archivado a
Hadoop (mover)
Exportación de datos relacionales para Hadoop (copia)
Importación de datos de Hadoop en un dato almacén
(copia)
Múltiples nodos con CPU dedicada, memoria y
almacenamiento
Posibilidad de añadir de forma incremental
hardware para la escalabilidad casi lineal a
múltiples petabytes
Capacidad para manejar complejidad de la
consulta y la concurrencia y escalabilidad
Capacidad para escalar HDInsight y PDW
Escalada fuera sus datos a petabytes
Escalabilidad de salida tecnologías en Sistema Analytics Platform
PDW
0 terabytes 6 petabytes
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
Un rendimiento increíblemente rápido
MPP y In-Memory Columnstore para la próxima generación rendimiento
• Datawarehouse con Column Store
• Carga datos hacia o desde la memoria para
rendimiento de próxima generación con una
mejora de hasta 60% en la velocidad de carga de
datos
Hasta 100x
más rápido
Hasta 15x
más compression
Column Store Index
Ejecución de consultas en paralelo
Clustered columnstore index
¿Por qué es es importante?
• Ahorra espacio
• Proporciona una gestión más fácil, eliminando
el mantenimiento de índices secundarios
Espacio utilizado =tabla espacio + índice espacio
0.0
5.0
10.0
15.0
20.0
1 2 3 4 5 6
Space used in GB (table with 101 million rows)
91% de
ahorro
In-Memory Columnstore ¡se ofrece en el
motor de almacenamiento en el PDW AU1
Ejecución de consultas en paralelo y distribuidos
Procesamiento de la ejecución de consultas relacionales
Consultas SQL enviadas al nodo de
control
1
El nodo de control crea plan de
ejecución de la consulta
2
El plan de consulta crea consultas
distribuidas para su ejecución en
cada nodo de cómputo
3
Las consultas distribuidas enviados
nodos en de cálculo (todos
corriendo en paralelo)
4
El nodo de control recoge los
resultados de la consulta y los
devuelve al usuario
5
ControlCliente
Calcular
Calcular
Calcular
Calcular
Administración
Applicance
Resultados de
la consulta
Consulta
del usuario
Crear una
consulta plan
Los resultados agregados
de la consulta
Operaciones del plan
de consulta en
paralelo
Herramientas de BI
Presentación de informes y cubos
SMP SQL Server
Concurrencia de datos
Gran rendimiento con cargas de trabajo mixtas
Analytics Platform
SystemETL / ELT con SSIS, DQS, MDS
ERP CRM LOB APPS
ETL / ELT con DWLoader
Hadoop / Big Data
PDW
HDInsight
Polibase
Consultas ad hoc
Intra-Day
Casi en tiempo real
Fast ad hoc
Almacén de columnas
Polibase
CRTAS
Linked Table
Real-Time
ROLAP / MOLAP
DirectQuery
SNAC
Hardware y software de ingeniería junto
Co-dirigido con
HP, Dell, Quanta
y mejores
prácticas
Liderando el
rendimiento con
hardware
comercial
Pre-configurado,
construido, y
ajustado
software y
hardware
Integrado apoyo
con un solo
contacto Microsoft
PDW
HDInsight
Polybase
PDW region
Hardware architectureInfiniBand
InfiniBand
Ethernet
Ethernet
Control node
Failover node
Master node
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Networking
PDW region
HDInsight region
Rack #1
InfiniBand
InfiniBand
Ethernet
Ethernet
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
HDI extension base
unit
HDI active scale
unit
HDI extension base
unit
HDI active scale
unit
Rack #2
HST-02
HST-01
HSA-01
HST-02
Economical
disk storage
IB and Ethernet
Active Unit Dos nodos adicionales
Passive Unit HDInsight
Failover Node Alta Disponibilidad
Arquitectura virtualizada PANORAMA
Anfitrión 2
Anfitrión 1
Anfitrión 3
Anfitrión 4
Almacenami
ento en
disco
IB y
Ethernet
Directo SAS adjunto
Unidad BaseC
T
L
Ma
ssa
ch
us
ett
s
D
A
D
V
M
M
Calcule 2
Calcule 1
• Motor PDW
• DMS Manage
• SQL Server 2012 Enterprise Edition (build PDW)
Detalles de software
• Todos los hosts ejecutan Windows Server 2012
Standard and Windows Azure Virtual Machines
• Fabric o carga de trabajo en Hyper-V virtual Máquinas
• PDW agente que se ejecuta en todos los hosts y es
toda virtual máquinas
• DWConfig y consola de administración
• Ventanas espacios de almacenamiento y Azure
Storage

More Related Content

What's hot

Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big DataAMETIC
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno BancarioMartín Cabrera
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataBEEVA_es
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Stratebi
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 

What's hot (19)

Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Big Data
Big DataBig Data
Big Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 

Viewers also liked

Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerEduardo Castro
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
 
Cluster sql server
Cluster sql serverCluster sql server
Cluster sql serverorellana_22
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataAlex Rayón Jerez
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Eduardo Castro
 
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesModelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesBig-Data-Summit
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexEduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integraciónEduardo Castro
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales.. ..
 

Viewers also liked (12)

Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL Server
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch Databases
 
Cluster sql server
Cluster sql serverCluster sql server
Cluster sql server
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012
 
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesModelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 

Similar to Big Data con Sql Server 2014 y la nube

HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stackEduardo Castro
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Analytics10
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptxJuanCarlosRomanPerez1
 
Que es social media analytics & listening y como funcionan
Que es social media analytics & listening y como funcionanQue es social media analytics & listening y como funcionan
Que es social media analytics & listening y como funcionanOscar Gonzalez Rezex
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bnjuanjosetn
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
introduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negociosintroduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negociosammadrid699
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 

Similar to Big Data con Sql Server 2014 y la nube (20)

HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Trabajo de-big-data
Trabajo de-big-dataTrabajo de-big-data
Trabajo de-big-data
 
Que es social media analytics & listening y como funcionan
Que es social media analytics & listening y como funcionanQue es social media analytics & listening y como funcionan
Que es social media analytics & listening y como funcionan
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bn
 
Bussiness intelligent
Bussiness intelligentBussiness intelligent
Bussiness intelligent
 
Inteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business IntelligenceInteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business Intelligence
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
introduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negociosintroduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negocios
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 

More from Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL AzureEduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceEduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql serverEduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsEduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsEduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en AzureEduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL ServerEduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
 

More from Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

Recently uploaded

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 

Recently uploaded (20)

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 

Big Data con Sql Server 2014 y la nube

  • 1. Big Data con SQL Server 2014 y la nube Dr. Eduardo Castro, MBA
  • 2. Introducción para BI & Big Data DAX MDX Minería de Datos Excel BI Recursos adicionales
  • 3.
  • 6. Big data, o los datos sólo complejos? velocidad variedad complejidad volumen Datos interpretarpreparación
  • 7. Grandes volúmenes de datos de hoy en día, pocos datos del mañana Complejidad vs capacidades actuales FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
  • 8. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  • 10. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 11. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • 12. Procesamiento de datos y análisis: The Old Way
  • 13. La naturaleza cambiante del Big Data • Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales". • Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  • 14. La naturaleza cambiante del Big Data • La web • Dispositivos móviles • Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año. Volumen - La cantidad de datos que han creado las empresas a través de
  • 15. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor, • No estructurados de datos basados ​​en texto • Datos semi-estructurados como los datos de los medios sociales • Los datos basados ​​en la localización • Datos de logs, ejemplo servidores Web
  • 16. La naturaleza cambiante del Big Data Velocidad • La velocidad a la que se está creando nuevos datos • La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  • 17. Principales fuentes de datos • Redes sociales y medios de comunicación • 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos • Dispositivos móviles • Más de 5 mil millones de teléfonos móviles en uso en todo el mundo • Transacciones en Internet • miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días • Dispositivos de red y sensores
  • 19. Casos en los cuales se utiliza Big Data • Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar. • Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa. • Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 20. Casos en los cuales se utiliza Big Data Sentiment Analysis • Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales • Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos. • El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 21. Casos en los cuales se utiliza Big Data Modelado de riesgo • Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros • Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 22. Casos en los cuales se utiliza Big Data Motor de recomendación • Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento. • LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 23. Casos en los cuales se utiliza Big Data Detección de Fraude • Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta. • Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 24. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing • Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing. • Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 25. Casos en los cuales se utiliza Big Data Análisis Social Graph • Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales. • Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 26. Casos en los cuales se utiliza Big Data Customer Experience Analytics • Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes • Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 27. Nuevos Enfoques para el procesamiento y análisis de datos • Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes • Hadoop • NoSQL • Bases de datos analíticos masivamente paralelo
  • 28. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  • 29. Introducción a Big Data y Hadoop • Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos • Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede: • Almacenar petabytes de información • Permite procedamiento distribuido • Principales atributos: • Redundante y confiable (no se pierden datos) • Centrado en el análisis por lotes • Facilidad de crear aplicaciones y procesamiento distribuido • Ejecuta en cualquier hardware
  • 30. Componentes de Hadoop • Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado; • Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan; • Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar; • Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos. • Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  • 36. Principios de Hadoop Método práctico procesamiento paralelización de análisis masivo de datos
  • 38. MapReduce De bajo nivel, fundamentos de Hadoop
  • 39. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 40. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  • 41. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  • 42. Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0 Hadoop 1.x: Lote para el procesamiento
  • 43. Procesamiento de la lógica en HDInsight 3.0 Hadoop 2.2: interactivo, en línea, stream, o por lotes
  • 44. JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  • 45. Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  • 46. Ciencia de datos Hadoop Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
  • 47.
  • 48. Plataforma de Big Data Micrsooft
  • 49. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • 50.
  • 51. Principios PDW • Procesamiento paralelo masivo (MPP) para las consultas • Dentro de la memoria de columnas • Múltiples nodos con CPU dedicada, memoria, almacenamiento • Incremental extensible • Escala de terabytes a múltiples petabytes
  • 52. Lapache Hadoop distribución Desarrollado por Hortonworks Y Microsoft Integrado con Microsoft BI Microsoft HDInsight
  • 53. Big data + BI tradicional = poderoso + easy Grandes, de datos rápida, o complejo Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 La interacción, exploración, rNFORMES, visualización PDW + Polibase
  • 54. Windows HADOOP • 2 Versiones • Cloud • Azure Service • On Permise • Integración con el Hadoop File System with Active Directory • Integración con BI • Herramientas de integración • Sqoop • Integración con SQL Server
  • 55. Introducción a HDInsight • HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop • Disponible tanto para Windows Server y como un servicio Windows Azure • Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  • 56. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 59. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • 60.
  • 61. Modelando “Big Data” con PowerPivot • Big data puede ser integrado con otras fuentes de datos • Potencial de Autoservicio de BI: • PowerPivot puede cargar Big Data mediante el Table Import Wizard • ODBC para HDInsight • OLE DB para SQL Server con enlace a HDInsight • PowerPivot puede ser fuente para: • Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View • Otras herramientas de análisis (una vez publicado en SharePoint)
  • 62. Consideraciones de modelar “Big Data” con PowerPivot • Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria • Workaround: minizar la cantidad de datos consultados • Recuperar un periodo de tiempo más pequeño • Reducir las dimensiones o ser más granular • Una vez que está cargado el modelo puede ser manipulado con rapidez
  • 63. Formas de carga de datos
  • 64. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  • 65. Hadoop Connectors • SQL Server versions • Azure • PDW • SQL 2012 • SQL 2008 R2 • SQL Server 2014 http://www.microsoft.com/download/en/details.aspx?id=27584
  • 67.
  • 68. "... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. " - Gartner, "El estado de almacenamiento de datos en 2012"
  • 69. Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  • 70.  Las fuentes de datos Los datos no relacional El almacén de datos moderna
  • 71. Técnicas de diseñadores toda tu datos Enriquecer y optimizar sus datos con fuentes no tradicional 6
  • 72. Mantener la inversión legado Comprar nuevo nivel uno dispositivo de hardware Adquirir Big Data solución Adquirir la inteligencia de negocios Obstáculos para un almacén de datos moderna Escalabilidad limitada y capacidad de gestionar nuevos tipos de datos Entrenamiento Alta adquisición y costos de migración Complejidad y adopción
  • 73. Introducción al sistema Microsoft Analytics Platform Un moderno dispositivo de almacenamiento de datos llave en mano • De datos relacionales y no relacionales en un único dispositivo • Hadoop lista para la empresa • Consultas integradas a través de Hadoop y PDW utilizando T-SQL • La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel • Cerca de rendimiento en tiempo real con In-Memory Columnstore • Capacidad de escalabilidad para incluir cada vez mayor de datos • La eliminación del almacén de datos cuellos de botella con MPP SQL Server • Concurrencia que ayuda rápida adopción • Precio de appliance de datos más bajo por terabyte • Valor a través de una única solución • Valor con opciones de hardware flexibles utilizando hardware comercial
  • 74. Alto rendimiento y sintonizado en el hardware Autenticación del usuario final con Active Directory Accesible ideas para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento de Apache Hadoop SQL Server Parallel Data warehouse Microsoft HDInsight Polibase APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
  • 75. Carga en paralelo de depósito de datos HDInsight carga de trabajo Fabric Hardware Aparato Una región es un contenedor lógico dentro de un appliance Cada carga de trabajo contiene los siguientes límites: • Seguridad • Medida • Prestación de servicios Resumen hardware APS
  • 76. Proporciona un único Modelo de consulta T- SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server PDWMicrosoft Azure HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conexión de islas de datos con polibase Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI Conjunto de resultados Seleccionar ...
  • 77. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos PDWPuente HDFS Enhanced PDW query engine La tabla externa Los datos externos Archivo externo Regular T-SQL
  • 78. Automatic MapReduce pushdown Hadoop / Data Lake (Cloudera, Hortonworks, HDInsight) Fuente sistemas Actualizar Día / Hora / Minuto SQL Server Data Marts SQL Server Reporting Services SQL Server Analysis Services APS MapReduce T-SQL Analytics / Ad-hoc / Visualización Microsoft HDInsight SQL Server Parallel Data Warehouse Polibase
  • 79. HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log Hadoop Column filtering Dynamic binding Row filtering User Location Product Sentiment Rtwt Hour Date Sean Suz Audie Tom Sanjay Roger Steve CA WA CO IL MN TX AL xbox xbox excel sqls wp8 ssas ssrs -1 0 1 1 1 1 1 5 0 0 8 0 0 0 8 2 8 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  • 80. Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Los usuarios avanzados Científico de datos Todos los demás utilizando Herramientas de Microsoft BI
  • 81. Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de dato externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 (Opcional) Rechazar parámetros4
  • 82. Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; Tipo de fuente de datos externa1 Lugar de origen de datos externos2 La activación o desactivación de la generación de trabajo MapReduce 3
  • 83. Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; Tipo de fuente de datos externa1 (De) método de serialización [Hive fichero de recursos] 2 Método de compresión3 (Opcional) Formato Opciones [Texto Archivos] 4
  • 84. <Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’], [,DATE_FORMAT = ‘value’], [USE_TYPE_DEFAULT = ‘value’] Opciones de formato Delimitador de columna1 Carácter de separación para los tipos de datos de cadena 2 Para especificar un formato de fecha determinado 3 ¿Cómo se manejan las entradas que faltan 4
  • 85. PolyBase utilizando datos de Hadoop Traer islas de datos Hadoop juntos Ejecución de alta consultas de rendimiento contra los datos Hadoop De datos de almacenamiento de datos de archivado a Hadoop (mover) Exportación de datos relacionales para Hadoop (copia) Importación de datos de Hadoop en un dato almacén (copia)
  • 86. Múltiples nodos con CPU dedicada, memoria y almacenamiento Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad Capacidad para escalar HDInsight y PDW Escalada fuera sus datos a petabytes Escalabilidad de salida tecnologías en Sistema Analytics Platform PDW 0 terabytes 6 petabytes PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight
  • 87. Un rendimiento increíblemente rápido MPP y In-Memory Columnstore para la próxima generación rendimiento • Datawarehouse con Column Store • Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos Hasta 100x más rápido Hasta 15x más compression Column Store Index Ejecución de consultas en paralelo
  • 88. Clustered columnstore index ¿Por qué es es importante? • Ahorra espacio • Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios Espacio utilizado =tabla espacio + índice espacio 0.0 5.0 10.0 15.0 20.0 1 2 3 4 5 6 Space used in GB (table with 101 million rows) 91% de ahorro In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1
  • 89. Ejecución de consultas en paralelo y distribuidos Procesamiento de la ejecución de consultas relacionales Consultas SQL enviadas al nodo de control 1 El nodo de control crea plan de ejecución de la consulta 2 El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo 3 Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo) 4 El nodo de control recoge los resultados de la consulta y los devuelve al usuario 5 ControlCliente Calcular Calcular Calcular Calcular Administración Applicance Resultados de la consulta Consulta del usuario Crear una consulta plan Los resultados agregados de la consulta Operaciones del plan de consulta en paralelo
  • 90. Herramientas de BI Presentación de informes y cubos SMP SQL Server Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas Analytics Platform SystemETL / ELT con SSIS, DQS, MDS ERP CRM LOB APPS ETL / ELT con DWLoader Hadoop / Big Data PDW HDInsight Polibase Consultas ad hoc Intra-Day Casi en tiempo real Fast ad hoc Almacén de columnas Polibase CRTAS Linked Table Real-Time ROLAP / MOLAP DirectQuery SNAC
  • 91. Hardware y software de ingeniería junto Co-dirigido con HP, Dell, Quanta y mejores prácticas Liderando el rendimiento con hardware comercial Pre-configurado, construido, y ajustado software y hardware Integrado apoyo con un solo contacto Microsoft PDW HDInsight Polybase
  • 92. PDW region Hardware architectureInfiniBand InfiniBand Ethernet Ethernet Control node Failover node Master node Failover node Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Networking PDW region HDInsight region Rack #1 InfiniBand InfiniBand Ethernet Ethernet Failover node Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes HDI extension base unit HDI active scale unit HDI extension base unit HDI active scale unit Rack #2 HST-02 HST-01 HSA-01 HST-02 Economical disk storage IB and Ethernet Active Unit Dos nodos adicionales Passive Unit HDInsight Failover Node Alta Disponibilidad
  • 93. Arquitectura virtualizada PANORAMA Anfitrión 2 Anfitrión 1 Anfitrión 3 Anfitrión 4 Almacenami ento en disco IB y Ethernet Directo SAS adjunto Unidad BaseC T L Ma ssa ch us ett s D A D V M M Calcule 2 Calcule 1 • Motor PDW • DMS Manage • SQL Server 2012 Enterprise Edition (build PDW) Detalles de software • Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines • Fabric o carga de trabajo en Hyper-V virtual Máquinas • PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas • DWConfig y consola de administración • Ventanas espacios de almacenamiento y Azure Storage