SlideShare uma empresa Scribd logo
1 de 47
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sergio Zaccarelli
Arquiteto de Soluções - Out/2020
Criando um repositório de dados de
maneira segura seguindo boas práticas
Data Immersion Month
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Tendências de um mundo
orientado a dados
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
No passado, o processo de decisão …
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…era orientado ao redor do data warehouse
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Como comportar tantos dados?
Dados
cada 5 anos
Existem mais dados do
que se imagina
15
ano
existir por
Repositórios de dados
necessitam
1,000x
escalar
>10x
crescem
Dados mais diversos
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cargas de trabalho diversas
Existem mais pessoas
acessando dados…
…querendo analisar de
diferentes formas
Cientistas de Dados
Analistas
Usuários de Negócio
Aplicações
Machine
learning
Análises SQL
Científico
Tempo real,
streaming
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Maior pressão regulatória
Democratização
dos Dados
Governança
& controle
…cumprir com regulações e
requisitos de governança?
Como democratizar o acesso
ao dado e ao mesmo tempo…
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que é um data lake
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data lake: o novo ponto central de informação
Um repositório centralizado, seguro que permite
você governar, descobrir, compartilhar e analisar
dados estruturados e não-estruturados em escala
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Porque data lakes?
Data Lakes permitem:
Comportar dados relacionais e não-relationais
Escalar em nível de Exabytes (EB)
Diverso conjunto de ferramentas de análise e ML
Trabalhar com dados sem necessitar mover
Utilizar armazenagem e analytics de baixo custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
1001100001001010111001
0101011100101010000101
1111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Catalog
Machine
Learning
DW Queries Big data
processing
Interactive Real-time
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Evolução: data lakes na nuvem
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
On-premises,
Batch
Real-time,
Streaming
Amazon S3: armazenamento de
objetos que permite centralizar
conjuntos de dados
Habilita um único local de controle
Múltiplos motores de análise
disponíveis sob demanda,
pay-as-you-go
Amazon S3
Data Lake Storage
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios de Arquitetura
e design
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios de arquitetura e design de um data lake
Princípio: Disrupção mínima
Afirmação: Minimizar disrupção nos produtores de dados no modo em que entregam
Princípio: Configuração (Regra 80/20)
Afirmação: Enfoque em 80% dos casos de uso que podem ser atendidos com componentes configurados
Princípio: Ferramenta certa para a tarefa certa
Afirmação: Os processos devem orientar a ferramenta, e não o contrário
Princípio: Desacoplagem consciente
Afirmação: A ferramenta certa de hoje pode não ser a de amanhã
Princípio: Residência de dados
Afirmação: Usuário acessa o dado onde ESTE reside não importa onde ELES residam
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sete princípios de gestão de dados & governança
Accountability
• Identifique domínios de dados
• Identifique donos dos dados
• Popule o catálogo de dados
Data Accuracy
• Validação das ingestões
• Certificação dos dados
• Lógica de padronização
• Use modelos conceitual e
lógico orientando a criação do
modelo de dados físico
Data Quality
• Defina categorias de DQ
• Qualidade de operação
• Lógica de integração –
identifique, categorize e corrija.
• Defina processos de
remediação
Operational Excellence
• Defina SLAs e notificação e
remediação apropriadas
• Defina ciclo de vida dos dados
• Identifique processos de
gestão do conteúdo
Security
• Proteção de Dados
• Direitos do usuário
• Monitoração granular (quem, que,
onde, quando)
Data Privacy
• Classifique todos dados coletados e retidos
• Identifique leis e regulações aplicáveis
• Implemente controles de compliance automatizados
• Aplique e mantenha procedimentos e prática de
seguranças razoáveis
Data Lineage
• Defina linhagem de dados
• Esclareça quais as saídas
• Considere ETL self-service
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Arquitetura Conceitual
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Arquitetura Lógica
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desafios ao construir
um data lake
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes saneados e seguros
podem levar meses
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Passos típicos na construção de um data lake
Configurar
Armazenamento
1
Mover dados2
Limpar, preparar e
catalogar dados
3
Configurar e reforçar
segurança e políticas de
compliance
4
Deixar o dado disponível
para analytics5
Ingestão & Limpeza Segurança Analytics & ML
Engenheiro
de Dados
Segurança de
Informação
Analista
de Dados
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Uma solução open source possível
• Hadoop Cluster (static/multi tenant)
• Apache NiFi for ingestion workflows
• Sqoop to ingest data from RDBMS
• HDFS to store the data (tied to the Hadoop cluster)
• Hive/HCatalog for data Catalog
• Apache Spark for complex ETL –with Apache Livy for REST
• Hive for batch workloads with SQL
• Presto for interactive queries with SQL
• Kafka for streaming ingest
• Apache Spark/Apache Flink for streaming analytics
• Apache Hbase (or maybe Cassandra) to store streaming data
• Prometheus (or fluentd/collectd/ganglia/Nagios…) for logs and monitoring. Maybe with Elastic Search/Kibana
• Airflow/Oozie to schedule workflows
• Superset for business dashboards
• Jupyter/JupyterHub/Zeppelin for data science
• Security (Apache Sentry for Roles, Ranger for configuration, Knox as a firewall)
• YARN to coordinate resources
• Ambari for cluster administration
• Terraform/chef/puppet for provisioning
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Alguns problemas possivelmente encontrados
• Meu time leva mais tempo mantendo o cluster que incorporando funções
• Securança e monitoração são difíceis
• Maioria do tempo meu cluster está inativo, e surgem gargalos em momentos de pico
• Não tenho tempo para experimentações
• Papéis altamente especializados: Nichos de conhecimento e problemas de talento
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Uma solução nascida na cloud AWS
Amazon
S3
Interfaces de acesso
AWS
AppSync
Amazon
API Gateway
Amazon
Cognito
Gerencie & controle
Armazenamento:
Escalável, seguro e de
custo efetivo
AWS Key
Management
Service
AWS Identity and
Access Management
Amazon
CloudWatch
AWS CloudTrail
AWS
Snowball
AWS Storage
Gateway
Amazon
Kinesis Data
Firehose
AWS Direct
Connect
AWS Database
Migration
Service
Ingestão de dados
Catálogo & busca
Amazon
DynamoDB
Amazon Elasticsearch
Service
AWS
Glue
AWS Lake
Formation
Analytics, machine learning
& serviços de dados
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDBAmazon
QuickSight
Amazon
Kinesis
Amazon
Elasticsearch
Service
Amazon
Neptune
Amazon
RDS
Amazon
Rekognition
Amazon
SageMaker
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation facilita
a gestão do data lake
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Serviço totalmente gerenciado que habilita
engenheiros de dados segurança de informação analistas de dados
a construir data lakes seguros e saneados em dias
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation – visão da solução
Amazon S3
Data Lake Storage
Armazenamento de custo efetivo e
durável com função de replicação global
Ingestão e limpeza simplificadas
habilitam engenheiros de dados com
velocidade
Gestão centralizada de permissões
detalhadas suportando a segurança
Ferramentas de descoberta, distribuição
e integração para todos usuáriosAmazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Segurança de
Informação
Data
Analyst
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo Passo 1: Registrar localização S3 para o data lake
Data
Engineer
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo Passos 2 & 3: Carga de dados via blueprint
Data
Engineer
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Realize ingestão fácil para o data lake com blueprints
Logs
DBs
Templates prontos para caso de uso de
ingestão mais frequentes
Gera Workflows AWS Glue
configurando triggers, crawlers , jobs, data formats
gera código e ajusta partições
preenche o Data Catalog
carga única ou contínua
Customize para suas necessidades
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation utiliza o AWS Glue
Blueprints
Glue ETL Jobs
Workflow
Glue Crawlers
Glue Data Catalog
Conexões,
Databases, Tabelas
Monitoramento
Segurança, busca,
colaboração
AWS Glue
AWS Lake Formation
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Orquestre triggers,
crawlers & jobs
Crie & monitore
fluxos completos
Alertas integrados
AWS Glue provê componentes serverless escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive Metastore
Integra com serviços
AWS de analytics
Crawlers Workflows Flexíveis
Deriva schemas
automaticamente
Preenche data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Blueprints criam workflows no AWS Glue
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue workflow: Orquestrando pipelines de dados
Modo fácil de criar e
visualizar suas regras de
transformação de dados
Permite compartilhar
parâmetros e fase de
estado dentre estágios
Visões dinâmicas permitem
inspeções de fluxos em
execução para diagnóstico
e busca de estado atual
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Utilize machine learning para resolver problemas
Combinação de registros
Encontrando relacionamentos entre múltiplos
datasets, mesmo quando nao compartilham um
identificador (ou este não é confiável)
De-duplicação
Transformando um dataset onde múltiplas linhas
referem-se a uma mesma entidade, em um
dataset de referências únicas por linha.
ML FindMatches
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Centralizando segurança nos Data Lakes
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Permissões centralizadas
Lake Formation
Amazon S3
Data Lake Storage
Data
Analyst
Data
Catalog
Access
Control
Amazon
Athena
Amazon
Redshift
AWS
Glue
Amazon
EMR
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Permissões no AWS Lake Formation
Controle o acesso ao dado com ações
simples de concessão e bloqueio
Especifique permissões em DBs, tabelas e
colunas ao invés de buckets e objetos
Facilmente veja permissões concedidas a
usuários específicos
Audite todo acesso ao dado em um local
User 1
User 2
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation – modelo de segurança
Trabalha em conjunto com IAM
Legislators database
members events
IAM
permissions
Lake Formation
permissions
Amazon S3
Requisite credencial temp.
Requisite objetos S3
Novas permissões Credenciais temporárias
persons organizations
AWS Lake Formation
Amazon
Athena
Amazon
Redshift
AWS
Glue
Amazon
EMR
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 4: Conceda permissões aos usuários
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Construindo data lakes com AWS Lake Formation
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 5: Execute queries nas ferramentas de análise
Data admin usa Redshift
Responsável em criar data sets
derivados
Tem acesso a todas as colunas
Analista de negócios usa Amazon
Athena
Responsável pela análise de
comportamento
Acessa colunas específicas de usuário
Cientista de dados usa EMR
Responsável por insights para gerar
crescimento
Acessa a todas colunas exceto PII
Data
Analyst
Amazon EMRAmazon Redshift Amazon Athena
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Centralizando segurança nos Data Lakes
Ingestão & limpeza Segurança Analytics & ML
Blueprints simplificam
ML transformam para
saneamento de dados
Permissões centrais
Monitoramento em
tempo real e auditoria
Ferramenta orientada a uso
Amplo portfolio de
ferramentas
Data
Engineer
Data
Analyst
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Demo passo 6: Audite o acesso dos usuários
Veja atividades detalhadas no console
Analise logs de auditoria no CloudTrail
usando Amazon Athena
Notificações de ingestão de dados e
catálogo são também publicadas no
Amazon CloudWatch events
Segurança de
Informação
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Gestão do Data Catalog e Metadata
Busca baseada em texto
sobre todo metadata
Adicione atributos como
data owners, stewards, e
outros como propriedades
de tabela
Adicione nível de
sensibilidade, definições
de colunas, e outros como
propriedades de coluna
Busca e
filtragem de
textos
Consultas no
Amazon Athena
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Lake Formation
Construa em dia um data lake seguro e governado
Gerencie a segurança de
forma simples
Defina de forma central políticas de
segurança, governança e auditoria
Reforce políticas de forma consistente
dentre serviços
Integrado com IAM e KMS
Forneça acesso
self-service aos dados
Construa um catálogo que
descreva seus dados
Possibilite que consumidores encontrem
facilmente dados relevantes
Análise através de múltiplos serviços
sem necessidade de mover dados
Construa data lakes
rapidamente
Mova, armazene, registre e
limpe seu data lake de forma rápida
Transforme para formatos abertos
como Parquet e ORC
Deduplicação e combinação de registros
com base em ML
https://aws.amazon.com/pt/lake-formation/
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Q&A
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Seu feedback é importante!
http://bit.ly/dataimmersion_day2
Sergio Zaccarelli (szacca@amazon.com)
Arquiteto de Soluções

Mais conteúdo relacionado

Mais procurados

IA/ML para análise de fraude e gerenciamento de riscos
IA/ML para análise de fraude e gerenciamento de riscosIA/ML para análise de fraude e gerenciamento de riscos
IA/ML para análise de fraude e gerenciamento de riscosAmazon Web Services LATAM
 
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...Amazon Web Services LATAM
 
aws webinar - como otimizar sues custos na nuvem.pdf
aws webinar - como otimizar sues custos na nuvem.pdfaws webinar - como otimizar sues custos na nuvem.pdf
aws webinar - como otimizar sues custos na nuvem.pdfAmazon Web Services LATAM
 
AWS Intitiate Week 2020 - AWS Programas de educação
AWS Intitiate Week 2020 - AWS Programas de educaçãoAWS Intitiate Week 2020 - AWS Programas de educação
AWS Intitiate Week 2020 - AWS Programas de educaçãoAmazon Web Services LATAM
 
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS - SID201 -...
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS -  SID201 -...Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS -  SID201 -...
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS - SID201 -...Amazon Web Services
 
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptx
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptxAWS Initiate Digital week 2020 - Nuvem Hibrida.pptx
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptxAmazon Web Services LATAM
 
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...Amazon Web Services LATAM
 
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos Nunes
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos NunesAWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos Nunes
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos NunesAmazon Web Services LATAM
 
Desenvolvimento de Aplicações em Container com AWS Fargate - DEV302 - Sao Pa...
Desenvolvimento de Aplicações em Container com AWS Fargate -  DEV302 - Sao Pa...Desenvolvimento de Aplicações em Container com AWS Fargate -  DEV302 - Sao Pa...
Desenvolvimento de Aplicações em Container com AWS Fargate - DEV302 - Sao Pa...Amazon Web Services
 
Impulsione Inteligência ao IoT Edge com AWS Greengrass - IOT201 - Sao Paulo ...
Impulsione Inteligência ao IoT Edge com AWS Greengrass -  IOT201 - Sao Paulo ...Impulsione Inteligência ao IoT Edge com AWS Greengrass -  IOT201 - Sao Paulo ...
Impulsione Inteligência ao IoT Edge com AWS Greengrass - IOT201 - Sao Paulo ...Amazon Web Services
 
Construindo um ambiente resiliente para Ransomware com AWS
Construindo um ambiente resiliente para Ransomware com AWSConstruindo um ambiente resiliente para Ransomware com AWS
Construindo um ambiente resiliente para Ransomware com AWSAmazon Web Services LATAM
 
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway -  CM...Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway -  CM...
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...Amazon Web Services
 

Mais procurados (20)

IA/ML para análise de fraude e gerenciamento de riscos
IA/ML para análise de fraude e gerenciamento de riscosIA/ML para análise de fraude e gerenciamento de riscos
IA/ML para análise de fraude e gerenciamento de riscos
 
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...
AWS Initiate Brasil 2021 - Segurança e Privacidade de Dados - Ernesto dos San...
 
Como a AWS pode ajudar na jornada da LGPD
Como a AWS pode ajudar na jornada da LGPDComo a AWS pode ajudar na jornada da LGPD
Como a AWS pode ajudar na jornada da LGPD
 
Melhorando resultados educacionais com AIML
Melhorando resultados educacionais com AIMLMelhorando resultados educacionais com AIML
Melhorando resultados educacionais com AIML
 
aws webinar - como otimizar sues custos na nuvem.pdf
aws webinar - como otimizar sues custos na nuvem.pdfaws webinar - como otimizar sues custos na nuvem.pdf
aws webinar - como otimizar sues custos na nuvem.pdf
 
AWS Intitiate Week 2020 - AWS Programas de educação
AWS Intitiate Week 2020 - AWS Programas de educaçãoAWS Intitiate Week 2020 - AWS Programas de educação
AWS Intitiate Week 2020 - AWS Programas de educação
 
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS - SID201 -...
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS -  SID201 -...Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS -  SID201 -...
Visão Geral dos Serviços de Identidade, Diretório e Acesso da AWS - SID201 -...
 
AWS Webinar | Como usar AWS?
AWS Webinar | Como usar AWS?AWS Webinar | Como usar AWS?
AWS Webinar | Como usar AWS?
 
Microsoft Workloads em Amazon Web Services
Microsoft Workloads em Amazon Web ServicesMicrosoft Workloads em Amazon Web Services
Microsoft Workloads em Amazon Web Services
 
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptx
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptxAWS Initiate Digital week 2020 - Nuvem Hibrida.pptx
AWS Initiate Digital week 2020 - Nuvem Hibrida.pptx
 
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...
AWS Initiate Brasil 2021 - Desenvolvimento de Talentos na nuvem AWS - Rubem S...
 
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos Nunes
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos NunesAWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos Nunes
AWS Initiate Brasil 2021 - Treinamento e Certificação - Carlos Nunes
 
Desenvolvimento de Aplicações em Container com AWS Fargate - DEV302 - Sao Pa...
Desenvolvimento de Aplicações em Container com AWS Fargate -  DEV302 - Sao Pa...Desenvolvimento de Aplicações em Container com AWS Fargate -  DEV302 - Sao Pa...
Desenvolvimento de Aplicações em Container com AWS Fargate - DEV302 - Sao Pa...
 
Impulsione Inteligência ao IoT Edge com AWS Greengrass - IOT201 - Sao Paulo ...
Impulsione Inteligência ao IoT Edge com AWS Greengrass -  IOT201 - Sao Paulo ...Impulsione Inteligência ao IoT Edge com AWS Greengrass -  IOT201 - Sao Paulo ...
Impulsione Inteligência ao IoT Edge com AWS Greengrass - IOT201 - Sao Paulo ...
 
Construindo um ambiente resiliente para Ransomware com AWS
Construindo um ambiente resiliente para Ransomware com AWSConstruindo um ambiente resiliente para Ransomware com AWS
Construindo um ambiente resiliente para Ransomware com AWS
 
AWS Storage Day - Otimização do Amazon S3
AWS Storage Day - Otimização do Amazon S3AWS Storage Day - Otimização do Amazon S3
AWS Storage Day - Otimização do Amazon S3
 
Inicie uma jornada segura para a nuvem
Inicie uma jornada segura para a nuvemInicie uma jornada segura para a nuvem
Inicie uma jornada segura para a nuvem
 
Segurança na AWS
Segurança na AWS Segurança na AWS
Segurança na AWS
 
Desenvolvimento de CI/CD na AWS
Desenvolvimento de CI/CD na AWSDesenvolvimento de CI/CD na AWS
Desenvolvimento de CI/CD na AWS
 
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway -  CM...Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway -  CM...
Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...
 

Semelhante a AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório de dados de maneira segura e seguindo boas práticas de governança

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Amazon Web Services
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo SummitAmazon Web Services
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Amazon Web Services
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Amazon Web Services LATAM
 

Semelhante a AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório de dados de maneira segura e seguindo boas práticas de governança (20)

Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Webinar Data Lakes & Analytics na AWS
Webinar Data Lakes & Analytics na AWSWebinar Data Lakes & Analytics na AWS
Webinar Data Lakes & Analytics na AWS
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)
 
Construindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWSConstruindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWS
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Arquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXIArquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXI
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório de dados de maneira segura e seguindo boas práticas de governança

  • 1. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Sergio Zaccarelli Arquiteto de Soluções - Out/2020 Criando um repositório de dados de maneira segura seguindo boas práticas Data Immersion Month
  • 2. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Tendências de um mundo orientado a dados
  • 3. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. No passado, o processo de decisão … OLTP ERP CRM LOB Enterprise data warehouse Business intelligence …era orientado ao redor do data warehouse
  • 4. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Como comportar tantos dados? Dados cada 5 anos Existem mais dados do que se imagina 15 ano existir por Repositórios de dados necessitam 1,000x escalar >10x crescem Dados mais diversos
  • 5. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cargas de trabalho diversas Existem mais pessoas acessando dados… …querendo analisar de diferentes formas Cientistas de Dados Analistas Usuários de Negócio Aplicações Machine learning Análises SQL Científico Tempo real, streaming
  • 6. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Maior pressão regulatória Democratização dos Dados Governança & controle …cumprir com regulações e requisitos de governança? Como democratizar o acesso ao dado e ao mesmo tempo…
  • 7. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O que é um data lake
  • 8. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data lake: o novo ponto central de informação Um repositório centralizado, seguro que permite você governar, descobrir, compartilhar e analisar dados estruturados e não-estruturados em escala
  • 9. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Porque data lakes? Data Lakes permitem: Comportar dados relacionais e não-relationais Escalar em nível de Exabytes (EB) Diverso conjunto de ferramentas de análise e ML Trabalhar com dados sem necessitar mover Utilizar armazenagem e analytics de baixo custo OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 1001100001001010111001 0101011100101010000101 1111011010 0011110010110010110 0100011000010 Devices Web Sensors Social Catalog Machine Learning DW Queries Big data processing Interactive Real-time
  • 10. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Evolução: data lakes na nuvem AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams On-premises, Batch Real-time, Streaming Amazon S3: armazenamento de objetos que permite centralizar conjuntos de dados Habilita um único local de controle Múltiplos motores de análise disponíveis sob demanda, pay-as-you-go Amazon S3 Data Lake Storage
  • 11. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Princípios de Arquitetura e design
  • 12. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Princípios de arquitetura e design de um data lake Princípio: Disrupção mínima Afirmação: Minimizar disrupção nos produtores de dados no modo em que entregam Princípio: Configuração (Regra 80/20) Afirmação: Enfoque em 80% dos casos de uso que podem ser atendidos com componentes configurados Princípio: Ferramenta certa para a tarefa certa Afirmação: Os processos devem orientar a ferramenta, e não o contrário Princípio: Desacoplagem consciente Afirmação: A ferramenta certa de hoje pode não ser a de amanhã Princípio: Residência de dados Afirmação: Usuário acessa o dado onde ESTE reside não importa onde ELES residam
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Sete princípios de gestão de dados & governança Accountability • Identifique domínios de dados • Identifique donos dos dados • Popule o catálogo de dados Data Accuracy • Validação das ingestões • Certificação dos dados • Lógica de padronização • Use modelos conceitual e lógico orientando a criação do modelo de dados físico Data Quality • Defina categorias de DQ • Qualidade de operação • Lógica de integração – identifique, categorize e corrija. • Defina processos de remediação Operational Excellence • Defina SLAs e notificação e remediação apropriadas • Defina ciclo de vida dos dados • Identifique processos de gestão do conteúdo Security • Proteção de Dados • Direitos do usuário • Monitoração granular (quem, que, onde, quando) Data Privacy • Classifique todos dados coletados e retidos • Identifique leis e regulações aplicáveis • Implemente controles de compliance automatizados • Aplique e mantenha procedimentos e prática de seguranças razoáveis Data Lineage • Defina linhagem de dados • Esclareça quais as saídas • Considere ETL self-service
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Arquitetura Conceitual
  • 15. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Arquitetura Lógica
  • 16. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Desafios ao construir um data lake
  • 17. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Construindo data lakes saneados e seguros podem levar meses
  • 18. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Passos típicos na construção de um data lake Configurar Armazenamento 1 Mover dados2 Limpar, preparar e catalogar dados 3 Configurar e reforçar segurança e políticas de compliance 4 Deixar o dado disponível para analytics5 Ingestão & Limpeza Segurança Analytics & ML Engenheiro de Dados Segurança de Informação Analista de Dados
  • 19. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Uma solução open source possível • Hadoop Cluster (static/multi tenant) • Apache NiFi for ingestion workflows • Sqoop to ingest data from RDBMS • HDFS to store the data (tied to the Hadoop cluster) • Hive/HCatalog for data Catalog • Apache Spark for complex ETL –with Apache Livy for REST • Hive for batch workloads with SQL • Presto for interactive queries with SQL • Kafka for streaming ingest • Apache Spark/Apache Flink for streaming analytics • Apache Hbase (or maybe Cassandra) to store streaming data • Prometheus (or fluentd/collectd/ganglia/Nagios…) for logs and monitoring. Maybe with Elastic Search/Kibana • Airflow/Oozie to schedule workflows • Superset for business dashboards • Jupyter/JupyterHub/Zeppelin for data science • Security (Apache Sentry for Roles, Ranger for configuration, Knox as a firewall) • YARN to coordinate resources • Ambari for cluster administration • Terraform/chef/puppet for provisioning
  • 20. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Alguns problemas possivelmente encontrados • Meu time leva mais tempo mantendo o cluster que incorporando funções • Securança e monitoração são difíceis • Maioria do tempo meu cluster está inativo, e surgem gargalos em momentos de pico • Não tenho tempo para experimentações • Papéis altamente especializados: Nichos de conhecimento e problemas de talento
  • 21. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Uma solução nascida na cloud AWS Amazon S3 Interfaces de acesso AWS AppSync Amazon API Gateway Amazon Cognito Gerencie & controle Armazenamento: Escalável, seguro e de custo efetivo AWS Key Management Service AWS Identity and Access Management Amazon CloudWatch AWS CloudTrail AWS Snowball AWS Storage Gateway Amazon Kinesis Data Firehose AWS Direct Connect AWS Database Migration Service Ingestão de dados Catálogo & busca Amazon DynamoDB Amazon Elasticsearch Service AWS Glue AWS Lake Formation Analytics, machine learning & serviços de dados Amazon Athena Amazon EMR AWS Glue Amazon Redshift Amazon DynamoDBAmazon QuickSight Amazon Kinesis Amazon Elasticsearch Service Amazon Neptune Amazon RDS Amazon Rekognition Amazon SageMaker
  • 22. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Lake Formation facilita a gestão do data lake
  • 23. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Serviço totalmente gerenciado que habilita engenheiros de dados segurança de informação analistas de dados a construir data lakes seguros e saneados em dias
  • 24. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Lake Formation – visão da solução Amazon S3 Data Lake Storage Armazenamento de custo efetivo e durável com função de replicação global Ingestão e limpeza simplificadas habilitam engenheiros de dados com velocidade Gestão centralizada de permissões detalhadas suportando a segurança Ferramentas de descoberta, distribuição e integração para todos usuáriosAmazon Athena Amazon QuickSight Amazon Redshift AWS Glue Amazon EMR Lake Formation AWS Glue Blueprints ML Transforms Data Catalog Access Control AWS SageMaker
  • 25. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Construindo data lakes com AWS Lake Formation Ingestão & limpeza Segurança Analytics & ML Blueprints simplificam ML transformam para saneamento de dados Permissões centrais Monitoramento em tempo real e auditoria Ferramenta orientada a uso Amplo portfolio de ferramentas Data Engineer Segurança de Informação Data Analyst
  • 26. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo Passo 1: Registrar localização S3 para o data lake Data Engineer
  • 27. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo Passos 2 & 3: Carga de dados via blueprint Data Engineer
  • 28. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Realize ingestão fácil para o data lake com blueprints Logs DBs Templates prontos para caso de uso de ingestão mais frequentes Gera Workflows AWS Glue configurando triggers, crawlers , jobs, data formats gera código e ajusta partições preenche o Data Catalog carga única ou contínua Customize para suas necessidades
  • 29. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Lake Formation utiliza o AWS Glue Blueprints Glue ETL Jobs Workflow Glue Crawlers Glue Data Catalog Conexões, Databases, Tabelas Monitoramento Segurança, busca, colaboração AWS Glue AWS Lake Formation
  • 30. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Orquestre triggers, crawlers & jobs Crie & monitore fluxos completos Alertas integrados AWS Glue provê componentes serverless escaláveis Data Catalog Serverless ETL Compatível com Apache Hive Metastore Integra com serviços AWS de analytics Crawlers Workflows Flexíveis Deriva schemas automaticamente Preenche data catalog Desenvolvimento interativo Apache Spark / Python shell jobs Execução serverless
  • 31. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Blueprints criam workflows no AWS Glue
  • 32. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue workflow: Orquestrando pipelines de dados Modo fácil de criar e visualizar suas regras de transformação de dados Permite compartilhar parâmetros e fase de estado dentre estágios Visões dinâmicas permitem inspeções de fluxos em execução para diagnóstico e busca de estado atual
  • 33. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Construindo data lakes com AWS Lake Formation Ingestão & limpeza Segurança Analytics & ML Blueprints simplificam ML transformam para saneamento de dados Permissões centrais Monitoramento em tempo real e auditoria Ferramenta orientada a uso Amplo portfolio de ferramentas Data Engineer Data Analyst Segurança de Informação
  • 34. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Utilize machine learning para resolver problemas Combinação de registros Encontrando relacionamentos entre múltiplos datasets, mesmo quando nao compartilham um identificador (ou este não é confiável) De-duplicação Transformando um dataset onde múltiplas linhas referem-se a uma mesma entidade, em um dataset de referências únicas por linha. ML FindMatches
  • 35. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Centralizando segurança nos Data Lakes Ingestão & limpeza Segurança Analytics & ML Blueprints simplificam ML transformam para saneamento de dados Permissões centrais Monitoramento em tempo real e auditoria Ferramenta orientada a uso Amplo portfolio de ferramentas Data Engineer Data Analyst Segurança de Informação
  • 36. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Permissões centralizadas Lake Formation Amazon S3 Data Lake Storage Data Analyst Data Catalog Access Control Amazon Athena Amazon Redshift AWS Glue Amazon EMR Segurança de Informação
  • 37. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Permissões no AWS Lake Formation Controle o acesso ao dado com ações simples de concessão e bloqueio Especifique permissões em DBs, tabelas e colunas ao invés de buckets e objetos Facilmente veja permissões concedidas a usuários específicos Audite todo acesso ao dado em um local User 1 User 2
  • 38. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Lake Formation – modelo de segurança Trabalha em conjunto com IAM Legislators database members events IAM permissions Lake Formation permissions Amazon S3 Requisite credencial temp. Requisite objetos S3 Novas permissões Credenciais temporárias persons organizations AWS Lake Formation Amazon Athena Amazon Redshift AWS Glue Amazon EMR
  • 39. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo passo 4: Conceda permissões aos usuários Segurança de Informação
  • 40. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Construindo data lakes com AWS Lake Formation Ingestão & limpeza Segurança Analytics & ML Blueprints simplificam ML transformam para saneamento de dados Permissões centrais Monitoramento em tempo real e auditoria Ferramenta orientada a uso Amplo portfolio de ferramentas Data Engineer Data Analyst Segurança de Informação
  • 41. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo passo 5: Execute queries nas ferramentas de análise Data admin usa Redshift Responsável em criar data sets derivados Tem acesso a todas as colunas Analista de negócios usa Amazon Athena Responsável pela análise de comportamento Acessa colunas específicas de usuário Cientista de dados usa EMR Responsável por insights para gerar crescimento Acessa a todas colunas exceto PII Data Analyst Amazon EMRAmazon Redshift Amazon Athena
  • 42. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Centralizando segurança nos Data Lakes Ingestão & limpeza Segurança Analytics & ML Blueprints simplificam ML transformam para saneamento de dados Permissões centrais Monitoramento em tempo real e auditoria Ferramenta orientada a uso Amplo portfolio de ferramentas Data Engineer Data Analyst Segurança de Informação
  • 43. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Demo passo 6: Audite o acesso dos usuários Veja atividades detalhadas no console Analise logs de auditoria no CloudTrail usando Amazon Athena Notificações de ingestão de dados e catálogo são também publicadas no Amazon CloudWatch events Segurança de Informação
  • 44. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Gestão do Data Catalog e Metadata Busca baseada em texto sobre todo metadata Adicione atributos como data owners, stewards, e outros como propriedades de tabela Adicione nível de sensibilidade, definições de colunas, e outros como propriedades de coluna Busca e filtragem de textos Consultas no Amazon Athena
  • 45. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Lake Formation Construa em dia um data lake seguro e governado Gerencie a segurança de forma simples Defina de forma central políticas de segurança, governança e auditoria Reforce políticas de forma consistente dentre serviços Integrado com IAM e KMS Forneça acesso self-service aos dados Construa um catálogo que descreva seus dados Possibilite que consumidores encontrem facilmente dados relevantes Análise através de múltiplos serviços sem necessidade de mover dados Construa data lakes rapidamente Mova, armazene, registre e limpe seu data lake de forma rápida Transforme para formatos abertos como Parquet e ORC Deduplicação e combinação de registros com base em ML https://aws.amazon.com/pt/lake-formation/
  • 46. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Q&A
  • 47. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Seu feedback é importante! http://bit.ly/dataimmersion_day2 Sergio Zaccarelli (szacca@amazon.com) Arquiteto de Soluções