SlideShare a Scribd company logo
1 of 36
Download to read offline
2© 2016 Pivotal Software, Inc. All rights reserved. 2
Conhecendo o Greenplum
O banco de dados Open Source massivamente
paralelo baseado em PostgreSQL
Luis Macedo
Arquiteto de Plataforma
3© 2016 Pivotal Software, Inc. All rights reserved.
Quem sou eu?
Ÿ  Bacharel em Física – USP
Ÿ  11 anos de experiência com VLDBs
Ÿ  Trabalhei nos projetos de DWH Telefonica,
Oi, Vivo e TIM
Ÿ  Projetos de Big Data e Hadoop na TIM e
Bradesco
Ÿ  Foco recente em plataformas de Nuvem
4© 2016 Pivotal Software, Inc. All rights reserved.
Powering Digital Transformation
A Pivotal ajuda empresas a prover a
melhor experiência a seus clientes e
colaboradores se calcando em
softwares modernos
5© 2016 Pivotal Software, Inc. All rights reserved.
Introdução ao Greenplum DB
Arquitetura do GPDB
Greenplum <> PostgreSQL
Casos de Uso
6© 2016 Pivotal Software, Inc. All rights reserved. 6
Introdução ao GPDB
7© 2016 Pivotal Software, Inc. All rights reserved.
http://greenplum.org/
Intodução ao Greenplum Database
8© 2016 Pivotal Software, Inc. All rights reserved.
https://github.com/greenplum-db/gpdb
Intodução ao Greenplum Database
9© 2016 Pivotal Software, Inc. All rights reserved.
Intodução ao Greenplum Database
”Mudar para sempre o Data Warehousing oferecendo um sistema abrangente e
comprovado em código aberto”
•  Totalmente ACID Compliant
•  Focado em “Big Structured Data”
•  ANSI SQL Standard Compliant (PostgreSQL)
•  Solução de Sofware
•  Implementação em HW comodite, appliance ou em nuvem
•  15+ anos de P&D
•  Herança do PostgreSQL e Open Source
•  Mais de 1000+ clientes enterprise pelo mundo
10© 2016 Pivotal Software, Inc. All rights reserved.
Intodução ao Greenplum Database
11© 2016 Pivotal Software, Inc. All rights reserved.
Procedural Languages
•  C
•  pgSQL
•  R
•  Python
•  Java
•  Perl
PostGIS
Fuzzy String Functions
NJSQL
Not Just SQL
12© 2016 Pivotal Software, Inc. All rights reserved. 12
Arquitetura do GPDB
13© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Arquitetura MPP Shared Nothing
Ø  Master Host
Ø  Coordenador
Ø  Segment Host
Ø  Executor
Ø  Interconnect
Ø  Barramento de conexão entre
os servidores
Ø  Segment Instance
Ø  Similar ao processo postgres
Standby
Master
…
Master
Host
SQL
Interconnect
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
node1
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
node2
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
node3
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
nodeN
14© 2016 Pivotal Software, Inc. All rights reserved.
Bob 12
Steve 10
Jim 15
Carson 2
Madison 6
Thomas 8
Andrea 22
cookie_order
15© 2016 Pivotal Software, Inc. All rights reserved.
select * from cookie_order
where amt > 10
16© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Arquitetura MPP Shared Nothing
Ø  Carga e extração paralela
Ø  10+ TB/h taxa de carga
Ø  Escalabilidade linear
Ø  Sem necessidade de reorg ou
aregar intermediárias
Ø  Multiplas horigens/destinos
Ø  Hadoop, FS, S3 External
Sources
Loading, streaming,
etc.
gNet Network
Interconnect
... ...
......
Master
Servers
Query planning &
dispatch
Segment
Servers
Query processing &
data storage
SQL
ETL
File
Systems
17© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Polymorfic Storage
•  Melhor performance de consultas
OLAP
•  Melhor Compressão
•  Vários níveis: quickLZ, zLib 1 a 9,
RLE
•  Melhor performance para
workloadas de pequenos inserts
•  Tabelas Heap tem melhor
performance para Upd/Del
Tabela ‘Vendas’
Jun
Orientado a ColunaOrientado a Linha
Out Ano
-1
Ano
-2
HDFS Externo
•  Dados Frios
•  Formatos: Texto, CSV,
Binario, Avro, Parquet
Nov DecJul Ago Set
18© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Alta Disponibilidade
Interconnect
Segment Host
Segment Instance
Segment Instance
Segment Instance
Segment Instance
Master HA
Segment HA
19© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Distribuição e Particionamento
Segment 1A Segment 1B Segment 1C Segment 1D
Segment 2A Segment 2B Segment 2C Segment 2D
Segment 3A Segment 3B Segment 3C Segment 3D
Segment 1A Segment 1B Segment 1C Segment 1D
Segment 2A Segment 2B Segment 2C Segment 2D
Segment 3A Segment 3B Segment 3C Segment 3D
Segment 1A Segment 1B Segment 1C Segment 1D
Segment 2A Segment 2B Segment 2C Segment 2D
Segment 3A Segment 3B Segment 3C Segment 3D
SELECT COUNT(*)
FROM orders
WHERE order_date >= ‘Oct 20 2007’
AND order_date < ‘Oct 27 2007’
&
As ordens estão distribuidas
nos segmentos
Somente as ordens das partições
qualificadas são escaneadas
Segment 1A Segment 1B Segment 1C Segment 1D
Segment 2A Segment 2B Segment 2C Segment 2D
Segment 3A Segment 3B Segment 3C Segment 3D
20© 2016 Pivotal Software, Inc. All rights reserved. 20
Greenplum <>
PostgreSQL
21© 2016 Pivotal Software, Inc. All rights reserved.
22© 2016 Pivotal Software, Inc. All rights reserved.
23© 2016 Pivotal Software, Inc. All rights reserved.
24© 2016 Pivotal Software, Inc. All rights reserved.
$ git diff --stat REL8_2_23..REL8_3_23
2423 files changed,
461334 insertions(+),
208900 deletions(-)
25© 2016 Pivotal Software, Inc. All rights reserved.
26© 2016 Pivotal Software, Inc. All rights reserved.
$ git merge upstream/REL8_3_STABLE
$ grep -r "<<<<<<< HEAD" . | wc -l
6653
27© 2016 Pivotal Software, Inc. All rights reserved.
28© 2016 Pivotal Software, Inc. All rights reserved.
Long Story Short… !
29© 2016 Pivotal Software, Inc. All rights reserved. 29
Caos de Uso ???Casos de Uso
30© 2016 Pivotal Software, Inc. All rights reserved.
“Next Best Action” – Engine de Recomendação
Cliente
Banco de varejo (EUA)
Problema de Negócio
Aumentar o mix de produtos financeiros adquiridos
pelos clientes em especial produtos de alto retorno
Desafios
▪  Com crescimento do volume de dados o ETL so
tornou um gargalo
▪  Dificuldade de evoluir os modelos estatísticos
com o alto volume de dados e ferrentas
tradicionais
Solução
▪  Trazer o ETL para ELT no Greenplum acelerando
a carga e preparação do dado
▪  Utilizar MADlib para criar novos modelos de “Next
best action” mais eficazes usando mais dados e
mais granular
▪  Utilizar novo modelo para operacionalizar açoes
de vendas otimizando o portifolio de cada gerente
Who? What? When? Where?
Next Best
Action
31© 2016 Pivotal Software, Inc. All rights reserved.
Análise de Falha Massiva - ANATEL
Cliente
Grande Telco Brasileira
Problema de Negócio
Quando ocorre uma falha de um equipamento de
rede e isto afeta uma região a ANATEL define uma
complexa regra de reembolso para os afetados.
Solução adotara era reemboçlar todos os clientes
da região no momento da falha.
Desafios
▪  Grande volume de dados não permitia a
aplicação da regra ANATEL
▪  Não havia dados nos sistemas legados
Solução
▪  Trazer todo dado de xDR para um Data Lake
▪  Criar listagem, cliente a cliente, aplicando a regra
da ANTEL
▪  Alimentar sistema de billing com reembolços
corretos
32© 2016 Pivotal Software, Inc. All rights reserved.
Prevenção a Evasão de Impostos
Cliente
Secretaria de Fazenda Estadual
Problema de Negócio
Com a digitalização das notas fiscais de compra e
venda o volume dados disponíveis para análise
cresceu muito abrindo espaço para uma
fiscalização mais estrita.
Desafios
▪  Volumes de dados não compatíveis com a arquitetura
SMP do SQLServer
▪  Cilos de dados (diferentes SQLServers)
▪  Processo de fraude demorava 2 meses para executar.
Solução
▪  Criar novo modelo de dados desnormalizado em
GPDB
▪  Criar novos algoritmos de prevenção a evasão de
impostos
▪  Sofisticar a análise e contemplar NF-e PF.
33© 2016 Pivotal Software, Inc. All rights reserved. 33
Concluindo…
34© 2016 Pivotal Software, Inc. All rights reserved.
!
35© 2016 Pivotal Software, Inc. All rights reserved.
TO BECOME A
HACKER
Introdução ao banco de dados Greenplum

More Related Content

What's hot

ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.ppt
ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.pptADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.ppt
ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.pptValdir Conceição
 
Gestão de-custos
Gestão de-custosGestão de-custos
Gestão de-custoskerybrowser
 
Transforming Agrarian Economy through Innovative Science and Technology
Transforming Agrarian  Economy through Innovative Science and TechnologyTransforming Agrarian  Economy through Innovative Science and Technology
Transforming Agrarian Economy through Innovative Science and Technologydewaliroy
 
GST -Effects On Consumer
GST -Effects On ConsumerGST -Effects On Consumer
GST -Effects On ConsumerSubhash Gupta
 
India Presentation - Business Environment
India Presentation - Business EnvironmentIndia Presentation - Business Environment
India Presentation - Business EnvironmentTim Enalls
 
Imports and exports of india
Imports and exports of indiaImports and exports of india
Imports and exports of indiaDarani Daran
 
Data mining - Process, Techniques and Research Topics
Data mining - Process, Techniques and Research TopicsData mining - Process, Techniques and Research Topics
Data mining - Process, Techniques and Research TopicsTechsparks
 
Tax structure in india
Tax structure in indiaTax structure in india
Tax structure in indiaManan Nanda
 
Standardised ppt on revised model gst law
Standardised ppt on revised model gst lawStandardised ppt on revised model gst law
Standardised ppt on revised model gst lawNaatchammai Ramanathan
 
Questoes respondidas custos
Questoes respondidas custosQuestoes respondidas custos
Questoes respondidas custossimuladocontabil
 
indian tax system
indian tax systemindian tax system
indian tax systemBijon Guha
 
Material aula contabilidade de custos
Material aula contabilidade de custosMaterial aula contabilidade de custos
Material aula contabilidade de custosRafhael Sena
 
Presentation on Indian economy
Presentation on Indian economyPresentation on Indian economy
Presentation on Indian economyJags Bhanderi
 

What's hot (20)

ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.ppt
ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.pptADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.ppt
ADMINISTRAÇÃO DE MATERIAIS UTILIZANDO A INFORMÁTICA.ppt
 
Gestão de-custos
Gestão de-custosGestão de-custos
Gestão de-custos
 
Gst.ppt
Gst.pptGst.ppt
Gst.ppt
 
Engineering Sector
Engineering SectorEngineering Sector
Engineering Sector
 
Transforming Agrarian Economy through Innovative Science and Technology
Transforming Agrarian  Economy through Innovative Science and TechnologyTransforming Agrarian  Economy through Innovative Science and Technology
Transforming Agrarian Economy through Innovative Science and Technology
 
GST -Effects On Consumer
GST -Effects On ConsumerGST -Effects On Consumer
GST -Effects On Consumer
 
India Presentation - Business Environment
India Presentation - Business EnvironmentIndia Presentation - Business Environment
India Presentation - Business Environment
 
GST INDIA
GST INDIA GST INDIA
GST INDIA
 
Imports and exports of india
Imports and exports of indiaImports and exports of india
Imports and exports of india
 
Data mining - Process, Techniques and Research Topics
Data mining - Process, Techniques and Research TopicsData mining - Process, Techniques and Research Topics
Data mining - Process, Techniques and Research Topics
 
Gst
GstGst
Gst
 
Tax structure in india
Tax structure in indiaTax structure in india
Tax structure in india
 
GST INDIA
GST INDIAGST INDIA
GST INDIA
 
Standardised ppt on revised model gst law
Standardised ppt on revised model gst lawStandardised ppt on revised model gst law
Standardised ppt on revised model gst law
 
Questoes respondidas custos
Questoes respondidas custosQuestoes respondidas custos
Questoes respondidas custos
 
Impact of GST
Impact of GSTImpact of GST
Impact of GST
 
indian tax system
indian tax systemindian tax system
indian tax system
 
Gst ppt
Gst pptGst ppt
Gst ppt
 
Material aula contabilidade de custos
Material aula contabilidade de custosMaterial aula contabilidade de custos
Material aula contabilidade de custos
 
Presentation on Indian economy
Presentation on Indian economyPresentation on Indian economy
Presentation on Indian economy
 

Viewers also liked

PostgreSQL: How to Store Passwords Safely
PostgreSQL: How to Store Passwords SafelyPostgreSQL: How to Store Passwords Safely
PostgreSQL: How to Store Passwords SafelyJuliano Atanazio
 
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di CiurcioDevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di CiurcioPGDay Campinas
 
2015 zData Inc. - Apache Ambari Overview
2015 zData Inc. - Apache Ambari Overview2015 zData Inc. - Apache Ambari Overview
2015 zData Inc. - Apache Ambari OverviewzData Inc.
 
Bancos de dados analíticos open source
Bancos de dados analíticos open sourceBancos de dados analíticos open source
Bancos de dados analíticos open sourceMatheus Espanhol
 
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...Андрей Анатольевич Ващенко
 
יחידת הוראה לחנכה
יחידת הוראה לחנכהיחידת הוראה לחנכה
יחידת הוראה לחנכהMax Rokach
 
Greenplum Database Open Source December 2015
Greenplum Database Open Source December 2015Greenplum Database Open Source December 2015
Greenplum Database Open Source December 2015PivotalOpenSourceHub
 
Postgres Wonderland - PGDay Cascavél 2013
Postgres Wonderland - PGDay Cascavél 2013Postgres Wonderland - PGDay Cascavél 2013
Postgres Wonderland - PGDay Cascavél 2013Fabio Telles Rodriguez
 
GSoC2014 - PGDay Ijui/RS Presentation October, 2016
GSoC2014 - PGDay Ijui/RS Presentation October, 2016 GSoC2014 - PGDay Ijui/RS Presentation October, 2016
GSoC2014 - PGDay Ijui/RS Presentation October, 2016 Fabrízio Mello
 
Keep calm and Database Continuous Deployment
Keep calm and Database Continuous DeploymentKeep calm and Database Continuous Deployment
Keep calm and Database Continuous DeploymentFabrízio Mello
 
Sharing Code and Experiences
Sharing Code and ExperiencesSharing Code and Experiences
Sharing Code and ExperiencesFabrízio Mello
 
GSoC2014 - PGCon2015 Presentation June, 2015
GSoC2014 - PGCon2015 Presentation June, 2015GSoC2014 - PGCon2015 Presentation June, 2015
GSoC2014 - PGCon2015 Presentation June, 2015Fabrízio Mello
 
Bad Smells (mal cheiros) em Bancos de Dados
Bad Smells (mal cheiros) em Bancos de DadosBad Smells (mal cheiros) em Bancos de Dados
Bad Smells (mal cheiros) em Bancos de DadosFabrízio Mello
 
Como posso colaborar com o PostgreSQL
Como posso colaborar com o PostgreSQLComo posso colaborar com o PostgreSQL
Como posso colaborar com o PostgreSQLFabrízio Mello
 
GSoC2014 - Uniritter Presentation May, 2015
GSoC2014 - Uniritter Presentation May, 2015GSoC2014 - Uniritter Presentation May, 2015
GSoC2014 - Uniritter Presentation May, 2015Fabrízio Mello
 
Planejador de Consultas do PostgreSQL
Planejador de Consultas do PostgreSQLPlanejador de Consultas do PostgreSQL
Planejador de Consultas do PostgreSQLFabrízio Mello
 
#PostgreSQLRussia в банке Тинькофф, доклад №1
#PostgreSQLRussia в банке Тинькофф, доклад №1#PostgreSQLRussia в банке Тинькофф, доклад №1
#PostgreSQLRussia в банке Тинькофф, доклад №1Nikolay Samokhvalov
 
Gerenciamento de Backup e Recovery com o Barman
Gerenciamento de Backup e Recovery com o BarmanGerenciamento de Backup e Recovery com o Barman
Gerenciamento de Backup e Recovery com o BarmanCaio Oliveira
 

Viewers also liked (20)

PostgreSQL: How to Store Passwords Safely
PostgreSQL: How to Store Passwords SafelyPostgreSQL: How to Store Passwords Safely
PostgreSQL: How to Store Passwords Safely
 
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di CiurcioDevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
 
2015 zData Inc. - Apache Ambari Overview
2015 zData Inc. - Apache Ambari Overview2015 zData Inc. - Apache Ambari Overview
2015 zData Inc. - Apache Ambari Overview
 
Bancos de dados analíticos open source
Bancos de dados analíticos open sourceBancos de dados analíticos open source
Bancos de dados analíticos open source
 
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...
Курс лекций на программу МВА в РУДН 16 февраля 2016 Тема "Управление изменени...
 
יחידת הוראה לחנכה
יחידת הוראה לחנכהיחידת הוראה לחנכה
יחידת הוראה לחנכה
 
Greenplum Database Open Source December 2015
Greenplum Database Open Source December 2015Greenplum Database Open Source December 2015
Greenplum Database Open Source December 2015
 
5. pivotal hd 2013
5. pivotal hd 20135. pivotal hd 2013
5. pivotal hd 2013
 
Postgres Wonderland - PGDay Cascavél 2013
Postgres Wonderland - PGDay Cascavél 2013Postgres Wonderland - PGDay Cascavél 2013
Postgres Wonderland - PGDay Cascavél 2013
 
GSoC2014 - PGDay Ijui/RS Presentation October, 2016
GSoC2014 - PGDay Ijui/RS Presentation October, 2016 GSoC2014 - PGDay Ijui/RS Presentation October, 2016
GSoC2014 - PGDay Ijui/RS Presentation October, 2016
 
Keep calm and Database Continuous Deployment
Keep calm and Database Continuous DeploymentKeep calm and Database Continuous Deployment
Keep calm and Database Continuous Deployment
 
Sharing Code and Experiences
Sharing Code and ExperiencesSharing Code and Experiences
Sharing Code and Experiences
 
GSoC2014 - PGCon2015 Presentation June, 2015
GSoC2014 - PGCon2015 Presentation June, 2015GSoC2014 - PGCon2015 Presentation June, 2015
GSoC2014 - PGCon2015 Presentation June, 2015
 
Dojo plpgsql
Dojo plpgsqlDojo plpgsql
Dojo plpgsql
 
Bad Smells (mal cheiros) em Bancos de Dados
Bad Smells (mal cheiros) em Bancos de DadosBad Smells (mal cheiros) em Bancos de Dados
Bad Smells (mal cheiros) em Bancos de Dados
 
Como posso colaborar com o PostgreSQL
Como posso colaborar com o PostgreSQLComo posso colaborar com o PostgreSQL
Como posso colaborar com o PostgreSQL
 
GSoC2014 - Uniritter Presentation May, 2015
GSoC2014 - Uniritter Presentation May, 2015GSoC2014 - Uniritter Presentation May, 2015
GSoC2014 - Uniritter Presentation May, 2015
 
Planejador de Consultas do PostgreSQL
Planejador de Consultas do PostgreSQLPlanejador de Consultas do PostgreSQL
Planejador de Consultas do PostgreSQL
 
#PostgreSQLRussia в банке Тинькофф, доклад №1
#PostgreSQLRussia в банке Тинькофф, доклад №1#PostgreSQLRussia в банке Тинькофф, доклад №1
#PostgreSQLRussia в банке Тинькофф, доклад №1
 
Gerenciamento de Backup e Recovery com o Barman
Gerenciamento de Backup e Recovery com o BarmanGerenciamento de Backup e Recovery com o Barman
Gerenciamento de Backup e Recovery com o Barman
 

Similar to Introdução ao banco de dados Greenplum

Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...
Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...
Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...Ricardo Ferreira
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Splunk
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloFábio Caldas
 
Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Splunk
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Arquitetura de dados em stream - TDC SP 2016
Arquitetura de dados em stream - TDC SP 2016Arquitetura de dados em stream - TDC SP 2016
Arquitetura de dados em stream - TDC SP 2016Kamila Santos Hinckel
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureLuciano Condé
 
Gerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresGerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresLucas Mendes
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
 
M2 Introdução Basica ao Mainframe
M2 Introdução Basica ao MainframeM2 Introdução Basica ao Mainframe
M2 Introdução Basica ao Mainframemaldelrey
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoRicardo Longa
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosEiti Kimura
 
Riverbed SteelHead WAN Optimization (Otmização de WAN)
Riverbed SteelHead WAN Optimization (Otmização de WAN)Riverbed SteelHead WAN Optimization (Otmização de WAN)
Riverbed SteelHead WAN Optimization (Otmização de WAN)Bravo Tecnologia
 
Customer Success Story: Brisa
Customer Success Story: Brisa Customer Success Story: Brisa
Customer Success Story: Brisa Xpand IT
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 

Similar to Introdução ao banco de dados Greenplum (20)

Sql Server
Sql ServerSql Server
Sql Server
 
Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...
Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...
Transformando Grandes Volumes de Dados em Insight em Tempo Real usando Fast D...
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São Paulo
 
Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Arquitetura de dados em stream - TDC SP 2016
Arquitetura de dados em stream - TDC SP 2016Arquitetura de dados em stream - TDC SP 2016
Arquitetura de dados em stream - TDC SP 2016
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
 
Gerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresGerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadores
 
TRIO IT - Resumo
TRIO IT - ResumoTRIO IT - Resumo
TRIO IT - Resumo
 
Lantek cut plus
Lantek cut plusLantek cut plus
Lantek cut plus
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
 
M2 Introdução Basica ao Mainframe
M2 Introdução Basica ao MainframeM2 Introdução Basica ao Mainframe
M2 Introdução Basica ao Mainframe
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenho
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
 
Riverbed SteelHead WAN Optimization (Otmização de WAN)
Riverbed SteelHead WAN Optimization (Otmização de WAN)Riverbed SteelHead WAN Optimization (Otmização de WAN)
Riverbed SteelHead WAN Optimization (Otmização de WAN)
 
Customer Success Story: Brisa
Customer Success Story: Brisa Customer Success Story: Brisa
Customer Success Story: Brisa
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 

More from PGDay Campinas

PgBouncer: Pool, Segurança e Disaster Recovery | Felipe Pereira
PgBouncer: Pool, Segurança e Disaster Recovery | Felipe PereiraPgBouncer: Pool, Segurança e Disaster Recovery | Felipe Pereira
PgBouncer: Pool, Segurança e Disaster Recovery | Felipe PereiraPGDay Campinas
 
PGDay Campinas 2013 - Mineração de Dados com MADlib
PGDay Campinas 2013 - Mineração de Dados com MADlibPGDay Campinas 2013 - Mineração de Dados com MADlib
PGDay Campinas 2013 - Mineração de Dados com MADlibPGDay Campinas
 
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textual
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textualPGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textual
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textualPGDay Campinas
 
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...PGDay Campinas
 
PGDay Campinas 2013 - Postgres XC @ Cloud
PGDay Campinas 2013 - Postgres XC @ CloudPGDay Campinas 2013 - Postgres XC @ Cloud
PGDay Campinas 2013 - Postgres XC @ CloudPGDay Campinas
 
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do Paraná
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do ParanáPGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do Paraná
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do ParanáPGDay Campinas
 
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...PGDay Campinas
 
PGDay Campinas 2013 - Window Function e CTE – Surpreendente
PGDay Campinas 2013 - Window Function e CTE – SurpreendentePGDay Campinas 2013 - Window Function e CTE – Surpreendente
PGDay Campinas 2013 - Window Function e CTE – SurpreendentePGDay Campinas
 
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...PGDay Campinas
 
Jaime Casanova - Domando a la bestia Replicación
Jaime Casanova - Domando a la bestia ReplicaciónJaime Casanova - Domando a la bestia Replicación
Jaime Casanova - Domando a la bestia ReplicaciónPGDay Campinas
 

More from PGDay Campinas (10)

PgBouncer: Pool, Segurança e Disaster Recovery | Felipe Pereira
PgBouncer: Pool, Segurança e Disaster Recovery | Felipe PereiraPgBouncer: Pool, Segurança e Disaster Recovery | Felipe Pereira
PgBouncer: Pool, Segurança e Disaster Recovery | Felipe Pereira
 
PGDay Campinas 2013 - Mineração de Dados com MADlib
PGDay Campinas 2013 - Mineração de Dados com MADlibPGDay Campinas 2013 - Mineração de Dados com MADlib
PGDay Campinas 2013 - Mineração de Dados com MADlib
 
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textual
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textualPGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textual
PGDay Campinas 2013 - Como Full Text Search pode ajudar na busca textual
 
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...
PGDay Campinas 2013 - PL/pg…ETL – Transformação de dados para DW e BI usando ...
 
PGDay Campinas 2013 - Postgres XC @ Cloud
PGDay Campinas 2013 - Postgres XC @ CloudPGDay Campinas 2013 - Postgres XC @ Cloud
PGDay Campinas 2013 - Postgres XC @ Cloud
 
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do Paraná
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do ParanáPGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do Paraná
PGDay Campinas 2013 - CASE: PostgreSQL no Tribunal de Justiça do Paraná
 
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...
PGDay Campinas 2013 - Implementando o PostgreSQL de maneira escalável e com a...
 
PGDay Campinas 2013 - Window Function e CTE – Surpreendente
PGDay Campinas 2013 - Window Function e CTE – SurpreendentePGDay Campinas 2013 - Window Function e CTE – Surpreendente
PGDay Campinas 2013 - Window Function e CTE – Surpreendente
 
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
 
Jaime Casanova - Domando a la bestia Replicación
Jaime Casanova - Domando a la bestia ReplicaciónJaime Casanova - Domando a la bestia Replicación
Jaime Casanova - Domando a la bestia Replicación
 

Introdução ao banco de dados Greenplum

  • 1.
  • 2. 2© 2016 Pivotal Software, Inc. All rights reserved. 2 Conhecendo o Greenplum O banco de dados Open Source massivamente paralelo baseado em PostgreSQL Luis Macedo Arquiteto de Plataforma
  • 3. 3© 2016 Pivotal Software, Inc. All rights reserved. Quem sou eu? Ÿ  Bacharel em Física – USP Ÿ  11 anos de experiência com VLDBs Ÿ  Trabalhei nos projetos de DWH Telefonica, Oi, Vivo e TIM Ÿ  Projetos de Big Data e Hadoop na TIM e Bradesco Ÿ  Foco recente em plataformas de Nuvem
  • 4. 4© 2016 Pivotal Software, Inc. All rights reserved. Powering Digital Transformation A Pivotal ajuda empresas a prover a melhor experiência a seus clientes e colaboradores se calcando em softwares modernos
  • 5. 5© 2016 Pivotal Software, Inc. All rights reserved. Introdução ao Greenplum DB Arquitetura do GPDB Greenplum <> PostgreSQL Casos de Uso
  • 6. 6© 2016 Pivotal Software, Inc. All rights reserved. 6 Introdução ao GPDB
  • 7. 7© 2016 Pivotal Software, Inc. All rights reserved. http://greenplum.org/ Intodução ao Greenplum Database
  • 8. 8© 2016 Pivotal Software, Inc. All rights reserved. https://github.com/greenplum-db/gpdb Intodução ao Greenplum Database
  • 9. 9© 2016 Pivotal Software, Inc. All rights reserved. Intodução ao Greenplum Database ”Mudar para sempre o Data Warehousing oferecendo um sistema abrangente e comprovado em código aberto” •  Totalmente ACID Compliant •  Focado em “Big Structured Data” •  ANSI SQL Standard Compliant (PostgreSQL) •  Solução de Sofware •  Implementação em HW comodite, appliance ou em nuvem •  15+ anos de P&D •  Herança do PostgreSQL e Open Source •  Mais de 1000+ clientes enterprise pelo mundo
  • 10. 10© 2016 Pivotal Software, Inc. All rights reserved. Intodução ao Greenplum Database
  • 11. 11© 2016 Pivotal Software, Inc. All rights reserved. Procedural Languages •  C •  pgSQL •  R •  Python •  Java •  Perl PostGIS Fuzzy String Functions NJSQL Not Just SQL
  • 12. 12© 2016 Pivotal Software, Inc. All rights reserved. 12 Arquitetura do GPDB
  • 13. 13© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Arquitetura MPP Shared Nothing Ø  Master Host Ø  Coordenador Ø  Segment Host Ø  Executor Ø  Interconnect Ø  Barramento de conexão entre os servidores Ø  Segment Instance Ø  Similar ao processo postgres Standby Master … Master Host SQL Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node1 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node2 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node3 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance nodeN
  • 14. 14© 2016 Pivotal Software, Inc. All rights reserved. Bob 12 Steve 10 Jim 15 Carson 2 Madison 6 Thomas 8 Andrea 22 cookie_order
  • 15. 15© 2016 Pivotal Software, Inc. All rights reserved. select * from cookie_order where amt > 10
  • 16. 16© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Arquitetura MPP Shared Nothing Ø  Carga e extração paralela Ø  10+ TB/h taxa de carga Ø  Escalabilidade linear Ø  Sem necessidade de reorg ou aregar intermediárias Ø  Multiplas horigens/destinos Ø  Hadoop, FS, S3 External Sources Loading, streaming, etc. gNet Network Interconnect ... ... ...... Master Servers Query planning & dispatch Segment Servers Query processing & data storage SQL ETL File Systems
  • 17. 17© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Polymorfic Storage •  Melhor performance de consultas OLAP •  Melhor Compressão •  Vários níveis: quickLZ, zLib 1 a 9, RLE •  Melhor performance para workloadas de pequenos inserts •  Tabelas Heap tem melhor performance para Upd/Del Tabela ‘Vendas’ Jun Orientado a ColunaOrientado a Linha Out Ano -1 Ano -2 HDFS Externo •  Dados Frios •  Formatos: Texto, CSV, Binario, Avro, Parquet Nov DecJul Ago Set
  • 18. 18© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Alta Disponibilidade Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance Master HA Segment HA
  • 19. 19© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Distribuição e Particionamento Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 20 2007’ AND order_date < ‘Oct 27 2007’ & As ordens estão distribuidas nos segmentos Somente as ordens das partições qualificadas são escaneadas Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D
  • 20. 20© 2016 Pivotal Software, Inc. All rights reserved. 20 Greenplum <> PostgreSQL
  • 21. 21© 2016 Pivotal Software, Inc. All rights reserved.
  • 22. 22© 2016 Pivotal Software, Inc. All rights reserved.
  • 23. 23© 2016 Pivotal Software, Inc. All rights reserved.
  • 24. 24© 2016 Pivotal Software, Inc. All rights reserved. $ git diff --stat REL8_2_23..REL8_3_23 2423 files changed, 461334 insertions(+), 208900 deletions(-)
  • 25. 25© 2016 Pivotal Software, Inc. All rights reserved.
  • 26. 26© 2016 Pivotal Software, Inc. All rights reserved. $ git merge upstream/REL8_3_STABLE $ grep -r "<<<<<<< HEAD" . | wc -l 6653
  • 27. 27© 2016 Pivotal Software, Inc. All rights reserved.
  • 28. 28© 2016 Pivotal Software, Inc. All rights reserved. Long Story Short… !
  • 29. 29© 2016 Pivotal Software, Inc. All rights reserved. 29 Caos de Uso ???Casos de Uso
  • 30. 30© 2016 Pivotal Software, Inc. All rights reserved. “Next Best Action” – Engine de Recomendação Cliente Banco de varejo (EUA) Problema de Negócio Aumentar o mix de produtos financeiros adquiridos pelos clientes em especial produtos de alto retorno Desafios ▪  Com crescimento do volume de dados o ETL so tornou um gargalo ▪  Dificuldade de evoluir os modelos estatísticos com o alto volume de dados e ferrentas tradicionais Solução ▪  Trazer o ETL para ELT no Greenplum acelerando a carga e preparação do dado ▪  Utilizar MADlib para criar novos modelos de “Next best action” mais eficazes usando mais dados e mais granular ▪  Utilizar novo modelo para operacionalizar açoes de vendas otimizando o portifolio de cada gerente Who? What? When? Where? Next Best Action
  • 31. 31© 2016 Pivotal Software, Inc. All rights reserved. Análise de Falha Massiva - ANATEL Cliente Grande Telco Brasileira Problema de Negócio Quando ocorre uma falha de um equipamento de rede e isto afeta uma região a ANATEL define uma complexa regra de reembolso para os afetados. Solução adotara era reemboçlar todos os clientes da região no momento da falha. Desafios ▪  Grande volume de dados não permitia a aplicação da regra ANATEL ▪  Não havia dados nos sistemas legados Solução ▪  Trazer todo dado de xDR para um Data Lake ▪  Criar listagem, cliente a cliente, aplicando a regra da ANTEL ▪  Alimentar sistema de billing com reembolços corretos
  • 32. 32© 2016 Pivotal Software, Inc. All rights reserved. Prevenção a Evasão de Impostos Cliente Secretaria de Fazenda Estadual Problema de Negócio Com a digitalização das notas fiscais de compra e venda o volume dados disponíveis para análise cresceu muito abrindo espaço para uma fiscalização mais estrita. Desafios ▪  Volumes de dados não compatíveis com a arquitetura SMP do SQLServer ▪  Cilos de dados (diferentes SQLServers) ▪  Processo de fraude demorava 2 meses para executar. Solução ▪  Criar novo modelo de dados desnormalizado em GPDB ▪  Criar novos algoritmos de prevenção a evasão de impostos ▪  Sofisticar a análise e contemplar NF-e PF.
  • 33. 33© 2016 Pivotal Software, Inc. All rights reserved. 33 Concluindo…
  • 34. 34© 2016 Pivotal Software, Inc. All rights reserved. !
  • 35. 35© 2016 Pivotal Software, Inc. All rights reserved. TO BECOME A HACKER