SlideShare a Scribd company logo
1 of 61
Download to read offline
PostgreSQL
em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador e CEO da Ambiente Livre Tecnologia.
● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
   
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em
consultoria com software livre.
● 2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
● Tem 14 soluções distintas para geração de
negócios com software livre.
   
Ecosistema da Ambiente
Livre
   
Alguns clientes
   
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
 2013 na apresentação do Papa Francisco
   
   
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
   
Elementos do IOT
● Rede de sensores sem fio (RSSF);
● Radio Frequency Identification (RFID);
● Gateway;
● Banco de dados;
● Protocolos de rede;
● Gerência de processos;
● Gerência de rede.
   
Evolução das Coisas
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Big Data
   
Os 4 V's
● Velocidade, Volume, Variedade e Valor
   
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
   
Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados
   
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
   
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
   
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
   
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
   
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
   
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
   
Ferramentas de Big Data
   
Ecosistema - Hadoop
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- Hortonworks
- MapR
- Diversas plataformas de Hadoop em Cloud
   
O Profissional
“Data Scientist”
Novo profissional: Cientista de Dados
   
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
   
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
Data LakeData Lake
   
Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.
   
Formato Tradicional
Data Mart(s)
Data Source
   
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
   
Arquitetura hibrida
de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc Datawarehouse
   
Arquitetura hibrida de Big
Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc
Datawarehouse
   
   
   
PostgreSQL
em nossos projetos
● OLAP ( Online Analytical Processing )
● OLTP ( Online Transaction Processing)
● Distribuído
BRD Postgres-XL
   
PostgreSQL
em nossos Projetos
● Datawarehouse em Projetos de BI
● Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de
Supemercados, Redes de Varejo )
● Sistema de Gestão de Simuladores de
Transito Brasileiro ( MySQL com PostgreSQL )
● Sistemas bancários de analise de crédito
Software Livre
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
   
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
   
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
   
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
   
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
   
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
   
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
   
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
   
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
   
BigSQL
● Projeto Hibrido de Integração de Tecnologias
de Big Data com PostgreSQL
   
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
   
   
Big Data no Brasil
   
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Big Data
● “Big Data hoje é o que era a
Linux em 1991. Sabemos que
será algo revolucionário, mas
não sabemos o quanto...”
Marcio Junior Vieira
   
Contatos
● www.ambientelivre.com.br
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre ou @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

More Related Content

What's hot

Geo server 성능향상을 위한 튜닝 기법 20111028
Geo server 성능향상을 위한 튜닝 기법 20111028Geo server 성능향상을 위한 튜닝 기법 20111028
Geo server 성능향상을 위한 튜닝 기법 20111028BJ Jang
 
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...Neo4j
 
Resumo diagramas de classes
Resumo diagramas de classesResumo diagramas de classes
Resumo diagramas de classesMarco Coelho
 
Postgres vs Mongo / Олег Бартунов (Postgres Professional)
Postgres vs Mongo / Олег Бартунов (Postgres Professional)Postgres vs Mongo / Олег Бартунов (Postgres Professional)
Postgres vs Mongo / Олег Бартунов (Postgres Professional)Ontico
 
Graph database Use Cases
Graph database Use CasesGraph database Use Cases
Graph database Use CasesMax De Marzi
 
RailsAdmin - Overview and Best practices
RailsAdmin - Overview and Best practicesRailsAdmin - Overview and Best practices
RailsAdmin - Overview and Best practicesBenoit Bénézech
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)bitnineglobal
 
“Open Data Web” – A Linked Open Data Repository Built with CKAN
“Open Data Web” – A Linked Open Data Repository Built with CKAN“Open Data Web” – A Linked Open Data Repository Built with CKAN
“Open Data Web” – A Linked Open Data Repository Built with CKANChengjen Lee
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIJarley Nóbrega
 
Openlink Virtuoso v01
Openlink Virtuoso v01Openlink Virtuoso v01
Openlink Virtuoso v01Satoshi Kume
 
DevOps: princípios e práticas para a Entrega Contínua
DevOps: princípios e práticas para a Entrega ContínuaDevOps: princípios e práticas para a Entrega Contínua
DevOps: princípios e práticas para a Entrega ContínuaOtávio Calaça Xavier
 
Introdução a linguagem Python
Introdução a linguagem PythonIntrodução a linguagem Python
Introdução a linguagem PythonLuciano Ramalho
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Introdução ao 12 Factors APP
Introdução ao 12 Factors APPIntrodução ao 12 Factors APP
Introdução ao 12 Factors APPDouglas Alonso
 
書誌データのLOD化: データソン的デモンストレーション
書誌データのLOD化: データソン的デモンストレーション書誌データのLOD化: データソン的デモンストレーション
書誌データのLOD化: データソン的デモンストレーションKouji Kozaki
 
Programação Orientada a Objetos
Programação Orientada a ObjetosProgramação Orientada a Objetos
Programação Orientada a ObjetosIgor Takenami
 

What's hot (20)

Geo server 성능향상을 위한 튜닝 기법 20111028
Geo server 성능향상을 위한 튜닝 기법 20111028Geo server 성능향상을 위한 튜닝 기법 20111028
Geo server 성능향상을 위한 튜닝 기법 20111028
 
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
 
Resumo diagramas de classes
Resumo diagramas de classesResumo diagramas de classes
Resumo diagramas de classes
 
Postgres vs Mongo / Олег Бартунов (Postgres Professional)
Postgres vs Mongo / Олег Бартунов (Postgres Professional)Postgres vs Mongo / Олег Бартунов (Postgres Professional)
Postgres vs Mongo / Олег Бартунов (Postgres Professional)
 
Graph database Use Cases
Graph database Use CasesGraph database Use Cases
Graph database Use Cases
 
Estruturas de dados
Estruturas de dadosEstruturas de dados
Estruturas de dados
 
RailsAdmin - Overview and Best practices
RailsAdmin - Overview and Best practicesRailsAdmin - Overview and Best practices
RailsAdmin - Overview and Best practices
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)
Graph Database Meetup in Seoul #1. What is Graph Database? (그래프 데이터베이스 소개)
 
“Open Data Web” – A Linked Open Data Repository Built with CKAN
“Open Data Web” – A Linked Open Data Repository Built with CKAN“Open Data Web” – A Linked Open Data Repository Built with CKAN
“Open Data Web” – A Linked Open Data Repository Built with CKAN
 
Redes neurais introdução
Redes neurais introduçãoRedes neurais introdução
Redes neurais introdução
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDI
 
Openlink Virtuoso v01
Openlink Virtuoso v01Openlink Virtuoso v01
Openlink Virtuoso v01
 
DevOps: princípios e práticas para a Entrega Contínua
DevOps: princípios e práticas para a Entrega ContínuaDevOps: princípios e práticas para a Entrega Contínua
DevOps: princípios e práticas para a Entrega Contínua
 
Introdução a linguagem Python
Introdução a linguagem PythonIntrodução a linguagem Python
Introdução a linguagem Python
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Introdução ao 12 Factors APP
Introdução ao 12 Factors APPIntrodução ao 12 Factors APP
Introdução ao 12 Factors APP
 
書誌データのLOD化: データソン的デモンストレーション
書誌データのLOD化: データソン的デモンストレーション書誌データのLOD化: データソン的デモンストレーション
書誌データのLOD化: データソン的デモンストレーション
 
Programação Orientada a Objetos
Programação Orientada a ObjetosProgramação Orientada a Objetos
Programação Orientada a Objetos
 

Similar to PostgreSQL em Ambiente Híbrido de Big Data Analytics

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 

Similar to PostgreSQL em Ambiente Híbrido de Big Data Analytics (20)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Big Data
Big DataBig Data
Big Data
 
Business Analytics
Business AnalyticsBusiness Analytics
Business Analytics
 

More from Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 

More from Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 

PostgreSQL em Ambiente Híbrido de Big Data Analytics

  • 1. PostgreSQL em um Ambiente Híbrido de Big Data Analytics Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador e CEO da Ambiente Livre Tecnologia. ● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e MongoDB.
  • 3.     Sobre a Ambiente Livre ● Fundada em 2004 com foco de atuar em consultoria com software livre. ● 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre. ● Tem 14 soluções distintas para geração de negócios com software livre.
  • 4.     Ecosistema da Ambiente Livre
  • 6.     Big Data - Muito se fala...
  • 10.     IoT- Internet of Things ● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais.
  • 11.     Elementos do IOT ● Rede de sensores sem fio (RSSF); ● Radio Frequency Identification (RFID); ● Gateway; ● Banco de dados; ● Protocolos de rede; ● Gerência de processos; ● Gerência de rede.
  • 13.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 15.     Os 4 V's ● Velocidade, Volume, Variedade e Valor
  • 16.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 17.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 18.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 19.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 20.     Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 21.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  • 22.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 23.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 26.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - Hortonworks - MapR - Diversas plataformas de Hadoop em Cloud
  • 27.     O Profissional “Data Scientist” Novo profissional: Cientista de Dados
  • 28.     Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  • 29.     Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 31.     Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 33.     Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo
  • 34.     Arquitetura hibrida de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 35.     Arquitetura hibrida de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 36.    
  • 37.    
  • 38.     PostgreSQL em nossos projetos ● OLAP ( Online Analytical Processing ) ● OLTP ( Online Transaction Processing) ● Distribuído BRD Postgres-XL
  • 39.     PostgreSQL em nossos Projetos ● Datawarehouse em Projetos de BI ● Bases de negócios Transacionais ( Telefonia, Monitoramento com Zabbix , Redes de Supemercados, Redes de Varejo ) ● Sistema de Gestão de Simuladores de Transito Brasileiro ( MySQL com PostgreSQL ) ● Sistemas bancários de analise de crédito
  • 41.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é lider e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 42.     HBase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
  • 43.     Hive ● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  • 44.     PIG ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
  • 45.     Mahout ● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes ● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem ● Diversidade de algorítimos
  • 46.     Sqoop ● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.
  • 47.     Apache Spark ● 100x mais rápido que Hadoop ● Programação com Scala, Java, Python ou R
  • 48.     Apache Cassandra ● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. ● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.
  • 49.     MongoDB ● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON
  • 50.     Titan Grafh ● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina. ● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real. ● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)
  • 51.     BigSQL ● Projeto Hibrido de Integração de Tecnologias de Big Data com PostgreSQL
  • 52.     ● Solução de BI Open Source. ● Community Edition ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 54.     Pentaho Data Integration
  • 55.    
  • 56.    
  • 57.     Big Data no Brasil
  • 58.     Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 59.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 60.     Big Data ● “Big Data hoje é o que era a Linux em 1991. Sabemos que será algo revolucionário, mas não sabemos o quanto...” Marcio Junior Vieira
  • 61.     Contatos ● www.ambientelivre.com.br ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ou @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre