Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Criando e consumindo webservice REST com PHP e JSON
PostgreSQL em Ambiente Híbrido de Big Data Analytics
1. PostgreSQL
em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2.
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador e CEO da Ambiente Livre Tecnologia.
● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
3.
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em
consultoria com software livre.
● 2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
● Tem 14 soluções distintas para geração de
negócios com software livre.
10.
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
11.
Elementos do IOT
● Rede de sensores sem fio (RSSF);
● Radio Frequency Identification (RFID);
● Gateway;
● Banco de dados;
● Protocolos de rede;
● Gerência de processos;
● Gerência de rede.
15.
Os 4 V's
● Velocidade, Volume, Variedade e Valor
16.
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
18.
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
19.
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
20.
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
21.
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
22.
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
23.
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
28.
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
33.
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
39.
PostgreSQL
em nossos Projetos
● Datawarehouse em Projetos de BI
● Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de
Supemercados, Redes de Varejo )
● Sistema de Gestão de Simuladores de
Transito Brasileiro ( MySQL com PostgreSQL )
● Sistemas bancários de analise de crédito
41.
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
42.
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
43.
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
44.
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
45.
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
46.
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
47.
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
48.
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
49.
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
50.
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
51.
BigSQL
● Projeto Hibrido de Integração de Tecnologias
de Big Data com PostgreSQL
52.
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
58.
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
59.
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
60.
Big Data
● “Big Data hoje é o que era a
Linux em 1991. Sabemos que
será algo revolucionário, mas
não sabemos o quanto...”
Marcio Junior Vieira
61.
Contatos
● www.ambientelivre.com.br
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre ou @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre