SlideShare a Scribd company logo
1 of 42
Download to read offline
Orquestrando HBase,
Cassandra e MongoDB com
o Pentaho Big Data
Analytics.
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
Prof. MBA Universidade Positivo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-CV
●
18 anos de experiência TI, vivência em desenvolvimento e análise de sistemas de Gestão
empresarial, analise de dados, aprendizado de máquina e BI.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e
treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005)
ambos pela UFPR.
●
Palestrante em: FISL, TDC, LATINOWARE, Campus Party, Pentaho Day, Ticnova.
●
Organizador geral do Pentaho Day 2015, 2017 e apoio nas ed. 2013 e 2014.
●
Data Scientist na Ambiente Livre,
●
Prof. MBA em Big Data e Data Science, MBA em Business Intelligence e MBA em
Inteligência Articifial da Universidade Positivo.
●
Prof. MBA Inteligência Artificial da FIAP.
●
Data Scientist, Instrutor e consultor de Big Data e Data Science com tecnologias abertas.
●
Ajudou a capacitar equipes de Big Data e Data Science na IBM, Tivit, Accenture, Serpro,
NetShoes, Natura, Ministério Publíco, entre outras.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
Indústria 4.0.
A próxima revolução industrial.
baseado no …
Quarto paradigma da ciência
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O Quarto Paradigma da Ciência
●
Empírica: É uma maneira de adquirir conhecimento por meio de
observação ou experiência direta e indireta.
●
Investigação: Melhorar as teorias científicas para uma melhor
compreensão ou previsão de fenômenos naturais. Muitas vezes
impulsionado pela curiosidade.
●
Computação: Estuda as técnicas, metodologias e instrumentos
computacionais, que automatiza processos e desenvolve soluções
baseadas no uso do processamento digital.
●
Baseada em dados ( data-driven )
Ciência Sobre os Dados ou Ciência dos Dados
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Data Science
●
Campo interdisciplinar de pesquisa sobre métodos científicos,
processos e sistemas para extrair conhecimentos ou insights
a partir de dados em várias formas, estruturadas ou não
estruturadas, semelhantes ao KDD.
●
Unificar estatísticas, análise de dados e seus métodos
relacionados, a fim de compreender e analisar fenômenos reais
com dados.
●
Emprega técnicas e teorias extraídas das áreas amplas de
matemática, estatística, ciência da informação e ciência da
computação, aprendizagem de máquinas, classificação, análise
de cluster, mineração de dados, bancos de dados e visualização.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Impacto – IoT (Big Data)
● U$ 4 a 11 trilhões a partir de 2025
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Sensores de Voo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Otimizando Operações com Video Analytics
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Video Analytics
●
LIDAR - Light Detection And Ranging
●
Camera: Time of flight (TOF)
3D-LiDAR (TOF) Motion Sensor
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Convergência Tecnológica
Data Science
Machine Learning
Deep Learning
Big Data
Data Analytics
Business
Intelligence
Inteligência
Artificial
Databases
Data
MiningBlockchain
RPA
Inteligência
Cognitiva
Chatbots
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Fundação Apache
●
Big Data = Apache = Open Source
●
NoSQL = Apache = Open Source
●
Apache é líder em Big Data e Data Science!
●
Apache é líder em NoSQL!
●
~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark”
●
~25 projetos de database incluindo “Apache Cassandra” e “Apache
HBase”
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
MongoDB
●
Banco de dados não relacional ( NoSQL ) Orientado a Documentos
●
Baseado am JSON onde os documentos (registros) são representados por
“chave:valor“ BSON
●
Escrito em C++ e Open Source
●
Schema Dinâmico: Permite dados complexos não estruturados
●
Documentos auto-contidos e arrays reduzem a necessidade de join’s
●
Multiplataforma e com Alta Performance
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
HBase
●
Table storage for semi-structured data
●
É um banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua
subjacente armazenamento e suporta os cálculos de estilo lote usando MapReduce
e ponto consultas (leituras aleatórias).
●
Conhecido como Hadoop Database
●
Criado pela Powerset
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Apache Cassandra
Definição
●
Banco de dados distribuído baseado no modelo
BigTable do Google e no Dynamo da Amazon
●
É um tipo de banco NoSQL que originalmente foi criado pelo Facebook e
atualmente é mantido pela Apache e outras empresas
●
Nenhum ponto único de falha
●
Escreve em Tempo Real (real-time) com análise de dados operacional ao
vivo.
●
Modelos de dados, facilmente alterados flexíveis.
●
Horizontalmente Escala ( Near-linear ) entre os servidores de commodities.
●
Replicação de confiança entre data centers distribuídos.
●
Esquema de tabela claramente definido em um ambiente NoSQL..
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Apache Cassandra
Escalabilidade Linear
●
A Capacidade pode ser facilmente aumentada simplesmente por adicionar
novos nós.
●
Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4
nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000
transações/s
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Apache Cassandra
Escalabilidade Linear
Alta performance, com escala horizontal quase linear em casos de uso
apropriados
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
NoSQL, NewSQL, Graph...
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Apache Cassandra
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Pentaho - Hitachi Vantara
●
Plataforma abrangente para integração de dados e Business
Analytics. 3 Pilares do Pentaho
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Pentaho Data Integration
●
Processa em Paralelo Cluster Apache Spark
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350
steps/funções diferentes
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Pentaho Data Integration – Big Data
●
Conexões nativas e camada adaptável de Big
Data e acesso funcionalidades dos populares
big data stores.
●
Capacidade de acessar dados, processá-los,
combiná-los e consumi-los em qualquer lugar.
●
Flexibilidade, isolamento das mudanças no
ecossistema de dados
●
Suporte a distros Hadoop Open Sources e
Comerciais
●
Acessar dados para preparação via SQL no
Spark e orquestrar aplicativos Spark (Scala,
Java e Python)
●
Integração com NoSQL stores
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
●
relacionais, OLAP, XML e Pentaho Analysis,
●
arquivos flat, objetos Java e ...
●
Big Data Reports
●
( integra-se com PDI )
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pentaho Analysis ( Mondrian)
●
Explora através de perfuração e tabulação de dados.
●
Velocidade de resposta as consultas analíticas complexas.
●
Visualiza a informação multi-dimensional,
escolhendo métricas e atributos
específicos para analisar.
●
Totalmente Web, drag-and-drop.
●
Classificação e filtragem avançadas
●
Totais personalizados e definidos pelo
usuário cálculos
●
Gráfico para visualizações
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Dashboards ( Ctools )
●
Oferecer métricas em uma atrativa
interface intuitiva e visual, painéis
proporcionam aos gestores
empresariais a informação crítica de
que necessitam para entender e
melhorar o desempenho
organizacional.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Dashboards através de ETL
●
Dashboards permiter
●
integração com ETL
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Dashboards através de ETL
https://github.com/d3/d3/wiki/Gallery
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Pentaho Data Mining ( aka Weka )
●
Solução completa para Machine Learning
●
Aprox. 79
Algorítimos
- Classificação
- Associação
- Cluster
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Machine Learning e Data Science
inclusive R, Python, WEKA com Spark
●
Automação e orquestração do fluxo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Comunidade Pentaho Brasileira
●
+de 2000
Hachers em Analitycs,
Integradores,
Desenvolvedores,
Machine Learning,
Data Science, etc.
Pentaho Day 2017 em Curitiba na Universidade Positivo
Aprox. 300 Pessoas
6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA)
20 Estados Brasileiros presentes.
40 Palestrantes, 35 Palesras e 12 Minicursos.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Pentaho e NoSQL - Orquestração
●
O Uso de Pentaho em projetos com
Hadoop, NoSQL e Big Data pode
diminuir em 15x o tempo do Projeto.
Codificação Java ETL com Pentaho
X
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Pentaho e HBase - Orquestração
●
BD colunar e distribuído.
●
Usa o HDFS para armazenamento e
suporta os cálculos usando
MapReduce e pontos de consultas
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho e HBase - Orquestração
●
Decodificados de chave
●
e dados valor que é
●
emitido pelo TableInputFormat
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pentaho e MongoDB - Orquestração
●
Acessível via PDI (ETL)
●
Acessível via PRD
●
( Report )
●
Suporte a Mongo 3.0+
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Pentaho e Cassandra - Orquestração
●
NoSQL Database
●
Cluster Database
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Baixe agora....
Fonte Armazenamento Analise
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Modos de Execução do PDI
●
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
AEL – Arquitetura – Visão Geral
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Exemplo
●
Hadoop File Input = Built-in Spark Input (Partitions data)
●
Calculator = Generic Kettle Step (Partitioned)
●
Sort rows = Built-in Spark Sort
●
Hadoop File Output = Built-in Spark Output
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Resumo AEL
Pentaho Data Integration
Hadoop
Map Reduce
E Java
Apache Spark e
Scala,Python,Java
Apache Flink
Java e Scala
Quem
é o próximo?
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Baixe agora....
●
http://sourceforge.net/projects/pentaho/
●
Entre em nossa comunidade!
●
pentahobr@yahoogrupos.com.br
●
@Pentaho no Telegram
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
https://www.linkedin.com/in/mvieira1/
Slide da Palestra será publicada em:
Linkedin….: https://www.linkedin.com/in/mvieira1/
SlideShare: http://slideshare.net/ambientelivre/
Blog……...: http://blogs.ambientelivre.com.br/marcio/

More Related Content

What's hot

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoThiago Santiago
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2Projeto RCAAP
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1Projeto RCAAP
 

What's hot (19)

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
BigData
BigDataBigData
BigData
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 2
 
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1
e-Jornadas FCCN 2020 - Sessão do Projeto RCAAP - Parte 1
 

Similar to Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteJuly A. M. Rizzo
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Paulo Ricardo Santos
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftRodrigo Crespi
 

Similar to Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics (20)

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
 

More from Ambiente Livre

Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectAmbiente Livre
 

More from Ambiente Livre (14)

Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics

  • 1. Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  • 2. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-CV ● 18 anos de experiência TI, vivência em desenvolvimento e análise de sistemas de Gestão empresarial, analise de dados, aprendizado de máquina e BI. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em: FISL, TDC, LATINOWARE, Campus Party, Pentaho Day, Ticnova. ● Organizador geral do Pentaho Day 2015, 2017 e apoio nas ed. 2013 e 2014. ● Data Scientist na Ambiente Livre, ● Prof. MBA em Big Data e Data Science, MBA em Business Intelligence e MBA em Inteligência Articifial da Universidade Positivo. ● Prof. MBA Inteligência Artificial da FIAP. ● Data Scientist, Instrutor e consultor de Big Data e Data Science com tecnologias abertas. ● Ajudou a capacitar equipes de Big Data e Data Science na IBM, Tivit, Accenture, Serpro, NetShoes, Natura, Ministério Publíco, entre outras.
  • 3. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4. Indústria 4.0. A próxima revolução industrial. baseado no … Quarto paradigma da ciência
  • 5. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  • 6. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  • 7. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Impacto – IoT (Big Data) ● U$ 4 a 11 trilhões a partir de 2025
  • 8. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Sensores de Voo
  • 9. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Otimizando Operações com Video Analytics
  • 10. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Video Analytics ● LIDAR - Light Detection And Ranging ● Camera: Time of flight (TOF) 3D-LiDAR (TOF) Motion Sensor
  • 11. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Convergência Tecnológica Data Science Machine Learning Deep Learning Big Data Data Analytics Business Intelligence Inteligência Artificial Databases Data MiningBlockchain RPA Inteligência Cognitiva Chatbots
  • 12. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Fundação Apache ● Big Data = Apache = Open Source ● NoSQL = Apache = Open Source ● Apache é líder em Big Data e Data Science! ● Apache é líder em NoSQL! ● ~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ● ~25 projetos de database incluindo “Apache Cassandra” e “Apache HBase”
  • 13. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 MongoDB ● Banco de dados não relacional ( NoSQL ) Orientado a Documentos ● Baseado am JSON onde os documentos (registros) são representados por “chave:valor“ BSON ● Escrito em C++ e Open Source ● Schema Dinâmico: Permite dados complexos não estruturados ● Documentos auto-contidos e arrays reduzem a necessidade de join’s ● Multiplataforma e com Alta Performance
  • 14. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 HBase ● Table storage for semi-structured data ● É um banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias). ● Conhecido como Hadoop Database ● Criado pela Powerset
  • 15. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Apache Cassandra Definição ● Banco de dados distribuído baseado no modelo BigTable do Google e no Dynamo da Amazon ● É um tipo de banco NoSQL que originalmente foi criado pelo Facebook e atualmente é mantido pela Apache e outras empresas ● Nenhum ponto único de falha ● Escreve em Tempo Real (real-time) com análise de dados operacional ao vivo. ● Modelos de dados, facilmente alterados flexíveis. ● Horizontalmente Escala ( Near-linear ) entre os servidores de commodities. ● Replicação de confiança entre data centers distribuídos. ● Esquema de tabela claramente definido em um ambiente NoSQL..
  • 16. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Apache Cassandra Escalabilidade Linear ● A Capacidade pode ser facilmente aumentada simplesmente por adicionar novos nós. ● Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4 nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000 transações/s
  • 17. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Apache Cassandra Escalabilidade Linear Alta performance, com escala horizontal quase linear em casos de uso apropriados
  • 18. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 NoSQL, NewSQL, Graph...
  • 19. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Apache Cassandra
  • 20. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  • 21. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho Data Integration ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes
  • 22. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho Data Integration – Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop Open Sources e Comerciais ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  • 23. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo ● relacionais, OLAP, XML e Pentaho Analysis, ● arquivos flat, objetos Java e ... ● Big Data Reports ● ( integra-se com PDI )
  • 24. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho Analysis ( Mondrian) ● Explora através de perfuração e tabulação de dados. ● Velocidade de resposta as consultas analíticas complexas. ● Visualiza a informação multi-dimensional, escolhendo métricas e atributos específicos para analisar. ● Totalmente Web, drag-and-drop. ● Classificação e filtragem avançadas ● Totais personalizados e definidos pelo usuário cálculos ● Gráfico para visualizações
  • 25. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Dashboards ( Ctools ) ● Oferecer métricas em uma atrativa interface intuitiva e visual, painéis proporcionam aos gestores empresariais a informação crítica de que necessitam para entender e melhorar o desempenho organizacional.
  • 26. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dashboards através de ETL ● Dashboards permiter ● integração com ETL
  • 27. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Dashboards através de ETL https://github.com/d3/d3/wiki/Gallery http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 28. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pentaho Data Mining ( aka Weka ) ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  • 29. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Machine Learning e Data Science inclusive R, Python, WEKA com Spark ● Automação e orquestração do fluxo
  • 30. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Comunidade Pentaho Brasileira ● +de 2000 Hachers em Analitycs, Integradores, Desenvolvedores, Machine Learning, Data Science, etc. Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  • 31. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho e NoSQL - Orquestração ● O Uso de Pentaho em projetos com Hadoop, NoSQL e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  • 32. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho e HBase - Orquestração ● BD colunar e distribuído. ● Usa o HDFS para armazenamento e suporta os cálculos usando MapReduce e pontos de consultas
  • 33. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho e HBase - Orquestração ● Decodificados de chave ● e dados valor que é ● emitido pelo TableInputFormat
  • 34. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho e MongoDB - Orquestração ● Acessível via PDI (ETL) ● Acessível via PRD ● ( Report ) ● Suporte a Mongo 3.0+
  • 35. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pentaho e Cassandra - Orquestração ● NoSQL Database ● Cluster Database
  • 36. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Baixe agora.... Fonte Armazenamento Analise
  • 37. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Modos de Execução do PDI ●
  • 38. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 AEL – Arquitetura – Visão Geral
  • 39. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Exemplo ● Hadoop File Input = Built-in Spark Input (Partitions data) ● Calculator = Generic Kettle Step (Partitioned) ● Sort rows = Built-in Spark Sort ● Hadoop File Output = Built-in Spark Output
  • 40. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Resumo AEL Pentaho Data Integration Hadoop Map Reduce E Java Apache Spark e Scala,Python,Java Apache Flink Java e Scala Quem é o próximo?
  • 41. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Baixe agora.... ● http://sourceforge.net/projects/pentaho/ ● Entre em nossa comunidade! ● pentahobr@yahoogrupos.com.br ● @Pentaho no Telegram
  • 42. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/