SlideShare a Scribd company logo
1 of 55
Download to read offline
Misturando Dados com Pentaho para Insights
mais significativos!
Trilha: Big Data
Palestrante: Marcio Junior Vieira
CEO e Data Scientist na Ambiente Livre
marcio@ambientelivre.com.br
Marcio Junior Vieira
●
17 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day, TDC.
●
Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013
e 2014.
●
CEO da Ambiente Livre.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
Nosso Ecossistema
Algumas informações
●
Não confundir Misturar com “Ofuscar Dados”
●
Misturar no contexto de Mesclar!
●
Vamos programar através de muitos
componentes prontos, mas não se preocupe
temos como codificar muitas vezes por
prazer :)
O V do Valor
●
V que torna Big Data relevante: tudo bem ter
acesso a uma quantidade massiva de
informação a cada segundo, mas isso não
adianta nada se não puder gerar valor.
●
É importante que empresas entrem no
negócio do Big Data, mas é sempre
importante lembrar dos custos e benefícios e
tentar agregar valor ao que se está fazendo.
Desafios em misturar dados
●
Conhecer diversas tecnologias ( HDFS, Mapreduce, Spark, Pig,
Java, Shell , Amazon AWS, NoSQL, Hashmap, etc) .
●
Conhecer diversos formatos ( JSON, XML, CSV, HL7, YAML, ESRI,
RSS, Serialized)
●
Conhecer diversas APIs (Google Maps, Google Analytics Twitter,
etc) .
●
Conhecer diversas linguagens de consulta (CQL, SQL, MDX,
CMIS, HiveQL, MQL, Table Scan )
●
Acessos incorretos ou com baixo conhecimento podem acarretar em
performance
●
Governança de dados e SOX ( Quem pode, Quando pode ,
Quando fez).
Desafio dos Dados
●
Dados Inconsistentes (Ex. Campo sexo tem valor M, F, X , Z, H, 1, ?,
null ou vazio )
●
Regras de Relacionamento Complexas ( Ex. É cliente “master” se
comprou produto tal na loja tal no período tal junto com produto tal e
choveu no dia! )
●
Tipos de Dados Distintos para mesma informação ( ex. String X Int X
Float )
●
Dados Faltantes ou incompletos (Ex. Campo sexo tem valor null ou
vazio )
●
Os famosos “de → para”
●
Tratamento dos Dados gerais dos dados o T do ETL ( transformations )
●
O desafio dos 5 V do Big Data!
Capturar Dados
●
Dados Abertos
●
Parcerias (Cartões de crédito, lojas, sites, Waze, etc)
●
Rastreamento Web (Crawler, Spiders, Robot, Scutter)
●
Redes Sociais e Web Sites.
●
IOT Plataforms
●
Tradicionais Databases corporativos (ERP, CRM, CDRs,
E-Commerce, etc)
●
E-mails, Documentos
Armazenamento
●
Antes de tratar já armazene sua fonte original!
●
Amazon S3, Hadoop HDFS, Amazon EMR,
Data Lake, etc.
●
Armazene dado tratado.
●
Espaço e barato $! , processamento e
indisponibilidade é caro $$$$!
Arquitetura
Fonte Armazenamento Analise
Insights Significativos
(Ex. Saúde)
●
Dados Climáticos (Dados externos - API )
●
Histórico de medicamentos consumidos (Compras em farmácias ou prontuários
– CSVs mensal )
●
Histórico de Parentes ( Documentos Digitalizados, OCR )
●
Histórico de procedimentos (Plano de Saúde – databases “atenção as normas
e leis” , HL7 Internacional )
●
Consumo em Redes de Varejo (Cartão Fidelidade – API Rest )
●
Medições com Apps de Saúde e Atividades Físicas (Rest/Apis )
●
Medições de atividades físicas e de saúde com IOT (logs/stores locais e
sincronia com nuvens)
●
Dados Geo Referenciados, Rotas ( Waze, GMaps, Shapes, etc)
●
Dados Espaciais de Satélites e Sensores ( Nasa, AEB, INPE, Monitoramento
de Desastres )
Insights em Dashboards
Equipe envolvida
●
1 Dev MongoDB
●
1 Dev Java / MapReduce
●
1 Dev Cassandra
●
1 Dev Sales Force, SuiteCRM
●
2 Consultor do ERP (RH, Finan )
●
1 Dev Front-End (Gráficos)
●
1 WebDesigner
●
3 DBAs (Oracle, MSSQL, PostgreSQL)
●
1 Dev ElasticSearch
●
1 Dev Spark com escala
●
1 Analista de Negócio
●
1 Estatístico
●
1 Arquiteto de Soluções
●
1 Gerente de projetos
Como nasce
um Mito
Reunião
do RH
Gerencia de
Projetos
e
Administradores
Data Scientist
Pentaho
●
Plataforma completa para Business
Intelligence e Business Analytics e Big Data
Analytics.
●
ETL, Reporting,
Data Mining,
OLAP e Dashbards.
3 Pilares do Pentaho
●
Plataforma abrangente para integração de
dados e Business Analytics.
Pentaho Data Integration
●
Ferramenta completa de ETL
●
“Programação e Fluxo Visual”
●
Aproximadamente 350 steps diferentes
Pentaho Data Integration
●
Processa dados em Paralelo
●
Acessar dados diretamente (se necessário
sem Data Warehouse )
●
Permite publicar dados diretamente em
Reports, Ad-Hoc Reports e Dasboards.
PDI Debuggers
●
Previews de dados
●
Tratamento de fluxos por erros ou condições
●
Geração de logs de erros
●
Break points
Integração ampla e
adaptável de Big Data
●
Conexões nativas e camada adaptável de
Big Data e acesso funcionalidades dos
populares big data stores.
●
Capacidade de acessar dados, processá-los,
combiná-los e consumi-los em qualquer lugar.
●
Flexibilidade, isolamento
das mudanças no ecossistema de dados
●
Suporte a distros Hadoop
(Cloudera, Hortonworks, MapR e Amazon)
●
Acessar dados para preparação
via SQL no Spark e orquestrar aplicativos
Spark (Scala, Java e Python)
●
Integração com NoSQL stores, incluindo
MongoDB e Cassandra
●
Conectividade a BDs analíticos (Vertica, Redshift, SAP HANA ,
etc.
PDI Cluster
●
Suporte a Clusterização
●
Clusterização e processamento paralelo de
dados.
Pentaho Report Designer
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
relacionais, OLAP, XML e Pentaho Analysis,
arquivos flat, objetos Java e ...
●
Big Data Reports ( integra-se com PDI )
ETL como Data Source
●
O data source do
report é um ETL.
●
Isso muda tudo!
Exemplo de dados do
Twitter Report
●
Libere na API acesso
●
Crie seu ETL no PDI ( Pentaho Data
Integration )
●
Defina onde quer os dados ( database,
hadoop, Report ou dashboard )
CTools - Dashboards
●
CTools – Tem um conjunto de Ferramentas
para Desenvolvimento de Dashboars
CDE ( CTools )
●
Editor de Dashboards
Dashboards
ETL
●
Dashboards permiter
integração com ETL
ETL para datasets D3.js
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
Pentaho Sparkl
●
Fremawork que usa o PDI como “fonte”
●
App Builder que permite desenvolver plugins de
Big Data Analytics e outros em alguns passos.
●
Menus = Dados
●
Campos = metaDados
●
Botão = Dispara Serviço
●
Filtros = Lista Dados
●
Todos mais faça JS/Jquery :)
Pentaho Data Mining
●
Solução completa para Machine Learning
●
79 Algorítimos
- Classificação
- Associação
- Cluster
ETL com Data Mining
●
Novamente o PDI se integra,
e pode fazer analise de
sentimento com os posts do twitter!
Hadoop, HDFS, MapReduce
Pentaho e Pig
● Linguagem de fluxo de dados e ambiente
de execução para explorar grandes
conjuntos de dados.
● Executado no HDFS e
grupos MapReduce.
Pentaho e HBase
● Decodificados de chave
e dados valor que é
emitido pelo TableInputFormat
Mongo DB
●
Acessível via PDI (ETL)
●
Acessível via PRD
( Report )
●
Suporte a Mongo 3.0
Pentaho e Cassandra
●
NoSQL
Database
●
Cluster
Database
Pentaho e Amazon
●
MapReduce sob Demanda
●
●
Pentaho e Kafka
●
Distributed Messaging System
Pentaho e ElasticSearch
●
Query via REST
●
Bulk Insert
Pentaho e Apache Sqoop
●
Permite copiar dados em tabelas de banco de
dados para HDFS
Pentaho e Apache Flume
●
Coletor de dados escalável que leva dados de
vários servidores e agrega-os ao Hadoop Data
Lake.
Pentaho e Storm
●
Distributed real-time computation system
●
https://github.com/pentaho/kettle-storm
●
Pentaho e Apache Avro
●
Data serialization system
Pentaho com Spark
●
Spark é um mecanismo de processamento na
memória que podem ser agrupados / escalado
usando Hadoop.
Pentaho Metadata
●
Governança de dados
●
Extração de Dados fácil pelos usuários de
negócio
●
Mondrian OLAP + Saiku
Analytics
Pentaho Big Data Analytics
Plataform
Vantagens
●
Integração de dados fortemente acoplada e plataforma de análise de
negócios acelerando a realização do valor de dados misturados.
●
Conjunto de análises: acesso e integração de dados à visualização de
dados e análise preditiva.
●
Permite aos usuários arquivar grandes misturas de dados na fonte e
enviá-las diretamente para análises mais completas e precisas
●
Capacidade de detectar dados online com acesso imediato a análises,
incluindo gráficos, visualizações e relatórios, a partir de qualquer etapa da
preparação de dados
●
Suporta amplo espectro de fontes de Big Data, aproveitando as
capacidades específicas e exclusivas de cada tecnologia.
●
A arquitetura aberta e baseada em padrões torna fácil integrar ou
estender a infra-estrutura existente.
Tempo de Dev com Hadoop
●
O Uso de Pentaho em projetos com Hadoop e
Big Data pode diminuir em 15x o tempo do
Projeto.
Codificação Java ETL com Pentaho
X
Magic Quadrant for BI &
Analytics Platforms
Comunidade Brasileira
Comunidade Brasileira
●
Maior comunidade do Mundo!
●
Lista de Discussão com + de 1900 membros
●
Organiza a 6 anos o Pentaho Day Brasil
●
Composta por desenvolvedores, usuários , empresas e
acadêmia.
●
Utilizado em mais de 185 países.
●
+10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
●
+ 4 milhões de Downloads
●
Em 2015 +- 60.000 downloads dia
Contatos e Convite!
●
Pentaho Day 2017 em Curitiba
●
39 palestrantes
●
35 palestras ( 2 internacionais)
●
11 minicursos
●
http://pentahobrasil.com.br
●
Contatos
●
marcio @ ambientelivre.com.br
●
@ambientelivre / @marciojvieira / Linkedin
●
blogs.ambientelivre.com.br/marcio
●
Facebook/ambientelivre

More Related Content

What's hot

Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Leinylson Fontinele
 
Banco de Dados I Aula 02 - Introdução aos Bancos de Dados
Banco de Dados I  Aula 02 - Introdução aos Bancos de DadosBanco de Dados I  Aula 02 - Introdução aos Bancos de Dados
Banco de Dados I Aula 02 - Introdução aos Bancos de DadosLeinylson Fontinele
 
Ebook oracle-thuc-hanh-nguyen-huu-trong
Ebook oracle-thuc-hanh-nguyen-huu-trongEbook oracle-thuc-hanh-nguyen-huu-trong
Ebook oracle-thuc-hanh-nguyen-huu-trongngobacuong
 
Configure h base hadoop and hbase client
Configure h base hadoop and hbase clientConfigure h base hadoop and hbase client
Configure h base hadoop and hbase clientShashwat Shriparv
 
[Certificacao ] normalizacao de dados e as formas normais
[Certificacao ]  normalizacao de dados e as formas normais[Certificacao ]  normalizacao de dados e as formas normais
[Certificacao ] normalizacao de dados e as formas normaisSandro Freitas
 
Présentation Talend Open Studio
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studiohoracio lassey
 
Cloud application architecture with Microsoft Azure
Cloud application architecture with Microsoft AzureCloud application architecture with Microsoft Azure
Cloud application architecture with Microsoft AzureGuillermo Zepeda Selman
 
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11g
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11gLos Secretos Mas Guardados del Proceso de Actualización a Oracle 11g
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11gValentin Leonard Tabacaru
 
Introducción a Oracle Audit Vault
Introducción a Oracle Audit VaultIntroducción a Oracle Audit Vault
Introducción a Oracle Audit VaultJesus Guzman
 
Guia do F12: Chrome Developer Tools
Guia do F12: Chrome Developer ToolsGuia do F12: Chrome Developer Tools
Guia do F12: Chrome Developer ToolsLeonardo Tegon
 
Estruturas de Dados em C#
Estruturas de Dados em C#Estruturas de Dados em C#
Estruturas de Dados em C#Marcelo Charan
 
Diagrama Entidade Relacionamento - Bancos de Dados I
Diagrama Entidade Relacionamento - Bancos de Dados IDiagrama Entidade Relacionamento - Bancos de Dados I
Diagrama Entidade Relacionamento - Bancos de Dados IDjonathas Cardoso
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosLeinylson Fontinele
 
Find Anything In Your APEX App - Fuzzy Search with Oracle Text
Find Anything In Your APEX App - Fuzzy Search with Oracle TextFind Anything In Your APEX App - Fuzzy Search with Oracle Text
Find Anything In Your APEX App - Fuzzy Search with Oracle TextCarsten Czarski
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 

What's hot (20)

Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
 
Banco de Dados I Aula 02 - Introdução aos Bancos de Dados
Banco de Dados I  Aula 02 - Introdução aos Bancos de DadosBanco de Dados I  Aula 02 - Introdução aos Bancos de Dados
Banco de Dados I Aula 02 - Introdução aos Bancos de Dados
 
Pentaho
PentahoPentaho
Pentaho
 
Les outils OLAP
Les outils OLAPLes outils OLAP
Les outils OLAP
 
Ebook oracle-thuc-hanh-nguyen-huu-trong
Ebook oracle-thuc-hanh-nguyen-huu-trongEbook oracle-thuc-hanh-nguyen-huu-trong
Ebook oracle-thuc-hanh-nguyen-huu-trong
 
Configure h base hadoop and hbase client
Configure h base hadoop and hbase clientConfigure h base hadoop and hbase client
Configure h base hadoop and hbase client
 
[Certificacao ] normalizacao de dados e as formas normais
[Certificacao ]  normalizacao de dados e as formas normais[Certificacao ]  normalizacao de dados e as formas normais
[Certificacao ] normalizacao de dados e as formas normais
 
Présentation Talend Open Studio
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studio
 
Cloud application architecture with Microsoft Azure
Cloud application architecture with Microsoft AzureCloud application architecture with Microsoft Azure
Cloud application architecture with Microsoft Azure
 
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11g
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11gLos Secretos Mas Guardados del Proceso de Actualización a Oracle 11g
Los Secretos Mas Guardados del Proceso de Actualización a Oracle 11g
 
Introducción a Oracle Audit Vault
Introducción a Oracle Audit VaultIntroducción a Oracle Audit Vault
Introducción a Oracle Audit Vault
 
Guia do F12: Chrome Developer Tools
Guia do F12: Chrome Developer ToolsGuia do F12: Chrome Developer Tools
Guia do F12: Chrome Developer Tools
 
Estruturas de Dados em C#
Estruturas de Dados em C#Estruturas de Dados em C#
Estruturas de Dados em C#
 
Diagrama Entidade Relacionamento - Bancos de Dados I
Diagrama Entidade Relacionamento - Bancos de Dados IDiagrama Entidade Relacionamento - Bancos de Dados I
Diagrama Entidade Relacionamento - Bancos de Dados I
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
 
Find Anything In Your APEX App - Fuzzy Search with Oracle Text
Find Anything In Your APEX App - Fuzzy Search with Oracle TextFind Anything In Your APEX App - Fuzzy Search with Oracle Text
Find Anything In Your APEX App - Fuzzy Search with Oracle Text
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Comment construire les ontologies?
Comment construire les ontologies?Comment construire les ontologies?
Comment construire les ontologies?
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Poo
PooPoo
Poo
 

Viewers also liked

Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...Fernando Souza
 
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...Liber UFPE
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open dataLiber UFPE
 
Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...Estêvão Soares Custodio
 

Viewers also liked (20)

Capítulo 4 listas.
Capítulo 4   listas.Capítulo 4   listas.
Capítulo 4 listas.
 
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
 
E-commerce + Social media
E-commerce + Social mediaE-commerce + Social media
E-commerce + Social media
 
Minicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/QgisMinicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/Qgis
 
Seminário Sociologia na era do Big Data
Seminário Sociologia na era do Big DataSeminário Sociologia na era do Big Data
Seminário Sociologia na era do Big Data
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
 
Construindo diálogos
Construindo diálogosConstruindo diálogos
Construindo diálogos
 
Capítulo 2 - Python
Capítulo 2 - PythonCapítulo 2 - Python
Capítulo 2 - Python
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
 
Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open data
 
Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...
 
Encarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia RelevanteEncarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia Relevante
 
Webinar | Saia do básico em social media
Webinar | Saia do básico em social mediaWebinar | Saia do básico em social media
Webinar | Saia do básico em social media
 
Os Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta DimensãoOs Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta Dimensão
 
Extração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizzExtração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizz
 
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAMApresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
 

Similar to TDC2017 - Misturando dados com Pentaho para insights mais significativos

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemOtávio Carvalho
 

Similar to TDC2017 - Misturando dados com Pentaho para insights mais significativos (20)

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
 

More from Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 

More from Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 

TDC2017 - Misturando dados com Pentaho para insights mais significativos

  • 1. Misturando Dados com Pentaho para Insights mais significativos! Trilha: Big Data Palestrante: Marcio Junior Vieira CEO e Data Scientist na Ambiente Livre marcio@ambientelivre.com.br
  • 2. Marcio Junior Vieira ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day, TDC. ● Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
  • 4. Algumas informações ● Não confundir Misturar com “Ofuscar Dados” ● Misturar no contexto de Mesclar! ● Vamos programar através de muitos componentes prontos, mas não se preocupe temos como codificar muitas vezes por prazer :)
  • 5. O V do Valor ● V que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor. ● É importante que empresas entrem no negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se está fazendo.
  • 6. Desafios em misturar dados ● Conhecer diversas tecnologias ( HDFS, Mapreduce, Spark, Pig, Java, Shell , Amazon AWS, NoSQL, Hashmap, etc) . ● Conhecer diversos formatos ( JSON, XML, CSV, HL7, YAML, ESRI, RSS, Serialized) ● Conhecer diversas APIs (Google Maps, Google Analytics Twitter, etc) . ● Conhecer diversas linguagens de consulta (CQL, SQL, MDX, CMIS, HiveQL, MQL, Table Scan ) ● Acessos incorretos ou com baixo conhecimento podem acarretar em performance ● Governança de dados e SOX ( Quem pode, Quando pode , Quando fez).
  • 7.
  • 8. Desafio dos Dados ● Dados Inconsistentes (Ex. Campo sexo tem valor M, F, X , Z, H, 1, ?, null ou vazio ) ● Regras de Relacionamento Complexas ( Ex. É cliente “master” se comprou produto tal na loja tal no período tal junto com produto tal e choveu no dia! ) ● Tipos de Dados Distintos para mesma informação ( ex. String X Int X Float ) ● Dados Faltantes ou incompletos (Ex. Campo sexo tem valor null ou vazio ) ● Os famosos “de → para” ● Tratamento dos Dados gerais dos dados o T do ETL ( transformations ) ● O desafio dos 5 V do Big Data!
  • 9. Capturar Dados ● Dados Abertos ● Parcerias (Cartões de crédito, lojas, sites, Waze, etc) ● Rastreamento Web (Crawler, Spiders, Robot, Scutter) ● Redes Sociais e Web Sites. ● IOT Plataforms ● Tradicionais Databases corporativos (ERP, CRM, CDRs, E-Commerce, etc) ● E-mails, Documentos
  • 10. Armazenamento ● Antes de tratar já armazene sua fonte original! ● Amazon S3, Hadoop HDFS, Amazon EMR, Data Lake, etc. ● Armazene dado tratado. ● Espaço e barato $! , processamento e indisponibilidade é caro $$$$!
  • 12. Insights Significativos (Ex. Saúde) ● Dados Climáticos (Dados externos - API ) ● Histórico de medicamentos consumidos (Compras em farmácias ou prontuários – CSVs mensal ) ● Histórico de Parentes ( Documentos Digitalizados, OCR ) ● Histórico de procedimentos (Plano de Saúde – databases “atenção as normas e leis” , HL7 Internacional ) ● Consumo em Redes de Varejo (Cartão Fidelidade – API Rest ) ● Medições com Apps de Saúde e Atividades Físicas (Rest/Apis ) ● Medições de atividades físicas e de saúde com IOT (logs/stores locais e sincronia com nuvens) ● Dados Geo Referenciados, Rotas ( Waze, GMaps, Shapes, etc) ● Dados Espaciais de Satélites e Sensores ( Nasa, AEB, INPE, Monitoramento de Desastres )
  • 14. Equipe envolvida ● 1 Dev MongoDB ● 1 Dev Java / MapReduce ● 1 Dev Cassandra ● 1 Dev Sales Force, SuiteCRM ● 2 Consultor do ERP (RH, Finan ) ● 1 Dev Front-End (Gráficos) ● 1 WebDesigner ● 3 DBAs (Oracle, MSSQL, PostgreSQL) ● 1 Dev ElasticSearch ● 1 Dev Spark com escala ● 1 Analista de Negócio ● 1 Estatístico ● 1 Arquiteto de Soluções ● 1 Gerente de projetos Como nasce um Mito Reunião do RH Gerencia de Projetos e Administradores Data Scientist
  • 15. Pentaho ● Plataforma completa para Business Intelligence e Business Analytics e Big Data Analytics. ● ETL, Reporting, Data Mining, OLAP e Dashbards.
  • 16. 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  • 17. Pentaho Data Integration ● Ferramenta completa de ETL ● “Programação e Fluxo Visual” ● Aproximadamente 350 steps diferentes
  • 18. Pentaho Data Integration ● Processa dados em Paralelo ● Acessar dados diretamente (se necessário sem Data Warehouse ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards.
  • 19. PDI Debuggers ● Previews de dados ● Tratamento de fluxos por erros ou condições ● Geração de logs de erros ● Break points
  • 20. Integração ampla e adaptável de Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop (Cloudera, Hortonworks, MapR e Amazon) ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores, incluindo MongoDB e Cassandra ● Conectividade a BDs analíticos (Vertica, Redshift, SAP HANA , etc.
  • 21. PDI Cluster ● Suporte a Clusterização ● Clusterização e processamento paralelo de dados.
  • 23. Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ... ● Big Data Reports ( integra-se com PDI )
  • 24. ETL como Data Source ● O data source do report é um ETL. ● Isso muda tudo!
  • 25. Exemplo de dados do Twitter Report ● Libere na API acesso ● Crie seu ETL no PDI ( Pentaho Data Integration ) ● Defina onde quer os dados ( database, hadoop, Report ou dashboard )
  • 26. CTools - Dashboards ● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars
  • 27. CDE ( CTools ) ● Editor de Dashboards
  • 29. ETL para datasets D3.js http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 30. Pentaho Sparkl ● Fremawork que usa o PDI como “fonte” ● App Builder que permite desenvolver plugins de Big Data Analytics e outros em alguns passos. ● Menus = Dados ● Campos = metaDados ● Botão = Dispara Serviço ● Filtros = Lista Dados ● Todos mais faça JS/Jquery :)
  • 31. Pentaho Data Mining ● Solução completa para Machine Learning ● 79 Algorítimos - Classificação - Associação - Cluster
  • 32. ETL com Data Mining ● Novamente o PDI se integra, e pode fazer analise de sentimento com os posts do twitter!
  • 33.
  • 35. Pentaho e Pig ● Linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados. ● Executado no HDFS e grupos MapReduce.
  • 36. Pentaho e HBase ● Decodificados de chave e dados valor que é emitido pelo TableInputFormat
  • 37. Mongo DB ● Acessível via PDI (ETL) ● Acessível via PRD ( Report ) ● Suporte a Mongo 3.0
  • 39. Pentaho e Amazon ● MapReduce sob Demanda ● ●
  • 41. Pentaho e ElasticSearch ● Query via REST ● Bulk Insert
  • 42. Pentaho e Apache Sqoop ● Permite copiar dados em tabelas de banco de dados para HDFS
  • 43. Pentaho e Apache Flume ● Coletor de dados escalável que leva dados de vários servidores e agrega-os ao Hadoop Data Lake.
  • 44. Pentaho e Storm ● Distributed real-time computation system ● https://github.com/pentaho/kettle-storm ●
  • 45. Pentaho e Apache Avro ● Data serialization system
  • 46. Pentaho com Spark ● Spark é um mecanismo de processamento na memória que podem ser agrupados / escalado usando Hadoop.
  • 47. Pentaho Metadata ● Governança de dados ● Extração de Dados fácil pelos usuários de negócio ●
  • 48. Mondrian OLAP + Saiku Analytics
  • 49. Pentaho Big Data Analytics Plataform
  • 50. Vantagens ● Integração de dados fortemente acoplada e plataforma de análise de negócios acelerando a realização do valor de dados misturados. ● Conjunto de análises: acesso e integração de dados à visualização de dados e análise preditiva. ● Permite aos usuários arquivar grandes misturas de dados na fonte e enviá-las diretamente para análises mais completas e precisas ● Capacidade de detectar dados online com acesso imediato a análises, incluindo gráficos, visualizações e relatórios, a partir de qualquer etapa da preparação de dados ● Suporta amplo espectro de fontes de Big Data, aproveitando as capacidades específicas e exclusivas de cada tecnologia. ● A arquitetura aberta e baseada em padrões torna fácil integrar ou estender a infra-estrutura existente.
  • 51. Tempo de Dev com Hadoop ● O Uso de Pentaho em projetos com Hadoop e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  • 52. Magic Quadrant for BI & Analytics Platforms
  • 54. Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão com + de 1900 membros ● Organiza a 6 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  • 55. Contatos e Convite! ● Pentaho Day 2017 em Curitiba ● 39 palestrantes ● 35 palestras ( 2 internacionais) ● 11 minicursos ● http://pentahobrasil.com.br ● Contatos ● marcio @ ambientelivre.com.br ● @ambientelivre / @marciojvieira / Linkedin ● blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre