SlideShare a Scribd company logo
1 of 23
Download to read offline
Pentaho, Hadoop, Big Data e Data Lakes.
Marcio Junior Vieira
Data Scientist
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
Agenda
● Conceitos de Data Lakes
● Pentaho Orquestrando seus Data Lakes
   
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
Ecosistema - Hadoop
   
O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at
Pentaho ) introduziu os conceitos de Data
Lake em pequeno artigo em seu Blog.
   
O velho Datawarehouse
● Elaborado na Década de 80
● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-
determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade
para os níveis mais baixos é perdida
   
Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro,
Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou
semiestruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs,
Social/online Media, Eventos de Telecoms ) ou não transacional
(Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.
● Há muitas perguntas desconhecidos que surgirão no futuro.
● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.
   
Data LakeData Lake
   
Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.
   
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
● Exemplos:
Hadoop, Azure e AWS S3
   
Formato Tradicional de BI
Data Mart(s)
Data Source
   
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc Datawarehouse
   
Big Data não Substitui os
DataMarts
● Big Data não é um Banco de Dados
● Alta latência
● Otimizado para “triturar” massiva os dados
● Base de dados são imaturas
● Banco de Dados são noSQL
   
● Solução de BI Open Source.
● Community Edition potente e funcional
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend com CTools
● Implementamos Backends e endPoints com
PDI
   
   
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Contatos
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog: blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

More Related Content

Viewers also liked

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Calc avancado
Calc avancadoCalc avancado
Calc avancadoJorge Vaz
 
Automatizacao de tarefas
Automatizacao de tarefasAutomatizacao de tarefas
Automatizacao de tarefasarturramisio
 
Programacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshareProgramacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshareMarcio Junior Vieira
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Unidade 7  - Estruturando Banco de Dados com o BR Office BaseUnidade 7  - Estruturando Banco de Dados com o BR Office Base
Unidade 7 - Estruturando Banco de Dados com o BR Office BaseRogerio P C do Nascimento
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Railsrinaldifonsecanascimento
 
Technologies for Organizational Intelligence
Technologies for Organizational IntelligenceTechnologies for Organizational Intelligence
Technologies for Organizational IntelligenceRichard Veryard
 
Perspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência OrganizacionalPerspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência OrganizacionalEduardo Moresi
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2Rogerio P C do Nascimento
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBRodrigo Hjort
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 

Viewers also liked (17)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Calc avancado
Calc avancadoCalc avancado
Calc avancado
 
Automatizacao de tarefas
Automatizacao de tarefasAutomatizacao de tarefas
Automatizacao de tarefas
 
Programacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshareProgramacao de macros_com_libre_office_basic_slideshare
Programacao de macros_com_libre_office_basic_slideshare
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Unidade 7  - Estruturando Banco de Dados com o BR Office BaseUnidade 7  - Estruturando Banco de Dados com o BR Office Base
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
 
Boas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on RailsBoas Práticas de Design em Aplicações Ruby on Rails
Boas Práticas de Design em Aplicações Ruby on Rails
 
Pentaho
PentahoPentaho
Pentaho
 
Technologies for Organizational Intelligence
Technologies for Organizational IntelligenceTechnologies for Organizational Intelligence
Technologies for Organizational Intelligence
 
Perspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência OrganizacionalPerspectivas de Pesquisa em Inteligência Organizacional
Perspectivas de Pesquisa em Inteligência Organizacional
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
MongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a DocumentosMongoDB e Bancos de Dados Orientados a Documentos
MongoDB e Bancos de Dados Orientados a Documentos
 
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2Unidade 7  - Estruturando Banco de Dados com o BR Office Base - parte 2
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
NoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDBNoSQL: onde, como e por quê? Cassandra e MongoDB
NoSQL: onde, como e por quê? Cassandra e MongoDB
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 

Similar to Pentaho, Hadoop , Big Data e Data Lakes

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Rodrigo Ribeiro
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeMisaelFalco
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Finaljcaroso
 

Similar to Pentaho, Hadoop , Big Data e Data Lakes (20)

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de Sergipe
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 

More from Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectAmbiente Livre
 

More from Ambiente Livre (19)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Recently uploaded

Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteDaniloMatos36
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfmaanuarruda
 
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfhistonfilho
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...9z64mgz4kf
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfmaanuarruda
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfmaanuarruda
 

Recently uploaded (6)

Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste Nordeste
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
 
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
 

Pentaho, Hadoop , Big Data e Data Lakes

  • 1. Pentaho, Hadoop, Big Data e Data Lakes. Marcio Junior Vieira Data Scientist marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  • 3. Agenda ● Conceitos de Data Lakes ● Pentaho Orquestrando seus Data Lakes
  • 4.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 5.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é líder e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 7.     O Termo Data Lake ● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.
  • 8.     O velho Datawarehouse ● Elaborado na Década de 80 ● Apenas um subconjunto dos atributos são examinados, para que apenas perguntas pré- determinadas podem ser respondidas. ● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida
  • 9.     Cenários ● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs ) ● Muitas empresas estão lidando com dados estruturados ou semiestruturados (não desestruturada). ● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ). ● Há algumas perguntas conhecidos para perguntar dos dados. ● Há muitas perguntas desconhecidos que surgirão no futuro. ● Os dados são de uma escala ou volume diário de tal forma que ele não vão caber técnica e / ou economicamente em um RDBMS.
  • 11.     Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 12.     Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo ● Exemplos: Hadoop, Azure e AWS S3
  • 13.     Formato Tradicional de BI Data Mart(s) Data Source
  • 14.     Arquitetura de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 15.     Big Data não Substitui os DataMarts ● Big Data não é um Banco de Dados ● Alta latência ● Otimizado para “triturar” massiva os dados ● Base de dados são imaturas ● Banco de Dados são noSQL
  • 16.     ● Solução de BI Open Source. ● Community Edition potente e funcional ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 18.     Pentaho Data Integration
  • 19.     Sparkl ● CTools e Pentaho Data Integration (PDI) ● Desenvolve frontend com CTools ● Implementamos Backends e endPoints com PDI
  • 20.    
  • 21.    
  • 22.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 23.     Contatos ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog: blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre