SlideShare a Scribd company logo
1 of 50
Download to read offline
Open Source Data
Science
Open Source Data Science - Elaborando uma
plataforma de Big Data & Analytics 100% Open
Source
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Agenda
① Data Science
② Open Source e Free Software
③ Ferramentas e Fases
④ Pentaho
Open Source Data
Science
Open Source Data Science - Elaborando uma
plataforma de Big Data & Analytics 100% Open
Source
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-Bio
●
17 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria, projetos, treinamento e transferência de tecnologias.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: FISL, LATINOWARE, Campus Party, Pentaho
Day, TDC,Ticnova e FTSL
●
Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014.
●
CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
●
Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro...
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Indústria 4.0.
A próxima revolução industrial.
baseado no ...
Quarto paradigma da ciência
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O Quarto Paradigma da Ciência
●
Empírica: É uma maneira de adquirir conhecimento por meio de observação ou
experiência direta e indireta.
●
Investigação: Melhorar as teorias científicas para uma melhor
compreensão ou previsão de fenômenos naturais. Muitas vezes
impulsionado pela curiosidade.
●
Computação: Estuda as técnicas, metodologias e instrumentos
computacionais, que automatiza processos e desenvolve soluções
baseadas no uso do processamento digital.
●
Baseada em dados ( data-driven )
Ciência Sobre os Dados ou Ciência dos Dados
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Data Science
●
Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas
para extrair conhecimentos ou insights a partir de dados em várias formas,
estruturadas ou não estruturadas, semelhantes ao KDD.
●
Unificar estatísticas, análise de dados e seus métodos relacionados,
a fim de compreender e analisar fenômenos reais com dados.
●
Emprega técnicas e teorias extraídas das áreas amplas de matemática,
estatística, ciência da informação e ciência da computação,
aprendizagem de máquinas, classificação, análise de cluster, mineração
de dados, bancos de dados e visualização.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Free Software and Open Source
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Software Livre / Free Software
●
"Software Livre" se refere à liberdade dos usuários executarem,
copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o
software. São 4 tipos de liberdade, para os usuários do software:
●
1. A liberdade de executar o programa, para qualquer propósito.
●
2. A liberdade de estudar como o programa funciona, e adaptá-lo para as
suas necessidades. Acesso ao código-fonte é um
pré-requisito para esta liberdade.
●
3. A liberdade de redistribuir cópias de modo que
você possa ajudar ao seu próximo.
●
4. A liberdade de aperfeiçoar o programa, e liberar
os seus aperfeiçoamentos, de modo que toda a
comunidade se beneficie. Dr. Richard Stallman
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Open Source
●
Criado pela OSI (Open Source Initiative)
●
Não refere-se a software também conhecido por software livre.
●
Qualquer licença de software
livre é também uma licença
de código aberto (Open Source)
●
Mas o contrário nem sempre
é verdade
●
Criado por Eric Raymond entre outros
fundadores da OSI.
●
Hacker Eric Raymond
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Free Software X Open Source
●
4 Lei da GPL
●
OBRIGATORIEDADE:
A liberdade de aperfeiçoar o programa, e liberar os seus
aperfeiçoamentos, de modo que toda a comunidade se beneficie.
X
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
A Evolução das Coisas - IOT
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Sensores de Automóveis
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Sensores de Voo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Arquitetura - IoT
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Data Lake
Dados
●
Fonte única
●
Grande Volume
●
Não Refinado
●
Pode estar tratado.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Como era antes!
Data Mart(s)
Data Source
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad-hoc Datawarehouse
Real Time
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Arquitetura
Fonte Armazenamento Analise
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Captura de Dados
●
Web crawler
●
IoT
●
Equipamentos de Redes
●
Open Source (Data System) Erps, CRMs, etc
●
Logs
●
Etc, etc, etc
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Armazenar
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Armazenar
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Processar
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Processamento ( distribuído ) e Integração
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Visualização e Analise – Data Visualization
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Machine Learning
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Fundação Apache
●
Data Science = Apache = Open Source
●
Apache é lider em Big Data e Data Science!
●
~32 projetos da linha “Big Data e Data Science”
incluindo “Apache Hadoop” e “Spark”
Doug Cutting
Criador do Hadoop e
Ex-Presidente da Apache
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
3 Pilares do Pentaho
●
Plataforma abrangente para integração de dados e Business Analytics.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Pentaho Data Integration ( PDI )
●
Processa em Paralelo ( Executa em Cluster Spark)
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports e
Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350 steps diferentes
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Integração ampla e adaptável de Big Data
●
Conexões nativas e camada adaptável de Big Data e acesso
funcionalidades dos populares big data stores.
●
Capacidade de acessar dados, processá-los combiná-los e consumi-los
em qualquer lugar.
●
Flexibilidade, isolamento das mudanças no ecossistema de dados
●
Suporte a distros Hadoop
●
Acessar dados para preparação via SQL no Spark e orquestrar aplicativos
Spark (Scala, Java e Python)
●
Integração com NoSQL stores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
relacionais, OLAP, XML e Pentaho Analysis,
arquivos flat, objetos Java e ...
●
Big Data Reports
( integra-se com PDI )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
ETL como Data Source
●
O data source do
report é um ETL.
●
Isso muda tudo!
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
ETL como Data Source
●
Libere na API acesso
●
Crie seu ETL no PDI ( Pentaho Data Integration )
●
Defina onde quer os dados ( database, hadoop, Report ou dashboard )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Dashboards ETL
●
Dashboards permiter
integração com ETL
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
ETL para datasets D3.js
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Pentaho Sparkl
●
Framework que usa o PDI como “fonte”
●
App Builder que permite desenvolver plugins de Big Data Analytics e
outros em alguns passos.
●
Menus = Dados
●
Campos = metaDados
●
Botão = Dispara Serviço
●
Filtros = Lista Dados
●
Todos mais faça JS/Jquery :)
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Pentaho Data Mining
●
Solução completa para Machine Learning
●
Aprox. 79
Algorítimos
- Classificação
- Associação
- Cluster
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Comunidade Brasileira
Pentaho Day 2017 em Curitiba na Universidade Positivo
Aprox. 300 Pessoas
6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA)
20 Estados Brasileiros presentes.
40 Palestrantes, 35 Palesras e 12 Minicursos.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Comunidade Brasileira
●
Maior comunidade do Mundo!
●
Lista de Discussão: +-2025 membros (pentahobr@yahoogrupos.com.br)
https://br.groups.yahoo.com/neo/groups/pentahobr/info
●
Organiza a 7 anos o Pentaho Day Brasil
●
Composta por desenvolvedores, usuários , empresas e acadêmia.
●
Utilizado em mais de 185 países.
●
+10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
●
+ 4 milhões de Downloads
●
Em 2015 +- 60.000 downloads dia
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Open Source gera valor!
●
Facebook vende software? Não mas entrega muita tecnologia open source
assim como milhares de outras startup. Exemplo Hive.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Dificuldades ou Desculpas criadas por “vendors”
●
Como vai gerenciar Schedulers ?
●
Como vai gerenciar Segurança ?
●
Como vai gerenciar o Cluster ?
Como ? Como ? Como?
●
cron
●
chmod 600
●
Shell script
●
Open Source
Data Scientist Nutella Data Scientist Raiz
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Diferenciais Reais mas não impeditivos
●
Interface
●
Aceleração do Trabalho
●
BI Self Service – Será mesmo ?
●
Suporte do Desenvolvedor
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Dificuldades Reais
●
Alto investimento em capital intelectual das pessoas
●
Encontrar pessoas com perfil “hacker e pesquisador”
●
Tempo
●
Persistência
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Acontecendo no mercado
Empresas estabelecidas:
●
Compram Player de Mercado...
●
Montamos Cluster na Amazon, Google, Azure, Etc
●
Uso o Framework da Nuvem
●
O custo sobe... a empresa cresce... a crise vem... o dólar sobe… !
●
Começo a mesclar usando Open Source
●
Ficam Aprisionadas a plataformas de Clouds proprietárias
Startups:
●
Começam ao Contrário! Open Sorce sempre primeiro.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Minhas Perguntas aos Grandes
●
Sei que você usa arquitetura “mesclada”, mas é possível fazer 100% Open
Source?
●
Sim recebidos!
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Data Science 100% Open Source
SIM by
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Agradecimentos Especial e Dicas e Leituras
●
Organização geral da FTSL.
●
E a todos os participantes vocês são minha motivação de estar aqui!
●
Treinamento Pentaho em Curitiba de 30 Outubro a 01 de Novembro/2017
●
Treinamento Big Data Open Source Hadoop São Paulo de 27 a 29 de Nov.
●
Palestra será compartilhada no meu Linkedin
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
●
http://twitter.com/ambientelivre
●
@ambientelivre
●
@marciojvieira
●
blogs.ambientelivre.com.br/marcio
●
Facebook/ambientelivre
https://www.linkedin.com/company/ambientelivre
https://www.linkedin.com/in/mvieira1/

More Related Content

What's hot

What's hot (19)

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
BigData
BigDataBigData
BigData
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Big Data
Big DataBig Data
Big Data
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 

Viewers also liked

Viewers also liked (20)

Como é que o Marketing Analytics pode ser usado com o Tableau
Como é que o Marketing Analytics pode ser usado com o TableauComo é que o Marketing Analytics pode ser usado com o Tableau
Como é que o Marketing Analytics pode ser usado com o Tableau
 
Construindo diálogos
Construindo diálogosConstruindo diálogos
Construindo diálogos
 
Seminário Sociologia na era do Big Data
Seminário Sociologia na era do Big DataSeminário Sociologia na era do Big Data
Seminário Sociologia na era do Big Data
 
Minicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/QgisMinicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/Qgis
 
Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...Como extrair insights no meio digital para execução de uma Estratégia Data...
Como extrair insights no meio digital para execução de uma Estratégia Data...
 
E-commerce + Social media
E-commerce + Social mediaE-commerce + Social media
E-commerce + Social media
 
Capítulo 4 listas.
Capítulo 4   listas.Capítulo 4   listas.
Capítulo 4 listas.
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open data
 
Os Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta DimensãoOs Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta Dimensão
 
Capítulo 2 - Python
Capítulo 2 - PythonCapítulo 2 - Python
Capítulo 2 - Python
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
 
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
Palestra - Social Media Week - Carreira Social Media - Erros e acertos que vo...
 
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAMApresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
 
Extração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizzExtração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizz
 
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
CLASSIFICAÇÃO DE DOCUMENTOS FILATÉLICOS EM FORMATO ABERTO PARA WEB: o caso do...
 
Webinar | Saia do básico em social media
Webinar | Saia do básico em social mediaWebinar | Saia do básico em social media
Webinar | Saia do básico em social media
 
Encarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia RelevanteEncarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia Relevante
 
Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1
 

Similar to Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source

CASE: Fundação Sistema Estadual de Análise de Dados SEADE
CASE: Fundação Sistema Estadual de Análise de Dados SEADECASE: Fundação Sistema Estadual de Análise de Dados SEADE
CASE: Fundação Sistema Estadual de Análise de Dados SEADE
GeneXus
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
nitaibezerra
 

Similar to Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source (20)

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Criando uma cultura data driven
Criando uma cultura data drivenCriando uma cultura data driven
Criando uma cultura data driven
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
CASE: Fundação Sistema Estadual de Análise de Dados SEADE
CASE: Fundação Sistema Estadual de Análise de Dados SEADECASE: Fundação Sistema Estadual de Análise de Dados SEADE
CASE: Fundação Sistema Estadual de Análise de Dados SEADE
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
 
Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
SINFO Geração ALPHA
SINFO Geração ALPHASINFO Geração ALPHA
SINFO Geração ALPHA
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 
Day 0 iniciando na carreira em ti
Day 0   iniciando na carreira em tiDay 0   iniciando na carreira em ti
Day 0 iniciando na carreira em ti
 
Big Data Intro @ SemanaCMCC
Big Data Intro @ SemanaCMCCBig Data Intro @ SemanaCMCC
Big Data Intro @ SemanaCMCC
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 

More from Ambiente Livre

More from Ambiente Livre (12)

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Recently uploaded

Recently uploaded (8)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source

  • 1. Open Source Data Science Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre
  • 2. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Agenda ① Data Science ② Open Source e Free Software ③ Ferramentas e Fases ④ Pentaho
  • 3. Open Source Data Science Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre
  • 4. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-Bio ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria, projetos, treinamento e transferência de tecnologias. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: FISL, LATINOWARE, Campus Party, Pentaho Day, TDC,Ticnova e FTSL ● Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014. ● CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas. ● Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro...
  • 5. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 6. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
  • 7. Indústria 4.0. A próxima revolução industrial. baseado no ... Quarto paradigma da ciência
  • 8. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  • 9. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  • 10. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Free Software and Open Source
  • 11. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Software Livre / Free Software ● "Software Livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. Dr. Richard Stallman
  • 12. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond entre outros fundadores da OSI. ● Hacker Eric Raymond
  • 13. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Free Software X Open Source ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  • 14. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 A Evolução das Coisas - IOT
  • 15. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Sensores de Automóveis
  • 16. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Sensores de Voo
  • 17. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Arquitetura - IoT
  • 18. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Data Lake Dados ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 19. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Como era antes! Data Mart(s) Data Source
  • 20. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Arquitetura de Big Data Data Mart(s) Data Source Data Lake(s) ad-hoc Datawarehouse Real Time
  • 21. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Arquitetura Fonte Armazenamento Analise
  • 22. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Captura de Dados ● Web crawler ● IoT ● Equipamentos de Redes ● Open Source (Data System) Erps, CRMs, etc ● Logs ● Etc, etc, etc
  • 23. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Armazenar
  • 24. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Armazenar
  • 25. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Processar
  • 26. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Processamento ( distribuído ) e Integração
  • 27. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Visualização e Analise – Data Visualization
  • 28. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Machine Learning
  • 29. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Fundação Apache ● Data Science = Apache = Open Source ● Apache é lider em Big Data e Data Science! ● ~32 projetos da linha “Big Data e Data Science” incluindo “Apache Hadoop” e “Spark” Doug Cutting Criador do Hadoop e Ex-Presidente da Apache
  • 30. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  • 31. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho Data Integration ( PDI ) ● Processa em Paralelo ( Executa em Cluster Spark) ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps diferentes
  • 32. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Integração ampla e adaptável de Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  • 33. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ... ● Big Data Reports ( integra-se com PDI )
  • 34. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 ETL como Data Source ● O data source do report é um ETL. ● Isso muda tudo!
  • 35. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 ETL como Data Source ● Libere na API acesso ● Crie seu ETL no PDI ( Pentaho Data Integration ) ● Defina onde quer os dados ( database, hadoop, Report ou dashboard )
  • 36. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dashboards ETL ● Dashboards permiter integração com ETL
  • 37. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 ETL para datasets D3.js http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 38. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pentaho Sparkl ● Framework que usa o PDI como “fonte” ● App Builder que permite desenvolver plugins de Big Data Analytics e outros em alguns passos. ● Menus = Dados ● Campos = metaDados ● Botão = Dispara Serviço ● Filtros = Lista Dados ● Todos mais faça JS/Jquery :)
  • 39. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Pentaho Data Mining ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  • 40. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Comunidade Brasileira Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  • 41. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão: +-2025 membros (pentahobr@yahoogrupos.com.br) https://br.groups.yahoo.com/neo/groups/pentahobr/info ● Organiza a 7 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  • 42. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Open Source gera valor! ● Facebook vende software? Não mas entrega muita tecnologia open source assim como milhares de outras startup. Exemplo Hive.
  • 43. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Dificuldades ou Desculpas criadas por “vendors” ● Como vai gerenciar Schedulers ? ● Como vai gerenciar Segurança ? ● Como vai gerenciar o Cluster ? Como ? Como ? Como? ● cron ● chmod 600 ● Shell script ● Open Source Data Scientist Nutella Data Scientist Raiz
  • 44. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Diferenciais Reais mas não impeditivos ● Interface ● Aceleração do Trabalho ● BI Self Service – Será mesmo ? ● Suporte do Desenvolvedor
  • 45. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Dificuldades Reais ● Alto investimento em capital intelectual das pessoas ● Encontrar pessoas com perfil “hacker e pesquisador” ● Tempo ● Persistência
  • 46. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Acontecendo no mercado Empresas estabelecidas: ● Compram Player de Mercado... ● Montamos Cluster na Amazon, Google, Azure, Etc ● Uso o Framework da Nuvem ● O custo sobe... a empresa cresce... a crise vem... o dólar sobe… ! ● Começo a mesclar usando Open Source ● Ficam Aprisionadas a plataformas de Clouds proprietárias Startups: ● Começam ao Contrário! Open Sorce sempre primeiro.
  • 47. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Minhas Perguntas aos Grandes ● Sei que você usa arquitetura “mesclada”, mas é possível fazer 100% Open Source? ● Sim recebidos!
  • 48. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Data Science 100% Open Source SIM by
  • 49. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Agradecimentos Especial e Dicas e Leituras ● Organização geral da FTSL. ● E a todos os participantes vocês são minha motivação de estar aqui! ● Treinamento Pentaho em Curitiba de 30 Outubro a 01 de Novembro/2017 ● Treinamento Big Data Open Source Hadoop São Paulo de 27 a 29 de Nov. ● Palestra será compartilhada no meu Linkedin