Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
1. Big Data Open Source com Hadoop
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
Realização:
2.
Marcio Junior Vieira
●
14 anos de experiência em informática, vivência em
desenvolvimento e análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de
consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado
em Software Livre(2005) ambos pela UFPR.
●
Palestrante em diversos Congressos relacionados a Software
Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day.
●
Fundador da Ambiente Livre.
7.
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
8.
Os 4 V's
● Velocidade , Volume , Variedade e Valor
9.
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
19.
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
21.
Competências do Cientista de
dados
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
24.
Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuido.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum ( Commodity cluster
computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
25.
Motivações Atuais
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
26.
A origem do Nome
● Segundo Doug Cutting, criador do Hadoop
“O nome que meu filho deu a um elefante
amarelo de pelúcia. Curto, relativamente fácil
de soletrar e pronunciar, sem sentido, e não
usado em outro lugar: esses são os meus
critérios de nomeação”
28.
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
29.
Características do HDFS
● Inspirado em GFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
30.
HDFS
● Projetado para escalar a petabytes de
armazenamento, e correr em cima dos
sistemas de arquivos do sistema
operacional subjacente.
32.
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
33.
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
35.
MapReduce
Você especifica o map (...) e reduce (...)
funções
●
map = (lista (k, v) -> lista (k, v))
● reduce = (k, lista (v) -> k, v)
O Framework faz o resto
● Dividir os dados
●
Execute vários mappers sobre as divisões
● Embaralhar os dados para os redutores
●
Execute vários redutores
● Guarde os resultados finais
37.
Modos de Operação
● Standalone ( Local )
● Pseudo-distributed
● Fully-distributed
38.
Outros componentes
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados
armazenados no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
● Hbase – Banco de dados orientada
por colunas distribuída. HBase usa o HDFS
por sua subjacente de armazenamento e suporta
os cálculos de estilo lote usando MapReduce e ponto consultas (leituras
aleatórias).
39.
Outros componentes
●
ZooKeeper – Serviço de coordenação altamente
disponível e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a construção de
aplicações distribuídas.
● Sqoop – Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e HDFS.
● Mahout - Aprendizagem de máquina
escalável, de fácil uso comercial para
a construção de aplicativos inteligentes
40.
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
- Microsoft HDInsight (beta)
41.
Possibilidades de Uso
● DataWareHouse
● Business Intelligence
● Aplicações analíticas
● Mídias Sociais
● Sugestão de Compras
● Analise preditiva
● Compras Coletivas
● Recomendações