2. 2
Quem eu sou e o que faço?
Marcos Luiz Lins
Filho
o Técnico em Processamento de Dados IFPB
o Graduado em Ciência da Computação UFCG
o MBA Gestão de TI - UFRN
o Mestrado em Computação – UFPE
o Há 10 anos trabalho na Petrobras Distribuidora S/A
o Trabalhei como Analista de Sistemas e hoje atuo na área
de Negócios
o Não deixo nunca de estudar e buscar novos
conhecimentos, o famoso CURIOSO
3. 3
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) O que Big Data tem de diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data ?
4. 4
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) O que Big Data tem de diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data ?
6. 6
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) O que Big Data tem de diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data ?
7. História do Big Data
Se divide em dois momentos
Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
(Tilly, 1984) usa pela primeira vez o termo Big Data em textos
acadêmicos;
Uma primeira pesquisa publicada em 1987 relativa a uma técnica
de programação chamada small code, big data;
Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big
Data;
(Laney , 2001) publica trabalho com o título os 3 V´s do Big Data
(Volume, Variedade e Velocidade)
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
8. História do Big Data
Se divide em dois momentos
Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados
etc (meados de 2008)
(Lohr, 2008) Jornalista do New York Times publicou artigo em que
citava que cientistas de computação e executivos da indústria já
enxergavam que o termo Big Data saia da esfera acadêmica e já
começava a trazer resultados econômicos.
A Wired publica em junho de 2008 um artigo “The Petabyte Age:
because more isn’t just more, more is different”, que apresenta as
oportunidades e implicações do Big Data
(Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008
na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012,
com a publicação do 1 ebook sobre ᵒ tecnologias de Big Data.
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
9. O que é Big Data?
“A verdadeira questão não é que você
está coletando grandes quantidades de
dados, mas sim o que você faz com eles.
As organizações terão que ser capazes
de aproveitar os dados relevantes e usá-los
para tomar as melhores decisões.”
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011
(IDC, 2011)
11. O 3Vs do Big Data
“Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e
variedade.”
Fonte: IBM
12. 12
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) O que Big Data tem de diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data ?
13. Por que Big Data é diferente ?
Aumento na quantidade de Dados
Fonte: EMC
14. Por que Big Data é diferente ?
Maior demanda por Computação Distribuída
Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf
15. Por que Big Data é diferente ?
Maior demanda por Computação Distribuída
Computação distribuída significa pegar uma
tarefa, dividi-la em pedaços menores e dar
cada pedaço a uma “máquina” diferente,
depois pegar cada resultado, uni-los (de
maneira coerente) e apresentá-lo.
Fonte: https://under-linux.org/entry.php?b=2603
Dificuldade
Processamento X Distribuição (Divisão)
Integridade e Disponibilidade em Cloud Computing
16. Limitações dos Bancos de Dados Relacionais
Fonte: IMD
Por que Big Data é diferente ?
17. O 3Vs do Big Data
“Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e
variedade.”
Fonte: IBM
Aumento na quantidade de Dados
Maior demanda por
Computação Distribuída
Limitações dos Bancos de Dados
Relacionais
18. + 3 V’s do Big Data
VVeerraacciiddaaddee
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/
VVaalloorr
VViiaabbiilliiddaaddee
19. Os dados são de 3 tipos
Estruturados
Semi-estruturados
Não estruturados
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
20. Estruturados
Dados que possuem esquema de campos fixos
Formato bem definido
Normalmente armazenado em BD Relacionais
Conhecimento prévio da estrutura dos dados
São gerados em uma ordem especificada
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
21. Semi-estruturados
Possuem um fluxo lógico
O formato pode ser bem definido, mas não
necessariamente é fixo
Não possui fácil compreensão por parte do usuário
leigo
Tem como característica marcante o uso de
etiquetas e marcadores para separar elementos dos
dados
Regras complexas para manipulação dos dados
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
22. Não estruturados
Sem tipo predefinido;
Não possuem estrutura uniforme (ex. Documentos,
objetos);
Pouco ou nenhum controle sobre eles;
Dificuldade de “manipulação” para extração de
informação
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
23. De onde vem os dados do Big Data?
Web e Redes Sociais (clicks, cookies, twitter, facebook)
Mobilidade
Internet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)
Biometria (Reconhecimento fácil, impressão digital, dados
genéticos)
Dados gerados por pessoas (Voz, email, SMS, etc)
Dados gerados por governos, institutos de pesquisas e
empresas
Fonte: Soares, 2012
Por que Big Data é diferente ?
24. 24
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
25. O que vai mudar com o Big Data? (Tecnologia)
IInntteeggrraaççããoo
26. O que vai mudar com o Big Data? (Negócios)
EEssttrraattééggiiaa
27. O que vai mudar com o Big Data? (Gestão)
OO qquuee mmuuddaa??
TTOOMMAADDAA DDEE
DDEECCIISSÃÃOO
28. O que vai mudar com o Big Data? (Gestão)
BBII
xx
BBIIGG DDAATTAA
29. O que vai mudar com o Big Data? (Gestão)
BBII ((TTrraaddiicciioonnaall))
Cubo OLAP (On-line Analytical Processing)
• Bases de dados e Datawarehouse
• Ferramentas OLAP
• Mineração de Dados
• Sistemas de apoio a decisão
• Relatórios
• Visualização
30. O que vai mudar com o Big Data? (Gestão)
BBII xx BBIIGG DDAATTAA
Dados transacionais + outros dados
Decisão baseada em dados de tempo real
Análise voltada a predição
Universo de dados ilimitado
Busca aprendizado a partir dos dados
Dados transacionais
Decisão baseada em dados passados
Análise Intuitiva
Universo de dados limitado
Busca Analisar dados
AA ddiiffeerreennççaa eessttáá nnooss 33VV’’ss
31. 31
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
32. Por que o Big Data está em evidência?
O que Cloud Computing tem a ver com Big Data?
Nova infraestrutura para computação sob demanda
Tornou o Big Data mais próximo da realidade
Big Data evolui em paralelo com a consolidação da computação em
Nuvem
SoLoMo e IoT convergem com Cloud Computing e Big Data
criando novas perspectivas para as empresas
33. Por que o Big Data está em evidência?
Fonte: NIST, 2011
34. Por que o Big Data está em evidência?
Fonte: CONTROL4.COM
35. 35
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data ?
5) Por que o termo Big Data está em evidência ?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
37. 37
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data?
5) Por que o termo Big Data está em evidência?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
40. BDs - Relacionais, NoSQL e in-memory
Fonte: Soares, 2013
BD Relacionais
Largamente utilizados atualmente pelas empresas
Utiliza relações (tabelas) como elementos básicos
Tabelas compostas por linhas e colunas
Faz uso de restrições para manutenção de integridade (chaves)
Utiliza NORMALIZAÇÃO
SQL é a linguagem de consulta
Os SGBDs relacionais implementam outras funções (controle de
concorrência, segurança, controle de transações, recuperação de
falhas etc)
41. BDs - Relacionais, NoSQL e in-memory
Fonte: Soares, 2013
BDs No SQL
De volta ao passado… (Sistemas de Arquivos)
Estrutura mais flexível
Melhor adaptado para questões de escalabilidade
Não veio para acabar com o Modelo Relacional
Abandonou a NORMALIZAÇÃO
São livres de esquemas de tabelas e sem JOINs
Iniciou em 2004 Big Table (Google), 2007 Dynamo (Amazon), 2008
Cassandra (Facebook)
Escalabilidade Linear, Acesso rápido, Manipulação de dados não
estruturados
46. O framework Hadoop
“The Apache Hadoop software library is a framework
that allows for the distributed processing of large
data sets across clusters of computers using a
simple Programming model
(Divide to Conquer)
Fonte: https://under-linux.org/entry.php?b=2603
50. • Baseado no conceito de Dividir para
Conquistar
• GRID COMPUTING
• Várias implementações existentes: Hadoop,
Disco, Skynet, FileMap e Greenplum;
Fonte: https://under-linux.org/entry.php?b=2603
O algoritmo MapReduce
51. O algoritmo MapReduce
Dividido em 3 passos
1. Seleciona os dados de entrada
2. Aplica as duas operações em sequência (MAP/REDUCE)
3. Recupera os dados de saída e obtém a resposta
54. O que é ???
Fonte: APACHE HADOOP
O framework Hadoop
55. Composto pelos módulos:
• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System (HDFS)
• Hadoop YARN
Fonte: Apache Hadoop
O framework Hadoop
56. Fonte: Apache Hadoop
O framework Hadoop
Composto pelos módulos:
•Hadoop Common: The common utilities that support the other Hadoop
modules.
• Hadoop Distributed File System (HDFS™): A distributed file system
that provides high-throughput access to application data.
• Hadoop YARN: A framework for job scheduling and cluster resource
management.
• Hadoop MapReduce: A YARN-based system for parallel processing of
large data sets.
57. 57
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data?
5) Por que o termo Big Data está em evidência?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
59. Ferramenta Match Analytics
Coleta e Análise de informações de treino e jogos
Analisa desde esquema tático até informação de precisão de chutes
Avalia situações de jogo e predizem o melhor treinamento para cada
jogador
Possui interface que facilita o uso inclusive pelos jogadores
Roda sob a plataforma HANA da SAP
De quebra, faz análise de redes sociais analisando sentimento de
torcedores com relação ao desempenho da equipe e dos atletas
Fonte: INFO, 2014
Cases
60. ROLLS ROYCE
Inclusão de sensores nos motores
Informação em tempo real de peças
Vantagem competitiva: Substituição de produto por SERVIÇO
SMART METERS - IBM
Medições de consumo de energia
Sensores enviam dados em tempo real
Hábitos de consumo e mudança de estratégias com premiação
Criação das chamadas Smart Grids
Fonte: JOYANES, 2013
Cases
66. 66
Agenda
1) Por que pensar em Big Data ?
2) De onde vem e o que é o Big Data ?
3) Por que o Big Data é diferente ?
4) O que vai mudar com o Big Data?
5) Por que o termo Big Data está em evidência?
6) Quais os maiores desafios do Big Data ?
7) Como funciona o Big Data na prática ?
8) Quem já usa o Big Data e em quê ?
67. 67
Obrigado !!!
Marcos Luiz Lins
Filho
www.f acebook.com/ mar cosluiz.linsf i
lho
@marcoslinsfilho
mar coslins@gmail.com