Big Data na Globo.com - Dev Version - 2016

•

9 likes•3,563 views

Curta apresentação sobre a arquitetura de big data na globo.com. Essa apresentação visa mostrar como Big Data auxiliou recomendação e analytics na empresa, bem como conseguimos construir uma plataforma (pipeline) para distribuir os dados pela empresa. Essa apresentação será feita no TDC - Florianópolis.

Data & Analytics

Big Data na globo.com
Como estamos revolucionando com dados o
maior portal do Brasil
@renan_oliveira
dev version
www.renanoliveira.net

Eventos
• 3 bilhões de eventos diários
• 50 milhões de usuários únicos por mês
• +100 mil novos conteúdos por mês

O que fazemos?
RECOMENDAÇÃO ANALYTICS PIPELINE

• Lambda: Streaming + Batch
• APIs com tempo de resposta em ms
• Ferramentas de analise de dados
• MapReduce está morto :)
• Cuidado com HIVE Metastore :)
Arquitetura

Consumo do Kafka
• Usamos Spark Streaming
• Quase em tempo real
• Usamos para escrever os Parquets
• Algoritmos de atualização constante

Batch
• Usamos Spark + MLlib
• Lemos de vários parquets (pv, track..)
• Maioria dos algoritmos
• Salvamos em outros bancos para
facilitar o consumo nas APIs

$object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } val df_imp = sqlContext.read.parquet("/ namenode/impressions/2016042510")$

$object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } expCount.write.save("/namenode/ exp_count/x.parquet")$

• 100 mil recomendações por minuto
• 15 ms de tempo de resposta (p50)
• +200 testes A/B nos últimos 2 anos
• +20 algoritmos diferentes
Números

Algoritmos
• Collaborative Filtering
• Content-Based
• Matrix Factorization - ALS

*Dados extraídos em maio de 2016
+30%+52%

*Dados extraídos em maio de 2016
+105% +40%

13.2%
feed
editorial
Maior diversidade
feed
recomendado
100%
*matérias que foram para o feed

What's hot

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...tdc-globalcode

TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comtdc-globalcode

Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura

Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode

Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura

Google BigQueryFrancke Peixoto

What's hot (7)

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...

TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...

Stream de dados e Data Lake com Debezium, Delta Lake e EMR

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...

Big Data na prática: como construir um Data Lake para análise de dados

Google BigQuery

Similar to Big Data na Globo.com - Dev Version - 2016

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH

AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias

Arquitetura Serverless para Machine LearningFelipe Santos

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services

Introdução ao KafkaDavi Alves

TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode

Arquiteturas de Software para o Século XXIAmazon Web Services LATAM

Apache Flink a Quarta Geração do Big DataAmbiente Livre

TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data tdc-globalcode

Seus logs nas costas largas da AWSMarcelo Palladino

Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM

Big data para programadores convencionaisRoberto Oliveira

TDC - Processamento de dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias

Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM

Pegue tweets com Python e Spark StreamingRicardo de Avila Amaral

Big data e globo.com - Uma visão sobre a cultura de dadosRenan Moreira de Oliveira

Bancos de dados NoSQL na AWSAmazon Web Services LATAM

Bigadata casese opotunidadesAlessandro Binhara

Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...fabio perrella

Escalando uma plataforma de e-mail transacional- aprendizado das trincheirasCelso Crivelaro

Similar to Big Data na Globo.com - Dev Version - 2016 (20)

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...

AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda

Arquitetura Serverless para Machine Learning

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit

Introdução ao Kafka

TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...

Arquiteturas de Software para o Século XXI

Apache Flink a Quarta Geração do Big Data

TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data

Seus logs nas costas largas da AWS

Utilizando NoSQL para Big Data com DynamoDB

Big data para programadores convencionais

TDC - Processamento de dados em alta escala com Node.js e AWS Lambda

Construindo um Data Warehouse moderno com Amazon Redshift

Pegue tweets com Python e Spark Streaming

Big data e globo.com - Uma visão sobre a cultura de dados

Bancos de dados NoSQL na AWS

Bigadata casese opotunidades

Qconsp 2016 escalando uma plataforma de e-mail transacional- aprendizado da...

Escalando uma plataforma de e-mail transacional- aprendizado das trincheiras

More from Renan Moreira de Oliveira

PicPay - GenAI Finance Assistant - ChatGPT for Customer ServiceRenan Moreira de Oliveira

AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira

AI na jornada do usuário de ecommerceRenan Moreira de Oliveira

RecSys 2020 - iFood recommendationRenan Moreira de Oliveira

Data science FrameworkRenan Moreira de Oliveira

iFood RecommendationsRenan Moreira de Oliveira

Sistemas de RecomendaçãoRenan Moreira de Oliveira

What is AB, MVT and MAB?Renan Moreira de Oliveira

Dados importam, seja data-driven!Renan Moreira de Oliveira

Machine Learning na globo-comRenan Moreira de Oliveira

Dev para Engenheiro de Dados (From Dev to Data Engineer)Renan Moreira de Oliveira

Big data e a globo.com - 2017Renan Moreira de Oliveira

Transição do desenvolvimento web para apps - o caminho suaveRenan Moreira de Oliveira

Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Renan Moreira de Oliveira

Introdução a web semântica e o case da globo.comRenan Moreira de Oliveira

More from Renan Moreira de Oliveira (15)

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service

AI & Big Data - Personalização da Jornada - PicPay - TDC

AI na jornada do usuário de ecommerce

RecSys 2020 - iFood recommendation

Data science Framework

iFood Recommendations

Sistemas de Recomendação

What is AB, MVT and MAB?

Dados importam, seja data-driven!

Machine Learning na globo-com

Dev para Engenheiro de Dados (From Dev to Data Engineer)

Big data e a globo.com - 2017

Transição do desenvolvimento web para apps - o caminho suave

Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014

Introdução a web semântica e o case da globo.com

Big Data na Globo.com - Dev Version - 2016

1. Big Data na globo.com Como estamos revolucionando com dados o maior portal do Brasil @renan_oliveira dev version www.renanoliveira.net

2. Eventos • 3 bilhões de eventos diários • 50 milhões de usuários únicos por mês • +100 mil novos conteúdos por mês

3. O que fazemos? RECOMENDAÇÃO ANALYTICS PIPELINE

5. • Lambda: Streaming + Batch • APIs com tempo de resposta em ms • Ferramentas de analise de dados • MapReduce está morto :) • Cuidado com HIVE Metastore :) Arquitetura

7. Consumo do Kafka • Usamos Spark Streaming • Quase em tempo real • Usamos para escrever os Parquets • Algoritmos de atualização constante

8. Batch • Usamos Spark + MLlib • Lemos de vários parquets (pv, track..) • Maioria dos algoritmos • Salvamos em outros bancos para facilitar o consumo nas APIs

9. ANÁLISE AD-HOC

10. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) }

11. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } val df_imp = sqlContext.read.parquet("/ namenode/impressions/2016042510")

12. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } val df_imp = sqlContext.read.parquet("/ namenode/impressions/2016042510") val expCount = df_imp.groupBy(df_imp.experiment).count( ).orderBy(desc("count")).head(10)

13. object SparkExample extends App { val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ val df_imp = sqlContext.read.parquet(“…”) val expCount = df_imp.groupBy(df_imp.exp).count() expCount.write.save(“…”) } expCount.write.save("/namenode/ exp_count/x.parquet")

14. WORKFLOW

15.

16.

17. Globo AB

18.

19. • 100 mil recomendações por minuto • 15 ms de tempo de resposta (p50) • +200 testes A/B nos últimos 2 anos • +20 algoritmos diferentes Números

20. Algoritmos • Collaborative Filtering • Content-Based • Matrix Factorization - ALS

21. *Dados extraídos em maio de 2016 +30%+52%

22. *Dados extraídos em maio de 2016 +105% +40%

23. 13.2% feed editorial Maior diversidade feed recomendado 100% *matérias que foram para o feed

24.

25. Obrigado renanoliveira.net

26. grandesdados.com

27. talentos.globo.com

Editor's Notes

Testamos o HIVE e o PIG e não usamos mais
Começamos contando que vamos capturar tudo, dado tem valor. Com isso em real time temos os dados para serem consumidos pelos jobs
JUPYTER - Criar vídeo do Jupyter
Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
Como processamos os dados com spark - ETL Lemos os dados do parquet Fazemos as operações Salvamos em um novo parquet
AIRFLOW
Os tetes a/b foram importantes para segmentarmos as entregas e validarmos as ideias Atualmente já fizemos mais de 300 testes a/b
15 mil req/s 10 ms de tempo de resposta (p50)
Temos mais de 30 algoritmos diferentes rodando em produção

Big Data na Globo.com - Dev Version - 2016

Recommended

Recommended

More Related Content

What's hot

What's hot (7)

Similar to Big Data na Globo.com - Dev Version - 2016

Similar to Big Data na Globo.com - Dev Version - 2016 (20)

More from Renan Moreira de Oliveira

More from Renan Moreira de Oliveira (15)

Big Data na Globo.com - Dev Version - 2016

Editor's Notes