SlideShare a Scribd company logo
1 of 25
Download to read offline
RECOMENDAÇÃO NA GLOBO.COM
Felipe Ferreira
Felipe Ferreira
• Mestre em Ciência da Computação - UFAM
• + 14 anos de experiência em desenv. software
• Certificações Hortonworks e Cloudera
• Apaixonado por Bigdata
• Apaixonado por Machine Learning
• Trabalha no time de Recomendação na globo.com
Como aprendemos os
interesses dos usuários dado
a sua navegação.
desde 2012
EVENTOS
➤ 3 Bilhões de eventos diários
➤ 2 milhões de conexões simultâneas
➤ 50 milhões de usuários únicos por mês
➤ 100 mil novos conteúdos por mês
COLLABORATIVE
FILTERING
CONTENT
BASED
TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
surf
medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
fluminense henrique
brasileirão
COLLABORATIVE
FILTERING
CONTENT
BASED
TOP
COLLABORATIVE FILTERING
➤ O que usuários parecidos comigo viram que eu não vi
➤ É o de maior taxa de conversão, o mais assertivo
➤ Ele tem uma atualização lenta, não é bom para notícias
bombásticas de agora e preciso conhecer o usuário
➤ Famoso pelo uso na Amazon
➤ Usado em e-commerces de todo mundo
➤ Netflix ficou famoso por fazer um ganho de performance com
o algoritmo ALS - Fatoração de matriz
➤ ALS tem um ótimo resultado dentro da globo.com
CONTENT BASED
➤ Coisas parecidas com essas, com as mesmas palavras-chave
➤ Ele tem uma rápida atualização
➤ Preciso conhecer do usuário ou do item
➤ Usado no Spotify para criação de playlists automáticas
➤ Duas abordagens são usadas na globo.com TF-IDF e
Semântica
➤ TF-IDF: Automático para extração de palavras-chave
➤ Semântica: Os editores indicam no momento da criação
sobre quem é e onde ocorreu o fato
TOPS
➤ Conteúdos mais visitados
➤ Usado quando não sabemos nada sobre o usuário
➤ Resolve o problema das notícias "bombásticas"
➤ Podem ser inteligentes, top por região do usuário
NA PRÁTICA, O QUE FAZEMOS…
➤ Combinamos os algoritmos
➤ Atribuímos pesos distintos
NA PRÁTICA, O QUE FAZEMOS…
➤ Medimos a qualidade:
➤ Conversão (métrica principal)
➤ Cobertura, Diversidade, Freshness (Métricas auxiliares)
➤ Teste A/B para avaliar o desempenho das combinações
RESULTADOS - GLOBO PLAY
+X%
RESULTADOS - GLOBOESPORTE
+X%
RESULTADOS - G1
+25%+X%
RESULTADOS - GSHOW
+25%+X%
NÚMEROS
➤ 100 mil recomendações por
minuto
➤ 15 ms de tempo de resposta
(p50)
➤ +500 testes A/B
➤ +20 algoritmos diferentes
➤ Presente em todos os
produtos da globo.com (G1,
GloboEsportes, GShow,
TechTudo, GloboPlay)
➤ Time de Growth focados na
melhoria em cada produto
TECNOLOGIAS
Recomendacao globo.com
PROCESSAMENTO RÁPIDO
➤ Consumimos do Kafka
➤ Usamos Spark Streaming
➤ Jobs executam 24x7
➤ Usamos Scala ou Java
➤ Algoritmos de decisão em
tempo real ( Família TOP)
➤ Atualização dos modelos
➤ Sumarização usando o
conceito de janela
PROCESSAMENTO LENTO
➤ Consumo de muitas fontes de
dados
➤ Usamos Spark + MLib
➤ Usamos Scala, Python ou R
➤ Usamos o Airflow para
disparar o Job por
agendamento
➤ Bom pra ler os Parquets,
muitos dados demoram para
serem processados
➤ A maioria dos algoritmos
usam essa estratégia
API - SERVING LAYER
➤ Escrevemos principalmente
em Java e Scala
➤ Retornamos JSON
➤ Usamos Netty e Finagle
➤ +100 mil requisições por
minuto
➤ Tempo de resposta inferior a
20ms
➤ Usamos bancos de chave/valor
- HBase e Redis
Obrigado !
Email: felipe.felipeam@gmail.com
Linkedin: http://bit.ly/felipe-ferreira-linkedin

More Related Content

Similar to Recomendacao globo.com

Zabbix meetup RJ: Infra, tuning e documentação
Zabbix meetup RJ: Infra, tuning e documentaçãoZabbix meetup RJ: Infra, tuning e documentação
Zabbix meetup RJ: Infra, tuning e documentaçãoFilipe Paternot
 
Desafios na globo.com (reloaded)
Desafios na globo.com (reloaded)Desafios na globo.com (reloaded)
Desafios na globo.com (reloaded)Klaus Peter Laube
 
[GetNinjas] Business Intelligence Workshop @ Google Campus SP
[GetNinjas] Business Intelligence Workshop @ Google Campus SP[GetNinjas] Business Intelligence Workshop @ Google Campus SP
[GetNinjas] Business Intelligence Workshop @ Google Campus SPBernardo Srulzon
 
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfScrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfPedroLuis216164
 
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfScrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfPedroLuis216164
 
Gestão de produtos: como aumentar as chances de sucesso do seu software
Gestão de produtos: como aumentar as chances de sucesso do seu softwareGestão de produtos: como aumentar as chances de sucesso do seu software
Gestão de produtos: como aumentar as chances de sucesso do seu softwareJoaquim Torres
 
Tópicos avançados em gestão de produtos
Tópicos avançados em gestão de produtosTópicos avançados em gestão de produtos
Tópicos avançados em gestão de produtosJoaquim Torres
 
Desenvolvimento ágil do jeito certo
Desenvolvimento ágil do jeito certoDesenvolvimento ágil do jeito certo
Desenvolvimento ágil do jeito certoMarcos Petry
 
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...tdc-globalcode
 
[Product Camp 2021] Escalando a gestão de produtos internos
[Product Camp 2021] Escalando a gestão de produtos internos[Product Camp 2021] Escalando a gestão de produtos internos
[Product Camp 2021] Escalando a gestão de produtos internosProduct Camp Brasil
 
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...E-Commerce Brasil
 
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...Norma David
 
Liderança no Trabalho Remoto v2
Liderança no Trabalho Remoto v2Liderança no Trabalho Remoto v2
Liderança no Trabalho Remoto v2Troposlab
 
Curso Google AdWords - Tomás Duarte
Curso Google AdWords - Tomás DuarteCurso Google AdWords - Tomás Duarte
Curso Google AdWords - Tomás DuarteTomás Duarte
 
Agilidade é para desenvolvedores? Semana da Agilidade
Agilidade é para desenvolvedores? Semana da AgilidadeAgilidade é para desenvolvedores? Semana da Agilidade
Agilidade é para desenvolvedores? Semana da AgilidadeWagner Mendes Voltz Fusca
 
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aula
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aulaCurso Acerj Módulo Jornalismo Esportivo Digital - quarta aula
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aulaDC Press
 
E-commerce coach: um guia para você vender na web
E-commerce coach: um guia para você vender na webE-commerce coach: um guia para você vender na web
E-commerce coach: um guia para você vender na webMaratona Digital
 
The role of product manager
The role of product managerThe role of product manager
The role of product managerLucas F Navarro
 
[BPMDAYSP 2017] Design Sprint
[BPMDAYSP 2017] Design Sprint[BPMDAYSP 2017] Design Sprint
[BPMDAYSP 2017] Design SprintLecom Tecnologia
 
Blogs e Marketing de Guerrilha Digital
Blogs e Marketing de Guerrilha DigitalBlogs e Marketing de Guerrilha Digital
Blogs e Marketing de Guerrilha DigitalReinaldo Cirilo
 

Similar to Recomendacao globo.com (20)

Zabbix meetup RJ: Infra, tuning e documentação
Zabbix meetup RJ: Infra, tuning e documentaçãoZabbix meetup RJ: Infra, tuning e documentação
Zabbix meetup RJ: Infra, tuning e documentação
 
Desafios na globo.com (reloaded)
Desafios na globo.com (reloaded)Desafios na globo.com (reloaded)
Desafios na globo.com (reloaded)
 
[GetNinjas] Business Intelligence Workshop @ Google Campus SP
[GetNinjas] Business Intelligence Workshop @ Google Campus SP[GetNinjas] Business Intelligence Workshop @ Google Campus SP
[GetNinjas] Business Intelligence Workshop @ Google Campus SP
 
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfScrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
 
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdfScrum-Projetos-EngenhariaSoftware - 2018.pdf
Scrum-Projetos-EngenhariaSoftware - 2018.pdf
 
Gestão de produtos: como aumentar as chances de sucesso do seu software
Gestão de produtos: como aumentar as chances de sucesso do seu softwareGestão de produtos: como aumentar as chances de sucesso do seu software
Gestão de produtos: como aumentar as chances de sucesso do seu software
 
Tópicos avançados em gestão de produtos
Tópicos avançados em gestão de produtosTópicos avançados em gestão de produtos
Tópicos avançados em gestão de produtos
 
Desenvolvimento ágil do jeito certo
Desenvolvimento ágil do jeito certoDesenvolvimento ágil do jeito certo
Desenvolvimento ágil do jeito certo
 
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...
TDC2018FLN | Trilha Gestao de Produtos - Gestao de produtos: como aumentar as...
 
[Product Camp 2021] Escalando a gestão de produtos internos
[Product Camp 2021] Escalando a gestão de produtos internos[Product Camp 2021] Escalando a gestão de produtos internos
[Product Camp 2021] Escalando a gestão de produtos internos
 
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...
[Conferência SANTA CATARINA 2020] + de 50 dicas para acelerar sua estratégia ...
 
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...
Slides Palestra Norma David - Marketing de Permissão e Micros Momentos - Sua ...
 
Liderança no Trabalho Remoto v2
Liderança no Trabalho Remoto v2Liderança no Trabalho Remoto v2
Liderança no Trabalho Remoto v2
 
Curso Google AdWords - Tomás Duarte
Curso Google AdWords - Tomás DuarteCurso Google AdWords - Tomás Duarte
Curso Google AdWords - Tomás Duarte
 
Agilidade é para desenvolvedores? Semana da Agilidade
Agilidade é para desenvolvedores? Semana da AgilidadeAgilidade é para desenvolvedores? Semana da Agilidade
Agilidade é para desenvolvedores? Semana da Agilidade
 
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aula
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aulaCurso Acerj Módulo Jornalismo Esportivo Digital - quarta aula
Curso Acerj Módulo Jornalismo Esportivo Digital - quarta aula
 
E-commerce coach: um guia para você vender na web
E-commerce coach: um guia para você vender na webE-commerce coach: um guia para você vender na web
E-commerce coach: um guia para você vender na web
 
The role of product manager
The role of product managerThe role of product manager
The role of product manager
 
[BPMDAYSP 2017] Design Sprint
[BPMDAYSP 2017] Design Sprint[BPMDAYSP 2017] Design Sprint
[BPMDAYSP 2017] Design Sprint
 
Blogs e Marketing de Guerrilha Digital
Blogs e Marketing de Guerrilha DigitalBlogs e Marketing de Guerrilha Digital
Blogs e Marketing de Guerrilha Digital
 

Recomendacao globo.com

  • 2. Felipe Ferreira • Mestre em Ciência da Computação - UFAM • + 14 anos de experiência em desenv. software • Certificações Hortonworks e Cloudera • Apaixonado por Bigdata • Apaixonado por Machine Learning • Trabalha no time de Recomendação na globo.com
  • 3. Como aprendemos os interesses dos usuários dado a sua navegação. desde 2012
  • 4. EVENTOS ➤ 3 Bilhões de eventos diários ➤ 2 milhões de conexões simultâneas ➤ 50 milhões de usuários únicos por mês ➤ 100 mil novos conteúdos por mês
  • 8. COLLABORATIVE FILTERING CONTENT BASED TOP surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero flamengo STJD copa do brasil fluminense henrique brasileirão
  • 10. COLLABORATIVE FILTERING ➤ O que usuários parecidos comigo viram que eu não vi ➤ É o de maior taxa de conversão, o mais assertivo ➤ Ele tem uma atualização lenta, não é bom para notícias bombásticas de agora e preciso conhecer o usuário ➤ Famoso pelo uso na Amazon ➤ Usado em e-commerces de todo mundo ➤ Netflix ficou famoso por fazer um ganho de performance com o algoritmo ALS - Fatoração de matriz ➤ ALS tem um ótimo resultado dentro da globo.com
  • 11. CONTENT BASED ➤ Coisas parecidas com essas, com as mesmas palavras-chave ➤ Ele tem uma rápida atualização ➤ Preciso conhecer do usuário ou do item ➤ Usado no Spotify para criação de playlists automáticas ➤ Duas abordagens são usadas na globo.com TF-IDF e Semântica ➤ TF-IDF: Automático para extração de palavras-chave ➤ Semântica: Os editores indicam no momento da criação sobre quem é e onde ocorreu o fato
  • 12. TOPS ➤ Conteúdos mais visitados ➤ Usado quando não sabemos nada sobre o usuário ➤ Resolve o problema das notícias "bombásticas" ➤ Podem ser inteligentes, top por região do usuário
  • 13. NA PRÁTICA, O QUE FAZEMOS… ➤ Combinamos os algoritmos ➤ Atribuímos pesos distintos
  • 14. NA PRÁTICA, O QUE FAZEMOS… ➤ Medimos a qualidade: ➤ Conversão (métrica principal) ➤ Cobertura, Diversidade, Freshness (Métricas auxiliares) ➤ Teste A/B para avaliar o desempenho das combinações
  • 15. RESULTADOS - GLOBO PLAY +X%
  • 19. NÚMEROS ➤ 100 mil recomendações por minuto ➤ 15 ms de tempo de resposta (p50) ➤ +500 testes A/B ➤ +20 algoritmos diferentes ➤ Presente em todos os produtos da globo.com (G1, GloboEsportes, GShow, TechTudo, GloboPlay) ➤ Time de Growth focados na melhoria em cada produto
  • 22. PROCESSAMENTO RÁPIDO ➤ Consumimos do Kafka ➤ Usamos Spark Streaming ➤ Jobs executam 24x7 ➤ Usamos Scala ou Java ➤ Algoritmos de decisão em tempo real ( Família TOP) ➤ Atualização dos modelos ➤ Sumarização usando o conceito de janela
  • 23. PROCESSAMENTO LENTO ➤ Consumo de muitas fontes de dados ➤ Usamos Spark + MLib ➤ Usamos Scala, Python ou R ➤ Usamos o Airflow para disparar o Job por agendamento ➤ Bom pra ler os Parquets, muitos dados demoram para serem processados ➤ A maioria dos algoritmos usam essa estratégia
  • 24. API - SERVING LAYER ➤ Escrevemos principalmente em Java e Scala ➤ Retornamos JSON ➤ Usamos Netty e Finagle ➤ +100 mil requisições por minuto ➤ Tempo de resposta inferior a 20ms ➤ Usamos bancos de chave/valor - HBase e Redis
  • 25. Obrigado ! Email: felipe.felipeam@gmail.com Linkedin: http://bit.ly/felipe-ferreira-linkedin