O documento discute recomendação de conteúdo no site globo.com. Apresenta Felipe Ferreira, especialista em recomendação e big data na empresa, e descreve os principais algoritmos de recomendação (filtragem colaborativa, baseado em conteúdo e tops), métricas, tecnologias e resultados obtidos, como aumentos de 25-30% na conversão.
2. Felipe Ferreira
• Mestre em Ciência da Computação - UFAM
• + 14 anos de experiência em desenv. software
• Certificações Hortonworks e Cloudera
• Apaixonado por Bigdata
• Apaixonado por Machine Learning
• Trabalha no time de Recomendação na globo.com
4. EVENTOS
➤ 3 Bilhões de eventos diários
➤ 2 milhões de conexões simultâneas
➤ 50 milhões de usuários únicos por mês
➤ 100 mil novos conteúdos por mês
8. COLLABORATIVE FILTERING CONTENT BASED TOP
surf
medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
fluminense henrique
brasileirão
10. COLLABORATIVE FILTERING
➤ O que usuários parecidos comigo viram que eu não vi
➤ É o de maior taxa de conversão, o mais assertivo
➤ Ele tem uma atualização lenta, não é bom para notícias
bombásticas de agora e preciso conhecer o usuário
➤ Famoso pelo uso na Amazon
➤ Usado em e-commerces de todo mundo
➤ Netflix ficou famoso por fazer um ganho de performance com
o algoritmo ALS - Fatoração de matriz
➤ ALS tem um ótimo resultado dentro da globo.com
11. CONTENT BASED
➤ Coisas parecidas com essas, com as mesmas palavras-chave
➤ Ele tem uma rápida atualização
➤ Preciso conhecer do usuário ou do item
➤ Usado no Spotify para criação de playlists automáticas
➤ Duas abordagens são usadas na globo.com TF-IDF e
Semântica
➤ TF-IDF: Automático para extração de palavras-chave
➤ Semântica: Os editores indicam no momento da criação
sobre quem é e onde ocorreu o fato
12. TOPS
➤ Conteúdos mais visitados
➤ Usado quando não sabemos nada sobre o usuário
➤ Resolve o problema das notícias "bombásticas"
➤ Podem ser inteligentes, top por região do usuário
13. NA PRÁTICA, O QUE FAZEMOS…
➤ Combinamos os algoritmos
➤ Atribuímos pesos distintos
14. NA PRÁTICA, O QUE FAZEMOS…
➤ Medimos a qualidade:
➤ Conversão (métrica principal)
➤ Cobertura, Diversidade, Freshness (Métricas auxiliares)
➤ Teste A/B para avaliar o desempenho das combinações
19. NÚMEROS
➤ 100 mil recomendações por
minuto
➤ 15 ms de tempo de resposta
(p50)
➤ +500 testes A/B
➤ +20 algoritmos diferentes
➤ Presente em todos os
produtos da globo.com (G1,
GloboEsportes, GShow,
TechTudo, GloboPlay)
➤ Time de Growth focados na
melhoria em cada produto
22. PROCESSAMENTO RÁPIDO
➤ Consumimos do Kafka
➤ Usamos Spark Streaming
➤ Jobs executam 24x7
➤ Usamos Scala ou Java
➤ Algoritmos de decisão em
tempo real ( Família TOP)
➤ Atualização dos modelos
➤ Sumarização usando o
conceito de janela
23. PROCESSAMENTO LENTO
➤ Consumo de muitas fontes de
dados
➤ Usamos Spark + MLib
➤ Usamos Scala, Python ou R
➤ Usamos o Airflow para
disparar o Job por
agendamento
➤ Bom pra ler os Parquets,
muitos dados demoram para
serem processados
➤ A maioria dos algoritmos
usam essa estratégia
24. API - SERVING LAYER
➤ Escrevemos principalmente
em Java e Scala
➤ Retornamos JSON
➤ Usamos Netty e Finagle
➤ +100 mil requisições por
minuto
➤ Tempo de resposta inferior a
20ms
➤ Usamos bancos de chave/valor
- HBase e Redis