8. 13140-580
40199
Defesa civil informa:
Chuvas fortes e raios na
região, Campinas e
Paulínia. Evite lugares
abertos busque abrigo.
Não arrisque sua vida.
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.
10. O que veremos hoje?
Caso do sistema de tarifação
Introdução sobre o sistema distribuído para tarifação de usuários
dos nossos produtos
Análise de dados
Analisando os dados de tentativas de tarifação com as operadoras,
consolidando
Solução usando aprendizado de máquina
Criando uma analisador de dados automático usando técnicas de
aprendizado de máquina e treinamento do modelo com Apache Spark
Resultados do projeto
16. Desafio: Monitoramento
Como verificar se a plataforma está
integralmente funcional baseado
somente em análise de dados?
Que tal pedir ajuda a um sistema inteligente?
16
17. Análise de dados por volumetria
● + 150 Milhões de tentativas de tarifação por dia
● 4 operadoras principais no Brasil que geram os dados
17
18. Entendendo o problema
18
Amostra dos dados (previsão do número de sucessos)
featureslabel/target
# success carrier_weight hour week response_time #no_credit #errors # attempts
61.083, [4.0, 17h, 3.0, 1259.0, 24.751.650, 2.193.67, 26.314.551]
APRENDIZADO SUPERVISIONADO
Regressão Linear
20. Feature Engineering
É o processo de usar o domínio do conhecimento
dos dados para criar novos atributos para que os
algoritmos de aprendizado de máquina possam
funcionar com melhor desempenho.
20
25. Avaliando resultado dos Modelos
25
Machine Learning Tested Model Accuracy RMSE
Lasso with SGD Model 35% 0.32
Ridge Regression with SGD Model 87.5% 0.13
Elastic Net with SGD Model 35% 0.32
Decision Tree Model 93.4% 0.05
33. ● Tentar prever e controlar os dados de séries temporais
usando simples limiares não funcionaram bem no
passado devido a fatores externos
● Nós evitamos (removemos) análises e controles
baseados em limiares fixos baseados em desvios
padrão, por exemplo
Questão com Séries Temporais
33
34. Porque mudamos de RDD para Dataframe?
34
RDD
(2011)
DataFrame
(2013)
coleção distribuída
de objetos na JVM
operadores
funcionais (map,
filter, etc)
coleção de objetos Row
distribuídos
Planos de execução e
otimização
Representação de dados
internos de forma
eficiente
35. Mudança de desempenho de RDD para Dataframe
● É possível implementar mais facilmente técnicas de grid-search
● Código menor, mais legível, mais simples de fazer debug, aumento de
desempenho considerável
35
36. Sobre os modelos treinados
36
● criar um modelo único não
funcionou
● cada operadora tem um
comportamento específico
● foi preciso criar um modelo
diferente para cada operadora
37. Padrões de sucesso na tarifação distintos por operadora
37
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5
42. 42
Evitamos perda de receita
> U$ 2M dólares
economia de mais de
500 horas de trabalho
Tempo de detecção de
problemas caiu de 6 horas
para 1 hora
43. ● Prevenção de queda de receita
● Um dos sistemas principais de monitoramento
● Caso de uso de sucesso de Machine Learning
● Solução simples usando o Apache Spark
Resultados Obtidos
43