Eiti Kimura - Analisador de dados automatizado utilizando machine learning

ANALISADOR DE DADOS
AUTOMATIZADO UTILIZANDO
MACHINE LEARNING
Eiti Kimura
DevFest Agosto 19
com Apache Spark
1

● IT Coordinator and Software Architect at Movile
● Msc. in Electrical Engineering
● Apache Cassandra MVP (2014/2015 e 2015/2016)
● Cassandra Summit Speaker (2014 e 2015)
● Strata Hadoop World Singapore Speaker (2016)
● Spark Summit Speaker (2017)
● RedisConf Speaker (2018)
Eiti Kimura
eitikimura
2

+1 Bilhão
De mensagens por mês
4

13140-580
40199
Alerta SMS Defesa Civil
Gratuito!

13140-580
40199
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.

13140-580
40199
Defesa civil informa:
Chuvas fortes e raios na
região, Campinas e
Paulínia. Evite lugares
abertos busque abrigo.
Não arrisque sua vida.
Cadastro realizado com
sucesso. Você receberá
alertas de chuvas e
tempestades.

BALANCE
INFORMATION
Account: X3254
Balance: $1,564.20
100852
A deposit of $95.00
was made to your
account on April
23th at 7:59pm.
Your balance is:
$1,659.20. Text
STOP to cancel or
HELP for more
information.

O que veremos hoje?
Caso do sistema de tarifação
Introdução sobre o sistema distribuído para tarifação de usuários
dos nossos produtos
Análise de dados
Analisando os dados de tentativas de tarifação com as operadoras,
consolidando
Solução usando aprendizado de máquina
Criando uma analisador de dados automático usando técnicas de
aprendizado de máquina e treinamento do modelo com Apache Spark
Resultados do projeto

Sistema de Tarifação e Controle de Assinaturas
SBS
11

Arquitetura simplificada plataforma de tarifação
15

Desafio: Monitoramento
Como verificar se a plataforma está
integralmente funcional baseado
somente em análise de dados?
Que tal pedir ajuda a um sistema inteligente?
16

Análise de dados por volumetria
● + 150 Milhões de tentativas de tarifação por dia
● 4 operadoras principais no Brasil que geram os dados
17

Entendendo o problema
18
Amostra dos dados (previsão do número de sucessos)
featureslabel/target
# success carrier_weight hour week response_time #no_credit #errors # attempts
61.083, [4.0, 17h, 3.0, 1259.0, 24.751.650, 2.193.67, 26.314.551]
APRENDIZADO SUPERVISIONADO
Regressão Linear

Padrões de tentativas de tarifação
19

Feature Engineering
É o processo de usar o domínio do conhecimento
dos dados para criar novos atributos para que os
algoritmos de aprendizado de máquina possam
funcionar com melhor desempenho.
20

Diferença de Padrões por semana
21

Apache Spark é um motor de análise
uniﬁcado para processamento de dados distribuídos em
larga escala.
22

Fluxo de Treinamento do Modelo
23
Training Data
Testing Data
Feature
Extraction
Train
Score
Model
Evaluation
Dataset

24
http://spark-notebook.io/
SPARK NOTEBOOK
DEMO

Avaliando resultado dos Modelos
25
Machine Learning Tested Model Accuracy RMSE
Lasso with SGD Model 35% 0.32
Ridge Regression with SGD Model 87.5% 0.13
Elastic Net with SGD Model 35% 0.32
Decision Tree Model 93.4% 0.05

Watcher-ai
26
Olá, eu sou Watcher-ai muito
prazer!

27
Watcher-ai Treinamento dos Modelos

28
Watcher-ai utilização dos modelos

29
Watcher-ai fazendo as previsões

30
Watcher-ai canais de notificação

● Tentar prever e controlar os dados de séries temporais
usando simples limiares não funcionaram bem no
passado devido a fatores externos
● Nós evitamos (removemos) análises e controles
baseados em limiares fixos baseados em desvios
padrão, por exemplo
Questão com Séries Temporais
33

Porque mudamos de RDD para Dataframe?
34
RDD
(2011)
DataFrame
(2013)
coleção distribuída
de objetos na JVM
operadores
funcionais (map,
ﬁlter, etc)
coleção de objetos Row
distribuídos
Planos de execução e
otimização
Representação de dados
internos de forma
eﬁciente

Mudança de desempenho de RDD para Dataframe
● É possível implementar mais facilmente técnicas de grid-search
● Código menor, mais legível, mais simples de fazer debug, aumento de
desempenho considerável
35

Sobre os modelos treinados
36
● criar um modelo único não
funcionou
● cada operadora tem um
comportamento específico
● foi preciso criar um modelo
diferente para cada operadora

Padrões de sucesso na tarifação distintos por operadora
37
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5

Registro de Alertas Enviados
39
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5

40
CARRIER 1
CARRIER 2
CARRIER 4
CARRIER 5

42
Evitamos perda de receita
> U$ 2M dólares
economia de mais de
500 horas de trabalho
Tempo de detecção de
problemas caiu de 6 horas
para 1 hora

● Prevenção de queda de receita
● Um dos sistemas principais de monitoramento
● Caso de uso de sucesso de Machine Learning
● Solução simples usando o Apache Spark
Resultados Obtidos
43

Obrigado
Perguntas?
github.com/eitikimura/qconsp-18
eitikimura

Eiti Kimura - Analisador de dados automatizado utilizando machine learning

Recommended

Recommended

More Related Content

Similar to Eiti Kimura - Analisador de dados automatizado utilizando machine learning

Similar to Eiti Kimura - Analisador de dados automatizado utilizando machine learning (20)

More from DevCamp Campinas

More from DevCamp Campinas (20)

Eiti Kimura - Analisador de dados automatizado utilizando machine learning