Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

Eiti Kimura - Analisador de dados automatizado utilizando machine learning

Download to read offline

Palestra DevCamp 2019

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Eiti Kimura - Analisador de dados automatizado utilizando machine learning

  1. 1. ANALISADOR DE DADOS AUTOMATIZADO UTILIZANDO MACHINE LEARNING Eiti Kimura DevFest Agosto 19 com Apache Spark 1
  2. 2. ● IT Coordinator and Software Architect at Movile ● Msc. in Electrical Engineering ● Apache Cassandra MVP (2014/2015 e 2015/2016) ● Cassandra Summit Speaker (2014 e 2015) ● Strata Hadoop World Singapore Speaker (2016) ● Spark Summit Speaker (2017) ● RedisConf Speaker (2018) Eiti Kimura eitikimura 2
  3. 3. 3
  4. 4. +1 Bilhão De mensagens por mês 4
  5. 5. 13140-580 40199 Alerta SMS Defesa Civil Gratuito!
  6. 6. 13140-580 40199 Cadastro realizado com sucesso. Você receberá alertas de chuvas e tempestades.
  7. 7. 13140-580 40199 Cadastro realizado com sucesso. Você receberá alertas de chuvas e tempestades.
  8. 8. 13140-580 40199 Defesa civil informa: Chuvas fortes e raios na região, Campinas e Paulínia. Evite lugares abertos busque abrigo. Não arrisque sua vida. Cadastro realizado com sucesso. Você receberá alertas de chuvas e tempestades.
  9. 9. BALANCE INFORMATION Account: X3254 Balance: $1,564.20 100852 A deposit of $95.00 was made to your account on April 23th at 7:59pm. Your balance is: $1,659.20. Text STOP to cancel or HELP for more information.
  10. 10. O que veremos hoje? Caso do sistema de tarifação Introdução sobre o sistema distribuído para tarifação de usuários dos nossos produtos Análise de dados Analisando os dados de tentativas de tarifação com as operadoras, consolidando Solução usando aprendizado de máquina Criando uma analisador de dados automático usando técnicas de aprendizado de máquina e treinamento do modelo com Apache Spark Resultados do projeto
  11. 11. Sistema de Tarifação e Controle de Assinaturas SBS 11
  12. 12. ENTRADA 12
  13. 13. PROCESSAMENTO 13
  14. 14. SAÍDA / VISUALIZAÇÃO 14
  15. 15. Arquitetura simplificada plataforma de tarifação 15
  16. 16. Desafio: Monitoramento Como verificar se a plataforma está integralmente funcional baseado somente em análise de dados? Que tal pedir ajuda a um sistema inteligente? 16
  17. 17. Análise de dados por volumetria ● + 150 Milhões de tentativas de tarifação por dia ● 4 operadoras principais no Brasil que geram os dados 17
  18. 18. Entendendo o problema 18 Amostra dos dados (previsão do número de sucessos) featureslabel/target # success carrier_weight hour week response_time #no_credit #errors # attempts 61.083, [4.0, 17h, 3.0, 1259.0, 24.751.650, 2.193.67, 26.314.551] APRENDIZADO SUPERVISIONADO Regressão Linear
  19. 19. Padrões de tentativas de tarifação 19
  20. 20. Feature Engineering É o processo de usar o domínio do conhecimento dos dados para criar novos atributos para que os algoritmos de aprendizado de máquina possam funcionar com melhor desempenho. 20
  21. 21. Diferença de Padrões por semana 21
  22. 22. Apache Spark é um motor de análise unificado para processamento de dados distribuídos em larga escala. 22
  23. 23. Fluxo de Treinamento do Modelo 23 Training Data Testing Data Feature Extraction Train Score Model Evaluation Dataset
  24. 24. 24 http://spark-notebook.io/ SPARK NOTEBOOK DEMO
  25. 25. Avaliando resultado dos Modelos 25 Machine Learning Tested Model Accuracy RMSE Lasso with SGD Model 35% 0.32 Ridge Regression with SGD Model 87.5% 0.13 Elastic Net with SGD Model 35% 0.32 Decision Tree Model 93.4% 0.05
  26. 26. Watcher-ai 26 Olá, eu sou Watcher-ai muito prazer!
  27. 27. 27 Watcher-ai Treinamento dos Modelos
  28. 28. 28 Watcher-ai utilização dos modelos
  29. 29. 29 Watcher-ai fazendo as previsões
  30. 30. 30 Watcher-ai canais de notificação
  31. 31. 31 Watcher-ai Architecture
  32. 32. 32 Lições Aprendidas
  33. 33. ● Tentar prever e controlar os dados de séries temporais usando simples limiares não funcionaram bem no passado devido a fatores externos ● Nós evitamos (removemos) análises e controles baseados em limiares fixos baseados em desvios padrão, por exemplo Questão com Séries Temporais 33
  34. 34. Porque mudamos de RDD para Dataframe? 34 RDD (2011) DataFrame (2013) coleção distribuída de objetos na JVM operadores funcionais (map, filter, etc) coleção de objetos Row distribuídos Planos de execução e otimização Representação de dados internos de forma eficiente
  35. 35. Mudança de desempenho de RDD para Dataframe ● É possível implementar mais facilmente técnicas de grid-search ● Código menor, mais legível, mais simples de fazer debug, aumento de desempenho considerável 35
  36. 36. Sobre os modelos treinados 36 ● criar um modelo único não funcionou ● cada operadora tem um comportamento específico ● foi preciso criar um modelo diferente para cada operadora
  37. 37. Padrões de sucesso na tarifação distintos por operadora 37 CARRIER 1 CARRIER 2 CARRIER 4 CARRIER 5
  38. 38. 38 Resultados Obtidos
  39. 39. Registro de Alertas Enviados 39 CARRIER 1 CARRIER 2 CARRIER 4 CARRIER 5
  40. 40. 40 CARRIER 1 CARRIER 2 CARRIER 4 CARRIER 5
  41. 41. Notificações no Slack 41 2
  42. 42. 42 Evitamos perda de receita > U$ 2M dólares economia de mais de 500 horas de trabalho Tempo de detecção de problemas caiu de 6 horas para 1 hora
  43. 43. ● Prevenção de queda de receita ● Um dos sistemas principais de monitoramento ● Caso de uso de sucesso de Machine Learning ● Solução simples usando o Apache Spark Resultados Obtidos 43
  44. 44. Obrigado Perguntas? github.com/eitikimura/qconsp-18 eitikimura

Palestra DevCamp 2019

Views

Total views

40

On Slideshare

0

From embeds

0

Number of embeds

0

Actions

Downloads

3

Shares

0

Comments

0

Likes

0

×