SlideShare a Scribd company logo
1 of 62
Business Intelligence, Dataviz e
Data Science
SQL Maniacs Chapter Meeting
Diego Nogare
SQL Server MVP
www.diegonogare.net
Diego Nogare?
PASS Community News
August 2015
Planning on attending PASS Summit 2015? Start
saving today!
• The world’s largest gathering of SQL Server & BI professionals
• Take your SQL Server skills to the next level by learning from the world’s
top SQL Server experts, in over 190 technical sessions
• Over 5000 registrations, representing 2000 companies, from 52
countries, ready to network & learn
Save $150 right now using
discount code LCCOMPRX86
Whatever your data passion – there’s a Virtual Chapter for you!
5
www.sqlpass.org/vc
Select Virtual Chapter Meetings
more events and info at sqlpass.org/events
VIRTUAL CHAPTER MEETING TOPIC
DBA Fundamentals and
Women in Technology
Aug 18 11:00-12:00 (UTC-06:00) Moving from Profiler to Extended Events
presented by Jes Borland
In Memory Aug 18 16:00-17:00 (UTC 00:00) Inside xVelocity in-memory engine for
PowerPivot, Power BI and Analysis Services
Tabular presented by Marco Russo
Global Spanish Aug 19 12:00-13:00 (UTC-05:00) Introducción a Data Science presented by
Jose L. Rivera
Virtualization Aug 19 12:00-13:00 (UTC-05:00) Questions & Answers presented with David
Klee
Global Russian Aug 19 15:00-16:30 (UTC+03:00) Внутри Оптимизатора Запросов:
Агрегация presented by Dmitry Pilyugin
Global Chinese Aug 20 20:00-21:30 (UTC-06:00) New Features in SQL 2016 with Lindsey Allen
Business Analytics Aug 26 15:00-16:00 (UTC-05:00) Power BI, Mission Possible! Presented by
Reza rad
Application Development Aug 27 16:00-17:00 (UTC 00:00) Entity Framework Database Performance
Anti-Patterns presented by Russ Thomas
Upcoming SQLSaturdays
North America International
• Aug 22 Louisville
• Aug 29 El Paso
• Aug 29 Oklahoma City
• Sep 12 Las Vegas
• Sep 19 San Diego
• Sep 26 Spartanburg
• Aug 18 Malaysia
• Aug 22 Guatemala
• Aug 29 Oslo
• Sep 5 Gothenburg
• Sep 5 Johannesburg
• Sept 5 Paris
• Sept 12 Bogota
• Sep 26 São Paulo
Visit www.sqlsaturday.com to
register for a event near you!
8
Volunteering Opportunities
PASS would not exist without passionate, dedicated,
and hardworking volunteers from around the globe.
Volunteer today!!
For local opportunities please visit
volunteer.sqlpass.org
For PASS HQ related activities, please update the
“MyVolunteering” section of your MyPASS profile.
9
PASSion Award 2015
The highest of PASS accolades
presented yearly to an outstanding
volunteer.
Nominations for the 2015 PASSion
Award are now open.
Email PASSionAward@sqlpass.org to
submit a nomination.
For more information visit
http://www.sqlpass.org/Community
/Volunteers/PASSionAward.aspx
Stay Involved!
• Sign up for a free membership today at sqlpass.org
• Linked In: http://www.sqlpass.org/linkedin
• Facebook: http://www.sqlpass.org/facebook
• Twitter: @SQLPASS
• PASS: http://www.sqlpass.org
Agenda
 Business Intelligence
 SSIS – SQL Server Integration Services
 SSAS – SQL Server Analysis Services
 Dataviz (Data Visualization)
 Datazen
 PowerBI
 Data Science
 Azure Machine Learning
 R
1
1
Business Intelligence
SQL Server Integration Services
http://www.dbbest.com/blog/wp-content/uploads/2012/12/ETL_input_output.jpg
SQL Server Analysis Services
SQL Server Analysis Services
Tamanho
Cor
SQL Server Analysis Services
Tamanho
Cor
Camiseta
Bermuda
Calça
Azul
Amarela
Vermelha
Preta
PP MP G
4 62 3
2 15 8
9 64 0
7 42 3
SQL Server Analysis Services
Camiseta
Bermuda
Calça
Azul
Amarela
Vermelha
Preta
PP MP G
Bermuda
Azul
P
Camiseta
Preta
G
Calça
Amarela
M
1
4 62 3
2 15 8
9 64 0
7 42 3
Azul = 55
4 62 3
2 15 8
9 64 0
7 42 3
Calça = 66
Data Visualization
Datazen
2
3
PowerBI
2
4
2
5
PowerBI
Data Science
Algoritmos
Regressão
Classificação
Cluster
Detecção de
Anomalias
Fronteira de Decisão
ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2)
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 +
𝜃2x2 + 𝜃3x1
2 + 𝜃4x2
2 )
Função Linear
Função Quadrática
Classificadores Binários
Classificadores Binários
ACURACY (ACURÁCIA):
Quantidade classificada como Positivos e Negativos corretamente
(True Positive + True Negative) /
((True Positive + False Negative) +(False Positive + True Negative))
Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
Classificadores Binários
PRECISION (PRECISÃO):
Quantidade classificada corretamente
True Positive / (True Positive + False Positive)
Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
Classificadores Binários
RECALL:
Quantidade classificada como Positivo corretamente
True Positive / (True Positive + False Negative)
Com nossos números: 16 / (16+0) => 16 / 16 = 1
Classificadores Binários
F1 SCORE:
Média harmônica entre Precisão e Recall
Precisão: True Positive / (True Positive + False Positive)
Recall: True Positive / (True Positive + False Negative)
(2* True Positive) / (2* True Positive + False Positive + False Negative)
Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648
2* Precision*Recall / (Precision + Recall)
Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
F1- Score – harmonic mean of Precision and Recall
2. precision .recall /(precision+recall)
ROC
Area under the
ROC curve = AUC
0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
ROC
Area under the
ROC curve = AUC
0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
Métricas de Performance
Curva ROC (Receiver Operating Characteristic)
– 1.0: Predição Perfeita
– 0.9: Predição Excelente
– 0.8: Predição Boa
– 0.7: Predição Medíocre
– 0.6: Predição Porca
– 0.5: Predição Aleatória
– <0.5: Tem alguma coisa errada!
Classificadores Binários
30times
2
conferências
25jogadoers
US$ 3,5
Bilhões em
contratos
64Jogares
1 All Star
Game
http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
K-Means Cluster
Todos os dados são plotados no gráfico
Os pontos representam os indivíduos analisados, mas não estão
separados em grupos, todos fazem parte do mesmo grupo. Ao informar a
quantidade de centróides, as interções começam até o momento de convergir
e encontrar os K grupos.
Os pontos representam os dados de treinos, neste caso o dataset
K-Means Cluster
Centróides iniciais em posições aleatórias
Ao iniciar o algoritmo, os K pontos (chamados de centróides) são
plotados aleatoriamente no plano e possuem um ponto de partida para iniciar
o algoritmo.
As cruzes representam os centróides, e a linha tracejada é a borda de
separação entre os centróides, fazendo com que esse grupo seja
dividido entre os individuos da parte de cima desta linha, e da parte de
baixo.
K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Os centróides são re-calculados a cada interação, calculando a
média da distância entre cada ponto e a posição do centróide. Então, com
base neste resultado o centróide muda de lugar ficando mais ao centro de seus
pontos (elementos).
Posição inicial (amarelo) do centróide seguindo para uma próxima
posição (vermelho e azul).
K-Means Cluster
Alteração dos pontos e centros
Enquanto a distância for recalculada e elementos mudarem de
centro, o algoritmo continua executando.
Reparem que os elementos marcados mudaram de centro.
K-Means Cluster
Posição final depois de uma interação.
K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Mais uma interação e re-calculo das distâncias, e com isso, mais uma
vez a movimentação dos centróides.
Posição inicial (amarelo) do centróide seguindo para uma próxima
posição (vermelho e azul).
K-Means Cluster
Quando parar?
No momento que os centróides não recebem nenhum elemento novo
em seu grupo significa que eles convergiram para uma posição satisfatória, e
criou os grupos necessários.
Enquanto a média da distância calculada ainda alterar pontos entre os
grupos, o algoritmo continua interagindo e re-calculando os centróides.
K-Means Cluster
Ponto satisfatório
Ao encontrar o ponto satisfatório, o algoritmo para de executar e
mantém os elementos conectados com seus centróides.
Depois da interação não houve mudança de elementos.
K-Means Cluster
Quantos centróides usar?
Existe uma linha de pesquisa que usa esta representação de elbow
(cotovelo) para definir uma quantidade razoavel de centróides.
Esta técnica condiz em encontrar o platô e então utilizar valores
anteriores. Quando utilizar um valor que esteja estagnado no platô, o
resultado não terá tanta relevância e impacto para o agrupamento.
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
K-Means Cluster
Multidimensional Vs. Tabular
DAX – Data Analysis eXpressions
MDX – MultiDimensinal eXpressions
DMX – Data Mining eXtensions
Quer aprender
mais sobre BI?
Do Banco de Dados Relacional
à Tomada de Decisão
http://www.ngrsolutions.com.br/course/bi
Obrigado!
Diego Nogare
SQL Server MVP
www.diegonogare.net

More Related Content

Viewers also liked

Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_sox
Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_soxAuditoria de banco_de_dados_sql_server_em_conformidade_com_a_sox
Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_soxSQLServerRS
 
Apostila c# iniciantes
Apostila c# iniciantesApostila c# iniciantes
Apostila c# iniciantesCaique Moretto
 
Apostila de Sql Server 2005
Apostila de Sql Server 2005Apostila de Sql Server 2005
Apostila de Sql Server 2005Andre Nascimento
 
Sql Server Stored Procedures
Sql Server   Stored ProceduresSql Server   Stored Procedures
Sql Server Stored Proceduresalexdutra
 
Apostila de Introdução ao C#.net
Apostila de Introdução ao C#.netApostila de Introdução ao C#.net
Apostila de Introdução ao C#.netAndre Nascimento
 
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsight
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsightLançamento do SQL Server 2014 - Descobrindo BigData com HDInsight
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsightDiego Nogare
 
Apostila de Introdução a POO com C#
Apostila de Introdução a POO com C#Apostila de Introdução a POO com C#
Apostila de Introdução a POO com C#Andre Nascimento
 
T-SQL na prática com SQL SERVER Express 2012
T-SQL na prática com SQL SERVER Express 2012T-SQL na prática com SQL SERVER Express 2012
T-SQL na prática com SQL SERVER Express 2012Rodrigo Ribeiro
 
Apostila introdução à linguagem sql
Apostila introdução à linguagem sqlApostila introdução à linguagem sql
Apostila introdução à linguagem sqlReuel Lopes
 
A next generation introduction to data science and its potential to change bu...
A next generation introduction to data science and its potential to change bu...A next generation introduction to data science and its potential to change bu...
A next generation introduction to data science and its potential to change bu...InnoTech
 
Treinamento de SQL Básico
Treinamento de SQL BásicoTreinamento de SQL Básico
Treinamento de SQL BásicoIgor Alves
 
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5Fábio Delboni
 
Power bi na prática 2016
Power bi na prática 2016Power bi na prática 2016
Power bi na prática 2016Rodrigo Dornel
 

Viewers also liked (20)

Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_sox
Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_soxAuditoria de banco_de_dados_sql_server_em_conformidade_com_a_sox
Auditoria de banco_de_dados_sql_server_em_conformidade_com_a_sox
 
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
 
Apostila c# iniciantes
Apostila c# iniciantesApostila c# iniciantes
Apostila c# iniciantes
 
Apostila de Sql Server 2005
Apostila de Sql Server 2005Apostila de Sql Server 2005
Apostila de Sql Server 2005
 
Sql Server Stored Procedures
Sql Server   Stored ProceduresSql Server   Stored Procedures
Sql Server Stored Procedures
 
Apostila Oracle 10g
Apostila Oracle 10gApostila Oracle 10g
Apostila Oracle 10g
 
Apostila de Introdução ao C#.net
Apostila de Introdução ao C#.netApostila de Introdução ao C#.net
Apostila de Introdução ao C#.net
 
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsight
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsightLançamento do SQL Server 2014 - Descobrindo BigData com HDInsight
Lançamento do SQL Server 2014 - Descobrindo BigData com HDInsight
 
Introdução C#
Introdução C#Introdução C#
Introdução C#
 
Apostila de Introdução a POO com C#
Apostila de Introdução a POO com C#Apostila de Introdução a POO com C#
Apostila de Introdução a POO com C#
 
Apostila de C# & Asp.Net
Apostila de C# & Asp.NetApostila de C# & Asp.Net
Apostila de C# & Asp.Net
 
T-SQL na prática com SQL SERVER Express 2012
T-SQL na prática com SQL SERVER Express 2012T-SQL na prática com SQL SERVER Express 2012
T-SQL na prática com SQL SERVER Express 2012
 
Carlos Henrique Barrios
Carlos Henrique BarriosCarlos Henrique Barrios
Carlos Henrique Barrios
 
Apostila Android
Apostila AndroidApostila Android
Apostila Android
 
Hands on Labs - SQL Server 2008
Hands on Labs - SQL Server 2008Hands on Labs - SQL Server 2008
Hands on Labs - SQL Server 2008
 
Apostila introdução à linguagem sql
Apostila introdução à linguagem sqlApostila introdução à linguagem sql
Apostila introdução à linguagem sql
 
A next generation introduction to data science and its potential to change bu...
A next generation introduction to data science and its potential to change bu...A next generation introduction to data science and its potential to change bu...
A next generation introduction to data science and its potential to change bu...
 
Treinamento de SQL Básico
Treinamento de SQL BásicoTreinamento de SQL Básico
Treinamento de SQL Básico
 
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5
Instalação do Oracle 10g r2 for Red Hat AS Enterprise Linux 4 update 5
 
Power bi na prática 2016
Power bi na prática 2016Power bi na prática 2016
Power bi na prática 2016
 

Similar to BI, Dataviz e DS

TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
 
Dia a dia do Cientista de Dados
Dia a dia do Cientista de DadosDia a dia do Cientista de Dados
Dia a dia do Cientista de DadosDiego Nogare
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
Perfil dos Trabalhos e Resultados Entregues!
Perfil dos Trabalhos e Resultados Entregues!Perfil dos Trabalhos e Resultados Entregues!
Perfil dos Trabalhos e Resultados Entregues!Paulo Santiago
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Thiago Rocha
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012Carlos Casalicchio
 
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019Evoluindo a Plataforma de Dados do Nubank TDC SP 2019
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019André de Lannoy Tavares
 
Vendi um app e agora?
Vendi um app e agora?Vendi um app e agora?
Vendi um app e agora?Dirceu Belém
 
Application insights + ASP.NET Core
Application insights + ASP.NET CoreApplication insights + ASP.NET Core
Application insights + ASP.NET CoreLetticia Nicoli
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...Aislan Honorato
 
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016Status Report dos TCCs (SIN-NA8): 2º semestre de 2016
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016Alessandro Almeida
 
Arquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningArquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningFelipe Santos
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
OMR (Optical Mark Recognition) with PHP
OMR (Optical Mark Recognition) with PHPOMR (Optical Mark Recognition) with PHP
OMR (Optical Mark Recognition) with PHPJansen Felipe
 
TCC - FGV - Trabalho de Conclusão de Curso
TCC - FGV - Trabalho de Conclusão de CursoTCC - FGV - Trabalho de Conclusão de Curso
TCC - FGV - Trabalho de Conclusão de CursoTalita De Azevedo
 

Similar to BI, Dataviz e DS (19)

TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Prática
 
Dia a dia do Cientista de Dados
Dia a dia do Cientista de DadosDia a dia do Cientista de Dados
Dia a dia do Cientista de Dados
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
Analise Bay Area Bike Sharing
Analise Bay Area Bike SharingAnalise Bay Area Bike Sharing
Analise Bay Area Bike Sharing
 
New Relic Insights
New Relic InsightsNew Relic Insights
New Relic Insights
 
Perfil dos Trabalhos e Resultados Entregues!
Perfil dos Trabalhos e Resultados Entregues!Perfil dos Trabalhos e Resultados Entregues!
Perfil dos Trabalhos e Resultados Entregues!
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012
 
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019Evoluindo a Plataforma de Dados do Nubank TDC SP 2019
Evoluindo a Plataforma de Dados do Nubank TDC SP 2019
 
Vendi um app e agora?
Vendi um app e agora?Vendi um app e agora?
Vendi um app e agora?
 
Metricas ageis
Metricas ageisMetricas ageis
Metricas ageis
 
Application insights + ASP.NET Core
Application insights + ASP.NET CoreApplication insights + ASP.NET Core
Application insights + ASP.NET Core
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
 
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016Status Report dos TCCs (SIN-NA8): 2º semestre de 2016
Status Report dos TCCs (SIN-NA8): 2º semestre de 2016
 
Arquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine LearningArquitetura Serverless para Machine Learning
Arquitetura Serverless para Machine Learning
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
OMR (Optical Mark Recognition) with PHP
OMR (Optical Mark Recognition) with PHPOMR (Optical Mark Recognition) with PHP
OMR (Optical Mark Recognition) with PHP
 
12.08.22 olap
12.08.22   olap12.08.22   olap
12.08.22 olap
 
TCC - FGV - Trabalho de Conclusão de Curso
TCC - FGV - Trabalho de Conclusão de CursoTCC - FGV - Trabalho de Conclusão de Curso
TCC - FGV - Trabalho de Conclusão de Curso
 

More from Diego Nogare

Build your first spark big data environment in azure
Build your first spark big data environment in azureBuild your first spark big data environment in azure
Build your first spark big data environment in azureDiego Nogare
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasDiego Nogare
 
Real Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIReal Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIDiego Nogare
 
Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Diego Nogare
 
Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Diego Nogare
 
Análise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realAnálise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realDiego Nogare
 
The Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceThe Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceDiego Nogare
 
Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Diego Nogare
 
Big Data: Tomando Decisões
Big Data: Tomando DecisõesBig Data: Tomando Decisões
Big Data: Tomando DecisõesDiego Nogare
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaDiego Nogare
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningDiego Nogare
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningDiego Nogare
 
Colocando o Azure Machine Learning no seu Cotidiano
Colocando o Azure Machine Learning no seu Cotidiano Colocando o Azure Machine Learning no seu Cotidiano
Colocando o Azure Machine Learning no seu Cotidiano Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Diego Nogare
 

More from Diego Nogare (20)

Build your first spark big data environment in azure
Build your first spark big data environment in azureBuild your first spark big data environment in azure
Build your first spark big data environment in azure
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de Máquinas
 
Real Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIReal Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BI
 
Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0
 
Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning
 
Análise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realAnálise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo real
 
The Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceThe Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive Intelligence
 
Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0
 
Big Data: Tomando Decisões
Big Data: Tomando DecisõesBig Data: Tomando Decisões
Big Data: Tomando Decisões
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na prática
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine Learning
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine Learning
 
Colocando o Azure Machine Learning no seu Cotidiano
Colocando o Azure Machine Learning no seu Cotidiano Colocando o Azure Machine Learning no seu Cotidiano
Colocando o Azure Machine Learning no seu Cotidiano
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...
Mini-Curso: Introdução à Big Data e Data Science - Aula 7 - Introdução à Ling...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
 

BI, Dataviz e DS

  • 1. Business Intelligence, Dataviz e Data Science SQL Maniacs Chapter Meeting Diego Nogare SQL Server MVP www.diegonogare.net
  • 4. Planning on attending PASS Summit 2015? Start saving today! • The world’s largest gathering of SQL Server & BI professionals • Take your SQL Server skills to the next level by learning from the world’s top SQL Server experts, in over 190 technical sessions • Over 5000 registrations, representing 2000 companies, from 52 countries, ready to network & learn Save $150 right now using discount code LCCOMPRX86
  • 5. Whatever your data passion – there’s a Virtual Chapter for you! 5 www.sqlpass.org/vc
  • 6. Select Virtual Chapter Meetings more events and info at sqlpass.org/events VIRTUAL CHAPTER MEETING TOPIC DBA Fundamentals and Women in Technology Aug 18 11:00-12:00 (UTC-06:00) Moving from Profiler to Extended Events presented by Jes Borland In Memory Aug 18 16:00-17:00 (UTC 00:00) Inside xVelocity in-memory engine for PowerPivot, Power BI and Analysis Services Tabular presented by Marco Russo Global Spanish Aug 19 12:00-13:00 (UTC-05:00) Introducción a Data Science presented by Jose L. Rivera Virtualization Aug 19 12:00-13:00 (UTC-05:00) Questions & Answers presented with David Klee Global Russian Aug 19 15:00-16:30 (UTC+03:00) Внутри Оптимизатора Запросов: Агрегация presented by Dmitry Pilyugin Global Chinese Aug 20 20:00-21:30 (UTC-06:00) New Features in SQL 2016 with Lindsey Allen Business Analytics Aug 26 15:00-16:00 (UTC-05:00) Power BI, Mission Possible! Presented by Reza rad Application Development Aug 27 16:00-17:00 (UTC 00:00) Entity Framework Database Performance Anti-Patterns presented by Russ Thomas
  • 7. Upcoming SQLSaturdays North America International • Aug 22 Louisville • Aug 29 El Paso • Aug 29 Oklahoma City • Sep 12 Las Vegas • Sep 19 San Diego • Sep 26 Spartanburg • Aug 18 Malaysia • Aug 22 Guatemala • Aug 29 Oslo • Sep 5 Gothenburg • Sep 5 Johannesburg • Sept 5 Paris • Sept 12 Bogota • Sep 26 São Paulo Visit www.sqlsaturday.com to register for a event near you!
  • 8. 8 Volunteering Opportunities PASS would not exist without passionate, dedicated, and hardworking volunteers from around the globe. Volunteer today!! For local opportunities please visit volunteer.sqlpass.org For PASS HQ related activities, please update the “MyVolunteering” section of your MyPASS profile.
  • 9. 9 PASSion Award 2015 The highest of PASS accolades presented yearly to an outstanding volunteer. Nominations for the 2015 PASSion Award are now open. Email PASSionAward@sqlpass.org to submit a nomination. For more information visit http://www.sqlpass.org/Community /Volunteers/PASSionAward.aspx
  • 10. Stay Involved! • Sign up for a free membership today at sqlpass.org • Linked In: http://www.sqlpass.org/linkedin • Facebook: http://www.sqlpass.org/facebook • Twitter: @SQLPASS • PASS: http://www.sqlpass.org
  • 11. Agenda  Business Intelligence  SSIS – SQL Server Integration Services  SSAS – SQL Server Analysis Services  Dataviz (Data Visualization)  Datazen  PowerBI  Data Science  Azure Machine Learning  R 1 1
  • 13. SQL Server Integration Services http://www.dbbest.com/blog/wp-content/uploads/2012/12/ETL_input_output.jpg
  • 15. SQL Server Analysis Services Tamanho Cor
  • 16. SQL Server Analysis Services Tamanho Cor Camiseta Bermuda Calça Azul Amarela Vermelha Preta PP MP G 4 62 3 2 15 8 9 64 0 7 42 3
  • 17. SQL Server Analysis Services Camiseta Bermuda Calça Azul Amarela Vermelha Preta PP MP G Bermuda Azul P Camiseta Preta G Calça Amarela M 1
  • 18. 4 62 3 2 15 8 9 64 0 7 42 3 Azul = 55
  • 19. 4 62 3 2 15 8 9 64 0 7 42 3 Calça = 66
  • 26. Fronteira de Decisão ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2) ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2 + 𝜃3x1 2 + 𝜃4x2 2 ) Função Linear Função Quadrática
  • 27.
  • 29. Classificadores Binários ACURACY (ACURÁCIA): Quantidade classificada como Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
  • 30. Classificadores Binários PRECISION (PRECISÃO): Quantidade classificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
  • 31. Classificadores Binários RECALL: Quantidade classificada como Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1
  • 32. Classificadores Binários F1 SCORE: Média harmônica entre Precisão e Recall Precisão: True Positive / (True Positive + False Positive) Recall: True Positive / (True Positive + False Negative) (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636 F1- Score – harmonic mean of Precision and Recall 2. precision .recall /(precision+recall)
  • 33. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  • 34. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  • 35. Métricas de Performance Curva ROC (Receiver Operating Characteristic) – 1.0: Predição Perfeita – 0.9: Predição Excelente – 0.8: Predição Boa – 0.7: Predição Medíocre – 0.6: Predição Porca – 0.5: Predição Aleatória – <0.5: Tem alguma coisa errada!
  • 37. 30times 2 conferências 25jogadoers US$ 3,5 Bilhões em contratos 64Jogares 1 All Star Game http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
  • 38.
  • 39. K-Means Cluster Todos os dados são plotados no gráfico Os pontos representam os indivíduos analisados, mas não estão separados em grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de centróides, as interções começam até o momento de convergir e encontrar os K grupos. Os pontos representam os dados de treinos, neste caso o dataset
  • 40. K-Means Cluster Centróides iniciais em posições aleatórias Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo. As cruzes representam os centróides, e a linha tracejada é a borda de separação entre os centróides, fazendo com que esse grupo seja dividido entre os individuos da parte de cima desta linha, e da parte de baixo.
  • 41. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Os centróides são re-calculados a cada interação, calculando a média da distância entre cada ponto e a posição do centróide. Então, com base neste resultado o centróide muda de lugar ficando mais ao centro de seus pontos (elementos). Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  • 42. K-Means Cluster Alteração dos pontos e centros Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo continua executando. Reparem que os elementos marcados mudaram de centro.
  • 43. K-Means Cluster Posição final depois de uma interação.
  • 44. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a movimentação dos centróides. Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  • 45. K-Means Cluster Quando parar? No momento que os centróides não recebem nenhum elemento novo em seu grupo significa que eles convergiram para uma posição satisfatória, e criou os grupos necessários. Enquanto a média da distância calculada ainda alterar pontos entre os grupos, o algoritmo continua interagindo e re-calculando os centróides.
  • 46. K-Means Cluster Ponto satisfatório Ao encontrar o ponto satisfatório, o algoritmo para de executar e mantém os elementos conectados com seus centróides. Depois da interação não houve mudança de elementos.
  • 47. K-Means Cluster Quantos centróides usar? Existe uma linha de pesquisa que usa esta representação de elbow (cotovelo) para definir uma quantidade razoavel de centróides. Esta técnica condiz em encontrar o platô e então utilizar valores anteriores. Quando utilizar um valor que esteja estagnado no platô, o resultado não terá tanta relevância e impacto para o agrupamento.
  • 58. Multidimensional Vs. Tabular DAX – Data Analysis eXpressions MDX – MultiDimensinal eXpressions DMX – Data Mining eXtensions
  • 60. Do Banco de Dados Relacional à Tomada de Decisão http://www.ngrsolutions.com.br/course/bi
  • 61.
  • 62. Obrigado! Diego Nogare SQL Server MVP www.diegonogare.net