2. Conceitos básicos
Notação nos modelos estatísticos
Letras gregas
parâmetros, i.e., valores « verdadeiros » na população, que não
conhecemos e que pretendemos estimar com o modelo
Ex: β
Letras minúsculas
estimativas dos parâmetros, que são calculadas a partir dos dados e
que fazem parte da equação linear do modelo
Ex: b
Letras maiúsculas
variáveis (ex :Y, X1)
Y é sempre a variável que o modelo procura estimar (VD)
X são sempre os preditores (VI) de Y
O « chapéu » do Y indica que é uma estimativa do valor de Y
2 Célia M. D. Sales - UAL
3. O que é a Regressão
Regressão linear
Modelo para predizer o valor de uma variável (v. dependente),
a partir de outra (v. independente ou preditor)
Regressão múltipla
Extensão da regressão linear
Usa vários preditores, para estimar o valor da variável
dependente
Modelos lineares
A relação entre as variáveis é descrita por uma recta
3 Célia M. D. Sales - UAL
4. Lógica da análise de regressão
Objectivo
Predizer uma variável dependente (Y), a partir do
conhecimento de uma ou mais variáveis independentes
Criar um modelo estatístico da relação entre essas variáveis
Lógica de comparação de modelos
Para sabermos se o modelo criado é útil (é bom para prever
Y), vamos compará-lo com outro modelo mais simples
O melhor modelo é o que tiver menor erro
Qual o melhor modelo estatístico para prever o valor de
Y, a partir dos dados da amostra, sem usar variáveis
independentes?
A média do próprio Y
4 Célia M. D. Sales - UAL
5. Comparação de modelos
12 Modelo (predição de Y)
10
Nº Cartões Crédito 8
6
4
2
0
0 1 2 3 4 5 6 7 8 9
Tamanho Família Erro de predição (ei)
Yi = β0 + εi
VD
Modelo Erro
(resultados)
5 Célia M. D. Sales - UAL
6. Comparação de modelos
Outro modelo mais complexo
Modelo (nossa predição b0)
12
12
Nº Cartões Crédito
Nº Cartões Crédito
10
10
8
8
6
6
4
4
2
2
0
0
0 2 4 6 8 10
0 2 4 6 8 10
Tamanho Família
Tamanho Família
Yi = β0 + εi Yi = β0 + β1 X i 1 + εi
Número de parâmetros a estimar = 1 Número de parâmetros a estimar = 2
Modelo Contraído Modelo Aumentado
6 Célia M. D. Sales - UAL
7. Exemplo (Hair et al, 2010)
Estudo sobre o uso do cartão de crédito
Objectivo: Determinar os factores que afectam o nº de cartões de
crédito usados pelas famílias
3 potenciais factores: O tamanho da família, o rendimento familiar e
o nº de automóveis possuídos pela família
Dados recolhidos em 8 famílias
Variável dependente (y)
Nº de cartões de crédito
Variáveis independentes (X)
Tamanho da família (v1)
Rendimento (v2)
Nº de automóveis (v3)
7 Célia M. D. Sales - UAL
8. 1) Relação linear entre Y e X?
A inspecção visual dos diagramas de dispersão revela que
existe uma relação linear entre o nº de cartões de
crédito das famílias (Y) e o tamanho da família (v1), o
rendimento (v2) e o nº de automóveis possuídos pela
família
8 Célia M. D. Sales - UAL
9. 2) Análise da Matriz R
Caso procuremos apenas uma variável preditora
A variável que melhor prediz Y será aquela com correlação
mais elevada
Neste caso, escolheríamos “dimensão da família”
9 Célia M. D. Sales - UAL
10. Recta de regressão com 1 predictor
Mudança no uso do
cartão de crédito (y)
quando se aumenta 1
unidade na família (v1)
b1 na equação da recta
Coeficiente de
regressão de v1
b0
Valor de y quando x=0
10 Célia M. D. Sales - UAL
11. Representação matemática da recta
0 1 1
b0
Ordenada na origem (intercept)
Ponto em que a recta de regressão cruza o eixo das ordenadas Y
valor de Y quando X = 0
b1
Coeficiente de regressão de X
Declive (gradient) da recta de regressão
Mudança em Y, quando X muda 1 unidade
Indica direcção (+ ou -) e força (valor absoluto) da relação
11 Célia M. D. Sales - UAL
12. Ordenadas na origem e coeficientes de
regressão. Representação gráfica.
(Field, 2010)
12 Célia M. D. Sales - UAL
13. Exercício
1 ) Escreva a equação de
predição de Y em função de v1
2 ) Numa família de 7
pessoas, qual o nº estimado
de cartões de crédito?
b1 = 0,97
b0 = 2,87
13 Célia M. D. Sales - UAL
14. Significância estatística do modelo
Depois de criar um modelo, precisamos avaliar até que ponto ele é bom
(se é capaz de predizer Y e se é generalizável)
Comparação modelo contraído vs. modelo aumentado
Três procedimentos básicos:
R2
Quanto da variação de Y é explicada pelo modelo aumentado?
O modelo é preciso a predizer Y?
F ANOVA
A variação de Y explicada (pelo modelo aumentado) é significativamente maior do que
variação de Y que não é explicada (pelo modelo aumentado)?
Globalmente, o modelo é generalizável?
t-Student
Cada parâmetro do modelo é significativamente diferente de zero?
O impacto de cada preditor na equação é significativo?
O impacto de cada preditor é generalizável?
14 Célia M. D. Sales - UAL
15. Modelo contraído Modelo aumentado
12
12
Nº Cartões Crédito
Nº Cartões Crédito
10
10
8
8
6
6
4
4
2
2
0
0
0 2 4 6 8 10
0 2 4 6 8 10
Tamanho Família
Tamanho Família
Que modelo é melhor para predizer Y? O que tiver menor erro (desvios ou resíduos)
Erro do modelo contraído (média)
Variação total de Y Erro do modelo aumentado (regressão)
SSt Variação de Y não explicada pelo modelo
15 Célia M. D. Sales - UAL
SSr
16. R2
Variação total de Y Variação de Y não Variação de Y explicada
SSt - explicada pelo modelo = pelo modelo
SSr SSm
No nosso exemplo:
Quanto da variação total de Y é explicada pelo modelo?
Variação de Y explicada
pelo modelo
SSm 16,5
R2 = = = 0,75
Variação total de Y 22,0 O modelo explica
Coeficiente de para explicar
determinação 75% da variação de Y
16 SSt Célia M. D. Sales - UAL
17. R2
Varia entre 0-1
R2 = 0, o modelo não é melhor do que a média, a prever o
valor de Y
R2 = 1, o modelo oferece uma predição perfeita de Y
Dá-nos informação sobre o rigor global da predição do
nosso modelo
Quanto maior o seu valor, melhor!
17 Célia M. D. Sales - UAL
19. Regressão linear simples no SPSS
r R2 ajustado
Coeficiente de R2
correlação linear de Quanta variação de Y
Pearson, entre Y e X é explicada pelo
modelo
19 Célia M. D. Sales - UAL
20. F - ANOVA
Uma outra forma de avaliarmos a qualidade do nosso modelo
é comparando a variação de Y que é explicada pelo modelo,
com a variação de Y que não é explicada pelo modelo
O modelo será tanto melhor, quanto maior seja a variação explicada,
proporcionalmente à não explicada
Variação de Y explicada
pelo modelo
SSm
Variação de Y não
explicada pelo modelo
SSr
20 Célia M. D. Sales - UAL
21. F - ANOVA
Médias dos desvios quadrados
Dado que as somas dos quadrados (SS) dependem do nº de
resíduos somados, utiliza-se a sua média: Mean Squares (MS)
A média calcula-se dividindo as somas dos quadrados pelos
graus de liberdade
F= MS M
MS R
Estatística
ANOVA
21 Célia M. D. Sales - UAL
22. F - ANOVA
O teste de ANOVA
Verifica se a variância explicada pelo modelo (SSm) é
significativamente maior do que o erro do modelo (SSr)
p<0.05
Globalmente, o modelo de regressão (modelo aumentado) é
significativamente melhor do que a média (modelo contraído),
para predizer os valores de Y
O modelo é generalizável a outras amostra
Significância estatística do modelo global
22 Célia M. D. Sales - UAL
23. ANOVA no SPSS
SSM SSR MSM
Significância
MSR estatística do
SST modelo global
23 Célia M. D. Sales - UAL
24. t-Student
A ANOVA diz-nos se, globalmente o modelo é bom para
predizer Y (comparando com a média)
Não nos informa acerca da contribuição individual de cada
variável independente (preditor) na equação
V1 não tem impacto em Y, se b1= 0
Para que um preditor tenha impacto na predição de Y, o seu
coeficiente de correlação (b) tem que ser significativamente
diferente de zero
t-Student testa a hipótese nula de que b=0
Calcula-se para cada preditor da equação
24 Célia M. D. Sales - UAL
25. t-Student no SPSS
Significância
estatística de b1
b0
b1 b1 em unidades de
desvio-padrão
25 Célia M. D. Sales - UAL
27. Regressão Múltipla: Representação
matemática
Regression variate
Combinação linear das variáveis independentes que melhor
prediz a variável dependente
0 1 1
b0
Ordenada na origem
Valor de Y quando todos os Xs = 0
b1
Coeficiente de regressão da variável 1
27 Célia M. D. Sales - UAL
28. Modelo com 2 preditores
b2
b0
b1
28 Célia M. D. Sales - UAL
30. Principais passos da regressão linear
múltipla
1) Escolha das variáveis
2) Construção de um modelo inicial significativo
Escolha do método de construção do modelo
3) Validação do modelo inicial
4) Procura do “melhor modelo”
Construir modelos alternativos significativos
Validar
Comparar
5) Construção e interpretação do modelo final
6) Reportar resultados
30 Célia M. D. Sales - UAL
32. Critérios de escolha das variáveis
Orientados pela teoria
Devem obedecer aos requisitos da análise
32 Célia M. D. Sales - UAL
33. Requisitos das variáveis
Tipos de variáveis
Y deve ser variável contínua
Preditores contínuos (podem ser dicotómicos)
Medidas independentes
Todos os valores Y correspondem a diferentes pessoas
Variância
Todos os preditores têm variância diferente de zero
33 Célia M. D. Sales - UAL
34. Construção de modelo inicial
significativo
Métodos de (construção de modelos de) regressão
34 Célia M. D. Sales - UAL
35. Métodos de regressão
3 métodos:
1. Regressão Múltipla Standard
Todos os preditores entram simultaneamente na equação de regressão
2. Regressão Múltipla Sequencial ou Hierárquica
Investigador decide a ordem pela qual as variáveis entram no modelo
3. Regressão Múltipla Estatística (Stepwise)
Preditores são seleccionados com base em critérios matemáticos
(correlação semi-parcial com Y)
Diferença entre os métodos:
O que acontece à variabilidade devida ao efeito comum das VI
(quando estão correlacionadas entre si)
Critérios da ordem de entrada das VI na equação
35 Célia M. D. Sales - UAL
36. Regressão Standard
Todas as VI entram ao mesmo tempo na análise
Cada VI é avaliada quanto
“what it adds to the prediction of the DV that is different from
predictability afforded by all other IV” (Tabachnick & Fidell
(2007, p.136)
A sua contribuição única
36 Célia M. D. Sales - UAL
37. Regressão Standard
Interpretação
Se houver grande sobreposição entre VI’s
A correlação bivariada entre VD e VI pode ser
elevada
No entanto, no modelo, a contribuição é pequena
Exemplo:VI 2
A interpretação tem que ter em conta:
correlação total entre a VI e a VD (dada pela correlação
bivariada)
correlação única (dada pelo coeficiente de regressão no
modelo)
37 Célia M. D. Sales - UAL
38. Regressão sequencial ou hierárquica
Ordem de entrada na equação, decidida pelo investigador
Exemplo: Introdução pela seguinte ordem - em 1º lugar,
VI1, depois VI2, e por último VI3
VI1 “fica com o crédito” das áreas a e b
VI2 “fica com o crédito” de c e d
VI3 “fica com o “crédito” de e
38 Célia M. D. Sales - UAL
39. Regressão sequencial ou hierárquica
Cada variável é avaliada quanto
A sua contribuição única (para explicar a variabilidade da VD)
A sobreposição de contribuições que ainda não foi explicada
A interpretação dependerá da ordem de entrada!
39 Célia M. D. Sales - UAL
40. Regressão sequencial ou hierárquica
Ordem de entrada de variáveis
Pode realizar-se
Variável a variável, uma de cada vez
Por blocos de variáveis
Critérios de entrada
Critérios teóricos, de acordo com as perguntas de
investigação.
Exemplos de opções
40 Célia M. D. Sales - UAL
41. Regressão sequencial ou hierárquica
Ordem de entrada de variáveis
Colocar em 1º lugar as VI que têm maior importância teórica,
ou que são preditores mais importantes (de acordo com
investigação anterior), ou as variáveis manipuladas (em
desenhos experimentais).
Ex: Para predizer o sucesso como jogador de basquetebol,
sabe-se que a altura é mais importante que o treino; então a
variável altura tem prioridade de entrada.
41 Célia M. D. Sales - UAL
42. Regressão sequencial ou hierárquica
Ordem de entrada de variáveis
Colocar em 1º lugar as VI menos importantes, ou “de ruído”; colocar no final as
mais importantes
Exemplo:
Estudo para predizer a velocidade de leitura (VD), a partir de 3 VI’s: Intensidade e
duração de um curso de leitura (variáveis importantes) e velocidade inicial de
leitura antes do curso (variável “parasita”).
Interessa saber se, para além da velocidade inicial, a intensidade e duração do
curso são capazes de predizer a velocidade de leitura.
1ª variável a entrar na equação:Velocidade inicial (modelo 1 prediz a velocidade
de leitura em função da velocidade inicial de leitura na amostra)
Depois, as VI importantes (por exemplo, em bloco): modelo 2 prediz a velocidade
de leitura
42 Célia M. D. Sales - UAL
43. Regressão estatística
A ordem de entrada das variáveis, dada pela ordem das
correlações semi-parciais (mais elevada, entra em 1º
lugar)
Computador “decide”
Opção menos usada em Ciências Sociais; controversa.
43 Célia M. D. Sales - UAL
44. Comparação dos três
métodos de
regressão
(b) Regressão standard
(c) Regressão hierárquica
(d) Regressão estatística
Tabachnick & Fidell,
2007, p. 127
44 Célia M. D. Sales - UAL
45. Que método escolher?
(Tabachnick & Fidell, 2007, p. 143)
“Para simplesmente medir relações entre variáveis e
responder à questão básica da correlação múltipla, o
método a eleger é a Regressão Múltipla Standard
No entanto, a Regressão Múltipla Standard é “ateórica”
(…)
Razões para usar a regressão hierárquica são teóricas ou
para testar hipóteses explícitas”
Testar hipóteses sobre a proporção de variância atribuída a
algumas VI’s para além da variância devida às VI’s já incluídas na
equação
45 Célia M. D. Sales - UAL
46. Exemplo de adequação do método de
regressão às perguntas de investigação
VD= Compreensão exame de licenciatura(COMPR)
Preditores: Motivação Profissional (MOTIV), qualificações técnicas (QUAL)
e performance nas cadeiras do curso (GRADE)
Regressão Múltipla Standard
1. Qual a intensidade da relação global entre COMPR e o conjunto das
VI’s MOTIV, QUAL e GRAD?
2. Qual a contribuição única de cada VI para essa relação?
Regressão Sequencial ou hierárquica
(ordem de entrada: QUAL e GRADE primeiro, MOTIV depois)
Será que, eliminando estatisticamente as diferenças entre os
estudantes em QUAL e em GRADE, a variável MOTIV acresce
significativamente a predição de COMPR?
(Tabachnick & Fidell, 2007)
46 Célia M. D. Sales - UAL
47. Validação do modelo de
regressão linear
Model fit
Análise dos pressupostos
47 Célia M. D. Sales - UAL
48. Validação do modelo
Depois de estimarmos os coeficientes de regressão,
precisamos de avaliar dois aspectos:
1. Model fit
O modelo ajusta-se bem aos dados, ou é influenciado por
alguns casos?
2. Generalização
O modelo pode-se generalizar a outras amostras?
Implica verificar o cumprimento dos pressupostos da análise
de regressão
48 Célia M. D. Sales - UAL
49. Diagnóstico do Model fit
O Modelo ajusta-se bem aos dados da amostra?
Dois procedimentos:
Análise dos resíduos estandardizados
Diagnóstico de outliers
Cook’s distance
Diagnóstico de influential cases
49 Célia M. D. Sales - UAL
50. Model fit e outliers
Outlier
Caso que difere substancialmente da maior parte dos restantes
dados
Afecta os coeficientes de correlação estimados pelo modelo
Field (2010)
50 Célia M. D. Sales - UAL
51. Model fit e outliers
Como detectar um outlier?
O modelo fará uma “má” estimativa de um outlier, i.e., com
maior erro
Um caso com um resíduo elevado, pode ser um outlier
Resíduos estardardizados
Resíduos transformados em Z-Scores
Em média, 95% dos resíduos estandardizados situam-se entre
±2
99% dos resíduos estandardizados situa-se entre ± 2,5
Outlier
Qualquer caso que tenha resíduos estandardizados com valor
absoluto igual ou superior a 3, é provavelmente um outlier
51 Célia M. D. Sales - UAL
52. Model fit e influencial cases
Exemplo de influencial case
(Field, 2010)
A recta a tracejado teria um
ajustamento óptimo aos
dados
A existência de um único
caso, altera a recta de
regressão, que piora o
ajustamento
Este caso é detectado pela
análise de resíduos?
Não!
Há algum caso que, se fosse
apagado, melhoraria
substancialmente o modelo?
53. Model fit: Diagnóstico de influencial cases
Cook’s Distance
Mede a influência de um caso único no modelo global
Influência de um caso sobre a capacidade do modelo para predizer
todos os casos
Valores absolutos maiores que 1 podem reflectir a existência
desta influência
(Field, 2010)
53 Célia M. D. Sales - UAL
54. No SPSS
Resíduos
estandardizados
Cook’s distance
54 Célia M. D. Sales - UAL
55. O que fazer quando existem problemas de
ajustamento? (Field, 2010)
Estes diagnósticos permitem-nos saber se o modelo se
ajusta bem aos dados da amostra
NÃO são uma forma de justificar a remoção de casos
para conseguir um modelo melhor!
Outlier significativo com Cook’s distance <1
Não apagar, porque não tem efeito mt grande no modelo
Convém estudar esses pontos para compreender porque não
se ajustam ao modelo
55 Célia M. D. Sales - UAL
56. Generalização
Validação dos pressupostos
1. Relação entre as variáveis independentes
Não existência de multicolinearidade
Os preditores não podem ter correlações elevadas
2. Pressupostos respeitantes aos resíduos
Homocedasticidade
Para cada valor dos preditores, a variância do erro deve ser
constante
Independência dos erros
Para cada par de observações, os erros não estão
correlacionados
Erros seguem uma distribuição normal
56 Célia M. D. Sales - UAL
57. Multicolinearidade
Existe multicolinearidade quando os preditores estão
altamente correlacionados
Verifica-se através do diagnóstico da colinearidade:
Tolerância
VIF
57 Célia M. D. Sales - UAL
58. • A tolerâcia deve ser superior a 0.2 (Menard,
1995)
• VIF deve ser inferior a 10 (Myers, 1990)
Field (2010)
58 Célia M. D. Sales - UAL
59. Análise dos pressupostos dos resíduos
Inspecção gráfica dos resíduos
1. Homocedasticidade / Independência de erros
Gráfico ZRESID vs. ZPRED
2. Normalidade dos erros
Gráfico Normal Probability
59 Célia M. D. Sales - UAL
62. Normalidade dos erros: Histogramas
Bom Mau
Fonte: Field (2009)
62 Célia M. D. Sales - UAL
63. Normalidade dos erros: Gráfico Normal
Probability
Normal P-P Plot of Regression
Standardized Residual
Dependent Variable: Outcome
1.00
.75
Expected Cum Prob
.50
.25
0.00
0.00 .25 .50 .75 1.00
Observed Cum Prob
Bom Mau
Fonte: Field (2009)
63 Célia M. D. Sales - UAL
65. Métodos de regressão
Hierárquico (block enter)
Enter
Entrada simultânea
Stepwise:
Entrada sequencial com critério matemático
65 Célia M. D. Sales - UAL