Introdução à Regressão Linear: Conceitos, Modelos e Análise

Introdução à Regressão Linear

Célia M. D. Sales - UAL

Conceitos básicos
Notação nos modelos estatísticos
Letras gregas
parâmetros, i.e., valores « verdadeiros » na população, que não
conhecemos e que pretendemos estimar com o modelo
Ex: β
Letras minúsculas
estimativas dos parâmetros, que são calculadas a partir dos dados e
que fazem parte da equação linear do modelo
Ex: b
Letras maiúsculas
variáveis (ex :Y, X1)
Y é sempre a variável que o modelo procura estimar (VD)
X são sempre os preditores (VI) de Y
O « chapéu » do Y indica que é uma estimativa do valor de Y

2 Célia M. D. Sales - UAL

O que é a Regressão
Regressão linear
Modelo para predizer o valor de uma variável (v. dependente),
a partir de outra (v. independente ou preditor)
Regressão múltipla
Extensão da regressão linear
Usa vários preditores, para estimar o valor da variável
dependente
Modelos lineares
A relação entre as variáveis é descrita por uma recta


Lógica da análise de regressão
Objectivo
Predizer uma variável dependente (Y), a partir do
conhecimento de uma ou mais variáveis independentes
Criar um modelo estatístico da relação entre essas variáveis
Lógica de comparação de modelos
Para sabermos se o modelo criado é útil (é bom para prever
Y), vamos compará-lo com outro modelo mais simples
O melhor modelo é o que tiver menor erro
Qual o melhor modelo estatístico para prever o valor de
Y, a partir dos dados da amostra, sem usar variáveis
independentes?
A média do próprio Y


Comparação de modelos
12 Modelo (predição de Y)
10

Nº Cartões Crédito 8

6

4

2

0
0 1 2 3 4 5 6 7 8 9
Tamanho Família Erro de predição (ei)

Yi = β0 + εi
VD
Modelo Erro
(resultados)

Comparação de modelos
Outro modelo mais complexo
Modelo (nossa predição b0)
12
12

Nº Cartões Crédito

10
10
8
8
6
6
4
4
2
2
0
0
0 2 4 6 8 10
0 2 4 6 8 10
Tamanho Família
Tamanho Família

Yi = β0 + εi Yi = β0 + β1 X i 1 + εi

Número de parâmetros a estimar = 1 Número de parâmetros a estimar = 2

Modelo Contraído Modelo Aumentado


Exemplo (Hair et al, 2010)
Estudo sobre o uso do cartão de crédito
Objectivo: Determinar os factores que afectam o nº de cartões de
crédito usados pelas famílias
3 potenciais factores: O tamanho da família, o rendimento familiar e
o nº de automóveis possuídos pela família
Dados recolhidos em 8 famílias

Variável dependente (y)
Nº de cartões de crédito
Variáveis independentes (X)
Tamanho da família (v1)
Rendimento (v2)
Nº de automóveis (v3)


1) Relação linear entre Y e X?
A inspecção visual dos diagramas de dispersão revela que
existe uma relação linear entre o nº de cartões de
crédito das famílias (Y) e o tamanho da família (v1), o
rendimento (v2) e o nº de automóveis possuídos pela
família


2) Análise da Matriz R
Caso procuremos apenas uma variável preditora
A variável que melhor prediz Y será aquela com correlação
mais elevada

Neste caso, escolheríamos “dimensão da família”

Recta de regressão com 1 predictor

Mudança no uso do
cartão de crédito (y)
quando se aumenta 1
unidade na família (v1)

b1 na equação da recta
Coeficiente de
regressão de v1

b0
Valor de y quando x=0


Representação matemática da recta

0 1 1
b0
Ordenada na origem (intercept)
Ponto em que a recta de regressão cruza o eixo das ordenadas Y
valor de Y quando X = 0

b1
Coeficiente de regressão de X
Declive (gradient) da recta de regressão
Mudança em Y, quando X muda 1 unidade
Indica direcção (+ ou -) e força (valor absoluto) da relação


Ordenadas na origem e coeficientes de
regressão. Representação gráfica.

(Field, 2010)


Exercício
1 ) Escreva a equação de
predição de Y em função de v1

2 ) Numa família de 7
pessoas, qual o nº estimado
de cartões de crédito?
b1 = 0,97

b0 = 2,87


Significância estatística do modelo
Depois de criar um modelo, precisamos avaliar até que ponto ele é bom
(se é capaz de predizer Y e se é generalizável)
Comparação modelo contraído vs. modelo aumentado

Três procedimentos básicos:
R2
Quanto da variação de Y é explicada pelo modelo aumentado?
O modelo é preciso a predizer Y?

F ANOVA
A variação de Y explicada (pelo modelo aumentado) é significativamente maior do que
variação de Y que não é explicada (pelo modelo aumentado)?
Globalmente, o modelo é generalizável?

t-Student
Cada parâmetro do modelo é significativamente diferente de zero?
O impacto de cada preditor na equação é significativo?
O impacto de cada preditor é generalizável?


Modelo contraído Modelo aumentado
12
12

10
10
8
8
6
6
4
4
2
2
0
0
0 2 4 6 8 10
0 2 4 6 8 10
Tamanho Família
Tamanho Família

Que modelo é melhor para predizer Y? O que tiver menor erro (desvios ou resíduos)

Erro do modelo contraído (média)
Variação total de Y Erro do modelo aumentado (regressão)
SSt Variação de Y não explicada pelo modelo
SSr

R2
Variação total de Y Variação de Y não Variação de Y explicada
SSt - explicada pelo modelo = pelo modelo
SSr SSm

No nosso exemplo:

Quanto da variação total de Y é explicada pelo modelo?

Variação de Y explicada
pelo modelo
SSm 16,5
R2 = = = 0,75
Variação total de Y 22,0 O modelo explica
Coeficiente de para explicar
determinação 75% da variação de Y
16 SSt Célia M. D. Sales - UAL

R2
Varia entre 0-1
R2 = 0, o modelo não é melhor do que a média, a prever o
valor de Y
R2 = 1, o modelo oferece uma predição perfeita de Y
Dá-nos informação sobre o rigor global da predição do
nosso modelo
Quanto maior o seu valor, melhor!


No SPSS


Regressão linear simples no SPSS

r R2 ajustado
Coeficiente de R2
correlação linear de Quanta variação de Y
Pearson, entre Y e X é explicada pelo
modelo


F - ANOVA
Uma outra forma de avaliarmos a qualidade do nosso modelo
é comparando a variação de Y que é explicada pelo modelo,
com a variação de Y que não é explicada pelo modelo
O modelo será tanto melhor, quanto maior seja a variação explicada,
proporcionalmente à não explicada

Variação de Y explicada
pelo modelo
SSm

Variação de Y não
explicada pelo modelo
SSr


F - ANOVA
Médias dos desvios quadrados
Dado que as somas dos quadrados (SS) dependem do nº de
resíduos somados, utiliza-se a sua média: Mean Squares (MS)
A média calcula-se dividindo as somas dos quadrados pelos
graus de liberdade

F= MS M
MS R
Estatística
ANOVA


F - ANOVA
O teste de ANOVA
Verifica se a variância explicada pelo modelo (SSm) é
significativamente maior do que o erro do modelo (SSr)
p<0.05
Globalmente, o modelo de regressão (modelo aumentado) é
significativamente melhor do que a média (modelo contraído),
para predizer os valores de Y
O modelo é generalizável a outras amostra
Significância estatística do modelo global


ANOVA no SPSS

SSM SSR MSM

Significância
MSR estatística do
SST modelo global


t-Student
A ANOVA diz-nos se, globalmente o modelo é bom para
predizer Y (comparando com a média)
Não nos informa acerca da contribuição individual de cada
variável independente (preditor) na equação

V1 não tem impacto em Y, se b1= 0
Para que um preditor tenha impacto na predição de Y, o seu
coeficiente de correlação (b) tem que ser significativamente
diferente de zero
t-Student testa a hipótese nula de que b=0
Calcula-se para cada preditor da equação


t-Student no SPSS

Significância
estatística de b1

b0
b1 b1 em unidades de
desvio-padrão


REGRESSÃO LINEAR MÚLTIPLA


Regressão Múltipla: Representação
matemática
Regression variate
Combinação linear das variáveis independentes que melhor
prediz a variável dependente

0 1 1
b0
Ordenada na origem
Valor de Y quando todos os Xs = 0
b1
Coeficiente de regressão da variável 1


Modelo com 2 preditores

b2

b0
b1


Da correlação bivariada à correlação
multivariada


Principais passos da regressão linear
múltipla
1) Escolha das variáveis
2) Construção de um modelo inicial significativo
Escolha do método de construção do modelo
3) Validação do modelo inicial
4) Procura do “melhor modelo”
Construir modelos alternativos significativos
Validar
Comparar
5) Construção e interpretação do modelo final
6) Reportar resultados


Escolha de variáveis

Requisitos


Critérios de escolha das variáveis
Orientados pela teoria
Devem obedecer aos requisitos da análise


Requisitos das variáveis
Tipos de variáveis
Y deve ser variável contínua
Preditores contínuos (podem ser dicotómicos)
Medidas independentes
Todos os valores Y correspondem a diferentes pessoas
Variância
Todos os preditores têm variância diferente de zero


Construção de modelo inicial
significativo
Métodos de (construção de modelos de) regressão


Métodos de regressão
3 métodos:
1. Regressão Múltipla Standard
Todos os preditores entram simultaneamente na equação de regressão
2. Regressão Múltipla Sequencial ou Hierárquica
Investigador decide a ordem pela qual as variáveis entram no modelo
3. Regressão Múltipla Estatística (Stepwise)
Preditores são seleccionados com base em critérios matemáticos
(correlação semi-parcial com Y)

Diferença entre os métodos:
O que acontece à variabilidade devida ao efeito comum das VI
(quando estão correlacionadas entre si)
Critérios da ordem de entrada das VI na equação


Regressão Standard
Todas as VI entram ao mesmo tempo na análise
Cada VI é avaliada quanto
“what it adds to the prediction of the DV that is different from
predictability afforded by all other IV” (Tabachnick & Fidell
(2007, p.136)
A sua contribuição única


Regressão Standard
Interpretação
Se houver grande sobreposição entre VI’s
A correlação bivariada entre VD e VI pode ser
elevada
No entanto, no modelo, a contribuição é pequena
Exemplo:VI 2
A interpretação tem que ter em conta:
correlação total entre a VI e a VD (dada pela correlação
bivariada)
correlação única (dada pelo coeficiente de regressão no
modelo)


Regressão sequencial ou hierárquica
Ordem de entrada na equação, decidida pelo investigador
Exemplo: Introdução pela seguinte ordem - em 1º lugar,
VI1, depois VI2, e por último VI3
VI1 “fica com o crédito” das áreas a e b
VI2 “fica com o crédito” de c e d
VI3 “fica com o “crédito” de e


Cada variável é avaliada quanto
A sua contribuição única (para explicar a variabilidade da VD)
A sobreposição de contribuições que ainda não foi explicada

A interpretação dependerá da ordem de entrada!


Ordem de entrada de variáveis
Pode realizar-se
Variável a variável, uma de cada vez
Por blocos de variáveis

Critérios de entrada
Critérios teóricos, de acordo com as perguntas de
investigação.

Exemplos de opções



Colocar em 1º lugar as VI que têm maior importância teórica,
ou que são preditores mais importantes (de acordo com
investigação anterior), ou as variáveis manipuladas (em
desenhos experimentais).

Ex: Para predizer o sucesso como jogador de basquetebol,
sabe-se que a altura é mais importante que o treino; então a
variável altura tem prioridade de entrada.



Colocar em 1º lugar as VI menos importantes, ou “de ruído”; colocar no final as
mais importantes

Exemplo:

Estudo para predizer a velocidade de leitura (VD), a partir de 3 VI’s: Intensidade e
duração de um curso de leitura (variáveis importantes) e velocidade inicial de
leitura antes do curso (variável “parasita”).

Interessa saber se, para além da velocidade inicial, a intensidade e duração do
curso são capazes de predizer a velocidade de leitura.

1ª variável a entrar na equação:Velocidade inicial (modelo 1 prediz a velocidade
de leitura em função da velocidade inicial de leitura na amostra)
Depois, as VI importantes (por exemplo, em bloco): modelo 2 prediz a velocidade
de leitura

Regressão estatística
A ordem de entrada das variáveis, dada pela ordem das
correlações semi-parciais (mais elevada, entra em 1º
lugar)
Computador “decide”
Opção menos usada em Ciências Sociais; controversa.


Comparação dos três
métodos de
regressão

(b) Regressão standard

(c) Regressão hierárquica

(d) Regressão estatística

Tabachnick & Fidell,

2007, p. 127


Que método escolher?
(Tabachnick & Fidell, 2007, p. 143)
“Para simplesmente medir relações entre variáveis e
responder à questão básica da correlação múltipla, o
método a eleger é a Regressão Múltipla Standard
No entanto, a Regressão Múltipla Standard é “ateórica”
(…)
Razões para usar a regressão hierárquica são teóricas ou
para testar hipóteses explícitas”
Testar hipóteses sobre a proporção de variância atribuída a
algumas VI’s para além da variância devida às VI’s já incluídas na
equação


Exemplo de adequação do método de
regressão às perguntas de investigação
VD= Compreensão exame de licenciatura(COMPR)
Preditores: Motivação Profissional (MOTIV), qualificações técnicas (QUAL)
e performance nas cadeiras do curso (GRADE)

Regressão Múltipla Standard
1. Qual a intensidade da relação global entre COMPR e o conjunto das
VI’s MOTIV, QUAL e GRAD?
2. Qual a contribuição única de cada VI para essa relação?

Regressão Sequencial ou hierárquica
(ordem de entrada: QUAL e GRADE primeiro, MOTIV depois)
Será que, eliminando estatisticamente as diferenças entre os
estudantes em QUAL e em GRADE, a variável MOTIV acresce
significativamente a predição de COMPR?

(Tabachnick & Fidell, 2007)


Validação do modelo de
regressão linear
Model fit
Análise dos pressupostos


Validação do modelo
Depois de estimarmos os coeficientes de regressão,
precisamos de avaliar dois aspectos:
1. Model fit
O modelo ajusta-se bem aos dados, ou é influenciado por
alguns casos?
2. Generalização
O modelo pode-se generalizar a outras amostras?
Implica verificar o cumprimento dos pressupostos da análise
de regressão


Diagnóstico do Model fit
O Modelo ajusta-se bem aos dados da amostra?

Dois procedimentos:
Análise dos resíduos estandardizados
Diagnóstico de outliers
Cook’s distance
Diagnóstico de influential cases


Model fit e outliers
Outlier
Caso que difere substancialmente da maior parte dos restantes
dados
Afecta os coeficientes de correlação estimados pelo modelo

Field (2010)

Model fit e outliers
Como detectar um outlier?
O modelo fará uma “má” estimativa de um outlier, i.e., com
maior erro
Um caso com um resíduo elevado, pode ser um outlier
Resíduos estardardizados
Resíduos transformados em Z-Scores
Em média, 95% dos resíduos estandardizados situam-se entre
±2
99% dos resíduos estandardizados situa-se entre ± 2,5
Outlier
Qualquer caso que tenha resíduos estandardizados com valor
absoluto igual ou superior a 3, é provavelmente um outlier


Model fit e influencial cases

Exemplo de influencial case
(Field, 2010)
A recta a tracejado teria um
ajustamento óptimo aos
dados
A existência de um único
caso, altera a recta de
regressão, que piora o
ajustamento
Este caso é detectado pela
análise de resíduos?
Não!
Há algum caso que, se fosse
apagado, melhoraria
substancialmente o modelo?

Model fit: Diagnóstico de influencial cases
Cook’s Distance
Mede a influência de um caso único no modelo global
Influência de um caso sobre a capacidade do modelo para predizer
todos os casos

Valores absolutos maiores que 1 podem reflectir a existência
desta influência

(Field, 2010)


No SPSS
Resíduos
estandardizados
Cook’s distance


O que fazer quando existem problemas de
ajustamento? (Field, 2010)
Estes diagnósticos permitem-nos saber se o modelo se
ajusta bem aos dados da amostra
NÃO são uma forma de justificar a remoção de casos
para conseguir um modelo melhor!

Outlier significativo com Cook’s distance <1
Não apagar, porque não tem efeito mt grande no modelo
Convém estudar esses pontos para compreender porque não
se ajustam ao modelo


Generalização
Validação dos pressupostos
1. Relação entre as variáveis independentes
Não existência de multicolinearidade
Os preditores não podem ter correlações elevadas

2. Pressupostos respeitantes aos resíduos
Homocedasticidade
Para cada valor dos preditores, a variância do erro deve ser
constante
Independência dos erros
Para cada par de observações, os erros não estão
correlacionados
Erros seguem uma distribuição normal


Multicolinearidade
Existe multicolinearidade quando os preditores estão
altamente correlacionados
Verifica-se através do diagnóstico da colinearidade:
Tolerância
VIF


• A tolerâcia deve ser superior a 0.2 (Menard,
1995)

• VIF deve ser inferior a 10 (Myers, 1990)
Field (2010)

Análise dos pressupostos dos resíduos
Inspecção gráfica dos resíduos

1. Homocedasticidade / Independência de erros
Gráfico ZRESID vs. ZPRED

2. Normalidade dos erros
Gráfico Normal Probability


No SPSS


Homoscedasticidade
ZRESID vs. ZPRED

Bom Mau
Fonte: Field (2009)

Normalidade dos erros: Histogramas

Bom Mau
Fonte: Field (2009)

Normalidade dos erros: Gráfico Normal
Probability

Normal P-P Plot of Regression
Standardized Residual
Dependent Variable: Outcome
1.00

.75

Expected Cum Prob
.50

.25

0.00
0.00 .25 .50 .75 1.00

Observed Cum Prob

Bom Mau
Fonte: Field (2009)

Procura do “melhor modelo”


Métodos de regressão
Hierárquico (block enter)

Enter
Entrada simultânea
Stepwise:
Entrada sequencial com critério matemático


Introdução à Regressão Linear: Conceitos, Modelos e Análise

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

More from Célia M. D. Sales

More from Célia M. D. Sales (18)

Recently uploaded

Recently uploaded (20)

Introdução à Regressão Linear: Conceitos, Modelos e Análise