Sei sulla pagina 1di 15

Modelos de regressão

Regressão linear simples


Especificação e pressupostos

O modelo de regressão é um dos métodos estatísticos mais usados para investigar a


relação entre variáveis. Como exemplo onde o modelo de regressão pode ser de
grande utilidade, considere a seguinte situação: suponha que temos a classificação do
exame de Matemática referente a um conjunto de alunos1, a qual passaremos a
designar por proficiência. Também sabemos qual é o nível socio-económico de cada
um deles. O gráfico de dispersão (2.1) apresentado mostra essas variáveis no eixo dos
Y’s e no eixo dos X’s, respectivamente. Cada ponto do gráfico corresponde ao par
ordenado (proficiência, nível socio-económico) de cada aluno.

Grafico 2.1 – Dispersão proficiência X status socioeconómico


A análise do gráfico leva-
800,00
nos a suspeitar que a
700,00 classificação do aluno está
relacionada com a
Proficiência em Matemática

600,00
situação socio-económica,

500,00
pois observa-se uma
tendência moderada
400,00
indicando que alunos que
atingem proficiência mais
300,00

elevada também têm


200,00 status socio-económico
mais elevado. A
100,00
correlação entre as
20 40 60 80
In. Socio-Econ. Index of father or mother(ISEI) variáveis é 0,37.

Os Gráficos G.2 e G.3 mostram os histogramas das variáveis e algumas estatísticas


descritivas são apresentadas na tabela G.1.

1
Dados PISA2000, dados portugueses. Plano amostral não considerado.
Grafico G.2 – Histograma ISEI

1.000

800
Frequency

600

400

200

Mean = 42,06
0 Std. Dev. = 15,502
0 20 40 60 80 100 N = 2.444
In. Socio-Econ. Index of father or mother
(ISEI)

Grafico G.3 – Histograma Proficiência

250

200
Frequency

150

100

50

Mean = 458,5009
Std. Dev. = 89,17951
0 N = 2.545
100,00 200,00 300,00 400,00 500,00 600,00 700,00 800,00
Proficiência em Matemática
Tabela G.1 – Estatísticas descritivas

ISEI Proficiência
N Valid 2444 2545
Missing 101 0
Mean 42,06 458,5009
Median 37,00 461,9600
Std. Deviation 15,502 89,17951
Skewness ,825 -,224
Kurtosis ,097 -,181

Considere Y a variável aleatória que representa a proficiência em Matemática, sendo


yi o valor observado dessa variável para o aluno i, e xi representa a situação
económica desse mesmo aluno (i varia de 1 a n). A equação da recta que representa a
relação entre as duas variáveis em estudo é:

y i = β 0 + β 1 xi (2.1)

onde β0 é a ordenada na origem e β1 é o coeficiente de inclinação. Observe a recta


ilustrada no gráfico (G.4).

Gráfico G.4 - Recta proficiência X ISEI


800,00
O gráfico mostra a relação
linear entre as variáveis 700,00

“proficiência” e “nível

Proficiência em Matemática
600,00
socio-económico”. De
acordo com essa relação, o 500,00

acréscimo de uma unidade


no nível socioeconómico 400,00

do aluno corresponde, em
300,00

média, ao acréscimo de
2,088 unidades na sua 200,00
R Sq Linear = 0,137

proficiência.
100,00

20 40 60 80
In. Socio-Econ. Index of father or mother(ISEI)

Repare que a maioria dos pontos marcados no gráfico G.4 não pertencem à recta. A
equação (1.1) deveria considerar os desvios dos pontos à recta. Designaremos por
erro2, ε, à diferença entre o valor observado de Y e a recta. Assim, um modelo mais
plausível, que incorpora o termo do erro, é:

y i = β 0 + β 1 xi + ε i (2.2).

Os dois primeiros termos do 2º membro da equação, β 0 + β 1 xi , correspondem à

componente determinística, que também pode ser designada por componente


explicativa do modelo. Depois de conhecidos os valores dos parâmetros, as
estimativas, esta componente constitui o preditor linear do modelo.

2
O erro pode ser encarado como a soma de duas componentes: o erro de medição e o erro
amostral/aleatório/estocástico. O erro de medição deve-se ao facto de que tanto a medição de Y como
de X poder ser deficiente. Por exemplo, nós gostaríamos de usar a rendimento familiar como variável
de status económico. No entanto, principalmente entre o grupo de rendimentos mais elevados, há uma
tendência generalizada na sub-declaracão do valor. Usualmente, a variável “escolaridade” funciona
como uma boa proxy de status económico.
O erro amostral, aleatório ou estocástico deve-se à irreplicabilidade dos fenómenos em estudo. Nas
Ciências Sociais é impossível realizar uma experiência controlada, pelo que a componente do erro
aleatório ou estocástico responde pelas diferenças imprevisíveis que resultariam caso o experimento se
realizasse continuadamente. Este termo pode ser interpretado como a representação da influência, em
Y, de muitas variáveis omissas no modelo.
A equação (2.2) é designada por modelo de regressão linear3. A variável Y é chamada
de “variável dependente” ou “variável resposta”, e a variável X é chamada de
“variável independente”, “variável explicativa”, ou ainda “variável preditora”. Por
simplicidade, daqui em diante usaremos “variável resposta” para nos referirmos a Y, e
“variável explicativa” para nos referirmos a X. Dado que a equação (2.2) inclui apenas
uma variável explicativa, o modelo pode ser denominado por modelo de regressão
linear simples (MRLS).

Os pressupostos do modelo

À semelhança do que acontece com todos os outros modelos estatísticos, o modelo de


regressão é baseado em alguns pressupostos. Os principais pressupostos recaem sobre
a componente erro do modelo, ε , e a verificação ou validação é realizada através dos
resíduos, ê. Enunciam-se seguidamente os principais pressupostos:

(a) Assume-se que o erro tem média nula e variância constante ou, dito de outro
modo, o erro é homocedástico;
(b) Também se assume que os elementos do erro são independentes entre si. No
entanto, se há estrutura de agrupamento, por exemplo por escola, então o
pressuposto já não é válido;
(c) O erro deve ter uma distribuição Normal para que se possa usar a inferência
estatística e generalizar à população os resultados obtidos a partir da amostra.

Em síntese, os pressupostos são formalizados do seguinte modo:


ε ~ NID(0, σ 2 )

3
O adjectivo “linear” é usado para indicar que o modelo é linear nos parâmetros β0, β1 e não porque y
seja uma função linear de x1. . Veremos na seção … como y tem uma relação não linear com as
variáveis explicativas e ainda assim o modelo é tratado como sendo linear nos parâmetros.
Equação preditiva
O principal objectivo dos modelos de regressão é a estimação dos parâmetros
desconhecidos β0, β1. A este processo é comum chamar-se de “ajuste do modelo aos
dados”. A tabela G.24 contém as estimativas dos parâmetros e respectivas estimativas
do erro padrão, as estimativas dos coeficientes padronizados (estudar-se-á adiante o
que isto significa) o valor da estatística t-Student e respectivo valor de prova. O valor
da estatística de teste é determinado tendo subjacentes hipóteses do tipo:
H0 : β1 = 0
H1 : β1 ≠ 0

Tabela G.2

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.


1 (Constant) 374,420 4,757 78,714 ,000
In. Socio-
Econ. Index of
2,088 ,106 ,370 19,680 ,000
father or
mother
a Dependent Variable: Plausible value in mathematics

As estimativas dos parâmetros β0, β1 são, respectivamente, 374,420 e 2,088


escrevendo-se: βˆ 0 = 374,420 e βˆ1 = 2,088 . Recorde que β0 é a ordenada na origem e β1 o
coeficiente de inclinação. Perante as estimativas obtidas, o valor esperado da
proficiência dos alunos com situação socio-económica igual a 0 (origem) é 374,420
valores; por cada unidade adicional na situação socio-económica a proficiência do
aluno é acrescida, em média, em 2,088 unidades (da escala de proficiência). O leitor
deverá questionar-se: “o que é que se entende por alunos com situação socio-
económica igual a 0 se na amostra não há ninguém nessa situação?”. A pergunta é
pertinente e esclarecer-se-á na secção “Interpretação dos resultados”.

O valor estimado ou ajustado de Y, é dado pela equação preditiva do modelo, como


segue:
yˆ i = 374,42 + 2,088 x i (2.4).

4
Obtida no SPSS por aplicação da sequência de comandos …
O gráfico G.5, mostra a dispersão da proficiência predita pelo modelo,.

Gráfico G.5 – Dispersão de (y, ŷ )

800,00

O gráfico mostra a
700,00
dispersão da proficiência
observada e da 600,00

y observado
proficiência predita pelo 500,00

modelo. Compare-o com o 400,00

gráfico 2.1.
300,00
O desvio padrão de y é
89,18 e o desvio padrão de 200,00

ŷ é 32,38. 100,00

400,00 450,00 500,00 550,00


y predito pelo modelo

Resíduo é a diferença entre o y observado e o ŷ predito pela equação (2.4). O


resíduo, êi, é a estimativa do erro, εi, e é dado pela equação (2.5).

êi = y i − ( βˆ 0 + βˆ1 * xi ) (2.5).

O gráfico G.6 contém o histograma dos resíduos bem como a curva da distribuição
Normal.

Gráfico G.6 – Histograma dos resíduos


250

200
Frequency

150

100

50

Mean = -7,9842209E-13
Std. Dev. = 81,29735793
N = 2.444
0
-300,00000 -200,00000 -100,00000 0,00000 100,00000 200,00000
Unstandardized Residual

Considerando os casos sem valores omissos nas variáveis proficiência e ISEI5, as


médias e desvios padrão de y, ŷ e dos resíduos são apresentados na tabela G.3.
Determine a soma da variâncias de ŷ e dos resíduos e compare-a com a variância de
y.

Tabela G.3

Y Y predito Resíduo
N Valid 2444 2444 2444
Missing 0 0 0
Mean 462,2573 462,2573282 ,0000000
Std. Deviation 87,50698 32,37608000 81,29735793

A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados,


está relacionada com a estimativa dos parâmetros que tornem os resíduos tão
próximos de zero quanto possível. Observe que, se cada elemento êi fosse zero, o
valor de ŷ predito pelo modelo seria exactamente igual ao y observado. O mesmo é

5
Active o filtro com a condição ~missing(ISEI)
dizer que a componente determinística do modelo explicaria completamente o
fenómeno observado.

É usual quantificar a qualidade do ajuste do modelo a partir de alguma estatística,


como por exemplo a soma dos quadrados dos resíduos6, e escolher o modelo
correspondente à menor soma de quadrados. As estimativas devem ser tais de modo a

∑ (eˆ ) = ∑ (y ) 2
− ( βˆ 0 + βˆ1 * xi ) .
2
que minimizem i i
i i

Como determinar as estimativas dos parâmetros?

Estimação dos parâmetros de regressão através do Método dos


Mínimos Quadrados Ordinários (MQO)

Sejam B0 e B1 os estimadores de MQO dos parâmetros β 0 e β 1 , respectivamente. As


estimativas, β̂ 0 e β̂1 , são os valores resultantes de B0 e B1.

S ( β 0 , β 1 ) = ∑ ( y i − ( B0 + B1 * x i ) )
2

min S ( β 0 , β 1 )
 ∂S   

 ∂β 0
= 0  2 ∑ y i − nB0 − ∑ x i B1  = 0  nB0 + ∑ x i B1 =∑ y i
 
 ∑ y i − ∑i xi B1
B = i
 i i  i i
 ∂S    0
= 0 2 ∑ x i y i − ∑ x i B0 − ∑ x i2 B1  = 0∑ ∑i i 1 ∑i xi y i
   x B
i 0 + x 2
B =  n
 ∂β 1   i  i  −−−−
i i 

  −−−−

 B = Y − B X


n ∑i
xi yi − ∑ ∑
i
xi
i
yi
 B1 =
0 1
 2
 − − − −   




n ∑ x 2 
i −
 ∑ x i

i  i 

 B0 = Y − B1 X

 B = S XY
 1 S
 XX

onde :
S XY = ∑ [(xi − X )( y i − Y )]
n

i =1

S XX = ∑ [(xi − X )(xi − X )]
n

i =1

6
SQR, tal como definido no modelo ANOVA. Ver adiante.
[ ] S 
VAR βˆ1 = VAR  XY 
 S XX 
S
= σ 2 XX
2
S XX
σ2
=
S XX

Com VAR[Y | X ] = σ 2 .

[ ]
VAR βˆ 0 = VAR Y − βˆ1 X[ ]
[] [ ]
= VAR Y + X VAR βˆ1 − 2 XCOV Y , βˆ1
2
( )
Sabemos que VAR[Y ] = e considere que COV (Y , βˆ1 ) = 0 . Assim,
σ2
n

[ ] 1 X 2
VAR βˆ 0 = σ 2  +
 n S XX




Conhecendo um estimador de σ 2 poderá determinar os respectivos erros padrão.

Quando σ 2 é desconhecido a sua estimativa é obtida através da soma dos quadrados


dos resíduos (SQR). Um estimador não enviesado é dado por:

SQR
σˆ 2 = ,
n−2

onde n-2 é o número de graus de liberdade associado a SQR (dois graus de liberdade
estão associados às estimativas β̂ 0 e β̂ 1 ). A raíz quadrada de σˆ 2 é usualmente
designada por erro padrão da regressão.

Propriedades dos estimadores de Mínimos Quadrados Ordinários

Os estimadores MQO têm propriedades estatísticas importantes7.


1. São não-enviesados,
[ ]
E βˆ 0 = β 0
[ ]
E βˆ1 = β 1
2. Têm variância mínima quando comparados com todos os estimadores não-
enviesados que resultam de combinações lineares de yi.

7
Opcional: Teorema de Gauss-Markov.
Usando uma expressão anglo-saxónica, costuma dizer-se que os estimadores MQO
são estimadores BLUE, best linear unbiased estimators, onde best (melhor) significa
variância mínima.

Exemplo de aplicação: Considere os dados referentes ao orçamento corrente e ao


número de alunos de 12 instituições de ensino.

Y X
5000
3100 1500
1900 800
4200 2600
2300 1000
1200 600 4000

4900 2800
2800 1200
2100 900
1400 400 3000
2400 1300
2400 1200
3800 2000
2000
ORCAMENT

1000
0 1000 2000 3000

N_ALUNOS

Determine as estimativas do modelo de regressão linear simples com base nos


estimadores de mínimos quadrados ordinários.
Análise de Variância para o modelo de regressão

A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em


seguida.

Fonte de Graus de liberdade


variação dos Soma de desvios (gl)
dados quadráticos
Devida à (( ) ) 1
n
SQE = ∑ βˆ 0 + βˆ1 xi − Y
2

regressão i =1
(variação
explicada pela
regressão)
Resíduo ( ( )) n-2
n
SQR = ∑ y i − βˆ0 + βˆ1 xi
2

(variação i =1
residual “não
explicada”)
Total n
n-1
SQT = ∑ ( yi − Y ) 2
i =1

Escrito de outra forma,

Fonte de variação Graus de liberdade


dos dados Soma de desvios (gl)
quadráticos
Devida à regressão SQE = β̂ 1 S XY 1
(variação explicada
pela regressão)
Resíduo SQR = S YY − βˆ1 S XY n-2
(variação residual “não
explicada”)
Total SQT = S YY n-1

Verifique os valores da tabela seguinte com os dados do último exemplo de aplicação.

Model Sum of Squares df Mean Square F Sig.


1 Regression 13234383,362 1 13234383,362 257,086 ,000(a)
Residual 514783,304 10 51478,330
Total 13749166,667 11
a Predictors: (Constant), N_ALUNOS
b Dependent Variable: ORCAMENT
Interpretação dos resultados e inferência
Recorde a interpretação das estimativas obtidas do ajuste do MRLS aos dados do
PISA 2000: “Perante as estimativas obtidas, o valor esperado da proficiência dos
alunos com situação socio-económica igual a 0 (origem) é 374,420 valores;<…>”.
Com efeito, não existe na amostra qualquer indivíduo com nível socio-económico
igual a zero. Para dar interpretabilidade directa à estimativa de β0 proceda ao ajuste do
MRLS com a variável explicativa, ISEI, centrada na média8. A tabela G.4 contém as
estimativas obtidas.
Tabela G.4
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 462,257 1,645 281,041 ,000
ISEI_C 2,088 ,106 ,370 19,680 ,000

Observe que as únicas estimativas que se alteraram são as que dizem respeito à
ordenada na origem. O valor esperado da proficiência em Matemática de um aluno
com nível socio-económico igual a zero (que corresponde na realidade ao nível socio-
económico médio) é 462,257 valores.

800,00

700,00
Proficiência em Matemática

600,00

500,00

400,00

300,00

200,00
R Sq Linear = 0,137

100,00

-20,00 0,00 20,00 40,00


ISEI centrado na média

8
Crie uma nova variável usando o comando COMPUTE.
Sugestão: Experimente agora obter as estimativas dos parâmetros quando ambas as
variáveis estão padronizadas. Compare com a coluna “standardized coefficients” da
tabela G.4 e também com o coeficiente de correlação de Pearson.

Coeficiente de determinação
Quanto é que as variáveis explicativas usadas no modelo (a componente
determinística) explicam da variabilidade total da variável dependente? O que se
pretende saber é a capacidade explicativa do modelo. Se a capacidade explicativa do
modelo é elevada então o resíduo do modelo (efeitos não captados pela componente
determinística) é reduzido.

Geralmente, nos modelos de regressão linear a estatística usada para quantificar a


capacidade explicativa do modelo é o R2, designado por coeficiente de determinação.
Esta estatística constitui a proporção da variação explicada face à variação total da
variável dependente. Regra geral, escolhem-se os modelos com R2 mais elevado.

No modelo de regressão linear, a proporção da variação explicada é dada por:

Var explicada SQE SQT − SQR SQR


R2 = = = = 1−
Var total SQT SQT SQT
O coeficiente de determinação varia de 0 a 1, 0<=R2<=1. O seu valor é zero quando
SQE também é zero e SQR=SQT. O valor de R2 é 1 quando SQE=SQT e SQR=0.

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,370a ,137 ,137 81,31400
a. Predictors: (Constant), ISEI_C

O coeficiente de determinação do modelo anterior é 0,137.

Calcule agora a raíz quadrada de R2. Que estatística obtém?


Sim, obtém o coeficiente de correlação linear de Pearson. O coeficiente de
determinação do modelo de regressão linear simples é o quadrado do coeficiente de
correlação das duas variáveis envolvidas no modelo.