MRLS

Modelos de regressão
Regressão linear simples

Especificação e pressupostos
O modelo de regressão é um dos métodos estatísticos mais usados para investigar a

relação entre variáveis. Como exemplo onde o modelo de regressão pode ser de
grande utilidade, considere a seguinte situação: suponha que temos a classificação do
exame de Matemática referente a um conjunto de alunos1, a qual passaremos a
designar por proficiência. Também sabemos qual é o nível socio-económico de cada
um deles. O gráfico de dispersão (2.1) apresentado mostra essas variáveis no eixo dos
Y’s e no eixo dos X’s, respectivamente. Cada ponto do gráfico corresponde ao par
ordenado (proficiência, nível socio-económico) de cada aluno.
Grafico 2.1 – Dispersão proficiência X status socioeconómico

A análise do gráfico leva-
800,00
nos a suspeitar que a
700,00 classificação do aluno está
relacionada com a
Proficiência em Matemática
600,00
situação socio-económica,
500,00
pois observa-se uma
tendência moderada
400,00
indicando que alunos que
atingem proficiência mais
300,00
elevada também têm

200,00 status socio-económico
mais elevado. A
100,00
correlação entre as
20 40 60 80
In. Socio-Econ. Index of father or mother(ISEI) variáveis é 0,37.
Os Gráficos G.2 e G.3 mostram os histogramas das variáveis e algumas estatísticas

descritivas são apresentadas na tabela G.1.
1
Dados PISA2000, dados portugueses. Plano amostral não considerado.
Grafico G.2 – Histograma ISEI
1.000
800
Frequency
600
400
200
Mean = 42,06
0 Std. Dev. = 15,502
0 20 40 60 80 100 N = 2.444
In. Socio-Econ. Index of father or mother
(ISEI)
Grafico G.3 – Histograma Proficiência
250
200
Frequency
150
100
50
Mean = 458,5009
Std. Dev. = 89,17951
0 N = 2.545
100,00 200,00 300,00 400,00 500,00 600,00 700,00 800,00
Tabela G.1 – Estatísticas descritivas
ISEI Proficiência
N Valid 2444 2545
Missing 101 0
Mean 42,06 458,5009
Median 37,00 461,9600
Std. Deviation 15,502 89,17951
Skewness ,825 -,224
Kurtosis ,097 -,181
Considere Y a variável aleatória que representa a proficiência em Matemática, sendo

yi o valor observado dessa variável para o aluno i, e xi representa a situação
económica desse mesmo aluno (i varia de 1 a n). A equação da recta que representa a
relação entre as duas variáveis em estudo é:
y i = β 0 + β 1 xi (2.1)
onde β0 é a ordenada na origem e β1 é o coeficiente de inclinação. Observe a recta

ilustrada no gráfico (G.4).
Gráfico G.4 - Recta proficiência X ISEI

800,00
O gráfico mostra a relação
linear entre as variáveis 700,00
“proficiência” e “nível
600,00
socio-económico”. De
acordo com essa relação, o 500,00
acréscimo de uma unidade

no nível socioeconómico 400,00
do aluno corresponde, em
300,00
média, ao acréscimo de
2,088 unidades na sua 200,00
R Sq Linear = 0,137
proficiência.
100,00
20 40 60 80
In. Socio-Econ. Index of father or mother(ISEI)
Repare que a maioria dos pontos marcados no gráfico G.4 não pertencem à recta. A
equação (1.1) deveria considerar os desvios dos pontos à recta. Designaremos por
erro2, ε, à diferença entre o valor observado de Y e a recta. Assim, um modelo mais
plausível, que incorpora o termo do erro, é:
y i = β 0 + β 1 xi + ε i (2.2).
Os dois primeiros termos do 2º membro da equação, β 0 + β 1 xi , correspondem à
componente determinística, que também pode ser designada por componente

explicativa do modelo. Depois de conhecidos os valores dos parâmetros, as
estimativas, esta componente constitui o preditor linear do modelo.
2
O erro pode ser encarado como a soma de duas componentes: o erro de medição e o erro
amostral/aleatório/estocástico. O erro de medição deve-se ao facto de que tanto a medição de Y como
de X poder ser deficiente. Por exemplo, nós gostaríamos de usar a rendimento familiar como variável
de status económico. No entanto, principalmente entre o grupo de rendimentos mais elevados, há uma
tendência generalizada na sub-declaracão do valor. Usualmente, a variável “escolaridade” funciona
como uma boa proxy de status económico.
O erro amostral, aleatório ou estocástico deve-se à irreplicabilidade dos fenómenos em estudo. Nas
Ciências Sociais é impossível realizar uma experiência controlada, pelo que a componente do erro
aleatório ou estocástico responde pelas diferenças imprevisíveis que resultariam caso o experimento se
realizasse continuadamente. Este termo pode ser interpretado como a representação da influência, em
Y, de muitas variáveis omissas no modelo.
A equação (2.2) é designada por modelo de regressão linear3. A variável Y é chamada
de “variável dependente” ou “variável resposta”, e a variável X é chamada de
“variável independente”, “variável explicativa”, ou ainda “variável preditora”. Por
simplicidade, daqui em diante usaremos “variável resposta” para nos referirmos a Y, e
“variável explicativa” para nos referirmos a X. Dado que a equação (2.2) inclui apenas
uma variável explicativa, o modelo pode ser denominado por modelo de regressão
linear simples (MRLS).
Os pressupostos do modelo
À semelhança do que acontece com todos os outros modelos estatísticos, o modelo de

regressão é baseado em alguns pressupostos. Os principais pressupostos recaem sobre
a componente erro do modelo, ε , e a verificação ou validação é realizada através dos
resíduos, ê. Enunciam-se seguidamente os principais pressupostos:
(a) Assume-se que o erro tem média nula e variância constante ou, dito de outro
modo, o erro é homocedástico;
(b) Também se assume que os elementos do erro são independentes entre si. No
entanto, se há estrutura de agrupamento, por exemplo por escola, então o
pressuposto já não é válido;
(c) O erro deve ter uma distribuição Normal para que se possa usar a inferência
estatística e generalizar à população os resultados obtidos a partir da amostra.
Em síntese, os pressupostos são formalizados do seguinte modo:

ε ~ NID(0, σ 2 )
3
O adjectivo “linear” é usado para indicar que o modelo é linear nos parâmetros β0, β1 e não porque y
seja uma função linear de x1. . Veremos na seção … como y tem uma relação não linear com as
variáveis explicativas e ainda assim o modelo é tratado como sendo linear nos parâmetros.
Equação preditiva
O principal objectivo dos modelos de regressão é a estimação dos parâmetros
desconhecidos β0, β1. A este processo é comum chamar-se de “ajuste do modelo aos
dados”. A tabela G.24 contém as estimativas dos parâmetros e respectivas estimativas
do erro padrão, as estimativas dos coeficientes padronizados (estudar-se-á adiante o
que isto significa) o valor da estatística t-Student e respectivo valor de prova. O valor
da estatística de teste é determinado tendo subjacentes hipóteses do tipo:
H0 : β1 = 0
H1 : β1 ≠ 0
Tabela G.2
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.

1 (Constant) 374,420 4,757 78,714 ,000
In. Socio-
Econ. Index of
2,088 ,106 ,370 19,680 ,000
father or
mother
a Dependent Variable: Plausible value in mathematics
As estimativas dos parâmetros β0, β1 são, respectivamente, 374,420 e 2,088

escrevendo-se: βˆ 0 = 374,420 e βˆ1 = 2,088 . Recorde que β0 é a ordenada na origem e β1 o
coeficiente de inclinação. Perante as estimativas obtidas, o valor esperado da
proficiência dos alunos com situação socio-económica igual a 0 (origem) é 374,420
valores; por cada unidade adicional na situação socio-económica a proficiência do
aluno é acrescida, em média, em 2,088 unidades (da escala de proficiência). O leitor
deverá questionar-se: “o que é que se entende por alunos com situação socio-
económica igual a 0 se na amostra não há ninguém nessa situação?”. A pergunta é
pertinente e esclarecer-se-á na secção “Interpretação dos resultados”.
O valor estimado ou ajustado de Y, é dado pela equação preditiva do modelo, como

segue:
yˆ i = 374,42 + 2,088 x i (2.4).
4
Obtida no SPSS por aplicação da sequência de comandos …
O gráfico G.5, mostra a dispersão da proficiência predita pelo modelo,.
Gráfico G.5 – Dispersão de (y, ŷ )
800,00
O gráfico mostra a
700,00
dispersão da proficiência
observada e da 600,00
y observado
proficiência predita pelo 500,00
modelo. Compare-o com o 400,00
gráfico 2.1.
300,00
O desvio padrão de y é
89,18 e o desvio padrão de 200,00
ŷ é 32,38. 100,00
400,00 450,00 500,00 550,00

y predito pelo modelo
Resíduo é a diferença entre o y observado e o ŷ predito pela equação (2.4). O

resíduo, êi, é a estimativa do erro, εi, e é dado pela equação (2.5).
êi = y i − ( βˆ 0 + βˆ1 * xi ) (2.5).
O gráfico G.6 contém o histograma dos resíduos bem como a curva da distribuição
Normal.
Gráfico G.6 – Histograma dos resíduos

250
200
Frequency
150
100
50
Mean = -7,9842209E-13
Std. Dev. = 81,29735793
N = 2.444
0
-300,00000 -200,00000 -100,00000 0,00000 100,00000 200,00000
Unstandardized Residual
Considerando os casos sem valores omissos nas variáveis proficiência e ISEI5, as

médias e desvios padrão de y, ŷ e dos resíduos são apresentados na tabela G.3.
Determine a soma da variâncias de ŷ e dos resíduos e compare-a com a variância de
y.
Tabela G.3
Y Y predito Resíduo
N Valid 2444 2444 2444
Missing 0 0 0
Mean 462,2573 462,2573282 ,0000000
Std. Deviation 87,50698 32,37608000 81,29735793
A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados,

está relacionada com a estimativa dos parâmetros que tornem os resíduos tão
próximos de zero quanto possível. Observe que, se cada elemento êi fosse zero, o
valor de ŷ predito pelo modelo seria exactamente igual ao y observado. O mesmo é
5
Active o filtro com a condição ~missing(ISEI)
dizer que a componente determinística do modelo explicaria completamente o
fenómeno observado.
É usual quantificar a qualidade do ajuste do modelo a partir de alguma estatística,

como por exemplo a soma dos quadrados dos resíduos6, e escolher o modelo
correspondente à menor soma de quadrados. As estimativas devem ser tais de modo a
∑ (eˆ ) = ∑ (y ) 2
− ( βˆ 0 + βˆ1 * xi ) .
2
que minimizem i i
i i
Como determinar as estimativas dos parâmetros?
Estimação dos parâmetros de regressão através do Método dos

Mínimos Quadrados Ordinários (MQO)
Sejam B0 e B1 os estimadores de MQO dos parâmetros β 0 e β 1 , respectivamente. As

estimativas, β̂ 0 e β̂1 , são os valores resultantes de B0 e B1.
S ( β 0 , β 1 ) = ∑ ( y i − ( B0 + B1 * x i ) )
2
min S ( β 0 , β 1 )
 ∂S   

 ∂β 0
= 0  2 ∑ y i − nB0 − ∑ x i B1  = 0  nB0 + ∑ x i B1 =∑ y i
 
 ∑ y i − ∑i xi B1
B = i
 i i  i i
 ∂S    0
= 0 2 ∑ x i y i − ∑ x i B0 − ∑ x i2 B1  = 0∑ ∑i i 1 ∑i xi y i
   x B
i 0 + x 2
B =  n
 ∂β 1   i  i  −−−−
i i 
  −−−−

 B = Y − B X


n ∑i
xi yi − ∑ ∑
i
xi
i
yi
 B1 =
0 1
 2
 − − − −   




n ∑ x 2 
i −
 ∑ x i

i  i 
 B0 = Y − B1 X

 B = S XY
 1 S
 XX
onde :
S XY = ∑ [(xi − X )( y i − Y )]
n
i =1
S XX = ∑ [(xi − X )(xi − X )]
n
i =1
6
SQR, tal como definido no modelo ANOVA. Ver adiante.
[ ] S 
VAR βˆ1 = VAR  XY 
 S XX 
S
= σ 2 XX
2
S XX
σ2
=
S XX
Com VAR[Y | X ] = σ 2 .
[ ]
VAR βˆ 0 = VAR Y − βˆ1 X[ ]
[] [ ]
= VAR Y + X VAR βˆ1 − 2 XCOV Y , βˆ1
2
( )
Sabemos que VAR[Y ] = e considere que COV (Y , βˆ1 ) = 0 . Assim,
σ2
n
[ ] 1 X 2
VAR βˆ 0 = σ 2  +
 n S XX



Conhecendo um estimador de σ 2 poderá determinar os respectivos erros padrão.
Quando σ 2 é desconhecido a sua estimativa é obtida através da soma dos quadrados

dos resíduos (SQR). Um estimador não enviesado é dado por:
SQR
σˆ 2 = ,
n−2
onde n-2 é o número de graus de liberdade associado a SQR (dois graus de liberdade
estão associados às estimativas β̂ 0 e β̂ 1 ). A raíz quadrada de σˆ 2 é usualmente
designada por erro padrão da regressão.
Propriedades dos estimadores de Mínimos Quadrados Ordinários
Os estimadores MQO têm propriedades estatísticas importantes7.

1. São não-enviesados,
[ ]
E βˆ 0 = β 0
[ ]
E βˆ1 = β 1
2. Têm variância mínima quando comparados com todos os estimadores não-
enviesados que resultam de combinações lineares de yi.
7
Opcional: Teorema de Gauss-Markov.
Usando uma expressão anglo-saxónica, costuma dizer-se que os estimadores MQO
são estimadores BLUE, best linear unbiased estimators, onde best (melhor) significa
variância mínima.
Exemplo de aplicação: Considere os dados referentes ao orçamento corrente e ao

número de alunos de 12 instituições de ensino.
Y X
5000
3100 1500
1900 800
4200 2600
2300 1000
1200 600 4000
4900 2800
2800 1200
2100 900
1400 400 3000
2400 1300
2400 1200
3800 2000
2000
ORCAMENT
1000
0 1000 2000 3000
N_ALUNOS
Determine as estimativas do modelo de regressão linear simples com base nos

estimadores de mínimos quadrados ordinários.
Análise de Variância para o modelo de regressão
A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em

seguida.
Fonte de Graus de liberdade

variação dos Soma de desvios (gl)
dados quadráticos
Devida à (( ) ) 1
n
SQE = ∑ βˆ 0 + βˆ1 xi − Y
2
regressão i =1
(variação
explicada pela
regressão)
Resíduo ( ( )) n-2
n
SQR = ∑ y i − βˆ0 + βˆ1 xi
2
(variação i =1
residual “não
explicada”)
Total n
n-1
SQT = ∑ ( yi − Y ) 2
i =1
Escrito de outra forma,
Fonte de variação Graus de liberdade

dos dados Soma de desvios (gl)
quadráticos
Devida à regressão SQE = β̂ 1 S XY 1
(variação explicada
pela regressão)
Resíduo SQR = S YY − βˆ1 S XY n-2
(variação residual “não
explicada”)
Total SQT = S YY n-1
Verifique os valores da tabela seguinte com os dados do último exemplo de aplicação.
Model Sum of Squares df Mean Square F Sig.

1 Regression 13234383,362 1 13234383,362 257,086 ,000(a)
Residual 514783,304 10 51478,330
Total 13749166,667 11
a Predictors: (Constant), N_ALUNOS
b Dependent Variable: ORCAMENT
Interpretação dos resultados e inferência
Recorde a interpretação das estimativas obtidas do ajuste do MRLS aos dados do
PISA 2000: “Perante as estimativas obtidas, o valor esperado da proficiência dos
alunos com situação socio-económica igual a 0 (origem) é 374,420 valores;<…>”.
Com efeito, não existe na amostra qualquer indivíduo com nível socio-económico
igual a zero. Para dar interpretabilidade directa à estimativa de β0 proceda ao ajuste do
MRLS com a variável explicativa, ISEI, centrada na média8. A tabela G.4 contém as
estimativas obtidas.
Tabela G.4
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 462,257 1,645 281,041 ,000
ISEI_C 2,088 ,106 ,370 19,680 ,000
Observe que as únicas estimativas que se alteraram são as que dizem respeito à
ordenada na origem. O valor esperado da proficiência em Matemática de um aluno
com nível socio-económico igual a zero (que corresponde na realidade ao nível socio-
económico médio) é 462,257 valores.
800,00
700,00
600,00
500,00
400,00
300,00
200,00
R Sq Linear = 0,137
100,00
-20,00 0,00 20,00 40,00

ISEI centrado na média
8
Crie uma nova variável usando o comando COMPUTE.
Sugestão: Experimente agora obter as estimativas dos parâmetros quando ambas as
variáveis estão padronizadas. Compare com a coluna “standardized coefficients” da
tabela G.4 e também com o coeficiente de correlação de Pearson.
Coeficiente de determinação
Quanto é que as variáveis explicativas usadas no modelo (a componente
determinística) explicam da variabilidade total da variável dependente? O que se
pretende saber é a capacidade explicativa do modelo. Se a capacidade explicativa do
modelo é elevada então o resíduo do modelo (efeitos não captados pela componente
determinística) é reduzido.
Geralmente, nos modelos de regressão linear a estatística usada para quantificar a

capacidade explicativa do modelo é o R2, designado por coeficiente de determinação.
Esta estatística constitui a proporção da variação explicada face à variação total da
variável dependente. Regra geral, escolhem-se os modelos com R2 mais elevado.
No modelo de regressão linear, a proporção da variação explicada é dada por:
Var explicada SQE SQT − SQR SQR

R2 = = = = 1−
Var total SQT SQT SQT
O coeficiente de determinação varia de 0 a 1, 0<=R2<=1. O seu valor é zero quando
SQE também é zero e SQR=SQT. O valor de R2 é 1 quando SQE=SQT e SQR=0.
Model Summary
Adjusted Std. Error of

Model R R Square R Square the Estimate
1 ,370a ,137 ,137 81,31400
a. Predictors: (Constant), ISEI_C
O coeficiente de determinação do modelo anterior é 0,137.
Calcule agora a raíz quadrada de R2. Que estatística obtém?

Sim, obtém o coeficiente de correlação linear de Pearson. O coeficiente de
determinação do modelo de regressão linear simples é o quadrado do coeficiente de
correlação das duas variáveis envolvidas no modelo.

MRLS

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

MRLS

Caricato da

Copyright:

Formati disponibili

Modelos de regressão

Regressão linear simples

O modelo de regressão é um dos métodos estatísticos mais usados para investigar a

Grafico 2.1 – Dispersão proficiência X status socioeconómico

elevada também têm

Os Gráficos G.2 e G.3 mostram os histogramas das variáveis e algumas estatísticas

Grafico G.3 – Histograma Proficiência

Considere Y a variável aleatória que representa a proficiência em Matemática, sendo

onde β0 é a ordenada na origem e β1 é o coeficiente de inclinação. Observe a recta

Gráfico G.4 - Recta proficiência X ISEI

acréscimo de uma unidade

Os dois primeiros termos do 2º membro da equação, β 0 + β 1 xi , correspondem à

componente determinística, que também pode ser designada por componente

À semelhança do que acontece com todos os outros modelos estatísticos, o modelo de

Em síntese, os pressupostos são formalizados do seguinte modo:

Model B Std. Error Beta t Sig.

As estimativas dos parâmetros β0, β1 são, respectivamente, 374,420 e 2,088

O valor estimado ou ajustado de Y, é dado pela equação preditiva do modelo, como

Gráfico G.5 – Dispersão de (y, ŷ )

modelo. Compare-o com o 400,00

400,00 450,00 500,00 550,00

Resíduo é a diferença entre o y observado e o ŷ predito pela equação (2.4). O

Gráfico G.6 – Histograma dos resíduos

Considerando os casos sem valores omissos nas variáveis proficiência e ISEI5, as

A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados,

É usual quantificar a qualidade do ajuste do modelo a partir de alguma estatística,

Como determinar as estimativas dos parâmetros?

Estimação dos parâmetros de regressão através do Método dos

Sejam B0 e B1 os estimadores de MQO dos parâmetros β 0 e β 1 , respectivamente. As

Conhecendo um estimador de σ 2 poderá determinar os respectivos erros padrão.

Quando σ 2 é desconhecido a sua estimativa é obtida através da soma dos quadrados

Propriedades dos estimadores de Mínimos Quadrados Ordinários

Os estimadores MQO têm propriedades estatísticas importantes7.

Exemplo de aplicação: Considere os dados referentes ao orçamento corrente e ao

Determine as estimativas do modelo de regressão linear simples com base nos

A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em

Fonte de Graus de liberdade

Escrito de outra forma,

Fonte de variação Graus de liberdade

Verifique os valores da tabela seguinte com os dados do último exemplo de aplicação.

Model Sum of Squares df Mean Square F Sig.

-20,00 0,00 20,00 40,00

Geralmente, nos modelos de regressão linear a estatística usada para quantificar a

No modelo de regressão linear, a proporção da variação explicada é dada por:

Var explicada SQE SQT − SQR SQR

Adjusted Std. Error of

O coeficiente de determinação do modelo anterior é 0,137.

Calcule agora a raíz quadrada de R2. Que estatística obtém?

Potrebbero piacerti anche