Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
600,00
situação socio-económica,
500,00
pois observa-se uma
tendência moderada
400,00
indicando que alunos que
atingem proficiência mais
300,00
1
Dados PISA2000, dados portugueses. Plano amostral não considerado.
Grafico G.2 – Histograma ISEI
1.000
800
Frequency
600
400
200
Mean = 42,06
0 Std. Dev. = 15,502
0 20 40 60 80 100 N = 2.444
In. Socio-Econ. Index of father or mother
(ISEI)
250
200
Frequency
150
100
50
Mean = 458,5009
Std. Dev. = 89,17951
0 N = 2.545
100,00 200,00 300,00 400,00 500,00 600,00 700,00 800,00
Proficiência em Matemática
Tabela G.1 – Estatísticas descritivas
ISEI Proficiência
N Valid 2444 2545
Missing 101 0
Mean 42,06 458,5009
Median 37,00 461,9600
Std. Deviation 15,502 89,17951
Skewness ,825 -,224
Kurtosis ,097 -,181
y i = β 0 + β 1 xi (2.1)
“proficiência” e “nível
Proficiência em Matemática
600,00
socio-económico”. De
acordo com essa relação, o 500,00
do aluno corresponde, em
300,00
média, ao acréscimo de
2,088 unidades na sua 200,00
R Sq Linear = 0,137
proficiência.
100,00
20 40 60 80
In. Socio-Econ. Index of father or mother(ISEI)
Repare que a maioria dos pontos marcados no gráfico G.4 não pertencem à recta. A
equação (1.1) deveria considerar os desvios dos pontos à recta. Designaremos por
erro2, ε, à diferença entre o valor observado de Y e a recta. Assim, um modelo mais
plausível, que incorpora o termo do erro, é:
y i = β 0 + β 1 xi + ε i (2.2).
2
O erro pode ser encarado como a soma de duas componentes: o erro de medição e o erro
amostral/aleatório/estocástico. O erro de medição deve-se ao facto de que tanto a medição de Y como
de X poder ser deficiente. Por exemplo, nós gostaríamos de usar a rendimento familiar como variável
de status económico. No entanto, principalmente entre o grupo de rendimentos mais elevados, há uma
tendência generalizada na sub-declaracão do valor. Usualmente, a variável “escolaridade” funciona
como uma boa proxy de status económico.
O erro amostral, aleatório ou estocástico deve-se à irreplicabilidade dos fenómenos em estudo. Nas
Ciências Sociais é impossível realizar uma experiência controlada, pelo que a componente do erro
aleatório ou estocástico responde pelas diferenças imprevisíveis que resultariam caso o experimento se
realizasse continuadamente. Este termo pode ser interpretado como a representação da influência, em
Y, de muitas variáveis omissas no modelo.
A equação (2.2) é designada por modelo de regressão linear3. A variável Y é chamada
de “variável dependente” ou “variável resposta”, e a variável X é chamada de
“variável independente”, “variável explicativa”, ou ainda “variável preditora”. Por
simplicidade, daqui em diante usaremos “variável resposta” para nos referirmos a Y, e
“variável explicativa” para nos referirmos a X. Dado que a equação (2.2) inclui apenas
uma variável explicativa, o modelo pode ser denominado por modelo de regressão
linear simples (MRLS).
Os pressupostos do modelo
(a) Assume-se que o erro tem média nula e variância constante ou, dito de outro
modo, o erro é homocedástico;
(b) Também se assume que os elementos do erro são independentes entre si. No
entanto, se há estrutura de agrupamento, por exemplo por escola, então o
pressuposto já não é válido;
(c) O erro deve ter uma distribuição Normal para que se possa usar a inferência
estatística e generalizar à população os resultados obtidos a partir da amostra.
3
O adjectivo “linear” é usado para indicar que o modelo é linear nos parâmetros β0, β1 e não porque y
seja uma função linear de x1. . Veremos na seção … como y tem uma relação não linear com as
variáveis explicativas e ainda assim o modelo é tratado como sendo linear nos parâmetros.
Equação preditiva
O principal objectivo dos modelos de regressão é a estimação dos parâmetros
desconhecidos β0, β1. A este processo é comum chamar-se de “ajuste do modelo aos
dados”. A tabela G.24 contém as estimativas dos parâmetros e respectivas estimativas
do erro padrão, as estimativas dos coeficientes padronizados (estudar-se-á adiante o
que isto significa) o valor da estatística t-Student e respectivo valor de prova. O valor
da estatística de teste é determinado tendo subjacentes hipóteses do tipo:
H0 : β1 = 0
H1 : β1 ≠ 0
Tabela G.2
Unstandardized Standardized
Coefficients Coefficients
4
Obtida no SPSS por aplicação da sequência de comandos …
O gráfico G.5, mostra a dispersão da proficiência predita pelo modelo,.
800,00
O gráfico mostra a
700,00
dispersão da proficiência
observada e da 600,00
y observado
proficiência predita pelo 500,00
gráfico 2.1.
300,00
O desvio padrão de y é
89,18 e o desvio padrão de 200,00
ŷ é 32,38. 100,00
êi = y i − ( βˆ 0 + βˆ1 * xi ) (2.5).
O gráfico G.6 contém o histograma dos resíduos bem como a curva da distribuição
Normal.
200
Frequency
150
100
50
Mean = -7,9842209E-13
Std. Dev. = 81,29735793
N = 2.444
0
-300,00000 -200,00000 -100,00000 0,00000 100,00000 200,00000
Unstandardized Residual
Tabela G.3
Y Y predito Resíduo
N Valid 2444 2444 2444
Missing 0 0 0
Mean 462,2573 462,2573282 ,0000000
Std. Deviation 87,50698 32,37608000 81,29735793
5
Active o filtro com a condição ~missing(ISEI)
dizer que a componente determinística do modelo explicaria completamente o
fenómeno observado.
∑ (eˆ ) = ∑ (y ) 2
− ( βˆ 0 + βˆ1 * xi ) .
2
que minimizem i i
i i
S ( β 0 , β 1 ) = ∑ ( y i − ( B0 + B1 * x i ) )
2
min S ( β 0 , β 1 )
∂S
∂β 0
= 0 2 ∑ y i − nB0 − ∑ x i B1 = 0 nB0 + ∑ x i B1 =∑ y i
∑ y i − ∑i xi B1
B = i
i i i i
∂S 0
= 0 2 ∑ x i y i − ∑ x i B0 − ∑ x i2 B1 = 0∑ ∑i i 1 ∑i xi y i
x B
i 0 + x 2
B = n
∂β 1 i i −−−−
i i
−−−−
B = Y − B X
n ∑i
xi yi − ∑ ∑
i
xi
i
yi
B1 =
0 1
2
− − − −
n ∑ x 2
i −
∑ x i
i i
B0 = Y − B1 X
B = S XY
1 S
XX
onde :
S XY = ∑ [(xi − X )( y i − Y )]
n
i =1
S XX = ∑ [(xi − X )(xi − X )]
n
i =1
6
SQR, tal como definido no modelo ANOVA. Ver adiante.
[ ] S
VAR βˆ1 = VAR XY
S XX
S
= σ 2 XX
2
S XX
σ2
=
S XX
Com VAR[Y | X ] = σ 2 .
[ ]
VAR βˆ 0 = VAR Y − βˆ1 X[ ]
[] [ ]
= VAR Y + X VAR βˆ1 − 2 XCOV Y , βˆ1
2
( )
Sabemos que VAR[Y ] = e considere que COV (Y , βˆ1 ) = 0 . Assim,
σ2
n
[ ] 1 X 2
VAR βˆ 0 = σ 2 +
n S XX
SQR
σˆ 2 = ,
n−2
onde n-2 é o número de graus de liberdade associado a SQR (dois graus de liberdade
estão associados às estimativas β̂ 0 e β̂ 1 ). A raíz quadrada de σˆ 2 é usualmente
designada por erro padrão da regressão.
7
Opcional: Teorema de Gauss-Markov.
Usando uma expressão anglo-saxónica, costuma dizer-se que os estimadores MQO
são estimadores BLUE, best linear unbiased estimators, onde best (melhor) significa
variância mínima.
Y X
5000
3100 1500
1900 800
4200 2600
2300 1000
1200 600 4000
4900 2800
2800 1200
2100 900
1400 400 3000
2400 1300
2400 1200
3800 2000
2000
ORCAMENT
1000
0 1000 2000 3000
N_ALUNOS
regressão i =1
(variação
explicada pela
regressão)
Resíduo ( ( )) n-2
n
SQR = ∑ y i − βˆ0 + βˆ1 xi
2
(variação i =1
residual “não
explicada”)
Total n
n-1
SQT = ∑ ( yi − Y ) 2
i =1
Observe que as únicas estimativas que se alteraram são as que dizem respeito à
ordenada na origem. O valor esperado da proficiência em Matemática de um aluno
com nível socio-económico igual a zero (que corresponde na realidade ao nível socio-
económico médio) é 462,257 valores.
800,00
700,00
Proficiência em Matemática
600,00
500,00
400,00
300,00
200,00
R Sq Linear = 0,137
100,00
8
Crie uma nova variável usando o comando COMPUTE.
Sugestão: Experimente agora obter as estimativas dos parâmetros quando ambas as
variáveis estão padronizadas. Compare com a coluna “standardized coefficients” da
tabela G.4 e também com o coeficiente de correlação de Pearson.
Coeficiente de determinação
Quanto é que as variáveis explicativas usadas no modelo (a componente
determinística) explicam da variabilidade total da variável dependente? O que se
pretende saber é a capacidade explicativa do modelo. Se a capacidade explicativa do
modelo é elevada então o resíduo do modelo (efeitos não captados pela componente
determinística) é reduzido.
Model Summary