Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
=
+ + + + + = | | | |
Y
i
= superfcie de resposta
n = nmero de observaes;
p = nmero de variveis preditoras.
Duas situaes so
encontradas na modelagem
1. A matriz XX de variveis preditoras
X de posto coluna completo.
Neste caso o modelo chamado de
posto completo ou modelo de
regresso. o modelo que estamos
estudando;
2. A matriz XX de variveis preditoras
X de posto coluna incompleto.
Neste caso o modelo chamado de
posto incompleto o modelo da
ANOVA (ANalysis Of VAriance)
Conseqncias da estimao
Posto ou Rank de matrizes
Nmero de linhas ou colunas linearmente
independentes de uma matriz.
Em nosso caso, o posto o nmero de
colunas linearmente independentes da matriz
XX, sendo X a matriz dos valores das
variveis preditoras ou independentes
No programa computacional MATLAB o
comando rank faz uma estimativa do
posto de matrizes.
Conseqncias da estimao
Condies para que a matriz XX
seja de posto coluna completo
O posto ou rank da matriz XX deve ser
igual a p+1, ou seja:
( ) 1 p X ' X posto + =
p o nmero de variveis preditoras
estudas no modelo.
Conseqncias da estimao
Condies para que a matriz
XX tenha inversa (XX)
-1
As matrizes que possuem inversa so
chamadas NO SINGULARES.
Somente matrizes quadradas podem
ser no singulares. Contudo, nem toda
matriz quadrada no singular;
Conseqncias da estimao
Quando uma matriz quadrada
singular?
Seu determinante nulo; det(XX)
Ao menos uma de suas razes
caractersticas nula. As razes
caractersticas so os autovalores da
matriz; eig(XX)
Seu posto menor que p; rank(XX)
No definida positiva ou negativa.
Conseqncias da estimao
Matriz definida positiva (negativa)
Quando todos os autovalores so
positivos (negativos).
Conseqncias da estimao
Regresso Linear Mltipla
Introduo
uma tcnica da estatstica
multivariada utilizada para a predio
de valores de uma ou mais variveis
de resposta (dependentes) a partir de
diversas variveis preditoras ou
independentes.
JOHNSON, R. A.; WICHERN, D. W.
Applied multivariate statistical
analysis. 5th ed. Upper Saddle River,
New Jersey: Prentice-Hall, 2002, 767
p.
Pode tambm ser utilizada para estudar o
efeito dos preditores sobre as variveis de
resposta.
Primeiro trabalho sobre o assunto:
Regression Towards Mediocrity in Heredity
Stature. Journal of the Anthropological
Institute, 15 (1885). 246-263.
Mediocridade em funo da estatura
hereditria
Estatstica UNIVARIADA. Segundo
JOHNSON & WICHERN (2002) nesse
artigo o autor no percebeu a importncia
da tcnica para anlises multivariadas.
Introduo (Cont.)
Modelagem da Regresso
Linear
Pressuposies da modelagem
O modelo utilizado o de Gauss-Markov-Normal
Pressupe que a resposta apresenta uma mdia.
Pressupe ainda que essa mdia contem erros
provenientes de medies aleatrias e de outras
fontes no explicitadas pelo modelo.
O erro, e conseqentemente a resposta, so
tratados como variveis aleatrias, que o
comportamento caracterizado assumindo-se
uma distribuio NORMAL para os dados
experimentais.
Este mtodo consiste em se determinar o
estimador que minimiza a soma do
quadrado das diferenas entre valores
observados e valores preditos pelo modelo.
linear modelo o X Y c | + =
| | de estimador o
determinar Queremos
Estimadores dos parmetros pelo
mtodo dos mnimos quadrados
O erro do modelo na forma matricial :
| c X Y =
(
(
(
(
(
=
(
(
(
(
(
=
(
(
(
(
=
(
(
(
(
=
p
1
0
pn n 2 n 1
2 p 22 12
1 p 21 11
n
2
1
n
2
1
,
X X X 1
X X X 1
X X X 1
X ,
Y
Y
Y
Y ,
e
e
e
|
|
|
| c
O problema consiste em se ajustar um
modelo de regresso.
O erro da modelagem
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Modelo de regresso
O estimador de beta chamado de beta
chapu e pode ser determinado por outros
mtodos de minimizao do erro, como por
exemplo o mtodo da mxima
verossimilhana.
. n , , 2 , 1 i , X
X
Y
pi p i 2 2 i 1 1 0 i
= + + + + = | | | |
(
(
(
(
(
=
p
1
0
|
|
|
|
X ' X = |
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
O beta chapu
Assim chamado o vetor estimador
dos parmetros de beta.
O vetor beta chapu determinado
resolvendo-se o sistema de equaes
normais:
Y ' X
X ' X = |
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Soluo do sistema de equaes normais
Multiplicando-se ambos os membros do sistema de
equaes por
Y ' X
X ' X = |
( )
1
X ' X
Temos:
( ) ( ) Y ' X X ' X
X ' X X ' X
1 1
= |
( ) Y ' X X ' X
1
= |
O modelo de regresso pressupe um beta chapu
nico no tendencioso (blue). Mas isso precisa de
ser testado.
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
O modelo que estamos estudando o
Linear de Gauss-Markov-Normal.
( )
2
, N ~ , X Y o c c | + =
modelo do erro o este X Y | c =
Regresso Linear Mltipla
Conseqncias da estimao
A mdia do modelo linear
Quando trabalhos com dados
experimentais assumimos que o estimador
da mdia x barra pode representar a
mdia da populao. Mas depois
precisamos testar se isso verdadeiro.
( )
'. ' mdia
como conhecido tambm populao, da
matemtica esperana a X Y
| E =
Conseqncias da estimao
.
o , de estimador
do e X preditoras variveis de valores de
linear combinao uma de f uno em
Y para obtidos valores , isto modelo,
pelo preditos valores os so
X Y
| |
| =
Quando trabalhos com dados experimentais
determinamos o beta chapu a partir de
amostras da populao. Por isso que
precisamos testar se esse beta mesmo
estimador no tendencioso.
Os valores preditos pelo modelo
Conseqncias da estimao
desvio. ou
resduo de chamado tambm ajustado,
modelo do erro o
X Y Y
| c = =
O erro do modelo de regresso
Este o erro que calculamos quando
trabalhamos com dados experimentais.
um vetor que descreve a distribuio
dos dados experimentais. Muitas
inferncias sobre nossos dados podem
ser feitas analisando-se esse vetor.
Conseqncias da estimao
O que queremos modelar
f enmeno. do modelagem na erro o :
Y
c
c + =
Quando trabalhos com dados
experimentais assumimos que nossas
observaes so capazes de modelar
o fenmeno, e depois testamos.
Conseqncias da estimao
Prtica 1
Na tabela abaixo apresentamos os valores de uma
amostra de 6 observaes das variveis Y
i
, X
1i
e X
2i
.
Y
i
X
1i
X
2i
1,5 0 0
6,5 1 2
10,0 1 4
11,0 2 2
11,5 2 4
16,5 3 6
Fonte: Apostila de INF 664 Modelos Lineares. Adair Jos Regazzi,UFV,
Viosa, 2002.
Montar do sistema de equaes normais
(
(
(
(
(
(
(
(
=
6 3 1
4 2 1
2 2 1
4 1 1
2 1 1
0 0 1
X
Quando a regresso com intercepto adicionados
uma coluna de uns na matriz de dados.
X com intercepto
(
(
(
(
(
(
(
(
=
6 3
4 2
2 2
4 1
2 1
0 0
X
X sem intercepto
(
(
(
(
(
(
(
(
=
5 , 16
5 , 11
0 , 11
0 , 10
5 , 6
5 , 1
Y
Resposta Y
Prtica 1
Obteno da matriz XX
Esta matriz obtida multiplicando-se a
transposta da matriz X por ela mesma.
(
(
(
=
(
(
(
(
(
(
(
(
(
(
(
=
76 36 18
36 19 9
18 9 6
6 3 1
4 2 1
2 2 1
4 1 1
2 1 1
0 0 1
6 4 2 4 2 0
3 2 2 1 1 0
1 1 1 1 1 1
X ' X
Prtica 1
Obteno da matriz XY
Esta matriz obtida multiplicando-se a
transposta da matriz X pelo vetor Y.
(
(
(
=
(
(
(
(
(
(
(
(
(
(
(
=
220
111
57
5 , 16
5 , 11
0 , 11
0 , 10
5 , 6
5 , 1
6 4 2 4 2 0
3 2 2 1 1 0
1 1 1 1 1 1
Y ' X
Prtica 1
Sistema de equaes normais
Estimativa de beta pelos mtodo dos
mnimos quadrados
(
(
(
=
(
(
(
(
(
(
=
(
(
(
(
1
3
2
220
11
57
76 36 18
36 19 9
18 9 6
B
1
2
1
0
Prtica 1
regresso de equao a : X 1 3X 2 Y
s. regressore os so : e
regresso; de equao da intercepto o :
2i 1i i
2 1
0
+ + =
| |
|
Programa na linguagem MATLAB
Exemplos de comandos do Programa
computacional MATLAB
Resultados obtidos no Programa
computacional MATLAB
Vetor de parmetros
Posto da matriz
Determinante da matriz
Autovalores da matriz
Anlise de Varincia da
Regresso Linear
A anlise de varincia da regresso a
estatstica utilizada para testar os
regressores. A hiptese nula que todos os
regressores so iguais e zero. Caso isso no
ocorra o resultado da anlise significativo,
isto , rejeita-se a hiptese nula.
A anlise de varincia no testa o intercepto.
Anlise de varincia da
regresso linear
0 :
2 1 0
= = = =
p
H | | |
Algumas Pressuposies do
Modelo
Beta chapu um estimador no
tendencioso:
( ) | | E =
( )
[( )
( Cov o | | | | |
= E =
A covarincia deste vetor :
2 1
) ' ( )
( o |
= X X Cov
2 1
) ' ( )
( s X X Cov
= |
s
2
o Quadrado mdio do resduo.
Soma de Quadrado do Resduo
Soma dos quadrados dos desvios entre os
valores observados e os estimados pela
equao de regresso.
( )
2
n
1 i
i i
Y
Y s Re SQ
=
=
Escrito na forma matricial :
Y ' X '
Y ' Y s Re SQ | =
Soma de Quadrado Total
Matricialmente podemos escrever:
n
Y
Y SQTotal
2
n
1 i
i
n
1 i
2
i
|
.
|
\
|
=
=
=
c Y ' Y SQTotal =
Y ' u u ' Y
n
1
c =
u um vetor de 1s de dimenso n x 1.
Soma de Quadrado da Regresso
Na forma matricial escrevemos:
( )
2
n
1 i
i
Y Y
g Re SQ
=
=
Y ' u u ' Y
n
1
Y ' X '
g Re SQ = |
Esquema da anlise de varincia
da regresso
n =nmero de observaes;
p =nmero de variveis
Anlise para dados no repetidos
Causa de
variao
GL SQ QM F
Regresso
p
SQReg/p
Resduo
n-p-1
SQRes/n-p-1
Total
n-1
c Y ' X '
|
Y ' X '
Y ' Y
|
c Y ' Y
s Re QM
g Re QM
Teste F dos parmetros
Se os erros e
i
tm distribuio normal e se o
quociente
0
p 2 1
= = = = | | |
o mesmo que testar se:
s Re QM
g Re QM
F =
tem distribuio F (central) com p e n-p-1
graus de liberdade.
0 : H
p 2 1 0
= = = = | | |
F utilizado para testar a hiptese:
Quando o teste F significativo?
Quando F maior que o tabelado;
Quando rejeitamos a hiptese nula;
Contudo no possvel concluir quais
parmetros so significativos;
Exceto para o caso particular de p=1.
Teste t dos parmetros
Utilizado para testar hiptese a respeito dos
parmetros da regresso .
gl. 1) - p - (n a associado ,
)
( s
t
i
i i
|
| |
=
A estatstica utilizada :
O teste significativo quando t maior que o
valor tabelado.
Hipteses a Respeito dos Parmetros
no Modelo Linear
A hiptese de nulidade pode ser construda a
partir de m combinaes lineares independentes
u | = ' c : H
0
c uma matriz com m linhas e p+1 colunas
] c c c c [ ' c
p 2 1 0
=
um vetor m-dimensional de constantes
conhecidas.
(
(
(
(
=
m
2
1
u
u
u
u
m
)
' C (
) H ( F
o
u | u |
=
Sendo verdadeira a hiptese de nulidade a
estatstica F(H
0
) tem distribuio F com m
e n-posto[X]=n-p-1 graus de liberdade.
Estatstica de Wald
Para teste F simultneo dos parmetros
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
Posto [c]=m=2
0 e 0 : H
0
0
1 0 0
0 1 0
' c : H
2 1 0
2
1
0
0
= =
(
=
(
(
(
= | |
|
|
|
u |
(
=
(
(
(
=
1
3
1
3
2
1 0 0
0 1 0
' c |
(
=
(
=
1
3
0
0
1
3
' c u |
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
(
33 54
54 132
240
1
c ) x ' x ( ' c
1
| |
(
(
6
132
6
54
6
54
6
33
c ) x ' x ( ' c
1
1
| | 50 , 125
1
3
6
132
6
54
6
54
6
33
1 3 =
(
(
(
Rejeita-se a hiptese H
0
:|
1
=|
2
=0
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
00 , 1
1 2 6
00 , 3
1 p n
y ' x '
y ' y
QMR s
2 2
=
=
= = =
|
o
* *
0
75 , 62
) 00 , 1 ( 2
50 , 125
) H ( F =
=
82 , 30 ) 3 ; 2 ( F
% 1
=
Estatstica t usada para testar a
hiptese H
0
:c|=
Podemos usar t para testar hipteses a
respeito de combinaes lineares dos
parmetros
gl. 1) - p - (n a ,
)
' (
'
'
associado
c V
c c
t
|
| |
=
GLR ) X ( posto n 1 p n = =
Teste Simultneo dos
Parmetros
Testa uma nica hiptese;
Testa um vetor de betas;
No o mesmo que testar os betas
separadamente.
Isto , testar
No o mesmo que testar
0 : H e 0 : H
2 1 1 0
= = | |
(
=
(
= =
0
0
: H ou 0 : H
2
1
0 2 1 0
|
|
| |
Programa SAS (reg_cap1.sas)
proc reg data=sas.ind_v9;
/*ndvi rnir gnir arvi savi gndvi*/
model N = gndvi;
output out=p p=yhat r=resid;
print p;
run;
quit;
proc reg;
model yhat=N;
test N=1, intercept=0;
run;
plot yhat*N;
run;
quit;
Output do SAS Anlise de varincia do
modelo de regresso
The SAS System 23:15 Thursday, October 7, 2009 5
The REG Procedure
Model: MODEL1
Dependent Variable: N N
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 6 20710 3451.59735 4.39 0.0293
Error 8 6290.41589 786.30199
Corrected Total 14 27000
Root MSE 28.04108 R-Square 0.7670
Dependent Mean 60.00000 Adj R-Sq 0.5923
Coeff Var 46.73513
Teste t dos beta-chapu do modelo de
regresso
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 1835.59747 1483.61562 1.24 0.2511
NDVI NDVI 1 -15182 19298 -0.79 0.4541
RNIR RNIR 1 -1698.66240 3814.27214 -0.45 0.6679
GNIR GNIR 1 -413.90081 2665.47402 -0.16 0.8804
ARVI ARVI 1 546.46984 283.26026 1.93 0.0898
SAVI SAVI 1 8350.10834 13196 0.63 0.5445
GNDVI GNDVI 1 594.04446 2908.94995 0.20 0.8433
Dependent Predicted
Obs Variable Value Residual
1 0 -16.4019 16.4019
2 0 -3.4152 3.4152
3 0 19.8021 -19.8021
4 30.0000 30.9970 -0.9970
5 30.0000 68.5033 -38.5033
6 30.0000 47.8805 -17.8805
7 60.0000 67.1267 -7.1267
8 60.0000 99.6748 -39.6748
9 60.0000 61.1820 -1.1820
10 90.0000 68.4044 21.5956
11 90.0000 65.1605 24.8395
12 90.0000 78.0660 11.9340
13 120.0000 97.4010 22.5990
14 120.0000 116.5953 3.4047
15 120.0000 99.0235 20.9765
Sum of Residuals -3.6067E-11
Sum of Squared Residuals 6290.41589
Predicted Residual SS (PRESS) 28335
Nveis de N preditos pelo modelo
Grfico: Predito x Observado
Concluso
O modelo de regresso multivariado
proposto no pode ser utilizado para
predizer nveis de N aplicados no solo.
Exemplo de regresso linear mltipla
com duas vaiveis independentes
Y X1 X2
1,5 0 0
6,5 1 2
10 1 4
11 2 2
11,5 2 4
16,5 3 6
Programa SAS
Resumo do Stepwise
Valores preditos
Regresso entre predito e
observado
Validao da predio