Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Em todos os exemplos foram necessrias vrias variveis preditoras no modelo para um bom ajuste do mesmo. Um modelo contendo vrias variveis preditoras resulta numa estimao mais precisa. As anlises aqui desenvolvidas so vlidas para o delineamento inteiramente casualizado.
Yi ! F 0 F1 X i1 F 2 X i 2 I i
(1)
Onde Yi a resposta no i-simo ensaio, Xi1 e Xi2 so os valores das duas variveis preditoras no i-simo ensaio. Os parmetros do modelo so F0, F1, F2 e o termo do erro I i. Vamos assumir que E(Ii)=0, portanto, a funo de regresso do modelo de primeira ordem :
E (Y ) ! F 0 F1 X 1 F 2 X 2
(2)
A representao grfica desta funo um plano no espao. A figura, na pgina seguinte, mostra este plano para a funo:
E (Y ) ! 10 2 X 1 5 X 2
(3)
Plano de resposta
Yi E(Yi) = 20,00
Ii
F0
(1,33;1,67)
Significado dos coeficientes de regresso: O parmetro F0 o intercepto do plano de regresso. Se a abrangncia do modelo inclui X1=0 e X2=0 ento F0=10 representa a resposta mdia E(Y) neste ponto. Em outras situaes, F0 no tem qualquer outro significado como um termo separado no modelo de regresso. O parmetro F1 indica a mudana na resposta mdia E(Y) por unidade de acrscimo em X1 quando X2 mantido constante. Da mesma forma F2 indica a mudana na resposta mdia por unidade de aumento em X2 quando X1 mantido constante. Neste modelo, o efeito de X1 sobre a resposta mdia no depende de X2 e viceversa, assim, dissemos que as variveis preditoras tem efeito aditivo ou no interagem. Temos um modelo de primeira ordem sem interao. Exemplo: considerar o modelo de regresso da figura anterior. Y = vendas no mercado (em 10.000 unidades monetrias); X1= despesas com o ponto de venda (em 1.000 u.m.); X2= gastos com TV (em 1.000 u.m.). Como F1=2, se o gasto em uma localidade aumenta em 1 unidade (1.000 u.m.), enquanto o gasto com TV mantido constante, espera-se um acrscimo nas vendas de 2 unidades (20.000 u.m.).
5
Exerccio: faa a interpretao para F2. Resposta: como F2=5 se o gasto com TV em uma localidade aumenta em 1 unidade (1.000 u.m.) e o gasto com o ponto mantido constante, as vendas esperadas aumentam 50.000 u.m.
Exerccio: no modelo
Yi
i1
i2
...
p 1
i , p 1
Ii
Faa a interpretao do parmetro Fk . Resposta: indica a mudana na resposta mdia E(Y) com o acrscimo de uma (1) unidade na varivel preditora Xk, quando todas as outras variveis preditoras so mantidas constantes.
Yi ! F 0 F1 X i1 F 2 X i 2 ... F p 1 X i , p 1 I i
Onde: F0, F1,..., Fp-1, so os parmetros; Xi1,..., Xi,p-1 so constantes conhecidas;
Ii so independentes com distribuio N(0, W2)
(4)
i=1,2,...,n. A funo resposta para o modelo, como E(Ii )=0, dada por:
E (Y )
...
p 1
p 1
(5)
1) Temos p-1 variveis preditoras: todas as variveis preditoras apresentam efeito aditivo, ou seja, no apresentam um efeito de interao entre elas (o efeito de uma varivel preditora no depende dos nveis da outra varivel preditora).
2) As variveis preditoras so qualitativas: neste caso temos variveis como: sexo, invalidez (normal, parcialmente invlido, invlido). Usamos variveis indicadoras, que recebem valores 0 e 1 para identificar as categorias de uma varivel qualitativa. Exemplo: desejamos fazer uma anlise de regresso para estimar a distncia de um hospital (Y), baseado na idade dos pacientes (X1) e sexo (X2). O modelo de regresso :
Yi ! F 0 F1 X i1 F 2 X i 2 I i
Onde:
(6)
feminino
do sexo
do sexo masculino
E (Y ) ! F 0 F1 X 1 F 2 X 2 (7)
Para pacientes do sexo masculino, X2=0, temos:
E (Y ) ! F 0 F1 X 1
Para pacientes do sexo feminino, X2=1, temos:
(8)
E (Y ) ! ( F 0 F 2 ) F1 X 1
(9)
As duas funes respostas representam duas retas paralelas com diferentes interceptos. Exerccio: faa a representao grfica das funes 8 e 9. Outro exemplo: vamos considerar uma terceira varivel no modelo, o status sobre a invalidez dos pacientes, a qual apresenta trs categorias. Em geral, representamos uma varivel qualitativa com c categorias, por meio de c-1 variveis indicadoras. Portanto, no exemplo, vamos definir as variveis X3 e X4 como:
9
Yi ! F 0 F1
i1
F2
i2
F3
i3
F4
i4
Ii
(10)
Neste curso, temos um captulo somente para o estudo de variveis qualitativas. Como modelar e interpretar os coeficientes de regresso? 3) Regresso polinomial: contm termos quadrticos e de maior ordem nas variveis preditoras. Exemplo:
Yi ! F 0 F1
F2
2 i
Ii
(11)
10
Apesar da natureza curvilnea da funo resposta do modelo (11) ele um caso especial do modelo (4). Fazendo-se Xi1=Xi e Xi2=Xi2, temos o modelo (1).
11
Produo em kg/parcela
1 -20
20
40
60
80
100
120
Doses de fsforo
Yi ' ! log Yi
O modelo fica:
Yi ! F 0 F1
i1
F2
i2
F3
i3
Ii
(12)
A funo resposta complexa. Porm, o modelo (12) da forma do modelo linear geral de regresso. Exerccio: coloque o modelo (13) na forma do modelo de regresso linear geral (4).
Yi !
' 1 Yi
1 F 0 F1 X i 1 F 2 X i 2
'
Ii
(13)
Basta fazer:
Yi !
Yi ! F 0 F1 X i1 F 2 X i 2 I i
12
5) Modelos com efeito da interao entre variveis preditoras. O efeito de uma varivel preditora depende dos nveis das outras variveis preditoras. Exemplo:
Yi ! F 0 F1 X i1 F 2 X i 2 F 3 X i1 X i 2 I i
Observe que fazendo-se Xi3=Xi1Xi2 obtemos o modelo linear geral de regresso (4). 6) Combinando modelos: Exemplo:
(14)
Yi ! F 0 F1 X i1 F 2 X i2 F 3 X i 2 F 4 X i22 F 5 X i1 X i 2 I i 1
Fazendo-se:
(15)
Z i1 ! X i1 Z i2 ! X i2 Z i 3 ! X i 2 1
temos o modelo linear geral de regresso (4).
Z i4 ! X i22
Z i 5 ! X i1 X i 2
13
14
Yi ! F 0 F1 X i1 F 2 X i 2 ... F p 1 X i , p 1 I i
Em termos matriciais, precisamos definir:
(16)
. . . . . .
Y1 Y 2 Y !. n x1 . Yn
. . . .
1 X 11 1 X 21 . . X ! nxp . . . . 1 X n1
. .
X 1, p 1 X 2, p 1 . . . X n, p 1
p x1
F0 F 1 ! . . F p 1
I1 I 2 . ! n x1 . . I n
15
Y!X
W 2 0 0 W2 2 ( )! . . 0 0 0 . 0 . . . W 2 .
(17)
I um vetor de variveis aleatrias independentes e normalmente distribudas com esperana (mdia), E(I)=0 e matriz de varincia-covarincia dada por:
=W 2I
E( Y ) ! X
n x1
( Y) ! W 2I
nxn
(18)
16
Exerccio: uma empresa opera estdios fotogrficos para crianas em 12 cidades. A empresa deseja expandir seus estdios para outras cidades semelhantes e deseja investigar se as vendas (Y) podem ser estimadas atravs do nmero de pessoas com 16 anos ou menos (X1) e a renda per capita na cidade (X2). Os resultados foram:
17
A) Escreva o modelo de regresso linear de primeira ordem (sem efeito quadrtico e interao). B) Faa um grfico de disperso (Scatterplot) entre vendas e nmero e outro para vendas e renda. C) Mostre a matriz X, os vetores Y e F para os dados do exerccio. D) calcule os valores mdios (esperanas) das observaes, E(Y).
18
Respostas: A)
Yi ! F 0 F1 X i1 F 2 X i 2 I i
B)
19
20
C)
1 1 1 1 1 1 X ! 1 1 1 1 1 1
68 45 91 48 47 66 50 52 49 38 88 73
17 16 18 16 17 18 17 17 17 16 18 17
174 164 244 154 182 208 Y ! 163 145 145 137 242 191
F0 ! F1 F2
21
F0 F 0 F0 F0 F0 F 0 E(Y ) ! F0 F 0 F0 F 0 F0 F0
68 F 1 17 F 2 45 F 1 16 F 2 91 F 1 18 F 2 48 F 1 16 F 2 47 F 1 17 F 2 66 F 1 18 F 2 50 F 1 17 F 2 52 F 1 17 F 2 49 F 1 17 F 2 38 F 1 16 F 2 88 F 1 18 F 2 73 F 1 17 F 2
22
X ' Xb ! X ' Y
(19)
b ! ( X ' X ) 1 X ' Y
Mtodo de mxima verossimilhana
(20)
Vamos considerar o modelo com erros normais (17). A funo de mxima verossimilhana dada por:
i1 ... F p 1
)2 i , p 1
(21)
Os estimadores de mxima verossimilhana so exatamente os mesmos obtidos com o mtodo de mnimos quadrados.
23
24
Y ! Xb
(22)
e ! Y Y ! Y Xb
(23)
Exerccio: H) para verificar o ajuste do modelo de regresso para os dados, necessrio encontrar os valores estimados e os resduos. Encontre estes resultados para os dados da empresa de estdio fotogrfico.
25
Anlise de varincia
Soma de quadrados e quadrados mdios
p - 1 graus de liberdade
QMRegress o ! QMErro !
S Erro n p
S Regress o p 1
26
H 0 : F 1 ! F 2 ! ... ! F H
a
p 1
! 0
: pelo
*
enos u
F k diferente
de zero.
F !
QMRegress o QMErro
(24)
Se F*> F(E; p-1,n-p), rejeitamos a hiptese nula, caso contrrio, aceitamos a hiptese. No devemos esquecer de usar o valor p. Exemplo: continuao do exerccio sobre a empresa de estdio fotogrfico.
27
Exerccio: interprete o teste F da anlise de varincia com o uso do valor p. Se a hiptese nula for rejeitada, isto garante que podemos fazer estimao (predio) vlidas? Resp. no.
28
R !
2
SQRegresso SQTotal
! 1
SQErro SQTotal
(25)
Mede a reduo da variabilidade total de Y associada com o uso do conjunto de variveis X1,...,Xp-1. Como na regresso linear simples, temos:
0 e R2 e 1
Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as observaes Y carem exatamente na superfcie de regresso ajustada, isto , quando: Y i ! Yi para todo i. Como R2 aumenta com a adio de variveis explanatrias, sugere-se utilizar o coeficiente de determinao ajustado (corrigido) para os graus de liberdade. O coeficiente de determinao ajustado dado por:
R ! 1
2 a
SQErro n p SQTotal n 1
! 1
n 1 n p
SQErro SQTotal
(26)
29
Um alto valor de R2 no necessariamente implica que o modelo ajustado se presta para se fazer inferncias precisas, pois apesar de um valor alto de R2, o QME ainda pode ser grande. O modelo pode no ser exatamente linear.
R! R
(27)
Exerccio: calcule o coeficiente de determinao (R2), o coeficiente de determinao ajustado (R2a) e o coeficiente de correlao (R), para os dados da empresa de estdios fotogrficos . Faa a interpretao desses coeficientes.
(b) ! W 2 ( X ' X ) 1
(28)
30
(p x p)
~ t (n p )
k ! 0,1,..., p - 1
(30)
bk s t (1 E / 2; n p ) s (bk )
(31)
Exerccio: para o exemplo da empresa de estdios fotogrficos calcule o intervalo de confiana para F2, com confiana de 95%. Faa a interpretao.
31
: Fk ! 0 : Fk { 0
bk s ( bk )
(32)
Estatstica de teste:
t* !
Critrio do teste:
(33)
Se |t* |et(1-E/2;n-p), aceita-se a hiptese nula, caso contrrio rejeita-se a mesma. Exerccio: para o exemplo da empresa de estdios fotogrficos, teste a hiptese para F2=0 vs a hiptese de que F2 diferente de zero, ao nvel de significncia de 5%. Faa a interpretao. Verifique se chegamos a mesma concluso com o uso do intervalo de confiana.
32
Yh ! X 'hb
(34)
33
(35)
Yh s t (1 E / 2; n p ) s(Yh )
(36)
Exerccio: encontre o intervalo de confiana.para a resposta mdia (vendas) considerando Xh1=65,4 (populao objeto) e Xh2=17,6, (renda per capita) com 95%. Faa a interpretao. Voc considera que este intervalo d informao precisa? Utilize os seguintes resultados:
26932,446 s2 (b) !
Yh s t (1 E / 2; n p ) s ( pred ) (37)
A varincia do erro de predio ( a diferena entre a nova observao e o valor estimado) dado por:
(38)
Exerccio: a empresa deseja predizer as vendas para uma nova cidade com as seguintes caractersticas Cidade A: Xh1=53,1 Xh2=17,7 encontre o intervalo de predio com 95%. Faa a interpretao. Voc considera que este intervalo satisfatrio? Utilize os seguintes resultados:
Observao: Isto serve para mostrar que apesar de termos um alto valor para o R2=0,845, no temos preciso suficiente para fazer os intervalos de predio. Assim, alto coeficiente de determinao, no significa que podemos fazer predio precisa. Pode-se pensar em adicionar ou substituir variveis preditoras do modelo.
X1
X1
36
Diagnstico do modelo
Os procedimentos vistos para o modelo de regresso linear simples aplicam-se diretamente para o caso do modelo de regresso linear mltipla. Os captulos 9 e 10 do livro texto apresentam muitos outros procedimentos. matriz de diagrama de disperso grfico tridimensional (ver a nuvem de pontos de diferentes perspectivas para identificar padres) grficos de resduos (versus: valores estimados, tempo, alguma outra seqncia, variveis regressoras, variveis regressoras omitidas, termos da interao, box-plot(desenho esquemtico), grfico normal de probabilidades) testes para homogeneidade de varincias, normalidade, falta de ajuste
Exemplo:
Empresa de estdio fotogrfico em 21 cidades.
37
38
Observa-se uma tendncia linear entre vendas (Y) e populao (X1); tambm entre vendas (Y) e renda (X2). Observa-se, tambm, uma relao linear entre X1 e X2. No se observa outliers, no se observa separaes nos dados.
39
40
A matriz de correlao:
41
A figura indica que razovel admitir uma superfcie plana como modelo de regresso para os dados.
y i ! F 0 F 1 X i1 F 2 X i 2 I i
42
Exerccio: dados os vetores dos valores estimados e dos resduos. Faa os seguintes grficos e interprete. 1 - resduos versus valores estimados 2 - resduos versus X1 3 - resduos versus X2 4 - resduos versus X1X2 (interao)
43
Y ajustados 187.18411 154.22943 234.39632 153.32853 161.38493 197.74142 152.05508 167.86663 157.7382 136.84602 230.38737 197.18492 222.6857 141.51844 174.21321 228.12389 145.74699 159.00131 230.98702 230.31606 157.0644
ERROS -12.78411 10.170574 9.8036764 1.271469 20.215072 9.7585779 0.7449178 -4.666632 -12.3382 0.3539791 11.512629 -6.084921 9.3142995 3.7815611 -13.11321 -18.42389 0.6530062 -15.00131 1.6129777 -6.216062 9.4356009
X1X2 1143.95 759.36 1661.66 779.14 811.37 1203.02 787.05 894.4 811.74 614.4 1608.57 1244.88 1538.16 677.82 934.5 1576.88 681.45 842.71 1621.76 1579.57 836.8
44
Indica que a funo de regresso linear mltipla adequada (plano) Indica que a suposio de homogeneidade de varincia atendida No apresenta outliers (valores discrepantes).
45
A suposio de normalidade dos erros est satisfeita, ou seja, a distribuio dos erros segue aproximadamente uma distribuio normal.
46
No se observa nenhum padro, indicando que o modelo linear adequado. Homogeneidade de varincias.
47
No se observa nenhum padro, indicando que o modelo linear adequado. Homogeneidade de varincias.
48
Grfico dos valores absolutos dos resduos versus valores estimados: homogeneidade de varincias.
No se observa um acrscimo ou decrscimo da variabilidade com o aumento dos valores estimados. Portanto, considera-se a suposio de homogeneidade de varincia atendida. Se ocorrer heterogeneidade de varincia, fazer grficos dos resduos absolutos versus cada varivel preditora para identificar qual(is) esto relacionadas com a falta de homogeneidade.
50
Anlise de varincia:
Concluso: Rejeita-se H0. Assim, pelo menos um coeficiente de regresso difere de zero. Observao: se o modelo de regresso til para realizar estimao e predio ainda ser visto.
51
1 ! 65,4 17,6
Interpretao: podemos afirmar com 95% de confiana, que para valor de populao igual a 65,4 e renda igual a 17,6, a venda mdia est entre 185,29 e 196,92. Importante: os consultores da empresa consideram este intervalo preciso para seus objetivos.
52
Intervalo de predio: desejam predizer as vendas para duas novas cidades com as seguintes caractersticas: Cidade A: Populao (Xh1)=65,4 Renda (Xh2)=17,6 Cidade B: Populao (Xh1)=53,1 Renda (Xh2)=17,7 Cidade A Cidade B As duas cidades apresentam caractersticas dentro dos padres da amostra estudada.
Interpretao: as vendas esto dentro dos intervalos acima. A preciso dos intervalos deixa desejar. Intervalos mais precisos seriam necessrios, pode-se pensar em outras variveis regressoras para entrar no modelo. Observe que valor de R2 alto no significa boas predies.
53
Medidas Remediadoras
Usar modelo apropriado Usar transformaes ( na varivel resposta ou na varivel preditora (quando os efeitos so curvelneos, reduo do efeito de interao)
54