Sei sulla pagina 1di 32

INSTITUTO SUPERIOR DE AGRONOMIA

ESTATSTICA E DELINEAMENTO 2013/14


Resolues de exerccios de Regresso Linear Simples
1. Escreva, numa sesso do R, o comando indicado no enunciado:
> Cereais <- read.csv("http://www.isa.utl.pt/dm/estdel/estdel/Cereais.csv")
Para ver o contedo do objecto Cereais acabado de criar, escrevemos o seu nome, como ilustrado
de seguida (tendo sido omitidas vrias linhas do contedo por razes de espao):
> Cereais
ano area
1 1986 8789.69
2 1987 8972.11
3 1988 8388.94
4 1989 9075.35
5 1990 7573.48
(...)
24 2009 3398.99
25 2010 3041.18
26 2011 2830.96
NOTA: O comando read.csv parte do pressuposto que o cheiro indicado contm colunas de
dados - cada coluna correspondente a uma varivel. O objecto Cereais criado no comando
acima uma data frame, que pode ser encarada como uma tabela de dados em que cada coluna
corresponde a uma varivel. As variveis individuais da data frame podem ser acedidas atravs
duma indexao anloga utilizada para objectos de tipo matriz, refereciando o nmero da
respectiva coluna:
> Cereais[,2]
[1] 8789.69 8972.11 8388.94 9075.35 7573.48 8276.47 7684.20 7217.93 6773.54
[10] 6756.57 6528.18 6902.34 5065.38 5923.45 5779.21 4927.15 5149.21 4507.98
[19] 4636.46 3893.43 3731.92 3120.99 3653.74 3398.99 3041.18 2830.96
Alternativamente, as variveis que compem uma data frame podem ser acedidas atravs do
nome da data frame, seguido dum cifro e do nome da varivel:
> Cereais$area
[1] 8789.69 8972.11 8388.94 9075.35 7573.48 8276.47 7684.20 7217.93 6773.54
[10] 6756.57 6528.18 6902.34 5065.38 5923.45 5779.21 4927.15 5149.21 4507.98
[19] 4636.46 3893.43 3731.92 3120.99 3653.74 3398.99 3041.18 2830.96
(a) > plot(Cereais)
O grco obtido revela uma forte relao linear (decrescente) entre anos e superfcie agrcola
dedicada produo de cereais.
Repare-se que o comando funciona correctamente nesta forma muito simples porque: (i) a
data frame Cereais apenas tem duas variveis; e (ii) a ordem dessas variveis coincide com
a ordem desejada no grco: a primeira varivel no eixo horizontal e a segunda no eixo
vertical.
Existe uma forma mais geral do comando que tambm poderia ser usada neste caso:
plot(x,y), onde x e y indicam os nomes das variveis que desejamos ocupem, respecti-
vamente o eixo horizontal e o eixo vertical. No nosso exemplo, poderamos escrever:
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 1
> plot(Cereais$ano, Cereais$area)
(b) O grco obtido na alnea anterior apresenta uma tendncia linear descrescente, pelo que o
coeciente de correlao ser negativo. A tendncia linear bastante acentuada, pelo que
de supor que o coeciente de correlao seja prximo de 1.
O comando cor do R calcula coecientes de correlao. Se os seus argumentos forem dois
vectores (necessariamente de igual dimenso), devolvido o coeciente de correlao. Se o
seu argumento fr uma data frame, devolvida uma matriz de correlaes entre todos os
pares de variveis da data frame. No nosso caso, esta segunda alternativa produz:
> cor(Cereais)
ano area
ano 1.0000000 -0.9826927
area -0.9826927 1.0000000
O coeciente de correlao entre ano e area , como previsto, muito prximo de 1, con-
rmando a existncia duma forte relao linear decrescente entre anos e superfcie agrcola
para a produo de cereais em Portugal, nos anos indicados.
(c) Os parmetros da recta podem ser calculados, quer a partir da sua denio, quer utilizando
o comando do R que ajusta uma regresso linear: o comando lm (as iniciais, pela ordem em
ingls, de modelo linear). Sabemos que:
b
1
=
cov
xy
s
2
x
e b
0
= y b
1
x .
Utilizando o R, possvel calcular os indicadores estatsticos nas denies:
> cov(Cereais$ano, Cereais$area)
[1] -15137.48
> var(Cereais$ano)
[1] 58.5
> -15137.48/58.5
[1] -258.7603
> mean(Cereais$area)
[1] 5869.187
> mean(Cereais$ano)
[1] 1998.5
> 5869.187-(-258.7603)*1998.5
[1] 523001.6
Mas o comando lm devolve directamente os parmetros da recta de regresso:
> lm(area ~ ano, data=Cereais)
Call:
lm(formula = area ~ ano, data = Cereais)
Coefficients:
(Intercept) ano
523001.7 -258.8
NOTA: Na frmula y x, a varivel do lado esquerdo do til a varivel resposta, e a do
lado direito a varivel preditora. O argumento data permite indicar o objecto onde se
encontram as variveis cujos nomes so referidos na frmula.
O resultado deste ajustamento pode ser guardado como um novo objecto, que poder ser
invocado sempre que se deseje trabalhar com a regresso agora ajustada:
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 2
> Cereais.lm <- lm(area ~ ano, data=Cereais)
Interpretao dos coecientes:
Declive: b
1
= 258.8 km
2
/ano indica que, em cada ano que passa, a supercie agrcola
dedicada produo de cereais diminui, em mdia, 258, 8 km
2
. Em geral (e como se
pode comprovar analisando a frmula para o declive da recta de regresso), as unidades
de b
1
so as unidades da varivel resposta y a dividir pelas unidades da varivel preditora
x. Fala-se em variao mdia porque a recta apenas descreve a tendncia de fundo,
na relao entre x e y.
Ordenada na origem: b
0
= 523001.7 km
2
. Em geral, as unidades de b
0
so as unidades
da varivel resposta y. A interpretao deste valor , neste caso, estranha: a superfcie
agrcola utilizada na produo de cereais no ano x = 0, seria cerca de 5 vezes superior
rea total do pas, uma situao claramente impossvel. A impossibilidade ilustra a
ideia geral de que, na ausncia de mais informao, a validade duma relao linear no
poder ser extrapolada para longe da gama de valores de x observada (neste caso, os anos
1986-2011).
(d) Sabe-se que, numa regresso linear simples entre variveis x e y, o coeciente de determi-
nao o quadrado do coeciente de correlao entre as variveis, ou seja: R
2
= r
2
xy
. O
valor do coeciente de correlao entre x e y pode ser obtido atravs do comando cor:
> cor(Cereais$ano, Cereais$area)
[1] -0.9826927
> cor(Cereais$ano, Cereais$area)^2
[1] 0.9656849
No nosso caso R
2
= 0.9656849, ou seja, cerca de 96, 6% da variabilidade total observada
para a varivel resposta y explicada pela regresso.
O comando summary, aplicando ao resultado da regresso ajustada, produz vrios resultados
de interesse relativos regresso. O coeciente de determinao pedido nesta alnea
indicado na penltima linha da listagem produzida:
> summary(Cereais.lm)
(...)
Multiple R-squared: 0.9657
(...)
(e) O comando abline(Cereais.lm) traa a recta pedida em cima do grco anteriormente
criado pelo comando plot. Conrma-se o bom ajustamento da recta nuvem de pontos, j
indiciado pelo valor muito elevado do R
2
.
Nota: Em geral, o comando abline(a,b) traa, num grco j criado, a recta de equao
y = a + bx. No caso do input ser o ajustamento duma regresso linear simples (obtido
atravs do comando lm e que devolve o par de coecientes b
0
e b
1
), o resultado o grco
da recta y = b
0
+b
1
x.
(f) Sabemos que SQT = (n 1) s
2
y
, pelo que podemos calcular este valor atravs do comando:
> (length(Cereais$area)-1)*var(Cereais$area)
[1] 101404176
(g) Sabemos que R
2
=
SQR
SQT
, pelo que SQR = R
2
SQT:
> 0.9656849*101404176
[1] 97924482
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 3
Alternativamente, e uma vez que SQR = (n 1) s
2
y
, pode-se usar o comando fitted para
obter os valores ajustados de y ( y
i
) e seguidamente obter o valor de SQR:
> fitted(Cereais.lm)
1 2 3 4 5 6 7 8
9103.691 8844.930 8586.170 8327.410 8068.649 7809.889 7551.129 7292.368
9 10 11 12 13 14 15 16
7033.608 6774.848 6516.087 6257.327 5998.567 5739.806 5481.046 5222.286
(...)
> (length(Cereais$area)-1)*var(fitted(Cereais.lm))
[1] 97924480
NOTA: A pequena discrepncia nos dois valores obtidos para SQR deve-se a erros de
arredondamento.
(h) O comando residuals devolve os resduos dum modelo ajustado. Logo,
> residuals(Cereais.lm)
1 2 3 4 5 6 7
-314.00068 127.17965 -197.23002 747.94031 -495.16936 466.58097 133.07131
8 9 10 11 12 13 14
-74.43836 -260.06803 -18.27770 12.09263 645.01296 -933.18670 183.64363
(...)
> sum(residuals(Cereais.lm)^2)
[1] 3479697
fcil de vericar que se tem SQR +SQRE = SQT:
> 97924480+3479697
[1] 101404177
(i) Com o auxlio do R, podemos efectuar o novo ajustamento. No caso de se efectuar uma
transformao duma varivel, esta deve ser efectuada, na frmula do comando lm, com a
proteco I(), como indicado no comando seguinte:
> lm(I(area*100) ~ ano, data=Cereais)
Call:
lm(formula = I(area * 100) ~ ano, data = Cereais)
Coefficients:
(Intercept) ano
52300171 -25876
Comparando estes valores dos parmetros ajustados com os que haviam sido obtidos in-
cialmente, pode vericar-se que ambos os parmetros ajustados aparecem multiplicados
por 100. No se trata duma coincidncia, o que se pode vericar inspeccionando o efeito
da transformao y y

= c y (para qualquer constante c) nas frmulas dos parmet-


ros da recta ajustada. Indicando por b
1
e b
0
os parmetros na recta original e por b

1
e b

0
os novos parmetros, obtidos com a transformao indicada, temos (recordando que
cov(x, cy) = c cov(x, y)):
b

1
=
cov
x y

s
2
x
=
cov(x, c y)
s
2
x
= c
cov(x, y)
s
2
x
= c b
1
;
e (tendo em conta o efeito de constantes multiplicativas sobre a mdia, ou seja, y

= c y):
b

0
= y

1
x = cy c b
1
x = c (y b
1
x) = c b
0
.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 4
Assim, multiplicar a varivel resposta por uma constante c tem por efeito multiplicar os
dois parmetros da recta ajustada por essa mesma constante c. No entanto, o coeciente de
determinao permanece inalterado. Esse facto, que resulta da invarincia do valor absoluto
do coeciente de correlao a qualquer transformao linear de uma, ou ambas as variveis,
pode ser conrmado atravs do R:
> summary(lm(I(area*100) ~ ano, data=Cereais))
(...)
Multiple R-squared: 0.9657
(...)
(j) Nesta alnea pedida uma translao da varivel preditora, da forma x x

= x +a, com
a = 1985. Neste caso, e comparando com o ajustamento inicial, verica-se que o declive
da recta de regresso no se altera, mas a sua ordenada na origem sim:
> lm(area ~ I(ano-1985), data=Cereais)
Call:
lm(formula = area ~ I(ano - 1985), data = Cereais)
Coefficients:
(Intercept) I(ano - 1985)
9362.5 -258.8
Inspeccionando o efeito duma translao na varivel preditora sobre o declive da recta
ajustada, temos (tendo em conta que constantes aditivas no alteram, nem a varincia, nem
a covarincia):
b

1
=
cov
y x

s
2
x

=
cov(x, y)
s
2
x
= b
1
.
J no que respeita ordenada na origem, e tendo em conta a forma como os valores mdios
so afectados por constantes aditivas, tem-se:
b

0
= y b

1
x

= y b
1
(x +a) = (y b
1
x) b
1
a = b
0
a b
1
.
Assim, no nosso caso (e usando os valores com mais casas decimais obtidos acima, para
evitar ulteriores erros de arredondamento), tem-se que a nova ordenada na origem b

0
=
523001.6 (1985) (258.7603) = 9362.405.
Tal como na alnea anterior, a transformao da varivel preditora linear, pelo que o
coeciente de determinao no se altera: R
2
= 0.9657.
2. (a) Seguindo as instrues do enunciado, cria-se o cheiro de texto Azeite.txt na directoria
da sesso de trabalho do R. Para se saber qual a directoria de trabalho duma sesso do R,
pode ser dado o seguinte comando:
> getwd()
(b) O comando de leitura, a partir da sesso do R, :
> azeite <- read.table("Azeite.txt", header=TRUE)
Caso o cheiro Azeite.txt esteja numa directoria diferente da directoria de trabalho do R, o
nome do cheiro dever incluir a sequncia de pastas e subpastas que devem ser percorridas
para chegar at ao cheiro.
NOTA: O argumento header tem valor lgico que indica se a primeira linha do cheiro a
ser lido contm, ou no, os nomes das variveis. Por omisso o argumento tem o valor lgico
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 5
FALSE, que considera que na primeira linha do cheiro j h valores numricos. Como no
cheiro Azeite.txt a primeira linha contm os nomes das variveis, foi necessrio indicar
explicitamente o valor lgico TRUE.
O resultado do comando pode ser visto escrevendo o nome do objecto agora lido:
> azeite
Ano Azeitona Azeite
1 1995 311257 477728
2 1996 275143 452038
3 1997 309090 423584
4 1998 225616 360948
5 1999 320865 512264
6 2000 167161 249433
7 2001 218522 349502
8 2002 211574 310474
9 2003 232947 364976
10 2004 300699 500658
11 2005 203909 318174
12 2006 362301 518466
13 2007 203968 352574
14 2008 336479 587422
15 2009 414687 681850
16 2010 435009 686832
(c) Quando aplicado a uma data frame, o comando plot produz uma matriz de grcos de cada
possvel par de variveis (conrme!). Neste caso, no pedido qualquer grco envolvendo
a primeira varivel da data frame. Existem vrias maneiras alternativas de pedir apenas
o grco das segunda e terceira variveis, uma das quais envolve o conceito de indexao
negativa, que tanto pode ser utilizado em data frames como em matrizes: ndices negativos
representam linhas ou colunas a serem omitidas. Assim, qualquer dos seguintes comandos
(alternativos) produz o grco pedido no enunciado:
> plot(azeite[,-1])
> plot(azeite[,c(2,3)])
> plot(azeite$Azeitona, azeite$Azeite)
(d) O comando cor do R calcula a matriz dos coecientes de correlao entre cada par de
variveis da data frame.
> cor(azeite)
Ano Azeitona Azeite
Ano 1.0000000 0.3999257 0.4715217
Azeitona 0.3999257 1.0000000 0.9722528
Azeite 0.4715217 0.9722528 1.0000000
O valor da correlao pedido r
xy
= 0.9722528, um valor positivo muito elevado, que indica
uma relao linear crescente muito forte, entre produo de azeitona e produo de azeite.
(e) Utilizando o comando lm do R, tem-se:
> lm(Azeite ~ Azeitona, data=azeite)
Call: lm(formula = Azeite ~ Azeitona, data = azeite)
Coefficients:
(Intercept) Azeitona
-5151.793 1.596
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 6
Por cada tonelada adicional de produo de azeitona oleicada, h um aumento mdio
de 1.596hl de produo de azeite. De novo, o valor da ordenada na origem impossvel:
indica que, na ausncia de produo de azeitona, a produo mdia de azeite seria negativa
(b
0
= 5151.793hl). O modelo no deve ser utilizado (nem tal faria sentido) para produes
de azeitona prximas de zero. Em geral, deve ser usado com muito cuidado fora da gama
de valores observados de x.
(f) A preciso da recta uma designao alternativa para o coeciente de determinao R
2
.
Sabe-se que, numa regresso linear simples, R
2
= r
2
xy
. Logo, e tendo em conta os resultados
j obtidos, a forma mais fcil de calcular R
2
R
2
= 0.9722528
2
= 0.9452755. Assim, cerca
de 94.5% da variabilidade na produo de azeite explicvel pela regresso linear simples
sobre a produo de azeitona.
3. Tem-se:
(a)
n

i=1
(x
i
x) =
n

i=1
x
i

i=1
x = nx nx = 0.
(b) Por denio, (n 1)cov
xy
=
n

i=1
(x
i
x)(y
i
y). Distribuindo o primeiro factor de cada
parcela pelas parcelas do segundo factor e utilizando o resultado da alnea anterior, temos:
(n1)cov
xy
=
n

i=1
(x
i
x)y
i

i=1
(x
i
x)y =
n

i=1
(x
i
x)y
i
y
n

i=1
(x
i
x)
. .
= 0
=
n

i=1
(x
i
x)y
i
Trocando o papel das variveis x e y, mostra-se que (n 1)cov
xy
=
n

i=1
x
i
(y
i
y).
4. Este exerccio est resolvido nas pgs. 28-29 das folhas de Estatstica Descritiva da Prof. Manuela
Neves (http://www.isa.utl.pt/dm/estat/estat/seb1.pdf), relativas disciplina de Estats-
tica dos primeiros ciclos do ISA (web page da disciplina em
http://www.isa.utl.pt/dm/estat/estat/estat.html).
5. (a) Tendo em conta que os valores ajustados de y so dados por y
i
= b
0
+ b
1
x
i
, tem-se que a
mdia dos valores ajustados dada por:
1
n
n

i=1
y
i
=
1
n
n

i=1
(b
0
+b
1
x
i
) =
1
n
n

i=1
b
0
+
1
n
n

i=1
b
1
x
i
= b
0
+b
1
x .
Mas a ordenada de origem duma recta de regresso dada por b
0
= y b
1
x, pelo que a
ltima expresso equivale mdia y dos valores observados de y.
(b) Tem-se, por denio, que e
i
= y
i
y
i
. Logo (e tendo em conta a alnea anterior),
e =
1
n
n

i=1
e
i
=
1
n
n

i=1
(y
i
y
i
) =
1
n
n

i=1
y
i

1
n
n

i=1
y
i
= y y = 0.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 7
(c) Na expresso que dene SQT vamos introduzir um par de parcelas de soma zero, que nos
ajudaro nas contas subsequentes:
SQT =
n

i=1
(y
i
y)
2
=
n

i=1
[(y
i
y
i
) + ( y
i
y)]
2
=
n

i=1
(y
i
y
i
)
2
. .
=SQRE
+
n

i=1
( y
i
y)
2
. .
=SQR
+2
n

i=1
(y
i
y
i
)( y
i
y) (1)
Para que a igualdade pedida se verique, preciso que a ltima parcela na expresso (1)
seja nula. Ora, recordando a denio dos valores ajustados de y e a expresso da ordenada
na origem da recta de regresso, b
0
, temos que y
i
= b
0
+ b
1
x
i
= y + b
1
(x
i
x). Logo, o
somatrio na ltima parcela da equao (1) pode ser re-escrito como:
n

i=1
(y
i
y
i
)( y
i
y) =
n

i=1
[(y
i
y) b
1
(x
i
x)] b
1
(x
i
x)
= b
1
[
n

i=1
(x
i
x)(y
i
y)
. .
=(n1) covxy
b
1
n

i=1
(x
i
x)
2
. .
=(n1) s
2
x
]
Tendo em conta que b
1
=
covxy
s
2
x
, tem-se b
1
s
2
x
=cov
xy
. Logo, a diferena acima anula-se.
(d) Viu-se na alnea anterior que y
i
= b
0
+b
1
x
i
= y +b
1
(x
i
x). Logo,
SQR =
n

i=1
( y
i
y)
2
=
n

i=1
[b
1
(x
i
x)]
2
= b
2
1
n

i=1
(x
i
x)
2
= b
2
1
(n 1)s
2
x
.
6. Pela denio de coeciente de correlao entre x e y, tem-se:
r
xy
=
cov
xy
s
x
s
y
=
cov
xy
s
2
x

s
x
s
y
= b
1

s
x
s
y
7. Os dados anscombe podem ser visualizados escrevendo o nome do objecto:
> anscombe
x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 8
Os nomes das variveis indicam quatro variveis x
i
(as primeiras trs so idnticas) e quatro
variveis y
i
(i = 1, 2, 3, 4).
(a) As mdias de cada varivel podem ser obtidas usando o comando apply:
> apply(anscombe,2,mean)
x1 x2 x3 x4 y1 y2 y3 y4
9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
Repare-se que as quatro variveis x
i
tm a mesma mdia e as quatro variveis y
i
tambm
(aproximadamente).
(b) As varincias de cada varivel so dadas em baixo. De novo, as variveis x
i
partilham a
mesma varincia e as variveis y
i
tambm (aproximadamente).
> apply(anscombe,2,var)
x1 x2 x3 x4 y1 y2 y3 y4
11.000000 11.000000 11.000000 11.000000 4.127269 4.127629 4.122620 4.123249
(c) As quatro rectas pedidas tm equao quase idntica, aproximadamente y = 3 + 0.5 x:
> lm(y1 ~ x1, data=anscombe)
Call: lm(formula = y1 ~ x1, data = anscombe)
Coefficients:
(Intercept) x1
3.0001 0.5001
> lm(y2 ~ x2, data=anscombe)
Call: lm(formula = y2 ~ x2, data = anscombe)
Coefficients:
(Intercept) x2
3.001 0.500
> lm(y3 ~ x3, data=anscombe)
Call: lm(formula = y3 ~ x3, data = anscombe)
Coefficients:
(Intercept) x3
3.0025 0.4997
> lm(y4 ~ x4, data=anscombe)
Call: lm(formula = y4 ~ x4, data = anscombe)
Coefficients:
(Intercept) x4
3.0017 0.4999
(d) Os quatro coecientes de correlao r
x
i
y
i
(i = 1, 2, 3, 4) so quase iguais, de valor aproxi-
mado r
x
i
y
i
= 0.816, pelo que os quatro coecientes de determinao das quatro rectas de
regresso pedidas so quase iguais, de valores muito prximos de R
2
= 0.667.
Apesar de tudo indicar que os quatro pares de variveis x
i
e y
i
so anlogos, trata-se de conjuntos
de dados muito diferentes como revelam as quatro nuvens de pontos seguintes. Este exerccio
visa frisar que, por muito valor que tenham indicadores descritivos e de sntese das relaes entre
variveis, sempre aconselhvel utilizar todas as ferramentas de anlise dos dados disponveis.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 9
4 6 8 10 12 14
4
5
6
7
8
9
1
1
anscombe$x1
a
n
s
c
o
m
b
e
$
y
1
4 6 8 10 12 14
3
4
5
6
7
8
9
anscombe$x2
a
n
s
c
o
m
b
e
$
y
2
4 6 8 10 12 14
6
8
1
0
1
2
anscombe$x3
a
n
s
c
o
m
b
e
$
y
3
8 10 12 14 16 18
6
8
1
0
1
2
anscombe$x4
a
n
s
c
o
m
b
e
$
y
4
8. A data frame iris tem observaes de quatro variveis morfomtricas (comprimento e largura
de ptalas e spalas) em n = 150 lrios de cada uma de trs diferentes espcies. O tamanho da
data frame pode ser vista atravs do comando dim, enquanto que as primeiras 8 linhas de dados
podem ser vistas indexando a data frame da forma que j conhecemos:
> dim(iris)
[1] 150 5
> iris[1:8,]
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5.0 3.4 1.5 0.2 setosa
(a) A nuvem de pontos pedida envolve as variveis correspondentes s colunas 3 (x) e 4 (y).
Logo, a nuvem de pontos pedida obtm-se atravs do comando:
> plot(iris[,c(3,4)])
(b) Os comandos para responder ao que se pede no enunciado so:
> lm(Petal.Width ~ Petal.Length, data=iris)
> abline(lm(Petal.Width ~ Petal.Length, data=iris))
Os coecientes da recta de regresso ajustada so b
0
= 0.3631 e b
1
= 0.4158.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 10
(c) Pede-se para trocar o papel das variveis preditora e resposta. A recta de regresso de x
sobre y dada pelo comando:
> lm(Petal.Length ~ Petal.Width, data=iris)
que indica que os valores dos parmetros da recta so b

0
= 1.084 e b

1
= 2.230.
(d) Para traar a recta obtida no sistema de eixos original (isto , com a varivel Petal.Width
no eixo vertical e a varivel Petal.Length no eixo horizontal), necessrio ter em conta o
facto indicado no enunciado: uma recta de equao x = b

0
+b

1
y, expressa na forma usual
(isolando a varivel y que vai para o eixo vertical) tem equao y =
b

0
b

1
+
1
b

1
x. Logo, o
comando necessrio para traar esta nova recta em cima dos eixos originais :
> abline(-1.084/2.230, 1/2.230, col="red")
NOTA: O parmetro col indica que a recta ser traada com a cr vermelha, o que ajuda
a identicar cada uma das rectas em questo.
(e) As rectas so diferentes porque resultam de optimizar critrios diferentes. Fixando o sistema
de eixos de tal forma que o Comprimento das Ptalas esteja no eixo horizontal (x) e a
Largura das Ptalas esteja no eixo vertical (y), a recta de regresso tradicional (de y sobre
x) resulta de minimizar a soma dos quadrados das distncias na vertical entre os pontos e
a recta, enquanto que a recta de regresso de x sobre y resulta de minimizar a soma dos
quadrados das distncias na horizontal entre pontos e recta.
9. Os dados referidos no enunciado so obtidos como se indica a seguir:
> library(MASS)
> Animals
body brain
Mountain beaver 1.350 8.1
Cow 465.000 423.0
Grey wolf 36.330 119.5
Goat 27.660 115.0
Guinea pig 1.040 5.5
Dipliodocus 11700.000 50.0
Asian elephant 2547.000 4603.0
Donkey 187.100 419.0
Horse 521.000 655.0
Potar monkey 10.000 115.0
Cat 3.300 25.6
Giraffe 529.000 680.0
Gorilla 207.000 406.0
Human 62.000 1320.0
African elephant 6654.000 5712.0
Triceratops 9400.000 70.0
Rhesus monkey 6.800 179.0
Kangaroo 35.000 56.0
Golden hamster 0.120 1.0
Mouse 0.023 0.4
Rabbit 2.500 12.1
Sheep 55.500 175.0
Jaguar 100.000 157.0
Chimpanzee 52.160 440.0
Rat 0.280 1.9
Brachiosaurus 87000.000 154.5
Mole 0.122 3.0
Pig 192.000 180.0
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 11
(a) A nuvem de pontos pedida pode ser obtida atravs do comando plot(Animals). Quanto
ao coeciente de correlao, tem-se:
> cor(Animals)
body brain
body 1.000000000 -0.005341163
brain -0.005341163 1.000000000
O valor quase nulo do coeciente de correlao indica ausncia de relacionamento linear
entre os pesos do corpo e do crebro, facto que se conrma visualmente no grco.
(b) Pedem-se vrios grcos com transformaes de uma ou ambas as variveis. Aproveita-se
este exerccio para introduzir uma forma alternativa de pedir uma nuvem de pontos, que
utiliza uma sintaxe parecida com as usadas para escrever as frmulas no comando lm:
i. O grco de log-pesos do crebro (no eixo vertical) vs. pesos do corpo (eixo horizontal)
pode ser obtido atravs da tradicional forma plot(x,y), que no nosso caso seria
> plot(Animals$body, log(Animals$brain))
Alternativamente, pode dar-se o seguinte comando equivalente:
> plot(log(brain) ~ body, data=Animals)
ii. Usando a forma do comando agora introduzida, a nuvem de pontos pedida dada por:
> plot(brain ~ log(body), data=Animals)
iii. Neste caso, e uma vez que a transformao logartimica se aplica s duas variveis da
data frame Animals, basta dar o comando
> plot(log(Animals))
ou, alternativamente,
> plot(log(brain) ~ log(body), data=Animals)
NOTA: Os logaritmos aqui referidos so os logaritmos naturais, ln. Por omisso, o
comando log do R calcula logaritmos naturais.
(c) Como se viu nas aulas tericas (Acetatos 95-97), uma relao linear entre ln(y) e ln(x)
corresponde a uma relao potncia (alomtrica) entre as variveis originais: y = c x
d
.
Neste caso, tem-se uma relao de tipo alomtrico entre pesos duma parte do organismo
(crebro) e do todo (corpo). O ltimo grco da alnea anterior indica que aceitvel
admitir uma relao potncia entre o peso do crebro e o peso do corpo, nas espcies
animais consideradas.
(d) Os coecientes de correlao e de determinao entre log-pesos do corpo e log-pesos do
crebro podem ser calculados, com o auxlio do R, da seguinte forma:
> cor(log(Animals$body), log(Animals$brain)) <-- coeficiente de correlao
[1] 0.7794935
> cor(log(Animals$body), log(Animals$brain))^2 <-- coeficiente de determinao
[1] 0.6076101
Dado o valor R
2
= 0.6076, a regresso linear entre log-peso do crebro e log-peso do corpo
explica menos de 61% da variabilidade total dos log-pesos do crebro observados. Este
valor, aparentemente contraditrio com a relativamente forte relao linear para a maioria
das espcies, reexo da presena nos dados das trs espcies (pontos) que so claramente
atpicas face s restantes.
(e) Os comandos pedidos so:
> Animals.loglm <- lm(log(brain) ~ log(body), data=Animals)
> Animals.loglm
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 12
Call: lm(formula = log(brain) ~ log(body), data = Animals)
Coefficients:
(Intercept) log(body)
2.555 0.496
> abline(Animals.loglm)
(admitindo que o ltimo comando plot dado antes deste comando abline fosse o do grco
correspondente dupla logaritmizao).
(f) O declive b

1
= 0.496 da recta ajustada tem duas leituras possveis. Na relao entre as
variveis logaritmizadas tem a habitual leitura de qualquer declive duma recta de regresso:
o log-peso do crebro aumenta em mdia 0.496 log-gramas, por cada aumento de 1 log-kg no
peso do corpo. Mais compreensvel a interpretao na relao potncia entre as variveis
originais. Como se viu nas aulas tericas, a relao original entre y e x da forma y = c x
d
com d = b

1
= 0.496 e b

0
= ln(c) = 2.555 c = e
2.555
= 12.871. No nosso caso, a tendncia
de fundo na relao entre peso do corpo (x) e peso do crebro (y) y = 12.871 x
0.496
. O
valor de d muito prximo de 0.5 permite simplicar a relao dizendo que o ajustamento
indica que o peso do crebro aproximadamente proporcional raz quadrada do peso do
corpo.
(g) O comando
> identify(log(Animals))
permite, com o auxlio do rato, identicar pontos seleccionados pelo utilizador. (Para sair
do modo interactivo, clicar no boto direito do rato).
NOTA: necessrio explicitar as coordenadas dos pontos no grco que se vai aceder com
o comando. No nosso caso, isso signica explicitar as coordenadas dos dados logaritmizados:
log(Animals).
O enunciado pede para identicar os pontos que se destacam da relao linear, e que so os
pontos 6, 16 e 26. Selecionando as linhas com esses nmeros podemos identicar as espcies
em questo, e vericar que se trata de espcies de dinossurios, as nicas espcies de animais
extintos presentes no conjunto de dados:
> Animals[c(6,16,26),]
body brain
Dipliodocus 11700 50.0
Triceratops 9400 70.0
Brachiosaurus 87000 154.5
(h) Utilizando a indexao negativa para eliminar as trs espcies de dinossurios pode proceder-
se ao reajustamento da regresso, modicando o argumento data do comando lm. Pode
juntar-se a nova recta ao grco obtido antes, atravs do comando abline. Este comando
ser invocado com um argumento pedindo que a recta seja desenhada a tracejado, a m de
melhor a distinguir da recta originalmente obtida:
> abline(lm(log(brain) ~ log(body), data=Animals[-c(6,16,26),]), lty="dashed")
O grco resultante reproduzido abaixo. A excluso das trs espcies de dinossurios
(as observaes atpicas) permitiu que a recta ajustada acompanhe melhor a relao linear
existente entre a generalidade das espcies do conjunto de dados. Este exemplo ilustra
que as rectas de regresso so sensveis presena de observaes atpicas. Neste caso,
as espcies de dinossurios atraem a recta de regresso, afastando-a da generalidade das
restantes espcies.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 13
0 5 10
0
2
4
6
8
body
b
r
a
i
n
6
16
26
(i) O ajustamento sem as espcies extintas produz os seguintes parmetros da recta:
> Animals.loglm.sub <- lm(log(brain) ~ log(body),data=Animals[-c(6,16,26),])
> Animals.loglm.sub
Call: lm(formula = log(brain) ~ log(body), data = Animals[-c(6,16,26),])
Coefficients:
(Intercept) log(body)
2.1504 0.7523
Note-se como os parmetros da recta se alteram: o declive da recta cresce para mais de 0.75
e a ordenada na origem decresce um pouco. Alm disso, podemos analisar o efeito sobre
o coeciente de determinao, atravs da aplicao do comando summary regresso agora
ajustada:
> summary(Animals.loglm.sub)
(...)
Multiple R-squared: 0.9217
(...)
Com a excluso das espcies extintas, a recta de regresso passa a explicar mais de 92% da
variabilidade total nos restantes log-pesos do crebro, a partir dos log-pesos do corpo.
(j) O signicado biolgico dos parmetros da recta semelhante ao que foi visto na alnea 9f),
com as diferenas resultantes dos novos valores . Assim, na relao alomtrica entre peso do
crebro e peso do corpo (variveis no transformadas), o expoente ser aproximadamente
0.75, o que signica que o peso do crebro proporcional potncia 3/4 do peso do corpo.
Tendo em conta a relao na origem das relaes potncia (Acetato 97 das aulas tericas),
pode armar-se que a taxa de variao relativa do peso do crebro aproximadamente trs
quartos da taxa de variao relativa do peso do corpo, para o conjunto das espcies (no
extintas) analisadas.
10. (a) O comando plot(ozono) produz o grco pedido. Um grco com alguns embelezamentos
adicionais produzido pelo comando:
> plot(ozono, col="red", pch=16, cex=0.8)
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 14
15 20 25 30 35
0
5
0
1
0
0
1
5
0
Temp
O
z
o
n
o
(b) A linearizao duma relao exponencial faz-se logaritmizando:
y = ae
bx
ln(y) = ln(a) +b x ,
que uma relao linear entre x e y

= ln(y).
i. O grco de log-Ozono contra Temp pode ser construdo pelo comando:
> plot(ozono$Temp, log(ozono$Ozono))
Uma tendncia linear mais ou menos forte neste grco indica que a relao exponen-
cial entre as variveis originais adequada. Neste caso, o grco corresponde a um
coeciente de correlao entre Temp e log-Ozono de 0.73.
ii. O ajustamento pedido faz-se da seguinte forma:
> lm(log(Ozono) ~ Temp, data=ozono)
Call: lm(formula = log(Ozono) ~ Temp, data = ozono)
Coefficients:
(Intercept) Temp
0.3558 0.1203
O coeciente de determinao de cerca de R
2
= 0.73
2
= 0.53 (aplicando o comando
summary ao modelo agora ajustado verica-se ser R
2
= 0.5372), o que signica que a
regresso explica pouco mais de 53% da variabilidade dos log-teores de ozono.
iii. O declive estimado da recta b
1
= 0.1203 o coeciente do expoente, na relao exponen-
cial original, uma vez que estima o parmetro b que tem esse signicado. J a ordenada
na origem da recta ajustada, b
0
= 0.3558 corresponde estimativa de ln(a), pelo que a
constante multiplicativa a da relao exponencial original : a = e
0.3558
= 1.4273.
iv. a recta relaciona log-ozono com temperatura. Logo, o valor de log-ozono previsto pela
recta, para um dia com temperatura mxima de 25
o
dado por:

y

ln(y) = 0.3558 +
0.1203 25 = 3.3633. E o teor estimado de ozono (em ppm) : e
3.3633
= 28.8843.
(c) O comando que ajusta a curva exponencial nuvem de pontos de ozono vs. temperaturas
(admitindo que este grco ainda est activo) pode ser o seguinte:
> curve(1.4273*exp(0.1203*x), from=10, to=40, add=TRUE)
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 15
15 20 25 30 35
0
5
0
1
0
0
1
5
0
Temp
O
z
o
n
o
11. (a) Com as restries indicadas no enunciado, y no se anula e pode tomar-se o recproco de y:
1
y
=
b +x
ax
=
b
a

1
x
+
1
a
y

= b

0
+b

1
x

,
com y

=
1
y
, x

=
1
x
, b

0
=
1
a
e b

1
=
b
a
. Assim, uma relao linear entre os recprocos de y e
de x corresponde a uma relao de Michaelis-Menten entre y e x.
(b) Tendo em conta os nomes indicados no enunciado, o modelo linearizado ajusta-se atravs
do comando:
> lm(I(1/rate) ~ I(1/conc), data=Puromycin)
sendo os resultados obtidos os seguintes:
Coefficients:
(Intercept) I(1/conc)
0.0059734 0.0002329
(c) Tendo em conta as relaes vistas na alnea anterior, b

0
=
1
a
= 0.0059734, tem-se a =
167.4088. Por outro lado, b

1
=
b
a
= 0.0002329, logo b = 0.0002329167.4088 = 0.03898951.
Assim, o modelo de Michaelis-Menten ajustado : y =
167.4088 x
0.03898951+x
. Repare-se que o limite
de y quando x tende para + 167.4088, que assim a estimativa da assintota superior
da relao de Michaelis-Menten. O grco da relao original sugere que se trata duma
subestimao do verdadeiro valor desta assintota horizontal. Este exemplo ilustra que pode
haver inconvenientes associados utilizao de transformaes linearizantes, como indicado
no Acetato 100.
Exerccios de inferncia estatstica na Regresso Linear Simples
12. Comecemos por recordar a denio e propriedades da covarincia de variveis aleatrias, que
sero utilizadas na resoluo deste exerccio:
cov[X, Y ] = E [(X E[X])(Y E[Y ])] = E[XY ] E[X] E[Y ].
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 16
cov[X, X] = E
_
(X E[X])
2

= V [X].
cov[X, Y ] = cov[Y, X].
cov[a +bX, Y ] = b cov[X, Y ].
cov[X +Y, Z] = cov[X, Z] +cov[Y, Z].
Aplicando repetidamente as propriedades anteriores, v-se que a covarincia de combinaes lineares
de variveis aleatrias se pode escrever como uma combinao linear das covarincias:
cov
_
_
n

i=1
a
i
X
i
,
m

j=1
b
j
Y
j
_
_
=
n

i=1
m

j=1
a
i
b
j
cov[X
i
, Y
j
] .
(a) Pretende-se calcular a covarincia de Y =
1
n
n

i=1
Y
i
e

1
=
n

j=1
c
j
Y
j
, com c
j
=
(x
j
x)
(n1)s
2
x
. Ora,
pelas propriedades da covarincia acima referidas, tem-se:
cov[Y ,

1
] = cov
_
_
1
n
n

i=1
Y
i
,
n

j=1
c
j
Y
j
_
_
=
1
n
n

i=1
n

j=1
c
j
cov[Y
i
, Y
j
] .
Sabemos que as observaes Y
i
constituem um conjunto de v.a. independentes. Logo,
cov[Y
i
, Y
j
] = 0, caso i = j. Assim, o duplo somatrio reduz-se a um nico somatrio
(correspondente a tomar i = j). Tendo ainda em conta que cov[Y
i
, Y
i
] = V [Y
i
] =
2
, tem-se
(ver o Exerccio 3a):
cov[Y ,

1
] =
1
n
n

i=1

2
c
i
=

2
n
n

i=1
c
i
= 0 ,
(b) Tendo em conta que

0
= Y

1
x, e as propriedades das varincias e covarincias, tem-se:
cov[

0
,

1
] = cov
_
Y

1
x,

1
_
= cov[Y ,

1
]
. .
=0 (alinea a)
cov[

1
x,

1
] = xV [

1
] =
x
2
(n 1)s
2
x
.
(c) Sabemos que a independncia de duas quantitades aleatrias implica que elas tenham corre-
lao nula. Olhando para a expresso obtida na alnea anterior, evidente que a correlao
entre

0
e

1
apenas se anula se = 0 (o que corresponderia a admitir que no h variabil-
idade estatstica na relao entre x e y, contexto que no corresponde a esta disciplina) ou
se x = 0. Apenas nesta ltima situao poder existir independncia entre

0
e

1
.
13. Pretendemos determinar a distribuio de probabilidades do estimador

0
= Y

1
x =
n

i=1
d
i
Y
i
,
com d
i
=
1
n
xc
i
, como se viu nas aulas tericas. Trata-se duma combinao linear de v.a.s
Normais independentes (as observaes Y
i
), logo de distribuio Normal. Falta determinar os
respectivos parmetros. Recordando os resultados relativos ao estimador

1
, j obtidos nas aulas
tericas, tem-se:
E
_

0
_
= E
_
Y

1
x
_
= E
_
1
n
n

i=1
Y
i
_
x E
_

1
_
. .
=
1
=
1
n
n

i=1
(
0
+
1
x
i
)
. .
=E[Y
i
]

1
x =
0
+
1
x
1
x =
0
.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 17
Tendo em conta as propriedades da varincia,
V [

0
] = V
_
Y

1
x
_
= V [Y ] + V [

1
x] 2cov[Y ,

1
x]
= V
_
1
n
n

i=1
Y
i
_
+ x
2
V [

1
] 2x cov[Y ,

1
]
. .
=0 (Ex.12)
=
1
n
2
n

i=1
V [Y
i
]
. .
=
2
+ x
2

2
(n 1)s
2
x
=
2
_
1
n
+
x
2
(n 1) s
2
x
_
,
o que completa a demonstrao.
14. A informao essencial sobre a regresso pedida pode ser obtida atravs do comando summary:
> iris.lm <- lm(Petal.Width ~ Petal.Length, data=iris)
> summary(iris.lm)
Call: lm(formula = Petal.Width ~ Petal.Length, data = iris)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
(...)
Residual standard error: 0.2065 on 148 degrees of freedom
Multiple R-squared: 0.9271,Adjusted R-squared: 0.9266
F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
(a) As estimativas dos desvios padro associados estimao de cada um dos parmetros so
indicadas na tabela, na coluna de nome Std.Error (ou seja, erro padro). Assim, o desvio
padro associado estimao da ordenada na origem

0
= 0.039762. A varincia corre-
spondente o quadrado deste valor,
2

0
= 0.001581. Seria igualmente possvel calcular esta
varincia estimada a partir da sua frmula (Acetato 121):
2

0
= QMRE
_
1
n
+
x
2
(n1) s
2
x
_
. O
valor de QMRE pode ser obtido a partir da listagem acima, uma vez que, sob a designao
Residual standard error, a listagem indica o valor

QMRE = 0.2065. Os outros valores


constantes da expresso podem ser calculados como em exerccios anteriores.
De forma anloga, o desvio padro associado estimao do declive da recta

1
=
0.009582, e o seu quadrado a varincia estimada de

1
:
2

1
= 9.181472 10
5
. Tambm
aqui, este valor pode ser obtido a partir da expresso
2

1
=
QMRE
(n1) s
2
x
.
(b) Um intervalo a (1)100% de conana para
1
:
_
b
1
t

2
(n2)

1
, b
1
+t

2
(n2)

1
_
,
sendo neste caso = 0.05, n = 150, b
1
= 0.415755,

1
= 0.009582 e t
0.025(148)
= 1.976122.
Logo, o IC a 95% de conana para o declive da recta ] 0.39682 , 0.43469 [. Esta a gama
de valores admissveis (a 95% de conana) para o declive da recta relacionando largura e
comprimento das ptalas dos lrios (das trs espcies analisadas). Os intervalos de conana
dos dois parmetros da recta podem ser obtidos no R atravs do comando:
> confint(iris.lm)
2.5 % 97.5 %
(Intercept) -0.4416501 -0.2845010
Petal.Length 0.3968193 0.4346915
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 18
(c) Analogamente, um IC a (1 ) 100% de conana para
0
:
_
b
0
t

2
(n2)

0
, b
0
+t

2
(n2)

0
_
Neste exemplo, b
0
= 0.363076 e

0
= 0.039762. O valor tabelado da distribuio t,
para um intervalo a 95% de conana, o mesmo que na alnea anterior: t
0.025(148)
=
1.976122. Logo, o intervalo de conana pedido ] 0.4416501 , 0.2845010 [. Repare-se
na maior amplitude deste intervalo, em relao ao IC para o declive populacional
1
, o que
consequncia directa da maior variabilidade associada estimao de
0
(o valor de

0
cerca de 4 vezes o valor de

1
). A partir das frmulas para estes dois erros padro,
possvel vericar que este maior valor de

0
resulta, no tanto da parcela adicional
1
n
(como
n = 150, esta parcela pequena) mas sobretudo do x
2
que surge no numerador da segunda
parcela. De facto, a mdia das observaes do comprimento de ptalas aproximadamente
x = 3.758.
(d) A frase do enunciado traduz-se por
1
= 0.5. Assim, faremos um teste de hipteses desta
hiptese nula, contra a hiptese alternativa H
1
:
1
= 0.5. Os cinco passos do teste so:
Hipteses: H
0
:
1
= 0.5 vs. H
1
:
1
= 0.5 .
Estatstica do teste: T =

1
|H
0

1
t
n2
Nvel de signicncia: = 0.05.
Regio Crtica (Bilateral): Rejeitar H
0
se |T
calc
| > t

2
(n2)
= t
0.025(148)
= 1.976122.
Concluses: O valor calculado da estatstica do teste : T
calc
=
0.4157550.5
0.009582
= 8.792006.
Logo, rejeita-se claramente a hiptese nula que por cada centmetro a mais no compri-
mento da ptala, de esperar meio centmetro a mais na largura da ptala.
(e) A hiptese referida no enunciado que
1
< 0.5. Neste caso, a opo entre colocar esta
hiptese em H
0
ou em H
1
corresponde opo entre dar, ou no, o benefcio da dvida a
esta hiptese. Seja como fr, o valor de fronteira (0.5) ter de pertencer hiptese nula.
Vamos optar por no dar o benefcio da dvida hiptese indicada no enunciado:
Hipteses: H
0
:
1
0.5 vs. H
1
:
1
< 0.5 .
Estatstica do teste: T =

1
0.5

1
t
n2
Nvel de signicncia: = 0.05.
Regio Crtica (Unilateral esquerda): Rej. H
0
se T
calc
< t
(n2)
= t
0.05(148)
=
1.655215.
Concluses: O valor calculado da estatstica do teste igual ao da alnea anterior: T
calc
=
0.4157550.5
0.009582
= 8.792006. Logo, rejeita-se a hiptese nula, optando-se por H
1
. Pode
armar-se que estatisticamente signicativa a concluso que, por cada centmetro a
mais no comprimento da ptala, em mdia a respectiva largura cresce menos do que
0.5cm.
(f) A armao do enunciado corresponde hiptese
1
= 0. De facto, se
1
= 0, a equao
do modelo que relaciona x e Y reduz-se a Y
i
=
0
+
i
, no existindo relao linear entre
x e Y . O teste s hipteses H
0
:
1
= 0 vs. H
1
:
1
= 0 pode ser feito como na alnea
14d) acima. No entanto, para o caso particular do valor do parmetro
1
= 0 a informao
relativa ao teste j indicada na listagem produzida pelo comando summary, nas terceira
e quarta colunas da tabela Coefficients. Neste caso, o valor calculado da estatstica
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 19
T
calc
=
0.4157550
0.009582
= 43.387. Tendo em conta que a regio crtica igual da alnea
14d), tem-se uma rejeio clara da hiptese nula
1
= 0: o valor estimado b
1
= 0.415755
signicativamente diferente de zero (ao nvel = 0.05), pelo que a recta tem alguma
utilidade para prever valores de y (largura da ptala) a partir dos valores de x (comprimento
da ptala). Esta concluso tambm se pode justicar a partir do valor de prova (p value)
do valor calculado da estatstica, que muito pequeno, sendo mesmo inferior preciso de
mquina, p < 2 10
16
. Mesmo para nveis de signicncia como = 0.01 ou = 0.005,
a concluso seria a de rejeio de H
0
.
(g) Uma abordagem alternativa para a questo estudada na alnea anterior ser a de efectuar
um teste de ajustamento global (teste F) regresso ajustada. No nosso caso, e denindo
R
2
como o coeciente de determinao populacional, tem-se:
Hipteses: H
0
: R
2
= 0 vs. H
1
: R
2
> 0
Estatstica do teste: F =
QMR
QMRE
= (n 2)
R
2
1R
2
F
(1,n2)
, sob H
0
.
Nvel de signicncia: = 0.05.
Regio Crtica (Unilateral direita): Rej. H
0
se F
calc
> f
(1,n2)
=f
0.05(1,148)
=3.905.
Concluses: O valor calculado da estatstica : F
calc
= 148
0.9271
10.9271
= 1882.178. Logo,
rejeita-se claramente a hiptese nula, que corresponde hiptese dum ajustamento
intil do modelo. A resposta coerente com a alnea anterior.
NOTA: Repare-se que o comando summary do R, quando aplicado ao ajustamento duma
regresso, indica na ltima linha das listagens o valor da estatstica calculada F
calc
, os
respectivos graus de liberdade associados, e o valor de prova (p-value) correspondente.
(h) A largura esperada duma ptala cujo comprimento seja x = 4.5cm dada por = b
0
+
b
1
4.5 = 0.363076+0.4157554.5 = 1.507821. No R, este resultado pode ser obtido atravs
do comando predict:
> predict(iris.lm, new=data.frame(Petal.Length=4.5))
1
1.507824
O intervalo de conana para
x=4.5
= E[Y |X = 4.5] dado por (Acetato 141):
_
(b
0
+b
1
x) t

2
;n2

QMRE
_
1
n
+
(x x)
2
(n1) s
2
x
_
, (b
0
+b
1
x) +t

2
;n2

QMRE
_
1
n
+
(x x)
2
(n1) s
2
x
_
_
em que = b
0
+ b
1
4.5 = 1.507821, t

2
;n2
= t
0.025,148
= 1.976122, QMRE = 0.2065
2
(a
partir da listagem acima dada). Por outro lado, a mdia e varincia das n = 150 observaes
do preditor Petal.Length podem ser calculadas e resultam ser x = 3.758 e s
2
x
= 3.116278.
Assim, a 95% de conana, o verdadeiro valor de
x=4.5
= E[Y |X = 4.5] faz parte do
intervalo ] 1.47166 , 1.543982 [. No R este intervalo de conana pode ser obtido atravs do
comando
> predict(iris.lm, new=data.frame(Petal.Length=4.5), int="conf")
fit lwr upr
1 1.507824 1.471666 1.543982
Os extremos do intervalo so dados pelos valores lwr (de lower) e upr (de upper).
(i) O intervalo de predio para o valor da varivel resposta y (largura da ptala) associada a
uma observao com x = 4.5 dado por:
_
(b
0
+b
1
x) t

2
;n2

QMRE
_
1+
1
n
+
(x x)
2
(n1) s
2
x
_
, (b
0
+b
1
x) +t

2
;n2

QMRE
_
1+
1
n
+
(x x)
2
(n1) s
2
x
_
_
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 20
Em relao ao intervalo de conana pedido na alnea anterior, apenas muda a expresso
debaixo da raz quadrada. No R este tipo de intervalo obtm-se com um comando muito
semelhante ao anterior:
> predict(iris.lm, new=data.frame(Petal.Length=4.5), int="pred")
fit lwr upr
1 1.507824 1.098187 1.917461
Como seria de esperar, trata-se dum intervalo bastante mais amplo: ] 1.098187 , 1.917461 [.
(j) Dos grcos de resduos produzidos pelo comando
> plot(lm(Petal.Width ~ Petal.Length, data=iris),which=c(1,2))
verica-se que pode existir um problema em relao hiptese de homogeneidade de varin-
cias. O grco da esquerda sugere que os lrios com comprimento de ptala mais pequeno (do
lado esquerdo do grco) parecem ter menor variabilidade dos resduos do que os restantes.
J a linearidade aproximada no qq-plot (grco da direita) no indicia a existncia de prob-
lemas com a hiptese de normalidade.
0.0 1.0 2.0

0
.
6

0
.
2
0
.
2
0
.
6
Fitted values
R
e
s
i
d
u
a
l
s
Residuals vs Fitted
115
135
142
2 0 1 2

1
0
1
2
3
Theoretical Quantiles
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Normal QQ
115
135
142
Quanto aos grcos de diagnstico produzidos pelo comando
> plot(lm(Petal.Width ~ Petal.Length, data=iris),which=c(4,5))
observa-se no diagrama de barras das distncias de Cook que, apesar de haver alguma
variabilidade nos valores, em nenhum caso a distncia de Cook excede o valor (bastante
baixo) de 0.06. Assim, nenhuma observao se deve considerar inuente. De igual forma,
no h valores elevados do efeito alavanca (leverage), sendo o maior valor de h
ii
inferior a
0.03 (ver o eixo horizontal do grco da direita). Assim, nenhuma observao se destaca
por ter um efeito alavanca elevado.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 21
0 50 100 150
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
0
.
0
6
Obs. number
C
o
o
k

s

d
i
s
t
a
n
c
e
Cooks distance
123
135
108
0.000 0.010 0.020

1
0
1
2
3
Leverage
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Cooks distance
Residuals vs Leverage
123
135
108
(k) Nas trs subalneas, as transformaes de uma ou ambas as variveis so transformaes
ans (lineares), razo pela qual o quadrado do coeciente de correlao, ou seja, o coeciente
de determinao R
2
no sofre alterao. O que pode mudar so os parmetros da recta de
regresso ajustada.
i. Neste caso, apenas a varivel preditora sofre uma transformao multiplicativa, da
forma x x

= c x (com c = 10). Vejamos qual o efeito deste tipo de transformaes


nos parmetros da recta de regresso. Utilizando a habitual notao dos asteriscos
para indicar os valores correspondentes transformao, temos (tendo em conta que
var(c x) = c
2
var(x):
b

1
=
cov
x

y
s
2
x

=
cov(c x, y)
c
2
s
2
x
=
1
c
cov(x, y)
s
2
x
=
1
c
b
1
;
e (tendo em conta o efeito de constantes multiplicativas sobre a mdia, ou seja, x

= c x):
b

0
= y b

1
x

= y
1
c
b
1
c x = y b
1
x = b
0
.
Ou seja, neste caso a ordenada na origem no se altera, enquanto que o declive vem
multiplicado por
1
10
. Conrmemos estes resultados com recurso ao R:
> lm(formula = Petal.Width ~ I(Petal.Length*10), data = iris)
Call:
lm(formula = Petal.Width ~ I(Petal.Length * 10), data = iris)
Coefficients:
(Intercept) I(Petal.Length * 10)
-0.36308 0.04158
ii. Neste caso, estamos perante uma transformao idntica usada na alnea 1i), pelo que
j sabemos que iremos encontrar, quer a ordenada na origem, quer o declive, multipli-
cados por c = 10. Conrmando no R:
> lm(formula = I(Petal.Width*10) ~ Petal.Length, data = iris)
Call:
lm(formula = I(Petal.Width * 10) ~ Petal.Length, data = iris)
Coefficients:
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 22
(Intercept) Petal.Length
-3.631 4.158
iii. Finalmente, na conjugao das duas transformaes discutidas nas subalneas anteri-
ores, e generalizando para as transformaes multiplicativas x c x e y d y, vem:
b

1
=
cov
x

s
2
x

=
cov(c x, d y)
c
2
s
2
x
=
cd
c
2
cov(x, y)
s
2
x
=
d
c
b
1
;
e:
b

0
= y

1
x

= d y
d
c
b
1
c x = d (y b
1
x) = d b
0
.
Como no nosso caso c = d = 10, o declive no se deve alterar, enquanto a ordenada na
origem dever ser 10 vezes maior do que no caso original dos dados no transformados.
> lm(formula = I(Petal.Width*10) ~ I(Petal.Length*10), data = iris)
Call:
lm(formula = I(Petal.Width * 10) ~ I(Petal.Length * 10), data = iris)
Coefficients:
(Intercept) I(Petal.Length * 10)
-3.6308 0.4158
15. (a) Tem-se, recordando que SQRE = SQT SQR,
F =
QMR
QMRE
=
SQR/1
SQRE/(n 2)
= (n 2)
SQR
SQT SQR
= (n 2)
R
2
1 R
2
,
onde a ltima passagem resulta de dividir numerador e denominador por SQT.
(b) Como R
2
est entre 0 e 1, qualquer aumento de R
2
aumenta o numerador e diminui o denom-
inador, provocando um aumento da fraco. Assim, a maiores valores de R
2
correspondem
maiores valores da estatstica F. Uma vez que o teste F tem hiptese nula H
0
: R
2
= 0,
natural que se dena uma regio crtica unilateral direita.
16. Recordando a expresso para SQR obtida no Exerccio 5d), tem-se:
T =

1
_
QMRE
(n1) s
2
x
= T
2
=

2
1
(n 1) s
2
x
QMRE
=
SQR
QMRE
=
QMR
QMRE
.
Nos apontamentos da disciplina de Estatstica (dos primeiros ciclos do ISA), foi visto (Aponta-
mentos da Prof. Manuela Neves, p.119, na verso de 2011/12) que, dada uma varivel aleatria
com distribuio t-Student, X t
m
, o seu quadrado tem distribuio F, com graus de liberdade
como indicado de seguida: X
2
F
(1,m)
. No nosso caso, m = n2. Assim, numa regresso linear
simples, usar um teste-t para testar
1
= 0, ou um teste F de ajustamento global, equivalente.
17. (a) Admitir que existem erros aleatrios aditivos no modelo linearizado no a mesma coisa
que admitir que existem erros aditivos no modelo original. De facto,
log(Y ) =
0
+
1
log(x) + Y = e

0
+
1
log(x)+
= e

0
e
log(
1
x)
e

0
x

,
pelo que admitir erros aditivos no modelo linearizado corresponde a admitir erros multiplica-
tivos no modelo exponencial original. Alm disso, admitir que os erros aditivos do modelo
linearizado tm distribuio Normal signica que

= e

no tem distribuio Normal (a


sua distribuio a chamada Lognormal, no estudada nesta disciplina). A ideia impor-
tante a reter que admitir as hipteses usuais no modelo original diferente de admitir
essas mesmas hipteses no modelo linearizado.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 23
(b) Na alnea referida foi ajustado o modelo linearizado, ou seja a regresso linear entre log(brain)
(varivel resposta) e log(body) (varivel preditora). A parte nal do ajustamento produzido
no R com o comando summary indicada de seguida.
> Animals.lm <- lm(log(brain) ~ log(body) , data=Animals)
> summary(Animals.lm)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.55490 0.41314 6.184 1.53e-06
log(body) 0.49599 0.07817 6.345 1.02e-06
---
Residual standard error: 1.532 on 26 degrees of freedom
Multiple R-squared: 0.6076,Adjusted R-squared: 0.5925
F-statistic: 40.26 on 1 and 26 DF, p-value: 1.017e-06
Utilizar-se- a informao acima para efectuar o teste global de ajustamento (teste F global).
As hipteses do teste podem ser escritas de formas diferentes, e nesta resoluo usada a
que relaciona as hipteses deste teste com o declive da recta de regresso populacional.
Hipteses: H
0
:
1
= 0 vs. H
1
:
1
= 0
Estatstica do teste: F =
QMR
QMRE
= (n 2)
R
2
1R
2
F
(1,n2)
, sob H
0
.
Nvel de signicncia: = 0.05.
Regio Crtica (Unilateral direita): Rej. H
0
se F
calc
> f
(1,n2)
=f
0.05(1,26)
=4.225201.
Concluses: O valor calculado da estatstica : F
calc
= 40.26. Logo, rejeita-se claramente
a hiptese nula, que corresponde hiptese dum ajustamento intil do modelo. A
resposta coerente com a alnea anterior.
O Coeciente de Determinao R
2
= 0.6076, um valor relativamente baixo. Tal facto
no contraditrio com uma rejeio enftica da hiptese nula do teste F de ajustamento
global (o valor de prova p = 1.017 10
6
), uma vez que a hiptese nula desse teste pode
ser formulada como na populao, o coeciente de correlao (ao quadrado) entre ln(x) e
ln(y) nulo. Esta hiptese nula muito fraca, indicando a inutilidade do modelo linear. O
valor amostral observado de R
2
= 0.6076, no sendo elevado, no entanto suciente para
rejeitar H
0
: R
2
= 0, ou seja, difere signicativamente de zero para qualquer dos nveis de
signicncia usuais.
(c) Pretende-se o intervalo a 95% de conana para
1
, ou seja:
_
b
1
t

2
(n2)

1
, b
1
+t

2
(n2)

1
_
,
com b
1
= 0.49599, t
0.025(26)
= 2.055529 e

1
= 0.07817. Ou seja, o intervalo ] 0.335 , 0.657 [.
Uma relao isomtrica corresponde a admitir que o declive da recta populacional
1
= 1,
ou seja que as taxas de variao relativas de peso do corpo e peso do crebro so iguais (ver
a resoluo do exerccio 9). Uma vez que o valor 1 no pertence ao intervalo de conana,
a hiptese de isometria no admissvel (a 95% de conana).
(d) Os quatro grcos discutidos nas aulas tericas resultam do comando
> plot(Animals.lm, which=c(1,2,4,5), pch=16)
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 24
2 4 6 8

1
0
1
2
3
Fitted values
R
e
s
i
d
u
a
l
s
Residuals vs Fitted
Dipliodocus
Brachiosaurus
Triceratops
2 1 0 1 2

1
0
1
2
Theoretical Quantiles
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Normal QQ
Dipliodocus Brachiosaurus
Triceratops
0 5 10 15 20 25
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
Obs. number
C
o
o
k

s

d
i
s
t
a
n
c
e
Cooks distance
Brachiosaurus
Dipliodocus
Triceratops
0.00 0.05 0.10 0.15

1
0
1
2
Leverage
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Cooks distance
0.5
0.5
Residuals vs Leverage
Brachiosaurus Dipliodocus
Triceratops
Como se pode constatar, a presena das trs observaes atpicas (os dinossurios) evidente
em todos os grcos. No primeiro (resduos e
i
vs. valores ajustados y
i
) o efeito traduz-se
no facto dos restantes resduos se disporem numa banda inclinada (e no horizontal, como
seria adequado). No segundo grco, o qq-plot indica que os dinossurios so responsveis
pelo maior afastamento em relao linearidade aproximada que seria de esperar perante
uma distribuio aproximadamente Normal dos resduos. As distncias de Cook dessas mes-
mas observaes so claramente grandes, sendo que no caso do Brachiosaurus ultrapassam
mesmo o nvel de guarda 0.5. Recorde-se que as distncias de Cook procuram medir o efeito
sobre o ajustamento que resulta de retirar uma observao, sendo de realar que apesar
de haver trs observaes atpicas prximas umas das outras, basta retirar uma para que
haja j diferenas assinalveis no ajustamento. Finalmente, no quarto grco, de resduos
standardizados contra valores do efeito alavanca (leverage), verica-se que o maior efeito
alavanca cerca de 0.2. Tendo em conta que em princpio este valor poderia atingir o valor
mximo 1 (aqui no h repeties dos valores de x
i
), trata-se dum valor que no parece
demasiado elevado. Convm recordar que numa regresso linear simples, as leverages h
ii
so funo do afastamento do valor do preditor x em relao mdia x das observaes
desse preditor.
(e) Ajustando agora as 25 espcies que no so dinossurios, obtm-se os seguintes resultados:
> Animals.lm25 <- lm(log(brain) ~ log(body) , data=Animals[-c(6,16,26),])
> summary(Animals.lm25)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 25
(Intercept) 2.15041 0.20060 10.72 2.03e-10
log(body) 0.75226 0.04572 16.45 3.24e-14
---
Residual standard error: 0.7258 on 23 degrees of freedom
Multiple R-squared: 0.9217,Adjusted R-squared: 0.9183
F-statistic: 270.7 on 1 and 23 DF, p-value: 3.243e-14
Os parmetros estimados da recta alteraram-se, e os respectivos erros padro so agora
bastante mais pequenos, factos que esto associados a uma relao linear muito mais forte
nas 25 espcies usadas neste ajustamento. Esta relao muito mais forte conrmada pelo
valor muito mais elevado do coeciente de correlao: R
2
= 0.9217, e visvel no grco de
log-peso do crebro contra log-peso do corpo, indicado na resoluo do exerccio 9.
A expresso do intervalo de conana a mesma que indicada na alnea 17c), mas agora
os valores das quantidades relevantes so: b
1
= 0.75226, t
0.025(23)
= 2.068658 (repare-se
na mudana dos graus de liberdade, resultante de agora haver apenas n = 25 espcies) e

1
= 0.04572. Assim, o IC agora ] 0.6577 , 0.8468 [. Note-se que este intervalo mais
apertado (mais preciso) que o correspondente intervalo obtido na alnea c), o que reecte o
menor erro padro agora existente. No entanto, e apesar do maior valor do declive estimado,
b
1
= 0.75226, o intervalo a 95% de conana continua a no incluir o valor 1 como um valor
admissvel para
1
, logo a hiptese de isometria continua a no ser admissvel.
(f) O valor esperado para log-peso do crebro, numa espcie com peso do corpo igual a 250,
e portanto log-peso do corpo x

= log(250) = 5.521461 ser:


Y

|X

=log(250)
= b
0
+ b
1

log(250) = 2.15041 + 0.75226 5.521461 = 6.303984. Um intervalo a (1) 100% de
conana para o verdadeiro valor de E[Y

|X

= log(250)] ser:
_
(b
0
+b
1
x

) t

2
;n2

QMRE
_
1
n
+
(x

)
2
(n1) s
2
x
_
, (b
0
+b
1
x

) +t

2
;n2

QMRE
_
1
n
+
(x

)
2
(n1) s
2
x
_
_
Os valores de b
0
e b
1
j foram indicados, tal como o nmero de observaes n = 25 e
t
0.025(23)
= 2.068658. Por outro lado, e tendo em conta que sob a designao residual
Standard error, a listagem produzida pelo R d o valor da raz quadrada do QMRE, tem-se:
QMRE = 0.7258
2
= 0.5267856. Finalmente, o valor da mdia e a varincia das observaes
do preditor dizem agora respeito aos log-pesos do crebro, sendo, respectivamente:
> mean(log(Animals$body[-c(6,16,26)]))
[1] 3.028283
> var(log(Animals$body[-c(6,16,26)]))
[1] 10.50226
Com base neste valores, a raz quadrada acima indicada tem valor

0.5267856
_
1
25
+
(5.521461 3.028283)
2
24 10.50226
_
= 0.1845604 .
Assim, o intervalo a 95% de conana para o log-peso do crebro esperado em espcies com
peso do corpo 250 ] 5.922 , 6.686 [ . No R, este intervalo de conana poderia ser obtido
atravs do comando
> predict(Animals.lm25, new=data.frame(body=250), int="conf")
fit lwr upr
1 6.30399 5.922178 6.685803
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 26
Repare-se que, sendo necessrio dar o novo valor da varivel preditora com o nome da
varivel preditora original, foi dado o valor x = 250. O R tem em conta a transformao
logartmica usada no ajustamento da regresso linear em Animals.lm25.
(g) Agora, pretende-se um intervalo de predio para o log-peso do crebro, Y

, duma nica
espcie cujo peso do corpo seja x = 250kg (e log-peso do corpo x

= log(250)). A expresso
para este intervalo de predio a (1) 100% :

(b0+b1x

) t
2
;n2

QMRE

1+
1
n
+
(x

)
2
(n1) s
2
x

, (b0+b1x

) + t
2
;n2

QMRE

1+
1
n
+
(x

)
2
(n1) s
2
x

O valor da raz quadrada agora:

0.5267856
_
1 +
1
25
+
(5.521461 3.028283)
2
24 10.50226
_
= 0.748898 ,
pelo que o referido intervalo de predio ] 4.755 , 7.853 [. Como seria de esperar, trata-se
dum intervalo bastante mais amplo que o anterior, uma vez que tem em conta a variabilidade
adicional associada a observaes individuais. No R, utilizar-se-ia o comando
> predict(Animals.lm25, new=data.frame(body=250), int="pred")
fit lwr upr
1 6.30399 4.754694 7.853287
Para obter o intervalo de predio para os valores do peso do crebro (sem logaritmizao),
basta tomar as exponenciais dos extremos do intervalo acima referido. De facto, se (ao nvel
95% e para x = 250kg) o intervalo de predio para Y

= log(Y ) : 4.755 < log(Y ) < 7.853,


ento a dupla desigualdade equivalente e
4.755
= 116.16 < Y < 2573.443 = e
7.853
ser um
intervalo de predio a 95% para uma observao individual de Y . Trata-se dum intervalo
de grande amplitude, associado quer ao facto de ser um intervalo de predio para valores
individuais de Y , quer exponenciao.
NOTA: Na alnea anterior no se pode efectuar uma transformao anloga, uma vez que
valor esperado e logaritmizao no so operaes intercambiveis. Ou seja, E[log(Y )] =
log(E[Y ]), pelo que no sabemos como transformar a dupla desigualdade a < E[log(Y )] < b
numa dupla desigualdade equivalente apenas com E[Y ] no meio.
(h) Os grcos de resduos e diagnsticos so dados pelo seguinte comando e so reproduzidos
de seguida.
> plot(Animals.lm25, which=c(1,2,4,5), pch=16)
A excluso dos dinossurios do conjunto das espcies analisadas tornou saliente que, entre
as 25 espcies restantes, duas se destacam por terem resduos positivos um pouco maiores:
o ser humano e o macaco Rhesus. Esse facto indica que o log-peso do crebro destas espcies
razoavelmente maior do que seria de esperar dado o log-peso dos seus corpos. As duas
espcies so igualmente salientes no qq-plot e tm distncia de Cook elevada, embora longe
dos nveis de guarda. No entanto, repare-se que os valores do efeito alavanca destas espcies
com resduos e distncia de Cook mais elevados so muito baixos. Tal facto (que reecte
o facto de os log-pesos dos corpos destas espcies estarem prximos da mdia de log-pesos
do corpo das espcies observadas) ilustra que os conceitos de inuncia, atipicidade e valor
do efeito alavanca so diferentes. Uma eventual excluso destas espcies (sobretudo no
caso do macaco Rhesus) j mais problemtica que no caso dos dinossurios, uma vez que
obrigaria a redenir a populao de interesse num sentido mais discutvel. Nem tal deve ser
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 27
feito apenas para melhorar o aspecto de grcos de diagnstico. Alis, o que aconteceu
acima ilustra que uma excluso pode at fazer surgir novas espcies atpicas, inuentes ou
de elevado valor alavanca.
0 2 4 6 8

1
.
0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Fitted values
R
e
s
i
d
u
a
l
s
Residuals vs Fitted
Human
Rhesus monkey
Chimpanzee
2 1 0 1 2

1
0
1
2
3
Theoretical Quantiles
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Normal QQ
Human
Rhesus monkey
Chimpanzee
5 10 15 20 25
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
Obs. number
C
o
o
k

s

d
i
s
t
a
n
c
e
Cooks distance
Human
Rhesus monkey
Golden hamster
0.00 0.05 0.10 0.15 0.20

1
0
1
2
3
Leverage
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Cooks distance
0.5
1
Residuals vs Leverage
Human
Rhesus monkey
Golden hamster
18. Para resolver este exerccio, onde se considera um grupo de n = 62 espcies de mamferos,
necessrio ter previamente carregado o mdulo MASS, o que se pode fazer atravs do comando
library(MASS).
As nuvens de pontos pedidos nas duas alneas
iniciais so indicadas direita. evidente o
efeito de linearizao obtido atravs da log-
aritmizao, quer do peso do corpo, quer do
peso do crebro. Tal linearizao sugere que
um modelo potncia (alomtrico) adequado
para descrever a relao entre peso do corpo
e peso do crebro, nos mamferos.
0 2000 4000 6000
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
Variveis originais
body
b
r
a
in
4 2 0 2 4 6 8

2
0
2
4
6
8
Variveis logaritmizadas
log(body)
lo
g
(
b
r
a
in
)
(c) A resposta idntica que foi dada no exerccio 9.
(d) Os comandos para responder, no R so:
> mammals.lm <- lm(log(brain) ~ log(body), data=mammals)
> mammals.lm
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 28
Call: lm(formula = log(brain) ~ log(body), data = mammals)
Coefficients:
(Intercept) log(body)
2.1348 0.7517
> plot(log(brain) ~ log(body), data=mammals, pch=16, main="Variveis logaritmizadas")
> abline(mammals.lm)
4 2 0 2 4 6 8

2
0
2
4
6
8
Variveis logaritmizadas
log(body)
l
o
g
(
b
r
a
i
n
)
Note-se como os parmetros da recta ajustada utilizando 62 espcies so muito prximos
dos parmetros obtidos utilizando apenas as 25 espcies (no dinossurios) no Exerccio 17,
facto que sugere uma boa robustez do resultado obtido. A recta de regresso ajustada
uma boa sntese da nuvem de pontos.
(e) Como se pode constatar, o coeciente de determinao muito elevado (R
2
= 0.9208 e
naturalmente muito signicativamente diferente de zero, com p-value inferior a 2.2 10
16
,
ou seja, inferior preciso do computador), o que indica uma muito boa relao linear entre
as variveis logaritmizadas, logo uma boa relao potncia do peso do crebro e do peso do
corpo.
> summary(mammals.lm)
Call: lm(formula = log(brain) ~ log(body), data = mammals)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13479 0.09604 22.23 <2e-16 ***
log(body) 0.75169 0.02846 26.41 <2e-16 ***
---
Residual standard error: 0.6943 on 60 degrees of freedom
Multiple R-squared: 0.9208,Adjusted R-squared: 0.9195
F-statistic: 697.4 on 1 and 60 DF, p-value: < 2.2e-16
(f) Como em qualquer linearizao dum modelo potncia, o declive da recta a potncia esti-
mada na relao y = c x
d
, ou seja, o valor de d. No caso desta relao, esse valor estimado
aproximadamente d = 0.75, valor que conrma a relao das espcies no dinossurios
do exerccio 17. Como foi visto nas aulas tericas, esse valor corresponde a que a taxa de
variao relativa do peso do crebro seja 3/4 da taxa de variao relativa no peso do corpo.
(g) Os intervalos de conana a 95% para ambos os parmetros da recta so:
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 29
> confint(mammals.lm)
2.5 % 97.5 %
(Intercept) 1.9426733 2.3269041
log(body) 0.6947503 0.8086215
Assim, o intervalo de conana para o declive da recta populacional entre log-peso do corpo
e log-peso do crebro ] 0.695 , 0.807 [. O intervalo no inclui o valor 1 que corresponderia
isometria, ou seja a uma taxa de variao relativa igual entre peso do corpo e peso do
crebro.
(h) Os grcos de resduos e diagnsticos obtm-se com o comando
> plot(mammals.lm, which=c(1,2,4,5), add.smooth=FALSE)
e so indicados a seguir. Nenhum dos grcos indicia problemas com os pressupostos do
modelo linear, nem observaes dignas de especial destaque. Apesar do ser humano surgir
com algum destaque em vrios grcos, no se distingue de forma que justique qualquer
reparo especial.
2 0 2 4 6 8

1
0
1
2
Fitted values
R
e
s
i
d
u
a
l
s
Residuals vs Fitted
Human
Water opossum
Rhesus monkey
2 1 0 1 2

1
0
1
2
3
Theoretical Quantiles
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Normal QQ
Human
Water opossum
Rhesus monkey
0 10 20 30 40 50 60
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
Obs. number
C
o
o
k

s

d
i
s
t
a
n
c
e
Cooks distance
Human
Musk shrew Water opossum
0.00 0.02 0.04 0.06 0.08 0.10

1
0
1
2
3
Leverage
S
t
a
n
d
a
r
d
i
z
e
d

r
e
s
i
d
u
a
l
s
Cooks distance 0.5
0.5
Residuals vs Leverage
Human
Musk shrew
Water opossum
19. Tem-se
V [
Y |x
] = V [

0
+

1
x] = V [

0
] +V [

1
x] + 2cov(

0
,

1
x)
=
2
_
1
n
+
x
2
(n 1)s
2
x
_
. .
=V [

0
]
+x
2


2
(n 1)s
2
x
. .
=V [

1
]
+2x
2
x
(n 1)s
2
x
. .
=cov(

0
,

1
) (Ex.12)
=
2
_
1
n
+
x
2
+x
2
2x x
(n 1) s
2
x
_
=
2
_
1
n
+
(x x)
2
(n 1) s
2
x
_
.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 30
20. (a) Pretende calcular-se a cov(Y
i
,

Y
i
). Relembrando que

Y
i
=

0
+

1
x
i
e

0
= Y

1
x, pelas
propriedades da covarincia, tem-se:
cov(Y
i
,

Y
i
) = cov(Y
i
,

0
+

1
x
i
) = cov(Y
i
,

0
) +cov(Y
i
,

1
x
i
)
= cov(Y
i
, Y

1
x) +x
i
cov(Y
i
,

1
) = cov(Y
i
, Y ) cov(Y
i
,

1
x) +x
i
cov(Y
i
,

1
)
= cov(Y
i
, Y ) xcov(Y
i
,

1
) +x
i
cov(Y
i
,

1
) = cov(Y
i
, Y ) + (x
i
x)cov(Y
i
,

1
)
Como Y =
1
n
n

j=1
Y
j
e

1
=
n

j=1
c
j
Y
j
, com c
j
=
(x
j
x)
(n1)s
2
x
,
cov(Y
i
,

Y
i
) = cov(Y
i
,
1
n
n

j=1
Y
j
) + (x
i
x)cov(Y
i
,
n

j=1
c
j
Y
j
)
=
1
n
n

j=1
cov(Y
i
, Y
j
) + (x
i
x)
n

j=1
c
j
cov(Y
i
, Y
j
)
Dado as observaes {Y
i
}
n
i=1
serem v.a. independentes, cov(Y
i
, Y
j
) = 0, se i = j.
Alm disso, cov(Y
i
, Y
i
) = var[Y
i
] =
2
, pelo que
cov(Y
i
,

Y
i
) =

2
n
+ (x
i
x)c
i

2
=

2
n
+
(x
i
x)
2

2
(n 1)s
2
x
=
2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
.
(b) Sabemos que E
i
= Y
i


Y
i
. Pelas propriedades da covarincia e a alnea anterior, temos:
cov(Y
i
, E
i
) = cov(Y
i
, Y
i


Y
i
) = cov(Y
i
, Y
i
) cov(Y
i
,

Y
i
)
=
2

2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
=
2
_
1
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
__
(c) De acordo com o resultado da alnea a) e como
cov(

Y
i
,

Y
i
) = V [

Y
i
] = V [

0
+

1
x
i
] = V [
Y |x
i
] =
ex. 18

2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
,
tem-se:
cov(

Y
i
, E
i
) = cov(

Y
i
, Y
i


Y
i
) = cov(

Y
i
, Y
i
) cov(

Y
i
,

Y
i
)
=
2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_

2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
= 0.
Deste modo, se o modelo de RLS for vlido, no dever haver nenhum padro no grco de
resduos vs. valores ajustados de Y j que o valor da covarincia entre estas duas variveis
zero. O mesmo no acontece no grco de resduos vs. valores observados de Y pois, como
mostrmos na alnea anterior, a covarincia entre E
i
e Y
i
, em geral, diferente de zero.
(d) Como se viu nas aulas tericas, cada resduo pode escrever-se como combinao linear das
observaes Y
i
,
E
i
=
n

j=1
k
j
Y
j
, com k
j
=
_
(d
j
+x
i
c
j
) se j = i
1 (d
j
+x
i
c
j
) se j = i
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 31
E
i
ento combinao linear de v.a.s Normais independentes, logo tem ainda distribuio
Normal. Relativamente aos parmetros, temos que
E[E
i
] = E[Y
i


Y
i
] = E[Y
i
] E[

Y
i
] = (
0
+
1
x
i
)
. .
E[Y
i
]
(
0
+
1
x
i
)
. .
E[

Y
i
]
= 0
V [E
i
] = V [Y
i


Y
i
] = V [Y
i
] +V [

Y
i
] 2cov(Y
i
,

Y
i
)
=
2
+
2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
. .
(ex. 18)
2
2
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
_
. .
(alnea a)
=
2
_
1
_
1
n
+
(x
i
x)
2
(n 1)s
2
x
__
=
2
(1 h
ii
),
com h
ii
=
1
n
+
(x
i
x)
2
(n 1)s
2
x
.
21. (a) Com base na expresso da alnea 5d), temos:
E[SQR] = E[

2
1
(n 1)s
2
x
] = (n 1)s
2
x
E[

2
1
] ,
Ora, sabemos que, para qualquer varivel aleatria X,
V [X] = E[X
2
] E
2
[X] E[X
2
] = V [X] +E
2
[X] .
Tomando X =

1
, temos
E[

2
1
] = V [

1
] +E
2
[

1
] =

2
(n 1)s
2
x
+
2
1
= E[SQR] =
2
+
2
1
(n 1)s
2
x
.
(b) J vimos que, em qualquer regresso, E[QMRE] =
2
. Vimos agora que, numa regresso
linear simples, E[QMR] = E[SQR/1] = E[SQR] =
2
+
2
1
(n 1)s
2
x
. Assim,
se
1
= 0 = E[QMR] = E[QMRE]
se
1
= 0 = E[QMR] > E[QMRE]
Logo, natural que a estatstica F =
QMR
QMRE
tome valores prximos de 1 caso seja verdade
H
0
:
1
= 0. Valores muito grandes de F
calc
fazem suspeitar que H
0
no seja verdadeira,
devendo portanto a regio crtica do teste ser unilateral direita.
ISA/UTL Estatstica e Delineamento Prof. Jorge Cadima 2013/2014 32

Potrebbero piacerti anche