Sei sulla pagina 1di 71

Notas de Probabilidades e Estatstica

Giovani Loiola da Silva


Carlos Daniel Paulino
Departamento de Matematica - IST/UTL
Setembro 2012
Conte udo
1 Introducao 1
2 Nocoes de probabilidade 2
3 Variaveis aleatorias 7
4 Distribuicoes de probabilidade e caractersticas 15
5 Complementos das distribuicoes de probabilidade 25
6 Amostragem e estimacao pontual 34
7 Estimacao por intervalos 44
8 Testes de hipoteses 50
9 Introducao `a regressao linear simples 62
1 Introducao
Breve descricao do objecto da disciplina
Classicacao de experiencias segundo a (im)previsibilidade exacta dos seus resultados:
Experiencias determinsticas ou causais - Exemplos:
1. Transforma cao de agua pura em vapor quando aquecida a temperatura superior a 100
o
C sob pressao
atmosferica de 760 mm Hg;
2. Distancia percorrida por um movel ao m de um determinado tempo quando lancado verticalmente
a uma dada velocidade;
3. Intensidade da corrente electrica que percorre um circuito com uma determinada resistencia inter-
calada quando submetido a uma dada diferen ca de potencial nas condicoes de aplicabilidade da lei
de Ohm.
Experiencias aleatorias ou casuais - Exemplos:
1. Desintegracao radioactiva;
1
2. Reparti cao de defeitos estruturais em chapas metalicas usada na ind ustria;
3. Sexo do ser vivo resultante de um ovulo fecundado;
4. Extrac cao de premios de uma lotaria;
5. Lan camento de um dado.
Embora esta dicotomia levante varios problemas, o que se pretende destacar aqui e se a descricao satis-
fatoria da experiencia/fenomeno em estudo requer uma analise de causa-efeito (as primeiras) ou carece
de uma analise probabilstico-estatstica (as segundas).
Teoria da Probabilidade: estudo de modelos matematicos adequados para a descri cao das experi-
encias aleatorias (modelos probabilsticos, estocasticos ou estatsticos).
Estatstica: Estudo de metodos para a selec cao de modelos estocasticos apropriados para a descricao
das experiencias aleatorias com base em dados observados.
Estatstica Descritiva/Analise Explorat oria de Dados: Descricao de opera coes numericas e gracas
que visam patentear sumariamente a informa cao relevante contida nos dados obtidos.
Estatstica Indutiva/Inferencia Estatstica: Estudo de como inferir (caractersticas de) um modelo
estocastico adequado para a descri c ao da experiencia/fenomeno a partir dos dados, com medi cao
probabilstica do grau de incerteza associado.
Representacao esquematica da diferenciacao entre os raciocnios da Teoria da Probabilidade e da Infe-
rencia Estatstica
Popula c ao
Teoria da Probabilidade
Amostra
Inferencia Estatstica

%
r
r
r
r
rj

B
r
r
r
r
r
2 Nocoes de probabilidade
Motivacao: Num estudo cientco, o objectivo centra-se usualmente na descri cao de um fenomeno de
interesse atraves de modelo teorico.
O fenomeno pode ser observavel e o processo de recolha das suas observacoes e uma experiencia.
Se a realiza cao da experiencia determina previamente qual o seu resultado, o modelo teorico e dito
determinstico. Caso contrario, o modelo e nao determinstico ou aleatorio (estocastico).
Exemplo 2.1: Sob certas condicoes, a distancia (S) percorrida em queda livre por um objecto ao m de
um tempo t e S
t
= 16t
2
+v
0
t, onde v
0
e a velocidade inicial imprimida ao objecto.
Exemplo 2.2: O n umero de partculas alfa emitidas por um fragmento de material radioactivo durante
um dado intervalo de tempo.
2
Experiencias aleatorias. Espaco de resultados
Deni cao 2.1: Uma experiencia diz-se aleatoria se:
todos os seus possveis resultados sao conhecidos `a partida.
o resultado em cada realiza cao concreta da experiencia nao e de facto conhecido a priori.
Frequentemente, acrescenta-se ainda `a denicao de experiencia aleatoria que ela pode ser repetida muitas
vezes, essencialmente sob as mesmas condicoes.
Exemplo 2.3: Lancamento de um dado (experiencia E
1
).
Deni cao 2.2: Espa co de resultados ou espaco amostral de uma experiencia aleatoria e o conjunto de
todos os seus possveis resultados, denotado por .
Acontecimentos
Deni cao 2.3: Dada uma experiencia aleatoria E com espaco de resultados , um acontecimento ou
evento e um subconjunto de .
Um acontecimento pode ser, por exemplo, elementar ({}), certo () e impossvel (). Note-se que dois
acontecimentos A e B tais que A B = sao ditos mutuamente exclusivos ou disjuntos.
Deni cao 2.4: Dada uma experiencia aleatoria E com espaco de resultados , denota-se por A e o
conjunto de todos os acontecimentos possveis de .
Exemplo 2.3a: Na experiencia E
1
, = {1, 2, 3, 4, 5, 6} e A = {, {1}, . . . , } com #A = 64.
Nocao de probabilidade
Interpreta cao de Laplace
Para uma experiencia aleatoria E com espa co de resultados nito = {1, . . . , N}, supondo que os N
resultados sao igualmente provaveis, a probabilidade de qualquer acontecimento A e a propor cao de
resultados de favoraveis a A.
Exemplo 2.3b: Na experiencia E
1
, a probabilidade do acontecimento A = {sair face par} e dada por
P(A) = 3/6 = 0.5.
Interpretacao frequencista
A probabilidade de um acontecimento A e o limite da frequencia relativa da ocorrencia de A numa longa
sucessao de experiencias realizadas sob as mesmas condicoes.
Exemplo 2.4: Num lan camento de uma moeda (E
2
), a probabilidade de sair cara (acontecimento A) e
dada por
P(A) = lim
n
f
n
(A) =
1
2
.
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0


Interpreta cao subjectivista
A probabilidade de um acontecimento A e entendida como uma medida pessoal (entre 0 e 1) do grau de
cren ca sobre a ocorrencia de A.
Exemplo 2.5: Um geologo arma que uma dada regiao tem 60% de chance de haver petroleo, baseando-se
quer nas caractersticas do terreno quer na sua semelhanca com outras regioes com conhecida presenca
ou ausencia de petroleo nos ultimos anos.
3
Axiomatica de probabilidade
Deni cao 2.5: Para cada evento A de uma experiencia aleatoria com espa co de resultados , e suposto
existir um n umero real, designado por probabilidade de A e denotado por P(A), satisfazendo os axiomas:
A
1
: P(A) 0, A A (acontecimentos possveis de ).
A
2
: P() = 1.
A
3
: Para qualquer sequencia de acontecimentos disjuntos 2 a 2 A
1
, . . . , A
n
tem-se P(
n
i=1
A
i
) =

n
i=1
P(A
i
),
n = 2, 3, . . ..
O conjunto A de e dito ser uma -algebra de acontecimentos se i) A, ii) A A

A A e iii)
A
1
, A
2
, . . . A

i=1
A
i
A.
Deni cao 2.6: Sob a validade destes axiomas, (, A, P) e dito ser um espaco de probabilidade. O par
(, A) diz-se ser um espaco mensuravel de acontecimentos.
Teoremas decorrentes
Sejam A e B acontecimentos de uma experiencia aleatoria com espa co de resultados . Se P(A) e P(B)
satisfazem os axiomas referidos anteriormente, entao tem-se os seguintes teoremas decorrentes:
Teorema 2.1: P(

A) = 1 P(A);
Teorema 2.2: P() = 0;
Teorema 2.3: A B P(A) P(B) e P(B A) = P(B) P(A);
Teorema 2.4: P(A) 1;
Teorema 2.5: P(B A) = P(B) P(A B);
Teorema 2.6: P(A B) = P(A)+P(B)P(A B). Generalizacao:
P(
n
i=1
A
i
)=

n
i=1
P(A
i
)

n
i=2

j<i
P(A
i
A
j
)+ +(1)
n1
P(
n
i=1
A
i
).
Exemplo 2.6: Na experiencia E
1
, com A
1
={face par} e A
2
={face 4}, tem-se i) P(A
1
) =P(A
2
) =
1
2
;
ii) P(A
1
A
2
)=
1
3
; iii) P(A
1
A
2
)=
2
3
.
Probabilidade condicional
Deni cao 2.7: Sejam A e B acontecimentos de um espaco de probabilidade (, A, P). Se P(B) > 0, a
probabilidade do acontecimento A dado a ocorrencia do acontecimento B (A dado B ou A se B ou A
condicionado a B) e dada por
P(A|B) =
P(A B)
P(B)
.
Analogamente, P(B|A) = P(A B)/P(A), se P(A) > 0.
Em P(A|B), B funciona como um espaco de resultados reduzido sobre o qual esta avaliada a
probabilidade de A.
Se e nito com resultados equiprovaveis, pode-se calcular P(A|B) directamente como P(A|B) =
#{AB}
#{B}
.
No cenario vigente, a probabilidade condicional P(A|B), com P(B) > 0, e uma probabilidade denida
sobre o espaco de acontecimentos associado a B, vericando-se os axiomas:
4
A
1
: P(A|B) 0, acontecimento A.
A
2
: P(|B) = 1.
A
3
: Para acontecimentos disjuntos A
1
, . . . , A
n
, P(
n
i=1
A
i
|B) =

n
i=1
P(A
i
|B), n = 1, 2, . . ..
E igualmente teoremas decorrentes tais como:
1. P(

A|B) = 1 P(A|B);
2. P(|B) = 0;
3. P(A|B) 1;
4. A
1
A
2
P(A
1
|B)P(A
2
|B), P(A
2
A
1
|B)=P(A
2
|B)P(A
1
|B);
5. P(A
2
A
1
|B) = P(A
2
|B) P(A
2
A
1
|B);
6. P(A
1
A
2
|B) = P(A
1
|B) +P(A
2
|B) P(A
1
A
2
|B).
Teorema da probabilidade composta
A partir da deni cao de probabilidade condicional obtem-se que
P(A B) = P(A)P(B|A) ou P(B)P(A|B),
bem como relacoes estendidas do tipo
P(A B C) = P(A)P(B C|A) = P(A)P(B|A)P(C|A B).
Teorema 2.7: Se A
1
, . . . , A
n
sao acontecimentos de um espaco de resultados , entao
P(
n
i=1
A
i
) = P(A
1
)P(A
2
|A
1
) . . . P(A
n
|A
1
A
2
. . . A
n1
).
Exemplo 2.7: Num sorteio de 3 premios, sem reposi cao, para 12 homens e 8 mulheres, a probabilidade
de nenhum homem ganhar o sorteio (A) e P(A) 0.049.
Teorema da probabilidade total
Deni cao 2.8: Os acontecimentos A
1
, . . . , A
n
formam uma particao do espaco de resultados quando
1. A
i
A
j
= , i = j = 1, . . . , n.
2.
n
i=1
A
i
= .
Teorema 2.8: Se B e um acontecimento qualquer de um espa co de resultados e A
1
, . . . , A
n
uma parti cao
de , entao
P(B) =

n
i=1
P(A
i
)P(B|A
i
).
Exemplo 2.8: Numa caixa com 20 pecas do tipo A e 80 do tipo B, sabe-se que 30% e 25% das pecas
do tipo A e B, respec., sao defeituosas. Qual a probabilidade de uma pe ca, seleccionada ao acaso, ser
defeituosa (D)? P(D) = 0.26.
5
Teorema de Bayes
Teorema 2.9: Se os acontecimentos A
1
, . . . , A
n
formam uma parti cao do espaco de resultados e B e
um acontecimento qualquer de com P(B) > 0, entao i = 1, . . . , n,
P(A
i
|B) =
P(A
i
B)
P(B)
=
P(A
i
)P(B|A
i
)

n
j=1
P(A
j
)P(B|A
j
)
.
Exemplo 2.8a: Na caixa com 100 pecas dos tipos A e B (Exemplo 2.8), qual a probabilidade de uma
peca seleccionada ao acaso ser do tipo A, sabendo que ela e defeituosa? E ser do tipo B, se defeituosa?
P(A|D) 0.231
P(B|D) 0.769
Acontecimentos independentes
Deni cao 2.9: Diz-se que dois acontecimentos A e B de um mesmo espaco de resultados sao indepen-
dentes se
P(A B) = P(A) P(B).
Todo o acontecimento A e independente de e .
Se A e B sao acontecimentos independentes, P(A|B) = P(A) se P(B) > 0 e P(B|A) = P(B) se
P(A) > 0.
Se A e B sao acontecimentos independentes, tambem o sao

A e B, A e

B e

A e

B.
Acontecimentos A e B sao condicionalmente independentes ao acontecimento C, P(C) > 0, se
P(A B|C) = P(A|C)P(B|C).
Os acontecimentos A, B e C sao completamente independentes, se P(AB) = P(A)P(B), P(A
C) = P(A)P(C), P(B C) = P(B)P(C) e P(A B C) = P(A)P(B)P(C).
Nota: Independencia 2 a 2 independencia completa dos 3.
Generalizacao: Os acontecimentos A
1
, . . . , A
n
dizem-se independentes se para todo o k=2, . . . , n e
todo o subconjunto {A
i
j
, j =1, . . . , k} de k desses acontecimentos, P(
k
j=1
A
i
j
) =

k
j=1
P(A
i
j
).
Nota: O n umero de relacoes e dado por 2
n
(n+1).
Exemplo 2.9: Considere o espa co de resultados como o quadrado de vertices (0,0), (0,1), (1,0) e (1,1).
Suponha que a probabilidade de uma regiao (acontecimento) contida em seja a area desta regiao. Os
acontecimentos A = {(x, y) : 1/3 x 2/3, 0 y 1/2} e B = {(x, y) : 1/2 x 1, 1/4 y 3/4}
sao independentes?
E
T
x
1 0
y
1
A
B
P(A) = 1/6, P(B) = 1/4
P(A B) = 1/24 = P(A) P(B)
A e B sao independentes.
6
3 Variaveis aleatorias
Numa experiencia aleatoria, independentemente de o seu espaco de resultados ser expresso numerica-
mente, ha interesse em considerar-se fun coes reais em , denominadas por variaveis aleatorias.
Deni cao 3.1: Uma variavel aleatoria (v.a.) X e uma fun cao que associa um n umero real a cada resultado
possvel de uma experiencia aleatoria.
Rigorosamente, dado um espa co de probabilidade (, A, P), uma variavel aleatoria X e uma fun cao com
domnio e contradomnio na recta real (X : IR) tal que o conjunto A
r
{w : X() r} A,
r IR.
As variaveis aleatorias podem assumir um n umero nito ou innito (numeravel ou nao numeravel) de
valores possveis.
O modelo probabilstico induzido em IR pela v.a. X pode ser cabalmente denido de varios modos, e.g.,
atraves da funcao de distribuicao.
Fun cao de distribuicao
Deni cao 3.2: Dada uma variavel aleatoria X, a funcao de distribuicao (cumulativa) de X e dada por
F
X
(x) P(X x), x IR.
Por exemplo, P(a < X b) = F
X
(b) F
X
(a), a < b.
Propriedades da funcao de distribuicao.
A funcao de distribuicao de X, F
X
(x), satisfaz as seguintes propriedades:
P
1
: Se x y, entao F
X
(x) F
X
(y). Ou seja, F
X
e uma fun cao nao decrescente.
P
2
: Se x
n
x (n), entao F
X
(x
n
) F
X
(x). Ou seja, F
X
e uma fun cao contnua `a direita.
P
3
: Se x
n
(n), entao F
X
(x
n
) 0 = F
X
().
P
4
: Se x
n
(n), entao F
X
(x
n
) 1 = F
X
().
Variaveis aleatorias discretas
Se o conjunto dos possveis valores de uma variavel aleatoria for nito ou innito enumeravel, a v.a.
diz-se discreta. Nesse caso, outro modo de denir cabalmente o modelo probabilstico induzido em IR e
atraves da funcao massa de probabilidade.
Funcao (massa) de probabilidade
Deni cao 3.3: Diz-se que X e uma v.a. discreta, com os possveis valores x
1
, x
2
, . . ., se existir uma funcao
(IR [0, 1]) f
X
(x) = P(X = x), denotando a probabilidade de ocorrencia de {x}, conhecida por funcao
(massa) de probabilidade (f.m.p.), e satisfazendo as condi coes:
1. f
X
(x
i
) > 0, i = 1, 2, . . .;
2.

i1
f
X
(x
i
) = 1.
Observe-se que
7
1. P(X B) =

x
i
B
f
X
(x
i
);
2. F
X
(x) =

x
i
x
f
X
(x
i
);
3. f
X
(x) = F
X
(x)F
X
(x

), onde F
X
(x

) P(X < x);


4. P(a X b) = F
X
(b) F
X
(a) +f
X
(a);
5. P(a < X < b) = F
X
(b) F
X
(a) f
X
(b):
6. P(a X < b) = F
X
(b) F
X
(a) f
X
(b) +f
X
(a);
7. P(a < X b) = F
X
(b) F
X
(a).
Exemplo 3.1: Na extrac cao, sem reposicao, de 2 pe cas de uma urna com 5 pecas defeituosas e 4 perfeitas,
qual a f.m.p. de X (n umero de pecas defeituosas nas 2 pecas retiradas)? E a sua fun cao de distribuicao?
f
X
(x) =
_

_
12
72
, x = 0;
40
72
, x = 1;
20
72
, x = 2;
0, caso contrario
E
T
x
f
X
(x)
0 1 2
1
F
X
(x) =
_

_
0, x < 0;
12
72
, 0 x < 1;
52
72
, 1 x < 2;
1, x 2.
E
T
x
F
X
(x)
0 1 2
1
r
r
r
Variaveis aleatorias contnuas
Se o conjunto dos possveis valores de uma v.a. for innito nao numeravel, a v.a. diz-se contnua se
satiszer certas condicoes adicionais.
Funcao densidade de probabilidade
Deni cao 3.4: Diz-se que X e uma v.a. contnua, se existir uma fun cao f
X
, denominada fun cao densidade
de probabilidade (f.d.p.) de X tal que:
1. f
X
(x) 0, x IR;
2.
_
IR
f
X
(x)dx = 1;
3. A func ao de distribuicao e contnua e dada por
F
X
(x) P(X x) =
_
x

f
X
(u)du.
8
Deni cao 3.5: Dada uma v.a. contnua X com f.d.p. f
X
(x), a massa probabilstica contida em qualquer
acontecimento B IR e dada por
P(X B) =
_
B
f
X
(x)dx.
Se X e uma v.a. contnua com fun cao de distribui cao F
X
(x),
P(a < X b) = F
X
(b) F
X
(a): area sob f
X
(x) entre a e b.
x IR, P(X = x) F
X
(x) F
X
(x h), h > 0
P(X = x) lim
h0
+ [F
X
(x) F
X
(x h)] = 0
P(a<Xb)=P(aXb)=P(a<X<b)=P(aX<b).
A f.d.p. de X pode ser obtida pela derivacao de F
X
(x), i.e., f
X
(x) =
d
dx
F
X
(x), nos pontos de
diferenciabilidade desta.
f
X
(x) pode ser interpretada como uma massa de probabilidade por unidade de comprimento pois
para x sucientemente pequeno P(x
x
2
X x +
x
2
) xf
X
(x), `a luz do Teorema do
Valor Medio do Calculo Integral.
Exemplo 3.2: Seja X o tempo de vida de uma componente electronica (em determinadas unidades),
suposto distribudo com f.d.p. f
X
(x) = e
x
, se x > 0, e f
X
(x) = 0, caso contrario. Qual a funcao de
distribui cao de X?
F
X
(x) =
_
_
_
_
x
0
e
u
du = 1 e
x
, x > 0;
0, x 0.
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Funo Densidade de Probabilidade
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Funo de Distribuio
x
F
(
x
)
Fun coes de variaveis aleatorias
Seja X uma variavel aleatoria denida no espaco de resultados associado `a experiencia aleatoria E.
Se y = g(x) e uma fun cao real (mensuravel) de x, com x = X() para algum , entao Y = g(X) e
tambem uma variavel aleatoria denida no mesmo espa co de probabilidade.
Por exemplo, se X e uma v.a. discreta com f.m.p. f
X
(x) e contradomnio D = {x
1
, x
2
, . . .}, entao
Y = g(X) e tambem uma variavel aleatoria discreta com f.m.p.
f
Y
(y) = P(Y = y) = P(X A
y
) =

x
i
A
y
f
X
(x
i
), y D

onde A
y
= {xD : g(x)=y} e D

=g(D) e o contradomnio de Y .
9
Se X e uma v.a. contnua, a continuidade de Y = g(X) depende do tipo da funcao g(). No caso de Y
ser contnua, a sua distribuicao e determinavel da de X, como se ilustra em seguida.
Exemplo 3.3: Seja X uma v.a. contnua com f.d.p.
f
X
(x) =
_
_
_
1, 0 < x < 1;
0, caso contrario.
Qual a f.d.p. de Y = e
X
(exemplo de funcao real de X diferenciavel em todos os pontos do respectivo
domnio e estritamente monotona)?
y > 0, F
Y
(y) P(Y y) = P(X log y) F
X
(log y).
=f
Y
(y) =
d
dy
F
Y
(y) =
d
dx
F
X
(x)

x=log y
dx
dy
= f
X
(log y)
1
y
f
Y
(y) =
_
_
_
1/y, 1 < y < e;
0, caso contrario.
Vectores aleatorios bidimensionais
Na maioria das situacoes, a considera cao de uma unica variavel nao e suciente para explicar cabalmente
um fenomeno aleatorio, sendo necessario explicitar mais do que uma v.a. e, por conseguinte, denir a
distribui cao de probabilidade conjunta no espa co euclidiano multidimensional.
Exemplo 3.4: Sejam X e Y os n umeros de cartas rei/dama e as em 2 cartas retiradas (sem reposicao)
de um baralho com 52 cartas, respec. Quais as probabilidades conjuntas (nao nulas) do par aleatorio
(X, Y )?
X\Y 0 1 2
0 0.589 0.121 0.004 0.714
1 0.241 0.024 0 0.265
2 0.021 0 0 0.021
0.851 0.145 0.004 1
Fun cao de distribuicao conjunta
Um par aleatorio (X, Y ) e uma funcao (mensuravel) IR
2
.
Deni cao 3.6: Dado um par aleatorio (X, Y ), a sua funcao de distribuicao conjunta e dada por
F
X,Y
(x, y) P(X x, Y y).
Propriedades da fun cao de distribui cao de um par aleatorio (X, Y ):
P
1
: F
X,Y
(x, y) e uma fun cao nao decrescente em cada uma das variaveis, e.g., x, y
1
y
2
, F
X,Y
(x, y
1
)
F
X,Y
(x, y
2
).
10
P
2
: F
X,Y
(x, y) e uma funcao contnua `a direita em cada uma das variaveis, e.g., se x
n
x (n ),
entao F
X,Y
(x
n
, y) F
X,Y
(x, y).
P
3
: lim
x,y
F
X,Y
(x, y) = lim
x
F
X,Y
(x, y) = lim
y
F
X,Y
(x, y) = 0.
P
4
: lim
x,y
F
X,Y
(x, y) = 1.
Fun coes de distribuicao marginais
Deni cao 3.7: Dado um par aleatorio (X, Y ), a funcao de distribuicao marginal de X e dada por
F
X
(x) = lim
y
F
X,Y
(x, y) = P(X x),
enquanto a funcao de distribuicao marginal de Y e
F
Y
(y) = lim
x
F
X,Y
(x, y) = P(Y y).
Note-se que as funcoes de distribui cao marginais F
X
(x) e F
Y
(y) de um par aleatorio (X, Y ) satisfazem
as propriedades da funcao de distribuicao (unidimensional) referidas previamente.
Distribuicao conjunta de um par aleatorio
Deni cao 3.8: Diz-se que (X, Y ) e um par aleatorio discreto (contnuo), quando existe uma funcao
f
X,Y
(x, y), denominada funcao massa (densidade) de probabilidade conjunta de (X, Y ), satisfazendo as
seguintes condicoes:
1. f
X,Y
(x, y) 0, (x, y).
2.

x
i

y
j
f
X,Y
(x
i
, y
j
) = 1 (caso discreto),
_
IR
_
IR
f
X,Y
(x, y) dxdy = 1 (caso contnuo).
3. P((X, Y )B) =
_
_
_

(x
i
,y
j
)B
f
X,Y
(x
i
, y
j
) (caso discreto),
_ _
B
f
X,Y
(x, y) dxdy (caso contnuo).
Por conseguinte, a funcao de distribui cao conjunta de (X, Y ) e
F
X,Y
(x, y) =
_
_
_

x
i
x

y
j
y
f
X,Y
(x
i
, y
j
) (caso discreto),
_
x

_
y

f
X,Y
(u, v) dvdu (caso contnuo).
Observe-se que a f.d.p. conjunta de (X, Y ) (que representa a massa probabilstica por unidade de area)
pode ser obtida a partir da respectiva funcao de distribuicao por diferenciacao, nos pontos (x, y) de
diferenciabilidade desta, i.e.,
f
X,Y
(x, y) =

2
xy
F
X,Y
(x, y).
Exemplo 3.5: Num sistema com 2 componentes electronicas, seja X (Y ) a duracao (em horas) da sua
primeira (segunda) componente. Sera f
X,Y
(x, y) abaixo uma f.d.p. conjunta do par aleatorio (X, Y )?
11
f
X,Y
(x, y) =
_
_
_
e
xy
, x > 0, y > 0;
0, c.c.
Sim, f
X,Y
(x, y) 0, (x, y) IR
2
e

f
X,Y
(x, y) dxdy =
_

0
e
y
_

0
e
x
dxdy = 1.
Qual a probabilidade de as duas componentes durarem no maximo 2 horas cada uma?
E
T

2
2
(2, 2) q
x
y
P(X 2, Y 2) = F
X,Y
(2, 2)
=
_
2
0
_
2
0
e
xy
dxdy
0.7477
Qual a probabilidade de a primeira componente durar mais do que a segunda?
E
T

A
x
y
P(X > Y ) =
_ _
A
f
X,Y
(x, y) dxdy
=
_

0
_

y
e
xy
dxdy
= 0.5
Distribuicoes marginais
Deni cao 3.9: Dado um par aleatorio (X, Y ) de v.a. discretas (contnuas) com funcao massa (densidade)
de probabilidade conjunta f
X,Y
(x, y), as fun coes massa (densidade) de probabilidade marginais de X e
de Y sao, respectivamente, dadas por
f
X
(x) =

y
f
X,Y
(x, y)
__
IR
f
X,Y
(x, y) dy
_
,
f
Y
(y) =

x
f
X,Y
(x, y)
__
IR
f
X,Y
(x, y) dx
_
.
Note-se que as fun coes f
X
(x) e f
Y
(y) satisfazem as propriedades de f.m.p (f.d.p.), estando associadas
igualmente a fun coes de distribuicao (marginais). Por exemplo, se (X, Y ) e contnuo: i) f
X
(x) 0, x
IR; ii)
_

f
X
(x)dx = 1; iii) F
X
(x) = P(X x) =
_
x

f
X
(u)du.
Exemplo 3.5a: No sistema com duas componentes electronicas, qual a funcao de distribui cao conjunta
de (X, Y ), sendo X e Y as dura coes das componentes?
F
X,Y
(x, y) =
_
y

_
x

f
X,Y
(u, v)dudv
x,y>0
=
_
y
0
_
x
0
e
uv
dudv
=
_
y
0
e
v
(e
u
)|
x
0
dv = (1 e
x
)
_
y
0
e
v
dv,
=
_
_
_
(1 e
x
)(1 e
y
), x, y > 0;
0, c.c.
12
E as funcoes densidade de probabilidade marginais de X e Y ?
f
X
(x)
x>0
=

_
0
e
xy
dy = e
x
(e
y
)|

0
=
_
_
_
e
x
, x > 0;
0, c.c.
f
Y
(y)
y>0
=

_
0
e
xy
dx = e
y
(e
x
)|

0
=
_
_
_
e
y
, y > 0;
0, c.c.
Distribuicoes condicionais
Deni cao 3.10: Dado um par aleatorio (X, Y ) de v.a. discretas (contnuas) com funcao massa (densidade)
de probabilidade conjunta f
X,Y
(x, y), a funcao massa (densidade) de probabilidade condicional de X dado
Y = y e expressa por
f
X|Y =y
(x) = f
X,Y
(x, y)/f
Y
(y), se f
Y
(y) > 0.
Analogamente, a funcao massa (densidade) de probabilidade condicional de Y dado X = x e
f
Y |X=x
(y) = f
X,Y
(x, y)/f
X
(x), se f
X
(x) > 0.
Observe-se que, e.g., a fun cao f
X|Y =y
(x) satisfaz as propriedades de f.m.p (f.d.p.) unidimensional,
estando associada com a correspondente funcao de distribuicao (condicional):
F
X|Y =y
(x) = P(Xx|Y =y) =
_
_
_

x
i
x
f
X|Y =y
(x
i
) (discreto),
_
x

f
X|Y =y
(u) du (contnuo).
Exemplo 3.4a: X e Y sao os n umeros de cartas rei/dama e as em 2 cartas retiradas do baralho (sem
reposicao), respectivamente.
X\Y 0 1 2
0 0.589 0.121 0.004 0.714
1 0.241 0.024 0 0.265
2 0.021 0 0 0.021
0.851 0.145 0.004 1
A funcao massa de probabilidade condicional de Y dado X = 0 e
Y |X = 0 0 1 2
f
Y |X=0
(y)
0.589
0.714
= 0.825
0.121
0.714
= 0.169
0.004
0.714
= 0.006
Note-se que

y
f
Y |X=0
(y) =

y
f
X,Y
(0, y)
f
X
(0)
=
1
f
X
(0)

y
f
X,Y
(0, y) = 1
13
Independencia entre variaveis aleatorias
Deni cao 3.11: Duas v.a. X e Y sao ditas independentes, se para todo A e B, os eventos X A e Y B
sao independentes, i.e.,
P(X A, Y B) = P(X A)P(Y B).
Teorema 3.1: Duas variaveis aleatorias X e Y sao independentes, se e so se a fun cao de distribui cao
conjunta de (X, Y ) e dada por
F
X,Y
(x, y) = F
X
(x)F
Y
(y), (x, y),
onde F
X
(x) e F
Y
(y) sao as funcoes de distribuicao marginal de X e Y .
Teorema 3.2: Duas v.a. X e Y discretas (contnuas) sao independentes, se e so se a f.m.p. (f.d.p.)
conjunta de (X, Y ) e dada por
f
X,Y
(x, y) = f
X
(x)f
Y
(y), (x, y),
onde f
X
(x) e f
Y
(y) sao as f.m.p. (f.d.p.) marginal de X e Y .
Teorema 3.3: Duas v.a. X e Y sao independentes, se e so se a f.m.p. (f.d.p.) condicional de X dado
Y = y e dada por
f
X|Y =y
(x) = f
X
(x), (x, y), tal que f
Y
(y) > 0.
onde f
X
(x) e f
Y
(y) sao as f.m.p. (f.d.p.) marginal de X e Y . Analogamente, X e Y sao independentes
se e so se f
Y |X=x
(y) = f
Y
(y), (x, y), tal que f
X
(x) > 0.
Exemplo 3.5b: Serao X e Y , duracoes (em horas) das duas componentes electronicas do sistema, v.a.
independentes?
Sim, visto que
f
X,Y
(x, y) =
_
_
_
e
(x+y)
= e
x
e
y
, x, y > 0;
0, c.c.
= f
X
(x)f
Y
(y), (x, y).
Vectores aleatorios discretos e contnuos
Deni cao 3.12: Seja (X
1
, . . . , X
n
) IR
n
um vector aleatorio, onde X
i
, 1 i n sao variaveis aleatorias
discretas e/ou contnuas. (X
1
, . . . , X
n
) e dito ser um vector aleat orio discreto ou contnuo com fun-
cao de distribui cao F
X
1
,...,X
n
(x
1
, . . . , x
n
), quando existe uma funcao nao negativa f
X
1
,...,X
n
(x
1
, . . . , x
n
)
vericando, respectivamente,
F
X
1
,...,X
n
(x
1
, . . . , x
n
) =

u
1
x
1


u
n
x
n
f
X
1
,...,X
n
(u
1
, . . . , u
n
)
F
X
1
,...,X
n
(x
1
, . . . , x
n
) =
x
1
_


x
n
_

f
X
1
,...,X
n
(u
1
, . . . , u
n
)du
1
. . . du
n
e consequentemente

u
1



u
n

f
X
1
,...,X
n
(u
1
, . . . , u
n
) = 1

f
X
1
,...,X
n
(u
1
, . . . , u
n
)du
1
. . . du
n
= 1.
14
Por generaliza cao obvia a vectores aleatorios em IR
n
,
Deni cao 3.13: X
1
, . . . , X
n
sao v.a. independentes, se a fun cao de distribuicao de (X
1
, . . . , X
n
) e dada
por
F
X
1
,...,X
n
(x
1
, . . . , x
n
) P(X
1
x
1
, . . . , X
n
x
n
) =
n

i=1
F
X
i
(x
i
),
onde F
X
i
(x
i
) e a fun cao de distribui cao marginal de X
i
, i =1, . . . , n.
ou equivalentemente, se
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =
n

i=1
f
X
i
(x
i
),
onde f
X
i
(x
i
) e a f.m.p. (f.d.p.) marginal de X
i
, i =1, . . . , n.
Exemplo 3.6: Se X
1
, . . . , X
n
sao v.a. independentes e identicamente distribudas (P(X
1
= 1) p =
1P(X
1
=0)), qual a f.m.p conjunta de (X
1
, . . . , X
n
)?
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =
n

i=1
p
x
i
(1p)
1x
i
= p

i
x
i
(1p)
n

i
x
i
.
4 Distribuic oes de probabilidade e caractersticas
Valor esperado de uma variavel aleatoria
Deni cao 4.1: Dada uma v.a. discreta (contnua) X com f.m.p. (f.d.p.) f
X
(x), o valor esperado (ou
valor medio ou esperan ca matematica) de X, caso exista, e dado por
E(X) =
_
_
_

x
i
x
i
f
X
(x
i
) (caso discreto)
_
IR
x f
X
(x)dx (caso contnuo).
Exemplo 4.1: Numa questao de escolha m ultipla com 5 respostas das quais so uma esta correcta, qual a
nota esperada de um aluno que responde ` a questao ao acaso?
X =
_
_
_
1, resposta correcta
0, resposta incorrecta
E(X) = P(X = 1) = 0.2.
Valor esperado de uma funcao de uma variavel aleatoria
Teorema 4.1: Seja X uma v.a. discreta (contnua) com f.m.p. (f.d.p.) f
X
(x) e g(X) uma funcao de X.
O valor esperado de g(X), se existir, e
E(g(X)) =
_
_
_

x
i
g(x
i
) f
X
(x
i
) (X discreta)
_
IR
g(x) f
X
(x)dx (X e g() contnuas).
15
Corolario 4.1: Seja X uma v.a. discreta (contnua) com f.m.p. (f.d.p.) f
X
(x) e a = 0 e b constantes
reais. O valor esperado de aX +b e
E(aX +b) = aE(X) +b.
Observe-se, por exemplo, que E(
1
X
) =
1
E(X)
e E(|X|) = |E(X)|.
Momentos simples e centrais
Corolario 4.2: Seja X uma v.a. discreta (contnua) com f.m.p. (f.d.p.) f
X
(x) e k inteiro positivo. O
valor esperado de X
k
, conhecido por momento simples de ordem k de X, caso exista, e
E(X
k
) =
_
_
_

x
i
x
k
i
f
X
(x
i
) (caso discreto)
_
IR
x
k
f
X
(x)dx (caso contnuo).
Corolario 4.3: Seja X uma v.a. discreta (contnua) com f.m.p. (f.d.p.) f
X
(x) e k inteiro positivo. O
valor esperado de (X E(X))
k
, conhecido por momento central de ordem k de X, caso exista, e
E((XE(X))
k
) =
_
_
_

x
i
(x
i
E(X))
k
f
X
(x
i
) (caso discreto)
_
IR
(xE(X))
k
f
X
(x)dx (caso contnuo).
Deni cao 4.2: Dada uma v.a. discreta (contnua) X com f.m.p. (f.d.p.) f
X
(x), a variancia de X e o
momento central de ordem 2 de X, i.e.,
V ar(X) = E[(XE(X))
2
] =
_
_
_

x
i
(x
i
E(X))
2
f
X
(x
i
) (discreto)
_
IR
(xE(X))
2
f
X
(x)dx (contnuo).
Se X e uma v.a. com valor esperado E(X) e variancia V ar(X), tem-se as seguintes propriedades:
P
1
: V ar(aX +b) = a
2
V ar(X), com a=0, b IR V ar(b) = 0.
P
2
: V ar(X) = E(X
2
) E(X)
2
.
P
3
: V ar(X) = 0 X e constante com probabilidade 1.
Deni cao 4.3: Se X e uma v.a. com variancia V ar(X), o desvio padrao (outra medida de dispersao) de
X e dado por
(X) = +
_
V ar(X).
Deni cao 4.4: Se X e uma v.a. com valor esperado E(X) = 0 e desvio padrao (X), o coeciente de
variacao (medida de dispersao relativa) de X e
CV (X) = (X)/|E(X)|.
16
Exemplo 4.2: Num lancamento de um dado, um jogador aposta 5 euros nas seguintes condicoes: i) Se
sair face 6, ele ganha 4 vezes o montante apostado; ii) Se sair face 4 ou 5, ele ganha 5 euros; iii) caso
contrario, ele nada ganha. Qual o lucro (X) esperado do jogador?
X 5 0 15
f
X
(x) 1/2 1/3 1/6
E(X) =

x
x f
X
(x)
= 0 euros.
E a variancia de X? V ar(X) =

x
(xE(X))
2
f
X
(x) = 50 euros
2
.
Outros parametros: Moda e quantis
Deni cao 4.5: Dada uma v.a. discreta (contnua) X com f.m.p. (f.d.p.) f
X
(x), a moda de X e dada por
m
o
(X) = x
o
: f
X
(x
o
) = max
x
f
X
(x).
Se X() = IN, pode-se encontrar x
o
usando as relacoes
f
X
(x
o
)/f
X
(x
o
1) 1 e f
X
(x
o
)/f
X
(x
o
+1) 1.
Deni cao 4.6: Dada uma v.a. X com funcao de distribuicao F
X
(x), a mediana de X e
m
d
(X) = x
d
: F
X
(x
d
) 0.5 e P(X x
d
) 0.5,
ou equivalentemente 0.5 F
X
(x
d
) 0.5 +P(X=x
d
).
Deni cao 4.7: Dado qualquer n umero p, 0 < p < 1, o p-esimo quantil de uma v.a. X com funcao de
distribui cao F
X
(x), denotado por q
p
, e dado por
F
X
(q
p
) p e P(X q
p
) 1p,
ou equivalentemente
p F
X
(q
p
) p +P(X=q
p
).
Observe-se que a mediana e o quantil q
0.5
e que, no caso contnuo, o p-esimo quantil e obtido usando
somente F
X
(q
p
) = p.
Exemplo 4.2a: Qual o lucro modal do jogador (Exemplo 4.2)? E o lucro mediano?
m
o
(X) = 5 euros
m
d
(X) [5, 0]; e.g., 2.5 euros.
Exemplo 4.3: A percentagem de uma substancia (100X) em um certo composto qumico e tal que X e
uma v.a. descrita pela fun cao
f
X
(x) =
_
_
_
6 x(1 x), 0 x 1;
0, c.c.
17
Sera f
X
(x) uma f.d.p.? Sim, f
X
(x) 0, x, e
_
1
0
6 x(1x)dx=1.
Qual a percentagem media da substancia no composto?
E(100X) = 100
_
1
0
x6 x(1 x)dx = 50%.
E a moda de X? m
o
(X) = 0.5 pois f
X
(0.5) = max
x
f
X
(x)
E a mediana de X? m
d
(X) = 0.5 pois, sendo f
X
(x) simetrica em torno de 0.5, F
X
(0.5) =
_
0.5
0
6 x(1 x)dx = 0.5.
Qual a variancia de X? V ar(X) = E(X
2
)E(X)
2
=
3
10

1
4
=
1
20
.
E o coeciente de variacao de X? CV (X) =

0.05
|0.5|
0.447.
Distribuicao uniforme discreta
Deni cao 4.8: Diz-se que uma v.a. X, com contradomnio nito, tem distribui cao uniforme discreta se
todos os seus valores x
1
, . . . , x
k
sao igualmente provaveis, com f.m.p dada por
f
X
(x) =
_
_
_
1/k, x = x
1
, . . . , x
k
;
0, caso contrario.
O valor esperado e a variancia de uma variavel aleatoria X com distribuicao uniforme discreta {x
1
, . . . , x
k
}
sao, respectivamente,
E(X) =
1
k

k
i=1
x
i
e V ar(X) =
1
k

k
i=1
x
2
i

_
1
k

k
i=1
x
i
_
2
.
Exemplo 4.4: Seja X uma v.a. com distribui cao uniforme discreta {1, . . . , k}. Qual a variancia de X?
E(X) =
k+1
2
, E(X
2
) =
(k+1)(2k+1)
6
V ar(X) =
k
2
1
12
.
Distribuicao Bernoulli
Deni cao 4.9: Uma experiencia aleatoria com somente dois resultados possveis, sucesso (ocorrencia de
um acontecimento de interesse) e fracasso (caso contrario), e conhecida por ensaio (ou prova) de Bernoulli,
e a v.a. subjacente denida por
X =
_
_
_
1, se ocorre sucesso;
0, se ocorre fracasso
possui f.m.p. (conhecida por distribui cao Bernoulli)
f
X
(x) =
_
_
_
p
x
(1 p)
1x
, x = 0, 1;
0, c.c.,
onde p = P(X = 1) e a probabilidade de sucesso, 0 < p < 1. Consequentemente, E(X) = p e
V ar(X) = p(1 p).
18
Distribuicao binomial
Deni cao 4.10: Considere uma experiencia aleatoria com n ensaios de Bernoulli independentes e todos
com probabilidade de sucesso p. A v.a. correspondente ao n umero X de sucessos na experiencia tem
distribui cao binomial com parametros n e p, com f.m.p.
f
X
(x) =
_
_
_
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, . . . , n;
0, c.c.
O valor esperado e a variancia de X Binomial(n, p) sao
E(X) = np e V ar(X) = np(1p).
A moda de X satisfaz a rela cao np+p1 m
o
(X) np+p.
Se X
i
Bernoulli(p), i =1, . . . , n, sao v.a. independentes, entao X =

n
i=1
X
i
Binomial(n, p).
Se X Binomial(n, p), entao nX Binomial(n, (1p)).
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=10,p=0.2)
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=10,p=0.8)
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=10,p=0.5)
x
f
(
x
)
0 5 10 15 20 25 30
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=30,p=0.5)
x
f
(
x
)
Exemplo 4.5: Considere um teste de m ultipla escolha com 10 questoes, onde somente uma das 5 alneas
de cada questao esta correcta. Qual a probabilidade de um aluno acertar em pelo menos metade das
questoes fazendo o teste ao acaso?
Seja X o n umero de respostas correctas no teste do aluno. X Binomial(n=10, p=1/5).
P(X 5) = 1 F
X
(4) = 0.0328
19
Qual a nota esperada desse aluno, se a cota cao de cada questao e 1? E a nota modal e mediana? E o
desvio padrao de X?
E(X) = 10
1
5
= 2 valores
m
o
(X) = 2 valores (f
X
(2)/f
X
(1) 1, f
X
(2)/f
X
(3) 1)
m
d
(X) = 2 valores (F
X
(1) = 0.3758, F
X
(2) = 0.6778)
(X) =
_
10
1
5

4
5
= 1.265 valores
Distribuicao hipergeometrica
Deni cao 4.11: Considere uma populacao comN elementos dos quais M possuem uma certa caracterstica
(sucesso). Retira-se uma amostra, sem reposicao, de dimensao n, anotando-se o n umero X de elementos
com a caracterstica na amostra. A distribuicao de probabilidade da v.a. X e designada distribuicao
hipergeometrica, cuja f.m.p. e
f
X
(x) =
_
_
_
(
M
x
)(
NM
nx
)
(
N
n
)
, max(0, n+MN) x min(n, M);
0, c.c.
O valor esperado e a variancia de uma variavel aleatoria X com distribuicao hipergeometrica (N, M, n)
sao, respectivamente,
E(X) = n
M
N
e V ar(X) = n
M
N
N M
N
N n
N 1
.
Exemplo 4.6: Numa turma de 10 estudantes dos quais 3 sao mulheres, 2 estudantes foram sorteados para
formar uma comissao. Qual a probabilidade de haver pelo menos uma mulher na comissao?
Seja X o n umero de mulheres na comissao de 2 estudantes. X Hipergeometrica(N=10, M=3, n=2).
P(X 1) = 1 P(X = 0) 0.533
Se X
i
= 1 (X
i
= 0) denota a ocorrencia de mulher (homem) no sorteio do estudante i, i = 1, 2, qual a
probabilidade de ser mulher o primeiro estudante sorteado? E o segundo?
P(X
1
=1) = 0.3
P(X
2
=1) = P(X
1
=0, X
2
=1) +P(X
1
=1, X
2
=1) = 0.3
Note-se que X =

i
X
i
, onde X
i
sao v.a. Bernoulli(p) dependentes.
Distribuicao geometrica
Deni cao 4.12: Considere uma experiencia aleatoria envolvendo a realizacao de ensaios de Bernoulli
independentes, com probabilidade de sucesso p, ate `a ocorrencia do primeiro sucesso. A v.a. X n umero
de ensaios realizados ate `a ocorrencia do primeiro sucesso tem distribuicao geometrica com parametro p,
0 < p < 1, com f.m.p.
f
X
(x) =
_
_
_
(1 p)
x1
p, x = 1, 2, . . . ;
0, c.c.,
20
O valor esperado e a variancia de X Geometrica(p) sao, respectivamente,
E(X) =
1
p
e V ar(X) =
1 p
p
2
.
Teorema 4.2: (Propriedade da falta de memoria) Se uma v.a. X Geometrica(p), entao
P(X > i +j|X > j) = P(X > i), i, j = 1, 2, . . . .
Exemplo 4.7: Seja X o n umero de lan camentos de um dado ate ao surgimento da primeira face 6. Qual
o n umero esperado de lan camentos do dado ate sair a face 6?
Como X Geometrica(p =
1
6
), E(X) = 6 lancamentos.
Qual a probabilidade de serem necessarios mais de 7 lancamentos, sabendo que ja houve 3 lan camentos
do dado sem que a face 6 sasse?
P(X > 7|X > 3) = P(X > 4) =

x5
_
5
6
_
x1
1
6
0.4822
Distribuicao Poisson
Deni cao 4.13: Em algumas experiencias aleatorias, anota-se por vezes o n umero X de ocorrencias de
um evento de interesse num dado intervalo de tempo, superfcie, volume, etc. A v.a. X tem distribuicao
de Poisson de parametro quando a sua f.m.p. e dada por
f
X
(x) =
_
_
_
e

x
x!
, x = 0, 1, 2, . . . ;
0, c.c.,
onde e a taxa (esperada) de ocorrencia do evento de interesse na base considerada. Se X Poisson(),
X podera representar, e.g., o n umero de electroes emitidos por uma substancia fotosensvel, sob a
ac cao da luz durante uma dada unidade de tempo.
O valor esperado e a variancia de X sao iguais a E(X) =V ar(X) = e a moda de X satisfaz a
relacao 1 m
o
(X) .
Teorema 4.3: Seja X o n umero de ocorrencias de um evento de interesse num dado perodo de tempo
(regiao). Se X Poisson(), entao
X =
t

i=1
X
i
,
com X
i
Poisson(

t
), i =1, . . . , t (independentes e identicamente distribudas), sendo X
i
o n umero de
ocorrencias do evento em cada uma das t fraccoes do perodo de tempo (regiao).
Exemplo 4.8: Suponha que X e o n umero de passas de um bolo-rei oriundo de uma padaria que se sabe
ter uma distribuicao de Poisson com taxa media de 5 passas por bolo. Qual a probabilidade de encontrar
pelo menos 1 passa em meio bolo-rei dessa padaria?
21
Seja X

o n umero de passas em meio bolo-rei produzido nessa padaria. X

Poisson(

= 2.5).
P(X

1) = 1 P(X

= 0) = 1 e
2.5
0.918.
Distribuicao uniforme contnua
Deni cao 4.14: Diz-se que uma variavel aleatoria X tem distribuicao uniforme contnua (ou rectangular)
se, para qualquer ponto entre a e b (a < b), a sua f.d.p. e dada por
f
X
(x) =
_
_
_
1
ba
, a < x < b;
0, c.c.
O valor esperado e a variancia de uma v.a. X com distribuicao uniforme contnua (a, b) sao, respectiva-
mente,
E(X) =
b +a
2
e V ar(X) =
(b a)
2
12
.
Exemplo 4.9: Sabe-se que o tempo X gasto por um aluno no trajecto de casa para a escola pode ser
qualquer valor entre 20 a 40 minutos (valores igualmente provaveis). Saindo de casa `as 12:30 para assistir
a aula das 13:00, qual a probabilidade de ele chegar atrasado?
Seja p a probabilidade de o aluno chegar atrasado `a escola. Se a v.a. X Uniforme(20, 40),
p = P(X > 30) =
_
40
30
1
20
dx = 0.5.
Em 12 dias, qual o n umero esperado de dias em que ele chega atrasado?
Seja Y o n umero de dias entre os 12 em que o aluno chega atrasado `a escola. Supondo independencia
entre os tempos gastos nos 12 dias e a mesma probabilidade de atraso p, Y Bi(n = 12, p = 0.5) e, por
conseguinte,
E(Y ) = 12 0.5 = 6 dias.
Distribuicao exponencial
Deni cao 4.15: Diz-se que uma v.a. contnua X tem distribuicao exponencial, com parametro > 0, se
a sua f.d.p. e dada por
f
X
(x) =
_
_
_
e
x
, x 0;
0, c.c.
Esta distribuicao e bastante utilizada para descrever tempos de vida de materiais ou seres vivos em
estudos de Analise de Fiabilidade e Sobrevivencia.
O valor esperado e a variancia de uma v.a. X com distribuicao exponencial () sao, respectivamente,
E(X) =
1

e V ar(X) =
1

2
.
22
Exemplo 4.10: Suponha que o tempo X de falha de duas componentes electronicas tem distribui cao
exponencial com media de 5 horas (componente C
1
) e de 10 horas (C
2
). Considere ainda que elas estao
ligadas num sistema em paralelo e que o funcionamento de cada uma nao depende do da outra. Qual a
abilidade do sistema apos 20 horas?
A abilidade do sistema com as duas componentes em paralelo e a probabilidade de pelo menos uma
componente funcionar, denotada por
P(F
1
F
2
) = P(F
1
) +P(F
2
) P(F
1
F
2
) = 0.1511,
uma vez que elas sao independentes e a abilidade de cada uma e
P(F
1
) = P(X
1
> 20) =
_

20
1
5
e

1
5
x
1
dx
1
= e

20
5
= 0.0183,
P(F
2
) = P(X
2
> 20) =
_

20
1
10
e

1
10
x
2
dx
2
= e

20
10
= 0.1353.
Teorema 4.4: (Propriedade da falta de memoria) Se uma v.a. X Exponencial(), entao P(X >
s+t|X > t)=P(X > s), s, t 0.
Processo de Poisson (*)
Deni cao 4.16: Suponha-se que acontecimentos (e.g., chegadas de clientes a um caixa de banco) ocorrem
aleatoriamente num intervalo de tempo [0, t], onde N
t
e o n umero de ocorrencias do acontecimento no
intervalo de tempo de comprimento t. Diz-se que essas ocorrencias constituem um Processo de Poisson
com taxa unitaria , > 0, se
Os n umeros de acontecimentos que ocorrem em intervalos nao sobrepostos sao independentes (in-
dependencia).
A distribuicao do n umero de acontecimentos que ocorrem em um dado intervalo depende somente
do comprimento do intervalo e nao da sua localiza cao (estacionariedade).
A probabilidade de ocorrer exactamente um acontecimento em qualquer intervalo de comprimento
t arbitrariamente pequeno e aproximadamente t (i.e., P(N
t
= 1) t).
A probabilidade de ocorrerem dois ou mais acontecimentos em qualquer intervalo de comprimento
t arbitrariamente pequeno e aproximadamente igual a 0 (i.e., P(N
t
2) 0).
N
t
Poisson(t).
Teorema 4.5: Seja N
t
o n umero de ocorrencias num intervalo de tempo de comprimento t, com N
t

Poisson(t). Considere ainda que X
1
e o tempo decorrido ate `a primeira ocorrencia, enquanto X
i
, i > 1,
e o tempo decorrido entre as ocorrencias i 1 e i. A sequencia X
1
, X
2
, . . . e formada por v.a. i.i.d.
com X
i
Exponencial(), i = 1, 2, . . ., onde e a taxa media de ocorrencias por unidade de tempo.
Nomeadamente,
P(X
1
>t) = P(N
t
=0) = e
t
X
1
Exponencial().
P(X
2
>t|X
1
=s) = P(N
(s,s+t]
=0|N
(0,s]
=1)

= P(N
(s,s+t]
=0)

= P(N
t
=0) = e
t
P(X
2
>t)
X
2
Exponencial().
* (**) pela suposi c ao de independencia (estacionariedade) das ocorrencias.
23
Distribuicao normal (ou de Gauss)
Deni cao 4.17: Diz-se que uma v.a. contnua X tem distribui cao normal (ou gaussiana) com media e
variancia
2
, denotada por N(,
2
), se a sua f.d.p. e dada por
f
X
(x) =
1

2
exp
_

1
2
2
(x )
2
_
, < x < .
Propriedades da curva gaussiana f
X
(x):
Como a fun cao e simetrica em relacao a , a mediana de X e .
f
X
(x) atinge o ponto maximo em x = com valor 1/(

2 ) e portanto a moda de X e .
A curva gaussiana tem 2 pontos de inexao em x = .
Neste cenario, X podera ser, e.g., a velocidade numa dada direccao de uma molecula de gas de massa
M `a temperatura absoluta T, com distribuicao N(0,
KT
M
), onde K e a constante de Boltzmann.
4 2 0 2 4 6
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Funo Densidade de Probabilidade Normal
x
f
(
x
)
N(0,1)
N(1,2)
N(1,0.5)
Teorema 4.6: Se uma v.a. X N(,
2
), Y = aX +b N(a +b, a
2

2
), com a e b constantes reais.
Corolario 4.4: Se uma v.a. X N(,
2
), entao Z = (X )/ N(0, 1), conhecida por distribuicao
normal reduzida (ou padrao), cujas probabilidades sao dadas em calculadoras ou tabelas.
Exemplo 4.11: Suponha que a altura X dos alunos de uma turma de PE tem distribui cao normal com
media = 160 cm e desvio padrao = 20 cm. Qual a probabilidade de um aluno seleccionado ao acaso
ter altura ente 150 e 170 cm?
24
P(150 < X < 170) = P
_
150160
20
<
X

<
170160
20
_
= P(0.5 < Z < 0.5) = F
Z
(0.5) F
Z
(0.5)
= 0.6915 0.3085
= 0.383.
5 Complementos das distribuicoes de probabilidade
Valor esperado de uma funcao de um par aleatorio discreto e contnuo
Deni cao 5.1: Dado um par aleatorio (X, Y ) com f.m.p. ou f.d.p. conjunta f
X,Y
(x, y), o valor esperado
de uma func ao g(X, Y ) e dado por
E(g(X, Y )) =
_
_
_

x
i

y
i
g(x
i
, y
j
)f
X,Y
(x
i
, y
j
) (caso discreto),
_
IR
_
IR
g(x, y)f
X,Y
(x, y) dxdy (caso contnuo).
Exemplo 5.1: Seja (X, Y ) um par aleatorio com f.d.p. conjunta f
X,Y
(x, y) e marginais f
X
(x) e f
Y
(y).
Qual o valor esperado de X +Y ?
E(X +Y ) =
_

(x +y)f
X,Y
(x, y)dxdy
=
_

xf
X
(x)dx +
_

yf
Y
(y)dy = E(X) +E(Y ).
E a variancia de X +Y ?
E((X +Y )
2
) =
_

(x +y)
2
f
X,Y
(x, y)dxdy
=
_

x
2
f
X
(x)dx +
_

y
2
f
Y
(y)dy
+2
_

xyf
X,Y
(x, y)dxdy
= E(X
2
) +E(Y
2
) + 2E(XY )
V ar(X +Y ) = E((X +Y )
2
) (E(X +Y ))
2
= E(X
2
) + 2E(XY ) +E(Y
2
)
(E(X))
2
2E(X)E(Y ) (E(Y ))
2
= V ar(X) +V ar(Y ) + 2(E(XY ) E(X)E(Y )).
Teorema 5.1: Se X e Y sao variaveis aleatorias independentes com f.m.p. (f.d.p.) conjunta f
X,Y
(x, y) e
marginais f
X
(x) e f
Y
(y), entao E(X Y ) = E(X)E(Y ).
Demonstra c ao (caso discreto):
E(X Y ) =

x
i

y
j
x
i
y
j
f
X,Y
(x
i
, y
j
) =

x
i

y
j
x
i
y
j
f
X
(x
i
)f
Y
(y
j
)
=

x
i
x
i
f
X
(x
i
)

y
j
y
j
f
Y
(y
j
)
= E(X)E(Y ).
25
Exemplo 5.2: Sejam X e Y v.a. com f.d.p. conjunta
f
X,Y
(x, y) = e
xy
(Exemplo 3.5) e f.d.p. marginais f
X
(x) = e
x
e f
Y
(y) = e
y
(Exemplo 3.5a).
Encontre E(X, Y ). Como X e Y sao v.a. independentes com distribui cao Exponencial ( = 1),
E(XY ) = E(X)E(Y ) = 1.
Note-se que E(X)=1=E(Y ) e E(XY )=
_

0
_

0
xy e
(x+y)
dxdy =1.
Covariancia
Deni cao 5.2: Dadas duas v.a. X e Y , a covariancia de X e Y e o valor esperado do produto dos desvios
medios de X e Y , i.e.,
Cov(X, Y ) = E[(X E(X))(Y E(Y ))].
Propriedades da covariancia: Dado um par aleatorio (X, Y ) com f.m.p. (f.d.p.) conjunta f
X,Y
(x, y),
1. Cov(X, Y ) =

x
i

y
j
(x
i
E(X))(y
j
E(Y ))f
X,Y
(x
i
, y
j
)
(caso discreto).
2. Cov(X, Y ) =
_
IR
_
IR
(x E(X))(y E(Y ))f
X,Y
(x, y)dxdy
(caso contnuo).
3. Cov(X, X) = V ar(X).
4. Cov(X, Y ) = E(XY ) E(X)E(Y ).
Teorema 5.2: Se X e Y sao v.a. independentes, entao a covariancia de X e Y e nula.
Cov(X, Y ) = E(XY ) E(X)E(Y ) = 0,
visto que E(XY ) = E(X)E(Y ), quando X e Y sao independentes.
Exemplo 5.3: Sejam X e Y duas v.a. contnuas com f.d.p. conjunta f
X,Y
(x, y) = 1, se 0 x, y 1, e 0,
no caso contrario.
E(XY ) =
_
1
0
_
1
0
xy 1 dxdy =
1
4
.
E(X) =
_
1
0
_
1
0
x 1 dxdy =
1
2
e E(Y ) =
_
1
0
_
1
0
y 1 dxdy =
1
2
.
Cov(X, Y ) =
1
4

1
2
1
2
= 0.
Resultado previsvel pois X e Y sao v.a. independentes (f
X,Y
(x, y) = f
X
(x) f
Y
(y), (x, y) IR
2
).
Exemplo 5.4: Sejam X, Y e Z variaveis aleatorias. Qual a covariancia de X +Z e Y ?
Cov(X +Z, Y ) = E((X +Z)Y ) E(X +Z)E(Y )
= E(XY ) +E(ZY ) E(X)E(Y ) E(Z)E(Y )
= Cov(X, Y ) +Cov(Z, Y )
26
E de a X e Y +b, onde a = 0 e b sao constantes reais?
Cov(a X, Y +b) = E((a X E(a X))(Y +b E(Y +b)))
= a E((X E(X))(Y E(Y ))) = a Cov(X, Y )
E a variancia de X Y ?
V ar(X Y ) = E((X Y )
2
) (E(X Y ))
2
= E(X
2
) 2 E(XY ) +E(Y
2
)
(E(X))
2
+ 2 E(X)E(Y ) (E(Y ))
2
= V ar(X) +V ar(Y ) 2 Cov(X, Y )
Correlacao
Deni cao 5.3: Dado um par aleatorio (X, Y ), o coeciente de correlacao (linear) de X e Y e um parametro
adimensional dado por
Corr(X, Y ) =
Cov(X, Y )
_
V ar(X) V ar(Y )
.
Propriedades do coeciente de correla cao: Sejam (X, Y ) um par aleatorio e a = 0 e b constantes reais.
1. 1 Corr(X, Y ) 1 [Cov(X, Y )]
2
V ar(X)V ar(Y ).
2. Y = a X +b Corr(X, Y ) = 1 (correlacao linear perfeita).
3. Corr(a X, Y +b) =
a
|a|
Corr(X, Y ).
Note-se que a nao correla cao entre X e Y , Corr(X, Y ) = 0 (i.e., Cov(X, Y ) = 0), nao implica indepen-
dencia entre X e Y .
Exemplo 5.5: Sejam X e Y os n umeros de cartas rei/dama e as em 2 cartas retiradas do baralho (sem
reposicao), respectivamente (Exemplo 3.4). Qual o coeciente de correlacao de X e Y ?
X\Y 0 1 2
0 0.589 0.121 0.004 0.714
1 0.241 0.024 0 0.265
2 0.021 0 0 0.021
0.851 0.145 0.004 1
E(X) = 0.307, E(X
2
) = 0.349 e V ar(X) = 0.2547.
E(Y ) = 0.153, E(Y
2
) = 0.161 e V ar(Y ) = 0.1376.
E(XY ) = 0.024 e Cov(X, Y ) = 0.023.
Corr(X, Y ) =
0.023

0.25470.1376
=
0.023
0.1872
= 0.123.
X e Y estao pouco correlacionadas linearmente e de uma forma negativa (quando uma variavel
cresce, a outra decresce).
27
Exemplo 5.6: Seja (X, Y ) um par aleatorio contnuo com a seguinte f.d.p. conjunta f
X,Y
(x, y). Qual o
coeciente de correlacao de X e Y ?
f
X,Y
(x, y) =
_
_
_
2, 0 < y < x < 1;
0, c.c.
E
T

1
1
x
y
E(X) = 2/3, E(X
2
) = 1/2 e V ar(X) = 1/18.
E(Y ) = 1/3, E(Y
2
) = 1/6 e V ar(Y ) = 1/18.
E(XY ) = 1/4 e Cov(X, Y ) = 1/36.
Corr(X, Y ) =
1/36

1/181/18
= 0.5.
X e Y estao moderadamente correlacionadas de uma forma linear e positiva (quando uma variavel
cresce, a outra tambem cresce).
Note-se que Corr(X, Y ) = 0 X e Y nao sao independentes.
Deni cao 5.4: Dadas n v.a. X
1
, . . . , X
n
e n constantes reais c
1
, . . . , c
n
, uma combinacao linear das
variaveis aleatorias e uma v.a. Y tal que
Y =
n

i=1
c
i
X
i
.
Por generaliza cao da Deni cao 5.1,
E(Y ) = E(

n
i=1
c
i
X
i
) =

n
i=1
c
i
E(X
i
).
V ar(Y ) =

n
i=1
c
2
i
V ar(X
i
)+2

i<j

n
j=2
c
i
c
j
Cov(X
i
, X
j
). Se X
1
, . . . , X
n
sao v.a. independentes,
V ar(Y ) =

n
i=1
c
2
i
V ar(X
i
).
Teorema 5.3: Se X
1
, . . . , X
n
sao v.a. independentes tais que X
i
N(
i
,
2
i
), i = 1, . . . , n, entao para
c
1
, . . . , c
n
constantes reais
Y =
n

i=1
c
i
X
i
N
_
n

i=1
c
i

i
,
n

i=1
c
2
i

2
i
_
.
Proposi cao 5.1: Sejam X
1
, . . . , X
n
e Y
1
, . . . , Y
m
variaveis aleatorias.
Cov
_

n
i=1
X
i
,

m
j=1
Y
j
_
=

n
i=1

m
j=1
Cov(X
i
, Y
j
).
Corolario 5.1: Sejam X
1
, . . . , X
n
variaveis aleatorias.
V ar
_

n
i=1
X
i
_
=

n
i=1
V ar(X
i
) +

n
i=1

n
j=i=1
Cov(X
i
, X
j
).
28
Corolario 5.2: Se X
1
, . . . , X
n
sao variaveis aleatorias independentes,
V ar
_

n
i=1
X
i
_
=

n
i=1
V ar(X
i
).
Teorema 5.4: Se X
1
, . . . , X
n
sao v.a. independentes tais que X
i
Exponencial(
i
), i =1, . . . , n, entao
Y = min(X
1
, . . . , X
n
) Exponencial( =

n
i=1

i
).
Teorema 5.5: Se X
1
, . . . , X
n
sao v.a. independentes tais que X
i
Bernoulli(p), i =1, . . . , n, entao
Y =

n
i=1
X
i
Binomial(n, p).
E(Y ) =
n

i=1
E(X
i
) = np e V ar(Y ) =
n

i=1
V ar(X
i
) = np(1p).
Teorema 5.6: Se X
1
, . . . , X
n
sao v.a. dependentes associadas com n extrac coes sem reposi cao de uma
populacao de dimensao N com M sucessos, tais que X
i
Bernoulli(p=
M
N
), i =1, . . . , n, entao
Y =

n
i=1
X
i
Hipergeometrica(N, M, n).
E(Y ) = n
M
N
e V ar(Y ) = n
M
N
NM
N
Nn
N1
.
Teorema 5.7: Se X
1
, . . . , X
n
sao v.a. independentes tais que X
i
Poisson(
i
), i =1, . . . , n, entao
Y =

n
i=1
X
i
Poisson( =

n
i=1

i
).
Exemplo 5.7: Suponha que X
1
e X
2
sao v.a. independentes com distribuicao de Poisson com parametros

1
e
2
, respectivamente. Qual a distribui cao de X
1
+X
2
?
Seja Z = X
1
+X
2
uma v.a. com f.m.p. f
Z
(z), i.e.,
f
Z
(z) P(Z = z) =

x
1
P(X
1
= x
1
, Z = z)
=

x
1
P(X
1
= x
1
)P(Z = z|X
1
= x
1
)
=

x
1
P(X
1
= x
1
)P(X
2
= z x
1
|X
1
= x
1
)
=

x
1
P(X
1
= x
1
)P(X
2
= z x
1
)
=
z

x
1
=0
e

1
x
1
x
1
!
e

2
zx
1
(zx
1
)!
=
e
(
1
+
2
)
z!
z

x
1
=0
z!
x
1
! (zx
1
)!

x
1
1

zx
1
2
=
e
(
1
+
2
)
z!
(
1
+
2
)
z
Consequentemente, Z = X
1
+X
2
Poisson( =
1
+
2
).
29
Valor esperado e matriz de covariancias de um par aleatorio
Seja X = (X
1
, X
2
) um vector aleatorio em IR
2
, onde X
1
e X
2
sao v.a. com E(X
i
) =
i
, V ar(X
i
) =
2
i
,
i =1, 2, e Cov(X
1
, X
2
) =
12
. O valor esperado de X e entendido como
E(X) =
_

2
_
enquanto a matriz de covariancias de X e
V ar(X) = E((X)(X)
T
)
_

2
1

12

21

2
2
_
,
21
=
12
Se X
1
e X
2
sao v.a. independentes e V ar(X
i
) =
2
, i =1, 2, entao V ar(X) =
2
I
2
, onde I
2
e a matriz
identidade de ordem 2.
Valor esperado condicional e propriedades
Deni cao 5.5: Dado um par aleatorio (X, Y ) discreto (contnuo) com f.m.p. (f.d.p.) condicional de X
dado Y = y denotada por f
X|Y =y
(x), o valor esperado condicional de X dado Y = y e dado por
E(X|Y = y) =
_
_
_

x
i
x
i
f
X|Y =y
(x
i
) (caso discreto),
_
IR
xf
X|Y =y
(x) dx (caso contnuo)
enquanto a variancia condicional de X dado Y = y e dada por
V ar(X|Y =y) E
_
(X E(X|Y = y))
2
|Y =y

=
_
_
_

x
i
(x
i
E(X|Y =y))
2
f
X|Y =y
(x
i
) (discreto),
_
IR
(xE(X|Y =y))
2
f
X|Y =y
(x)dx (contnuo).
Nota: Se X e Y sao independentes, E(X|Y =y)=E(X) e V ar(X|Y =y)=V ar(X), y.
Propriedades do valor esperado condicional: Se (X, Y ) um par aleatorio com f.m.p. (f.d.p.) conjunta
f
X,Y
(x, y) e marginal de Y f
Y
(y),
E(E(X|Y )) = E(X), caso E(X) < .
Demonstra c ao (par aleatorio contnuo): Denotando g(y) como o valor esperado condicional de X dado
Y =y com f
Y
(y) > 0, i.e.,
g(y) = E(X|Y = y) =
_
IR
xf
X|Y =y
(x)dx =
_
IR
x
f
X,Y
(x, y)
f
Y
(y)
dx,
E(E(X|Y )) = E(g(Y )) =
_
IR
g(y)f
Y
(y)dy
=
_
IR
_ _
IR
x
f
X,Y
(x,y)
f
Y
(y)
dx

f
Y
(y)dy
=
_
IR
x
_ _
IR
f
X,Y
(x, y)dy

dx
=
_
IR
xf
X
(x)dx
= E(X)
Analogamente E(E(Y |X)) = E(Y ), caso E(Y ) < .
30
Distribuicao multinomial*
Deni cao 5.6: Considere uma experiencia aleatoria constituda de n ensaios independentes em cada um
dos quais pode ocorrer um de k acontecimentos mutuamente exclusivos tal que p
i
e a probabilidade do
acontecimento i em cada ensaio com

k
i=1
p
i
= 1. Seja X
i
a v.a. que designa o n umero de ensaios
em que o acontecimento i ocorre na experiencia, i =1, . . . , k, pelo que

k
i=1
X
i
= n. O vector aleatorio
X = (X
1
, . . . , X
k
) tem distribuicao multinomial (de dimensao k1) com parametros n e p = (p
1
, . . . , p
k
),
denida pela f.m.p. conjunta
f
X
(x) =
_
_
_
n!
x
1
!x
2
!...x
k
!
p
1
x
1
p
2
x
2
. . . p
k
x
k
, x
i
{0, 1, . . . , n};
0, caso contrario
com p
k
= 1p
1
. . .p
k1
e x
k
= nx
1
. . .x
k1
.
Pode-se provar que X
i
Binomial(n, p
i
), E(X
i
) = np
i
, V ar(X
i
) = np
i
(1p
i
) e Cov(X
i
, X
j
) = np
i
p
j
,
j =i =1, . . . , k.
Relacoes entre distribuicoes
Teorema 5.8: Se X e uma v.a. com distribuicao binomial de parametros n e p, X tem aproximadamente
distribui cao de Poisson com parametro = np, quando n e p 0.
f
X
(x) =
_
n
x
_
p
x
(1 p)
nx
=
n!
x!(nx)!
(

n
)
x
(1

n
)
nx
, onde p = /n
=
n(n1)...(nx+1)
n
x


x
x!

(1/n)
n
(1/n)
x
1

x
x!

e

1
, quando n , p 0
=
e

x
x!
.
Ou seja, X
a
Poisson( = np), para n grande e p pequeno. Esta rela cao determina a caracterstica
fundamental do Processo de Poisson.
Teorema 5.9: Se X e uma v.a. com distribuicao hipergeometrica de parametros N, M e n, X tem
aproximadamente distribui cao binomial com parametros n (xo) e p = M/N, quando N, M tal
que p constante.
f
X
(x) = [
_
M
x
__
NM
nx
_
]/
_
N
n
_
=
M!
x!(Mx)!

(NM)!
(nx)!(NMn+x)!

n!(Nn)!
N!
=
n!
x!(nx)!

M!
(Mx)!

(NM)!
(NM(nx))!

(Nn)!
N!
=
_
n
x
_

M(M1)...(Mx+1)
N(N1)...(Nx+1)

(NM)(NM1)...(NM(nx)+1)
(Nx)(Nx1)...(Nn+1)

_
n
x
_
[
M
N
M
N

M
N
] [
NM
N
NM
N

NM
N
], M, N
=
_
n
x
_
(
M
N
)
x
(
NM
N
)
nx
=
_
n
x
_
p
x
(1 p)
nx
, x=0, 1, . . . , n e p = M/N.
Ou seja, X
a
Binomial(n, p=
M
N
), para N muito maior do que n.
31
Convergencia em distribui cao
Os Teoremas 5.8
e 5.9
sao aplicacao do conceito de convergencia em funcao de probabilidade. Outro conceito de convergencia
e:
Deni cao 5.7: Sejam X, X
1
, X
2
. . . v.a. com respectivas funcoes de distribuicao F
X
, F
X
1
, F
X
2
, . . .. Diz-se
que a sucessao {X
n
} converge em distribui cao para X (X
n
D
X), se
F
X
n
(x) F
X
(x), quando n ,
x ponto de continuidade de F
X
. Ou seja,
x, lim
n
F
X
n
(x) = F
X
(x)
> 0, n
1
() : n > n
1
() |F
X
n
(x) F
X
(x)| < , x.
Teorema Limite Central
Teorema 5.10 (T.L.C.): Seja X
1
, X
2
. . . uma sucessao de v.a. independentes e identicamente distribudas
com valor esperado e variancia
2
, ambos nitos. Para S
n
=

n
i=1
X
i
, tem-se
S
n
E(S
n
)
_
V ar(S
n
)
=
S
n
n

n
D
N(0, 1).
Ou seja, para n razoavelmente grande, P
_
S
n
n

n
x
_
(x), onde () e a fun cao de distribui cao da
normal reduzida, i.e., N(0, 1). Assim, S
n
a
N(n, n
2
) para n sucientemente grande.
Aplicacao `a distribuicao Poisson: X
i
Poisson(), i = 1, 2, . . . S
n
Poisson(n)
a
N(n, n) (a
seguir).
0 10 20 30 40 50
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
Distribuio de Poisson (lambda=5 x 0.5)
x
f
(
x
)
0 10 20 30 40 50
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
Distribuio de Poisson (lambda=10 x 0.5)
x
f
(
x
)
0 10 20 30 40 50
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
Distribuio de Poisson (lambda=20 x 0.5)
x
f
(
x
)
0 10 20 30 40 50
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
Distribuio de Poisson (lambda=50 x 0.5)
x
f
(
x
)
32
Exemplo 5.8: Suponha que X
i
e o tempo de atendimento (em minutos) do cliente i num caixa de banco.
Considere ainda que X
i
, i =1, . . . , n, sao v.a. independentes com distribuicao Uniforme(0, 5). Havendo
60 clientes no momento da abertura do banco `as 9 horas, qual a probabilidade de o caixa do banco
atender todos os clientes ate `as 12 horas?
Se X
i
Uniforme(0, 5), i =1, . . . , 60, e S
60
=

60
i=1
X
i
, entao
E(X
i
) =
(5+0)
2
= 2.5 E(S
60
) = 60 2.5 = 150m.
V ar(X
i
) =
(50)
2
12
=
25
12
V ar(S
60
) = 60
25
12
= 125m
2
.
Como n = 60 (grande) e X
i
sao v.a. independentes e identicamente distribudas, pode-se usar o T.L.C.
(S
60
N(150, 125)), i.e.,
P(S
60
180) P
_
S
60
E(S
60
)

V ar(S
60
)

180150

125
_
= F
N(0,1)
(2.68)
= 0.9963.
Aplicacao `a distribuicao binomial
Corolario 5.3 (Teorema de DeMoivre-Laplace): Seja X
1
, X
2
. . . uma sucessao de v.a. X
i
Bernoulli(p),
i = 1, . . . , n, independentes com valor esperado = E(X
i
) = p e variancia
2
= V ar(X
i
) = p(1 p),
onde p = P(X
i
= 1) (0, 1). Para S
n
=

n
i=1
X
i
,
S
n
np
_
np(1 p)
D
N(0, 1).
Consequentemente, P(a < S
n
b) = F
Bi(n,p)
(b) F
Bi(n,p)
(a)
_

_
F
N(0,1)
_
bnp

np(1p)
_
F
N(0,1)
_
anp

np(1p)
_
, n bastande grande
F
N(0,1)
_
bnp+0.5

np(1p)
_
F
N(0,1)
_
anp+0.5

np(1p)
_
, n moderadamente grande.
0 1 2 3 4 5
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=5,p=0.5)
x
f
(
x
)
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=10,p=0.5)
x
f
(
x
)
33
0 5 10 15 20
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=20,p=0.5)
x
f
(
x
)
0 10 20 30 40 50
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Distribuio Binomial (n=50,p=0.5)
x
f
(
x
)
Exemplo 5.9: Se X =

n
i=1
X
i
Binomial(n = 12, p = 0.5), qual a probabilidade de X ser pelo menos
7?
P(X 7) =

12
x=7
_
12
x
_
0.5
x
(1 0.5)
12x
= 0.3872.
P(X 7) 1 F
N(0,1)
(
7120.5

120.50.5
) = 1 F
N(0,1)
(0.58)
= 10.719 = 0.281 (sem correccao de continuidade)
P(X 7) 1 F
N(0,1)
(
7120.51/2

120.50.5
) = 1 F
N(0,1)
(0.29)
= 10.6141 = 0.3859 (com correc cao de continuidade)
A aproximacao N(np, np(1p)) para a distribuicao Binomial e tanto melhor quanto maior for n e tanto
mais intermedios forem os valores de p (0.1 < p < 0.9). Para valores de p pequenos, a melhor aproximacao
e a distribui cao Poisson (np) que, por sua vez, e aproximavel pela distribuicao N(np, np) para valores
bastante grandes de n.
6 Amostragem e estimacao pontual
Diferenciacao entre Teoria da Probabilidade e Estatstica
Exemplo 6.1: Uma escola esta situada junto a uma rodovia com grande intensidade de trafego. Num
processo de monitoriza cao de efeitos perniciosos da poluicao ambiental na populacao escolar mediu-se
a concentracao de chumbo (Pb), expressa em ng = 10
9
g/ml, na corrente sangunea de 50 crian cas
seleccionadas ao acaso.
Populacao: conjunto de criancas da referida escola.
Fases de um trabalho estatstico:
1. Recolha dos dados estatsticos (Amostragem)
Amostra: Subconjunto de criancas seleccionadas de por algum processo de amostragem que
envolva aleatoriedade, (
1
, . . . ,
n
), n = 50.
34
Variavel aleatoria associada `a populacao (ou abreviadamente popula cao): X= concentra cao de Pb
no sangue de uma crian ca em ng/ml.
Amostra numerica de interesse: (x
1
, . . . , x
n
) em que x
i
= X(
i
) X
i
(
1
, . . . ,
n
), i =1, . . . , n com
X
i
traduzindo X nos i-esimos elementos de todas as amostras susceptveis de serem obtidas.
2. Descri cao da amostra (Estatstica Descritiva)
Classicacao da amostra: tracado de gracos (e.g., histograma de frequencias relativas/acumuladas
e correspondente polgono).
Condensacao da amostra: Calculo de momentos ou outras quantidades empricas (e.g., quartis)
com eventual representa cao graca.
Media da amostra:
x =
1
n
n

i=1
x
i

1
n
k

i=1
n
i
x
i
= 10.12 ng/ml.
Variancia corrigida da amostra:
s
2
n1
=
1
n1
n

i=1
(x
i
x)
2

1
n1
k

i=1
n
i
(x
i
x)
2
= 0.41 ng
2
/ml
s
n1
= 0.64 ng/ml.
3. Inferencia Estatstica (Estatstica Indutiva)
Ponto de vista probabilstico: conhecimento completo da distribui cao de X, e.g., X N(,
2
)
com e especicados
P(X > x
c
) = 1 (
x
c

)
Ponto de vista estatstico: Distribui cao de X total ou parcialmente desconhecida
Necessidade de induzir os aspectos desconhecidos do modelo a partir dos dados, com medicao
do respectivo grau de incerteza (feita probabilisticamente).
a) Forma distribucional de X conhecida (e.g., Normal) mas parametros desconhecidos
Estimacao pontual desses parametros (e.g., pelos momentos empricos correspondentes) e es-
timacao por intervalos para medicao concomitante da precisao da estimacao.
Indagar a evidencia nos dados a favor ou contra certas conjecturas previas sobre os parametros
atraves de testes de hipoteses parametricas.
b) Distribui cao de X completamente desconhecida
Inspec cao do histograma para formulacao de alguma conjectura distribucional (caso ainda nao
haja nenhuma) a ser testada via testes de ajustamento.
35
4. Predicao
Com a monitorizacao ao longo do tempo do trafego e perante uma eventual intensica cao deste,
que consequencias incidem sobre f
X
(x)? A forma desta mantem-se? Que medidas devem ser
tomadas em face de um potencial aumento de E(X) ou de P(X > x
c
)? Deslocaliza cao da escola
ou constru cao de desvios rodoviarios?
Amostra aleatoria (acepcao restrita)
A deni cao de cada amostra numerica de dimensao n remete para um vector aleatorio (X
1
, . . . , X
n
) cujas
caractersticas distribucionais dependem do processo de amostragem casual adoptado.
Deni cao 6.1: Dada uma populacao a que esta associada uma variavel aleatoria X com uma certa distri-
buicao de probabilidade, uma amostra aleatoria (a.a.) de tamanho n dessa popula cao e uma sequencia
de n variaveis aleatorias X
1
. . . , X
n
independentes e identicamente distribudas (i.i.d.) com a mesma
distribui cao de X.
Deni cao 6.2: Dada uma amostra aleatoria (X
1
. . . , X
n
) de uma populacao X com f.m.p. (f.d.p.) f
X
(x),
a distribuicao de probabilidade amostral (f.m.p. ou f.d.p. conjunta) e dada por
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =
n

i=1
f
X
i
(x
i
) =
n

i=1
f
X
(x
i
).
Exemplo 6.2: Uma a.a. de dimensao n de uma popula cao em que se inquire inten coes de voto num dado
partido reporta-se a n v.a. X
1
. . . , X
n
i.i.d., tal que
X
i
=
_
_
_
1, se o eleitor i tenciona votar no partido;
0, c.c.
Sendo p = P(X
i
=1) = 1 P(X
i
=0), i =1, . . . , n, a respectiva distribuicao de probabilidade amostral e
dada por
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =
n

i=1
p
x
i
(1 p)
1x
i
= p

i
x
i
(1 p)
n

i
x
i
.
Estatsticas
Deni cao 6.3: Dada uma amostra (X
1
. . . , X
n
) de uma popula cao X, uma estatstica T e uma variavel
aleatoria (vector aleatorio) fun cao da amostra, i.e.,
T = T(X
1
, . . . , X
n
).
Exemplos de estatsticas:
Media amostral:

X =
1
n

n
i=1
X
i
.
Variancia amostral (corrigida): S
2
=
1
n1

n
i=1
(X
i


X)
2
.
36
Mnimo amostral: X
(1)
= min(X
1
, . . . , X
n
).
Maximo amostral: X
(n)
= max(X
1
, . . . , X
n
).
Amplitude amostral: R = X
(n)
X
(1)
.
Deni cao 6.4: Um parametro e uma medida usada para descrever uma caracterstica da populacao.
Notacao usual de parametros, estatsticas e valores observados destas:
Amostra
Caracterstica Populacao aleatoria concreta
media

X x
variancia
2
S
2
s
2
n umero de elementos N n n
proporcao p

X x
Se (X
1
. . . , X
n
) e uma a.a. de uma popula cao X, entao
media populacional: = E(X),
media amostral:

X = (X
1
+ +X
n
)/n.
Estimacao pontual: estimador e estimativa
Deni cao 6.5: Seja (X
1
. . . , X
n
) uma amostra aleatoria de uma populacao X indexada pelo parametro
. Um estimador de e uma estatstica T = T(X
1
, . . . , X
n
) usada para estimar .
Deni cao 6.6: O valor observado de um estimador em cada amostra concreta t = T(x
1
, . . . , x
n
) e conhe-
cido por estimativa.
Exemplo 6.2a: Numa amostra aleatoria de n = 100000 eleitores, observaram-se 38900 eleitores com
inten cao de voto no partido em causa. Neste cenario, X
1
, . . . , X
n
sao v.a. i.i.d. com distribuicao de
Bernoulli (p), onde p e a proporcao (populacional) de votantes no partido. O parametro p pode ser
estimado pela media amostral

X, i.e., a propor cao amostral de votantes no partido, cujo estimativa e
x = 38900/100000 = 0.389 ou 38.9%.
Propriedades dos estimadores
As propriedades basicas dos estimadores estao relacionadas com nocoes de exactidao e precisao `a seme-
lhanca da caracteriza cao dos metodos experimentais de medicao de uma quantidade desconhecida em
termos da concordancia das medidas repetidas obtidas, em que se considera
Exactidao = concord ancia das observa coes com o valor visado.
Precisao = concordancia das observa coes entre si.
A exactidao (accuracy) esta associada aos erros sistematicos, e.g., deciencias de instrumentos de medi-
cao, enquanto a precisao (precision) se reporta aos erros aleatorios que sao responsaveis por pequenas
varia coes imprevisveis nas medi coes realizadas, cujas causas nao sao completamente conhecidas.
37
Exemplo 6.3: Ilustra cao (informal) de jogadores de tiro ao alvo (estimadores) com boa exactidao (A,C)
e boa precisao (C,D).
A B
C D
&%
'$
&%
'$
&%
'$
&%
'$
t
t
t
t
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
Deni cao 6.7: Seja (X
1
. . . , X
n
) uma a.a. de X com distribuicao indexada pelo parametro . O estimador
T = T(X
1
, . . . , X
n
) e dito ser um estimador centrado (nao enviesado) de se E(T) = .
Exemplo 6.4: Seja (X
1
. . . , X
n
) uma a.a. de X com E(X) = e V ar(X) =
2
. Sera

n
i=1
(X
i


X)
2
um
estimador centrado de
2
?
Se X
1
, . . . , X
n
sao v.a. i.i.d. com E(X
i
) = e V ar(X
i
) =
2
, i = 1, . . . , n, entao E(

X) = e
V ar(

X) =
2
/n. Logo,
E(

n
i=1
(X
i


X)
2
) = E(

i
X
2
i
2

X

i
X
i
+n

X
2
)
= n
_
E(X
2
) E(

X
2
)

= n
_
(
2
+
2
) (
2
/n +
2
)

= (n 1)
2
Nao, mas S
2
=
1
n1

n
i=1
(X
i


X)
2
e um estimador centrado de
2
.
Deni cao 6.8: Seja T = T(X
1
, . . . , X
n
) um estimador do parametro . Chama-se vies (enviesamento) de
T como estimador de ao valor medio do erro de estimacao, E(T ) = E(T) . Note-se que o vies e
nulo se e somente se T e um estimador centrado de .
Deni cao 6.9: Seja T = T(X
1
, . . . , X
n
) um estimador do parametro . Uma medida da variabilidade do
estimador T e o erro quadratico medio (EQM), dado por
EQM(T) E((T )
2
) = V ar(T) + (E(T) )
2
.
Deni cao 6.10: Sejam T = T(X
1
, . . . , X
n
) e U = U(X
1
, . . . , X
n
) dois estimadores do parametro . Diz-se
que T e mais eciente do que U, se
EQM(T) EQM(U),
com desigualdade estrita para algum .
38
Se T e U sao estimadores centrados do parametro , entao T e mais eciente do que U se V ar(T)
V ar(U), com desigualdade estrita para algum .
Exemplo 6.5: Seja (X
1
. . . , X
n
) uma a.a. de X Bernoulli(p). Considere ainda X
1
e

X como dois
estimadores de p. Qual dos dois e o estimador mais eciente?
Sendo X
i
s v.a. i.i.d. Bernoulli (p),

n
i=1
X
i
Binomial (n, p),
E(X
1
) = p e
E(

X) = n
1
E(

n
i=1
X
i
) = n
1
np = p.
X
1
e

X sao estimadores centrados de p.
V ar(X
1
) = p(1 p) e
V ar(

X) = n
2
V ar(

n
i=1
X
i
) = n
1
p (1p)

V ar(

X)
V ar(X
1
)
=
1
n
< 1, n > 1.


X e mais eciente do que X
1
na estima cao de p.
Exemplo 6.6: Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X Normal com E(X) = e V ar(X) =

2
. Sera a variancia amostral (corrigida) S
2
= (n1)
1

n
i=1
(X
i


X)
2
mais eciente do que
2
=
n
1

n
i=1
(X
i


X)
2
na estima cao de
2
?
Como
E(

n
i=1
(X
i


X)
2
) = (n1)
2
,
E(S
2
) =
2
e E(
2
) =
n1
n

2
.
V ar(

n
i=1
(X
i


X)
2
) = 2(n1)
4
,
EQM(S
2
) = V ar(S
2
) + (E(S
2
)
2
)
2
= 2(n1)
1

4
,
EQM(
2
) = V ar(
2
) + (E(
2
)
2
)
2
= (2n1)n
2

4
,

EQM(S
2
)
EQM(
2
)
=
2n
2
(n1)(2n1)
> 1, n > 1.

2
e mais eciente do que S
2
(n > 1) na estima cao de
2
.
Deni cao 6.11: Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X indexada pelo parametro . Uma
sucessao {T
n
} de estimadores de e consistente se lim
n
P(|T
n
| > ) = 0, > 0, o que e garantido
por
i) lim
n
E(T
n
) = , ii) lim
n
V ar(T
n
) = 0.
Exemplo 6.7: Seja (X
1
. . . , X
n
) uma a.a. de X Bernoulli(p). Sera

X um estimador consistente de p?
Sendo X
i
s v.a. i.i.d. Bernoulli (p),

n
i=1
X
i
Binomial (n, p),
E(

X) = E(

n
i=1
X
i
)/n = p.

X e um estimador centrado de p. Condicao i) logicamente satisfeita.
39
V ar(

X) = V ar(

n
i=1
X
i
)/n
2
= p (1p)/n. Por conseguinte, lim
n
V ar(

X) = lim
n
p(1p)
n
=
0. Condicao ii) satisfeita.
Portanto,

X e um estimador consistente de p.
Metodo da maxima verosimilhanca
Deni cao 6.12: Dada uma a.a. (X
1
. . . , X
n
) de uma popula cao X com f.m.p. ou f.d.p. f
X
(x|) indexada
pelo parametro (desconhecido) , a funcao de verosimilhanca de relativa `a amostra (x
1
, . . . , x
n
), deno-
tada por L(|x
1
, . . . , x
n
), e a funcao de que e numericamente identica `a distribuicao de probabilidade
amostral avaliada em (x
1
, . . . , x
n
), i.e.,
L(|x
1
, . . . , x
n
) f
X
1
,...,X
n
(x
1
, . . . , x
n
|) =
n

i=1
f
X
(x
i
|).
O metodo de maxima verosimilhan ca consiste em maximizar a fun cao de verosimilhanca para obter o
valor dito mais verosmil de , denominado estimativa de maxima verosimilhanca de .
Ao determinar o valor que maximiza L(|x
1
, . . . , x
n
), usa-se frequentemente o facto de que L(|x
1
, . . . , x
n
)
e log L(|x
1
, . . . , x
n
) tem o seu maximo no mesmo valor de .
Exemplo 6.8: Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X Poisson(). Qual o estimador de
maxima verosimilhan ca (EMV) de ?
A funcao de verosimilhanca de , dado (x
1
, . . . , x
n
), e
L(|x
1
, . . . , x
n
) =
n

i=1
e

x
i
x
i
!
.
Seja L

log L(|x
1
, . . . , x
n
) = n + log
n

i=1
x
i
log
n

i=1
x
i
!.

dL

d
= n +
1

n
i=1
x
i
= 0 =
1
n

n
i=1
x
i
= x

d
2
L

d
2
=
2

n
i=1
x
i
< 0, .
x e a estimativa de maxima verosimilhan ca de e o EMV de e

=

X =
1
n
n

i=1
X
i
.
Teorema 6.1: Se

e o estimador de maxima verosimilhanca de um parametro , entao g(

) e o estimador
de maxima verosimilhan ca de g() (propriedade de invariancia).
Exemplo 6.9: Seja (X
1
. . . , X
n
) uma a.a. de X Uniforme(0, ]. Qual o estimador de maxima verosi-
milhan ca de log ?
A funcao de verosimilhanca de , dado x
1
, . . . , x
n
, e
40
L(|x
1
, . . . , x
n
) =
n

i=1
1

I
(0,]
(x
i
)
=
1

n
I
[x
(n)
,)
()
T
E
L()

x
(n)
1
x
(n)
n
&
X
(n)
= max(X
1
, . . . , X
n
) e o EMV de .
Pela propriedade de invariancia dos estimadores de maxima verosimilhan ca, log X
(n)
e o EMV de
log .
Distribuicoes amostrais da media e variancia
Para melhor avaliar a estimacao de um parametro a partir de uma estatstica T = T(X
1
, . . . , X
n
),
deve-se conhecer a distribui cao de T.
A distribui cao da estatstica T, conhecida como distribuicao amostral de T, tem em conta todos os valores
possveis da amostra (X
1
. . . , X
n
).
Exemplo 6.10: Suponha uma popula cao com v.a. X de distribuicao uniforme em {2, 4, 6} da qual se
retira (com reposicao) uma amostra de tamanho 2. Qual o valor esperado da media e da variancia
amostrais?
Como os elementos da popula cao X sao equiprovaveis,
E(X) =

x
xf
X
(x) =
1
3
(2 + 4 + 6) = 4.
E(X
2
) =

x
x
2
f
X
(x) =
1
3
(4 + 16 + 36) = 56/3
V ar(X) = E(X
2
) (E(X))
2
= 56/3 16 = 8/3.
Seja X
i
o resultado da extrac cao i, i =1, . . . , n (n=2). Recorde-se que a media e a variancia corrigida
amostrais sao, respectivamente,

X = n
1

n
i=1
X
i
e S
2
= (n1)
1

n
i=1
(X
i


X)
2
.
A distribui c ao de probabilidade conjunta de (X
1
, X
2
) e dada por
X
1
\X
2
2 4 6
2 1/9 1/9 1/9
4 1/9 1/9 1/9
6 1/9 1/9 1/9
Distribuicao amostral da estatstica

X =
1
2
(X
1
+X
2
):

X 2 3 4 5 6
P(

X = x) 1/9 2/9 3/9 2/9 1/9
E(

X) =

u
uP(

X=u) = 2
1
9
+ + 6
1
9
=
36
9
= 4
E(

X) = E(X).
41
E(

X
2
) =

u
u
2
P(

X=u) = 4
1
9
+ + 36
1
9
=
156
9
V ar(

X) = E(

X
2
) (E(

X)
2
=
156
9
16 =
12
9
=
4
3
V ar(

X) = V ar(X)/n.
Distribuicao amostral da estatstica S
2
=

2
i=1
(X
i


X)
2
=
(X
1
X
2
)
2
2
:
S
2
0 2 8
P(S
2
= s
2
) 3/9 4/9 2/9
E(S
2
) =

v
v P(S
2
=v) = 0
3
9
+ 2
4
9
+ 8
2
9
=
24
9
=
8
3
E(S
2
) = V ar(X).
Teorema 6.2: Se (X
1
. . . , X
n
) e uma a.a. de uma populacao X com E(X) = e V ar(X) =
2
, entao o
valor esperado e variancia da media amostral

X sao, respectivamente,
E(

X) = n
1

i
E(X
i
) = n
1
n = ;
V ar(

X) = n
2

i
V ar(X
i
) = n
2
n
2
=
2
/n.
Teorema 6.3: Se (X
1
. . . , X
n
) e uma a.a. de uma popula cao X N(,
2
), 0 <
2
< , entao
Z =

X
/

n
N(0, 1).
Teorema 6.4: Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X com E(X) = e V ar(X) =
2
, 0 <

2
< . Pelo Teorema do Limite Central, a distribui cao amostral de

X e aproximada pela distribui cao
Normal com media e variancia
2
/n, para n sucientemente grande.
Exemplo 6.11: Seja (X
1
. . . , X
n
) uma a.a. de X Bernoulli(p). Qual a distribui cao aproximada da
proporcao amostral

X = n
1

n
i=1
X
i
?
Sabendo que E(X) = p e V ar(X) = p(1 p), pelo Teorema 6.3

X p
_
p(1 p)/n
a
N(0, 1)

X
a
N
_
p,
p(1 p)
n
_
.
Distribuicao qui-quadrado
Deni cao 6.13: Se X
1
, . . . , X
k
sao v.a. i.i.d. com distribui cao N(0, 1),
Q = X
2
1
+ +X
2
k
e dito ter uma distribuicao qui-quadrado com k graus de liberdade, denotada por
2
(k)
, cuja f.d.p. e dada
por
f
Q
(q) =
1
2
k
2
(
k
2
)
q
k
2
1
e

q
2
, q > 0,
onde (a) =
_

0
x
a1
e
x
dx, a > 0.
O valor esperado e a variancia de uma v.a. Q
2
(k)
sao:
42
E(Q) = k;
V ar(Q) = 2 k.
0 5 10 15 20 25 30
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
Funo Densidade de Probabilidade Quiquadrado
x
f
(
x
)
k=1
k=5
k=10
Distribuicao t-Student
Deni cao 6.14: Se Z e Q sao v.a. independentes com Z N(0, 1) e Q
2
(k)
, entao
T =
Z
_
Q/k
e dito ter uma distribui cao t-Student com k graus de liberdade, denotada por t
(k)
, cuja f.d.p. e dada por
f
T
(t) =
1

k
(
k+1
2
)
(
k
2
)
_
1 +
t
2
k
_
(
k+1
2
)
, < t < .
O valor esperado e a variancia de uma v.a. T t
(k)
sao:
E(T) = 0, k > 1.
V ar(T) = k/(k 2), k > 2.
43
4 2 0 2 4 6
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Funo Densidade de Probabilidade tStudent
x
f
(
x
)
k=1
k=5
k=100
Teorema 6.5: Se (X
1
. . . , X
n
) e uma a.a. de uma popula cao X N(,
2
), entao

n
i=1
(X
i
)
2

2
=
n

i=1
_
X
i

_
2

2
(n)
e

n
i=1
(X
i


X)
2

2
=
(n 1)S
2

2

2
(n1)
.
Teorema 6.6: Se (X
1
. . . , X
n
) e uma a.a. de uma popula cao X N(,
2
), entao
(

X )/(/

n)
_
[(n 1)S
2
/
2
]/(n 1)
=

X
S/

n
t
(n1)
.
7 Estimacao por intervalos
Seja (X
1
, . . . , X
n
) uma amostra aleatoria de uma popula cao X indexada por um parametro . Por vezes,
torna-se mais valioso especicar um intervalo que contem o verdadeiro valor de com um certo grau de
conan ca do que apenas estimar pontualmente.
Nocoes basicas
Deni cao 7.1: Seja (X
1
, . . . , X
n
) uma amostra aleatoria de uma populacao X indexada por um parametro
. Se T
i
= T
i
(X
1
, . . . , X
n
), i =1, 2, sao duas estatsticas tais que T
1
< T
2
e
P(T
1
< < T
2
) = ,
onde e um valor xado entre 0 e 1, diz-se que (T
1
, T
2
) e um intervalo aleatorio de conanca (IAC) para
com grau de conan ca .
44
Exemplo 7.1: Seja (X
1
, . . . , X
n
) uma a.a. de X N(,
2
=4). Qual o IAC para baseado no EMV
com grau de conan ca de 95%?
Sabe-se que

X e o estimador de maxima verosimilhanca de e que

X N(,
2
/n) Z =

X
_
4/n
N(0, 1)
Por outro lado, P(1.96 < Z < 1.96) = 0.95 e consequentemente
P(

X 1.96
_
4/n < <

X + 1.96
_
4/n) = 0.95,
indicando que o intervalo aleatorio de conanca a 95% pretendido para e expresso por (T
1
, T
2
), em que
T
1
=

X 1.96
_
4/n e T
2
=

X + 1.96
_
4/n.
Metodo pivotal
Deni cao 7.2: Seja (X
1
, . . . , X
n
) uma a.a. de uma popula cao X indexada pelo parametro . Diz-se
que a funcao da a.a. e de ,
W = W(X
1
, . . . , X
n
; )
e uma variavel fulcral ou quantidade pivotal (ou simplesmente, pivo) usada na construcao de um intervalo
de conan ca para quando a sua distribuicao (f.m.p. ou f.d.p.) amostral nao depende de .
Os intervalos de conan ca sao obtidos aqui pelo metodo da variavel fulcral ou metodo pivotal. Isto
e, dada uma variavel fulcral W = W(X
1
, . . . , X
n
; ), os intervalos de conanca para sao obtidos da
seguinte forma:
1. Fixado um grau de conan ca , obtem-se a

e b

tais que
P(a

< W < b

) = , .
2. Se a partir de a

< W < b

, for possvel obter uma desigualdade equivalente T


1
< < T
2
, onde
T
i
= T
i
(X
1
, . . . , X
n
), i =1, 2, tem-se
P(a

< W < b

) = P(T
1
< < T
2
) = , .
3. Dado uma amostra particular (x
1
, . . . , x
n
), a concretizacao do intervalo aleatorio de conanca para
com grau de conan ca e designada por intervalo de conan ca a 100% para , dado por
(t
1
, t
2
) = (t
1
(x
1
, . . . , x
n
), t
2
(x
1
, . . . , x
n
)).
Nota: O intervalo acima e bilateral, sendo os respectivos intervalos de conan ca unilaterais do tipo
(, u
2
) ou (u
1
, ), u
1
< u
2
.
45
Em suma, o intervalo (t
1
, t
2
) e um intervalo de conanca para a 100%, denotado por
IC(, ) = (t
1
, t
2
),
sendo a concretizacao do intervalo aleatorio de conanca, denotado por
IAC(, ) = (T
1
, T
2
).
A probabilidade e interpretada como a frequencia relativa de todos os intervalos (t
1
, t
2
) que contem
obtidos numa sequencia innitamente grande de observacoes repetidas de (X
1
, . . . , X
n
) (perspectiva
frequencista). Entretanto,
= P(t
1
< < t
2
) =
_
_
_
1, se (t
1
, t
2
),
0, c.c.
Intervalos de conanca para parametros de populacoes normais
Seja (X
1
, . . . , X
n
) uma a.a. de uma populacao X N(,
2
).
Poder-se-a considerar Z =

X
/

n
N(0, 1) como variavel fulcral para obter um intervalo de conanca
para ? Nao, se
2
for desconhecido.
Entretanto, sabe-se que W =

X
S/

n
t
(n1)
, onde S
2
e a variancia amostral corrigida. Portanto,
P(a < W < b) = = 1
P(

Xb
S

n
< <

X+b
S

n
) = 1
IAC(, = 1) =
_

X b
S

n
_
IC(, 1) =
_
x b
s

n
_
b b 0 W
b = a = F
1
t
(n1)
(1

2
)
Exemplo 7.2: Suponha que o tempo X (em minutos) de reparacao de uma maquina segue uma distribuicao
Normal com media e variancia
2
. Estime o tempo medio de repara cao com um grau de conanca de
99%, baseando-se nos seguintes dados para uma amostra aleatoria concretizada: n = 10,

n
i=1
x
i
= 846
e

n
i=1
x
2
i
= 71607.
Nesse cenario, a variavel fulcral e W =

X
S/

n
t
(9)
e as quantidades x =
1
n

n
i=1
x
i
= 84.6 e s
2
=
1
n1
(

n
i=1
x
2
i
n x
2
) =
35.4
9
= 3.933.
P(3.25 < W < 3.25) = 0.99.
P(

X3.25
S

n
< <

X+3.25
S

n
) = 0.99
IAC(, = 0.99) = (

X 3.25
S

n
)
IC(, 0.99) = (84.6 3.25
_
3.933
10
) = (84.6 2.038)
= (82.562, 86.638).
46
Seja (X
1
, . . . , X
n
) uma a.a. de uma popula cao X N(,
2
). Na construcao do intervalo de conan ca
para
2
com grau de conan ca = 1, tem-se como variavel fulcral
W =
(n1)S
2

2

2
(n1)
.
P(a < W < b) = = 1 , onde
a = F
1

2
(n1)
(

2
) e b = F
1

2
(n1)
(1

2
)
P(
(n1)S
2
b
<
2
<
(n1)S
2
a
) = 1
IAC(
2
, 1) = (
(n1)S
2
b
,
(n1)S
2
a
)
a b W 0
IC(
2
, 1) =
_
(n1)s
2
b
,
(n1)s
2
a
_
Duas populacoes normais
Sejam (X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) a.a. de duas popula coes independentes X
1
N(
1
,
2
1
) e
X
2
N(
2
,
2
2
), respectivamente.
Se
2
1
e
2
2
sao conhecidas, a variavel fulcral para estimar
1

2
com grau de conan ca = 1 tem
como base os seguintes resultados:


X
i
N(
i
,
2
i
/n
i
), i = 1, 2 (independentes),


X
1


X
2
N(
1

2
,
2
1
/n
1
+
2
2
/n
2
),
onde

X
i
=
1
n
i

n
i
j=1
X
ij
, i = 1, 2. Por conseguinte, a variavel fulcral e dada por
W =

X
1


X
2
(
1

2
)
_

2
1
/n
1
+
2
2
/n
2
N(0, 1).
P(a < W < b) = = 1,
b = a = F
1
N(0,1)
(1

2
)
b b 0 W
P(

X
1


X
2
b
_

2
1
/n
1
+
2
2
/n
2
<
1

2
<
<

X
1


X
2
+b
_

2
1
/n
1
+
2
2
/n
2
) = 1
IAC(
1

2
, = 1) = (

X
1


X
2
b
_

2
1
/n
1
+
2
2
/n
2
)
Consequentemente,
IC(
1

2
, 1) = ( x
1
x
2
b
_

2
1
/n
1
+
2
2
/n
2
)
47
Exemplo 7.3: Sejam (X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) a.a. de duas populacoes independentes X
1
e X
2
com E(X
j
)=
j
e Var(X
j
)=
2
j
, j =1, 2, respectivamente. Deduza um intervalo de conanca para
1

2
com grau de conan ca = 1 para grandes amostras (n
1
, n
2
).
Para grandes amostras, pode-se substituir as variancias
2
1
e
2
2
pelas suas variancias amostrais S
2
1
e
S
2
2
(estimadores consistentes). Portanto, na constru cao de um intervalo de conanca (aproximado) para

2
com grau de conan ca , tem-se como variavel fulcral
W =

X
1


X
2
(
1

2
)
_
S
2
1
/n
1
+S
2
2
/n
2
a
N(0, 1).
Consequentemente,
P(a < W < b) = = 1, onde b = a F
1
N(0,1)
(1

2
).
IAC(
1

2
, 1) (

X
1


X
2
b
_
S
2
1
/n
1
+S
2
2
/n
2
).
IC(
1

2
, 1) ( x
1
x
2
b
_
s
2
1
/n
1
+s
2
2
/n
2
).
Sejam (X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) a.a. de duas popula coes independentes X
1
N(
1
,
2
1
) e
X
2
N(
2
,
2
2
), respectivamente.
Se
2
1
=
2
2
=
2
(desconhecida), a variavel fulcral para estimar
1

2
com grau de conanca = 1
tem como base os seguintes resultados:
Z = (

X
1


X
2
(
1

2
))/
_

2
(1/n
1
+ 1/n
2
) N(0, 1).
((n
1
1)S
2
1
+(n
2
1)S
2
2
)/
2
(n
1
+n
2
2)S
2
c
/
2

2
(n
1
+n
2
2)
, onde S
2
i
=
1
n
i
1

n
i
j=1
(X
ij


X
i
)
2
,
i = 1, 2.
Os pares (

X
1
,

X
2
) e (S
2
1
, S
2
2
) sao independentes.
W =

X
1


X
2
(
1

2
)
_
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
)
t
(n
1
+n
2
2)
.
P(a < W < b) = = 1,
b = a = F
1
t
(n
1
+n
2
2)
(1

2
)
b b 0 W
P(

X
1


X
2
b
_
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
) <
1

2
<
<

X
1


X
2
+b
_
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
)) = 1
IAC(
1

2
, 1) =
_

X
1


X
2
b
_
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
)
_
48
Consequentemente,
IC(
1

2
, 1) =
_
x
1
x
2
b

(n
1
1)s
2
1
+(n
2
1)s
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
__
.
Exemplo 7.4: Sejam X
i
o tempo de vida de uma bacteria do tipo i, i = 1, 2, independentes. Considere
(X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) duas a.a. de X
1
N(
1
,
2
) e X
2
N(
2
,
2
), respectivamente.
Estime a diferen ca dos tempos de vida medios dos dois tipos de bacterias com 95% de grau de conanca,
sabendo que n
1
= 10, n
2
= 13,

n
1
j=1
x
1j
= 300,

n
2
j=1
x
2j
= 260,

n
1
j=1
x
2
1j
= 10000 e

n
2
j=1
x
2
2j
= 7000.
Variavel fulcral: W =

X
1

X
2
(
1

2
)

(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
)
t
(21)
.
P(2.08 < W < 2.08) = 0.95, com F
1
t
(21)
(0.975) = 2.08.
S
2
c
=
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
s
2
c
=
9111.11+12150
21
= 133.33.
IAC(
1

2
, 0.95) = (

X
1


X
2
2.08
_
S
2
c
(
1
n
1
+
1
n
2
))
IC(
1

2
, 0.95) = (10 2.08
_
133.33(
1
10
+
1
13
)) = (0.1, 20.1).
Intervalos de conanca para parametros de populacoes nao normais uniparametricas
Exemplo 7.5: Seja (X
1
, . . . , X
n
) uma a.a. de uma populacao X Exponencial com E(X) = . Encontre
um intervalo de conan ca aleatorio a 100(1)% para o logaritmo da media populacional .
Nesse cenario, sabe-se que
O estimador MV de e

X e W =
2

n
i=1
X
i

2
(2n)
.
P(a < W < b) = 1, onde a = F
1

2
(2n)
(

2
) e b = F
1

2
(2n)
(1

2
).
P
_
2

n
i=1
X
i
b
< <
2

n
i=1
X
i
a
_
= 1.
Portanto, IAC(log , 1) =
_
log(
2

n
i=1
X
i
b
), log(
2

n
i=1
X
i
a
)
_
.
Para n grande, usa-se o pivo Z =
W2n
2

n


X

2
/n
a
N(0, 1).
Exemplo 7.6: Seja (X
1
, . . . , X
n
) uma a.a. de uma popula cao X Bernoulli(p). Encontre um intervalo
de conan ca (aproximado) a 100(1)% para a proporcao populacional p.
Nesse cenario,
X
i
=
_
_
_
1, se ocorrer sucesso,
0, c.c.
, i =1, . . . , n.
O estimador de maxima verosimilhan ca de p e

X =
1
n

n
i=1
X
i
.
49


n
i=1
X
i
Binomial(n, p) e, para grandes amostras, tem-se pelo T.L.C. que
W =

X p
_
p(1 p)/n
a
N(0, 1).
P(b < W < b) = 1, onde a = F
1
N(0,1)
(

2
) e b = F
1
N(0,1)
(1

2
).
Para encontrar os limites do intervalo de conanca de p, deve-se isolar o valor de p, encontrando
as razes do respectivo polinomio de 2
o
grau.
Uma alternativa a este procedimento para n bem grande e usar o facto de que

X e um estimador
consistente de p e, para grandes amostras, pode-se substituir p no denominador de Z por

X.
P
_

X b
_

X(1

X)
n
< p <

X +b
_

X(1

X)
n
_
= 1.
IAC(p, 1)
_

X b
_

X(1

X)
n
_
Portanto, um intervalo de conanca (aproximado) a 100(1)% para p e dado por
IC(p, 1)
_
x b
_
x(1 x)
n
_
.
8 Testes de hip oteses
Uma outra forma de inferir sobre caractersticas de uma populacao e testar hipoteses previamente formu-
ladas sobre os seus parametros, tendo em conta uma amostra aleatoria da popula cao e o valor toleravel
para a probabilidade de rejeicao incorrecta dessas hipoteses.
Exemplo 8.1: Uma empresa portuguesa compra usualmente parafusos americanos e japoneses devido `as
suas boas condicoes de resistencia `a trac cao (X). Os americanos armam que a resistencia `a trac cao
dos seus parafusos tem media 145 kg e desvio padrao 12 kg, enquanto os japoneses dizem ter 155 kg de
media e 20 kg de desvio padrao.
Um lote de parafusos sera inspeccionado, desconhecendo-se a sua proveniencia (americana ou japonesa).
Com base numa amostra aleatoria de 25 parafusos, calcula-se a resistencia media `a traccao ( x) a m de
investigar a origem dos mesmos.
Supondo distribuicao normal para as duas popula coes, N(145, 144) (americana) e N(155, 400) (japonesa),
pode-se considerar a seguinte regra de decisao:
Se x 150, diz-se que os parafusos sao de origem americana; caso contrario, sao de procedencia
japonesa (Regra 1).
50
50 100 150 200 250
0
.
0
0
0
0
.
0
1
0
0
.
0
2
0
0
.
0
3
0
X
N(145,144)
N(155,400)
Na decisao do Exemplo 8.1, pode-se cometer dois tipos de erro:
Erro do tipo I: Armar que os parafusos nao sao americanos (japoneses) quando na realidade o
sao.
Erro do tipo II: Armar que os parafusos sao americanos quando na realidade sao japoneses.
As probabilidades destes dois tipos de erro (Exemplo 8.1) sao:
= P(Erro tipo I) = P(

X > 150 | parafusos americanos)
= P(

X > 150 | XN(145, 144)) = P(Z > 2.08)
= 0.019
= P(Erro tipo II) = P(

X 150 | parafusos japoneses)
= P(

X 150 | XN(155, 400)) = P(Z 1.25)
= 0.106
Ao usar a regra de decisao do Exemplo 8.1 (Regra 1), a probabilidade do erro de tipo I e inferior `a do
erro de tipo II (=0.019 < =0.106), favorecendo assim os parafusos americanos.
Cada regra de decisao deste tipo dene um valor limtrofe para x (denotado aqui por x
c
). Por conseguinte,
os valores de e variam consoante o valor xado de x
c
.
Se x
c
< 150, aumenta e diminui.
Se x
c
> 150, diminui e aumenta.
Se x
c
= 148.75, = = 0.059 (ponto de equilbrio).
Em suma, dada uma regra de decisao (e.g., um valor para x
c
), pode-se calcular as duas probabilidades
de erros para avaliar o teste. Outro procedimento possvel e xar a probabilidade de um tipo de erro e
encontrar a correspondente regra de decisao. Por exemplo, = 0.05 implica x
c
= 148.95 e = 0.0651,
favorecendo a op cao pelos parafusos americanos. Este e o esquema mais usado.
51
Nocoes basicas
Um teste de hipoteses parametricas usualmente visa comparar diferentes valores para parametros de uma
dada populacao X. Por exemplo, para o parametro desconhecido de X N(,
2
).
Procedimento geral de um teste de hipoteses parametricas:
1. Hipoteses de interesse:
Hipotese nula H
0
(e.g., =
0
;
0
ou
0
).
Hipotese alternativa H
1
(e.g., =
0
teste bilateral; <
0
ou >
0
testes unilate-
rais).
2. Erros associados `a regra de teste, cujas correspondentes probabilidades sao dadas por
= P(Erro do tipo I) = P(Rejeitar H
0
|H
0
verdadeira).
= P(Erro do tipo II) = P(Aceitar H
0
|H
0
falsa).
3. Regiao crtica (RC):
Regiao que conduz `a rejeicao da hipotese nula H
0
pela regra do teste. Construda com base
numa estatstica apropriada T = T(X
1
, . . . , X
n
) denominada estatstica do teste.
A RC e construda tal que P(T RC|H
0
verdadeira) = , com (nvel de signicancia)
xado previamente nos valores usuais de 1%, 5% e 10%. Esta RC sera denotada por RC

.
4. Regra do teste de hipotese:
Se T RC

, rejeita-se H
0
ao nvel de signicancia de 100%. Caso contrario, nao se rejeita
H
0
a 100%.
Quanto menor for o nvel de signicancia do teste, tanto maior sera a precaucao contra o risco
de rejeicao incorrecta de H
0
.
A determinacao de exige a especicacao de cada valor alternativo para o parametro em teste, dado
que H
1
e geralmente composta (e.g., () = P(T / RC| =
0
)). Identicamente, o nvel corresponde
`a probabilidade maxima do erro de tipo I, quando H
0
e composta.
A funcao 1() e conhecida por potencia do teste para H
1
verdadeiro. Ou seja, para um dado valor de
, a potencia do teste e a probabilidade de rejei cao de H
0
quando e o verdadeiro valor do parametro.
P(Rejeitar H
0
|) =
_
_
_
(), H
0
verdadeiro
1 (), H
1
verdadeiro.
Exemplo 8.1a: Considere o cenario do Exemplo 8.1 com H
0
: 145 (parafusos americanos) contra
H
1
: > 145 (parafusos nao americanos) e regra de decisao 1 ( x
c
= 150). A funcao potencia do teste
sera
P(Rejeitar H
0
|) = P(

X > 150|) = 1 F
N(0,1)
_
150
12/

25
_
52
143 145 147 150 153
P(Rejeitar H
0
|) 0.002 0.019 0.106 0.5 0.894
() 1 ()
Testes de hipoteses para parametros de populacoes normais
Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X N(,
2
). Sabe-se que o estimador MV de e

X N(,
2
/n).
Teste de hipoteses para a media, supondo
2
conhecido:
1. Hipoteses:
H
0
: =
0
H
1
: =
0
(ou H
1
: >
0
ou H
1
: <
0
)
2. Estatstica do teste:
T =

X
0
/

n
H
0
N(0, 1),
cujo valor observado e denotado por t
0
.
3. Regiao crtica bilateral: Fixado um valor para ,
RC

= {t IR : (t < b) (t > b)},


onde b = F
1
N(0,1)
(1

2
).
b b 0 T
4. Conclusao:
Se t
0
RC

, os dados apontam contra H


0
ao nvel de signicancia de 100%, pelo que esta
deve ser rejeitada.
Caso contrario, nao ha evidencia para rejeitar H
0
ao nvel .
Exemplo 8.2: Uma maquina foi regulada para encher pacotes de cafe de 500g. Seja x
1
, . . . , x
16
concre-
tiza cao de uma a.a. de X (quantidade de cafe por pacote), cuja media e 492g. Considerando que X
segue uma distribuicao normal com desvio padrao 20g, teste a regula cao da maquina ao nvel de 1% de
signicancia.
Teste de hipoteses:
1. Hipoteses: H
0
: = 500 versus H
1
: = 500
53
2. Estatstica do teste: T =

X500
/

n
H
0
N(0, 1), cujo valor observado e t
0
=
492500

400/16
= 1.6.
3. Regiao crtica bilateral: Fixado = 0.01, F
1
N(0,1)
(0.995) = 2.58 e RC
1%
= (, 2.58)(2.58, ).
4. Conclusao: Como t
0
/ RC
1%
, nao se rejeita H
0
ao nvel de signicancia de 1%, i.e., nao ha
evidencia contra a regulacao da maquina a esse nvel.
Exemplo 8.2a: Seja X
1
, . . . , X
16
uma a.a. de X (quantidade de cafe por pacote) em que a media e
variancia empricas de uma sua concretizacao sao 480g e 800g
2
, respectivamente. Considerando uma
distribui cao normal para X, teste se a maquina esta a encher pacotes de cafe com pelo menos 500g, ao
nvel de 5% de signicancia.
Teste de hipoteses:
1. Hipoteses: H
0
: 500 versus H
1
: < 500.
2. Estatstica do teste: T =

X500
S/

n
=500
t
(15)
, cujo valor observado e t
0
= (480 500)/
_
800/16 =
2.83.
3. Regiao crtica unilateral: Fixado = 0.05, F
1
t
(15)
(0.95) = 1.753 e RC
5%
= (, 1.753), dado que
valores decrescentes de T tendem a reectir valores mais pequenos de .
4. Conclusao: Como t
0
RC
5%
, rejeita-se H
0
ao nvel de signicancia de 5%, i.e., ha evidencia contra
a hipotese de enchimento de pacotes de cafe com pelo menos 500g.
Exemplo 8.2b: No teste de hipoteses H
0
: 500
0
versus H
1
: < 500, a decisao do teste varia
com a escolha de , i.e.,
RC

decisao do teste
0.05 (, 1.753) rejeita-se H
0
0.01 (, 2.602) rejeita-se H
0
0.006 (, 2.857) nao se rejeita H
0
Note-se que o menor valor do nvel de signicancia que conduz `a rejei cao de H
0
e P = P(T <
2.83|H
0
) = 0.0063.
Valor-P do teste
Deni cao 8.1: O valor-P de um teste de hipoteses e a probabilidade sob H
0
de a estatstica do teste tomar
valores tao ou mais desfavoraveis a H
0
do que o seu valor observado. Deste modo, H
0
sera rejeitado a
todo nvel de signicancia tal que P < e aceite no caso contrario.
Testes de hipoteses para a variancia de uma populacao normal
Seja (X
1
. . . , X
n
) uma a.a. de uma popula cao X N(,
2
). Sabe-se que
(n1)S
2

2

2
(n1)
.
Teste de hipoteses para a variancia:
1. Hipoteses:
H
0
:
2
=
2
0
54
H
1
:
2
=
2
0
(ou H
1
:
2
>
2
0
ou H
1
:
2
<
2
0
).
2. Estatstica do teste:
T =
(n 1)S
2

2
0
H
0

2
(n1)
,
com valor observado t
0
e S
2
=
1
n1

n
i=1
(X
i


X)
2
.
Nota: Se for conhecido, T =

n
i=1
(X
i
)
2

2
0
H
0

2
(n)
.
3. Regiao crtica bilateral: Fixado um valor para ,
RC

= {t IR
+
: (t < a) (t > b)},
onde a = F
1

2
(n1)
(

2
) e b = F
1

2
(n1)
(1

2
).
a b T 0
4. Conclusao:
Se t
0
RC

, i.e. P 2min{P(T t
0
|H
0
), P(T t
0
|H
0
)} < , os dados tendem a desmentir
H
0
ao n.s. de 100%, pelo que esta deve ser rejeitada.
Caso contrario, nao ha evidencia contra H
0
ao nvel .
Exemplo 8.3: Seja (X
1
, . . . , X
10
) uma a.a. de X (tensao de ruptura de um material), resumida em

10
i=1
x
i
= 900 e

10
i=1
x
2
i
= 81108. Considerando X N(,
2
), teste se
2
= 10.
Teste de hipoteses:
1. Hipoteses: H
0
:
2
= 10 versus H
1
:
2
= 10.
2. Estatstica do teste: T =
(n1)S
2
10

2
=10

2
(9)
, cujo valor observado e t
0
=
912
10
= 10.8.
3. Valor-P: P = 2 min(P(T 10.8|H
0
), P(T < 10.8|H
0
)) = 0.58. Note-se que F
1

2
(9)
(0.71) = 10.8,
F
1

2
(9)
(0.7) = 10.66 e F
1

2
(9)
(0.8) = 12.24.
4. Conclusao: Rejeita-se H
0
para 0.58 e nao se rejeita H
0
para < 0.58. Ou seja, ha forte
evidencia a favor da hipotese
2
= 10 contra a alternativa bilateral aos nveis de signicancia
usuais = 1%, 5%, 10%.
55
Duas populacoes normais
Sejam (X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) amostras aleatorias de duas popula coes independentes X
1

N(
1
,
2
1
) e X
2
N(
2
,
2
2
), respectivamente. Sabe-se que o estimador MV de
1

2
e

X
1


X
2

N(
1

2
,
2
1
/n
1
+
2
2
/n
2
).
Teste de hipoteses para a diferen ca de medias, com
2
1
e
2
2
conhecidos:
1. Hipoteses:
H
0
:
1
=
2

1

2
= 0
H
1
:
1
=
2
(ou H
1
:
1
>
2
ou H
1
:
1
<
2
)
2. Estatstica do teste:
T =

X
1


X
2
_

2
1
/n
1
+
2
2
/n
2

1
=
2
N(0, 1),
com valor observado que se denota por t
0
.
3. Regiao crtica bilateral: Fixado um valor para ,
RC

= {t IR : (t < b) (t > b)},


onde b = F
1
N(0,1)
(1

2
).
b b 0 T
4. Conclusao:
Se t
0
RC

, rejeita-se H
0
ao nvel de signicancia de 100%. Caso contrario, aceita-se H
0
ao nvel .
Alternativamente, calcula-se P = P(|T| |t
0
| |H
0
) = 2P(T |t
0
||H
0
) e confronta-se com
do modo indicado.
Exemplo 8.4: Para testar a resistencia de dois tipos de viga de a co (A e B), observou-se a resistencia de
algumas dessas vigas de a co, obtendo os seguintes resultados de duas amostras, uma de cada tipo:
tipo A n
1
= 15 x
1
= 70.5 s
2
1
= 81.6
tipo B n
2
= 10 x
2
= 84.3 s
2
2
= 85.7
Supondo que as amostras (aleatorias) sao provenientes de duas popula coes normais independentes X
1

N(
1
,
2
1
) e X
2
N(
2
,
2
2
), teste a igualdade das resistencias medias (populacionais) dos dois tipos de
viga de aco.
Teste de hipoteses, supondo
2
1
=
2
2
=
2
desconhecido:
56
1. Hipoteses:
H
0
:
1
=
2

1

2
= 0
H
1
:
1
=
2
.
2. Estatstica do teste:
T =

X
1


X
2
_
(n
1
1)S
2
1
+(n
2
1)S
2
2
n
1
+n
2
2
(
1
n
1
+
1
n
2
)
H
0
t
(23)
,
cujo valor observado e t
0
=
70.584.3

(83.204)(1/15+1/10)
= 3.71.
3. Valor-P:
P = P(|T| 3.71|H
0
) = 2(1F
t
(23)
(3.71)) = 0.0012.
4. Conclusao:
Rejeita-se H
0
para 0.0012.
Aceita-se H
0
para < 0.0012.
Ha forte evidencia contra a hipotese de igualdade entre as resistencias medias dos dois tipos de
viga de aco.
Testes de hipoteses para parametros de populacoes nao normais uniparametricas
Seja (X
1
. . . , X
n
) uma a.a. de uma populacao X tal que, por exemplo, X Poisson(). Pelo T.L.C. (n
grande),

X
a
N(, /n).
Teste de hipoteses (em grandes amostras):
1. Hipoteses:
H
0
: =
0
H
1
: =
0
(ou H
1
: >
0
ou H
1
: <
0
).
2. Estatstica do teste:
T =

X
0
_

0
/n
H
0

a
N(0, 1),
cujo valor observado e t
0
.
3. Regiao crtica bilateral: Fixado um valor para ,
RC

= {t IR : (t < a) (t > b)},


onde b = a = F
1
N(0,1)
(1

2
).
57
b b 0 T
4. Conclusao:
Se t
0
RC

, rejeita-se H
0
ao nvel de signicancia de 100%.
Caso contrario, nao ha evidencia contra H
0
ao nvel .
Exemplo 8.5: Uma estacao de TV arma que no mnimo 60% dos telespectadores devem assistir ao seu
programa especial de passagem de ano. A m de avaliar esta arma cao, 200 famlias foram inquiridas
constituindo as suas respostas uma suposta a.a. X
1
, . . . , X
200
de uma popula cao Bernoulli(p), tendo-se
vericado 104 respostas armativas.
Teste de hipoteses para uma proporcao (em grandes amostras):
1. Hipoteses: H
0
: p 0.6 versus H
1
: p < 0.6.
2. Estatstica do teste: Pelo T.L.C., T =

X0.6

0.6(10.6)/n
p=0.6

a
N(0, 1), cujo valor observado e t
0
=
(0.520.6)/
_
0.60.4/200=2.31.
3. Valor-P: P = P(T 2.31|H
0
) = 0.0104, pela associacao entre valores pequenos de

X e de p.
4. Conclusao:
Rejeita-se H
0
para 0.0104 e aceita-se H
0
de outro modo.
Ou seja, ha alguma evidencia contra a armacao da esta cao de TV.
Teste de ajustamento do qui-quadrado de Pearson
Ate ao momento os testes estatsticos tem-se baseado na suposi cao de uma distribuicao populacional
conhecida (exacta ou aproximadamente) que raramente e legtima. Interessa, pois, saber como se podem
testar hipoteses sobre a propria forma distribucional de uma dada populacao, objecto dos chamados
testes de ajustamento.
Constru cao da estatstica do teste do qui-quadrado de Pearson:
1. Considere uma amostra aleatoria de n elementos sobre os quais se observa uma caracterstica X,
sendo as respectivas observacoes classicadas numa parti cao da recta real, B
1
, . . . , B
k
, de modo que
O
i
denota o n umero de elementos da amostra agrupados em B
i
, i =1, . . . , k, tal que

k
i=1
O
i
= n.
2. Seja p
i
= P(X B
i
) a probabilidade de obter uma observacao na i-esima parte da particao,
i =1, . . . , k, tal que

k
i=1
p
i
= 1.
58
3. O vector aleatorio O = (O
1
, . . . , O
k
) tem f.m.p. dada por
f
O
(o
1
, . . . , o
k
) =
n!
o
1
! . . . o
k
!
p
o
1
1
p
o
2
2
p
o
k
k
,
conhecida por distribui cao Multinomial (n, p=(p
1
, . . . , p
k
)), podendo-se provar que O
i
Binomial(n, p
i
),
i =1, . . . , k.
4. Hipoteses:
H
0
: X F
X
() p
i
= p
0
i
, i =1, . . . , k.
H
1
: X F
X
() p
i
= p
0
i
, para algum i =1, . . . , k.
5. Estatstica do teste:
Q =
k

i=1
(O
i
E
i
)
2
E
i
H
0

2
(km1)
,
onde E
i
= E(O
i
|H
0
) = np
0
i
e m e o total de parametros estimados de F
X
() sob H
0
. Se m > 0,
{p
0
i
} sao ainda desconhecidos implicando que E
i
sejam estimadores (apropriados) das frequencias
esperadas.
Exemplo 8.6: Acredita-se que o n umero X de acidentes por semana numa dada estrada segue uma
distribui cao Poisson. Para testar esta crenca observou-se o n umero de acidentes nessa estrada durante
30 semanas, cujos resultados encontram-se a seguir. Teste a suposicao de uma lei Poisson para X ao
nvel de signicancia de 5%.
8 4 1 1 3 0 0 0 8 9 2 4 7 1 3
3 1 0 2 0 3 4 2 1 12 5 0 5 4 2
Teste de hipoteses:
1. Hipoteses:
H
0
: X Poisson() versus H
1
: X Poisson().
2. Estatstica do teste:
Q =
k

i=1
(O
i
E
i
)
2
E
i
H
0

2
(km1)
,
onde E
i
= 30 p
0
i
com estimado segundo MV por x = 95/30 = 3.167 (m = 1). Se X
Poisson(3.167), P(X = 0) = 0.0421, P(X = 1) = 0.1334, P(X = 2) = 0.2113, P(X = 3) = 0.223,
P(X=4) = 0.1766, P(X=5) = 0.1118 e P(X 6) = 0.1018.
i B
i
p
0
i
= P(X B
i
|H
0
) E
i
1 [0, 1] P(X = 0) +P(X = 1) = 0.1755 5.265
2 (1, 2] P(X = 2) = 0.2113 6.339
3 (2, 3] P(X = 3) = 0.2230 6.690
4 (3, 4] P(X = 4) = 0.1766 5.298
5 (4, ) P(X = 5) +P(X 6) = 0.2136 6.408
59
O valor observado da estatstica do teste e
q
0
=
(115.265)
2
5.265
+
(46.339)
2
6.339
+
(46.69)
2
6.69
+
(45.298)
2
5.298
+
(76.408)
2
6.408
= 6.247 + 0.863 + 1.081 + 0.318 + 0.055 = 8.564
3. Regiao crtica: Fixado = 0.05,
RC
5%
= {q IR
+
: (q > b)},
onde b = F
1

2
(3)
(0.95) = 7.815.
b Q 0
4. Conclusao:
Como q
0
= 8.56 RC
5%
, rejeita-se H
0
ao nvel de signicancia de 5%. Ou seja, nao ha
evidencia a favor da hipotese de X Poisson().
Notas:
1. O valor-P do teste de ajustamento no Exemplo 8.6 e
P = P(Q 8.56|H
0
) = 0.0357.
Note-se que F
1

2
(3)
(0.95) = 7.815 e F
1

2
(3)
(0.975) = 9.348.
Consequentemente, rejeita-se H
0
para 0.0357 e aceita-se H
0
para < 0.0357. Ou seja, nao ha
forte evidencia nem contra nem a favor H
0
.
2. Os valores E
i
na estatstica do teste do qui-quadrado devem ser
Todos maiores ou iguais a 1.
Pelo menos 80% deles devem ser no mnimo 5.
Caso contrario, deve-se fazer reagrupamento de classes.
3. Caso seja necessario estimar m parametros no calculo dos E
i
, deve-se retirar m graus de liberdade
da distribuicao `a estatstica do teste do qui-quadrado de Pearson (
2
(km1)
).
60
Teste de independencia do qui-quadrado de Pearson em tabelas de contingencia
Suponha que cada um dos n elementos amostrados de uma populacao pode ser classicado de acordo
com duas caractersticas X e Y , com r e s categorias, respectivamente.
Seja p
ij
= P(X=i, Y =j) a probabilidade (conjunta) de um elemento da populacao pertencer a categoria
(i, j) de (X, Y ), i =1, . . . , r, j =1, . . . , s.
Consequentemente, as probabilidades (marginais) das duas caractersticas sao dadas por
p
i
= P(X=i) =

s
j=1
P(X=i, Y =j)
p
j
= P(Y =j) =

r
i=1
P(X=i, Y =j).
Para avaliar a independencia das duas caractersticas pode-se construir um teste de hipotese com base
na estatstica do qui-quadrado de Pearson, efectuando as seguintes adapta coes:
A particao B
i
, i =1, . . . , rs passa a ser denotada como a particao B
ij
, i =1, . . . , r, j =1, . . . , s das
celas da dita tabela de contingencia.
p
ij
= P(B
ij
) e a probabilidade de obter uma observacao na (i, j)-esima parte da parti cao, tal que

r
i=1

s
j=1
p
ij
= 1.
O
ij
denota o n umero de elementos da amostra que pertence a B
ij
, tal que

r
i=1

s
j=1
O
ij
= N.
A estatstica do teste e expressavel por
Q =
r

i=1
s

j=1
(O
ij
E
ij
)
2
E
ij
H
0

2
(r1)(s1)
,
onde E
ij
= E(O
ij
|H
0
) = N p
0
ij
, como se indica a seguir.
A hipotese de independencia entre X e Y e
H
0
: p
ij
= p
i
p
j
p
0
ij
, i, j.
Sob H
0
, as frequencias esperadas das celas sao
np
0
ij
= np
i
p
j
.
Como p
i
e p
j
nao sao especicadas sob H
0
, a sua estimacao por MV conduz a p
i
= O
i
/n e
p
j
= O
j
/n, sendo entao
n p
0
i,j
= E
ij
= (O
i
O
j
)/n,
onde O
i
=

s
j=1
O
ij
e O
j
=

r
i=1
O
ij
, as frequencias esperadas estimadas.
Note-se que o vector aleatorio O = (O
11
, . . . , O
rs
) segue uma distribuicao Multinomial (n, p =
(p
11
, . . . , p
rs
)) e que cada O
ij
Binomial(n, p
ij
), i =1, . . . , r, j =1, . . . , s.
61
Exemplo 8.7: Um fabricante de automoveis suspeita que a venda dos seus tres ultimos modelos esta
relacionada com o genero dos seus compradores. Com base na seguinte tabela de contingencia envolvendo
500 compradores, teste a hipotese de independencia entre o tipo dos modelos de automoveis e o genero
dos compradores.
genero modelo 1 modelo 2 modelo 3 total
masculino 160 140 40 340
feminino 40 60 60 160
total 200 200 100 500
Teste de hipoteses:
1. Hipoteses:
H
0
: p
ij
= p
i
p
j
, i, j
H
1
: p
ij
= p
i
p
j
, para algum i, j.
2. Estatstica do teste:
Q =
2

i=1
3

j=1
(O
ij
E
ij
)
2
E
ij
H
0

2
(2)
,
onde E
ij
= E(O
ij
|H
0
) = np
0
ij
e n p
0
ij
= E
ij
= O
i
O
j
/n. Por exemplo, E
11
= 200
340
500
= 136 e
E
23
= 100
160
500
= 32.
O valor observado da estatstica (qui-quadrado de Pearson) e
q
0
=
(160 136)
2
136
+ +
(60 32)
2
32
= 49.63.
3. Valor-P: P = P(Q 49.63|H
0
) = 1.6710
11
. Note-se que F
1

2
(2)
(0.9995) = 15.2.
4. Conclusao:
Rejeita-se H
0
para 1.6710
11
e aceita-se H
0
no caso contrario, i.e., ha forte evidencia
a favor da dependencia entre o tipo dos modelos de automoveis e genero dos compradores.
9 Introducao `a regressao linear simples
Modelos de regressao
Ha variaveis aleatorias que podem ser explicadas por ac cao conjunta de factores determinsticos e aleato-
rios. Por exemplo, o rendimento de um processo qumico depende de um modo previsvel da temperatura
a que se realiza e da quantidade de catalisador usada, bem como de factores desconhecidos responsaveis
pela variabilidade imprevisvel dos resultados obtidos.
Ou seja, uma variavel de interesse Y passa a ter uma componente determinstica e outra aleatoria.
Supondo uma estrutura aditiva entre elas,
62
Y = g(x) +,
onde g(x) e a parte determinstica de Y , formada por uma ou mais variaveis auxiliares x observaveis e
e a sua parte aleatoria.
A parte determinstica de Y e considerada xa, mesmo que dependa de parametros desconhecidos,
enquanto a parte aleatoria admite naturalmente uma distribuicao de probabilidade. Nesse cenario, o
conjunto de dados e formado por n pares (y
i
, x
i
), i =1, . . . , n, com os x
i
supostamente especicados sem
erro.
Considerando uma amostra casual (Y
i
, x
i
), i = 1, . . . , n, um modelo estatstico para relacionar Y e x e
dado por
Y
i
=
0
+
1
x
i
+
i
,
onde Y
i
e a variavel resposta do i-esimo elemento da amostra, x
i
e o correspondente valor da variavel
explicativa (xa),
0
e
1
sao parametros (desconhecidos) e
i
e o erro aleatorio do elemento i da amostra.
O modelo acima e conhecido por modelo de regressao linear simples, com parte determinstica g(x) =

0
+
1
x e parte aleatoria , cuja distribuicao de probabilidade se supoe habitualmente ser Normal.
Suposicoes usuais para os erros aleatorios
i
, i =1, . . . , n:
E(
i
) = 0. Isso implica que para um dado valor de x,
E(Y |x) =
0
+
1
x,
conhecida por equacao ou recta de regressao do modelo.
V ar(
i
) =
2
, i (variancia constante).

1
, . . . ,
n
sao nao correlacionados (ou independentes).

i
segue uma distribuicao Normal, i =1, . . . , n.
Interpreta cao dos parametros de regressao:
A ordenada na origem
0
e o valor esperado de Y para um valor nulo da variavel explicativa x.
O declive da recta de regressao
1
e a variacao do valor esperado de Y por cada incremento unitario
em x.
E
T
x
y

x
0
x
0
+1

0
1

1
E(Y |x) =
0
+
1
x
63
Parametros de regressao:

0
= E(Y |x=0).

1
= E(Y |x
0
+1) E(Y |x
0
), x
0
.
Metodo dos mnimos quadrados em regressao linear simples
Um metodo de estima cao dos coecientes de regressao e o metodo de mnimos quadrados que consiste
em minimizar a soma de quadrados dos erros aleatorios. Ou seja, o valor que minimiza a funcao
SQ(
0
,
1
) =
n

i=1

2
i
=
n

i=1
(Y
i

1
x
i
)
2
,
denotado por (

0
,

1
), e denominado o estimador de mnimos quadrados do vector dos coecientes de
regressao.
Para a determinacao da estimativa associada a (

0
,

1
), deve-se encontrar as derivadas parciais da funcao
SQ(
0
,
1
) avaliada em {(y
i
, x
i
)} em relacao aos parametros
0
e
1
.

0
SQ(
0
,
1
) = 2

n
i=1
(y
i

1
x
i
)(1)

1
SQ(
0
,
1
) = 2

n
i=1
(y
i

1
x
i
)(x
i
)

0
SQ(
0
,
1
) = 0

n
i=1
y
i
= n
0
+
1

n
i=1
x
i

1
SQ(
0
,
1
) = 0

n
i=1
x
i
y
i
=
0

n
i=1
x
i
+
1

n
i=1
x
2
i
A solucao desse sistema de equacoes pode ser expressa por
0
= y

1
x e
1
=

n
i=1
x
i
y
i
n x y

n
i=1
x
2
i
n x
2
, podendo-se
provar que este e ponto de mnimo, visto que a matriz hessiana avaliada neste ponto e denida positiva.
Portanto, os estimadores de mnimos quadrados de
0
e
1
sao

0
=

Y

1
x e

1
=

n
i=1
x
i
Y
i
n x

Y

n
i=1
x
2
i
n x
2
.
Consequentemente, a equacao ou recta de regressao e estimada por

Y

E(Y |x) =

0
+

1
x,
i.e., dado um valor x, o valor esperado de Y e estimado por

0
+

1
x. A estimacao pontual de E(Y |x)
deve restringir-se ao domnio dos valores observados na amostra da variavel explicativa x.
Estimadores de maxima verosimilhanca
Supondo que os erros aleatorios sao tais que
i
N(0,
2
), i =1, . . . , n, tem-se que Y
i
N(
0
+
1
x
i
,
2
)
e portanto a funcao de verosimilhanca associada ao modelo de regressao linear simples e
L(
0
,
1
,
2
|{y
i
, x
i
}) =
n

i=1
_
1

2
exp
_

1
2
2
(y
i

1
x
i
)
2
__
64
A maximizacao da funcao acima em rela cao aos parametros
0
e
1
equivale a maximizar

n
i=1
(y
i

1
x
i
)
2
= SQ(
0
,
1
), ou seja, minimizar a soma de quadrados dos desvios medios. Por conseguinte,
os estimadores de maxima verosimilhanca de
0
e
1
sao os estimadores de mnimos quadrados dos
parametros,

0
e

1
. Alem disso, pode-se provar que o EMV de
2
e
2
=
1
n

n
i=1
(Y
i

1
x
i
)
2
.
Propriedades dos estimadores dos mnimos quadrados
Estimador

1
:

1
=

n
i=1
x
i
Y
i
n x

Y

n
i=1
x
2
i
n x
2
=

n
i=1
(x
i
x)Y
i

n
i=1
(x
i
x)
2
=
n

i=1
k
i
Y
i
,
onde k
i
=
x
i
x

n
i=1
(x
i
x)
2
, com

n
i=1
k
i
= 0,

n
i=1
k
i
x
i
= 1 e

n
i=1
k
2
i
=
1

n
i=1
(x
i
x)
2
=
1

n
i=1
x
2
i
n x
2
.
Logo,
E(

1
) =

n
i=1
k
i
E(Y
i
) =
0

n
i=1
k
i
+
1

n
i=1
k
i
x
i
=
1
.
V ar(

1
) =

n
i=1
k
2
i
V ar(Y
i
) =
2
(

n
i=1
x
2
i
n x
2
)
1
.
Estimador

0
:

0
=

Y

1
x =
1
n
n

i=1
Y
i

i=1
k
i
Y
i
x =
n

i=1
w
i
Y
i
,
onde w
i
= (1/n k
i
x), com

n
i=1
w
i
= 1,

n
i=1
w
i
x
i
= 0 e

n
i=1
w
2
i
= (
1
n
+
x
2

n
i=1
x
2
i
n x
2
).
Logo,
E(

0
) =

n
i=1
w
i
E(Y
i
) =
0

n
i=1
w
i
+
1

n
i=1
w
i
x
i
=
0
.
V ar(

0
) =

n
i=1
w
2
i
V ar(Y
i
) =
2
(
1
n
+
x
2

n
i=1
x
2
i
n x
2
).
Note-se que

0
e

1
sao combinacoes lineares dos Y
i
e estimadores centrados de
0
e
1
, respectiva-
mente.
Estimador
2
:
Seja SQE a soma de quadrados dos resduos Y
i


Y
i
, i =1, . . . , n, onde

Y
i

0
+

1
x
i
, isto e,
SQE =

n
i=1
(Y
i

Y
i
)
2
=

n
i=1
(Y
i

Y +

1
x

1
x
i
)
2
=

n
i=1
(Y
i

Y )
2

2
1

n
i=1
(x
i
x)
2
= SQT SQR,
onde SQT =

n
i=1
(Y
i

Y )
2
e SQR=

2
1

n
i=1
(x
i
x)
2
sao conhecidas por somas de quadrados total
e da regressao, respectivamente.
Pode-se provar que E(SQT) = (n 1)
2
+
2
1

n
i=1
(x
i
x)
2
e E(SQR) =
2
+
2
1

n
i=1
(x
i
x)
2
e
portanto um estimador centrado de
2
e

2
=
SQE
n2
=
1
n2
__
n

i=1
Y
2
i
n

Y
2
_

2
1
_
n

i=1
x
2
i
n x
2
__
.
65
Exemplo 9.1: A resistencia de uma certa bra sintetica (Y ) e suposta estar relacionada com a percentagem
de algodao (x). Para avaliar essa conjectura tomou-se uma amostra aleatoria de 10 pecas da bra
produzidas sob as mesmas condi coes, obtendo-se os seguintes dados:
y 213 220 216 225 235 218 239 243 233 240
x 13 15 14 18 19 17 22 21 16 18

10
i=1
x
i
= 173

10
i=1
y
i
= 2288

10
i=1
x
2
i
= 3069

10
i=1
y
2
i
= 524510

10
i=1
x
i
y
i
= 39825
14 16 18 20 22
2
1
5
2
2
5
2
3
5
x
y
As estimativas de mnimos quadrados de
0
e
1
sao

1
=
398251017.3228.8
30691017.3
2
= 3.188

0
= 228.8 3.188 17.3 = 173.65
Consequentemente, a equacao ou recta de regressao estimada e

Y

E(Y |x) = 173.65 + 3.188 x,
sendo 3.188 a variacao na resistencia media da bra sintetica por cada incremento de 1% na percentagem
de algodao.
A estimativa da variancia dos erros aleatorios e

2
=
1
8
_
(524510 10 228.8
2
) 3.188
2
(3069 10 17.3
2
)
_
= 30.27.
Inferencias adicionais no modelo de regressao linear simples
Parametro
1
.
Como

1
=

n
i=1
k
i
Y
i
e uma combinacao linear de normais independentes, E(

1
) =
1
e V ar(

1
) =

2
(

n
i=1
x
2
i
n x
2
)
1
, entao

1
N
_

1
,

2

n
i=1
x
2
i
n x
2
_
,
e, por conseguinte,
W =

1
_

2

n
i=1
x
2
i
n x
2
t
(n2)
.
66
Considerando W acima como variavel fulcral na construcao de um intervalo de conan ca a 100(1)%
para
1
, tem-se que
P(a < W < b) = = 1,
onde b = a = F
1
t
(n2)
(1

2
), e
b b 0 W
P
_

1
b

n
i=1
x
2
i
n x
2
<
1
<

1
+b

n
i=1
x
2
i
n x
2
_
= 1
Logo, um intervalo (aleatorio) de conan ca a 100(1)% para
1
e
IAC(
1
, 1) =
_

1
b

n
i=1
x
2
i
n x
2
_
.
Teste de hipoteses:
1. Hipoteses: H
0
:
1
=
0
1
versus H
1
:
1
=
0
1
.
2. Estatstica do teste: T =

0
1

n
i=1
x
2
i
n x
2
H
0
t
(n2)
, cujo valor observado e denotado por t
0
.
3. Regiao crtica bilateral: Fixado , RC

= (, b) (b, ), onde b = F
1
t
(n2)
(1

2
).
b b 0 T
4. Conclusao: Se t
0
RC

, rejeita-se H
0
ao nvel de signicancia de 100%. Caso contrario, nao se
rejeita H
0
a 100%.
Parametro
0
.
Como

0
=

n
i=1
w
i
Y
i
e uma combinacao linear de normais independentes, E(

0
) =
0
e V ar(

0
) =

2
(
1
n
+
x
2

n
i=1
x
2
i
n x
2
), entao
W =

0
_

2
(
1
n
+
x
2

n
i=1
x
2
i
n x
2
)
t
(n2)
.
Considerando W acima como variavel fulcral na construcao de um intervalo de conan ca a 100(1)%
para
0
, tem-se que
P(a < W < b) = = 1,
onde b = a = F
1
t
(n2)
(1

2
) e, consequentemente, um intervalo (aleatorio) de conanca a 100(1)%
para
0
e dado por
IAC(
0
, 1) =
_

0
b


2
_
1
n
+
x
2

n
i=1
x
2
i
n x
2
__
.
67
Teste de hipoteses:
1. Hipoteses: H
0
:
0
=
0
0
versus H
1
:
0
=
0
0
.
2. Estatstica do teste: T =

0
0


2
(
1
n
+
x
2

n
i=1
x
2
i
n x
2
)
H
0
t
(n2)
, cujo valor observado e denotado por t
0
.
3. Regiao crtica bilateral: Fixado , RC

= (, b) (b, ), onde b = F
1
t
(n2)
(1

2
).
b b 0 T
4. Conclusao: Se t
0
RC

, rejeita-se H
0
ao nvel de signicancia de 100%. Caso contrario, nao se
rejeita H
0
a 100%.
Estimacao de E(Y |x
0
).
Dado um valor x
0
da variavel explicativa, um estimador pontual do valor esperado de Y e

Y
0


E(Y |x
0
) =

0
+

1
x
0
=
n

i=1
_
1
n
+k
i
(x
0
x)
_
Y
i
.
Como

Y
0
e uma combinacao linear de normais e
E(

Y
0
) = E(

0
) +E(

1
)x
0
=
0
+
1
x
0
,
V ar(

Y
0
) = =
2
_
1
n
+
( xx
0
)
2

n
i=1
x
2
i
n x
2
_
,
W =

0
+

1
x
0
(
0
+
1
x
0
)
_

2
(
1
n
+
( xx
0
)
2

n
i=1
x
2
i
n x
2
)
t
(n2)
.
Considerando W acima como variavel fulcral na construcao de um intervalo de conan ca a 100(1)%
para E(Y |x
0
), tem-se que
P(a < W < b) = = 1,
onde b = a = F
1
t
(n2)
(1

2
), e
P
_

0
+

1
x
0
b
_

2
(
1
n
+
( xx
0
)
2

n
i=1
x
2
i
n x
2
) < E(Y |x
0
) <

0
+

1
x
0
+b
_

2
(
1
n
+
( xx
0
)
2

n
i=1
x
2
i
n x
2
)
_
= 1
68
Logo, um intervalo (aleatorio) de conan ca a 100(1)% para E(Y |x
0
) e dado por
IAC(E(Y |x
0
), 1) =
_

0
+

1
x
0
b


2
_
1
n
+
( x x
0
)
2

n
i=1
x
2
i
n x
2
__
.
Teste de hipoteses:
1. Hipoteses: H
0
: E(Y |x
0
) =
0
versus H
1
: E(Y |x
0
) =
0
.
2. Estatstica do teste: T =

0
+

1
x
0


2
_
1
n
+
( xx
0
)
2

n
i=1
x
2
i
n x
2
_
H
0
t
(n2)
, cujo valor observado e denotado por t
0
.
3. Regiao crtica bilateral: Fixado , RC

= (, b) (b, ), onde b = F
1
t
(n2)
(1

2
).
b b 0 T
4. Conclusao: Se t
0
RC

, rejeita-se H
0
ao nvel de signicancia de 100%. Caso contrario, nao se
rejeita H
0
a 100%.
Exemplo 9.1a: Teste ao nvel de signicancia de 1% se a percentagem de algodao (x) inuencia a
resistencia da bra sintetica (Y ).
Teste de hipoteses:
1. Hipoteses: H
0
:
1
= 0 versus H
1
:
1
= 0.
2. Estatstica do teste: T =

n
i=1
x
2
i
n x
2
H
0
t
(n2)
, cujo valor observado e t
0
= 3.188/
_
30.27/76.1 =
5.054.
3. Regiao crtica: Fixado = 0.01, RC

= (, 3.355) (3.355, ), onde F


1
t
(8)
(0.995) = 3.355.
4. Conclusao: Como t
0
RC
0.01
, rejeita-se H
0
ao nvel de signicancia de 1%. Note-se que o valor-P,
P = P(|T
0
| 5.054|H
0
) = 0.00098, com F
1
t
(8)
(0.9995) = 5.041, e portanto ha forte evidencia de
que a percentagem de algodao inuencia a resistencia da bra sintetica.
Coeciente de determinacao
Deni cao 9.1: O coeciente de determinac ao e uma medida relativa de ajustamento do modelo de regres-
sao linear, representando a proporcao da variacao na resposta que e explicada pela variavel explicativa,
expresso por
R
2
=
SQR
SQT
= 1
SQE
SQT
,
onde SQT =

n
i=1
(Y
i


Y )
2
e SQR =

2
1

n
i=1
(x
i
x)
2
e portanto
R
2
=
(

n
i=1
x
i
Y
i
n x

Y )
2
(

n
i=1
x
2
i
n x
2
)(

n
i=1
Y
2
i
n

Y
2
)
.
O coeciente de determinacao e tal que 0 R
2
1, onde
69
R
2
1 indica bom ajustamento do modelo;
R
2
0 indica mau ajustamento do modelo.
E
T

x
y
R
2
1
y - - - - - - - - - - - - -
*
*
*
*
*
*
*
*
E
T
2
2
2
2
2
2
2
x
y
R
2
0
y - - - - - - - - - - - - - *
*
*
*
*
* *
*
1. Existem testes de hipoteses de ajustamento do modelo, e.g., o teste F de falta de ajustamento
(lack-of-t).
2. A violacao das suposicoes do modelo de regressao linear pode induzir a conclusoes erradas sobre o
modelo. Esse problema pode ser detectado atraves de tecnicas de diagnostico baseadas frequente-
mente na analise de resduos.
Analise de resduos na avaliacao do modelo
A denicao mais simples de resduo e dada por
r
i
= y
i
y
i
= y
i

1
x
i
,
onde (y
i
, x
i
) sao os valores observados na amostra, i =1, . . . , n, enquanto os resduos padronizados sao
por
r
s
i
=
r
i


2
,
onde
2
=
1
n2
[(

n
i=1
Y
2
i
n

Y
2
)

2
1
(

n
i=1
x
2
i
n x
2
)].
Os gracos de resduos mais comuns sao:
r
i
versus x
i
.
r
i
versus y
i
.
r
i
ao longo do tempo (se zer sentido).
A analise de gracos de resduos e a tecnica de diagnostico mais usada para encontrar:
Observacoes discrepantes (outliers).
Heterogeneidade da variancia (V ar(Y
i
) =
2
para algum i).
Falta de normalidade (Y
i
N(, )).
Dependencia dos erros aleatorios ( i = j, Cov(Y
i
, Y
j
) = 0).
70
E
T
r
i
x
i
sem problemas
0 - - - - - - - - - - - -
*
*
*
*
*
*
*
*
E
T
r
i
x
i
perda de linearidade
- - - - - - - - - - - -
*
*
*
* *
*
*
*
Exemplo 9.1b: Avalie o ajustamento do modelo de regressao linear simples (Y =
0
+
1
x+), incluindo
um graco de resduos.
r
2
=
(39825 10 17.3 228.8)
2
(3069 10 17.3
2
)(524510 10 228.8
2
)
= 0.7615.
Ou seja, 76.15% da variacao total da resistencia da bra sintetica e explicada pelo modelo de regressao
linear simples com a percentagem de algodao como variavel explicativa.
Gracos de resduos:
r
s
i
=
y
i
y
i


2
, i =1, . . . , 10.
sem grandes problemas.
14 16 18 20 22

1
.
0
0
.
0
1
.
0
2
.
0
x
s
t
a
n
d
a
r
d
i
z
e
d
.
r
e
s
i
d
u
a
l
s
Alguns abusos no modelo de regressao:
Seleccao de variavel explicativa.


E possvel desenvolver uma relacao estatisticamente signicativa entre a variavel resposta (Y )
e a variavel explicativa (x) que nao faca sentido na pratica.
Extrapola cao
A rela cao linear assumida para as variaveis resposta e explicativa nao pode ser estendida para
fora do domnio de actuacao dos dados observados. Por exemplo, se os valores da variavel
explicativa caem em [13, 22], nao se deve inferir e.g.sobre o valor esperado da variavel resposta
Y quando x
0
= 25, a nao ser que haja informa cao adicional sobre a validade do modelo para
esse domnio estendido.
FIM!
71

Potrebbero piacerti anche