Sei sulla pagina 1di 26

Universidade Federal da Bahia

Instituto de Matemtica
Departamento de Estatstica
Estatstica IV (MAT027) e Introduo Estatstica (MAT050)

NOTAS DE AULA
UNIDADE III

INFERNCIA ESTATSTICA

INTRODUO

At o presente momento, ns aprendemos a descrever uma amostra atravs das medidas de tendncia central
e de disperso, que so parte da chamada estatstica descritiva. Com a utilizao da inferncia estatstica, desejamos inferir indutivamente propriedades de uma populao (ou universo) com base nos resultados
obtidos com a amostra (ou subconjunto do inverso ) o que constitui uma ferramenta muito importante no
desenvolvimento de uma disciplina cientfica. Toda a inferncia na Estatstica est baseada na teoria das
probabilidades, que ns acabamos de ver.
Freqentemente, devemos tomar decises sobre populaes com base em informaes obtidas em amostras
das mesmas. Tais decises chamam-se decises estatsticas. Por exemplo, com base em resultados amostrais,
podemos querer decidir se determinada droga eficiente na cura de determinada doena, se um processo
educacional melhor do que outro, se um determinado nmero de caixas de um banco suficiente para um
atendimento rpido ao cliente, etc. Para a tomada de tais decises utilizaremos a inferncia estatstica.
Nesta etapa do nosso curso, iniciaremos a discusso falando sobre aspectos fundamentais da amostragem,
aps a qual introduziremos as noes sobre distribuio amostral da mdia e da proporo, intervalos de
confiana e testes de hipteses para mdias e propores, finalizando com um mtodo para avaliao de
relaes entre variveis qualitativas, que o teste qui-quadrado de independncia.

AMOSTRAGEM

Amostragem o ato de obter uma amostra de uma populao, podendo-se definir populao como um conjunto
de elementos, cada um deles apresentando uma ou mais caractersticas em comum. Amostra , simplesmente,
uma parte da populao.
O levantamento por amostragem, quando comparado com o levantamento total, apresenta certas vantagens:
custo menor;
resultado em menor tempo;
objetivos mais amplos;
dados mais fidedignos.
H situaes em que a amostragem se impe. Assim, pode-se ter o caso de a populao de estudo ser
muito grande, sendo impraticvel o levantamento total. Em casos em que o processo de investigao das
caractersticas de cada elemento for destrutivo (teste de resistncia de materiais, por exemplo), s tem sentido
trabalhar-se com amostras. H tambm os problemas de ordem tica: novas drogas, vacinas, tcnicas cirrgicas
devem ser testadas inicialmente em amostras, antes de seu uso amplo na populao.

2.1

ETAPAS DE UM LEVANTAMENTO POR AMOSTRAGEM

Quer a amostragem seja feita dentro de um laboratrio (por exemplo, para selecionar ratos que sero usados
em um experimento sobre agentes cancergenos), quer a amostragem seja feita sobre a populao geral (por
exemplo, para obter informaes sobre aspectos de fertilidade de mulheres moradoras em uma grande cidade,
como So Paulo), existem etapas que devem ser seguidas, intimamente ligadas aos princpios de metodologia
de pesquisa cientfica. Tais itens sero comentados com linguagem mais dirigida a levantamentos objetivando
estimar parmetros de populaes reais de seres humanos. Tais comentrios, todavia, so aplicveis a qualquer
situao em que se requeira amostragem, bastando para isso pequenos ajustes, basicamente de forma e no
de contedo.
As principais etapas de um levantamento por amostragem so:

1. Explicitao dos objetivos com bastante clareza, a fim de evitar dvidas posteriores ou mesmo esquecimentos, devendo ficar bem definida qual a unidade elementar (elemento) ou unidade de anlise a ser
trabalhada.
2. Definio da populao a ser amostrada.
(a) Em certas situaes isto pode ser relativamente fcil, como no caso de se desejar tomar uma amostra
de uma populao de crianas que estejam matriculadas e freqentando certo grupo escolar. Terse-ia uma situao mais complexa para se estudar gestantes que procuram centros de sade para
fazer pr-natal.
3. Escolha das variveis a serem observadas em cada unidade de anlise.
(a) Deve ser verificado se todos os dados que vo ser levantados so relevantes para a pesquisa e se
nenhum dado relevante foi omitido. Existe uma tendncia, particularmente ao se trabalhar com
populaes humanas, usando questionrio, de se fazer muitas perguntas, um grande nmero das
quais nunca so analisadas. Questionrios longos, em geral, levam a diminuir a qualidade da
resposta.
4. Especificao do grau de preciso desejado.Os resultados de levantamento por amostragem so sujeitos
a incerteza, devido a erros de medida e ao fato de apenas parte da populao ser examinada. O grau
de incerteza pode ser diminudo tomando-se amostras maiores e empregando-se melhores tcnicas ou
aparelhos de medida.
5. Escolha dos instrumentos de medida e da forma de abordagem.
(a) Em caso de inquritos sobre nutrio, por exemplo, poder haver escolha entre observao nica
ou observao durante sete dias; em estudos antropomtricos ser decidido o tipo de balana,
calibrador e outros aparelhos a serem usados. Questionrios podem ser preenchidos pelo prprio
indivduo ou serem aplicados a cada indivduo por um entrevistador treinado.
6. Escolha da unidade amostral, que definida como a menor parte distinta e identificvel da populao,
para fins de enumerao e sorteio da amostra.
(a) Uma unidade amostral pode ser o prprio elemento de estudo (criana, cobaia, cidade, trecho da
estrada) ou um conjunto de elementos (classe de escola, ninhada, Estado, conjunto de trechos
continuados de estrada). As unidades amostrais devem cobrir toda a populao e no podem
apresentar transvariao, ou seja, um elemento de estudo no pode pertencer ao mesmo tempo a
mais de uma unidade amostral. relao, lista ou mapa contendo todas as unidades amostrais
d-se o nome de sistema de referncia ou fundamentos da pesquisa.
7. Execuo de prova experimental, prova-piloto ou pr-teste.
(a) Nesta etapa feito um verdadeiro ensaio do trabalho a ser desenvolvido, sendo testados os instrumentos de medida, questionrio, pessoal de campo, a sistemtica proposta, a reao da populao.
Orienta os reajustes necessrios e pode dar informaes valiosas sobre possvel durao e custo da
pesquisa e indicaes sobre a variabilidade do fenmeno pesquisado, o que permite calcular melhor
o tamanho da amostra.
8. Seleo da amostra aps decidido qual deve ser o respectivo tamanho.
Esta seleo deve ser feita, de preferncia, por meio de sorteio do tipo lotrico.

2.2

TIPOS DE AMOSTRAGEM

A amostragem probabilstica quando cada unidade amostral na populao tem uma probabilidade conhecida
e diferente de zero de pertencer amostra. De outra forma, a amostragem dita no-probabilstica.
Admita-se, por exemplo, que seja definida uma populao de dez grupos escolares, cada qual com certo
nmero de alunos, desejando-se uma amostra de tamanho igual a cinco grupos escolares. Se o pesquisador
decidiu simplesmente escolher os grupos escolares A, B, C, I, J, ter-se-ia uma amostragem no-probabilstica.
possvel, no entanto (e mesmo desejvel), que o investigador obtenha o nmero de alunos de cada grupo
escolar e faa um sorteio para obteno das cinco escolas, cada escola tendo uma probabilidade de ser sorteada
proporcionalmente ao seu nmero de alunos; ser uma amostragem probabilstica.
A amostragem no-probabilstica pode prejudicar sensivelmente a validade externa de um estudo, pois
muitos fatores podem influir na escolha de uma unidade amostral para pertencer amostra, prejudicando
sua representatividade em relao populao. Mesmo assim, existem situaes em que ela usada, havendo
ento interesse em se conhecer algumas formas de amostragem no-probabilstica:
por voluntrios, que bastante usada em ensaios clnicos para teste de novos medicamentos;
intencional, quando as unidades que compe a amostra so escolhidas pelo pesquisador; usada na
verificao de poluio de praias;
por acesso mais fcil, em que as unidades so escolhidas por estarem em melhores condies de acessibilidade. Veja-se, por exemplo, o caso em que se defina para estudo todo o conjunto de habitantes de
uma rea rural, tendo o domiclio como unidade amostral; se o entrevistador escolheu os dez primeiros
domiclios do seu caminho, teremos este tipo de amostragem, tendo sido desconsideradas as outras
unidades amostrais que tambm pertencem populao.

2.3
2.3.1

AMOSTRAGEM PROBABILSTICA
AMOSTRAGEM CASUAL SIMPLES

Tambm conhecida por amostragem ocasional, acidental, casual, randmica, etc. A amostragem simples
ao acaso destaca-se por ser um processo de seleo bastante fcil e muito usado. Neste processo, todos os
elementos da populao tem igual probabilidade de serem escolhidos, no s antes de ser iniciado, como
tambm at completar-se o processo de coleta. Eis o procedimento para seu uso:
1. Devemos numerar todos os elementos da populao. Se, por exemplo, nossa populao tem 5.000elementos,
devemos numer-los de 0000 a 4999 ou, como acontece geralmente, usamos um nmero que j identifica
o elemento.
2. Devemos efetuar sucessivos sorteios com reposio (ou no) at completar o tamanho da amostra (n).
Para realizar este sorteio, podemos usar as tbuas de nmeros aleatrios ou ainda preferencialmente, o
uso de programas computacionais prprios para estes fins.
Se, durante o sorteio, unidades amostrais j sorteadas poderem ser novamente sorteadas, sendo representadas uma, duas ou mais vezes na amostra, ter-se- a chamada amostragem casual simples com reposio.
Em geral, dar-se preferncia ao tipo de amostragem casual simples sem reposio, principalmente quando
se trata de populaes com reduzido nmero de unidades amostrais.
2.3.2

AMOSTRAGEM SISTEMTICA

Trata-se de uma variao da amostragem simples ao acaso, muito conveniente quando a populao est
naturalmente ordenada, como fichas em um fichrio, listas telefnicas, etc.
Procedimento:

Seja N o tamanho da populao e n o tamanho da amostra. Ento, calcula-se o intervalo de amostragem


N
ou o inteiro mais prximo que chamaremos de a. Sorteia-se um nmero entre 1 e a e seja x esse nmero.
n
Formamos, assim, a amostra dos elementos correspondentes aos nmeros: x; (x + a); (x + 2a); ...; [x + (n 1)a].
Exemplos:
500
= 10, ou a = 10.
50
Sorteia-se um nmero de 1 a 10. Seja 3 (x = 3) o nmero sorteado. Logo, os elementos numerados por
3; 13; 23; 33; ... sero os componentes da amostra.

1. Seja N = 500 e n = 50. Ento,

2. Para uma populao de tamanho N = 32, numerada seqencialmente de 1 a 32, e amostra de tamanho
n = 8, tem-se a = 4.
O incio casual x deve ser sorteado entre 1, 2, 3 e 4; admita-se que tenha sido x = 3.
A amostra fica constituda das unidades amostrais de nmero (ou ordem):
3; 7; 11; 15; 19; 23; 27; 31.
Pode ser visto que o resultado obtido somando-se sucessivamente o intervalo de amostragem a = 4 a
cada nmero obtido imediatamente antes.
2.3.3

AMOSTRAGEM ESTRATIFICADA

No caso de populao heterognea, na qual podemos distinguir subpopulaes mais ou menos homogneas
denominadas estratos, podemos usar a amostragem estratificada.
Estratificar uma populao dividi-la em L subpopulaes denominadas estratos, tais que n1 +n2 +...+ nL =
n, onde os estratos so mutuamente exclusivos.
Aps a determinao dos estratos, seleciona-se uma amostra aleatria de cada subpopulao.
Muitas vezes uma populao composta de subpopulaes (ou estratos) bem definidos, havendo maior
homogeneidade entre as unidades amostrais dentro de cada estrato do que entre as unidades amostrais de estratos diferentes. Sexo, idade, condio scio-econmica, so exemplos tpicos. Nestas condies, tais estratos
devem ser levados em considerao e o sorteio da amostra deve ser feito em cada um deles independentemente;
da o nome de amostragem estratificada.
Um caso muito importante da amostragem estratificada aquele em que o pesquisador deseja que as
subpopulaes sejam representadas na amostra com a mesma proporcionalidade com que compe a populao
total. Trata-se da situao denominada amostragem casual simples estratificada com partilha proporcional
ou simplesmente amostragem estratificada proporcional.

COMPARAO ENTRE ESTATSTICAS E PARMETROS

Quando estamos trabalhando com dados provenientes de uma amostra, poderemos calcular algumas estatsticas, que 5 so caracterizaes da amostra. Por exemplo, pode-se calcular a mdia ou a varincia desses dados.
Logo, estatstica uma funo dos dados da amostra X1 , X2 , ...., Xn :
T = f(X1 , X2 , ...., Xn )
Temos ento que:
n
P

xi

X = i=1n = a mdia da amostra


P
(xi x)2
S 2 = ni=1
= a varincia da amostra
n1
5

que so funes de X1 , X2 , ...., Xn .


X e S 2 so as estatsticas mais comuns.
Por sua vez, os parmetros caracterizam a populao.
Os smbolos mais comuns utilizados para distinguir se estamos trabalhando com amostra ou populao
so dados na tabela a seguir:
Discriminao
Mdia
Varincia
Nmero de elementos
Proporo

Estatstica
X
S2
n
pb

Parmetros

2
N
p

DISTRIBUIES AMOSTRAIS

O problema da Inferncia Estatstica fazer uma afirmao sobre parmetros da populao atravs da amostra.

4.1

DISTRIBUIO AMOSTRAL DA MDIA

Suponha uma populao identificada pela v.a. X, cujos parmetros mdia populacional = E(X) e varincia
populacional 2 = V ar(X) so supostamente conhecidos. Vamos retirar todas as possveis amostras ao acaso
simples, de tamanho n dessa populao, e para cada uma calcular a mdia X.
Vamos supor a seguinte populao:
A populao {2, 3, 4, 5} tem mdia = 3, 5 e varincia 2 = 1, 25.
Vamos relacionar todas as amostras possveis de tamanho 2 dessa populao:
(2, 2)
(3, 2)
(4, 2)
(5, 2)

(2, 3)
(3, 3)
(4, 3)
(5, 3)

(2, 4)
(3, 4)
(4, 4)
(5, 4)

(2, 5)
(3, 5)
(4, 5)
(5, 5)

Agora vamos calcular a mdia de cada amostra acima relacionada. Ento teremos:
2, 0
2, 5
3, 0
3, 5

2, 5
3, 0
3, 5
4, 0

3, 0
3, 5
4, 0
4, 5

3, 5
4, 0
4, 5
5, 0

Por fim, vamos calcular a mdia das mdias, ou seja,


2, 0 + 2, 5 + 3, 0 + 3, 5 + .......... + 4, 5 + 5, 0
= 3, 5
E(X) =
16
De modo anlogo, vamos calcular a varincia da mdia X por:
n
1X
V ar(X) =
(xi x)2
n
|i=1 {z
}
A

Para o clculo da parte denotada por A, teremos que:


P
n
2
2
2
2
2
i=1 (xi x) = (x1 x) + (x2 x) + (x3 x) + .... + (xn x)
2
2
2
= (2, 0 3, 5) + (2, 5 3, 5) + ... + (5, 0 3, 5) = 10
Substituindo na frmula da varincia, teremos:
V ar(X)
1, 25
1
=
V ar(X) = (10) = 0, 625 =
16
n
2

Teorema: Para amostras casuais simples (X1 , X2 , ...., Xn ), retiradas de uma populao com mdia e
(X1 + X2 + .... + Xn )
varincia 2 , a distribuio amostral da mdia =
aproxima-se de uma Distribuio
n
2

, quando n tende ao infinito.


Normal com mdia e varincia
n
Desta forma:
E(X) =
2
V ar(X) =
n
2
), n > 1
n
Para padronizarmos a v.a.X vamos usar a mesma transformao em que subtrai-se a mdia e divide-se
X
pelo desvio-padro: Z = = Z N(0, 1)

n
Exemplo: Uma varivel aleatria X tem distribuio normal, com mdia 100 e desvio-padro 10.
Se X a mdia de uma amostra de 16 elementos retirados desta populao, calcule?
Se X N(, 2 ) = X N(,

1. P (90 < X < 110);


2. Que deveria ser o tamanho da amostra de modo a garantir a que P (90 < X < 110) = 95%?
Resoluo:
X N(100, 100) = X N(100; 6, 25)

110
90
P (90 < X < 110) = P
<Z<
=P

n
n

-4

-3

-2

-1

Calculando o valor de n para a condio dada:

10
10
<Z<
2, 5
2, 5

= P (4 < Z < 4) = 1, 0

10
10

P (90 < X < 110) = P


10 < Z < 10 = 95%

n
n
Como o n fixo, ento teremos Z entre dois pontos simtricos e queremos saber que pontos so estes que
deixam uma rea de 95% entre eles.

95 %

-Z
- o

Zo

Olhando
a tabela da
distribuio normal, teremos que z0 = 1, 96. Ento,

10
10
= 95% = P (z0 < Z < z0 ) = 95% = P (1, 96 < Z < 1, 96) = 95%
P
<
Z
<
10
10

n
n
Logo,

10
= 1, 96 10 n = 19, 6 n = 1, 96 n = 4, 0
10

4.2

DISTRIBUIO AMOSTRAL DA PROPORO

Consideremos que numa populao a proporo de elementos que possui determinada caracterstica p.
Sabemos ento que a proporo de indivduos que no possuem esta caracterstica ser (1 p).
Seja X a v.a. que conta o nmero de pessoas que possuem a caracterstica de interesse. J vimos que esta
v.a.tem Distribuio Binomial, com mdia E(X) = np e varincia V ar(X) = npq; onde p a proporo de
indivduos na populao que tm a caracterstica.
Definindo como pb a proporo de indivduos portadores da caracterstica na amostra, teremos que, para
n suficientemente grande, a distribuio amostral da proporo pb ser:
pb N(p;

p(1 p)
)
n

Exemplo: Sabe-se que 20% das peas de um lote so defeituosas. Sorteiam-se 8 peas, com reposio, e
calcula-se a proporo pb de peas defeituosas na amostra. Qual ser a distribuio de pb ?
p(1 p)
Resoluo: Como foi visto pb N(p;
), onde p = 20% = 0, 2 e n = 8.
n
(0, 20).(0, 80)
= 0, 02. Logo, pb N(0, 20; 0, 02).
Ento, E(b
p) = 0, 20 e V ar(b
p) =
8

INTERVALOS DE CONFIANA

At o momento, ns calculamos uma estimativa do parmetro desconhecido atravs de estimadores pontuais (as
estatsticas), que especificam um nico valor para o estimador. Por exemplo, quando calculamos a estatstica
X para uma determinada amostra, o valor que estima nico e o chamaremos de estimativa da mdia
populacional.
Este procedimento, porm, no nos permite julgar qual a possvel magnitude do erro que estamos cometendo. Pode haver o interesse em se obter um indicador de preciso dessa estimativa. Da surge a idia de ser
feita uma estimativa por intervalo, que consiste em estabelecer um intervalo de confiana para , por exemplo.
Vamos voltar ao exemplo do item 4.1.
De uma populao de tamanho 4 foram retiradas todas as amostras possveis de tamanho 2. Sabemos
que a mdia populacional 3, 5 e para cada valor calculamos o erro entre a mdia da amostra e a mdia
populacional.
8

Amostra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Elementos amostrais
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(3, 2)
(3, 3)
(3, 4)
(3, 5)
(4, 2)
(4, 3)
(4, 4)
(4, 5)
(5, 2)
(5, 3)
(5, 4)
(5, 5)

Mdia da amostraX
2, 0
2, 5
3, 0
3, 5
2, 5
3, 0
3, 5
4, 0
3, 0
3, 5
4, 0
4, 5
3, 5
4, 0
4, 5
5, 0

Erro = (X )
1, 5
1, 0
0, 5
0, 0
1, 0
0, 5
0, 0
0, 5
0, 5
0, 0
0, 5
1, 0
0, 0
0, 5
1, 0
1, 5

Verificamos na ltima coluna que, para algumas amostras, o erro entre X e foi igual a zero. Entretanto,
outras amostras apresentaram erros grandes de 1, 5 para mais ou para menos em relao mdia populacional.
Porm, quando vamos elaborar uma estimativa para um parmetro populacional, utilizamos apenas uma
dessas possveis amostras. Interessa-nos construir um intervalo de confiana que garanta que essa nica
amostra escolhida seja uma dentre as amostras que admitimos que o erro cometido no seja significativo
para o estudo. No exemplo dado, admitindo que o erro amostral mximo desejvel seja 0, 5, as amostras
6
1, 2, 5, 12, 15 e 16 nos levariam a estimativas com erro muito grande. Existe portanto uma probalidade de
16
(ou 37, 5%) de sortearmos uma amostra no desejvel.
Nosso objetivo construir um intervalo de confiana de tal maneira que tenhamos uma probabilidade
pequena de sortearmos amostras com erros no desejveis. Ou seja, admitindo que essa probabilidade seja
10%, teremos apenas 10% de amostras que geraro estimativas cujo o erro amostral superar o valor que
estamos admitindo como mximo. Existiro, portanto, 90% de amostras cujas estimativas sero consideradas
boas, isto , cujos intervalos gerados a partir dessas estimativas pontuais esperamos que contenham o
verdadeiro parmetro populacional. Chamamos a essa ltima probabilidade de nvel de confiana da estimativa
e simbolizamos por (1 ).
Observem que (1 ) pode ser igual a 99%, 95%, 90%, 80%, etc. Se estabelecermos que desejamos um
intervalo de confiana (1 ) = 95%, ser igual a 0, 05; o que significa que, ao estimarmos o parmetro,
poderemos estar utilizando uma daquelas amostras dentre as 5% que geram estimativas intervalares cujos
erros amostrais encontram-se acima do desejvel.
Resumindo, desejamos construir um intervalo, por exemplo para a mdia, de tal maneira que
P (|mdia amostral - mdia populacional| < erro amostral) = 95% = 1

5.1

INTERVALO DE CONFIANA para a MDIA POPULACIONAL ()

Quando a VARINCIA POPULACIONAL (2 ) conhecida.


2
Seja X N(, 2 ). Como j vimos, X N(, ). Padronizando a varivel X, teremos que:
n
Z=

X
tem distribuio N(0, 1)

Vamos ento considerar o intervalo de valores de Z, simtrico em torno da mdia, tal que a probabilidade
de Z assumir valor neste intervalo seja igual a (1 ), isto :
9

P (z0 < Z < z0 ) = 1


Conforme o grfico da distribuio de Z, verifica-se:

1 - alfa
alfa/2

alfa/2

-Zo

Zo

Se o intervalo de confiana definido pelo intervalo (z0 ; z0 ), a rea em branco a que fornece a probabilidade acima requerida. Logo, a rea restante ser igual a a. Como temos duas reas iguais, cada uma delas
ser igual a 2 .
Vamos chamar os pontos z0 de z 2 e z 2 , pois eles nos fornecero os pontos que deixam nas caudas da
distribuio uma rea de 2 .
Ento, rescrevendo a probabilidade, teramos que: P (z 2 < Z < z 2 ) = 1
X
X
Vamos substituir: Z =
. Logo, P (z 2 < Z = < z 2 ) = 1

n
n
Rearranjando a expresso entre parnteses, obtemos:

P (X z 2 . < < X + z 2 . ) = 1
n
n

Por definio, a expresso X z 2 . < < X + z 2 . o intervalo de confiana para o parmetro ,


n
n

ao nvel de confiana 1 , quando conhecido e o erro amostral definido por z 2 . que chamaremos
n
de .
Exemplo: Seja X a v.a. que representa a taxa de colesterol no plasma sangneo humano. Vamos supor
que essa varivel tem distribuio aproximadamente normal com mdia e desvio padro = 20mg/100ml
de plasma.
Vejamos como se obtm o intervalo de confiana para o parmetro . Vamos estabelecer o nvel de
confiana (1 ) = 0, 95; isto , um nvel de 95% de confiana.
Observe a seguinte figura:

47,5%

2,5%

-1,9 6

4 7,5%

10

2,5%

1,9 6

Atravs de uma tabela da Distribuio Normal Zero-Um ou X N(0, 1), obtemos a probabilidade correspondente a rea 0, 475, o valor z = 1, 96. Portanto, os valores de z = 1, 96 delimitam a rea de probabilidade
igual a 0, 95 (0, 475 + 0, 475).
Para encontrarmos o intervalo de confiana para , supondo amostras de tamanho n = 25, podemos
escrever:
P (X 1, 96.

20
20
< < X + 1, 96. ) = 0, 95 = P (X 7, 84 < X + 7, 84) = 0, 95.
25
25

Portanto, a expresso:
X 7, 84 < < X + 7, 84
o intervalo de confiana ao nvel de 95% para a taxa mdia de colesterol no plasma sangneo humano,
obtido com base em uma amostra qualquer de tamanho 25. Portanto, o erro amostral nesse exemplo de 7,84
mg/100ml de plasma.
Para o clculo dos valores entre os quais se encontra o verdadeiro valor do parmetro, teramos que calcular
X e substituir na expresso anterior. Vamos supor que a mdia da amostra X = 198mg/100ml de plasma.
Ento, o intervalo de 95% de confiana, determinado com base nessa amostra
190, 16 < < 205, 84
Na prtica, esperamos que a verdadeira mdia populacional esteja contida neste intervalo com 95% de
confiana, ou seja, que a amostra utilizada para a estimativa seja uma das 95% das amostras possveis da
populao cujo erro amostral seja menor ou igual a erro mximo admitido (7,84 mg/100ml de plasma).
importante frisar que o intervalo de confiana para um indicador da preciso da estimativa de X .

5.2

INTERVALO DE CONFIANA para a MDIA POPULACIONAL ()

Quando a VARINCIA POPULACIONAL (2 ) desconhecida.


Neste caso, como no conhecemos 2 , precisaremos calcular a estimativa S 2 a partir de uma amostra.
Devemos lembrar que:
S2 =

Pn

i=1

(xi x)2
n1

X
2
) e Z=
tem distribuio N(0, 1)
n

n
X
.
Agora, vamos considerar a varivel aleatria T =
S

n
Esta v.a. T tem uma distribuio conhecida como t de Student com (n1) graus de liberdade. O grfico
da distribuio t de Student simtrico e tem forma similar curva da Normal, s que menos achatada.
Os graus de liberdade de uma distribuio correspondem ao nmero de variveis independentes que esto
sendo somadas.
Sua representao grfica seria a seguinte:
Sabemos que X N(, 2 ) = X N(,

11

As probabilidades para uma v.a. T com distribuio t de Student tambm encontram-se tabeladas.
Vejamos agora como pode ser obtido um intervalo de confiana para quando o valor de desconhecido.
Dispomos de uma estimativa de obtida com base em uma amostra casual simples de tamanho n e sabendo-se
que T tem distribuio t de Student com (n 1) graus de liberdade, associados a S. O procedimento a ser
adotado parecido com o adotado para o uso da distribuio Normal.
Dada uma amostra de tamanho n, imediatamente obtemos o valor (n1) dos graus de liberdade associados
estimativa S de . Ento, definido o intervalo de confiana (1 ), iremos procurar na tabela a seguinte
probabilidade:
P (tc < T < tc ) = 1
Os pontos tc e tc vo ser encontrados da mesma forma verificada para a Distribuio Normal.
X
X
< tc ) = 1 .
J vimos que T =
.
Ento, podemos escrever P (tc < T =
S
S

n
n
Rearranjando a expresso entre parnteses, obtemos:
S
S
P (X tc . < < X + tc . ) = 1 .
n
n
S
S
Por definio, a expresso X tc . < < X + tc .
o intervalo de confiana para o parmetro ,
n
n
ao nvel de confiana 1 , quando desconhecido.
Exemplo: Seja X a varivel aleatria, que representa a taxa normal de colesterol no plasma sangneo humano. Suponhamos que, com base em uma amostra casual simples de 25 indivduos normais, um pesquisador
obteve a mdia X = 198mg/100ml de plasma e o desvio-padro S = 30mg/100ml de plasma.
Vamos obter, com base nessa amostra, o intervalo de 90% de confiana para . Na tabela t de Student
procuraremos o valor tc para (n 1) = 24 graus de liberdade e = 10%. Este valor tc = 1, 71. Ento,
escrevemos:
198 1, 71.

30
30
< < 198 + 1, 71.
25
25

= 187, 74 < < 208, 26

o intervalo de 90% de confiana para , obtido com base na amostra. Ento, espera-se que o intervalo
calculado seja um dos 90% dos intervalos, para amostras casuais simples de 25, contero o parmetro . Ou
seja, a mdia da populao se encontra entre 187,74 mg/100ml de plasma e 208,26 mg/100ml de plasma com
90% de confiana.

12

5.3

INTERVALO DE CONFIANA para PROPORO

p (1 p)
).
n
p p
, onde Z N(0, 1)
Padronizando a varivel p obteremos Z = r
p (1 p)
n
De maneira anloga ao intervalo de confiana encontrado para a mdia populacional () quando a varincia
(2 ) populacional conhecida, teremos que:

J verificamos que

p N ( p,

P (z 2 < Z < z 2 ) = 1

p p

P
z 2 < r p (1 p) < z 2 = 1 .
n
Rearranjando a expresso entre parnteses teremos:

!
r
r
p (1 p)
p (1 p)
P p z 2 .
< p < p + z 2 .
=1
n
n

Logo,

Como no conhecemos o valor p (proporo populacional) na expresso acima, para definirmos o intervalo
de confiana devemos substitu-lo por seu estimador p , temos:
r
r
p (1 p)
p (1 p)
< p < p + z 2 .
p z 2 .
n
n
que define o intervalo de confiana para o parmetro p, ao nvel de confiana 1 .
Exemplo: Entre 500 pessoas inquiridas a respeito de suas preferncias eleitorais, 260 mostraram-se favorveis ao candidato Y. Calcular um intervalo de confiana ao nvel de 90% para a porcentagem dos eleitores
favorveis a Y.
Resoluo:
Temos n = 500;
x = 260 ;
1 = 90%
260
x
=
= 0, 52
p=
500 r
n
!
r
0, 52 (1 0, 52)
0, 52 (1 0, 52)
< p < 0, 521 + 1, 64.
= 90%
P 0, 52 1, 64.
500
500

!
r
r
p (1 p)
p (1 p)
P p z 2 .
< p < z 2 .
=1
n
n
P (0, 488 < p < 0, 552) = 90%

TESTES DE HIPTESES

Um dos problemas a serem resolvidos pela Inferncia Estatstica o de testar uma hiptese. Isto , feito
uma determinada afirmao sobre uma populao, usualmente sobre um parmetro desta, desejamos saber
se os resultados de uma amostra contrariam ou no tal afirmao. Muitas vezes esta afirmao sobre a
populao derivada de teorias desenvolvidas no campo substantivo do conhecimento. A adequao ou no
dessa teoria ao universo real pode ser verificada ou refutada pela amostra. O objetivo do teste estatstico
fornecer ferramentas que nos permitam validar ou refutar uma hiptese (estatstica) atravs dos resultados
da amostra.
Por exemplo, de acordo com determinada literatura consultada pelos pesquisadores, a probabilidade de
um indivduo do sexo feminino contrair rubola 9%. Quer-se saber se esta mesma proporo verificada
entre as mulheres de Salvador. Para chegar a alguma concluso seria necessrio fazer um teste de hipteses
cujo procedimento veremos a seguir.
13

6.1

HIPTESES ESTATSTICAS

Na tomada de decises til formular hipteses ou suposies sobre a populao em estudo. Tais hipteses,
que podem ou no ser verdadeiras, chamam-se hipteses estatsticas e, em geral, consistem em afirmaes
sobre o valor de um parmetro populacional.
So exemplos de hipteses estatsticas:
1. A proporo de crianas do sexo masculino nascidas em determinada localidade nos ltimos 5 anos
0,5, isto , p = 0, 5.
2. A altura mdia dos brasileiros 1, 68 m, isto , = 1, 68 m.
Vamos designar por H0 (hiptese nula) a hiptese estatstica principal, ou seja aquela que primeiro tentaremos validar no teste, e por H1 (hiptese alternativa) a hiptese que contrara a hiptese nula.
Assim teremos;
1. H0 : = 1, 75 = hiptese nula
H1 : 6= 1, 75 = hiptese alternativa
2. H0 : p = 0, 10 = hiptese nula
H1 : p 6= 0, 10 = hiptese alternativa
3. H0 : = 210
H1 : 6= 210

= hiptese nula
= hiptese alternativa

Atravs dos testes de hipteses poderemos aceitar ou rejeitar a hiptese nula. A rejeio de H0 implicar
na aceitao de H1 .
Usando a terminologia prpria, diremos que o pesquisador pretende testar, por exemplo, H0 : p = 0, 7
contra H1 : p 6= 0, 7, com base em uma amostra de tamanho n.

6.2

ERROS

Qualquer que seja a deciso a ser tomada estamos sujeitos a cometer erros. Para facilitar a linguagem
necessitamos das seguintes definies:
6.2.1

ERRO do TIPO I

Esse erro ocorre quando rejeitamos H0 (hiptese nula) quando esta verdadeira. Chamamos de a probabilidade de cometer este erro, isto :
= P (erro do tipoI) = P (rejeitar Ho / Ho verdadeira)
denominado nvel de significncia do teste. claro que esperamos um valor pequeno de . Na prtica,
costuma-se adotar um nvel de significncia de 0,05 ou de 0,01, embora outros valores possam ser usados. Se,
por exemplo, ao delinearmos um teste, escolhermos um nvel de significncia de 0,05 (ou 5%), isto significa
que rejeitaramos a hiptese nula em 5 chances dentre 100 quando ela deveria ser aceita, ou seja, haveria 95%
de confiana que teramos tomado a deciso correta. Em tal caso dizemos que a hiptese foi rejeitada ao nvel
de 5% de significncia, o que significa que podemos ter errado com uma probabilidade de 5%.

14

6.2.2

ERRO do TIPO II

Definimos esse erro quando aceitamos H0 (hiptese nula) quando esta falsa. A probabilidade de cometer
este erro indicada por , Logo,
= P (erro do tipoII) = P (no rejeitar Ho / Ho falsa).
A determinao do valor de j mais difcil, pois usualmente no se especificam valores fixos para o
parmetro na situao alternativa. Este procedimento no ser visto no momento e estar relacionado com o
poder do teste.
A tabela a seguir resume as situaes em que cometermos os erros do tipo I e tipo II:
Realidade
H0 verdadeira
H0 falsa

6.3

Deciso
Aceitar H0
Rejeitar H0
Deciso correta
Erro tipo I
Erro tipo II
Deciso correta

TESTE DE HIPTESE para uma MDIA

Este teste feito baseando-se nas distribuies da mdia amostral X. Veremos dois testes para a mdia, que
dependero do conhecimento ou no do verdadeiro valor da varincia.
6.3.1

Teste para a Mdia quando 2 Conhecida (e quando a amostra grande)

O procedimento para a realizao desse teste de hipteses pode ser resumido nos seguintes passos:
Assim teremos;
1. Enumerar as hipteses:
H0 : = 0
H1 : 6= 0
2. Determinar a distribuio de X. e, por conseguinte, a estatstica de teste.
X
2
J vimos que X N(, )
=
Z = N(0, 1)
n

n
A estatstica de teste uma estatstica amostral, usada para tomar uma deciso em relao hiptese
nula.
3. Fixar o nvel de significncia .
4. Determinar a Regio de Aceitao e a Regio de Rejeio (crtica) que sero definidas de acordo com o
fixado:
Dis trib u io No rma l (0 ,1 )

1-
2

-z /2

15

z /2

A regio crtica o conjunto de todos os valores da estatstica de teste que levam rejeio da hiptese
nula. Com base no grfico acima, iremos formular a seguinte regra de deciso ou teste de hiptese ou de
significncia:
Rejeitar a hiptese nula ao nvel de significncia a se o valor de Z for maior que o valor de + z 2 ou
menor que o valor z 2 .
Em caso contrrio, no rejeitar a hiptese nula.

-z/2
Reg. Rejeio H0

z/2

Reg. Aceitao de H0

Z N(0, 1)
Reg. Rejeio H0

O valor z 2 chamado valor crtico, separando a regio crtica dos valores da estatstica de teste que
no levam rejeio da hiptese nula.
Exemplo:
Em indivduos sadios, a taxa de fsforo no sangue tem distribuio aproximadamente normal com mdia
= 3mg/100cc e desvio-padro = 0, 6mg/100cc. Com o objetivo de saber se no artritismo essa taxa mdia
era alterada, um pesquisador tomou uma amostra de 36 doentes e testou sua hiptese ao nvel de 5% de
significncia; observou-se na amostra a mdia X = 3, 12mg/100cc.
Resoluo:
Os hipteses sero as seguintes:
H0 : = 3, 0
1. H1 : 6= 3, 0
Usaremos = 0, 05
=
X N(3; 0, 01)
X N(3; (0, 6)2 /36)
A estatstica a ser utilizada ser:
Z=

X
3, 12 3, 0
= 1, 2
=
0, 1

As regies de aceitao e de rejeio sero as seguintes:

Para = 0, 05

Distribuio Normal (0,1)

9 5%
2

-z 2

z 2

0,025

z/2 =1,96

Os pontos z a2 e z a2 sero fornecidos pela tabela da faixa central de maneira idntica qual foi observado
para construo de intervalos de confiana. Logo z0,025 = 1, 96 e z0,025 = 1, 96. Estes pontos sero
chamados de pontos crticos. A rea hachurada corresponde regio de rejeio da hiptese nula.
16

Se a estatstica Z > z a2 ou Z < z a2 , ento rejeitaremos a hiptese nula. Caso contrrio, aceitaremos-a.
Como Z = 1, 2 < z0,025 = 1, 96 = no rejeitamos a hiptese de que a taxa de fsforo no sangue de
pessoas com artritismo seja igual a 3, 0mg/100cc.
Ento no h evidncia amostral suficiente para rejeitamos a hiptese ao nvel de significncia de 5%.
6.3.2

Teste para Mdia quando 2 Desconhecida (e para pequenas amostras)

Neste caso, como no conhecemos 2 , precisamos calcular a estimativa S 2 a partir de uma amostra.
Seguindo os mesmos passos do teste anterior para a construo das hipteses a serem analisadas; teremos
como nica diferena o fato de agora a estatstica a ser utilizada ser:
T =

X
tn1
S

T tem distribuiao tde Student com n 1 graus de liberdade.


1. De forma similar ao teste com base da distribuio Normal, agora teremos que:
(a) Se t 2 < t < t 2 , aceita-se H0
(b) Se t > t 2 , rejeita-se H0
(c) Se t < t 2 , rejeita-se H0 .
Exemplo: Os registros dos ltimos anos de um colgio atestam para os calouros admitidos a nota mdia
115 (teste vocacional). Para testar a hiptese de que a mdia de uma nova turma a mesma, tirou-se, ao
acaso, uma amostra de vinte notas, obtendo-se mdia de 118 e desvio-padro 20. Admitir que = 0, 05 para
efetuar o teste.
Resoluo:
H0 : = 115
H1 : 6= 115
= 0, 05; n = 20
Os graus de liberdade (g.l.) para o teste t de Student ser obtido da seguinte forma
g.l. = n 1 = 20 1 = 19.
Verificando-se na tabela da t de Student com 19 graus de libedade e = 0, 05, obteremos os seguintes
pontos t 2 = t0,025 = 2, 093 e t 2 = t0,025 = 2, 093; que iro nos fornecer as seguintes reas:

Regio de
Re jeio

-t 2 = -2,093

Regi o de
Acei tao

Regio de
Re jeio

= 2,093

X
3
118 115
= 0, 6708
=
=
20
S
1, 4721

n
20
Como 2, 093 < t < 2, 093 no rejeita-se a hiptese nula ao nvel de significncia de 5%.

A estatstica T =

17

6.4

TESTE DE HIPTESE para a PROPORO

Este tipo de teste ser realizado quando temos uma populao e uma hiptese sobre a proporo de indivduos
portadores de uma certa caracterstica. Esta hiptese afirma que essa proporo igual a um certo nmero
p0 . Ento, nossas hipteses podero ser descritas como:
H0 : p = p0
H1 : p 6= p0
Como j vimos, a estatstica p, proporo da amostra, tem uma distribuio normal, isto : p N (
p (1 p)
).
p,
n
Fixado um valor , devemos construir a regio crtica para p na suposio de que os parmetros definidos
em H0 sejam verdadeiros.
A estatstica a ser usada neste teste ser:
p p
Z=r
, onde p ser a proporo na populao e p a proporo na amostra.
p (1 p)
n
As nossas regies de aceitao (RA) e rejeio (RR) sero dadas de maneira similar s definidas para a
mdia.
1. Da, poderemos concluir mais uma vez que:
(a) Se z 2 < Z < z 2 , aceita-se H0

(b) Se Z < z 2 , rejeita-se H0 .


(c) Se Z > z 2 , rejeita-se H0

Exemplo: As condies de mortalidade de uma regio so tais que a proporo de nascidos que sobrevivem
at 60 anos de 0,6. Testar essa hiptese ao nvel de 5% se em 1000 nascimentos amostrados aleatoriamente,
verificou-se 530 sobriventes at 60 anos.
Resoluo:
Queremos testar:
H0 : p = 0, 6
H1 : p 6= 0, 6
= 0, 05 ser nosso nvel de significncia.
530
n = 1000;
p=
= 0, 53
1000
p (1 p)
)
=
p N(0, 6; 0, 00024)
Como sabemos, p N ( p,
n

Se = 0, 05, os pontos crticos z 2 e z 2 sero os pontos 1, 96.


Calculando a estatstica do teste, teremos:
p p
0, 53 0, 60
Z=r
= 4, 52
=
0, 00024
p (1 p)

n
ComoZ < 1, 96, rejeita-se H0 ao nvel de 5% de significncia. Ento, poderemos concluir que h evidncias de que a proporo de nascidos vivos que sobrevivem at os 60 anos de idade diferente de 0,60.

6.5

Teste de Hiptese para Comparao entre Mdias de duas Populaes.

um dos testes mais utilizados por pesquisadores da rea biomdica.


So bastante comuns as ocasies em que se tm duas populaes e se deseja comparar suas mdias.
Este tipo de teste aplicado para verificao de existncia de diferena significativa entre as duas mdias
populacionais. E nestas circunstncias iremos utilizar os testes descritos a seguir.

18

6.5.1

Comparao entre Mdias de duas Populaes

Quando as varincias populacionais 21 e 22 so Conhecidas.


Vamos supor que temos uma amostra X1 , X2 , ..., Xn1 da populao N(1 , 21 ) e uma amostra Y1 , Y2 , ..., Yn2
da populao N(2 , 22 ), independentes. Queremos saber se suas mdias diferem significativamente. Neste
caso, as hipteses estatisticas so:
H0 : 1 = 2
H1 : 1 6= 2
Como 21 e 22 so conhecidos, tm-se que a distribuio amostral de (X Y ) dada por:
21 22
+ );
n1 n2
Se fixarmos como o nvel de significncia do teste, ento poderemos obter os pontos crticos z 2 e z 2 ,
respectivamente; definindo desta forma as reas de aceitao e rejeio da hipotese nula.
Para procedermos com o teste, devemos padronizar a variavel aleatoria (X Y ), que resultar na seguinte
estatstica:
(X Y ) N( 1 2 ;

Z=

(X Y ) (1 2 )
s
N(0, 1)
21 22
+
n1 n2

Sob a hiptese nula 1 = 2 , logo:


(X Y )
ZH0 = s
21 22
+
n1 n2
ir nos fornecer o valor que nos permitir aceitar ou rejeitar a hiptese nula de forma similar aos testes
anteriores.
Exemplo: Um estudo comparativo do tempo de vida mdio de um doente aps ter sido detectado o vrus
Y no organismo humano foi realizado entre homens e mulheres, para os quais temos as seguintes distribuies,
N(3, 2; 0, 64) e N(3, 7; 0, 81). Deseja-se saber se o tempo de vida mdio de pacientes com este tipo de doena
o mesmo entre homens e mulheres. Para isto, estudou-se uma amostra de 50 homens e 50 mulheres, obtendo-se
um tempo mdio 3,0 e 3,5 anos, respectivamente.
Resoluo: Queremos testar:
H0 : 1 = 2 = 0
H1 : 1 6= 2 6= 0
Vamos fixar = 0, 05, logo os pontos crticos sero 1, 96 e 1, 96, respectivamente.
Temos a seguinte distribuio amostral para (X 1 X 2 ):
(X 1 X 2 ) N(0, 5; 0, 034)
Calculando o valor da estatstica sob H0 , tem-se:

2,5%

- 2,71 -1,9 6

Z=

47,5%

0, 5
= 2, 7116
0, 034

4 7, 5%

19

2,5%

1,9 6

Como Zcalculado = 2, 71 < 1, 96 = Ztabelado , conforme figura acima, ento rejeitamos H0 , ao nvel de
5% de significncia. Logo, poderemos afirmar que existem indcios que o tempo de vida mdio entre homens e
mulheres que contraram o vrus Y no igual. Ou seja, os tempos mdios de vida diferem significativamente
entre sexo, ao nvel de 5%.
6.5.2

Comparao entre Mdias de duas Populaes

Quando as varincias populacionais 21 e 22 Desconhecidas.


Este teste de hipteses conhecido como teste t de Student para diferena de mdias.
Quando as varincias das populaes no so conhecidas, caso muito comum na prtica, h necessidade
de estim-las a partir dos dados amostrais. Neste caso, devemos substituir 21 e 22 pelos seus estimadores S12
e S22 , obtendo a seguinte estatstica:
T =
s

(X Y ) (1 2 )
r
n1 + n2
Sc
n1 .n2

(n1 1)S12 + (n2 1)S22


n1 + n2 2
Dizemos que T tem distribuio t de Student com n1 + n2 2 graus de liberdade.
O teste de hipteses deve ser conduzido de maneira anloga, lembrando-se da modificao dos valores
crticos de t, que vo ter outro nmero de graus de liberdade.
Exemplo: Desejamos testar se dois tipos de ensino profissional so igualmente eficazes. Para isso, sortearamse duas amostras de operrios; a cada uma, deu-se um dos tipos de treinamento e, no final, submeteram-se os
dois grupos a um mesmo teste. Que tipo de concluso voc poderia tirar, baseando-se nos resultados abaixo.
onde Sc =

Amostra
Tipo I
Tipo II

N. de elementos
12
10

Mdia
75
74

Desvio-Padro
5
10

Resoluo:
As hipteses sero:
H0 : 1 = 2
H1 : 1 6= 2
Vamos fixar = 0, 05.
Calcularemos a estatstica:
T =
s

(X Y ) (1 2 )
r
n1 + n2
Sc
n1 .n2

(n1 1)S12 + (n2 1)S22


n1 + n2 2
Sob H0 => 1 = 2
Ento:
(75 74)
1
Sc = 7, 88954
e
T =
=
7, 88954 . 0, 026846
1, 2927
T = 0, 7735
Iremos definir os pontos crticos t a2 e t a2 , que sero, respectivamente, 2, 20 e 2, 20.
Como 2, 20 < T < 2, 20, aceitamos a hiptese nula. Com base no teste acima, pode-se concluir que
os dois tipos de testes no diferem significativamente, ao nvel de 5%. Logo, qualquer um dos dois tipos de
ensino profissional so igualmente eficazes.
onde Sc =

20

6.6

TESTES BILATERAIS e UNILATERAIS.

As caudas de uma distribuio so as regies extremas delimitadas por valores crticos. Nos exemplos desenvolvidos nesta apostila os testes de hiptese envolveram testes bilaterais no sentido de que a regio crtica est
situada nas duas regies extremas (caudas) sob a curva. Rejeitamos a hiptese nula se nossa estatstica de
teste est na regio crtica porque isto indica uma discrepncia significativa entre a hiptese nula e os dados
amostrais.
Alguns testes so unilaterais, podendo ser unilaterais esquerdos ou direitos. Os testes unilaterais esquerdo
tm a regio crtica localizada na regio extrema esquerda sob a curva, enquanto que os unilaterais direitos
tm a regio crtica localizada na regio extrema direita sob a curva.
Nos testes bilaterais, o nvel de significncia dividido igualmente entre as duas caudas que constituem a
regio crtica. Em testes unilaterais, a rea crtica igual a . A figura a seguir esquematiza estas informaes.

Sin a l d e H 1 : <
Tes te Un ilatera l Es q u erd a

Sin a l d e H 1 : >
Tes te Un ilatera l D ire ita

S in al d e H 1 :
Tes te B ilateral

Exemplo: Determinao de valores crticos:


Muitos passageiros de navios de cruzeiro utilizam adesivos que fornecem dramamina ao corpo a fim de
evitar o enjo. Testa-se a informao sobre a quantidade da dosagem mdia, ao nvel de significncia de 0,05.
As condies so tais que permitem a utilizao da distribuio normal.
1. Determine o(s) valore(s) crtico(s) de z se o teste :
(a) bilateral;
(b) unilateral esquerdo;
(c) unilateral direito.
Resoluo:
(a) Em um teste bilateral, o nvel de significncia dividido igualmente entre as duas caudas, o que
determina uma rea de 0,025 em cada cauda. Podemos encontrar os valores crticos pelo uso da
tabela da normal padro atravs dos valores que correspondem a reas de 0,475 direita ou
esquerda de mdia. Assim, obteremos os valores crticos z = 1, 96 e z = 1, 96.

21

(b) Em um teste unilateral esquerdo, o nvel de significncia 0,05 a rea da regio crtica esquerda,
de forma que o valor crtico corresponde a uma rea de 0,45 esquerda da mdia. Recorrendo
tabela da normal padro, obtemos o valor crtico z = 1, 645.

(c) Em um teste unilateral direita, o nvel de significncia 0,05 a rea da regio crtica direita, de
forma que o valor crtico corresponde a uma rea de 0,45 direita da mdia. Com o uso da tabela
normal padro, obtm-se o valor crtico z = 1, 645.

6.7

NVEL DESCRITO (p-valor).

O procedimento descrito at o momento conhecido como procedimento clssico de testes de hipteses. Um


outro procedimento que vem sendo muito adotado consiste em apresentar o nvel descritivo (ou p-valor)
do teste. A diferena bsica entre esses dois procedimentos que, neste ltimo, no necessrio construir a
regio crtica. Em lugar disto, indica-se a probabilidade de ocorrerem valores da estatstica mais extremos
que o observado, supondo a hiptese H0 verdadeira.
Regra de deciso
p-valor > = aceitar H0
p-valor = rejeitar H0
Ento, o p-valor a probabilidade, sob a hiptese nula, de se observar um valor igual ou maior que o
obtido. Ou seja, um p-valor (ou valor de probabilidade) a probabilidade de obter um valor da estatstica
amostral de teste no mnimo to extremo como o que resulta dos dados amostrais, na suposio de a hiptese
nula ser verdadeira.
Este tipo de procedimento usualmente o adotado quando se trabalha com softwares estatsticos para
anlise de dados, pois a informao a respeito do p-valor est disponvel dentre os resultados apresentados
pelo computador.
Com o objetivo de realizar o teste de hipteses atravs desse procedimento, iremos apresentar dois exemplos. Para auxiliar nessa anlise usaremos alguns resultados apresentados por um pacote estatstico para
anlise de dados denominado Minitab.
Exemplo 1 : Uma companhia de cigarros anuncia que o ndice mdio de nicotina dos cigarros que fabrica, apresenta-se abaixo de 23 mg por cigarro. Um laboratrio realiza 10 anlises desse ndice, obtendo:
27, 24, 21, 25, 26, 22, 23, 25, 27, 22. Sabe-se que o ndice de nicotina se distribui normalmente. Pode-se aceitar,
ao nvel de 10%, a afirmao do fabricante?
vs
H1 : 6= 23mg (suponha um teste bilateral)
H0 : = 23mg
X 0
24, 2 23
A Estatstica do teste T =
= 1, 77
=
2, 1429
S

n
10
O Valor da tabela que servir de base para comparar com a estatstica do teste t (n 1) = t0.10,9 =
1, 383, logo no podemos rejeitar H0 ao nvel de significncia de 10%.
O Minitab utiliza como critrio o nvel descritivo do teste:
Test of = 23.000 vs 23.000
Variable
C1

N
10

Mean
24.200

StDev
2.150

SE Mean
0.680

T
1.77

P-Value
0.94

Observa-se que o p-valor > 0, 10 e, portanto, aceitamos a hiptese nula. Logo, os dados amostrais no
possuem evidncia suficiente para aceitarmos a afirmao do fabricante.
Exemplo 2 : Uma rede de pizzarias deseja testar se o teor mdio de gordura em peas de salame produzidas
por determinada indstria de alimentos igual a 15%. De um grande lote que adquiriu retirou uma amostra
de 50 peas de salame e os resultados esto a seguir:
22

19.8
13.3
28.7
10.0
8.9
16.7
12.1
21.4

23.4
12.2
11.6
24.5
10.6
18.4
13.1

13.6
14.3
16.4
34.9
9.5
10.1
7.7

6.6
8.5
14.4
19.1
14.0
12.3
17.4

13.7
15.8
26.2
6.9
6.0
6.5
10.7

5.2
16.0
17.0
19.5
18.0
25.4
24.1

14.3
18.3
6.5
11.0
10.8
15.3
14.0

As hiptese a serem testadas so


H0 : = 15 versus H1 : 6= 15
Test of = 15.000 vs 15.000
Variable
C2

N
50

Mean
14.984

StDev
6.387

SE Mean
0.903

T
P-Value
-0.12
0.91

Como p-valor > 0, 05 ento aceita-se H0 , ou seja, no existe evidncia de que o teor de gordura nas peas
de salame produzidas pela indstria seja diferente de 15%

TESTE QUI-QUADRADO

At o momento ns testamos hipteses referentes a um parmetro populacional ou mesmo comparao


de dois parmetros. Vamos estudar agora um teste no-paramtrico, assim chamado por no depender dos
parmetros populacionais nem de suas respectivas estimativas.
Para a realizao desses testes no-paramtricos ns utilizaremos uma nova distribuio estatstica chamada
Qui-quadrado, cuja medida baseia-se no grau de concordncia entre as freqncias observadas e as freqncias
esperadas de acordo com as regras de probabilidade.
Suponha um experimento realizado n vezes, onde se observou um conjunto A1 , A2 , ..., Ak com as respectivas
freqncias O1 , O2 , .., Ok . No entanto, de acordo com as regras de probabilidade deveriam apresentar as
seguintes freqncias tericas ou esperadas e1 , e2 , ..., ek .
Como ilustrao, considere o seguinte experimento: Lanamento de um dado 60 vezes. Neste tipo de
experimento temos 6 possveis eventos (as faces do dado). E sabemos que se o dado honesto a probabilidade
1
de cada face ser sorteada em cada jogada.
6
Os resultados deste experimento aparecem no quadro a seguir.
Eventos
Freq. Observada
Freq. esperada

1
15
10

2
7
10

3
4
10

4
11
10

5
6
10

6
17
10

O modelo que serve para determinar as discrepncias existentes entre as freqncias observadas e esperadas
dado pela estatstica:
2

P (Oj ej )2
(O1 e1 )2 (O2 e2 )2
(O ek )2
=
=
+
+ .... + k
ej
e1
e2
ek

onde Oj a freqncia observada e ej a freqncia esperada, sob a hiptese em estudo.


A distribuio amostral da distribuio Qui-quadrado 2 ter a seguinte forma aproximada:

23

Qui-quadrado

A 2 ,assim como a t de Student, ter graus de liberdade associados sua distribuio, que sero
definidos de acordo com o procedimento a ser adotado.

7.1

TESTE DE INDEPENDNCIA

Uma importante aplicao do teste 2 ocorre quando queremos estudar a relao entre duas ou mais variveis
de classificao. A representao das freqncias observadas, neste caso, pode ser feita por meio de uma
tabela de contingncia. Considerando-se dois critrios de classificao, teremos tabelas de dupla entrada de
classificao h x k, em que as freqncias observadas ocupam h linhas e k colunas.
Tabela de contingncia (2 x 2)
Resultados observados
Classificao I
II TOTAL
A
A1 A2
Na
B
B1 B2
Nb
TOTAL
N1 N2
N
Na tabela acima consideramos duas variveis. A primeira varivel (varivel 1) admitimos que seja classificada em duas categorias A e B; a varivel tambm em duas categoria I e II.
Uma tabela de contingncia usualmente construda com o propsito de estudar a relao entre as duas
variveis de classificao. Por meio do teste 2 possvel testar a hiptese de que as duas variveis so
independentes.
No caso do teste de independncia, em particular, o valor da estatstica 2 ser maior quanto mais
afastado o valor observado for do valor esperado e maior ser a dependncia. Em relao ao nmero de graus
de liberdade, este ser definido por (h 1)(k 1), onde h representa o nmero de modalidades da varivel 1
e k o nmero de modalidades da varivel 2.
Como o pesquisador est preocupado em testar a associao entre as variveis, as hipteses sero formuladas da seguinte maneira:
H0 : as variveis so independentes
H1 : as variveis no so independentes, ou seja, elas apresentam algum grau de associao entre si.
Exemplo: Deseja-se verificar a relao entre a classificao dada ao ajustamento matrimonial e ao nvel
de escolaridade do casal. Os dados encontram-se na tabela a seguir:

Educao
3o grau
2o grau
1o grau
TOTAL

Ajustamento
Muito baixo Baixo
18 (27)
29 (39)
17 (13)
28 (19)
11 (6)
10 (9)
46
67

24

Matrimonial
Alto
Muito alto
70 (64) 115 (102)
30 (32)
41 (51)
11 (14)
20 (23)
111
176

TOTAL
232
116
52
400

Neste caso queremos testar a hiptese de no haver relao entre o nvel educacional do indivduo e o xito
no seu casamento.
Para podermos calcular as freqncias esperadas para as diversas caselas, sob a suposio de independncia,
estaremos esperando que no haja diferena entre as modalidades, logo poderemos usar os totais marginais:
232, 116 e 52. Assim, encontraremos a distribuio de escolaridade sem levar em considerao o ajustamento
matrimonial, de forma que:
232
= 0, 58
400

116
= 0, 29
400

52
= 0, 13
400

Aplicaremos estas taxas em todas as caselas da tabela anterior, obtendo as freqncias esperadas, que
esto representadas dentro dos parnteses da tabela anterior.
Nosso teste proceder do seguinte modo:
H0 : O ajustamento matrimonial independente da educao
H1 :O ajustamento matrimonial no independente da educao
= 5%
= nmero de graus de liberdade = (h 1)(k 1) = (3 1)(4 1) = 2 x 3 = 6 = 2 = 12, 6
A estatstica do teste, sob H0 , ser:
2 =

P (Oj ej )2
(20 23)2
(18 27)2 (17 13)2
+
+ .... +
= 20, 7
=
ej
27
13
23

Como 2calculado > 12, 6, rejeita-se a hiptese de independncia.


Por inspeo da tabela parece que os indivduos com alguma educao colegial parecem ajustar-se melhor
ao casamento do que aqueles que no a possuem.

EXERCCIOS DE FIXAO

1) Um antroplogo mediu as alturas (em polegadas) de uma amostra aleatria de 100 homens de determinada
populao, encontrando a mdia amostral de 71,3. Se a varincia da populao for 2 = 9, determine um
intervalo de 99% de confiana para a altura mdia de toda a populao.
2) Para os tempos de reao de 30 motoristas selecionados aleatoriamente, encontrou-se uma mdia de
0,83 segundos e um desvio-padro de 0,20 segundos. Determinar um intervalo de 95% de confiana para o
tempo mdio de reao de toda a populao de motoristas.
3) Uma amostra aleatria de 400 domiclios mostra que 25% deles so casas de aluguel. Qual o intervalo
de confiana que podemos razoavelmente supor que seja o da proporo de casas de aluguel, com um nvel de
significncia de 2%?
4) Certo tipo de semente cresce, em mdia, at a altura de 8,5 polegadas, com desvio-padro de uma polegada. Semeiam-se 100 delas em um solo enriquecido, a fim de testar qual a mdia na melhora de crescimento.
Se nesta amostra, encontrarmos uma altura mdia de 8,8 polegadas de altura, qual ser nossa concluso?
5) Estamos desconfiados de que a mdia das receitas municipais per capita das cidades pequenas (at
20.000 habitantes) maior do que a das receitas do estado, que de 1.229 unidades. Para comprovar ou no
esta hiptese, sorteamos dez cidades pequenas e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093;
2.621; 1.045; 1.439; 717; 1.838; 1.359. O relatrio do software Minitab encontra-se a seguir.
Test of = 1229
Variable
Renda

N
10

vs > 1229
Mean
1350

StDev
676

25

SE Mean
214

T
0.57

P-Value
0.29

Com base nestas informaes, que concluses podem ser feitas. Construa as regies crticas para este teste
de hipteses e compare este procedimento com o do uso do p-valor.
6) Duas mquinas, A e B, so usadas para empacotar p de caf. A experincia passada garante que
o desvio adro de ambas de 10g. Porm, suspeita-se de que elas tm mdias diferentes. Para verificar,
sortearam-se duas amostras: uma com 25 pacotes da mquina A e outra com 16 pacotes da mquina B. As
mdias foram, respectivamente, X A = 502, 74g e X B = 490, 60g. Com estes nmeros, e ao nvel de 5%, qual
seria a concluso do teste H0 : A = B ?
7)Suponha que est sendo realizada uma pesquisa para avaliar diversas caractersticas fsicas e comportamentais dos ursos polares. Alguns pesquisadores acreditam que o peso nesse grupo de animais no difere
segundo o sexo. Com o objetivo de se verificar se esta afirmao verdadeira, 99 ursos do sexo masculino e 44
do sexo feminino foram pesados. Os resultados obtidos encontram-se a seguir. Com base nesses resultados,
que concluses voc pode obter?
Twosample T for Weight
Sex
1
2

N
99
44

Mean
214
143.0

StDev
120
64.5

95% C.I. for 1 - 2: ( 40,

SE Mean
12
9.7
101.5)

T - Test 1 = 2 (vs not =): T = 4.59

P = 0.0000

DF =

135

8) Fez-se um estudo de 531 pessoas feridas em acidentes de bicicleta; os resultados de uma amostra aleatria
constam da tabela abaixo. Com o nvel de 0,05 de significncia, teste a afirmao de que o uso do capacete
no reduz a possibilidade de ferimentos no rosto. Com base nos resultados, acha que o uso do capacete ajuda
a reduzir o risco de ferimentos no rosto?
Resultados
Com capacete
Sem capacete
Com ferimentos faciais
30
182
83
236
Todos os ferimentos no faciais
Fonte: A Case-control study of the Eectiveness of bicycle safety
helmets in preventing facial injury, de Thompson, Thompson,
Rivara e Wolf, American Journal of Public Health, vo. 80, no. 12.
9) Um estudo feito para determinar a taxa de fumantes entre pessoas de diferentes grupos etrios originou
os dados amostrais aleatrios resumidos na tabela a seguir. Com o nvel de 0,05 de significncia, teste a
afirmao de que o fumo independente do grupo etrio. Com base nesses dados, tem sentido dirigir a
propaganda de cigarros a grupos etrios especficos?
Hbito de fumar
Fumante
No fumante
TOTAL

20-24 anos
18
32
50

25-34 anos
15
35
50

35-44 anos
17
33
50

45-64 anos
15
35
50

Fonte: Baseado em dados do Centro Nacional de Estatsticas em Sade (E.U.A)

26

Potrebbero piacerti anche