Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Zanini
CADERNO DIDTICO
ESTATSTICA
Santa Maria
UFSM
2008
E84e
Moraes, Anaelena B.
Estatstica : caderno didtico / Anaelena B. Moraes, Luciane
F. Jacobi, Roselaine R. Zanini. Santa Maria : UFSM, CCNE, De
partamento de Estatstica, 2001.
56 p.
1. Estatstica I. Jacobi, Luciane F. II. Zanini, Roselaine R.
III. Ttulo.
CDU : 519.22/.25:311
Sumrio
1
1
1
1
2
2
2
2
3
4
5
5
6
1 - Conceitos Iniciais
1.1 Conceito de estatstica
1.2 Diviso da estatstica
1.3 Populao
1.4 Amostra
1.5 Dados estatsticos
1.6 Varivel
1.7 Nveis de mensurao de uma varivel
1.8 Arredondamento de dados
1.9 Mtodo estatstico
1.10 Representao tabular
1.11 Sries estatsticas
1.12 Representao grfica
2 Distribuies de Freqncias
Representao de variveis
1.1 Discretas
1.2 Contnuas
2 Alguns conceitos bsicos
2.1 Dados brutos
2.2 Rol
2.3 Amplitude total
2.4 Classe
2.5 Limites de classe
2.6 Amplitude de classe
2.7 Ponto mdio de classe
2.8 Tipos de freqncias
2.9 Exemplos de distribuies de freqncias
2.10 Grficos representativos de uma distribuio de freqncias em classes
8
8
8
8
9
9
9
9
9
9
9
9
9
10
10
3 Medidas Descritivas
Introduo
2 Medidas de tendncia central
2.1 Mdia aritmtica
2.2 Mediana
2.3 Moda
3 Separatrizes
3.1 Quartis
3.2 Decis
3.3 Percentis
4 Medidas de disperso
4.1 Amplitude de variao
4.2 Desvio mdio
4.3 Soma de quadrados
4.4 Varincia
4.5 Desvio padro
14
14
14
14
15
16
17
17
18
19
19
19
20
20
20
22
i
22
22
22
23
25
25
25
25
25
25
25
26
26
26
27
27
28
29
29
5 Variveis Aleatrias
1 Noes sobre variveis aleatrias
2 Variveis aleatrias discretas
2.1 Funo de probabilidade
2.2 Valor esperado ou mdia de uma varivel aleatria discreta
2.3 Varincia de uma varivel aleatria discreta
3 Variveis aleatrias contnuas
3.1 Funo densidade de probabilidade
3.2 Valor esperado ou mdia de uma varivel aleatria contnua
3.3 Varincia de uma varivel aleatria contnua
4 Modelos probabilsticos para variveis aleatrias
4.1 Distribuio binomial
4.2 Distribuio de Poisson
4.3 Distribuio normal
4.4 Distribuio Qui-quadrado (2)
4.5 Distribuio t de Student
4.6 Distribuio F (Fisher)
30
30
30
30
30
31
31
31
32
32
32
32
33
34
35
36
36
6 Amostragem
1 Introduo
1.1 Definio de amostragem
1.2 Importncia da utilizao da amostragem
1.3 Situaes em que pode no valer pena a realizao de uma amostragem
1.4 Tipos de investigao
2 Tipos de amostragem probabilistica
2.1 Amostragem aleatria simples
2.2 Amostragem sistemtica
2.3 Amostragem estratificada
3 Distribuio por amostragem
3.1 Amostragem com ou sem reposio
37
37
37
37
37
37
38
38
38
39
39
40
ii
40
40
40
42
43
43
43
43
43
44
44
45
46
46
46
46
46
46
47
47
47
47
47
48
48
48
48
49
49
52
52
53
54
54
54
54
55
55
56
57
57
58
59
60
60
61
iii
62
63
63
65
66
66
Referncias Bibliogrficas
iv
1 - Conceitos Iniciais
1.1 Conceito de estatstica
Existem muitas definies propostas por autores, objetivando estabelecer com clareza o que
estatstica, como por exemplo:
A estatstica um conjunto de mtodos destinados a coleta, organizao, resumo, apresentao e
anlise de dados de observao, bem como a tomada de decises razoveis baseadas em tais anlises;
A estatstica a matemtica aplicada aos dados de observao;
A estatstica um conjunto de processos ou tcnicas empregadas na investigao e anlise de
fenmenos coletivos ou de massa.
1.2 Diviso da estatstica
Estatstic a Descritiva
Estatstic a geral ou metodolgi ca
A estatstica divide-se em:
Estatstic a Indutiva ou Inferencia l
Estatstica aplic ada
Estatstica geral
Visa elaborar mtodos gerais aplicveis a todas as fases do estudo dos fenmenos de massa. A
estatstica matemtica a parte da estatstica geral que tem por finalidade o estudo das propriedades
matemticas dos fenmenos de massa e a deduo e demonstrao rigorosa dos procedimentos e frmulas
usadas. A estatstica geral ainda pode ser dividida em dois grandes campos:
Estatstica descritiva
Trata da coleta, da organizao, classificao, apresentao e descrio dos dados de observao.
Refere-se maneira de apresentar um conjunto de dados em tabelas e grficos e maneira de resumir,
atravs de certas medidas, as informaes contidas nestes dados.
Estatstica indutiva ou inferencial
Visa tirar concluses sobre a populao a partir de amostras. Refere-se maneira de estabelecer
concluses para toda uma populao quando se observar apenas parte desta populao.
Estatstica aplicada
todo o ramo do conhecimento cientfico que proceda, nica ou principalmente, por intermdio da
metodologia estatstica. Exemplos: Biometria (cincia que trata da mensurao da vida e dos processos
vitais), Demografia, Econometria, Psicometria (mensurao da personalidade, do desenvolvimento mental
e do comportamento de indivduos e grupos e seus ajustamentos a mudanas no meio ambiente),
Mecnica Estatstica, Sociometria (maneira como as pessoas vivem, sua cultura, opinies e atitudes, assim
como o relacionamento de uns com os outros).
Algumas aplicaes da estatstica
A estatstica uma cincia de mltiplas aplicaes e de fundamental importncia no campo da
investigao cientfica, sendo de utilizao cada vez mais acentuada em qualquer atividade profissional.
Ento, razovel que os profissionais de diversas reas adquiram um mnimo de conhecimento tcnico
sobre estatstica que possibilitem a compreenso de termos como: variabilidade, regresso, correlao,
significncia, etc. que aparecem com freqncia em artigos de publicaes especializadas.
1.3 Populao
todo o conjunto de elementos que possuam ao menos uma caracterstica comum observvel.
Obs.: elementos = objetos, animais, pessoas, material contnuo (slido, lquido ou gs).
1.4 Amostra
uma parte da populao, sendo que a mesma deve ser selecionada de acordo com algum critrio
para que possa ser representativa da populao.
1.5 Dados estatsticos
So as caractersticas observadas ou medidas nos elementos, sendo que os dados de observao
constituem a matria-prima da estatstica.
1.6 Varivel
um smbolo, como X, Y, Z, ..., que pode assumir resultados de um conjunto, que lhe so
atribudos, conjunto este chamado domnio da varivel. Se a varivel pode assumir somente um valor, ela
denominada constante.
As variveis podem ser classificadas em:
Variveis qualitativas ou atributos: indica alguma propriedade do fenmeno de observao;
Variveis quantitativas discretas: quando podem assumir apenas alguns valores de um conjunto;
Variveis quantitativas contnuas: quando podem assumir, teoricamente, qualquer valor de um
conjunto.
Em geral, as medies do origem a variveis contnuas, enquanto que as enumeraes ou
contagens resultam em variveis discretas.
Exemplo: Classifique as variveis em qualitativas ou quantitativas (discretas ou contnuas).
a) quantidade de alcatro em cigarros;
b) altitude de um avio;
c) nmero de assinantes de um servio de computador on-line;
d) precipitao pluviomtrica durante um ano;
e) salrio dos funcionrios de uma empresa;
f) gnero dos filhos de casais residentes em uma cidade.
Soluo: a) Varivel quantitativa contnua; b) Varivel quantitativa contnua; c) Varivel quantitativa
discreta; d) Varivel quantitativa contnua; e) Varivel quantitativa discreta; f) Varivel qualitativa.
1.7 Nveis de mensurao de uma varivel
Nvel de mensurao significa a escala em que foi medida a varivel, objeto de investigao. So
quatro os nveis de mensurao: nominal, ordinal, intervalar e de razo.
Nvel nominal
A mensurao, em seu mais baixo nvel, existe quando nmeros ou outros smbolos so utilizados
para classificar um elemento. Estes nmeros ou smbolos constituem uma escala nominal ou
classificadora. As nicas estatsticas aplicveis so: a moda e as freqncias.
Nvel ordinal
Pode ocorrer que os elementos em uma categoria de dada escala no sejam apenas diferentes dos
elementos de outras categorias da mesma escala, mas que guardem certo tipo de relao com eles. Isto
, a varivel em estudo partida em categorias ordenadas em graus convencionados havendo uma relao
entre categorias do tipo: maior do que. Pode-se calcular a mediana e todas as estatsticas de postos, alm
da moda e das freqncias.
Nvel intervalar
Quando a escala tem todas as caractersticas de uma escala ordinal, e, alm disso, se conhecem as
distncias entre dois nmeros quaisquer da escala, ento se consegue uma mensurao consideravelmente
mais forte que a ordinal. Atribui-se varivel um nmero real, uma unidade constante e comum de
mensurao. A unidade de mensurao e o ponto zero so arbitrrios. A escala intervalar a primeira
escala verdadeiramente quantitativa. Neste nvel todas as estatsticas paramtricas comuns so aplicveis.
Nvel de razo
Quando uma escala tem todas as caractersticas de uma escala de intervalos e, alm disso, tem um
verdadeiro ponto zero como origem, chamada escala de razo. Como no nvel anterior, todas as
estatsticas so aplicveis.
Exemplo: Determine o nvel de mensurao mais adequado (nominal, ordinal, intervalar ou razo).
a) classificao como: acima da mdia, mdio ou abaixo da mdia para encontros marcados com
desconhecidos;
b) contedo de nicotina (em miligramas) de cigarros;
c) nmeros de inscrio do INSS;
d) temperaturas (em graus Celsius);
e) anos em que ocorreram eleies presidenciais;
f) graus finais (A, B, C, D, F) de estudantes de estatstica;
g) cdigos de endereamento postal (CEP);
h) rendas anuais de enfermeiras;
i) carros classificados como subcompacto, compacto, intermedirio ou grande;
j) cores de uma amostra de confetes M&M.
Soluo: a) Nvel ordinal; b) Nvel de razo; c) Nvel nominal; d) Nvel intervalar; e) Nvel intervalar;
f) Nvel ordinal; g) Nvel nominal; h) Nvel razo; i) Nvel ordinal; j) Nvel nominal.
1.8 Arredondamento de dados
Arredondar um nmero significa reduzir a quantidade de algarismos significativos aps a vrgula,
deste nmero. O objetivo reduzir os erros por arredondamento, quando grande o volume de nmeros a
arredondar. A Portaria 36, de 6 de agosto de 1965 do Instituto Nacional de Pesos e Medidas, estabelece os
seguintes critrios para o arredondamento de dados.
Regras de arredondamento
Quando o primeiro algarismo aps aquele que ser arredondado for 0, 1, 2, 3, 4, conserva-se o
algarismo a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo aps aquele que ser arredondado for 6, 7, 8, 9 ou 5, este ltimo seguido
de outros algarismos, onde pelo menos, um diferente de zero, aumenta-se uma unidade no algarismo
a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo aps aquele que ser arredondado for 5, seguido de zeros, conserva-se o
algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se ele for mpar, desprezando
os seguintes.
Par
Conserva
0, 1, 2, 3 ou 4
mpar
Total
Corpo da tabela
Total
Fonte :
*
Chama de Rodap
Nota :
No rodap de uma tabela podem aparecer, se necessrio: a fonte (entidade responsvel pelas
informaes contidas na tabela), notas (observaes gerais sobre a tabela) e/ou chamadas (observaes
feitas em relao a pontos especficos da tabela sendo os smbolos usados: *, **, ...; , , ...; i, ii, ... e k).
1.11 Sries estatsticas
Uma srie estatstica um conjunto de dados ordenados segundo uma caracterstica comum, sendo
apresentadas sob forma de tabela e/ou grfico.
A classificao de uma srie feita de acordo com a variao de trs elementos que a compem: a
espcie (o fenmeno), o local (o lugar onde o fenmeno acontece) e a poca (fator temporal ou
cronolgico a que se refere o fenmeno).
O nome da srie depende do(s) elemento(s) que varia(m). Assim, pode-se ter uma srie especfica,
geogrfica, temporal, mista ou uma distribuio de freqncias.
Exemplos de sries
Srie especfica (srie simples):
Tabela - Freqncias e porcentagens dos 2.000 empregados da
Companhia MB, segundo o grau de instruo
Porcentagem
Grau de instruo
Freqncia (ni)
Fundamental
650
32,50
Mdio
1.020
51,00
Superior
330
16,50
Total
2.000
100,00
Fonte: Dados hipotticos
Simples
Sobrepostas
Justapostas
Barras
Superfcie
Simples
Sobrepostas
Justapostas
Colunas
Setores
Exemplos de grficos
Grfico de pontos
10
Varivel Y
8
6
4
2
0
0
Varivel X
Grfico de linha
10
Varivel Y
8
6
4
2
0
1
Varivel X
Grfico de colunas
10
Varivel Y
8
6
4
2
0
1
Varivel X
Varivel Y
8
6
Seqncia1
Seqncia2
4
2
0
1
Varivel X
Varivel Y
8
6
Srie2
Srie1
4
2
0
1
Varivel X
Grfico de barras
Varivel B
7
6
5
4
3
2
1
0
Varivel A
Grfico de setores
A
B
C
2 Distribuies de Freqncias
Uma distribuio de freqncia uma tabela que rene o conjunto de dados, conforme as
freqncias ou as repeties de seus valores. Esta tabela pode representar os dados em classes ou no, de
acordo com a classificao dos dados em discretos ou contnuos.
1 Representao de variveis
1.1 Discretas
Neste caso, representam-se as observaes numa tabela de freqncias, no agrupadas em classes,
designadas de sries de magnitude por ponto. til quando a srie apresenta poucos valores distintos.
1.2 Contnuas
Neste caso, utiliza-se tambm a tabela de freqncias, mas sob forma de intervalos, mesmo que
isto sacrifique algum detalhe na ordenao de valores individuais. til quando a srie apresenta muitos
valores distintos.
8
rol crescente
Xmx
Xmn
2.3 Amplitude total [Simbologia: H, At ou R]
a diferena entre o maior e o menor valor observado da varivel em estudo: H = Xmx - Xmn
2.4 Classe
cada um dos grupos ou intervalos de valores em que se subdivide a amplitude total do conjunto
de tamanho n.
Para a determinao do nmero de classes, existem diversos mtodos, dentre os quais destaca-se a
regra de Sturges, que estabelece que o nmero de classes (k) calculado por: k = 1 + 3,3 log n.
O analista dever ter em mente que a escolha do nmero de classes depender antes da natureza
dos dados e da unidade de medida em que eles forem expressos, do que de regras muitas vezes arbitrrias
e pouco flexveis. Recomenda-se considerar 4 k 12.
2.5 Limites de classe
So os dois valores extremos de cada classe.
Limite inferior (Li.): o menor valor da classe considerada;
Limite superior (Ls.): o maior valor da classe considerada.
2.6 Amplitude de classe [Simbologia: h]
a diferena entre o limite superior e o limite inferior da classe, ou seja:
h = Ls Li, quando a distribuio de freqncias j existe; ou
h = H/k, para a determinao da amplitude das classes de uma distribuio de freqncias a ser
construda.
2.7 Ponto mdio de classe [Simbologia: Xi]
a mdia aritmtica dos limites da classe. o valor representativo da classe: X i =
L ii + L si
2
Absoluta
Simples
Relativa
Absoluta
Tipos de freqncia s
Crescente
Relativa
Acumulada
Decrescent e Absoluta
Relativa
f ri =
fi
ou
f
i =1
f ri % =
fi
f
i =1
f
i =1
ri
= 1.
Valores
10
15
20
25
30
Total
Por intervalo:
Preo, em R$, de certo produto
Classes
Preo (R$)
6 8
8 10
10 12
Limites inferiores
fi
2
5
10
12 14
16 18
Total
14 16
3
25
Limites superiores
?
2.10 Grficos representativos de uma distribuio de freqncias em classes
Histograma
um grfico de colunas justapostas, cujas alturas so proporcionais s freqncias absolutas e
cujas bases correspondem ao intervalo de classe da distribuio.
10
Freqncias
7
6
5
4
3
2
1
Expected
Normal
0
0
10
12
14
16
18
20
Classes
Polgono de freqncias
um grfico de linha, cujos vrtices so proporcionais s freqncias absolutas e correspondem
aos pontos mdios das classes da distribuio.
Polgono de freqncias
11
10
9
8
Freqncias
7
6
5
4
3
2
1
0
0
10
12
14
16
18
20
Ogiva
22
20
18
16
14
12
10
8
6
4
2
0
0
10
12
14
16
18
20
Classes
11
Exemplo 1: A tabela abaixo apresenta as vendas dirias de um determinado aparelho eltrico, durante
um ms, por uma firma comercial. Construa uma distribuio de freqncia por pontos: 14 12 11
13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14.
Soluo:
N de vendas
10
11
12
13
14
15
16
17
Total
fi
1
3
4
5
7
2
1
1
24
fri
0,042
0,125
0,167
0,208
0,292
0,083
0,042
0,042
1
Fci
1
4
8
13
20
22
23
24
12
Exemplo 2: Dado o rol de 50 notas (dadas em crditos), agrupar os elementos em classe e construir os
grficos: 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60
60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77
78 80 81 84 85 85 88 89 91 94 97
Soluo: Amplitude total: H = 97 33 = 64
Nmero de classes: k = 1 + 3,3 log 50 = 1 + 3,3 (1,7) 7 classes
Amplitude de classe: h = 64/7 10
A primeira classe inicia-se por 33. Assim, a distribuio de freqncia ser:
Classes
33 43
43 53
53 63
63 73
73 83
83 93
93 103
Total
fi
7
5
9
11
10
6
2
50
fri
0,14
0,10
0,18
0,20
0,20
0,12
0,04
1
Fci
7
12
21
32
42
48
50
Histograma
Polgono de
freqncias
13
3 Medidas Descritivas
1 Introduo
A estatstica descritiva visa descrever os dados disponveis da forma mais completa possvel sem,
no entanto, se preocupar em tirar concluses sobre um conjunto maior de dados (populao). As medidas
descritivas bsicas mais importantes so as de posio e as de disperso ou variabilidade.
Classificao das medidas descritivas:
Tendencia central
Posio
Separatrizes
Medidas descritivas
Absoluta
Disperso Relativa
X + X 2 + ... + X n
=
X= 1
n
X
i =1
(X
X) = 0
X=
X
i =1
14 + 12 + 11 + 13 + 12 + 14 + 13 + 14 + 11 + 12 + 12 + 14 + 10 + 13 + 15 + 11 + 15 + 13 + 16 + 17 + 14 + 14
= 13,21
24
14
No exemplo 1: X =
~
2.2 Mediana [Simbologia: Md ou X ]
A mediana divide em duas partes o conjunto das observaes ordenadas. Colocando-se os valores
em ordem crescente ou decrescente, a mediana o elemento que ocupa o valor central.
50% Md 50%
rol crescente
Xmx
Xmn
Mediana para dados no-tabelados
Procedimento no caso de dados brutos:
n +1
;
2
3. Se "n" for par, a mediana ser a mdia aritmtica entre os dois elementos centrais que ocupam as
n n
posies e + 1 do rol.
2 2
2. Se o nmero de elementos "n" for mpar, a mediana ser o elemento central que ocupa a posio
n +1
n
(n par) ou PMd =
(n mpar);
2
2
2. Se n mpar, a mediana ser o valor de Xi correspondente primeira Fci PMd;
3. Se n par, a mediana ser o valor de Xi correspondente primeira Fci > PMd. Caso Fci = PMd, ser a
mdia entre o valor de Xi correspondente a esta Fci e o prximo valor de Xi.
h (PMd Fc i )
M d = Li +
f Md
h (PMd Fc i )
10 x (25 21)
= 63 +
= 66,64
f Md
11
n 50
=
= 25 elemento (4 classe).
2 2
]
2.3 Moda [Simbologia: Mo ou X
A moda de um grupo de observaes definida como a medida de freqncia mxima ou (so)
o(s) valor(es) que se repete(m) mais vezes. Pode ser utilizada para dados qualitativos.
Exemplo: Ache as modas dos seguintes conjuntos de dados. a) 5,40 1,10 0,42 0,73
b) 27 27 27 55 55 55 88 88 99
c) 1 2 3 6 7 8 9 10
0,48
1,10
Soluo:
a) O nmero 1,10 a moda porque o valor que ocorre mais freqentemente.
b) Os nmeros 27 e 55 so ambos modas, porque ocorrem com a mesma maior freqncia. Esse conjunto
de dados bimodal porque tem duas modas.
c) No h moda, porque nenhum valor se repete.
16
fi
n
;
4
2. O quartil ser o valor de Xi correspondente primeira Fci PQi.
Q1
= 1x
fi
n
=i. ;
4
4
2. O quartil estar localizado na classe onde, pela primeira vez, Fci PQi;
n =1
h P Fc
Qi
i
Q =L +
i
i
f
Qi
Q1
= 1x
50
= 12,5
4
Q3
= 3x
50
= 37,5
4
Aps verifica-se a classe onde se encontra cada elemento que ocupam essas posies. O Q1
encontra-se na 3 classe e o Q3 encontra-se na 5 classe. Assim:
Q = 53 +
1
Q = 73 +
PDi = i .
10
=i.
n
10
Para encontrar o valor do decil quando os dados esto agrupados em classe, a frmula ser:
Di = Li +
h (PDi Fc i )
f Di
100
=i.
n
100
Para encontrar o valor do percentil quando os dados esto agrupados em classe, a frmula ser:
Pi = L i +
h (PPi Fc i )
f Pi
4 Medidas de disperso
As medidas de disperso visam descrever os dados no sentido de informar o grau de disperso ou
afastamento dos valores observados em torno de um valor central. Elas indicam se um conjunto
homogneo (pouca ou nenhuma variabilidade) ou heterogneo (muita variabilidade).
A descrio do conjunto de dados mais completa quando se considera alm de uma medida de
tendncia central, uma medida de disperso ou variao, porque comum encontrar-se sries que, apesar
de apresentarem a mesma mdia, so compostas de maneiras diferentes, o que mostra que as medidas de
tendncia central so insuficientes para descrever adequadamente uma srie estatstica.
Algumas medidas de variao so: a amplitude de variao, o desvio mdio, a soma de quadrados,
a varincia, o desvio padro e o coeficiente de variao.
Classificao das medidas de disperso:
Amplitude
Desvio padro
Medidas de disperso
Varincia
di = 0 .
i =1
i =1
i =1
Xi X
=
di
n
Dm =
X
i =1
X .f i
n
O desvio mdio preferido em relao ao desvio padro, quando esse for indevidamente
influenciado pelos desvios extremos.
Exemplo: Determinar o desvio mdio Dm para os dados do Exemplo 1 e 2.
n
Para o exemplo 2; Dm =
X
i =1
X
i =1
X
=
X .f i
n
= 1,31
697,6
= 13,95
50
SQ = X X
i =1
) = (X X ) + (X
2
X + ...... + X X
n
i
n
i =1
= X2
i
n
i =1
2 populao
]
4.4 Varincia [Simbologia 2
s amostra
A varincia populacional (2) a soma de quadrados dividida pelo nmero de observaes N:
20
SQ
=
N
2 =
(X i X )
i =1
i =1
X2
i
n
X
i =1 i
Quando a varincia calculada a partir de uma amostra para fins de estimao, o denominador
passa a ser (n - 1), o que nos fornece uma estimativa imparcial da varincia populacional.
(X i X) 2
s2 =
i =1
i =1
2
i
( X i ) 2
i =1
n 1
n 1
O denominador (n - 1) denominado de "graus de liberdade" dessa estimativa.
Exemplo: Determinar a varincia para os dados do Exemplo 1.
(X
X)
Soluo: s 2 =
i =1
n 1
= 2,78
Propriedades da varincia
A varincia de uma constante zero;
s2(k) = 0
A varincia da soma ou diferena de uma constante k com uma varivel igual a varincia da varivel;
s2(k + X) = s2(X)
A varincia da soma de variveis independentes igual a soma das varincias das variveis;
s2(X + Y) = s2(X) + s2(Y)
A varincia do produto de uma constante por uma varivel igual ao produto do quadrado da
constante pela varincia da varivel.
s2(k.X) = k2. s 2 (X)
Varincia para dados tabelados
k
s2 =
(X
i =1
X) fi
2
n 1
ou
Xifi
k
X i2 f i i =1
n
s2 = i =1
n 1
s2 =
(X
i =1
X ) .f i
2
n 1
No exemplo 2,
(X
k
s2 =
i =1
X ) .f i
(10 13,21)2 1 + (11 13,21)2 x 3 + (12 13,21)2 x 4... + (17 13,21)2 x1 = 2,78
(38 65,6)2 x 7 + (48 65,6)2 x5 + (58 65,6)2 x9... + (98 65,6)2 x 2 = 288
n 1
24 1
50 1
21
populao
4.5 Desvio padro [Simbologia
]
s amostra
O desvio padro uma das medidas mais teis da variao de um grupo de dados. A vantagem do
desvio padro sobre a varincia, que este permite uma interpretao direta da variao do grupo, pois o
mesmo expresso na mesma unidade em que esto expressas as medidas observadas.
s2 =
288 = 16 ,97 .
s
1,67
x100 =
x100 = 12,62%
X
13,21
s
16,97
No exemplo 2, CV = x100 =
x100 = 25,87%
X
65,6
Soluo: No exemplo 1, CV =
5 Assimetria e curtose
As medidas de assimetria e curtose complementam as medidas de posio e de disperso no
sentido de proporcionar uma descrio e compreenso mais completa das distribuies de freqncias.
Estas distribuies no diferem apenas quanto ao valor mdio e variabilidade, mas tambm quanto a sua
forma (assimetria e curtose).
5.1 Assimetria
Assimetria o grau de desvio, afastamento da simetria ou grau de deformao de uma distribuio
de freqncias. Se a curva de uma distribuio tem uma "cauda" mais longa direita da ordenada mxima
do que esquerda, diz-se que a distribuio desviada para a direita ou que ela tem assimetria positiva. Se
ocorrer o inverso, diz-se que ela desviada para a esquerda ou tem assimetria negativa.
Os coeficientes de assimetria servem para medir o grau de deformao da distribuio.
22
C.A. =
X Mo
s
Intensidade da assimetria:
Coeficiente < 0,2: simetria;
0,2 < Coeficiente < 1,0: assimetria fraca;
Coeficiente > 1,0: assimetria forte.
Interpretao:
Coeficiente negativo: distribuio assimtrica negativa ( esquerda), sendo X < Md < Mo;
Coeficiente nulo: distribuio simtrica, sendo X = Md = Mo;
Coeficiente positivo: distribuio assimtrica positiva ( direita), sendo X > Md > Mo.
5.2 Curtose
o grau de achatamento (afilamento) de uma curva em relao curva normal, tomada como
padro. Uma distribuio pode ser classificada quanto curtose, como segue:
Q 3 Q1
K=
2 ( D 9 D1 )
onde:
Q1 = o primeiro quartil;
Q3 = o terceiro quartil;
D1 = o primeiro decil;
D9 = o nono decil.
Interpretao:
24
4 Probabilidade
1 Introduo
O trabalho estatstico se desenvolve a partir da observao de determinados fenmenos e emprega
dados numricos relacionados aos mesmos, para tirar concluses que permitam conhec-los e explic-los
a ponto de poder, com determinado grau de crena, obter o desenvolvimento terico do fenmeno. Para
tanto necessrio que se formule um modelo que ajude a melhor elucid-lo.
No campo da estatstica, os modelos matemticos utilizados so denominados, modelos nodeterminsticos ou probabilsticos, ou seja, que avaliam com que probabilidade os resultados podem
ocorrer.
2 Noes de experimento, espao amostral e eventos
2.1 Experimento aleatrio [Simbologia: E]
uma das realizaes do fenmeno sob observao. Se o fenmeno seguir um modelo nodeterminstico, tem-se um experimento aleatrio, com as seguintes caractersticas:
O experimento pode ser repetido;
Embora no seja possvel afirmar que resultado em particular ocorrer, possvel descrever o conjunto
de todos os resultados possveis do experimento;
medida que aumenta o nmero de repeties aparece uma certa regularidade que torna possvel a
construo de um modelo matemtico.
4 Conceitos de probabilidade
Interpretao como freqncia relativa, definio clssica e definio axiomtica.
O problema fundamental da probabilidade consiste em: atribuir um nmero a cada evento A, o
qual avaliar as chances de ocorrncia de A quando o experimento for realizado.
4.1 Conceito emprico
uma interpretao da probabilidade como freqncia relativa.
Repetindo-se um experimento E um grande nmero de vezes e calculando-se a freqncia relativa
do evento A, obtm-se um nmero "p" que pode ser tomado como a probabilidade da ocorrncia de A, que
nesse caso, poderia ser tomada como:
P(A) = p =
f (A )
n
lim
n
p
i =1
= 1;
26
1
, j que todos os resultados so igualmente provveis.
k
Disto decorre que, para qualquer evento A constitudo de r resultados simples, tem-se:
r
P(A) = r . 1/k = , sendo que:
k
n de casos favorveis a A pelos quais E pode ocorrer
P(A) =
= r/k
n total de casos pelos quais E pode ocorrer
pi =
Pela definio clssica de probabilidade devida a Laplace: seja E um experimento aleatrio que d
origem a k resultados mutuamente excludentes e igualmente possveis. Seja A um evento constitudo por r
resultados de E. A probabilidade de ocorrer o evento A definida como sendo a razo r/k.
Teoremas fundamentais:
Teorema 1: se for um evento (conjunto) vazio, ento: P() = 0;
Teorema 2: se A for um evento complementar de A, ento: P( A ) = 1 - P(A);
Teorema 3: se A e B forem eventos quaisquer, ento: P(A B) = P(A) + P(B) - P(A B);
Teorema 4: se A e B forem eventos de um espao amostral S e se A B, ento: P(A) P (B).
Exemplo: A probabilidade de uma mulher estar viva daqui a 30 anos 3/4 e de seu marido 3/5.
Calcular a probabilidade de: a) apenas o homem estar vivo; b) somente a mulher estar viva; c) pelo
menos um estar vivo; d) ambos estarem vivos.
Soluo: Adotando os eventos: M = a mulher estar viva daqui h 30 anos; H = o homem estar vivo daqui
h 30 anos. a) P( M H) = P( M ) x P(H) = 1/4 x 3/5 = 3/20; b) P(M H ) = P(M) x P( H ) = 3/4 x 2/5 = 6/20;
c) P(HM) = P(H) + P(H) P(HM) = 3/5 + 3/4 - 3/5 x 3/4 = 18/20; d) P(MH) = P(M) x P(H) = 3/4 x
3/5 = 9/20
5 Probabilidade condicionada
Seja A e B dois eventos associados a um experimento E. Denota-se por P(B/A), a probabilidade do
evento B, condicionada a ocorrncia do evento A.
27
Sempre que se calcula a P(B/A), se est, essencialmente, calculando P(B) em relao ao espao
reduzido A e utiliza-se a seguinte frmula, onde P(A) 0:
P(A B)
com P(A) 0, pois A j ocorreu.
P(B/A) =
P( A )
Pode-se escrever tambm, atravs do teorema do produto:
P(AB) = P(A/B) . P(B)
e
P(BA) = P(B/A) . P(A)
Que representa uma alternativa para o clculo da probabilidade da interseo de dois eventos.
Exemplo: Uma urna contm cinco bolas pretas, trs vermelhas e duas brancas. Foram extradas 3 bolas
sem reposio. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha?
Soluo: Sendo os eventos: P = bolas pretas, V = bolas vermelhas e B = bolas brancas;
5 4 3 5 3 4 3 5 4 60
+ + =
3 = 0,25
P(P P V) + P(P V P) + P(V P P) =
10 9 8 10 9 8 10 9 8 720
6 Independncia estatstica
Se a ocorrncia ou no do evento A, no afetar a probabilidade de ocorrncia do evento B e viceversa, diz-se que A e B so independentes.
compreensvel que os eventos A e B sejam inteiramente no relacionados. Saber que B ocorreu
no fornece qualquer informao sobre a ocorrncia de A. De fato, o clculo seguinte mostra isso:
Se A e B forem independentes, pode-se escrever:
P(A/B) = P(A)
P(B/A) = P(B)
7 Teorema de Bayes
P(B1/A) =
P(B1 A)
,
P(A)
onde: P(A) = P(A/B1) . P(B1) + P(A/B2) . P(B2) + ... + P(A/Bk) . P(Bk) = probabilidade total
P(A / B1 ).P(B1 )
P(B1/A) =
P( A )
P(A / B ).P(B )
1
A
P(Bi/A) = probabilidades posteriori.
P
P(Bi )
Bi
i =1
29
5 Variveis Aleatrias
1 Noes sobre variveis aleatrias
Ao descrever o espao amostral de um experimento, nem sempre o resultado individual ser um
nmero, embora, muitas vezes haja interesse na mensurao de alguma caracterstica e no seu registro
numrico.
Para que seja possvel a utilizao dos recursos da estatstica descritiva, necessria uma funo,
que transforme o espao amostral no-numrico em um espao amostral numrico. Sendo assim,
considerando-se E um experimento e S o espao amostral associado ao experimento, a funo X, que
associa a cada elemento s S, um nmero real, X(s) denominada varivel aleatria.
Desse modo, tem-se uma funo definida no espao amostral, chamada de varivel aleatria.
2 Variveis aleatrias discretas [Simbologia: VAD]
Seja X uma varivel aleatria. Se o nmero de valores possveis de X, Rx (contra-domnio de X)
for finito ou infinito numervel (nmeros naturais ou inteiros), denomina-se X de varivel aleatria
discreta.
As variveis aleatrias discretas surgem, em geral, de medidas de enumerao ou contagem, como
por exemplo, nmero de pontos obtidos em um teste, nmero de insetos por planta, nmero de peas boas,
nmero de pessoas que votam, nmero de erros em contas, etc.
X
x1
p(x1 )
x2
p(x2)
x3
p(x3)
...
...
xn
p(xn )
P(X)
p(x3)
p(x2)
p(x1)
x1
x2
x3
2.2 Valor esperado ou mdia de uma varivel aleatria discreta [Simbologia: E(X) ou (X)]
x
i =1
30
p(x i )
V(X) =
onde: E(X2) =
x
i =1
i =1
2
i
p( x i )
0
1/4
1
2/4 = 1/2
2
1/4
Graficamente
1
1
1
+ 1 + 2 = 1 cara
4
2
4
i =1
1
1
1
2
2
V(X) = E ( X 2 ) [E ( X )] = 0 2 + 12 + 2 2 (1) = 1,5 1 = 0,5 cara2
4
2
4
E(X) =
p(x i ) = 0
f (x )dx = 1.
Alm disso, para qualquer c < d em RX: P(c < X <d) = f ( x )dx .
c
Comentrios:
31
P(X = k) = f ( x )dx = 0 ;
k
3.2 Valor esperado ou mdia de uma varivel aleatria contnua [Simbologia: E(X) ou (X)]
Se X uma VAC, o valor esperado de X definido por:
+
E(X) =
x f ( x )dx
onde: E(X2) =
f(x)dx
1
x+K
se 0 x 3
Exemplo: Seja f(x) = 6
0 em qualquer outro caso
Pede-se: a) encontrar K; b) encontrar P(1 x 2); c) determinar E(X) e V(X);
Soluo:
3
1 32
1 3
1
1 2
1
3
a) x + K dx = x.dx + K dx = 1 .x + [K.x ]0 = 1 + 0 + K.3 = 1 K = ;
0 6
0
0
6 2
12
6
6 0
b) P(1 x 2) =
2
2
1 x 2
1
1
1 1 2
1 3
1 12 1 1
x+
= x.dx + dx = . + .x = + (2 1) =
1
0
4
6
12 6
12
6 2 1 12 1 6 2 2 12
3 1
1 x3 1 x 2
1
1
1
+
c) E(X) = x f ( x )dx = x . x + dx = x 2 + x dx =
= 1,875
0 6
12
12
6
6 3 12 2 0
0
1
1
V(X) = E ( X ) [E ( X )] = x 2 f ( x )dx - 1,8752 = x 2 x + dx - 3,516 = 4,12 3,516 = 0,604.
12
6
0
2
32
Como qualquer seqncia com k sucessos e (n-k) fracassos ter a mesma probabilidade de
ocorrncia, resta-nos saber quantas se pode formar. Para isto calcula-se C kn , que o nmero de
seqncias possveis que podem ocorrer.
Definio: A varivel aleatria discreta X tem comportamento binomial com n repeties de E e
probabilidade de sucesso p, cuja funo de probabilidade dada por:
onde:
P(X = k ) = C p q
k
n
n k
n!
k!(n k )!
k = 0, 1, 2, ..., n;
k! = 1 . 2 . 3 . ... . k.
C kn =
1 1
a) P (X = 5) = C
2 2
5
8
85
= 0,22 ;
0
1 1
b) P ( X 1) = 1 P ( X = 0) = 1 C
2 2
0
8
8 0
= 0,996
0
1 1
1 1
1 1
c) P (X 2) = P (X = 0) + P (X = 1) + P (X = 2) = C + C18 + C 82 = 0,14
2 2
2 2
2 2
0
8
e k
k!
onde:
e 4 (4)
e 4 (4 ) e 4 (4 )
e 4 (4)
=
+
+
+
0!
1!
2!
3!
0
f (x) =
1
2
2 2
= mdia populacional;
2 = varincia populacional.
onde:
( x ) 2
< x <
50%
50 %
0
-2
z=0
10
12
14
( x ) 2
22
dx
Para evitar o uso de integrais, os principais valores das probabilidades podem ser encontrados
numa tabela da curva normal, construda atravs de uma padronizao.
Esta padronizao transforma qualquer valor da varivel X numa escala Z, sendo que Z representa
nmero de desvios padres de afastamento em relao mdia.
X
sendo que os valores de Z e suas
A frmula para a padronizao de X em Z : Z =
34
Exemplo: Um teste padronizado de escolaridade tem distribuio normal com mdia 100 e desvio padro
10. Determine a probabilidade de um indivduo submetido ao teste ter nota: a) maior que 120; b) maior
que 80; c) entre 85 e 115; d) maior que 100; e) entre 110 e 120; f) menor que 75; g) igual a 90.
Soluo:
120 100
a) Z1 =
= 2 P(X > 120) = P(Z > Z1) = P(Z > 2) = 0,5 0,4772 = 0,0228.
10
80 100
= 2 P(X > 80) = P(Z > Z1) = P(Z > -2) = 0,5 + 0,4772 = 0,9772.
b) Z1 =
10
85 100
115 100
= 1,5 e Z2 =
c) Z1 =
= 1,5
10
10
P(75 < X < 115) = P(Z1 < Z < Z2) = P(-1,5 < Z < 1,5) = 0,4332 + 0,4332 = 0,8664.
100 100
d) Z1 =
= 0 P(X > 80) = P(Z > Z1) = P(Z > 0) = 0,5 + 0,0000 = 0,5000.
10
110 100
120 100
e) Z1 =
= 1 e Z2 =
=2
10
10
P(110 < X < 120) = P(Z1 < Z < Z2) = P(1 < Z < 2) = 0,4772 - 0,3413 = 0,1359.
75 100
f) Z 1 =
= 2,5 P(X < 75) = P(Z < Z1) = P(Z < -2,5) = 0,5 0,4938 = 0,0062.
10
g) No possvel calcular a rea sobre um ponto, portanto a probabilidade zero.
Exemplo: Certo produto tem peso mdio de 10g e desvio-padro 0,5g. embalado em caixas de 120
unidades que pesam em mdia 150g e desvio-padro 8g. Qual a probabilidade de que uma caixa cheia
pese mais de 1.370g?
Soluo: Peso do produto: p = 10 e p = 0,5; Peso da caixa: c = 150 e c = 8.
A mdia da caixa cheia total = 120x10 + 150 = 1350g.
A varincia da caixa cheia 2total = 120x(0,5)2 + (8)2=140,8. O desvio-padro ser total= 140,8 =11,86g.
1370 1350
Ento: Z1 =
= 1,69 P(X > 1.370) = P (Z > Z1) = P(Z > 1,69) = 0,5 0,4545 = 0,0455.
11,86
46 = 6,78.
Departamento de Estatstica - UFSM
23
= 1,095 ; c) DP(X) = 1,095 = 1,046 ;
23 2
F= 2 1
2
2
Esta distribuio usada num dos testes mais importantes em estatstica, que a Anlise de
Varincia. A curva da distribuio tem origem no zero e assimtrica.
Uso da tabela: na 1a linha encontra-se o nmero de graus de liberdade do numerador 1 e na 1a
coluna, o nmero de graus de liberdade do denominador 2. No corpo da tabela, onde ocorre o
cruzamento dos graus de liberdade, est o valor crtico que deixa sua direita, determinada rea .
2 22 (1 + 2 2)
2
A esperana e a varincia so dadas por: E(X) =
e VAR(X) =
2
2 2
1 ( 2 4)( 2 2)
Para cada valor de tem-se uma tabela.
2 10 2 (8 + 10 2) 3200
10
=
= 1,042 ;
= 1,25 ; b) VAR(X) =
2
3072
10 2
8(10 4)(10 2)
36
6 Amostragem
1 Introduo
Em pesquisas cientficas, quando se deseja conhecer caractersticas de uma populao, comum se
observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra, obter valores
aproximados ou estimativas para as caractersticas populacionais de interesse. Esse tipo de pesquisa
usualmente chamado de levantamento por amostragem.
Num levantamento por amostragem, a seleo dos elementos que sero observados, deve ser feita
sob uma metodologia adequada, de tal forma que os resultados da amostra sejam representativos de toda a
populao.
1.1 Definio de amostragem
A amostragem definida como sendo o processo de seleo de amostra(s) de uma populao,
podendo ser probabilstica ou no-probabilstica.
A amostragem probabilstica quando a seleo da amostra feita de forma aleatria, sendo que
cada elemento da populao tem uma probabilidade conhecida de participar desta amostra.
A amostragem no-probabilstica quando h uma escolha deliberada dos elementos da amostra.
Este tipo de amostragem pode prejudicar a representatividade da mesma em relao populao.
1.2 Importncia da utilizao da amostragem
Quatro razes para o uso de amostragem em levantamentos de grandes populaes:
Economia: em geral, torna-se bem mais econmico o levantamento de somente uma parte da
populao;
Tempo: numa pesquisa eleitoral, faltando trs dias para a eleio, no haveria tempo suficiente para
pesquisar toda a populao de eleitores do pas, mesmo que houvesse recursos financeiros em
abundncia;
Confiabilidade dos dados: quando se pesquisa um nmero reduzido de elementos, pode-se dar mais
ateno aos casos individuais, evitando erros nas respostas;
Operacionalidade: mais fcil realizar operaes de pequena escala. Um dos problemas tpicos nos
grandes censos o controle dos entrevistadores.
1.3 Situaes em que pode no valer pena a realizao de uma amostragem
Populao pequena: sob o enfoque de amostragens aleatrias, se a populao for pequena, para uma
amostra ser capaz de gerar resultados precisos para os parmetros da populao, necessrio que ela
seja relativamente grande (em torno de 80% da populao);
Caracterstica de fcil mensurao: talvez a populao no seja to pequena, mas a varivel que se quer
observar de to fcil mensurao, que no compensaria investir num plano de amostragem;
Necessidade de alta preciso: a cada dez anos o IBGE realiza um censo demogrfico para estudar
diversas caractersticas da populao brasileira. Dentre estas caractersticas tem-se o parmetro nmero
de habitantes residentes no pas, que fundamental para um bom planejamento. Desta forma, o
parmetro: nmero de habitantes precisa ser avaliado com grande preciso e, por isto, se pesquisa toda
a populao.
Para se construir um plano de amostragem deve-se ter bem definidos: os objetivos da pesquisa, a
populao a ser amostrada, bem como os parmetros necessrios a serem estimados para que os objetivos
da pesquisa sejam alcanados. Num plano de amostragem deve constar a definio da unidade de
amostragem, a forma de seleo dos elementos da populao e o tamanho da amostra.
1.4 Tipos de investigao
Segundo o critrio da participao do investigador:
37
Paula (4)
Paulo Czar (2)
Exemplo: Seleciona uma amostra sistemtica de tamanho 10, para os dados do exemplo anterior.
Soluo: k = N/n = 32/10 = 3,2 3, como o nico valor entre 1 e 3 2, inicia-se pelo 2 elemento.
2 (Anastcia); 5 (Bernadino); 8 (Cludio); 11 (Endevaldo); 14 (Felcio); 17 (Gabriel); 20 (Joana); 23
(Joaquina); 26 (Josefa); 29 (Mauro).
38
N = N1 + N2 + ... + Nk =
i =1
k
n = n1 + n2 + ... + nk =
i =1
n / N = ni / Ni
Quando, no problema em estudo, so identificados estratos, uma amostra obtida atravs do
processo de amostragem estratificada proporcional tende a gerar resultados mais precisos, quando
comparada com uma amostra aleatria simples.
Amostragem estratificada uniforme
A amostragem estratificada uniforme costuma ser usada em situaes em que o maior interesse
obter estimativas separadas para cada estrato, quando os estratos tm aproximadamente o mesmo tamanho
(N1 N2 ... Nk), ou ainda, quando se deseja comparar diversos estratos. Sendo assim, seleciona-se a
mesma quantidade de elementos em cada estrato, ou seja, n1 = n2 = ... = nk , sendo ni calculado utilizandose a seguinte frmula: ni = n / k
Exemplo: Como o objetivo de levantar o estilo de liderana preferido pela comunidade de uma escola,
vamos realizar um levantamento por amostragem. A populao a seguinte:
Professores: P1, P2, P3, P4, P5, P6, P7, P8, P9, P10
Servidores: S1, S2, S3, S4, S5, S6, S7, S8, S9, S10
Alunos: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10, A11, A12, A13, A14, A15, A16, A17, A18, A19, A20, A21, A22,
A23, A24, A25, A26, A27, A28, A29, A30
Suponha que a preferncia quanto ao estilo de liderana possa ser relativamente homogneo dentro de
cada categoria. Identifique quais sero os professores, os servidores e os alunos que faro parte da amostra
de tamanho 10, por meio de uma a.a.s. utilizando a 1 linha da tabela.
Soluo: 50/10 = 5, 20% da populao so de professores, 20% de servidores e 60% de alunos, portanto
retira-se 2 professores, 2 servidores e 6 alunos. Assim: P3, P4, S9, S6, A7, A20, A12, A28, A19, A9.
3 Distribuio por amostragem
Consideram-se todas as possveis amostras de tamanho n retiradas da populao. Para cada
amostra calcula-se a estatstica de interesse, obtendo-se, desta maneira, uma distribuio desses resultados,
originando uma Distribuio por Amostragem. Assim, podem-se obter as distribuies por amostragem da
mdia, da varincia, da proporo e de outras estatsticas.
39
Nn
n N 1
Se a populao for infinita, ou se a amostragem for tomada com reposio, os resultados anteriores
( X ) =
reduzem-se a: ( X ) =
n
onde: ( X ) = erro padro da distribuio amostral das mdias, indicando a disperso da distribuio,
sendo que, quanto maior a amostra, menor o erro padro da amostragem.
( X ) =
( X ) =
Sero apresentadas aqui as frmulas para o clculo do tamanho de amostras quando se deseja
estimar a mdia ou a proporo de uma populao.
Populao Finita
n=
(z ) 2 2 N
2
e o2 ( N 1) + (z ) 2 2
2
Exemplo: Que tamanho deve ter uma amostra para que possamos estimar a mdia da glicemia em pessoas
normais, com 99% de confiana, desejando que os limites do intervalo no difiram entre si de mais de 2
mg/100ml e sabendo que o desvio padro deve estar em torno de 4 mg/100ml.
2
2,58 4
10,32
Soluo: n =
=
= 26,6256 27 pessoas.
2
2
40
Exemplo: Suponha que a varivel escolhida num estudo seja o peso de certa pea e que a populao tenha
600 peas e que pelas especificaes do produto, o desvio padro de 10 Kg. Determine o tamanho de
amostra de peas admitindo um nvel de confiana de 95% e um erro amostral de 1,5 Kg.
Soluo: n =
1,96 2 10 2 600
230496
=
= 133,08 134 peas.
2
2
2
1731,91
1,5 (600 1) + 1,96 10
Quando no se conhece o desvio padro da populao, pode-se substitu-lo pelo da amostra, que
obtido atravs de uma pr-amostra (amostra piloto), de tamanho n1. Assim, tem-se:
Populao Finita
(t , ) 2 s 2 N
n=
e o2 ( N 1) + ( t , ) 2 s 2
2
(X
k
s =
2
i =1
X ) .f i
2
n 1
2
2
2
2
2
(
1 4,8 ) 1 + (3 4,8 ) 5 + (5 4,8 ) 10 + (7 4,8 ) 3 + (9 4,8 ) 1 63,5
=
=
20 1
19
s = 3,34 = 1,83
2
(1,7291) 1,83
n=
= 6,328 2 = 40,04 40 elementos.
0,5
41
= 3,3 4
Exemplo: Para estimar o preo mdio, uma amostra de 6 produtos foi retirada, sem reposio, de uma
populao aproximadamente normal, com 150 produtos e forneceu s2= R$ 10,00. Qual deve ser o tamanho
de uma amostra, para que a estimativa do preo mdio fornea um erro de R$ 2,00, no mximo, com 90%
de confiana?
Soluo: n =
(2,015) 2 10 150
6090,3375
=
= 9,57 10 produtos.
2
2
2 (150 1) + 2,015 10 596 + 40,60225
Populao Finita
) 2 p q
2
e2
(z
n=
) 2 pq N
2
e 2 ( N 1) + (z
o
) 2 p q
2
onde: p = proporo amostral (pode ser obtida atravs de uma pr-amostra de n1 elementos).
Comentrios:
Aqui tambm valem as duas consideraes a respeito da pr-amostra, vistas anteriormente;
s vezes, no se tem informao a respeito de p . Neste caso, adota-se p = q = 50%, o que levar a um
tamanho de amostra superavaliado, mas garantindo a preciso desejada, embora podendo ter como
conseqncia, aumentos no custo e no tempo de amostragem e, conseqentemente, na pesquisa;
Como a varincia aparece no numerador das frmulas, conclui-se que quanto mais heterognea for a
populao em estudo, maior dever ser o valor de n.
Exemplo: Qual deve ser o tamanho da amostra para que possamos estimar a porcentagem de pessoas
portadoras de problemas de viso em uma determinada cidade, de modo que o intervalo entre os valores
estimados no exceda 2% para um nvel de confiana de 95%, sabendo que esta porcentagem deve estar
em torno de 40%?
Soluo: n =
(z ) 2 p q
2
e o2
Exemplo: Um fiscal de Imposto de Renda pretende estimar a proporo de declaraes com devoluo de
um grupo de 500 declaraes de certa categoria profissional. Para isto, selecionou ao acaso, 50
declaraes e verificou que 20 delas solicitavam devoluo. Determine o tamanho da amostra necessrio
para estimar a proporo de declaraes com devoluo neste grupo, com nvel de confiana de 90% e
erro mximo de 5%.
1,64 2 0,4 0,6 500
Soluo: n =
= 170,5 171 declaraes.
0,05 2 (500 1) + 1,64 2 0,4 0,6
42
7 Estimao de Parmetros
1 Introduo
O objetivo da Estatstica a realizao de inferncias acerca de uma populao, baseadas nas
informaes amostrais. Como as populaes so caracterizadas por medidas numricas descritivas,
denominadas parmetros, a inferncia estatstica diz respeito realizao de inferncias sobre esses
parmetros populacionais.
Os mtodos utilizados para a realizao de inferncias a respeito dos parmetros pertencem a duas
categorias. Pode-se estimar ou prever o valor do parmetro ou pode-se tomar decises relativas ao mesmo,
atravs de um teste de hiptese.
A estimao o processo que consiste em utilizar dados amostrais para estimar os valores de
parmetros populacionais desconhecidos. Qualquer caracterstica de uma populao pode ser estimada a
partir de uma amostra aleatria. Entre as mais comuns, esto a mdia, o desvio padro e a proporo
populacional.
2 Estimativas pontuais e intervalares
As estatsticas amostrais so utilizadas como estimadores de parmetros populacionais. Assim uma
mdia amostral usada como estimativa de uma mdia populacional.
Tais estimativas chamam-se estimativas pontuais, porque originam uma nica estimativa do
parmetro.
A amostragem aleatria apresenta tendncia a gerar amostras em que as mdias amostrais no so
iguais mdia da populao, embora os valores, em geral, sejam prximos. Em virtude desta variabilidade
amostral, usual incluir uma estimativa intervalar, com certo nvel de confiana (1-) ou de significncia
, para acompanhar a estimativa pontual. Essa nova estimativa proporciona um intervalo, de possveis
valores do parmetro populacional, denominado intervalo de confiana.
3 Tipos de intervalos
3.1 Intervalo de confiana para a mdia
P ( X - eo < < X + eo ) = 1 -
Caso 1: Varincia populacional 2 conhecida
e o = (z )
2
n
Exemplo: Uma amostra de 80 motoristas de determinado estado indica que um automvel anda, em
mdia, 22.000 km por ano, com desvio padro de 3.800 km. Construa um intervalo de 98% de confiana
para a distncia anual mdia percorrida pelos carros.
3800
Soluo: P X Z .
= 98% ; P(22.000 989,91) = 98% ;
= 1 ; P 22.000 2,33
2
n
80
Interpretao: Estima-se, com uma confiana de 98%, que a mdia anual de rodagem dos carros ,
aproximadamente, um valor entre 21.010 km e 22990 km.
Caso 2: Varincia populacional 2 desconhecida
s
onde: = nmero de graus de liberdade.
n
e o = (t , )
2
n
43
Observao: quando n > 30 (amostra grande) pode-se utilizar o intervalo de confiana do caso 1.
Exemplo: Suspeita-se que um certo fiscal tende a favorecer os devedores, atribuindo multas mais leves.
Fazendo-se uma auditoria numa amostra aleatria de oito empresas, verificaram-se os seguintes valores
que deixaram de ser cobrados, em reais: 200 300 180 0 420 100 460 340
Construa um intervalo de 95% de confiana para o parmetro .
Soluo:
X=
2040
= 255 ;
8
701600
s=
(2040)2
8
P X t , v .
= 1 ;
2
n
= 160,98 ;
160,98
Interpretao: Estima-se que a mdia de valores no cobrados est entre R$ 120,40 e R$ 389,60, com
confiana de 95%.
3.2 Intervalo de confiana para a proporo populacional p
P ( p - eo < p < p + eo ) = 1 -
e0 = Z
2
p q
n
p.q
0,27.0,73
= 1 ;
= 95% ; P(0,27 0,039) = 95% ;
P 0,27 1,96
b) P p Z
2
n
500
P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 -
Caso 1: Varincias populacionais 12 e 22 conhecidas
eo = z
12
+
n1
22
n2
44
Exemplo: O estresse afeta a capacidade de memorizao de testemunhas oculares? Este problema foi
estudado em um experimento que testou a memria visual de uma testemunha uma semana aps o
interrogatrio normal de um suspeito que cooperava, e um interrogatrio exaustivo de um suspeito que
no cooperava. Os nmeros de detalhes lembrados uma semana aps o incidente esto resumidos aqui. No
nvel de 0,10 de significncia, encontre um intervalo de confiana para a diferena de mdias.
Sem estresse: n 1 = 40 ; X1 = 53,3 ; s1 = 11,6 .
Com estresse: n 2 = 40 ; X 2 = 45,3 ; s 2 = 13,2 .
Soluo: eo = z
12
+
n1
11,6 2
13,2 2
22
= 4,57
+
1
,
645
=
40
40
n2
P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 - ;
1
+
n1
eo = ( t , ) S'
2
(n 1 1) s12 + (n 2 1) s 22
n1 + n 2 2
= n1 + n2 2 graus de liberdade.
onde: S' =
1
n2
(n 1 1)s12 + (n 2 1)s 22
=
n1 + n 2 2
= n1 + n2 2 = 42 graus de liberdade.
1
1
1
1
e o = (t v, )S'
+
+
= 2,021 1,637
= 0,998
2
n1 n 2
22 22
P [ ( X1 - X 2 ) - eo < 1 - 2 < ( X1 - X 2 ) + eo ] = 1 - ;
(V1 + V2 ) 2
2 graus de liberdade.
V12
V22
+
n1 + 1 n 2 + 1
P [ ( p1 - p 2 ) - eo < p1 - p2 < ( p1 - p 2 ) + eo ] = 1 -
eo = z
p1q1
+
n1
p 2 q 2
n2
45
Exemplo: Com o nvel de 0,05 de significncia, determine o intervalo de confiana para a diferena
entre a percentagem de homens e mulheres multados por excesso de velocidade.
Multados por excesso de velocidade
Sim
No
Homens (1)
26
224
Mulheres (2)
27
473
27 473
= 0,0511
Soluo: p1q 1 = 26 224 = 0,93184 ; p 2 q 2 =
500 500
250 250
eo = 1,96 0,931 + 0,0511 = 0,0869 ;
P (- 0,0369 < p1 - p2 < 0,1369) = 0,95.
250
500
Aceitar Ho
Deciso correta (1-)
Erro tipo II ()
46
Rejeitar Ho
Erro tipo I ()
Deciso correta (1-)
Departamento de Estatstica - UFSM
Nos testes de hipteses controlam-se os erros do tipo I e II, enquanto que, nos testes de
significncia, controla-se apenas o erro do tipo I.
3.3 Nvel de significncia do teste [Simbologia: ]
a probabilidade de se cometer o erro tipo I, ou seja, rejeitar uma hiptese verdadeira.
3.4 Graus de liberdade [Simbologia: ]
Os graus de liberdade referem-se liberdade de variao num conjunto de escores. Por exemplo,
numa amostra de 6 escores, 5 deles tm liberdade de variar, enquanto 1 fixo. Assim, g. l. = = n 1.
3.5 Teste bilateral
Consideram-se ambas as extremidades da distribuio por amostragem como regio de rejeio
(RR). As hipteses sero formuladas da seguinte maneira:
H 0 : = 0
H 1 : 0
RA Ho
1
RR Ho
RR Ho
1-
0
-2
Valor tabelado
10
12
14
Valor tabelado
Neste tipo de teste, aceita-se Ho se o valor calculado, com base na amostra, estiver entre os dois
valores tabelados, mostrados na figura acima.
3.6 Teste unilateral
Considera-se apenas uma extremidade da distribuio por amostragem como regio de rejeio
(RR). Ver curvas abaixo.
Neste tipo de teste, aceita-se Ho se o valor calculado com base na amostra for maior que o valor
tabelado, no caso de teste unilateral esquerda e menor que o valor tabelado no caso de teste unilateral
direita.
Unilateral direita: H0: = 0
Unilateral esquerda: H0: = 0
H 1 : < 0
H 1: > 0
3
RA Ho
RA Ho
1-
RR Ho
1-
RR Ho
0
-2
Valor tabelado
10
12
14
-2
10
12
Valor tabelado
14
X o
Exemplo: O desvio-padro de uma populao conhecido e igual a 22 unidades. Se uma amostra de cem
elementos, retirada dessa populao, forneceu X = 115,8 , podemos afirmar que a mdia dessa populao
inferior a 120 unidades, ao nvel de 5% de significncia? Qual a significncia do resultado obtido, face
s hipteses testadas?
Soluo: Vamos testar as hipteses: H 0 : = 120 e H1 : < 120 , pois, se rejeitarmos H0, poderemos
inferir, no nvel de confiana desejado, que a mdia da populao inferior a 120.
Temos: z = 115,8 120 = 4,2 = 1,91
2,2
22 100
Como zc < -z5%, = -1,645, rejeita-se H0 ao nvel de = 5%. Portanto, pode-se inferir, nesse nvel de
significncia, que a mdia da populao inferior a 120 unidades.
4.2 Teste para uma mdia com varincia populacional 2 desconhecida
Hipteses:
H0: = 0
Estatstica calculada:
tc =
X o
s
H1: 0, ou
H1: > 0, ou
H1: < 0.
n
Observao: se n > 30, pode-se utilizar o teste (4.1), usando s = .
48
Hipteses:
H 0: p = p 0
H1: p p0, ou
H1: p > p0, ou
H 1: p < p 0.
Estatstica calculada:
p p o
zc =
poqo
n
onde: Ztab = valor da tabela da distribuio normal padronizada o qual depende de ;
po = valor suposto para o parmetro na hiptese H0.
Exemplo: Desconfiando-se de que uma moeda fosse viciada, realizou-se um experimento que consistiu em
lanar essa moeda cem vezes, observando-se 59 caras e 41 coroas. Ao nvel de 5% de significncia, podese afirmar a existncia de vcio na moeda?
Soluo: as hipteses a testar referem-se proporo p de vezes (ou probabilidade) em que ocorre, por
exemplo, cara. Se ela no possui vcio, tal proporo deve ser igual a 0,5. Logo, as hipteses so:
H 0 : p = 0,5 ; H1 : p 0,5
f
59
= 0,59
A freqncia relativa de caras observadas foi: p = =
n 100
Pela expresso, temos:
0,59 0,50
zc =
= 1,80
0,50(1 0,50) 100
Como z/2 = z2,5% = 1,960, aceita-se a hiptese H0. Logo, ao nvel de = 5%, no ficou comprovada a
existncia de vcio na moeda.
Hipteses:
H0: 1 - 2 = = 0
49
Estatstica calculada:
(X X2 )
zc = 1
12 22
+
n1 n 2
onde:
2
2
Exemplo: O estresse afeta a capacidade de memorizao de testemunhas oculares? Este problema foi
estudado em um experimento que testou a memria visual de uma testemunha uma semana aps o
interrogatrio normal de um suspeito que cooperava e um interrogatrio exaustivo de um suspeito que no
cooperava. Os nmeros de detalhes lembrados uma semana aps o incidente esto resumidos aqui. No
nvel de 0,01 de significncia, teste a afirmao do artigo de que o cansao concorre para diminuir a
quantidade de detalhes lembrados.
Sem Estresse: n1 = 40 ; X1 = 53,3 ; s1 = 11,6 .
Com estresse: n 2 = 40 ; X 2 = 45,3 ; s 2 = 13,2 .
Soluo: H 0 : 1 = 2 e H1 : 1 > 2
Estatstica calculada: z c =
X1 X 2
2
+ 2
n1
n2
; zc =
53,3 45,3
11,6 2 13,2 2
+
40
40
8
= 2,88
2,778
tc =
( X1 X 2 )
1
1
S'
+
n1 n 2
onde:
(n 1 1) s12 + (n 2 1) s 22
n1 + n 2 2
= valor da tabela t de Student, com e = n 1 + n 2 2 graus de liberdade.
S' =
t tab
= 1 2 = 0
(n 1 1)s 1 + (n 2 1)s 2
(22 1).2,20 2 + (22 1).0,72 2
=
= 1,64
n1 + n 2 2
22 + 22 2
S' =
Estatstica calculada: t c =
X1 X 2
1
1
S.
+
n1 n 2
v,
=t
42 ,
4,20 1,71
1
1
1,64
+
22 22
0 , 05
2
= 5,04
= 2,021
( X1 X 2 )
onde:
s12 s 22
+
n1 n 2
V1 =
s12
s2
e V2 = 2 ;
n1
n2
(V1 + V2 ) 2
2 graus de liberdade.
V12
V22
+
n1 + 1 n 2 + 1
Exemplo: Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o mesmo peso mdio
por pacote. Entretanto, como uma das mquinas nova e a outra velha, razovel supor-se que
trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponveis
constam de 6 pacotes produzidos pela mquina nova e 9 produzidos pela mquina velha. Os pesos, em
quilogramas, desses pacotes esto abaixo. Qual a concluso, ao nvel de 5% de significncia?
Mquina nova
0,82 0,82 0,79 0,81 0,81 0,80
Mquina velha
0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78
Soluo: H 0 : 1 = 2 e H1 : 1 2 .
Calculando as mdias e as varincias, temos:
s 2 0,00020
X 1 = 0,81 ; s12 = 0,00020 (n1 = 6); V1 = 1 =
= 3,33 10 5
n1
6
s 22 0,00135
=
= 15 10 5
X 2 = 0,78 ; s = 0,00135 (n2 = 9); V2 =
n2
9
2
2
tc =
( X1 X 2 )
s12 s 22
+
n1 n 2
0,81 0,78
(3,33 + 15) 10 5
= 2,216
(V1 + V2 ) 2
(3,33 + 15) 2 10 10
2=
2 = 11,95 12
V12
V22
3,33 2 + 15 2 10 10
+
7
10
n1 + 1 n 2 + 1
O valor crtico ser t12;2,5% = 2,179. Logo, rejeitamos H0 e conclumos, com = 5%, que as mdias dos
pesos diferem entre as mquinas.
O grau de liberdade =
51
4.5 Teste para a diferena entre duas amostras dependentes - Teste t pareado
Neste teste, as observaes aparecem aos pares, sendo que a mdia e o desvio padro so
calculados utilizando-se, como dados, os valores das diferenas (di) entre cada par.
H0: d = 0
Hipteses:
H1: d 0, ou
H1: d > 0, ou
H1: d < 0.
Estatstica calculada:
tc =
Xd d
sd
n
onde:
Exemplo: Dez cobaias adultas foram submetidas ao tratamento com certa rao durante uma semana.
Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais.
Os pesos, em gramas, no princpio e no fim da semana, designados respectivamente por xi e yi, so
dados a seguir. Ao nvel de 1% de significncia, podemos concluir que o uso da rao contribuiu para o
aumento do peso mdio dos animais?
Cobaia 1
2
3
4
5
6
7
8
9
10
xi
635 704 662 560 603 745 698 575 633 669
yi
640 712 681 558 610 740 707 585 635 682
Soluo: H 0 : d = 0 e H1 : d > 0
n
Xd =
d
i =1
n
di
n
i =1
(66) 2
2
d
882
i
n
10 = 49,60 ; s = 7,043 ; t = X d d = 6,6 0 = 2,96 ;
s d2 = i =1
=
d
c
sd
7,043
n 1
9
10
n
Como t9;1% = 2,821, rejeitamos H0 ao nvel de 1% de significncia. Logo, conclumos, a esse nvel, que o
uso da rao contribui para o aumento do peso mdio dos animais.
zc =
(p1 p 2 )
p1 q1 p 2 q 2
+
n2
n1
52
Exemplo: Com o nvel de 0,05 de significncia, teste a afirmao de que a percentagem de mulheres
multadas por excesso de velocidade inferior a dos homens. Pode-se concluir que os homens, de modo
geral, correm mais do que as mulheres?
Multados por excesso de velocidade
Sim
No
Homens (1)
26
224
Mulheres (2)
27
473
Soluo: H 0 : p1 = p 2 ( p1 p 2 = 0 ) e H1 : p1 > p 2 ( p1 p 2 > 0 )
p1 p 2
0,104 0,054
Estatstica calculada: z c =
=
= 2,22
0,104 0,896 0,054 0,946
p1 .q 1 p 2 .q 2
+
+
250
500
n1
n2
2
2
Hipteses: H o : 1 = 2
12 22
H 1 : 12 > 22
2 < 2
2
1
s12 146
=
= 0,73
s 22 200
=
=
=
= 0,374
1
2
1
2
Concluso: aceita-se H0, pois Fcalc < F e Fcalc > F1 .
2
53
Total
No de repeties
Mdia
1
y11
y12
y13
.
.
.
y1r
T1
r
y1
Tratamento ou amostra
2
3
...
y21
y31
y22
y32
y23
y33
.
.
.
.
.
.
y2r
y3r
...
T2
T3
...
r
r
...
y2
y3
...
Total
k
yk1
yk2
yk3
.
.
.
ykr
Tk
r
T = y
n = kr
yk
54
( y )
b) C = fator de correo: C =
n
c) SQT = soma de quadrados total: SQT = y 2 C ,
T
d) SQTr = soma de quadrados dos tratamentos: SQTr =
SQTr
k 1
SQR
k (r 1)
QMTr
QMR
Note que os quadrados mdios (varincias) so obtidos, dividindo as somas de quadrados pelos
respectivos graus de liberdade. Todas as quantidades calculadas so apresentadas numa tabela de anlise
de varincia, conforme a Tabela 2, a seguir:
Tabela 2 - Anlise de varincia de um experimento inteiramente ao acaso
Causas de variao
GL
SQ
QM
F
Tratamentos
k-1
SQTr
QMTr
Fc
Resduo
k(r - 1)
SQR
QMR
kr - 1
SQT
Total
Para testar as hipteses utilizada a estatstica F de Snedecor, com (k1) graus de liberdade no
numerador e k . (r1) graus de liberdade no denominador. Se Fc > F ,1 2 , rejeita-se Ho e conclui-se que
existe pelo menos uma mdia que difere de outra.
Para verificar quais as mdias que diferem entre si necessrio utilizar um teste de comparao de
mdias.
5 Comparao de mdias
Quando a anlise de varincia de um experimento mostra que as mdias dos tratamentos no so
estatisticamente iguais, apenas lgico perguntar: Quais so as mdias que diferem entre si? Para
responder a esta pergunta o pesquisador precisa de um mtodo que fornea a diferena mnima
55
significante entre duas mdias. Toda vez que o valor absoluto da diferena entre duas mdias igual ou
maior que a diferena mnima significante, as mdias so consideradas estatisticamente diferentes, ao
nvel de significncia estabelecido.
Foram propostas diversas maneiras de calcular a diferena mnima significante. Cada proposta ,
na realidade, um teste que, em geral, leva o nome de seu autor. No existe um procedimento para a
comparao de mdias que seja definitivamente melhor que todos os outros.
5.1.2
De acordo com o teste, duas mdias so estatisticamente diferentes toda vez que o valor absoluto
da diferena entre elas for igual ou maior do que a d.m.s., ou seja:
Se X i X m d. m. s. , ento X i X m ;
H : = B = C
Soluo: 0 A
H1 : pelo menos uma mdia difere
Mquina
A
B
3,2
4,9
4,1
4,5
3,5
4,5
3,0
4,0
3,1
4,2
Total
16,9
22,1
N de Repeties
5
5
Mdia
3,38
4,42
( y )
C=
C
3,0
2,9
3,7
3,5
4,2
17,3
5
3,46
56,3
15
(56,3)2
= 211,321 ;
15
SQT = y 2 C = 3,2 2 + 4,12 + 3,5 2 + ... + 4,2 2 211,321 = 217,05 211,321 = 5,729 ;
n
Total
56
C =
Quadro de ANOVA
Causas de variao
Tratamentos
Resduo
Total
GL
2
12
14
SQ
3,341
2,388
5,729
QM
1,6705
0,199
F
8,394
1 Teste de adequao
Este teste utilizado para colocar prova hipteses sobre a ocorrncia de discrepncias entre as
freqncias observadas na amostra e as freqncias esperadas. As hipteses a serem testadas so:
Ho: as freqncias observadas no diferem das esperadas;
H1: as freqncias observadas diferem das esperadas.
A estatstica do teste :
(fo i fe i )2 onde: foi = freqncia observada da clula i;
2
c =
fei = freqncia esperada da clula i, calculada com base na hiptese Ho;
fe i
i =1
k
2. Fixar o nvel de significncia , bem como o valor do qui-quadrado, com graus de liberdade,
observando a regra para o seu clculo;
3. Determinar a regio de rejeio (RR) e de aceitao (RA) de H0. Se H0 verdadeira, espera-se que as
freqncias observadas (foi) sejam bem prximas das freqncias esperadas (fei); portanto o valor de
2 ser pequeno. Logo, valores pequenos de 2 nos levaro aceitao de H0. A regio de rejeio de
H0 dever, ento, estar concentrada direita de certo valor crtico tabelado;
4. Avaliar as freqncias esperadas com base na hiptese H0. Caso existam categorias que no satisfaam
a condio fei 5, estas devero ser somadas s classes adjacentes, originando-se novas categorias;
5. Deciso: se 2c 2tab conclui-se que as freqncias observadas diferem das esperadas e rejeita-se H0,
ao nvel de significncia correspondente. Caso contrrio, aceita-se H0.
6. Concluso.
Exemplo: Deseja-se testar, ao nvel de 5% de significncia se o nmero de acidentes numa rodovia se
distribui igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados:
Dia da semana
Dom
Seg
Ter
Qua
Qui
Sex
Sb
N acidentes
33
26
21
22
17
20
36
Soluo:
1. H0 : as freqncias so iguais em todos os dias da semana.
H1: as freqncias so diferentes.
2. = 5%. Procurar na tabela qui-quadrado ( = k1 = 71 = 6 graus de liberdade) 2tab =12,6
3. Determinao de RA e RR.
4. Clculo do valor da varivel
foi
33
26
31
22
17
20
36
25
25
25
25
25
25
25
fei
Observe: fei = 1/7 x 175 = 25 (a mesma para todos os dias da semana)
(33 25) 2 (26 25) 2 (21 25) 2 (22 25) 2 (17 25) 2 (20 25) 2 (36 25) 2
+
+
+
+
+
+
= 12,0
25
25
25
25
25
25
25
5. Concluso: como c2 < 12,6, no se pode rejeitar H0, logo as freqncias de acidentes no so diferentes
para os dias da semana.
c =
c2 =
(Fo
i =1 j=1
Fe ij )
ij
Fe ij
3 Coeficiente de contingncia
No caso de haver dependncia entre as variveis, pode-se calcular uma medida que nos informa o
grau de relacionamento entre as mesmas, atravs do coeficiente de contingncia.
C=
c2
c2 + n
A
70
50
10
20
150
Bairros
B
44
30
6
20
100
Total
C
86
45
34
85
250
200
125
50
125
500
Soluo:
1. H0: A preferncia pelo sabor independe do bairro e H1: A preferncia pelo sabor depende do bairro
2. = 5%. 2 com = (4 1) (3 1) = 6gl
3. A tabela das freqncias esperadas dada por:
59
Sabor da pasta
(1)
(2)
(3)
(4)
Limo
Chocolate
Hortel
Outros
Bairros
A(1)
B(2)
C(3)
60
37,5
15
37,5
40
25
10
25
100
62,5
25
62,5
3. Concluso: como c2 > 12,6, rejeita-se H0, concluindo-se, com uma significncia de 5%, que existe
associao entre sabor da pasta de dentes e o bairro.
Como se rejeitou H0, calcula-se o coeficiente de contingncia que ir dar uma idia do grau de
37,88
c2
= 0,265
= C=
2
37,88 + 500
c + n
Observa-se que o grau de associao entre as variveis no muito forte.
Cov(X, Y)
V(X ) V (Y )
XY = 1
0 < XY < 1
XY = 0
-1 < XY < 0
XY = -1
Diagramas de disperso
Correlao Positiva
24
20
20
16
16
12
12
Y2
Y1
0
0
10
12
Correlao Negativa
20
20
20
16
16
16
12
12
12
Y5
24
0
2
10
10
12
24
Y4
Y3
Correlao Nula
24
12
0
0
10
12
10
12
~
xy populaao
1.1 Estimativa do coeficiente de correlao [Simbologia:
]
rxy amostra
A estimativa do coeficiente de correlao linear obtida atravs do coeficiente de correlao de
Pearson, e calculada a partir de uma amostra de pares(Xi, Yi), definido por:
rxy =
XY
X Y
n
( Y ) 2
( X ) 2
2
2
X
Y
n
n
S xy
S xx S yy
Estatstica calculada:
rxy n 2
tc =
1 rxy2
onde: t tab = valor da tabela de t de Student, com e = n - 2 graus de liberdade.
Conclui-se, com (1-)% de confiana, que no h correlao linear se uma das trs situaes a
seguir, for identificada:
( t tab
Exemplo: Uma empresa, estudando como varia a procura de certo produto em funo de preo de
venda, obteve as informaes contidas na tabela. Com esses dados pretende-se: a) definir o diagrama de
disperso; b) encontrar o coeficiente de correlao e test-lo ( = 0,05).
250
275
X : 1500; X
: 456250;
275
213
300
152
Y : 750; Y
325
85
: 151948;
350
25
XY : 209300; n: 5
a)
b) rxy =
XY
X Y
( X) 2
2
X
1500 750
5
n
=
2
2
750 2
( Y)
1500
2
456250 5 151948 5
n
209300
62
= 0,99989
tc =
rxy n 2
1 rxy2
0,99989 5 2
1 0,99989 2
= 116,76
Sendo = 5% e 3 graus de liberdade ( t tab = 3,182). Conclui-se que h correlao linear significativa.
Y = Y/X = + X ;
20
Dn
VARIVEL Y
16
*
Valor Observado
12
*
Valor Observado
8
D1
4
D2
*
0
1
10
VARIVEL X
n
S=
D
i =1
2
i
S=
(Y Y) 2 =
i =1
(Y a bX)
i =1
Esta soma ser mnima quando suas derivadas parciais em relao a a e b forem nulas. Assim:
n
n
S
S
= 2 (Y a bX ) = 0
= 2 (Y a bX) = 0 e
b
a
i =1
i =1
(Y a bX) = 0
(XY aX bX2 ) = 0
i =1
n
i =1
i =1
i =1
i =1
i =1
i =1
XY a X b x 2 = 0
Y na b x = 0
i =1
XY i =1
b=
X Y
i =1
n
X
n
2 i =1
X
n
i =1
(X X )(Y _ Y )
i =1
(X X )
a=
Y
i =1
X
i =1
i =1
Reescrevendo-se:
2
n
X
n
2
Sxx = X i=1 =
n
i =1
(X X )2
i =1
64
n
Y
n
n
i =1
2
(Y Y )2
Syy = Y
=
i =1
n
i =1
n
X Y
i =1
i =1
Sxy = XY
i =1
(X X)(Y Y)
covarincia entre X e Y
i =1
Sxy
b=
=
Sxx
X Y
i =1
X Y
i =1
i =1
Xi
n
2
X i i =1
n
i =1
= a + bX.
E a estimativa da reta de regresso : Y
Exemplo: Para o exemplo anterior: a) encontre a equao de regresso linear; b) qual a procura do
produto se o preo for R$ 260,00.
Soluo:
= a + bX, sendo a = Y bX e b = Sxy .
a) Y
Sxx
Sxy 15700
= 903,6 2,512X.
=
= 2,512 e a = Y bX = 150 b.300 = 903,6. Assim: Y
b=
Sxx
6250
= 903,6 2,512(260) = 250,48 unidades.
b) Y
Hipteses:
Estatstica calculada:
b S xx
tc =
S
onde:
S=
S yy b S xy
n2
S yy b S xy
b S xx
e tc =
, S=
R =
2
S 2xy
S xx S yy
=b
S xy
S yy
= (rxy)2
Referncias Bibliogrficas
BARBETTA, P. A. Estatstica Aplicada s Cincias Sociais. UFSC, Florianpolis, 1994.
BUSSAB, W. O. & MORETTIN, P. A. Estatstica Bsica, 3a edio. Atual, So Paulo, 1986.
COSTA NETO, P. L. O. Estatstica, 2a edio. Edgard Blcher, So Paulo, 2002.
FONSECA, J. S. & MARTINS, G. A. Curso de Estatstica, 6a edio. Atlas, So Paulo, 1996.
HOEL, P. G. Estatstica Matemtica, 4a edio. Guanabara Coogan, Rio de Janeiro,1971.
LOPES, P. A. Probabilidades e Estatstica. Reichmann & Affonso, Rio de Janeiro, 1999.
MEYER, P. L., Probabilidade Aplicaes Estatstica, 2a edio. Livros Tcnicos e Cientficos, Rio de
Janeiro, 1983.
SIEGEL, S. Estatstica No-paramtrica. McGraw-Hill do Brasil, 1975.
TOLEDO, G. L. & OVALLE, I. I. Estatstica Bsica, 2 edio. Atlas, So Paulo, 1985.
TRIOLA, M. F. Introduo Estatstica 7a edio. Livros Tcnicos e Cientficos, Rio de Janeiro, 1999.
66