Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
PROGRAMA
AMOSTRA ALEATÓRIA
TÉCNICAS DE AMOSTRAGEM: ALEATÓRIA, SISTEMÁTICA E
ESTRATIFICADA
ERRO AMOSTRAL E NÍVEL DE CONFIANÇA
CÁLCULO DE TAMANHO AMOSTRAL
1
V. INFERÊNCIA ESTATÍSTICA (3 aulas)
REGRESSÃO SIMPLES
REGRESSÃO MÚLTIPLA
ANÁLISE DE CORRELAÇÃO
SISTEMA DE AVALIAÇÃO
2 listas de exercícios
2
ESTATÍSTICA
3
Alguns exemplos de aplicação de técnicas estatísticas: Pesquisa
Eleitoral, Pesquisa de Mercado, Controle de Qualidade, Índices
Econômicos, além do desenvolvimento de medicamentos, formas de
tratamento, sementes mais eficientes, etc, ou seja, tudo que é “comprovado
cientificamente” deve passar por procedimentos estatísticos.
4
I. CÁLCULO DE PROBABILIDADES: CONCEITOS BÁSICOS E
DEFINIÇÕES
A = { 1, 2, 3, 4} 2A
C = { x / -1 x 1 } 2C
5
Estas operações podem ser graficamente representadas pelo diagrama de
Venn através da definição da região sombreada:
EXPERIMENTO ALEATÓRIO ( )
6
ESPAÇO AMOSTRAL (S)
Ex:
S1 = { 1, 2, 3, 4, 5, 6}
S3 = {T / T 0 }
S4 = { t / t 0 }
S5 = { 1, 2, 3, ... }
EVENTOS
7
DEFINIÇÃO DE PROBABILIDADES E PROPRIEDADES
(1) 0 P(A) 1
(2) P(S) = 1
(3) Se A e B forem eventos mutuamente exclusivos,
P(A B) = P(A) + P(B)
(4) Se A1, A2, ..., An, ... forem, dois a dois, eventos mutuamente exclusivos,
então,
P(U i 1
Ai ) P ( A1 ) P ( A2 ) P ( An )
P( A B ) P( A) P( B ) P ( A B) (demonstração)
8
Como forma de organização do raciocínio de cálculo devemos seguir
alguns passos:
P( A B ) P( A) P( B ) P ( A B)
Obs:
P( A B)
a) P( A / B ) é a probabilidade de ocorrência do evento A dado
P( B)
que o evento B ocorreu
9
VARIÁVEIS ALEATÓRIAS: DISCRETAS E CONTÍNUAS
10
EXERCÍCIOS COMPLEMENTARES
Então,
n
P ( X k ) p k q n k , k = 0, 1, 2, ..., n.
k
n=3
p = 0,2
A = “ocorrência de peça defeituosa”
3 3
P ( X 0) p 0 q 3 0,512 P ( X 1) p 1 q 2 0,384
0 1
3 3
P ( X 2) p 2 q 1 0,096 P ( X 3) p 3 q 0 0,008
2 3
EXERCÍCIOS:
13
1) De um lote que contém 25 peças, das quais 5 são defeituosas, são
escolhidas 4 ao acaso. Seja X o número de defeituosas encontradas.
Estabeleça a distribuição de probabilidade de X, quando:
2) Suponha que a máquina 1 produza (por dia) o dobro das peças que
são produzidas pela máquina 2. No entanto, 4% das peças fabricadas
pela máquina 1 tendem a ser defeituosas, enquanto que somente
cerca de 2% de defeituosas produz a máquina 2. Admita que a
produção diária das duas máquinas seja misturada. Um amostra
aleatória de 10 peças é extraída da produção total. Qual será a
probabilidade de que essa amostra contenha duas peças defeituosas?
14
Na distribuição binomial, a v.a . X é o número de “sucessos” que
ocorrem em n tentativas independentes do experimento. Podemos
considerar agora uma variável aleatória X igual ao número de “sucessos”
que ocorrem num intervalo contínuo.
Por exemplo:
número de chamadas X que uma telefonista recebe num intervalo de uma
hora;
o número de falhas em 1 m2 de tecidos;
o número de vezes que um computador “trava” em um intervalo de 8
horas.
e . x
p( x ) Pr(X x )
x!
, para x = 0, 1, 2, ... ,
EXERCÍCIO:
15
1) O número de navios petroleiros que chegam a determinada refinaria,
a cada dia, tem distribuição de Poisson, com parâmetro = 2. As
atuais instalações do porto podem atender a três petroleiros por dia.
Se mais de 3 navios aportarem por dia, os excedentes deverão seguir
para outro porto.
16
DIST. CONTÍNUAS DE PROBABILIDADE:
EXPONENCIAL E NORMAL
e x se x 0
f(x)
0 se x 0
17
Exemplo:
O tempo de vida X (em horas) das lâmpadas elétricas fabricadas
por certa companhia é uma variável aleatória, tendo uma f.d.p. dada por
ke0,002x se x 0
f(x)
0 se x 0
x 2
1
f x e 2 2
2
Notação: X ~ N(; 2)
18
2
x 1 x
1 .
2
F(x )
2 e dx
A função F(x), dada acima, pode ser colocada numa forma mais
simples, considerando-se a transformação
x
z
,
Z ~ N(0; 1).
z2
1 2
g(z) = e , z .
2
Exemplo:
Uma indústria fabrica peças mecânicas cujas medidas dos
diâmetros externos são normalmente distribuídas com média 40,0 mm e
desvio padrão de 2,0 mm. Calcular a percentagem de peças defeituosas
fabricadas, sabendo-se que o setor de controle de qualidade dessa indústria
classifica como defeituosas aquelas peças cujos diâmetros externos:
(a) são inferiores a 37,0 mm.
(b) são superiores a 44,0 mm.
(c) se desviam mais de 2,0 mm da média.
(d) Calcular os limites 40 c mm, tais que, a % de refugos (peças
defeituosas) não seja superior a 12,6%.
(e) Nas condições do item (d), qual seria o novo desvio padrão, se a % de
refugos não fosse superior a 1,1%?
BONDADE DO AJUSTE:
19
TESTE KOLMOGOROV-SMIRNOV E TESTE DE LILLIEFORS
TESTE KOLMOGOROV-SMIRNOV
D máx F0 X S n X
20
Exemplo: Verifique se os dados abaixo podem ser ajustados por uma
distribuição de Poisson com média igual a 1,2.
Xi fi
0 15
1 25
2 10
3 5
4 4
5 1
Depois
F0 X i Sn X i F0 X i - S n X i
0,3012 0,250 0,0512
0,6626 0,666 0,0041
0,8794 0,833 0,0461
0,9661 0,917 0,0494
0,9921 0,983 0,0088
0,9983 1,000 0,0017
Classes fi xi F xi S xi F xi - S xi
2700-3000 13 2850 0.333 0.111 0.222
3000-3300 18 3150 0.397 0.265 0.132
3300-3600 24 3450 0.464 0.470 0.006
3600-3900 32 3750 0.536 0.743 0.207
3900-4200 17 4050 0.603 0.906 0.303
4200-4500 11 4350 0.667 1.00 0.333
117
21
Podemos admitir que a produção média segue uma distribuição normal
com média 3.600 e 2 3.000.000 ?
TESTE DE LILLIEFORS
22
III – NOÇÕES DE AMOSTRAGEM
AMOSTRA ALEATÓRIA
AMOSTRAGEM PROBABILÍSTICA
24
N
que suporemos em geral, existem
possíveis amostras, todas
n
igualmente prováveis.
AMOSTRAGEM SISTEMÁTICA
AMOSTRAGEM ESTRATIFICADA
26
ERRO AMOSTRAL E NÍVEL DE CONFIANÇA
1) ERRO AMOSTRAL
2) NÍVEL DE CONFIANÇA
27
CÁLCULO DE TAMANHO AMOSTRAL
Z 2 pq
n0
2
onde:
q é o complemento de p, ou seja, q = 1 – p;
n0
n
1 0
n
N
28
Antes de abordarmos as técnicas de análise exploratória de dados
é importante que conceituemos o que chamamos de medidas descritivas.
Existem duas categorias de medidas descritivas:
Medidas de posição ou tendência central: servem para dar uma idéia
acerca dos valores médios da variável em estudo.
Medidas de dispersão: servem para dar uma idéia acerca da maior ou
menor concentração dos valores da variável em estudo.
Média Aritmética ( X )
k k
xi . fi xi . fi
i 1 i 1
X k
n
.
fi
i=1
Da própria definição segue que a média aritmética de uma
distribuição de freqüências:
é da natureza da variável considerada;
29
sempre existe, e quando calculada admite um único valor;
não pode ser calculada quando os dados estiverem agrupados em classes
e a primeira ou última classe tiverem extremos indefinidos;
sofre muito a influência de valores aberrantes.
~
Mediana (Md ou X )
30
Nota: Além da mediana que, por definição, divide um conjunto ordenado
de valores em duas partes iguais, existem outras medidas que dividem o
conjunto de valores em 4, 10 e 100 partes iguais. Conquanto estas medidas
não sejam de tendências central, elas podem ser consideradas medidas de
posição, uma vez que fornecem pontos à esquerda ou à direita, dos quais
são encontradas frações da freqüência total. Estas medidas são os quartis,
os decis e os percentis.
Os três quartis são definidos como os valores que dividem o
conjunto ordenado de valores em 4 partes iguais; 25% dos valores são
menores do que o primeiro quartil, que é denotado por Q1; 50% dos valores
caem abaixo do segundo quartil, Q2 (mediana), e 75% dos valores são
menores que o terceiro quartil, Q3.
Os decis são valores que dividem o conjunto ordenado de valores
em 10 partes iguais, isto é, 10% das observações caem abaixo do primeiro
decil, denotado por D1, etc.
Os percentis são valores que dividem o conjunto ordenado de
valores em 100 partes iguais, isto é, 1% das observações caem abaixo do
primeiro percentil, denotado por C1, etc.
Moda (Mo ou X
)
Nota: É interessante notar que a moda pode ser usada como uma medida de
tendência central também no caso de a variável considerada ser de natureza
qualitativa. De fato, quando se diz que as doenças cardíacas constituíram a
causa principal de mortalidade em certo ano, isto quer dizer que na
distribuição dos óbitos, segundo a causa mortis, às doenças cardíacas
correspondeu um maior número de óbitos, isto é, a rubrica “doenças
cardíacas” é a moda da distribuição.
Medidas de Dispersão
Amplitude de Variação ( R )
Variância (S2)
32
xi X
2
2
S = Var (X )
n -1
S
CV
X
,
500
CV
3500
= 0,1429 = 14,29%
refletindo uma variabilidade relativa muito maior que para os adultos, onde
o coeficiente de variação de Pearson vale
33
500
CV
60000
= 0,0083 = 0,83%.
34
Cidade População Cidade População
Nova Iorque 778 Washington 76
Chicago 355 St. Louis 75
Los Angeles 248 Milwaukee 74
Filadélfia 200 San Francisco 74
Detroit 167 Boston 70
Baltimore 94 Dallas 68
Houston 94 New Orleans 63
Cleveland 88
3 3
Q1 dF (1) e Q3 dF (2)
2 2
onde dF = Q3 – Q1
35
esta definição serve perfeitamente para a identificação de valores que
requerem uma atenção especial.
36