Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
n
i=1
y
i
n
(3.1)
onde: y = Mdia aritmtica da amostra
n = Nmero de unidades amostrais
14
y
i
= Valor da isima unidade amostral
Considerando os dados da tabela 1 y =
1497,03
10
= 149, 703m
3
.
ymed<-sum(tab$vtcc)/length(tab$vtcc); ymed;
# ou
ymed<-mean(tab$vtcc); ymed;
2. Mediana
o valor localizado na posio 50% de um vetor de dados ordenado. Para
vetores com nmero par de registros a mediana a mdia dos dois valores centrais.
Considerando os dados da tabela 1 temos: mediana =
148,80+150,60
2
= 149, 70m
3
ymedian<-median(tab$vtcc); ymedian;
3. Moda
o valor ou valores mais frequentes em um vetor de dados. Considerando a
srie {3, 4, 3, 5, 6, 3, 5, 6, 3} a moda 3.
yt<-table(c(3,4,3,5,6,3,5,6,3));
ymoda<-as.numeric(names(yt)[which.max(yt)]); ymoda;
3.5.2 Medidas de disperso e preciso
1. Varincia
A varincia denida como sendo o desvio quadrtico mdio da mdia, ou
seja, uma medida de disperso que indica o quo longe em geral os valores de uma
varivel se encontram em relao sua prpria mdia.
S
2
y
=
n
i=1
(y
i
y)
2
n 1
=
n
i=1
y
2
i
(
n
i=1
y
i)
2
n
n 1
(3.2)
Considerando os dados da tabela 1: S
2
y
= 112, 2875m
6
var_y<-var(tab$vtcc); var_y;
15
2. Desvio padro
O desvio padro a raiz quadrada da varincia. Semelhante varincia esta
estatstica expressa a variao dos valores observados em relao sua prpria m-
dia. Por sua vez, a sua unidade a mesma da varivel de interesse, fato que facilita
o seu entendimento.
S
y
=
_
S
2
y
(3.3)
Considerando os dados da tabela 1: S
y
= 10, 60m
3
sd_y<-sqrt(var(tab$vtcc)); sd_y;
# ou
sd_y<-sd(tab$vtcc); sd_y;
Se uma varivel aleatria (Y) tem distribuio normal com mdia e varincia
S
2
(Y N(, S
2
)), pode-se dizer que:
(a) 68% dos valores encontram-se a uma distncia da mdia inferior a um desvio
padro.
(b) 95% dos valores encontram-se a uma distncia da mdia inferior a duas vezes
o desvio padro.
(c) 99,7% dos valores encontram-se a uma distncia da mdia inferior a trs vezes
o desvio padro.
3. Coeciente de variao
O coeciente de variao a razo entre desvio padro das unidades amostrais
pela sua mdia, usualmente expressa em porcentagem. Por ser uma medida de
disperso relativa permite comparar distribuies com diferentes magnitudes.
CV % =
S
y
y
100 (3.4)
Considerando os dados da tabela 1: CV % =
10,60
149,703
100 = 7, 08
cv_y<-sd(tab$vtcc)/mean(tab$vtcc)*100; cv_y;
4. Erro padro da mdia
16
Esta medida de preciso corresponde ao desvio padro das mdias. Conside-
rando N o nmero de unidades cabveis em uma populao e n o nmero de unidades
amostrais da amostra, so muitas as combinaes de amostras possveis de serem
realizadas. Para cada combinao uma mdia pode ser gerada e, por conseguinte, o
desvio padro destas mdias.
O nmero de combinaes possveis pode ser calculado pela frmula:
C
N
n
=
N!
n! (N n)!
(3.5)
ncomb<-choose(N,n);
Utilizando-se das frmulas 3.2 e 3.3 podemos clcular o erro padro da mdia
utilizando a expresso 3.6.
y
=
m
i=1
y
2
i
(
m
i=1
y
i
)
2
m
m
(3.6)
onde:
y
i
= Mdia amostral da isima amostragem
m = Nmero total de mdias amostrais
y
=Erro padro da mdia
Por sua vez, esta forma de clculo no factvel, visto que, apenas uma amos-
tragem realizada. Para resolver este problema, com apenas uma amostragem
possvel calcular o erro padro da mdia utilizando um dos mais importantes teo-
remas estatsticos, o teorema central do limite (TCL). Segue uma demonstrao da
TCL utilizando o R.
par(mfrow=c(1,2));
x<-runif(10000, 180, 250); #Distribuio uniforme
#x<-rexp(10000,0.02); #Distribuio exponencial
hist(x, main=,ylab=frequncia,cex.main=0.9);
y<-matrix(,5000,1);
for (i in 1:5000){
y[i]<-mean(sample(x,100));
}
hist(y,main=,ylab=frequncia,cex.main=0.9);
17
Pela TCL, uma populao nita com mdia e varincia
2
y
, o erro padro da
mdia pode ser estimado como
y
n
. Sabendo-se que
y
pode ser estimado utilizando
S
y
, o erro padro da mdia pode ser estimado pela expresso 3.7
S
y
=
S
y
n
(3.7)
Considerando os dados da tabela 1: S
y
=
10,60
10
= 3, 35
sdm_y<- sd(tab$vtcc)/sqrt(length(tab$vtcc)); sdm_y;
3.5.3 Fator de correo para populaes nitas
Populao nita aquela onde se pode enumerar todas as unidades amostrais cabveis.
Considerando N o nmero de unidades cabveis em uma populao e n o tamanho da
amostra, a frao amostral dada por n/N e, por conseguinte, a frao no amostral
dada por (1 n/N). Esta expresso quando associada ao clculo do erro padro da
mdia denominada fator de correo para populaes nitas. Assim, para as populaes
nitas, o erro padro da mdia calculado utilizando-se a expresso 3.8. Este fator tende
a 0 quando n tende a N (censo) e tende a 1 quando a relao n/N tende a 0 (populao
innita).
S
y
=
_
S
2
y
n
_
1
n
N
_
(3.8)
Considerando os dados da tabela 1 e um N igual a 100:
S
y
=
_
112,2875
10
_
1
10
100
_
= 3, 18
n<-length(tab$vtcc);
sdm_y<-sqrt(var(tab$vtcc)/n*(1-n/100)); sdm_y;
3.5.4 Intervalo de conana
Conforme o teorema central do limite, as estimativas das mdias amostrais seguem
uma distribuio normal com mdia e erro padro da mdia
y
n
. Este fato demonstra que
as variveis de interesse observadas nas unidades amostrais no precisam ter distribuio
normal, ou melhor, podem apresentar qualquer distribuio.
18
Sabendo pelo TCL que as mdias amostrais possuem distribuio normal e conhecendo
as propriedades das medidas de disperso (Seo 3.5.2) desta distribuio, o intervalo de
conana do erro padro da mdia pode ser calculado utilizando o valor t da distribuio
t de Student ou Z da distribuio normal quando para n > 120. Para n tendendo para
o innito o valor t da distribuio t de Student tende para o valor de Z da distribuio
normal.
O valor t da distribuio t de Student obtido por:
t =
y
S
y
(3.9)
t S
y
= y (3.10)
= y t S
y
(3.11)
[y t S
y
y + t S
y
] (3.12)
O intervalo de conana apresenta as seguintes caractersticas:
1. Quanto menor o n, maior sera o valor de t da distribuio t de Student e, por
conseguinte, maior o intervalo de conana para um mesmo nvel de signicncia.
2. Quanto maior for o grau de heterogeneidade do povoamento, maior ser o erro
padro da mdia e, por conseguinte, maior o intervalo de conana para um mesmo
nvel de signicncia.
3. Quanto maior o nvel de signicncia menor ser o intervalo de conana. Normal-
mente os nveis de signicncia adotados so iguais a 5% ou 1%. Para exemplicar,
caso o nvel de signicncia seja de 5% a mdia estimada tem uma probabilidade
de 5% de estar fora do intervalo estimado. Em outras palavras, signica que existe
uma probabilidade de no mximo 5% de que os dados tenham nos iludido em funo
do acaso.
Considerando os dados da tabela 1:
t
0,05ns
(n1)gl
= 2, 26
IC = 149, 703 2, 26 3, 18
IC = 149, 703 7, 19
19
A expresso t S
y
conhecida como o erro do inventrio na unidade da varivel de
interesse. Outra forma de apresentao do erro em porcentagem, conforme a expresso
3.13.
erro_perc =
t S
y
y
100 (3.13)
Considerando os dados da tabela 1:
erro_unid = 7, 19m
3
erro_perc =
7,19
149,703
100 = 4, 80%
ns<-0.05; #nvel de significncia
erro_unid<-abs(qt(ns/2,n-1)*sdm_y);erro_unid;
erro_perc<-erro_unid/mean(tab$vtcc)*100;erro_perc;