Sei sulla pagina 1di 19

INVENTRIO FLORESTAL

EXEMPLOS COM O SOFTWARE R


CLUDIO ROBERTO THIERSCH
MONICA FABIANA BENTO MOREIRA THIERSCH
CLAUDIO ROBERTO THIERSCH
MONICA FABIANA BENTO MOREIRA THIERSCH
INVENTRIO FLORESTAL
EXEMPLOS COM O SOFTWARE R
UNIVERSIDADE FEDERAL DE SO CARLOS - UFSCar
SOROCABA - SP
2010
A chave para compreender a aleatoriedade e toda a
matemtica no ser capaz de intuir imediatamente
a resposta para qualquer problema, e sim possuir as
ferramentas para encontrar a soluo (MLODINOW,
2009)
Sumrio
Lista de Tabelas
Lista de Figuras
1 Introduo 7
2 Software R 8
3 Denies bsicas 10
3.1 Populao e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Exatido e preciso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Planos amostrais probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5 Estatsticas utilizadas na teoria de amostragem . . . . . . . . . . . . . . . 13
3.5.1 Medidas de posio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.2 Medidas de disperso e preciso . . . . . . . . . . . . . . . . . . . . 14
3.5.3 Fator de correo para populaes nitas . . . . . . . . . . . . . . . 17
3.5.4 Intervalo de conana . . . . . . . . . . . . . . . . . . . . . . . . . 17
Lista de Tabelas
1 Volumes por unidade amostral expresso em m
3
/ha . . . . . . . . . . . . . . 13
Lista de Figuras
1 Exatido vs preciso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Critrios para classicao das amostras probabilsticas . . . . . . . . . . . 12
7
1 Introduo
Todo e qualquer estudo em diferentes povoamentos, quer seja para ns de produo
ou de conservao, parte do conhecimento da populao presente e do entendimento do
padro de variao desta populao ao longo do tempo. Por este motivo, o uso de tcnicas
de amostragem fato corrente no meio orestal. Dado a sua importncia, fundamental
o uso de tcnicas que produzam resultados conveis e livres de vises.
No meio orestal a cincia que trata do uso destas tcnicas de amostragem chamada
de Inventrio Florestal. No caso das orestas de produo o principal interesse
conhecer o estoque presente disponvel para consumo e ter informaes para previso dos
estoques futuros de forma a garantir o plano de suprimento das unidades consumidoras.
No caso das orestas destinadas para conservao o conhecimento do estgio atual de
um dado povoamento e da dinmica do mesmo de fundamental importncia para as
estratgias de conservao e, ou, restaurao.
Por sua vez, as tcnicas de amostragem, no so conceitos triviais e precisam ser
estabelecidos para o uso cientco dos processos amostrais(BOLFARINE; BUSSAB, 2005).
Considerando a no trivialidade dos conceitos associados necessidade de aplicao de
diferentes expresses matemticas bases de dados, normalmente grandes, esta publicao
tem por objetivo apresentar diferentes planos amostrais e, tambm, o uso do software
estatstico R para a anlise e processamento dos dados.
8
2 Software R
R um software livre para computao estatstica e grcos. Software livre se refere
liberdade dos usurios executarem, copiarem, distriburem, estudarem, modicarem e
aperfeioarem o software.
O ambiente R inclui:
1. Funes para anlise de dados com uma poderosa ferramenta grca.
2. Funes e operadores para clculos matriciais.
3. Vasta coleo de funes para aplicaes das mais variadas tcnicas estatsticas.
4. Uma linguagem de programao simples e eciente que permite a incluso de con-
dies, loops, novas funes denidas pelo usurio, diferentes formas de entrada e
sada de dados, conexes com outros sistemas, etc.
O R um sistema muito bem planejado de forma a permitir o seu desenvolvimento
contnuo. A incluso de novas funcionalidades no resulta na acumulao de ferramentas
muito especcas e rgidas, como frequentemente ocorrem em outros softwares de anlise
de dados. O sistema pode ser estendido facilmente atravs de pacotes. H cerca de
oito pacotes fornecidos com a distribuio R e muitos outros esto disponveis atravs da
famlia CRAN de sites da Internet que cobrem uma vasta gama de estatsticas modernas.
Todo o sistema, bem como, uma documentao completa pode ser encontrado no www.r-
project.org.
Este captulo no tem o objetivo de ensinar os passo iniciais de uso do R, o qual, j
possui um vasta opo de literaturas com este m facilmente encontradas na Internet e
em livros j publicados. O objetivo principal apresentar e dar crditos a esta poderosa
ferramenta.
Os comandos sero apresentados de forma concomitante aos exemplos demonstrados
nos prximos captulos. Para facilitar a explicao da implementao de algumas tcni-
9
cas, o usurio dever importar o pacote cmrinvor disponvel junto desta publicao.
Vrios exemplos que sero apresentados nos prximo captulos devero ser precedidos pelo
comando library(cmrinvor). Neste pacote esto inseridas algumas funes e bases de
dados de exemplo. Para o uso de outras bases de dados recomendo o usurio estudar a
funo read do R. Para acessar a ajuda de uso desta funo basta utilizar o comando
?read no R.
10
3 Denies bsicas
Para o bom entendimento da teoria da amostragem importante conhecer algumas
denies referentes aos parmetros populacionais e aos estimadores e estimativas destes
parmetros.
Funo paramtrica populacional uma caracterstica numrica qualquer da popu-
lao, ou seja, uma expresso numrica que condensa funcionalmente os valores de uma
determinada varivel de interesse. comum utilizar-se para esta denio a expresso
parmetro populacional de interesse, parmetro populacional, parmetro estatstico e me-
dida estatstica.
O estimador a expresso matemtica que ser utilizada para estimar o parmetro
populacional e o valor numrico do estimador a estimativa.
3.1 Populao e amostra
A populao o conjunto de todas as unidades elementares de interesse, sendo que,
duas so as pressuposies de uma populao (LOETSCH; HALLER, 1964).
1. Os indivduos de uma populao so da mesma natureza. Por exemplo, orestas
plantadas ou nativas.
2. Os indivduos de uma populao diferem entre si, de acordo com uma feio, atributo
tpico ou caracterstica. Por exemplo, as variveis dendromtricas.
Elemento populacional ou unidade elementar qualquer elemento da populao.
A amostra uma sequncia de n unidades da populao que examinada, permitindo
que se faam inferncias sobre a populao em estudo (SHIVER; BORDERS,1996).
11
3.2 Exatido e preciso
Os conceitos de exatido e preciso podem ser facilmente entendidos analisando a
gura 1.
Figura 1: Exatido vs preciso
Em linhas gerais, a preciso o grau de variao de resultados de uma medio e, a
exatido ou acurcia, a conformidade com o valor real.
3.3 Erros
Por motivos diversos todo levantamento amostral est sujeito a erros. Estes erros
podem ser classicados como erros amostrais e no amostrais.
Um erro amostral aquele devido apenas ao processo amostral e, os no amostrais,
so os erros que ocorrem mesmo que toda a populao fosse amostrada. Estes erros
no amostrais podem ser de ocorrncia casual ou consistentes causando tendncias, tam-
bm chamadas de vis, vcios ou bias. Em linhas gerais, vis qualquer processo em
qualquer estgio de inferncia que tende a produzir resultados ou concluses que diferem
sistematicamente da verdade (SCOLFORO; MELLO, 2006).
12
3.4 Planos amostrais probabilsticos
Muitas so as formas de selecionar e distribuir as amostras e, assim, gerar diferentes
plano amostrais. Kish (1965) props alguns critrios resumidos na gura 2.
Figura 2: Critrios para classicao das amostras probabilsticas
Para exemplicar, entre as 32 combinaes possveis apresentadas na gura 2, se
selecionarmos as primeiras opes, teremos o plano amostral denominado amostragem
casual simples. Dentre outras possibilidades iremos trabalhar em captulos posteriores a
amostragem casual estraticada, amostragem sistemtica, amostragem em conglomerado,
amostragem em mltiplos estgios, etc.
13
3.5 Estatsticas utilizadas na teoria de amostragem
Para demonstrao das estatticas foram consideradas os resultados dos volumes
(m
3
/ha) de diferentes unidades amostrais apresentados na tabela 1.
Tabela 1: Volumes por unidade amostral expresso em m
3
/ha
.
parcela vtcc
55 148, 80
56 167, 51
57 141, 89
322 150, 60
323 152, 49
324 143, 88
325 161, 29
326 155, 28
327 145, 80
328 129, 49
Os dados da tabela 1 podem ser observados no R utilizando dos comandos abaixo. O
sinal de atribuio <- onde se l recebe pode ser substitudo pelo sinal de igual =.
tab<-invflor1[1:10, c(parcela,vtcc)]; tab;
Uma descrio detalhada de toda a tabela invor1 pode ser obtida no R utilizando
o comando ?invor1.
Para apresentar as parcelas na ordem crescente de suas identicaes e, ou, para
retornar os nomes das colunas utilize os comandos abaixo.
tab<-tab[order(tab$parcela),];tab; #Comando de ordenao.
names(tab); #Comando para retornar os nomes das colunas.
3.5.1 Medidas de posio
1. Mdia aritmtica
y =

n
i=1
y
i
n
(3.1)
onde: y = Mdia aritmtica da amostra
n = Nmero de unidades amostrais
14
y
i
= Valor da isima unidade amostral
Considerando os dados da tabela 1 y =
1497,03
10
= 149, 703m
3
.
ymed<-sum(tab$vtcc)/length(tab$vtcc); ymed;
# ou
ymed<-mean(tab$vtcc); ymed;
2. Mediana
o valor localizado na posio 50% de um vetor de dados ordenado. Para
vetores com nmero par de registros a mediana a mdia dos dois valores centrais.
Considerando os dados da tabela 1 temos: mediana =
148,80+150,60
2
= 149, 70m
3
ymedian<-median(tab$vtcc); ymedian;
3. Moda
o valor ou valores mais frequentes em um vetor de dados. Considerando a
srie {3, 4, 3, 5, 6, 3, 5, 6, 3} a moda 3.
yt<-table(c(3,4,3,5,6,3,5,6,3));
ymoda<-as.numeric(names(yt)[which.max(yt)]); ymoda;
3.5.2 Medidas de disperso e preciso
1. Varincia
A varincia denida como sendo o desvio quadrtico mdio da mdia, ou
seja, uma medida de disperso que indica o quo longe em geral os valores de uma
varivel se encontram em relao sua prpria mdia.
S
2
y
=
n

i=1
(y
i
y)
2
n 1
=

n
i=1
y
2
i

(

n
i=1
y
i)
2
n
n 1
(3.2)
Considerando os dados da tabela 1: S
2
y
= 112, 2875m
6
var_y<-var(tab$vtcc); var_y;
15
2. Desvio padro
O desvio padro a raiz quadrada da varincia. Semelhante varincia esta
estatstica expressa a variao dos valores observados em relao sua prpria m-
dia. Por sua vez, a sua unidade a mesma da varivel de interesse, fato que facilita
o seu entendimento.
S
y
=
_
S
2
y
(3.3)
Considerando os dados da tabela 1: S
y
= 10, 60m
3
sd_y<-sqrt(var(tab$vtcc)); sd_y;
# ou
sd_y<-sd(tab$vtcc); sd_y;
Se uma varivel aleatria (Y) tem distribuio normal com mdia e varincia
S
2
(Y N(, S
2
)), pode-se dizer que:
(a) 68% dos valores encontram-se a uma distncia da mdia inferior a um desvio
padro.
(b) 95% dos valores encontram-se a uma distncia da mdia inferior a duas vezes
o desvio padro.
(c) 99,7% dos valores encontram-se a uma distncia da mdia inferior a trs vezes
o desvio padro.
3. Coeciente de variao
O coeciente de variao a razo entre desvio padro das unidades amostrais
pela sua mdia, usualmente expressa em porcentagem. Por ser uma medida de
disperso relativa permite comparar distribuies com diferentes magnitudes.
CV % =
S
y
y
100 (3.4)
Considerando os dados da tabela 1: CV % =
10,60
149,703
100 = 7, 08
cv_y<-sd(tab$vtcc)/mean(tab$vtcc)*100; cv_y;
4. Erro padro da mdia
16
Esta medida de preciso corresponde ao desvio padro das mdias. Conside-
rando N o nmero de unidades cabveis em uma populao e n o nmero de unidades
amostrais da amostra, so muitas as combinaes de amostras possveis de serem
realizadas. Para cada combinao uma mdia pode ser gerada e, por conseguinte, o
desvio padro destas mdias.
O nmero de combinaes possveis pode ser calculado pela frmula:
C
N
n
=
N!
n! (N n)!
(3.5)
ncomb<-choose(N,n);
Utilizando-se das frmulas 3.2 e 3.3 podemos clcular o erro padro da mdia
utilizando a expresso 3.6.

y
=

m
i=1
y
2
i

(

m
i=1
y
i
)
2
m
m
(3.6)
onde:
y
i
= Mdia amostral da isima amostragem
m = Nmero total de mdias amostrais

y
=Erro padro da mdia
Por sua vez, esta forma de clculo no factvel, visto que, apenas uma amos-
tragem realizada. Para resolver este problema, com apenas uma amostragem
possvel calcular o erro padro da mdia utilizando um dos mais importantes teo-
remas estatsticos, o teorema central do limite (TCL). Segue uma demonstrao da
TCL utilizando o R.
par(mfrow=c(1,2));
x<-runif(10000, 180, 250); #Distribuio uniforme
#x<-rexp(10000,0.02); #Distribuio exponencial
hist(x, main=,ylab=frequncia,cex.main=0.9);
y<-matrix(,5000,1);
for (i in 1:5000){
y[i]<-mean(sample(x,100));
}
hist(y,main=,ylab=frequncia,cex.main=0.9);
17
Pela TCL, uma populao nita com mdia e varincia
2
y
, o erro padro da
mdia pode ser estimado como

y

n
. Sabendo-se que
y
pode ser estimado utilizando
S
y
, o erro padro da mdia pode ser estimado pela expresso 3.7
S
y
=
S
y

n
(3.7)
Considerando os dados da tabela 1: S
y
=
10,60

10
= 3, 35
sdm_y<- sd(tab$vtcc)/sqrt(length(tab$vtcc)); sdm_y;
3.5.3 Fator de correo para populaes nitas
Populao nita aquela onde se pode enumerar todas as unidades amostrais cabveis.
Considerando N o nmero de unidades cabveis em uma populao e n o tamanho da
amostra, a frao amostral dada por n/N e, por conseguinte, a frao no amostral
dada por (1 n/N). Esta expresso quando associada ao clculo do erro padro da
mdia denominada fator de correo para populaes nitas. Assim, para as populaes
nitas, o erro padro da mdia calculado utilizando-se a expresso 3.8. Este fator tende
a 0 quando n tende a N (censo) e tende a 1 quando a relao n/N tende a 0 (populao
innita).
S
y
=
_
S
2
y
n
_
1
n
N
_
(3.8)
Considerando os dados da tabela 1 e um N igual a 100:
S
y
=
_
112,2875
10
_
1
10
100
_
= 3, 18
n<-length(tab$vtcc);
sdm_y<-sqrt(var(tab$vtcc)/n*(1-n/100)); sdm_y;
3.5.4 Intervalo de conana
Conforme o teorema central do limite, as estimativas das mdias amostrais seguem
uma distribuio normal com mdia e erro padro da mdia

y

n
. Este fato demonstra que
as variveis de interesse observadas nas unidades amostrais no precisam ter distribuio
normal, ou melhor, podem apresentar qualquer distribuio.
18
Sabendo pelo TCL que as mdias amostrais possuem distribuio normal e conhecendo
as propriedades das medidas de disperso (Seo 3.5.2) desta distribuio, o intervalo de
conana do erro padro da mdia pode ser calculado utilizando o valor t da distribuio
t de Student ou Z da distribuio normal quando para n > 120. Para n tendendo para
o innito o valor t da distribuio t de Student tende para o valor de Z da distribuio
normal.
O valor t da distribuio t de Student obtido por:
t =
y
S
y
(3.9)
t S
y
= y (3.10)
= y t S
y
(3.11)
[y t S
y
y + t S
y
] (3.12)
O intervalo de conana apresenta as seguintes caractersticas:
1. Quanto menor o n, maior sera o valor de t da distribuio t de Student e, por
conseguinte, maior o intervalo de conana para um mesmo nvel de signicncia.
2. Quanto maior for o grau de heterogeneidade do povoamento, maior ser o erro
padro da mdia e, por conseguinte, maior o intervalo de conana para um mesmo
nvel de signicncia.
3. Quanto maior o nvel de signicncia menor ser o intervalo de conana. Normal-
mente os nveis de signicncia adotados so iguais a 5% ou 1%. Para exemplicar,
caso o nvel de signicncia seja de 5% a mdia estimada tem uma probabilidade
de 5% de estar fora do intervalo estimado. Em outras palavras, signica que existe
uma probabilidade de no mximo 5% de que os dados tenham nos iludido em funo
do acaso.
Considerando os dados da tabela 1:
t
0,05ns
(n1)gl
= 2, 26
IC = 149, 703 2, 26 3, 18
IC = 149, 703 7, 19
19
A expresso t S
y
conhecida como o erro do inventrio na unidade da varivel de
interesse. Outra forma de apresentao do erro em porcentagem, conforme a expresso
3.13.
erro_perc =
t S
y
y
100 (3.13)
Considerando os dados da tabela 1:
erro_unid = 7, 19m
3
erro_perc =
7,19
149,703
100 = 4, 80%
ns<-0.05; #nvel de significncia
erro_unid<-abs(qt(ns/2,n-1)*sdm_y);erro_unid;
erro_perc<-erro_unid/mean(tab$vtcc)*100;erro_perc;

Potrebbero piacerti anche