Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
COMPARAC
AO
1 Universidade
248
Introduc
ao
249
Refer
encial te
orico
O semivariograma
A semivari
ancia e uma medida do nvel de dependencia entre duas amostras
separadas pelo vetor distancia h, com locais amostrais (xi ) e (xi + h), de uma
vari
avel regionalizada Z. Esta medida e representada por (h) e e denida pela
seguinte expressao:
(h) =
250
1
1
E[Z(x + h) Z(x)]2 = {V ar[Z(x + h) Z(x)]}.
2
2
(1)
Figura 1 - Semivariograma.
O semivariograma apresenta os seguintes parametros com as suas respectivas
denic
oes (YAMAMOTO; LANDIM, 2013):
alcance (a): e a distancia h, segundo a qual (h) atinge o patamar, tambem
pode ser chamado de amplitude (range). Em distancias menores que a as
amostras apresentam-se correlacionadas espacialmente. A partir deste valor
o graco estabiliza, ou seja, torna-se aproximadamente constante.
causado pela variancia
efeito pepita (C0 ): e uma descontinuidade na origem. E
aleatoria. O valor da semivariancia no ponto h = 0 e nula, visto que a
vari
ancia de um valor amostrado com ele mesmo e zero. Contudo, a curva
do semivariograma proximo da origem costuma sofrer uma descontinuidade.
Isso acontece devido a variacoes que podem ocorrer a distancias menores do
que a menor distancia amostrada, assim como tambem pode ser proveniente
de erros na amostragem, erros na analise laboratorial, entre outros fatores;
contribuic
ao (C1 ): e a diferenca entre o patamar (C) e o efeito pepita (C0 ),
sendo a vari
ancia espacial;
patamar (C): C0 +C1 e o valor da semivariancia correspondente `a distancia a.
Deste ponto em diante, considera-se que nao existe mais dependencia espacial
entre as amostras porque a variancia da diferenca entre pares de amostras
(V ar[Z(x + h) Z(x)]) torna-se invariante com a distancia.
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
251
Estimadores de semivari
ancia
Estimador cl
assico de Matheron
252
(2)
em que
(h) e o valor da estimativa da semivari
ancia;
Z(xi ) e o valor da vari
avel Z no ponto xi ;
Z(xi + h) e o valor da variavel Z no ponto xi + h;
N (h) e o n
umero de pares separados por uma determinada distancia h.
Este estimador, como aponta Cressie (1993) e Li e Lake (1994), e nao viciado,
mas e inuenciado pela presenca de outliers. O fato de as medias amostrais nao
serem robustas faz com que o estimador de Matheron tambem nao seja robusto.
Uma das propriedades atraentes do estimador de Matheron e a simplicidade dos
c
alculos utilizados na estimacao.
Vamos considerar o conjunto {U1 , U2 , . . . , UN (h) }, tal que Ui = (Z(xi + h)
Z(xi ))2 . O primeiro momento populacional e dado por
1 = E[U 1 ] = E[(Z(xi + h) Z(xi ))2 ] = 2(h),
pois, por denic
ao,
2(h) = V ar[Z(xi + h) Z(xi )] ,
e
V ar[Z(xi + h) Z(xi )] = E[(Z(xi + h) Z(xi ))2 ] (E[Z(xi + h) Z(xi )])2 ,
ou seja,
V ar[Z(xi + h) Z(xi )] = E[(Z(xi + h) Z(xi ))2 ] (E[Z(xi + h)] E[Z(xi )])2 .
Como assume-se a estacionariedade da media, entao, E[Z(xi + h)] = E[Z(xi )].
Assim,
2(h) = V ar[Z(xi + h) Z(xi )] = E[(Z(xi + h) Z(xi ))2 ],
portanto,
2(h) = E[(Z(xi + h) Z(xi ))2 ].
O primeiro momento amostral e dado por
M1 =
1
n
n
i=1
Ui1 =
1
N (h)
N (h)
i=1
253
2.2.2
Z(xi +h)Z(xi )
2(h)
N (0, 1).
21 .
Cressie e Hawkins (1980) vericaram que a raiz quarta de (Z(xi + h) Z(xi ))2
tem distribuic
ao aproximadamente gaussiana, com media
1
2
CH (h) =
1
N (h)
N (h)
i=1
(
)
1
0, 494
|(Z(xi + h) Z(xi ))| 2 ) / 0, 457 +
N (h)
(3)
em que
(h) e o valor da estimativa da semivari
ancia;
Z(xi ) e o valor da vari
avel Z no ponto xi ;
Z(xi + h) e o valor da variavel Z no ponto xi + h;
N (h) e o n
umero de pares separados por uma determinada distancia h.
Apesar do estimador de Cressie e Hawkins atenuar o efeito de dados
contaminados, Genton (1998) arma que ele ainda e sensvel `a presenca de outliers
nos dados. Schabenberger e Gotway (2004) explicam que uma vez que se calcula
primeiramente a raiz quadrada das diferencas, o estimador e menos afetado por
valores discrepantes do que a media das diferencas de quadrados do estimador de
Matheron. O autor explica que o estimador robusto nao e imparcial, mas o termo
no denominador garante uma maior estabilidade.
254
2.2.3
21 ,
2
M d (h) =
[
]4
1
med |(Z(xi + h) Z(xi )| 2
0, 457
(4)
em que
(h) e o valor da estimativa da semivari
ancia;
Z(xi ) e o valor da vari
avel Z no ponto xi ;
Z(xi + h) e o valor da variavel Z no ponto xi + h;
N (h) e o n
umero de pares separados por uma determinada distancia h;
med{} denota a mediana da sequencia {}.
Emerson e Hoaglin (1983) comentam que a media amostral nao oferece
protec
ao contra erros grosseiros. Devido ao fato de dar o peso de n1 a cada uma
das observac
oes na amostra, a presenca de um u
nico valor discrepante distorce
seriamente o valor da media. A mediana, por outro lado, e muito mais tolerante a
erros grosseiros. Quase a metade de um conjunto de n
umeros pode ser de valores
discrepantes, sem alterar muito o valor da mediana.
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
255
2.2.4
Este estimador foi proposto por Haslett (1997) para utilizacao em series
temporais, com o objetivo principal de reconhecer processos ARMA. O estimador
das diferencas de Hastlett surgiu baseado na funcao de variancia
s2 =
(ti t)2
.
n1
N (h)
1
(dhi dh )2
N (h) 1 i=1
(5)
em que
(h) e o valor da estimativa da semivari
ancia;
Z(xi ) e o valor da vari
avel Z no ponto xi ;
Z(xi + h) e o valor da variavel Z no ponto xi + h;
N (h) e o n
umero de pares separados por uma determinada distancia h;
dhi = (Z(xi + h) Z(xi )).
2.2.5
(6)
em que
(h) e o valor da estimativa da semivari
ancia;
QN (h) = 2, 2191{(|Vi (h) Vj (h)|; i < j}(k) ;
V (h) = Z(x + h) Z(x);
2, 2191 e a consistencia da distribuicao gaussiana;
)
(
N (h)
[ 2 ]+1
;
k=
2
256
N (h)
2 .
2 1
2
N 1 (h) =
(7)
(Z(xi ) Z(xj ))2
2m
n
i=1
jDi,h
em que
N 1 (h) e o valor da semivariancia estimada pelo New-1;
Z(xi ) e Z(xj ) sao os valores da variavel Z nos respectivos pontos i e j;
n e o n
umero total de dados;
Di,h e o ndice de um conjunto de valores de dados em uma janela movel i, h
(de tamanho h centrada no ponto bloco i), excluindo o ponto xi ;
m e o n
umero de dados em Di,h .
O estimador New-2 e denido por
2
N 2 (h) = 2(
N 1 (h) +
h
(h));
d N1
(8)
em que
N 2 (h) e o valor da semivariancia estimada pelo New-2;
N 1 (h) e a derivada de N 1 (h) em relacao a h, calculada pelo Metodo da
Diferenca Central;
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
257
h vetor de distancias;
d e a dimensao no espaco euclidiano.
O grande diferencial entre os estimadores New-1 e New-2 se deve ao fato de
que eles usam todos os dados na obtencao de cada estimativa, independentemente
do h. Segundo os autores, os dois estimadores propostos sao imparciais, robustos e
resistentes `a contaminac
ao.
Na Figura 2 observa-se um exemplo, de duas dimensoes, da janela movel. A
ideia e movimentar a janela. Os estimadores New utilizam todos os pontos na
janela, realizando as diferencas entre o ponto xi com todos os pontos xj da janela,
exceto com o proprio ponto xi .
()d
N (h) = h d1
d 0
0
Esta denicao pode ser interpretada como uma media ponderada de () sobre
h
(0, h), com uma func
ao de ponderacao d1 / 0 d1 d, em que d e a dimensao no
espaco euclidiano (LI; LAKE, 1994).
Utilizando a denic
ao da funcao de distribuicao de probabilidade condicional
e a denic
ao de esperanca, Li e Lake (1994) chegaram `a seguinte relacao:
E[u(S, T )] = E{E[u(S, T )|S ]}
em que E[u(S, T )] e a esperanca conjunta, E[u(S, T )|S ] e a esperanca condicional e
E{} e a esperanca marginal. Calculando
h
E{ 2 h 1d1 d 0 d1 E[(Z(x) Z(x + ))2 |Z(x) ]d}
0
Metodologia
A edicac
ao deste trabalho constituiu-se de tres etapas: levantamento
bibliogr
aco, simulac
ao e comparacao.
Na primeira etapa foi realizado um levantamento bibliograco no intuito de
identicar diferentes estimadores de semivariancia disponveis na literatura. Na
sec
ao (2.2) apresentou-se os sete estimadores resultantes desse levantamento.
Para fazer as comparac
oes entre os estimadores, foram realizadas simulacoes
de diferentes tipos de bancos de dados, com o objetivo de vericar o comportamento
de cada estimador diante de determinada caracterstica. Assim, a segunda etapa
foi de trabalhos de simulac
ao. Todas as simulacoes foram feitas no software R (R
DEVELOPMENT CORE TEAM, 2012), realizadas com o auxlio da biblioteca
RandomFields (SCHLATHER, 2006). Por meio da funcao GaussRF foram
simulados processos gaussianos estacionarios, sendo utilizado o modelo teorico
esferico dado por:
se h = 0
0,
[ ( )
( )3 ]
1 h
3 h
(h) =
, se 0 < h a
(9)
C + C1
0
2 a
2 a
C0 + C1 ,
se h > a
em que
(h) e a semivari
ancia para um determinado h;
C0 e o efeito pepita;
C1 e a contribuic
ao;
a e o alcance;
h s
ao os valores das distancas.
Os bancos de dados abordados, foram simulados em formato de malhas
regulares quadradas, com grides de tamanhos 5x5, 10x10 e 20x20. Estes tamanhos
foram escolhidos, pois, e comum, na literatura, encontrar indicacoes de que se
deve trabalhar com mais de 30 observacoes, como, por exemplo, no trabalho de
Sullivan (2006). Outro fator importante para a escolha dos tamanhos das malhas
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
259
(10)
em que
e a semivari
ancia;
e o valor estimado de (h);
N e o n
umero total de semivariancias calculadas.
Ap
os a simulac
ao de cada banco de dados, foram obtidas as estimativas de
cada um dos sete estimadores de semivariancia. Como o estimador New-2 nao
calcula a semivari
ancia referente `a u
ltima distancia, nao foi calculada a estimativa
de semivari
ancia para a maior distancia nos demais estimadores.
Foram consideradas duas situacoes. Na primeira, foi calculado o erro
quadr
atico medio, considerando-se as N 1 estimativas e, em um segundo momento,
o erro foi calculado, contudo utilizando-se um cuto de 50%.
O interessante, ao se observar estas duas situacoes, e que, nas maiores
dist
ancias, o n
umero de pares e pequeno, o que, comumente, aumenta o erro das
estimativas. Assim, um estimador pode ser bom, contudo, seu erro em distancias
maiores pode mascarar um bom comportamento em distancias menores.
Como foram utilizadas quatro situacoes de outliers e tres situacoes de
tamanhos da amostra, foram obtidos 12 tipos de banco de dados provenientes das
combinac
oes das caractersticas adotadas. Para cada tipo de banco de dados foram
realizadas 500 simulac
oes.
260
Resultados e discuss
oes
Figura 3 - Erro Medio Quadratico (EMQ) versus quantidade de outliers dos dados
com n=25 para os estimadores de Matheron (M), Cressie-Hawkins (CH),
Mediana (Md), Haslett (H), Genton (G), New-1 (N1) e New-2 (N2).
N
ao foi detectada normalidade na amostra de tamanho 25, entao foi aplicado
o teste de Kruskal Wallis. O resultado foi signicativo (p-valor < 2, 2x1016 )
para as diferencas entres os estimadores em todas as quantidades de outliers
trabalhadas, assim como na sua ausencia, englobando as situacoes sem e com cuto.
Os resultados referentes `as diferencas entre os estimadores dois-a-dois pode ser
vericado na Tabela 1, a qual considera um p-valor de 5%.
Pelo teste, nas amostras de tamanho 25, foi possvel vericar que na maioria
possvel observar que
dos casos houve diferenca signicativa entre os estimadores. E
os estimadores de Matheron e Hastlett nao diferiram em nenhuma das situacoes, o
que tambem e perceptvel na Figura 3.
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
261
outliers
cuto
Significativo
0%
1%
nao sim nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
5%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
10%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Figura 4 - Erro Medio Quadratico (EMQ) versus quantidade de outliers dos dados
com n=100 para os estimadores de Matheron (M), Cressie-Hawkins
(CH), Mediana (Md), Haslett (H), Genton (G), New-1 (N1) e New-2
(N2).
263
outliers
cuto
Significativo
0%
1%
nao sim nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
-
5%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
10%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Figura 5 - Erro Medio Quadratico (EMQ) versus quantidade de outliers dos dados
com n=400 para os estimadores de Matheron (M), Cressie-Hawkins
(CH), Mediana (Md), Haslett (H), Genton (G), New-1 (N1) e New-2
(N2).
265
Estimadores
Matheron - Robusto
Matheron - Mediana
Matheron - Hastlett
Matheron - Genton
Matheron - New1
Matheron - New2
Robusto - Mediana
Robusto - Hastlett
Robusto - Genton
Robusto - New1
Robusto - New2
Mediana - Hastlett
Mediana - Genton
Mediana - New1
Mediana - New2
Hastlett - Genton
Hastlett - New1
Hastlett - New2
Genton - New1
Genton - New2
New1 - New2
outliers
cuto
Significativo
0%
1%
nao sim nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
5%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
10%
nao sim
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
-
266
Conclus
oes
Agradecimentos
Ao CNPq, pela concessao da bolsa de mestrado, `a primeira autora.
Agradecemos tambem aos dois revisores pelas sugestoes e comentarios que
possibilitaram melhorar o presente trabalho.
TEIXEIRA, M. B. R.; SCALON, J. D. Comparison among semivariance estimators.
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013.
Rev. Bras. Biom., S
ao Paulo, v.31, n.2, p.248-269, 2013
267
Refer
encias
268
Oxford
Conceitos e Aplicacoes.
Recebido em 26.06.2013.
Aprovado apos revisao em 17.10.2013.
269