Sei sulla pagina 1di 5

I.

3 Anlise Exploratria Bi-dimensional


Usualmente um objeto de estudo avaliado em mais de um atributo, que pode ser
quantitativo ou qualitativo. Em se tratando de um par de atributos, utilizamos as
tabelas de contingncia quando ambos so qualitativos, ou o dispersograma quando
ambos so quantitativos. Cabe lembrar que atravs da codificao numrica ou da
simblica sempre podemos considerar um atributo como qualitativo ou quantitativo,
dependendo do interesse.
O caso de variveis qualitativas ou categricas
Quando as variveis so qualitativas, por exemplo, Landuse e Rocktype no caso do
dataset Jura alguns comandos muito simples permitem obter a tabela de
contingncias, assim como as freqncias marginais e as propores. Para o
subconjunto prediction.dat vamos contruir a tabela de contingncia para essas duas
variveis:
Programa I.8 Tabela de Contingncia
data(jura)
h<- prediction.dat
ftable(Landuse~Rock,h)
Landuse 1

Rock
1

39

22

18

44

25

33

48

Caso se deseje obter as frequncias marginais, utiliza-se o comando addmargins:


Programa I.9 Frequncias Marginais
Landuse <- h$Landuse
Rock <- h$Rock
Tabela <- table(Landuse,Rock)
Margens <- addmargins(Tabela)
Rock
Landuse

Sum

22

33

18

25

56

39

44

33

48

165

Sum

53

85

63

55

259

O clculo de propores esperadas e observadas necessrio para a realizao de


testes de hipteses. O comando prop.table permite esse clculo.
Programa I.10 Propores
prop.table(Tabela)
Rock
Landuse 1

0.027027027 0.084942085 0.011583012 0.003861004 0.000000000

0.023166023 0.069498069 0.096525097 0.003861004 0.023166023

0.150579151 0.169884170 0.127413127 0.003861004 0.185328185

0.003861004 0.003861004 0.007722008 0.000000000 0.003861004

No caso as propores foram calculadas em relao ao total de observaes, mas


elas podem tambm ser calculadas por linha ou coluna. As propores calculadas
sobre a linha, ou sobre a coluna das frequncias marginais so denominadas
frequncias esperadas. Essas frequncias permitem calcular para cada linha, ou para
cada coluna, as freqncias esperadas em cada clula da tabela. Se os valores
observados e esperados forme prximos isso um indcio de no associatividade
entre as duas variveis. Esse clculo, como se sabe, a base do teste do Quiquadrado para independncia entre variveis aleatrias.
A outra situao que vamos examinar a que envolve atributos quantitativos. Por
exemplo, ser que os teores de Cd e Pb tm um comportamento conjunto observvel?
Um grfico muito simples que permite uma primeira observao o dispersograma.
Para desenh-lo vamos utilizar novamente o comando plot.
Programa I.11 Dispersograma
plot(h$Cd,h$Pb,Xlab=Cd,Ylab=Pb)

Figura I.8

Nem sempre trivial a interpretao do grfico, nesse caso a diferena de escalas visvel,
por isso recomenda-se o clculo do coeficiente de correlao entre as variveis. No R o
comando que permite fazer esse clculo o comando cor que inclui as opes para as
frmulas de Pearson, Kendall e Spearman. A primeira utilizada no caso de bi-normalidade e as
outras duas em caso contrrio.

Programa I.12 Coeficiente de Correlao


cor(h$Cd,h$Pb)

O default a frmula de Pearson que d . 0.2223784


cor(h$Cd,h$Pb, method="kendall")

O resultado 0.2222789
cor(h$Cd,h$Pb, method="spearman")

O resultado 0.3303327
Nos trs casos os valores esto mais prximos de zero, com uma baixa intensidade de
associao direta. O dispersograma das variveis padronizadas apresentou uma
conformao semelhante, ver Fig. I.9 .

Figura I.9

Definio I.18 Dispersograma h


Voltando ao mapa base apresentado na Fig. I.4, destaca-se o padro de amostragem
que combina a amostragem sistemtica com a por convenincia. Aprofundando a
anlise verificamos que com respeito proximidade, a separao tpica entre pares de
pontos varia aproximadamente em torno de 0; 150-200m e mltiplos desse valor.

Mapa Base Jura data set

3
2

2h

h
1

Yloc

3h

3
Xloc

Denominamos essa distncia padro de lag e usualmente representada pela letra


h. Por ora vamos considerar somente a distncia escalar, o que equivale a assumir a
hiptese de isotropia, mas mais adiante vamos tambm considerar a direo de
alinhamento do par de pontos no cmputo de pares pertencentes a uma mesma
classe de distncia e direo, que ser denominada de classe h.
O dispersograma h, portanto, o dispersograma dos valores observados da varivel
para cada par pertencente classe h.
Dispersograma h
O dispersograma h, portanto, o dispersograma dos valores observados da varivel
para cada par pertencente classe h.
O comportamento tpico esperado do Dispersograma h que a nuvem de pontos se
disperse cada vez mais com o crescimento de h. Do ponto de vista fsico isso
equivale a afirmar que pares de medidas tomadas mais prximas se parecem
mais do que pares de medidas tomadas mais distantes.

O ponto vermelho no grfico


corresponde ao par de valores
(2,3 1,8) que dista 0,6
conforme a figura abaixo.
Cd=1,8

h=0,6
Cd=2,3

Potrebbero piacerti anche