Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DE DATOS GEOQUMICOS
Preparado: Miguel Calcina B.
Fuente: Levinson, Keith Kenyon, Landin,
Howart.
Introduccin
El proceso de interpretacin final casi siempre
involucra la puesta en prctica de algunos
procedimientos estadsticos y/o grficos siempre
en cuando los estudios de orientacin han sido
incapaces definir todos los criterios interpretativos
con una precisin suficiente. Su seleccin y
secuencia de aplicacin en un estudio geoqumica
sern influenciadas por la naturaleza del estudio
tanto como la filosofa de la interpretacin
aceptada.
SOFTWARE
ESTADISTICA
Excel, Minitab, SPSS
Distribucin de datos bien organizado
Base de datos de gran capacidad
SAS
PROGRAMABLE y MUY POTENTE
MAPEO
ARC VIEW, ARC MAP, ARC GIS
MAP INFO
GEOSOFT, OASIS, MONTAGE
Con aplicaciones de estadistica
ANALISIS ESTADISTICO
La aplicacin efectiva de procedimiento estadstico
a los datos geoqumicos es dependiente sobre el
programa correcto, y propone la aplicacin
apropiada del muestreo y las fases analticas.
El tratamiento estadstico avanzado de un conjunto
de datos podra ser un ejercicio insulso cuando la
representatividad y calidad es inadecuado. Sin
embargo, con tal de que sus limitaciones se aprecien
totalmente, las tcnicas estadsticas constituyen
herramientas tiles y a menudo poderosas para el
anlisis de datos geoqumicos
Parmetros Estadsticos
Algunos parmetros usados comnmente
que describen la tendencia central, y
ayudan a definir poblaciones geoqumicas
incluyen:
Media aritmtica (X) = X1, X2, X3. Xn
Medidas de dispersion:
Rango, x1,x2,x3xn = Vmax Vmin
Varianza (S2) x1,x2,x3xn =
Desviacin Estandar squard S2
Percentiles (P10/P90, P50)
Cuartiles (Q25,Q75) =Q75-Q25, sirve
relieve geoqumico
Coef. Variacin=
Construir relaciones bivariantes
(Correlaciones).
Histogramas
s
cv 100%
x
MEDIANA
Es el valor de la variable que divide el total de las n observaciones
debidamente ordenadas en dos parte de igual tamao. Esto significa que a
uno o al otro lado de este valor mediano se encuentra no ms del 50% del
total de las observaciones.
2 CASOS:
IMPARES.- La mediana es igual al valor del trmino central.
4, 1, 4, 8, 5, 6, 9
n=7
1, 4, 4, 5, 6, 8, 9
n + 1 /2 = 4
MODA
Es simplemente el valor ms frecuente de una variable.
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13 -------- 9
3, 5, 8, 10, 12, 16, 18 ----- no hay
2, 3, 4, 4 , 4, 5, 5, 7, 7, 7, 9 ------- 4 y 7
Datos agrupados:
# personas por familia
# de familias
Y1 = 2
N1 = 16
Y2 = 3
N2 = 24
Y3 = 4
N3 = 52
Y4 = 5
N4 = 76
Y5 = 6
N5 = 40
Y6 = 7
N6 = 12
LA VARIANZA
(es una alternativa para medir la dispersin)
Con la perspectiva de construir un indicador que dimensione la
desviacin o distancia promedio de los Xi respecto a su media, se
propuso elevar al cuadrado su desviacin, a fin de que no sea siempre
negativa.
2
Varianza
x x
n 1
DESVIACIN ESTNDAR
La desviacin estndar o tpica se define
como la raz cuadrada de la varianza.
Desviacin
Estndar
NOTA:
Porqu usar n-1 y no n?
Bien la respuesta es algo complicada, pero en
general si su grupo de datos es una muestra
del universo, entonces Ud. Estn tomando un
sub grupo del mundo real, entonces debe
utilizar n-1
EJEMPLO DE DISPERSIN
Grupo 1:
X
XX
(X X)2
-10
100
-2
12
20
10
100
208 / n 1 = (69.33)1/2 = 8.3 (DESV. ESTNDAR)
Grupo 2:
X
XX
(X X)2
-2
-1
11
12
4
10/ n 1 = (3.33)1/2 = 1.8257 (DESV. ESTNDAR)
COEFICIENTE DE VARIACIN
C.V. = DESV. ESTNDAR/ MEDIA ARITMTICA
Se expresa en trminos porcentuales.
Es ms homognea o presenta menos discrepancia aquella
distribucin que tiene el menor coeficiente de variacin
Una distribucin puede considerarse como Gaussiana si el coeficiente
de variacin es menos a 0.5, en caso contrario indicara un carcter log
normal.
COEFICIENTES DE LA FORMA DE LA
DISTRIBUCIN
CURTOSIS.Es una medida de la concentracin de la distribucin entorno a la media, si la
variable es normal el valor del coeficiente es cero. Valores mayores que cero
indicarn que la distribucin tiende a concentrarse entorno a la media ms que
una distribucin normal, mientras que valores menores que cero indicarn que
tienden a desplazarse.
SESGO.Es una medida de la simetra de la distribucin de los valores respecto a la
media. Valores mayores que cero indicarn que las desviaciones respecto a la
media son mayores para los valores superiores (sesgo positivo), mientras que
valores menores que cero indicarn que las desviaciones respecto a la media
son mayores para los valores inferiores. (sesgo negativo)
Histograma con
sesgo Positivo
debido a valores
altos.
Histograma con
sesgo negativo
debido a valore
bajos
Presentacin de Grficos
Una vez iniciada la discriminacin se logro
en base a las caractersticas geolgicas y
geomorfolgicas, los grficos presentados
como: histogramas de distribucin de
frecuencia, los box-plots y grfico de
probabilidad pueden adelantar el proceso
de reconocimiento de poblacin y
delineacin de outlier.
Valores
extremos
Valores
observados
RECTA DE HENRY
Si los puntos
obtenidos estn
alineados podemos
decir que la
distribucin
estudiada se
aproxima a una
distribucin normal
Adems de
indicarnos la
normalidad del
comportamiento de
las muestras nos
indican al igual que
los grficos
anteriores los
valores extremos
que podran ser
observados en el
tratamiento
estadstico
Valor
extremo
HISTOGRAMAS.Tratan de dividir el
conjunto de datos
en una serie de
intervalos y
representarlos bajo
la forma de un
histograma de
frecuencias, la
similitud con una
curva Gaussiana,
puede inducir que
esta tiene un
comportamiento
normal.
Curva
Gaussiana
1
e
2
1/ 2 x x
Grfico de Probabilidad
Acumuladas
Particularmente la informacin til sobre la
distribucin estadstica de datos con una
distribucin normal o lognormal se muestra por
grfico de probabilidad acumulativa. En estos
grficos la ordenada es aritmtica o logartmica y
en la abcisa la escala de probabilidad el cual es
colocado para una distribucin normal o
lognormal acumulativo, en el cual se graficar
como una lnea recta. stos grficos pueden
crearse manualmente (Sinclair, 1987) o con un
programa de computador conveniente (ej,
PROBPLOT como lo descrito por Sinclair, 1987).
Cuando es creado
manualmente se traza con
datos agrupados para los
propsitos de construccin
del histograma (de valores
altos para bajos o viceversa)
y se traza directamente en el
papel de probabilidad. Los
grficos de probabilidad
pueden indicar una
delineacin efectiva de las
poblaciones mltiples. Por
ejemplo, una mezcla de dos
poblaciones normales
distintas aparece como dos
segmentos casi rectos
separados por segmentos
encorvados que contienen un
punto de la inflexin
Diagramas Bivariates
Los diagramas bivariantes simples tambin
pueden ayudar a veces definir la importancia de los
outlier. Esta aproximacin ha proporcionado en
ocasiones a la exploracin una gua de igual o
mayor valor que los complejos parmetros
estadsticos multivariados. Por ejemplo, en los
casos dnde el umbral anmalo (o nivel de la
inspeccin) puede ser una funcin de otra variable
(debido a la adsorcin por Fe y/o Mn) un
procedimiento de la regresin puede ayuda en el
reconocimiento de muestras verdaderamente
anmalas (Garrett, 1991).
Correlacin
La muestra del coeficiente de correlacin r, mide
el grado de la asociacin linear entre dos
variables (el grado en la cual una variable
cambia con otra).
Una correlacin positiva indica que ambas
variables tienden a incrementarse juntas. Una
correlacin negativa indica que una variable se
incrementa, y la otra decrece.
Correlacin de Pearson
Se calcula la correlacin de Pearson en cada
poblacin a escala logartmica, con el fin de
determinar la relacin que existe entre par de
elementos, considerando en la interpretacin los
que muestran rasgos fuertes a muy fuertes
El coeficiente de la correlacin de la muestra (r)
es calculado por la frmula:
Su clculo se basa en
la expresin:
SECUENCIA DE INTERPRETACION
1.
2.
3.
4.
5.
6.
7.
8.
ANLISIS UNIVARIATE
RELACIONES BIVARIATE Y CORRELACIONES
GRAFICOS SCATTER PLOTS, BOX PLOTS,
HISTOGRAMAS
ANALISIS COMPONENTES PRINCIPALES (PCA)
ANALISIS DISCRIMINANTE Y PETROLOGIA
ANALISIS DISCRIMINANTE CANONICAL
ANALISIS CLUSTER
PROBABILIDAD
EJEMPLOS DE PRESENTACION DE
DATOS
1.
1.
2.
Valid N Mean Median Minimum Maximum Lower Upper Percentile Percentile Range Std.Dev. Skewness COEFF.
Quartile Quartile
90
98
VAR.
As_ms61
1388 100.0
31.4
1.2
1470.0
11.0
93.4
249.0
782.0
1468.8
185.2
3.5
185.3
Ba_ms81
1389 2429.9 1430.0
0.3
20000.0 1120.0 2010.0
3910.0
20000.0 19999.8 3771.9
3.9
155.2
BaO_MS81%
1389
0.4
0.2
0.0
19.5
0.2
0.3
0.5
2.3
19.5
1.0
11.1
272.4
Bi_ms61
1388
1.0
0.6
0.0
54.4
0.3
0.9
1.9
5.6
54.4
2.0
15.4
208.0
CaO_ms81%
1389
1.0
0.4
0.0
33.6
0.1
1.2
2.4
5.5
33.6
1.8
7.3
186.4
Co_ms61
1388
7.8
7.2
0.2
66.9
2.6
10.1
14.6
26.2
66.7
7.0
2.6
90.1
Co_ms81
1389
7.8
6.5
0.3
568.0
2.5
10.0
14.0
28.0
567.8
16.6
28.1
212.0
Cr2O3_ms81% 1389
0.0
0.0
0.0
0.1
0.0
0.0
0.0
0.0
0.1
0.0
9.5
83.3
Cu_ms61
1388
34.8
25.0
0.1
927.0
16.4
34.6
58.2
142.5
926.9
53.2
9.1
152.8
Fe2O3_ms81% 1389
4.2
4.2
0.6
16.5
3.1
4.9
5.9
8.3
15.9
1.6
1.6
36.9
Hg_ppb
1389 398.7
40.0
0.5
96900.0
10.0
180.0
530.0
3320.0 96899.5 2959.6
26.5
742.2
K2O_ms81%
1389
10.4
10.9
0.2
16.1
7.8
13.1
13.9
14.8
15.9
3.0
-0.4
28.7
Nb_ms61
1388
88.6
84.1
1.1
228.0
64.7
110.0
141.0
188.5
226.9
38.8
0.5
43.8
Nb_ms81
1389
93.0
90.0
0.5
285.0
78.0
103.0
119.0
167.0
284.5
27.3
1.4
29.3
Pb_ms61
1388 132.0
46.0
6.5
3140.0
30.5
117.0
345.0
870.0
3133.5
233.8
4.7
177.1
Pb_ms81
1389 109.9
40.0
2.5
2130.0
25.0
100.0
280.0
750.0
2127.5
187.4
4.1
170.5
Sn_ms61
1388
1.0
1.0
0.1
7.2
0.8
1.2
1.4
2.0
7.1
0.4
4.3
39.0
Sn_ms81
1389
3.6
1.0
0.5
2420.0
1.0
2.0
4.0
7.0
2419.5
65.0
37.1
1793.8
TiO2_ms81%
1389
0.7
0.7
0.0
1.6
0.5
0.8
1.0
1.2
1.6
0.2
0.1
34.3
Zn_ms61
1388 215.4 118.0
12.0
7200.0
78.0
184.0
426.0
1245.0
7188.0
381.2
7.9
176.9
Zr_ms81
1389 427.9 390.0
18.5
2230.0
340.0
440.0
672.0
916.0
2211.5
172.0
2.7
40.2
4 Acid digest
vs.
Li Metaborate Fusion
THE OXIDATION
STATE OF IRON
REPORTED AS
Fe2O3
FeO
Fe
Fe2+, Fe3+
Mg2+, Co2+ ,Ni2+
SULPHIDE MINERALS)
BIOTITE
CHLORITE
MAGNETITE
ANKERITE
Fe2+
3
2
1
0
No of obs
-1
Mean = 42.55
-2
-3
500
45%
450
41%
400
36%
350
32%
300
27%
250
23%
200
18%
150
14%
100
9%
50
5%
0
0.50
55.40
27.95
110.30
82.85
165.20
137.75
0%
275.00
220.10
192.65
247.55
V_PPM
-4
0
20
40
60
80
100
180 200
280 300
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
Area: Ironclad
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.8
1.0
1.8
1.6
1.4
TiO2 (%)
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
Area: Vindicator
P2O5 (%)
0.2
0.4
0.6
1.8
0.0
0.0
0.0
0.8
1.0
Fuente: Kenyon
ANALISIS DISCRIMINANTE
ANALISIS COMPONETES PRINCIPALES
ANALISIS DISCRIMINANTE CANONICAL
ANALISIS CLUSTER
SECUENCIA DE INTERPRETACION
1.
2.
3.
4.
5.
6.
7.
8.
9.
ANALISIS UNIVARIATE
RELACIONES Y CORRELACIONES BIVARIATES
GRAFDICOS DE SCATTER, BOX Y BIGOTES
PLOTS, HISTOGRAMAS.
ANALISIS COMPONETES PRINCIPALES (PCA)
SELECCION DE ELEMENTOS STEPWISE
ANALISIS DISCRIMINATE Y PETROLOGIA
ANALISIS DISCRIMINANTE POR CANONICA
ANALISIS CLUSTER (WARD).
ITERACION DE ANALISIS CLUSTER
CHEQUEO POR ANALISIS DISCRIMINANTE
(POST POSTERIOR PROBABILIDAD)
ANALISIS DE COMPONENTES
PRINCIPALES
UN RESUMEN DE LA VARIANZA
TOTAL DE LA MUESTRA
ANALISIS MULTIVARIANTE
Anlisis Discriminante Canonical
Anlisis discriminante Canonical es una
tcnica usado para reducir el tamao.
Da una variable de clasificacin y varios
intervalos de variables, anlisis
discriminant canonical deriva de variables
canonical que resume la variacin entre
clases.
Los variables tienen un aproximado
DISTRIBUCION NORMAL multivariate
ANALISIS CLUSTER
Permite explorar semilaridades entre individuos
(muestras) Modo-Q, o entre variables (modo-R)
definindolo en grupos.
Anlisis por agrupamiento jerarquizado; se obtiene de
n lineas = muestras y p columnas = varaiables.
Usando un coeficiente de similaridad cualquiera entre
lneas se obtiene una matriz [nxn] utilizada en el Modo
Q. Si la comparacin es entre columnas se obtendr una
matriz inicial de [pxp].
En la matriz inicial de coeficientes de similaridad estes
presentan el grado o semejanza entre pares de objetos y
los mismos devern ser ordenados de acuerdo con lo
grados de similaridad (0 - 1), de modo que quedan
agrupados segn una disposicin jerarquizada.
Granito Itaoca
Similarity
56.38
70.92
85.46
100.00
SiO2
TiO2
MgO
CaO
Stream sediment
Dendrograma Stream Sediment
Single Linkage, Euclidean Distance
Similarity
29.80
53.20
76.60
100.00
1 11 2 19 8
7 14 17 20 21 4
5 18 9 12 10 3 24 25 13 16 15 22 23
Observaciones - casos
- Casos
Coeficientes de similaridad
1. Coeficiente de distancia: expresa el grado de
semilaridad con la distancia en un espacio
multidimensional, si las variables tiene el mismo peso, la
funcin distancia ser limitada a valores entre 0 (mayor
similaridad) y 1 (menor similaridad).
2. Coeficiente de Correlacin: mide el grado de
asociacin entre valores por la representacin de puntos
en un sistema de coordenadas y sus respectivas
posiciones en relacin a una lnea recta. Se considera el
ceoficiente de correlacin paramtrica (Pearson) y no
paramtrica (Sperman).
Coeficiente coseno-teta: medida de proporcionalidad que
expresa el grado de similaridad en terminos de
separacin angular (p, q) valores comparados.
CORRELACIONES
PEARSON (PRODUCTO-MOMENTO)
SPEARMAN (RANK-ORDER)
Anlisis de Componentes
Principales (CPA)
Es una transformacin linear de m variables
originales en m nuevas valores, es el calculo
de los autovalores y sus correspondientes
autovectores de una matriz de varianzacovarianza.
El CPA es un mtodo factorial que intenta
identificar variables subyacentes o factores, que
expliquen la configuracin de correlacin dentro
de un conjunto de variables observadas, de
carcter numrico para todos ellos..
ACP
Loading Plot of Zn, ..., Pb
Pb
0.9
Mn
Fe(%x100)
0.8
Second Factor
0.7
0.6
0.5
0.4
C dppm
0.3
0.2
Zn
0.1
0.0
Cu
0.0
0.2
0.4
0.6
First Factor
0.8
1.0
Second Factor
-1
0
2
First Factor
ANOMALIAS GEOQUIMICAS
La distribucin geoqumica de los elementos en
los diferentes materiales geolgicos depende de
las condiciones y eventos que ocurren en rocas,
suelos, agua. Mientras no ocurran eventos
mineralizantes,
estos materiales van a
mantener los niveles de abundancia normales
(fondo, background) y en el otro caso, la
distribucin de los elementos ser diferente a la
abundancia normal, esto es mayor o menor y
estaremos ante la
presencia de anomalas
geoqumicas.
UMBRAL GEOQUIMICO
-THRESHOLD Estadsticamente es el lmite superior de las
fluctuaciones del background. Los valores
iguales o mayores al threshold son considerados
anmalos. Ajuste al comportamiento lognormal
es generalmente el caso de muestras de suelos,
fragmentos de rocas, sedimentos de drenajes,
etc.
CLASES FREC.
Distribucin Log Au
1.20-1.30
16
60
1.30-1.40
33
50
1.40-1.50
50
1.50-1.60
50
1.60-1.70
36
1.70-1.80
1.80-1.90
1.90-2.00
2.00-2.10
2.10-2.20
10
2.20-2.30
2.30-2.40
2.40-2.50
2.50-2.60
2.60-2.70
2.70-2.80
40
30
20
10
2.70-2.80
2.50-2.60
2.30-2.40
2.10-2.20
1.90-2.00
1.70-1.80
1.50-1.60
1.30-1.40
0
1.1 -1.20
Frecuencias
1.1 -1.20
Intervalos de clases
Background
Anomalas
Anomalia Geoqumica
Anomalias geoquimica Anomala.- Tericamente son
valores alejados al background debido al aumento de la
concentracin en uno o ms elementos; por lo tanto
Anomala geoqumica es una desviacin de los valores
geoqumicos que son normales para una regin., por lo
tanto una yacimiento es una anomala
Anomala significativa, son usados como guas en la
prospeccin debido a su relacin con la mineralizacin,
se determina con mtodos estadisticos.
Anomala no significativa no tiene relacin con la
mineralizacin natural, puede ser por la actividad
industrial o contaminacin antropgena.
Rangos de
Anomalia.
T 2T:
Dbilmente
anmalos
2T 3T:
Moderadament
e anmalos
>3T:
Fuertemente
anmalos
Fig: Anomala, threshold regional y local, dispersin primaria.
Fuente: Levinson (1980).