Sei sulla pagina 1di 34

02 - Estudio Exploratorio

de Datos: Univariable y
Multivariable
Despliegue de datos
Tablas de frecuencia e histogramas
Estadsticas bsicas
Distribucin normal y lognormal
Grfico de dispersin
Q-q plot
Coeficiente de correlacin

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Objetivos del Estudio
Exploratorio De Datos
Desplegar los datos en diferentes formas
Entender los datos: poblaciones estadsticas vs.
poblaciones geolgicas
Seleccionar poblaciones geolgicas
Decisin de estacionaridad
Identificar deriva en los datos
Asegurar la calidad de los datos
Resumir parte de la informacin contenida en los
datos
Familiarizarse con los datos y la geologa
Desagrupar datos para modelamiento
geoestadstico

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Despliegue de Datos
Anlisis utilizando plantas y secciones

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Despliegue de Datos
Visualizacin en 3-D
interpretacin

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Despliegue de Datos
Otras formas de desplegar los datos:
Mapas codificados con color
Mapas de indicadores (Deteccin de deriva
en la variable media mvil)

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Histogramas
Histograma

Histograma: despliegue
200

180

de frecuencia de
160

140

Frecuencia
120

ocurrencia de datos en 100

80

clases 60

40

Histograma acumulado:
20

0
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

despliegue de la Clase

frecuencia acumulada 100%


Histograma acumulado

bajo un valor de corte


Frecuencia acumulada

80%

(que define una clase) 60%

40%

20%

0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Frecuencia
Histogramas
Histogramas
Computa el nmero de muestras en cada clase.
Ancho de clase suele ser constante la altura de cada barra
del histograma es proporcional a la frecuencia de la clase
Entrega estadsticas de las muestras (no de la poblacin)
Escala logartmica puede ser til
Media y varianza son muy sensibles a valores extremos
Mediana y rango intercuartil son medidas ms robustas
Cmo construirlo?
Dependiendo del nmero de muestras, escoger un nmero de
clases
Desplegar el rango importante de los datos (colas no se ven bien)
Desplegar estadsticas con un nmero razonable de decimales

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Frecuencia Acumulada
1

Histogramas
0

Histograma Acumulado
Puede servir para distinguir poblaciones estadsticas
Puede utilizarse para comparar la distribucin de
datos con modelos paramtricos (normal /
lognormal)
Se utiliza para transformar la distribucin de
muestras a cualquier otra distribucin deseada
Puede utilizarse para ver el efecto de compositar a
un determinado largo
Cuntas muestras vamos a cortar?

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Histogramas
El histograma de frecuencias acumuladas no requiere definir
un ancho de clase; pueden crearse a la resolucin de los datos
Una valiosa herramienta descriptiva y usada para inferencia
G(z)1.0

0.9

0.8
0.7

0.6

0.5
0.4
0.3

0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z

Un cuantil es el valor de la variable que corresponde a una


frecuencia acumulada dada
primer cuartil = cuantil 0.25
segundo cuartil = mediana = cuantil 0.5
tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del grfico de frecuencia
acumulativa
Se puede tambin leer los intervalos de probabilidad desde el
grafico de frecuencia acumulativa
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Histogramas
G(z)1.0

0.9

0.8
0.7

0.6

0.5
0.4

0.3

0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Estadsticas Bsicas
Medidas de posicin:
1 n 1
D D
m z (u ) z (u )du
Media n 1

z (u( n1) / 2 ) si n es par



Mediana M ( z (u n / 2 ) z (u( n / 2)1 ))
si n es impar
2
Moda, mnimo y mximo
Rango
Cuartil inferior y superior
Deciles, percentiles y cuantiles: el cuantil p
de la distr. es el valor zp tal que p% de los
datos estFbajo
( z p ) zProb
p {Z z p } p [0,1]
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Medidas de dispersin:
1 n 1
Varianza s ( z (u ) m)
2 2 2
( z (u ) ) 2 du
n 1 DD

Desviacin estndar
s s2 2
Rango intercuartil
IQR Q 3 Q 1
Coeficiente de variacin
s
CVexp . CVpobl.
m

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Estadsticas Bsicas
Yacimiento tipo prfido
cuprfero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Estadsticas Bsicas
Medidas de forma:
Coeficiente de asimetra (skewness)
n
1
n
( z (u ) m)
3

Coeficiente de asimetra 1
s3
Positivo Cercano a 0 Negativo
Frec. Frec.
Frec.

Mm z(x)
M
z(x) mM
m z(x)
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Estadsticas Bsicas
Coeficiente de aplanamiento (Kurtosis)
1 n

n 1
( z (u ) m ) 4

Coeficiente de aplanamiento
s4

Da una idea del aplanamiento de la


distribucin (relacin entre altura y ancho
de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


g(z)
0.40

0.35

0.30

0.25

Distribucin Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

Propiedades:
Completamente definida por su media y
varianza
Tiene una descripcin matemtica

concisa
Favorable para enfoques tericos de

estimacin
Funcin de densidad de probabilidad: 2
1 z
1
2

g( z ) e
2
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribucin Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

z
Estandarizacin: y

Distribucin normal estndar N(0,1)
2
y
1
g( y ) e 2

2
Funcin de distribucin acumulada:
y

G( y ) g( y ) dy

corresponde al rea bajo la curva


MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribucin Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

Funcin de Distribucin de
densidad de probabilidad
probabilidad acumulada
g(z) G(z)1.0
0.40
0.9
0.35
0.8
0.30 0.7

0.25 0.6

0.20 0.5

0.4
0.15
0.3
0.10
0.2
0.05 0.1

0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribucin Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

Intervalos de confianza
68% 95%

g(z) g(z)
0.40 0.40

0.35 0.35

0.30 0.30

0.25 0.25

0.20 0.20 95 %
0.15 68% 0.15

0.10 0.10

0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribucin Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

g(y)
0.40

0.35

0.30

0.25

0.20

0.15 90 %
0.10

0.05

0
-4 -3 -2 -1 0 1 2 3 4 y
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
g(z)
0.35

0.30

0.25

Distribucin Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

Una poblacin es lognormal si los logaritmos de


los datos estn distribuidos como una normal
Propiedades:
En Ciencias de la Tierra es comn encontrar variables
cuya distribucin es cercana a una lognormal
Relacin con la distribucin normal la hace fcil de
utilizar
Tambin es favorable para enfoques tericos de
estimacin
Funcin de densidad de probabilidad: 2
1 ln( z )

1 1 2 ln( z )
g( z ) e
2 ln( z ) z

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


g(z)
0.35

0.30

0.25

Distribucin Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

g(z) G(z)
0.35 1.0

0.9
0.30
0.8
0.25 0.7

0.6
0.20
0.5
0.15
0.4

0.10 0.3

0.2
0.05
0.1

0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Grficos de Probabilidad
Q-q plot de una distribucin normal o
lognormal con la distribucin de las
muestras

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Grficos de Probabilidad
Son tiles para chequear la presencia
de dos poblaciones

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Grficos de Probabilidad
Son tiles para chequear la presencia
de dos poblaciones
Debe confirmarse con informacin
geolgica

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Grfico de Dispersin
Anlisis bivariable
Pares deben corresponder a la misma
ubicacin en el espacio (co-localizados)
Grfico de Dispersin

2,5

2
Variable 2

1,5

0,5

0
0 0,5 1 1,5 2 2,5 3
Variable 1
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Correlacin
El coeficiente de correlacin es una medida de
la dependencia lineal entre las dos variables
1 n
( z 1 m Z1 )( z 2 m Z 2 )
n 1

Z1 Z 2

Una correlacin de XY = 1 implica que X e Y


estn perfectamente correlacionadas.
Independencia entre dos variables implica que
el coeficiente de correlacin es cero: XY = 0.
Sin embargo, la inversa no es siempre cierta.
Correlacin cero no implica necesariamente
independencia entre las dos variables.
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Correlacin
Muy sensible a valores aberrantes
El coeficiente de correlacin cambia
incluso de signo

Correlacin con valor aberrante Correlacin sin valor aberrante

Y Y

= 0,73
= -0,68

X X

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Caso 1 Caso 2
Y Y

Correlacin = 1 = 0,68

X X

Diferentes
ejemplos de Caso 3
Y
Caso 4
Y

coeficiente =0 =0

de X X

correlacin
Caso 5 Caso 6
Y Y

= -0,87

= -1

X X

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Grficos de dispersin
Despliegue bivariable, estimado -verdadero, dos
variables, o la misma variable separada por algn
vector distancia (h-scatterplot)
El coeficiente de correlacin lineal vara entre -1 y +1 y
es sensible a valores extremos (puntos fuera de la
nube principal)
El coeficiente de correlacin de posicin es un
complemento til:
si rank > entonces unos pocos outliers daan la que en otro
caso sera una buena correlacin
si rank < entonces unos pocos outliers mejoran la que en otro
caso sera una pobre correlacin
si rank = 1 entonces una transformacin no lineal de una
variable puede hacer = 1

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Q-q Plot
Grfico Q-Q: para comparar
dos distribuciones F1 y F2
cuantil a cuantil.

No se utiliza para comparar


la relacin par a par que
hay entre las variables.

Escoger una serie de


valores de probabilidad
pk, k = 1, 2, , K

Graficar q1(pk) versus q2(pk),


k = 1, 2, , K

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Q-q Plot
Si todos los puntos caen en una lnea de 45o,
las dos distribuciones son exactamente iguales
Si la lnea est desplazada de los 45o, las dos
distribuciones tienen la misma forma pero
diferentes medias
Si la inclinacin de la lnea no es 45o, las dos
distribuciones tienen diferentes varianzas
Si hay un carcter no lineal en el grafico Q-Q,
las distribuciones tienen diferentes formas en
el histograma

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE


Q-q Plot
Histogramas de ley DDH y ley por RC
Muestreo preferencial explica la diferencia. No son
muestras pareadas por lo que no podemos detectar
sesgo en las muestras

Frecuencia
Frecuencia

Frecuencia Acumulada
Frecuencia acumulada

Ley DDH Ley RC


MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE
Q-q Plot

Ley DDH

Ley RC

Leer los cuantiles correspondientes de los


grficos de distribucin de frecuencia
acumulada en la pgina anterior.
Trazar esos cuantiles en el grfico
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Potrebbero piacerti anche