Sei sulla pagina 1di 73

Estadística Multivariable

Teoría de muestreo

Prof. Ing. Orestes Gómez González, Geo, Eng., MSc., QP


Departamento de Minas
Universidad de Santiago de Chile
Geologist Senior Consultant
orestes.gomez@usach.cl
Contenido
1. Elementos de la Teoría del Muestreo.
2. Introducción e importancia del muestreo de minerales.
3. Conceptos importantes en Teoría del Muestreo.
4. Tipos de muestreo
5. Exactitud y precisión
6. El muestreo estadístico. Ecuaciones
7. Consideraciones prácticas para el muestreo de minerales
8. Representación de los datos
9. Medidas de la Tendencia Central de los Datos o Estadígrafos de Posición

Copyright © 2010 CAE Inc. All rights reserved.


2
Elementos de la Teoría de Muestreo
En general, muestreo estadístico es todo procedimiento de selección de
individuos procedentes de una población objetivo, que asegure a todo
individuo componente de dicha población, una probabilidad conocida de
ser seleccionado, esto es, de formar parte de la población muestral que será
estudiada.
Esta definición nos plantea un problema, porque en las Geociencias es
bastante común que no tengamos acceso a todos los individuos de la
población objetivo. Las situaciones más comunes que se presentan son las
siguientes:

Copyright © 2010 CAE Inc. All rights reserved.


3
El muestreo estadístico.
Cálculo del error de muestreo
Sea x una cierta variable. El lote tiene N observaciones y la muestra (equiprobable)
n observaciones:

Población =  x1 , x2 ,..., xN 
N n
Muestra = a1 , a2 ,..., an 
x1 + x2 + ... + xN
m0 = Media de la población
N (desconocida)

a1 + a2 + ... + an Media de la muestra


m =
*
(conocida)
n
Copyright © 2010 CAE Inc. All rights reserved.
El error de muestreo estadístico
(con 95% de confianza)

2S

1 1
S =s  − 
2 2

n N 

( a − m* 2
) + ( a − m * 2
) + ( a − m* 2
)
s =
2 1 2 n

n −1

El error ± 2S es cero cuando N = n y


cuando s2 = 0 Copyright © 2010 CAE Inc. All rights reserved.
14159 26535 89793 23846
26433 83279 50288 41971
69399 37510 58209 74944
59230 78164 06286 20899
86280 34825 84211 70679
82148 08651 32823 06647
09384 46095 50582 23172
53594 08128 48111 74502
84102 70193 85211 05559
Tabla de números al azar 64462 29489 54930 38196
44288 10975 66593 34461
28475 64823 37867 83165
27120 19091 45648 56692
34603 48610 45432 66482
13393 60726 02491 41273
72458 70066 06315 58817
48815 20920 96282 92540
91715 36436 78925 90360
01133 05305 48820 46652
13841 46951 94151 16094 Copyright © 2010 CAE Inc. All rights reserved.
El error fundamental de muestreo
Teoría de Pierre Gy
Para entender el concepto de error de muestreo definiremos
un experimento (debido a D. François-Bongarçon):

La ley teórica
del lote es 10
ppm (g/t)

• Esta palangana tiene 20K de arroz (aproximadamadamente


1,000,000 de granos)
• Pintamos 10 granos de color rojo.
• Cada participante del curso toma una muestra de unos 250
gramos y calcula la ley correspondiente…
Ejecutar programa muestreoarroz.exe Copyright © 2010 CAE Inc. All rights reserved.
Fórmula de Gy
Varianza (relativa) del error fundamental de muestreo de material quebrado

1 1   1 1 
S =s  − 
2 2
 =K d 
2
− 3

n N 
R
 MS ML 

K = constante de muestreo
d = diámetro (nominal) de la partícula más grande en el lote en cm.
MS = peso de la muestra (en gramos)
ML = peso del lote (en gramos)
Se asume que la
muestra es
equiprobable

Copyright © 2010 CAE Inc. All rights reserved.


El error relativo es:  2 R

 R2 es cero cuando MS = ML y cuando d = 0

K=cgfl
En que:

• c = factor de composición mineralógica (gr/cm3)


• g = factor de distribución de tamaño (sin dimensión)
• f = factor de forma de las partículas (sin dimensión)
• l = factor de liberación (0 < l < 1 ), sin dimensión

Veremos una aplicación de esta fórmula al caso de mineral de oro


Ejecutar programa gyoro.exe

Copyright © 2010 CAE Inc. All rights reserved.


Aplicación de Gy

El trabajador debe dividir este material en dos partes. Entonces con un martillo
rompe el bolón, para disminuír el diámetro máximo d

Chancador: disminuye el
diámetro d

Copyright © 2010 CAE Inc. All rights reserved.


Los Protocolos de muestreo

Copyright © 2010 CAE Inc. All rights reserved.


Elementos de la Teoría de Muestreo
a) Se tiene acceso directo a todos los individuos: Las muestras se seleccionan de acuerdo a algún procedimiento
aleatorio, es decir, se escoge alguna estrategia de muestreo estadístico, se define el tamaño de la población
muestral y se realizan las distintas mediciones sobre las muestras unitarias. Sobre los atributos o variables
medidas, por ejemplo: Arcillosidad, porosidad efectiva, permeabilidad, trasmisividad, se aplica la inferencia
estadística, y las conclusiones obtenidas sobre la población muestral pueden ser aplicadas directamente a la
población objetivo.

b) No se tiene acceso a todos los individuos: En este caso debe definirse muy bien qué constituye nuestra
población muestral. Debe aplicarse alguna estrategia de muestreo estadístico para conseguir una población
muestral de tamaño N y realizar las mediciones planificadas. Sobre los atributos medidos se aplica la inferencia
estadística y se obtienen conclusiones sobre la población muestral. El vincular estas conclusiones a la población
objetivo ya no cae en el campo de los métodos estadísticos, sino que es responsabilidad del especialista
asociado con la disciplina en particular de que se trate. A medida que una población muestral es más
representativa de la población objetivo, las conclusiones obtenidas a partir de la primera estarán relacionadas de
forma más directa a la población objetivo.

c) Las muestras se toman siguiendo criterios no estadísticos: Esta situación es bastante común en el campo de las
Geociencias. Por ejemplo: es frecuente que la ubicación de muchas perforaciones, o la ubicación de los aforos u
otros trabajos, no se realicen sobre bases probabilísticas. En estos casos, la inferencia estadística sobre la
población objetivo se puede realizar solo sobre la base del conocimiento de la disciplina científica relacionada
con el problema a resolver.
Copyright © 2010 CAE Inc. All rights reserved.
12
Elementos de la Teoría de Muestreo
Introducción e Importancia del muestreo de minerales
Definiciones.
Según el Diccionario de la Lengua española:
Muestra: Es una parte o porción extraída de un conjunto por métodos que permiten
considerarla como representativa del mismo.
Muestreo: Es la acción de recoger muestras representativas de la calidad o
condiciones medias de un todo o la técnica empleada en esta selección o la
selección de una pequeña parte estadísticamente determinada para inferir el valor
de una o varias características del conjunto.
Población o lote: Es el conjunto completo de observaciones que deseamos
estudiar.
Copyright © 2010 CAE Inc. All rights reserved.
13
Elementos de la Teoría de Muestreo
El muestreo estadístico es diferente del muestreo de minerales:
• En el muestreo estadístico, el lote o población está compuesto por objetos de
igual peso.
• En el muestreo de minerales, el lote está compuesto de objetos de diferentes
pesos.

Copyright © 2010 CAE Inc. All rights reserved.


14
Elementos de la Teoría de Muestreo
El muestreo de minerales. Importancia:
Casi todas las decisiones que se hacen respecto de un Proyecto Minero, desde la
exploración hasta el cierre de la mina, están basadas en valores obtenidos de
material muestreado. Estas decisiones significan millones de dólares.
Ejemplo: Pozos de tronadura en una mina a cielo abierto:
En un pozo de tronadura el material acumulado (detritus de la perforación) puede
ser enorme, lo que obliga a tomar una muestra. Sea un depósito minero, con
densidad de 2,5 t/m3 en una malla de perforación de 10 m * 10 m, con altura de
banco de 15 m., con diámetro de perforación igual a 25 cm. La cantidad de material
acumulado, en toneladas, es: t = π*d2*hδ/4 = 3,14*0,252 *15* 2,5/ 4 =1,8 t

Copyright © 2010 CAE Inc. All rights reserved.


15
Elementos de la Teoría de Muestreo

Tratemos de encontrar ahora el valor económico que


representa una decisión basada en una muestra de un pozo,
para ello calculemos el tonelaje que representa una muestra,
Pozo de tiro
asumiendo un área de influencia igual a la malla de perforación,
expresando el tonelaje en libras (se utiliza un factor de 2,204) y
en onzas (se utiliza un factor de 32.150,75):
Tonelaje = 10 * 10 * 15 * 2,5 = 3.750 toneladas = 3.750 * 2.204
= 8.265.000 libras = 3.750 * 32.150,75 = 120.565.312 onzas

Malla de pozos de tronadura

Copyright © 2010 CAE Inc. All rights reserved.


16
Elementos de la Teoría de Muestreo

a) Caso de un depósito de cobre de 1 % CuT (con un precio de 0,70 US$/libra):


Valor decisión = US$ 57.855.
b) Caso de un depósito de oro de 2 g/t (con un precio de 300 US$/onza): Valor
decisión = US$ 72.339.
El valor de la decisión depende del precio de los metales, pero a menudo es
¡mucho más de lo que se piensa!
En una mina a cielo abierto, la ley de un pozo de tronadura es fundamental para la
planificación de corto plazo: este valor decide, de una u otra manera, el destino de
los materiales (planta, stock o botadero).

Copyright © 2010 CAE Inc. All rights reserved.


17
Elementos de la Teoría de Muestreo
La siguiente figura ilustra una muestra tomada “fuera de norma” en una mina de
cobre oxidado. En esta mina se debe utilizar un captador del material de la
perforación, sin embargo el trabajador tomó “a mano” una parte superficial del
lote:

Muestra fraudulenta. Se puede dejar de ganar o perder


dinero al utilizar el valor numérico de esta muestra.

Copyright © 2010 CAE Inc. All rights reserved.


18
Elementos de la Teoría de Muestreo
Conceptos importantes en Teoría del Muestreo. Problema
principal.
La siguiente figura resume el problema principal del muestreo: Estimar la media de
una población (con N elementos) o lote (de tamaño ML) a partir de una muestra (de
tamaño “n” o MS):

El problema principal del muestreo

Copyright © 2010 CAE Inc. All rights reserved.


19
Elementos de la Teoría de Muestreo
En general, el muestreo exhaustivo, es decir tomar los N datos ó la masa total ML
(llamado a veces censo) es muy difícil y de alto costo.
En Estados Unidos, los muestreos de gobierno toman muestras de 105.000
personas, es decir 1 persona cada 1.240 personas.

Muestreo de minerales quebrados

Copyright © 2010 CAE Inc. All rights reserved.


20
Elementos de la Teoría de Muestreo
Etapas de un muestreo
En todo muestreo, debe estar bien establecido lo siguiente:
1. Objetivo del muestreo.
2. Población a muestrear
3. Datos a recolectar
4. Manera de recolectar los datos
5. Grado de precisión deseado
6. Método de medida

Copyright © 2010 CAE Inc. All rights reserved.


21
Elementos de la Teoría de Muestreo
Para cumplir bien con la definición inicial de muestreo, se debe cumplir el hecho
siguiente, de vital importancia:

“EL MUESTREO DEBE SER EQUIPROBABLE”


En el caso de los minerales: el muestreo es equiprobable cuando todos los
fragmentos que constituyen el lote tienen la misma probabilidad de ser elegidos para
la constitución de la muestra.
Según Pierre Gy, creador de la teoría moderna del muestreo de minerales, cuando
la condición de equiprobabilidad no se cumple, se tiene más bien un “espécimen”
(un ejemplar) en vez de una muestra.

Copyright © 2010 CAE Inc. All rights reserved.


22
Elementos de la Teoría de Muestreo

El operador toma incrementos de la parte más


accesible del lote. La suma de los incrementos
constituye un espécimen.

En el muestreo estadístico, la definición de muestra equiprobable es análoga a la


anterior.
Ejemplos de muestreos que no son equiprobables:
a) Los muestreos de carros o de marinas en minería, por lo general, no son
equiprobables, porque se está obligado a tomar una muestra superficial.
b) En muestreo estadístico, tomar voluntarios constituye un muestreo no
equiprobable (ejemplo: test de drogadictos).
Copyright © 2010 CAE Inc. All rights reserved.
23
Tipos de Muestreo
Las estrategias de muestreo estadístico más comunes son (A. Roche,
1989 y M. Alfaro, 2004):
a) Muestreo aleatorio simple.
b) Muestreo aleatorio sistemático.
c) Muestreo aleatorio estratificado.
Debe destacarse que la actividad de muestreo puede corresponder a
actividades físicas bien diferentes, por ejemplo: Toma de una muestra
de suelo o roca, realizar una medición in situ, procesar algún atributo,
etc.

Copyright © 2010 CAE Inc. All rights reserved.


24
Tipos de Muestreo
Muestreo aleatorio simple:
Definición: Si se selecciona un tamaño de muestra n de una población de tamaño
N de tal manera que cada muestra posible de tamaño n tenga la misma
probabilidad de ser seleccionada, el procedimiento de muestreo se denomina
muestreo aleatorio simple. A la muestra así obtenida se le denomina muestra
aleatoria simple.
Considerando muestreo aleatorio sin reposición, se obtiene la muestra unidad a
unidad de forma aleatoria sin reposición a la población de las unidades
previamente seleccionadas, teniendo presente además que el orden de colocación
de los elementos en las muestras no interviene, es decir, muestras con los mismos
elementos colocados en orden distinto se consideran iguales. De esta forma, las
muestras con elementos repetidos son imposibles. Bajo muestreo aleatorio con
reposición, las unidades seleccionadas son devueltas de nuevo a la población.
Copyright © 2010 CAE Inc. All rights reserved.
25
Tipos de Muestreo

Muestreo aleatorio simple

Expondremos una manera de seleccionar una muestra aleatoria simple utilizando


un ejemplo concreto. Se pretende realizar un estudio sobre los hábitos de lectura
en los estudiantes de Politécnica. Las alumnos que actualmente estudian en
Politécnica son un total de 544 alumnos y se quiere extraer una muestra aleatoria
simple de 65 alumnos. Una manera de extraer una muestra aleatoria simple
consiste en asignar a cada alumnos un numero del 1 al 544 asociando cada
número a un único individuo. Una vez realizado esa asignación, se introducen 544
bolas numeradas en una urna (cada una con un numero del 1 al 544), se mezclan
cuidadosamente y de manera adecuada y entonces se seleccionan 65 bolas al
azar.
Copyright © 2010 CAE Inc. All rights reserved.
26
Tipos de Muestreo
Muestreo aleatorio simple

Ejemplo:
En una mina hay 100 cátodos de cobre (numerados) para análisis. Se sortean (con
una tabla de números aleatorios) 5 cátodos y se envían para análisis al laboratorio.
Se analiza Cu, O, S, Cl, Pb, Zn, Ni, Mn, Fe, Ag, As, Sb, Se, Te, Bi, Sn, etc.

Muestreo de cátodos de cobre. Se hacen 3 perforaciones


en diagonal (izquierda). En otra mina se hacen 4 cortes
con sierra (derecha).

Copyright © 2010 CAE Inc. All rights reserved.


27
Tipos de Muestreo

Muestreo sistemático.
En este caso las extracciones de las muestras son determinadas
según una regla fija.
Ejemplos:
• Tomar canaletas en una galería cada 2 metros.
• En una cinta transportadora, tomar una muestra cada 10 minutos.

Copyright © 2010 CAE Inc. All rights reserved.


28
Tipos de Muestreo
Muestreo estratificado.
El lote ML se divide en partes o estratos que no se solapan entre sí.
Cada estrato es muestreado posteriormente según los procedimientos
anteriores.

Copyright © 2010 CAE Inc. All rights reserved.


29
Tipos de Muestreo
Ejemplo:
En las siguientes figuras se tiene un experimento de muestreo estratificado en un
depósito de yodo.
Se realizaron sondajes, de 2 metros de profundidad los cuales proporcionaron las
leyes z1, z2, z3, ... Luego el material ML de la zanja de 5 m * 2 m * 1 m se redujo a
la muestra MS considerando dos estratos (material fino y material grueso). El
muestreo fue manual y la proporción finos/gruesos se determinó “visualmente”. Los
resultados de la muestras y1, y2, y3, ... indican la presencia de un sesgo o error
sistemático (datos en ppm.) [ver tabla siguiente].

Bloques de 1m*5m*2m. Generación “visual” de la muestra MS


Copyright © 2010 CAE Inc. All rights reserved.
30
Tipos de Muestreo

Copyright © 2010 CAE Inc. All rights reserved.


31
Exactitud y Precisión
En teoría del muestreo de minerales se utilizan las nociones de
exactitud y precisión. La figura de abajo, clarifica estos conceptos.
En términos estadísticos estos conceptos corresponden
respectivamente a la media, la cual debe ser insesgada (exactitud) y
a la varianza del error, la cual debe ser pequeña (precisión).

a) Exactitud sin precisión


b) Precisión sin exactitud
c) Exactitud y precisión
d) Ninguna
Copyright © 2010 CAE Inc. All rights reserved.
32
Exactitud y Precisión
Ejemplo:
Sea ML una población o lote con 4 datos y MS una muestra de 2 observaciones del
lote:
ML = { x1, x2 , x3, x4} N = 4
MS = {a1, a2} n = 2
Las muestras posibles y las medias muestrales correspondientes son:
{x1, x2} m1 = (x1 + x2 ) / 2
{x1, x3} m2 = (x1 + x3 ) / 2
{x1, x4} m3 = (x1 + x4 ) / 2
{x2, x3} m4 = (x2 + x3 ) / 2
{x2, x4} m5 = (x2 + x4 ) / 2
{x3, x4} m6 = (x3 + x4 ) / 2

Copyright © 2010 CAE Inc. All rights reserved.


33
Exactitud y Precisión
La media del lote es (observar que en nuestro caso minero nos interesa en general
el muestreo sin reemplazamiento):
m0 = (x1 + x2 + x3 + x4 )/4
y la media de las muestras (posibles) es:
m* = (m1+m2+m3+m4+m5+m6)/6
se observa entonces que:
m0 = m*
Se dice que la media de la muestra (de 2 observaciones) m = (xi + xj)/2 es un
estimador insesgado de la media del lote m0 = (x1+x2+x3+x4)/4.
La propiedad de disponer de un estimador insesgado se cumplirá cuando la
muestra sea equiprobable.
En la práctica, cuando sea posible, siempre se deben utilizar estimadores
insesgados (la experiencia muestra que no existe nada más complejo que corregir
sesgos).
Copyright © 2010 CAE Inc. All rights reserved.
34
Exactitud y Precisión
Formulas del muestreo aleatorio

Sea
ML = { x1, x2, x3,... xN }
MS = { a1, a2, a3,... an }
(se supone que los ai corresponden a una elección al azar, sin reemplazar de los
xi).
m*= (a1 + a2 + a3 +... + an)/n
es un estimador insesgado de:
m0= (x1 + x2 + x3 +... + xN)/N
por otra parte hay que calcular la varianza de la muestra, según la formula
siguiente:
s2 = [(a1-m*)2 +(a2-m*)2 +(a3-m*)2 + ... +(an-m*)2] / (n - 1)

Copyright © 2010 CAE Inc. All rights reserved.


35
Exactitud y Precisión
Se puede demostrar que la varianza S2 = Var(m*) del error de muestreo está dada
por:
S2 = s2 (1/n – 1/N)
(n < N)

Luego, el error de muestreo, con 95 % de confianza, asumiendo que los errores


son gaussianos, lo cual es una aproximación razonable, verifica la desigualdad:
-2S < error < 2S

Las ecuaciones anteriores resuelven el problema del muestreo aleatorio


estadístico.

Copyright © 2010 CAE Inc. All rights reserved.


36
Exactitud y Precisión
Ejemplo:
En la figura a la izquierda se tienen N = 64 árboles de
manzanas con su rendimiento en bushels: 1 bu = 35 lt
(podrían ser diámetros de partículas, leyes de
muestras, etc.). La media real es m0=5,56. Mediante
una tabla de números al azar, se sorteó la siguiente
muestra (sin reemplazamiento) de n = 8 árboles:
{6, 5, 5, 9, 6, 6, 2, 3}
Obteniéndose:
Media estimada = 5,25 Bu
Error de estimación = 1,40 Bu
(el error de estimación, con 95 % de confianza es 2S).

Copyright © 2010 CAE Inc. All rights reserved.


37
Exactitud y Precisión
Formulas del muestreo aleatorio estratificado.

En el caso del muestreo aleatorio estratificado se eligen k estratos, siendo N1, N2,
N3, ..., Nk los tamaños de cada estrato. En cada estrato tomamos ni datos. El tamaño
de la población total es N:

N = N1 + N2+ N3 + ... + Nk
m*=(N1m1 + N2m2 + N3m3 +...+ Nkmk)/N

Es un estimador insesgado de la media de la población m y la varianza del error de


estimación es: S2 = [ (N1S1)2 +(N2S2)2 +(N3S3)2 +...+(NkSk)2 ] / (N)2
(observe que siempre se multiplica por Ni y nunca por ni)

Copyright © 2010 CAE Inc. All rights reserved.


38
Exactitud y Precisión
En las expresiones anteriores se tiene:

mi = [ a1 + a2 + a3 + ... + ani ] / ni
Si2 = si2 (1/ni – 1/Ni)

si

Si2 = [(a1-mi)2 + (a2-mi)2 + (a3-mi)2 + ... + (ani-mi)2 ] / (ni - 1 )

El muestreo aleatorio estratificado, bien aplicado, proporciona, en general, mejores


resultados que el muestreo aleatorio simple.

Copyright © 2010 CAE Inc. All rights reserved.


39
Exactitud y Precisión
Resulta difícil proporcionar recomendaciones prácticas generales acerca del
muestreo de minerales, debido a que esta operación se realiza en todas las etapas
de un Proyecto Minero y a que no existen dos minas iguales entre sí.
El punto fundamental es siempre (para no tener sesgos) y resultados reproducibles:
“Muestras representativas, es decir equiprobables y de varianza pequeña”

Recordar que:
insesgado exacto
varianza pequeña preciso
a) sesgado, varianza grande
b) insesgado, varianza pequeña
c) insesgado, varianza grande
d) sesgado, varianza pequeña
Copyright © 2010 CAE Inc. All rights reserved.
40
Representación de los Datos
Al conjunto de valores asociados a un atributo de una población
muestral, se le denomina datos primarios.
Para estudiar los datos primarios es necesario aplicar procedimientos
que permitan: Caracterizar la variación general del atributo, constatar si
el mismo presenta preferencia a tomar determinados valores,
caracterizar cuantitativamente el grado de dispersión del atributo
alrededor de este valor preferencial.
Para el estudio de la población muestral es conveniente distribuir el
valor que toman los atributos en clases y determinar el número de
muestras unitarias que pertenecen a cada clase. Estos números se
denominan frecuencias de clases, o simplemente, frecuencias.
Copyright © 2010 CAE Inc. All rights reserved.
41
Representación de los datos
La distribución de frecuencias es el ordenamiento de los datos
primarios por clases, conjuntamente con sus frecuencias
correspondientes. Una vez realizada la distribución de frecuencias,
decimos entonces que los datos están agrupados.
Para realizar la distribución de frecuencias se procede de la siguiente
manera:
1) Determinar los valores extremos que ha tomado el atributo, o sea
Xmin y Xmáx.
2) Seleccionar el número de muestras K en que serán agrupadas las
muestras unitarias que conforman la población muestral. Puede
estimarse como: K = √N, cuando N>100.
donde: N=Tamaño de la muestra
Copyright © 2010 CAE Inc. All rights reserved.
42
Representación de los datos

Copyright © 2010 CAE Inc. All rights reserved.


43
Representación de los datos
Tablas de frecuencia acumulada e histogramas

Copyright © 2010 CAE Inc. All rights reserved.


44
Representación de los Datos
3) Definir el ancho del intervalo de clase (). Se puede estimar
como:

4) Definir los intervalos de clase, es decir, el límite inferior (Li) y


superior (Ls) de cada clase, así como la marca clase (mc), de
forma tal que:

Copyright © 2010 CAE Inc. All rights reserved.


45
Representación de los Datos
5) Obtener el número de muestras unitarias de cada clase, es decir, la
frecuencia de clases (fi), según:

6) Obtener la frecuencia acumulativa hasta cada una de las clases,


fa(i), según:

Copyright © 2010 CAE Inc. All rights reserved.


46
Representación de los Datos
7) Confeccionar la distribución de frecuencias empíricas según la
siguiente tabla:

Copyright © 2010 CAE Inc. All rights reserved.


47
Representación de los datos
Para construir un grafico de probabilidad los n valores de los datos
son ordenados de menor a mayor y cada valor zi se representa
gráficamente versus la proporción de datos que son menores que el.
Esto equivale a asignar a cada dato una probabilidad experimental
calculada a partir de la formula:

Pr ob z  z = i −n0.5






 i 

Donde i es el orden que ocupa el dato considerado en el vector


ordenado de menor a mayor.

Copyright © 2010 CAE Inc. All rights reserved.


48
Representación de los Datos

Copyright © 2010 CAE Inc. All rights reserved.


49
Representación de los Datos

En un grafico de probabilidad normal el eje y es escalado de tal modo


que si la distribución es normal las frecuencias acumuladas quedarán
representadas gráficamente sobre una línea recta.

Copyright © 2010 CAE Inc. All rights reserved.


50
Representación de los Datos

Una variable esta lognormalmente distribuida si la distribución de sus


logaritmos es normal. En un grafico de probabilidad lognormal el eje x está
en escala logarítmica, de tal modo que si la variable esta lognormalmente
distribuida, las frecuencias acumuladas caen sobre una línea recta.
Copyright © 2010 CAE Inc. All rights reserved.
51
Representación de los Datos
8) Realizar la representación gráfica de la distribución de frecuencias
obtenida, a través de:
a) Histograma: Gráfico de barras con ancho igual al ancho de cada
clase y altura igual a la frecuencia de clase.
b) Polígono: Gráfico de línea quebrada que une los puntos de
coordenadas.
c) Distribución acumulativa de frecuencias u ojiva: Gráfico de
línea quebrada que une los puntos de coordenadas.

Copyright © 2010 CAE Inc. All rights reserved.


52
Medidas de la Tendencia Central de los Datos o Estadígrafos de Posición

Una vez agrupados los datos, se necesita estimar alrededor de qué valor tiende a
concentrarse el atributo estudiado. Para ello se pueden estudiar distintas medidas
de tendencia central o estadígrafos de posición, que ha continuación se definen.

Copyright © 2010 CAE Inc. All rights reserved.


53
Medidas de la Tendencia Central de los Datos o Estadígrafos de Posición

b) Media geométrica : Es la media de las variables transformadas


logarítmicamente y después transformadas a su escala original.

c) Media harmonica : Se llama así al recíproco de la media


aritmética de los recíprocos de la variable original.

Copyright © 2010 CAE Inc. All rights reserved.


54
Medidas de la Tendencia Central de los Datos o Estadígrafos de Posición
d) Moda: Aunque existen algunas expresiones para su cálculo, en general es
estimada de forma gráfica a partir de la distribución de frecuencias empíricas. La
moda es el valor de marca clase que más se repite, y de esta definición es
posible distinguir modelos de distribución unimodales, bimodales o polimodales,
como aquellos que presentan una, dos o más de dos modas respectivamente.
e) Mediana: De forma similar a la moda, su estimación se
realiza de forma gráfica. Se define como el valor de la
variable estudiada para el cual aparece el 50 % de las
observaciones.
Si los datos primarios son ordenados de forma creciente, la
mediana representa aquel valor de X para el cual la mitad de
los datos son mayores que él, y la otra mitad son menores.
Gráficamente, puede estimarse como aquel valor de X para
el cual la distribución acumulativa de frecuencias relativas es
igual a 0,5.
Copyright © 2010 CAE Inc. All rights reserved.
55
Medidas de la Tendencia Central de los Datos o Estadígrafos de Posición
e) Mediana: De forma similar a la moda, su estimación se
realiza de forma gráfica. Se define como el valor de la
variable estudiada para el cual aparece el 50 % de las
observaciones.
Si los datos primarios son ordenados de forma
creciente, la mediana representa aquel valor de X para
el cual la mitad de los datos son mayores que él, y la
otra mitad son menores. Gráficamente, puede estimarse
como aquel valor de X para el cual la distribución
acumulativa de frecuencias relativas es igual a 0,5.
En general, para distribuciones simétricas, ocurre que la media, la moda y la
mediana son iguales, cumpliéndose que:

Copyright © 2010 CAE Inc. All rights reserved.


56
Medidas de la Dispersión

Al caracterizar una población por el estudio de


un atributo, no solo es necesario conocer el
valor alrededor del cual tienden a presentarse
con más frecuencia los valores de X, sino
también, el grado de dispersión que existe
alrededor de estos valores más frecuentes.

Copyright © 2010 CAE Inc. All rights reserved.


57
Medidas de la Dispersión
A continuación se definen los estadígrafos de dispersión más
utilizados en la práctica: a) Rango (R): Expresa el recorrido de la
variable X bajo estudio, es un estimador
pobre de la dispersión.

Mínimo: Es el valor de la variable para un


porcentaje acumulado del 0 %.

Máximo: Es el valor de la variable para un


porcentaje acumulado del 100 %.

Copyright © 2010 CAE Inc. All rights reserved.


58
Medidas de la Dispersión

b) Cuartiles (Q).
Primer cuartil: Es el valor de la variable para un
porcentaje acumulado del 25 %.
Tercer cuartil: Es el valor de la variable para un
porcentaje acumulado del 75 %.
Rango intercuartil: Q3 - Q1

Copyright © 2010 CAE Inc. All rights reserved.


59
Medidas de la Dispersión
c) Cuantiles, deciles y percentiles.
Cuantil: Valor q(p) de la variable para el cual el porcentaje acumulado
de la distribución es igual a p.
Si p se incrementa de a decimos hablamos de deciles.
Si p se incrementa de a centesimos hablamos de percentiles.
d) Desviación típica, (S): expresa cuán alejado está un valor dado
de los valores más probables. Es uno de los estadígrafos de
dispersión más usados, se define como:

Copyright © 2010 CAE Inc. All rights reserved.


60
Medidas de la Dispersión
Es posible demostrar que si los datos X se transforman en la variable
Z dada por:

Habremos tipificado nuestro atributo X, y la variable Z poseerá


siempre media aritmética cero y desviación típica S.
e) Varianza, (S2): Es una medida de la dispersión muy usada,
definida como el cuadrado de la desviación típica:

Copyright © 2010 CAE Inc. All rights reserved.


61
Medidas de la Dispersión
f) Coeficiente de variación, (V): Es un estadígrafo muy útil cuando
se desea comparar el grado de dispersión de variables que poseen
valores absolutos diferentes. Se define como:

g) Desviación media (D): Es otra medida del grado de dispersión de


los datos y se define como:

Copyright © 2010 CAE Inc. All rights reserved.


62
Medidas de la Dispersión
h) Coeficiente de sesgo: El coeficiente de sesgo o sesgo valora la
asimetría de una distribución y se define como:

En general una distribución no es simétrica con respecto a ningún valor,


presentando una cola hacia la derecha o hacia la izquierda.
Esto se valora por medio del coeficiente de sesgo o sesgo de forma que:
1.- Si CS > 0 la cola de la distribución es hacia la derecha y se dice que
ésta es sesgada positiva.
2.- Si CS < 0 la cola de la distribución es hacia la izquierda y se dice que
ésta es sesgada negativa.
Copyright © 2010 CAE Inc. All rights reserved.
63
Medidas de la Dispersión
El coeficiente de curtosis o curtosis valora que tan puntiaguda es una
distribución y se define como:

Coeficiente de curtosis o curtosis: Cuando los valores de una distribución


están concentrados cerca de la media ésta presenta un pico grande.
Cuando la forma de la distribución es plana los valores se dispersan más
alrededor de la media.
Tal comportamiento se valora a través del coeficiente de curtosis o curtosis.

Copyright © 2010 CAE Inc. All rights reserved.


64
Medidas de la Dispersión
Por lo general se compara una distribución con la curva normal que tiene
una curtosis igual a 3 de manera que:
1.- Si el CC < 3 la distribución presenta un pico menos agudo que la
distribución normal.
2.- Si el CC > 3 la distribución presenta un pico mas agudo que la
distribución normal.
Debe destacarse la diferencia conceptual entre:
Estadígrafos: Magnitudes asociadas con las estimaciones empíricas
realizadas sobre la muestra.
Parámetros: Verdaderas magnitudes de la población objetivo que se está
estudiando, y que en general, solo podrán ser estimados a partir de los
estadígrafos. Copyright © 2010 CAE Inc. All rights reserved.
65
Distribuciones de Probabilidad
Si X representa una variable aleatoria, en general ella tomará diferentes
valores al repetir el experimento. Precisamente, las distribuciones de
probabilidad son los modelos matemáticos diseñados para explicar el
comportamiento estadístico de las variables aleatorias.
Para una variable aleatoria discreta, la función de distribución de
probabilidad nos permite determinar la probabilidad de que X tome
determinado valor. La función de distribución de probabilidad de una
variable aleatoria X continua, nos permite determinar la probabilidad de X
se encuentre en un entorno.
A continuación se presentan las características principales de la ley de
distribución de probabilidad normal y log-normal, por ser las de mayor
importancia práctica.
Copyright © 2010 CAE Inc. All rights reserved.
66
Distribuciones de Probabilidad
a) Ley de Distribución Normal o Gaussiana: Es la ley de distribución más
importante de la estadística matemática. Se cumple para muchas
variables continuas aleatorias en la naturaleza. Sus propiedades
generales son:
1) Es simétrica y tiene forma de campana.
2) El área bajo la curva es la probabilidad de ocurrencia de la variable X.
3) La moda, la media y la mediana son iguales.
Pueden existir infinitas distribuciones normales con diferente media, y
dispersión , por lo que ha sido calculada y tabulada la distribución
acumulativa normal tipificada , siendo Z la variable tipificada, con media
cero y varianza unitaria. Esta tabla puede encontrarse en cualquier libro de
Estadística, (Alfonso, 1989), y nos permite conocer la probabilidad de que la
variable Z tome valores en un determinado intervalo.
Copyright © 2010 CAE Inc. All rights reserved.
67
Distribuciones de Probabilidad

b) Ley de distribución Log-normal: Es otra ley de distribución de


probabilidad que aparece muy frecuentemente en las Geociencias
cuando la distribución de frecuencia de la variable presenta asimetría
hacia la derecha. Sus propiedades generales son las siguientes:
1) Presenta asimetría positiva.
2) Puede ser transformada al modelo normal a partir del cambio de
variables:
3) Se cumple que: Moda < Mediana < Media.

Copyright © 2010 CAE Inc. All rights reserved.


68
Distribuciones Muestrales
Las distribuciones muestrales están asociadas al comportamiento de ciertas
magnitudes que aparecen durante el proceso de elaboración estadística de
poblaciones muestrales. A continuación se presentan algunas de las más
importantes y utilizadas en la práctica.
Distribución de las medias muestrales
Según el Teorema del Límite Central, si tomamos muestras de tamaño N,
de una población caracterizada por una función de distribución arbitraria f(x),
con media y varianza las medias estimadas se comportarán como
una variable aleatoria distribuida normalmente con media y varianza

Copyright © 2010 CAE Inc. All rights reserved.


69
Distribuciones Muestrales
Esto nos permite plantear que la variable cero poseerá distribución
normal con media y varianza unitaria.
Distribución Ji cuadrado
Es una distribución muestral que presenta asimetría positiva y se emplea en
la verificación de hipótesis relacionadas con la igualdad o no de varianza
entre poblaciones muestrales, y el ajuste de datos a modelos.
Distribución t de Student.
Es una distribución muestral simétrica, empleada en la verificación de
hipótesis de igualdad o no de medias entre poblaciones muestrales, así
como durante el análisis de regresión y correlación.

Copyright © 2010 CAE Inc. All rights reserved.


70
Distribuciones Muestrales
- Distribución Fisher.
Es una distribución muestral con asimetría positiva, empleada durante la
verificación de hipótesis relacionada con el análisis de varianza, así como en
el análisis de regresión y correlación múltiple.
- Distribución de Kolmogorov - Smirnov.
Esta distribución presenta gran importancia práctica, porque permite
determinar las discrepancias máximas posibles, que en términos
probabilísticos pueden existir entre:
a) Una distribución acumulativa empírica y la distribución de probabilidad
correspondiente a la población objetivo.

Copyright © 2010 CAE Inc. All rights reserved.


71
Distribuciones Muestrales
b) Dos distribuciones acumulativas empíricas procedentes de una misma
población objetivo.
c) Inferencia Estadística.
La inferencia estadística permite sacar conclusiones sobre una población
objetivo a partir del estudio de una población muestral. Abarca dos
grandes aspecto, el primero vinculado a la teoría de la estimación, el
segundo, conocido como docimasia o verificación de hipótesis estadística.
d) Estimación.
Procedimiento mediante el cual se calcula el valor más probable de un
parámetro poblacional a partir de un estadígrafo muestral.

Copyright © 2010 CAE Inc. All rights reserved.


72
Distribuciones Muestrales
La estimación es puntual cuando se realiza sin considerar el error dado
por el tamaño de la muestra, se realiza solo a partir de un valor numérico
constante. Por ejemplo:

La estimación por intervalos es aquella que estima el valor del parámetro


poblacional a partir del estadígrafo muestral para una probabilidad
determinada, considerando el error cometido debido al tamaño finito de la
muestra seleccionada.

Copyright © 2010 CAE Inc. All rights reserved.


73

Potrebbero piacerti anche