Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Marcelo Rodríguez G.
Ingeniero Estadístico - Magister en Estadística
Denición (Estadística)
Es la ciencia de recolectar, describir e
interpretar datos, (convertir
información en conocimiento) como
un apoyo eciente para la toma de
decisiones.
Denición (SPSS)
Es un programa estadístico que
permite realizar el proceso de
descripción de los datos, en forma
automatizada, (no recolecta ni
interpreta los datos).
1 Descriptivos.
2 Inferenciales.
Ejemplo
Evaluar el grado de dulzor de un fruto
◦
( Brix).
Todos estos problemas son distintos, pero hay una linea general de razon-
amiento que es la misma para todos, la cual es llamada metodología de la
investigación estadística.
La metodología de la investigación
estadística se basa en el Método
Cientíco.
el tamaño de la muestra,
cuestionarios,
pruebas,
ii) Diseño de la base de datos. Una vez que se han recogido los datos y
se ha vericado que no hay errores, se procede a crear la matriz de datos.
Generalmente previo al ingreso de los datos al computador, se procede a un
proceso de codicación, en el caso de que los datos recopilados no sean
realmente números. Comúnmente se utiliza el software estadístico
IBM-SPSS o StatGraphics.
iii) Procesar los datos. Una vez creada la matriz de datos se procede al
procesamiento de los datos. Esto se debe hacer a través de un software
estadístico y se aplican las técnicas que se planicaron anteriormente. De
no ser posible aplicar éstas porque se viole algún supuesto que las valida, se
buscarán técnicas alternativas para el mismo propósito. Habitualmente se
realiza primero un análisis exploratorio (estadística descriptiva) y
posteriormente uno conrmatorio (inferencia estadística).
iv) Analizar los resultados obtenidos. Una vez procesados los datos, se
procede a analizar los resultados obtenidos desde el punto de vista
estadístico. Dependiendo de los objetivos, esto puede consistir simplemente
en una descripción de lo que ocurre en los datos o la búsqueda de
diferencias estadísticamente signicativas, cuando proceda.
Cualitativa o categórica (cualidad o atributo)
Variable Discreta (contable)
Cuantitativa o numérica (cantidad)
Continua (no contable)
Nominal
Ordinal
Intervalo
Razón
Nota: Si bien la unidad de análisis que tenga un código 4 tuvo mejor
desempeño que la que obtuvo un 3 ó 2 ó 1, no signica que ésta haya
tenido, por ejemplo, un desempeño el doble de satisfactorio que la que
obtuvo un 2 (4 es el doble de 2).
0o C 6= 0o F 6= 0o K,
29
F = · C + 32 .
5
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 21 / 98
Escala de Razón
Escalas de Medición
z }| {
no existe orden existe orden 0 relativo 0 absoluto
z }| { z }| { z }| { z }| {
| Nominal
{z⇒ Ordinal
} V |Intervalo ⇒
{z
Razón
}
Cualitativa Discreta
Cuantitativa
Continua
| {z }
Tipos de Variables
Denición (Experimento)
Un experimento es el proceso de obtener una observación y representa
cualquier situación que tenga más de un resultado.
Ejemplo
Un ingeniero realizó un experimento para determinar los efectos de un
fertilizante en el crecimiento y desarrollo de plantas. Se aplicaron dos
fertilizantes (uno orgánico y otro convencional) a 20 plantas (a 10 plantas
se le aplicaron cada fertilizante. Posteriormente, a cada planta, se le mide
el peso de sus raíces en seco.
La Anchura en 8.
(Medidas de Posición)
Entregan la posición relativa que poseen los individuos dentro de la
distribución y se subdividen en dos:
n
X xi
x= .
n
i=1
Denición (Mediana)
Corresponde al valor central cuando las n observaciones se ordenan de
menor a mayor. Es decir, considere las siguientes observaciones
x1 , x2 , ..., xn , además si ordenamos estas observaciones de menor a mayor
tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería
x( n+1 ) , si n es impar;
2
Me = x( n2 ) + x( n2 +1)
, si n es par.
2
Denición (Percentil α)
Los percentiles cumplen con la condición de superar a no más del
(1 − α)100% de los datos y de ser superado, a los más por el porcentaje
complementario de las observaciones.
Pα = (1 − d) · x(e) + d · x(e+1) .
Donde,
i = α(n + 1),
e= parte entera de i,
d = i − e.
El cuartil 1 (Q1 ) marca la parte alta del primer cuarto de los datos,
corresponde al P0,25 .
El cuartil 3 (Q3 ) marca la parte baja del último cuarto de los datos,
corresponde al P0,75 .
El cuartil 2 (Q2 ) corresponde a la P0,50 = Me .
El rango intercuartil.
La varianza.
El coeciente de variación.
Entre otras.
Denición (Rango)
Corresponde a la diferencia entre el mayor y menor de los datos.
R = Máx − Mín
RI = Q3 − Q1
Denición (Varianza)
La varianza de las observaciones x1 , x2 , ..., xn es
n
1 X
s2 = (xi − x)2 .
n−1
i=1
Esta mide las variaciones promedio que existen en los datos con respecto a
la media de la muestra.
v
√
u n
u 1 X
s= s2 = t (xi − x)2 .
n−1
i=1
s
CV = 100%
x
x > 0.
Útil para comparar variabilidad entre grupos.
Regla empírica
Denición (Regla empírica ) Media = 0 y Desviación Estándar =1.
continuación, contienen
Frecuencia
aproximadamente los siguientes 750
Intervalo Porcentaje
[x − s; x + s] 68, 27% 250
-3 -2 -1 0 1 2 3
Normal
s s
x − 1, 96 · √ ; x + 1, 96 · √
n n
n ≥ 30.
Se recomienda utilizar este intervalo para
s
1, 96 · √ es llamado error de estimación.
n
s
√ es llamado error típico de la media.
n
Xn
3
(xi − x)
n i=1
sk =
3
(n − 1)(n − 2)
s
s
6n(n − 1)
esk = .
(n − 2)(n + 1)(n + 3)
sk
Si,
esk ≤ 1, 96, entonces la distribución de los datos es simétrica.
Xn
4
(xi − x)
2
n(n + 1) i=1
− n(n − 1)
k=
(n − 1)(n − 2)(n − 3)
s4
(n − 2)(n − 3)
.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 45 / 98
Coecientes de apuntamiento: Error típico de la curtosis
s
24n(n − 1)2
ek = .
(n − 3)(n − 2)(n + 3)(n + 5)
k
Si, ≤ 1, 96, entonces la distribución de los datos es como la normal.
ek
Dependiendo del signo de k, se identica si es platicurtica o mecocurtica.
xi − x xi − x
xi ∈ [x − 3s; x + 3s] ⇔ ∈ [−3; 3] ⇔ ≤3
s s
xi −x
∴ Si consideramos la transformación zi = s , entonces un dato xi es
atípico si |zi | > 3.
No atípico
z }| {
· · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · ·
| {z } | {z } | {z } | {z }
Potencial Posible Posible Potencial
la distribución de probabilidad
sería,
30
pX (x) = 0, 80x 0, 2030−x ,
x
si x = 0, 1, ..., 30
30
X 30
P(X ≥ 25) = 0, 80x 0, 2030−x = 0, 427512438,
x
x=25
Por otro lado, la probabilidad de que el número de semillas sanas sea superior
o igual a 28, es de
30
X 30
P(X ≥ 28) = 0, 80x 0, 2030−x = 0, 044178985,
x
x=28
Excel, =aleatorio().
13 16 10 3
Ejemplo
Considere el ejemplo anterior, recuerde que se desea medir el grado de
dulzor.
Suponga que se realiza un censo (todas las manzanas) y en cada una de las
16 manzanas se va a aplicar la evaluación y se mide el grado de dulzor y los
datos son.
Observación
El objetivo de una prueba de hipótesis es elegir entre H0 o H1 ,
mediante información muestral.
Denición (valor−p)
El valor−p, es el mínimo valor de α que lleva al rechazo de H0 . Es también
llamado signicancia (sig.).
Recuerde el problema del distribuidor que cree que más del 80% de sus
semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y
25 de ellas están sanas.
(Hipótesis)
H0 : p ≤ 0, 80 v/s H1 : p > 0, 80
La hipótesis nula es que la muestra de n = 30 semillas fue extraída de una
población con p ≤ 0, 80. Luego, bajo H0 cierta, la distribución de la
muestra que más favorece a H1 es una distribución binomial con
parámetros (n = 30, p = 0, 80) que es una distribución conocida por el
investigador.
(Estadístico de Prueba)
El estadístico de prueba es la variable aleatoria X que cuenta la cantidad
de semillas sanas en la muestra de tamaño 30, y su distribución cuando H0
es cierta es conocida, es una binomial de parámetros (n = 30, p = 0, 80).
Para este caso el estadístico de prueba observado es X = 25.
(Región de rechazo)
Consideremos α = 0, 05 y las siguientes probabilidades
(Valor−p)
valor−p=P(X ≥ 25) = 0, 427512438
(Conclusión)
Como el estadístico de prueba no pertenece a la región de rechazo ( o
equivalentemente el valor−p > 0,05), no debería rechazarse H0 . Es decir,
basándose en la muestra observada y con α = 0, 05, no existen evidencias
sucientes que demuestren los dichos del distribuidor.
x − µo
Estadística de prueba (calculado): zc = √
σ/ n
Ejemplo
Un Ingeniero Agrónomo de una empresa desea saber si la producción media
de trigo (diaria) es superior a los a 400 kg. Una muestra aleatoria de 172
días reveló que la producción media de la muestra era 407 kg. Se sabe de
estudios anteriores que la desviación estandar es 38 kg.
¾El ingeniero debe llegar a la conclusión de que la media de su producción
diaria es mayor a 400 kg, o es razonable que la diferencia existente se deba
a la casualidad?
σ σ
x − z1−α/2 · √ ; x + z1−α/2 · √
n n
σ
ee = z1−α/2 · √ es llamado error de estimación.
n
σ
√ es llamado error típico de la media o error estándar.
n
2
z1−α/2 · σ2
n> .
ee2
Además, si se conoce el tamaño de la población (N ), el tamaño de
muestra nal (corrección para poblaciones nitas) sería
n
nf > .
1 + n/N
Ejemplo
1 Considere el ejemplo anterior, encuentre un IC del 95% para µ. ¾Tiene
sentido este intervalo?
x − µo
Estadística de prueba (calculada): tc = √
s/ n
Ejemplo
Recuerde el experimento experimento en el cual 30 lotes de una misma
variedad, se hicieron crecer en un mismo ambiente. La altura de planta fue
la variable que se registró. Considerando la muestra, la altura promedio fue
de x = 11, 67 cm y la desviación estándar fue de s = 1, 76. El ingeniero
cree que la altura es signicativamente diferente de 12 cm.
b − π0
π
Estadística de prueba (calculada): zc = p
π0 (1 − π0 )/n
Para que esta prueba se cumple se debe vericar que nπ0 ≥ 5 y n(1−π0 ) ≥ 5.
Ejemplo
Recuerde el problema en que distribuidor cree que más del 80% de sus
semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y
25 de ellas están sanas. Proporciona esta muestra suciente evidencia para
creer que el distribuidor tiene razón.
Este problema fue resuelto mediante pruebas de hipótesis usando la
distribución binomial,
Ejemplo
Un suelo agrícola productivo requiere cierto nivel de ventilación para
mantener activo el crecimiento de la raíz de la planta y la actividad de los
microbios de suelo. La actividad microbiana, medida como el aumento de
CO2 , se usó como medida del nivel de oxigenación del suelo. La evolución
CO2 /kg suelo/día en cada contenedor se midió 2 días distintos de iniciado
el periodo de incubación. La actividad microbiana en cada muestra de
suelo se registró como el porcentaje de incremento en el CO2 producido por
encima del nivel atmosférico. Los datos se muestran a continuación.
Muestra de suelo 1 2 3 4 5 6 7
Día 1 0,43 0,68 0,68 0,45 0,72 0,70 0,56
Día 2 0,56 0,72 0,69 0,55 0,82 0,69 0,54
d
Estadística de prueba: tc = √
sd / n
Muestra de suelo 1 2 3 4 5 6 7
d -0,13 -0,04 -0,01 -0,10 -0,10 0,01 0,02
Fíjese que está prueba es igual a una prueba T para una muestra, para las
diferencias.
x − x2
Estadística de prueba: tc = q1
sp n11 + n12
Ejemplo
Considere un problema de crecimiento bacterial. A cada conjunto de
condiciones de empaque, se le asignaron, al azar, 5 cortes de carne. Se
asume que los cortes forman un grupo homogéneo. Se mide el número de
bacterias por centímetro cuadrado.
Condiciones de empaque
Al vacio (T1 ) 100% CO2 (T2 )
620 550
640 500
680 440
630 510
670 550
Hipótesis: H0 : µ1 = µ2 v/sH1 : µ1 6= µ2
648 − 510
Estadístico de prueba: tc = q = 5, 917
1 1
36, 878 5 + 5
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | > t0,975 (8) = 2, 306.
Signicancia: valor−p = 2[1 − P(T < |5, 917|)] = 2[1 − P(T <
5, 917)] < 2[1 − 0, 9995] = 0, 001
Donde, T ∼ t(8).