Sei sulla pagina 1di 98

Introducción a la estadística y

prueba de hipótesis en SPSS

Marcelo Rodríguez G.
Ingeniero Estadístico - Magister en Estadística

Universidad Católica del Maule


Facultad de Ciencias Básicas
Ingeniería en Agronomía
Diseño Experimental
14 de marzo de 2011

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 1 / 98


Introducción

Denición (Estadística)
Es la ciencia de recolectar, describir e
interpretar datos, (convertir
información en conocimiento) como
un apoyo eciente para la toma de
decisiones.

Denición (SPSS)
Es un programa estadístico que
permite realizar el proceso de
descripción de los datos, en forma
automatizada, (no recolecta ni
interpreta los datos).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 2 / 98


Conceptos Estadísticos
Unidad de análisis: es el ente que proporciona un dato. También
recibe el nombre de unidad experimental.
Medición: es el proceso que asigna un valor a una unidad de análisis.
En Estadística no siempre una medición es como lo que clásicamente
entendemos, medición también puede entenderse como
observación o conteo. Su objetivo es generar datos.
Error de medición: es la diferencia entre el valor exacto que posee la
unidad de análisis y el valor entregado por un instrumento de medición.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 3 / 98


Conceptos Estadísticos
Exactitud: Un valor es exacto si no contiene error.
Precisión: Un valor será más preciso en la medida en que acerque a
su valor exacto (tiene que ver con la aproximación numérica).
Error de precisión: es la diferencia entre el valor exacto y su
aproximación numérica.
Población: es el universo o conjunto total de unidad de análisis.
Sobre este conjunto se obtendrán las conclusiones nales.
Muestra aleatoria: es un subconjunto de la población que posee un
grado de representatividad adecuado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 4 / 98


Conceptos Estadísticos

Censo: estudio que involucra a toda la población. No contiene error


de precisión, pero es costoso.

Muestreo: estudio que involucra a una muestra. Contiene error de


muestreo, pero es menos costoso.

Sesgo: componente de un estudio que hace que la muestra no sea


aleatoria, pues distorsiona las conclusiones del estudio e impide que se
lleve a cabo un proceso inferencial.

Parámetros: información relacionada con la población y que es de


interés para el investigador.

Estimadores: aproximaciones de los parámetros basadas en la


muestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 5 / 98


Clasicación de los Métodos Estadísticos

Los métodos estadísticos pueden clasicarse en dos grandes grupos:

1 Descriptivos.

2 Inferenciales.

Denición (Métodos Descriptivos)


Se preocupan de describir el conjuntos de datos. Generalmente están
relacionados con el análisis preliminar o exploratorio de los datos.

Denición (Métodos Inferenciales)


Son los encargados de llevar adecuadamente los resultados de una muestra
aleatoria hacia la población objetivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 6 / 98


Ejemplos de Problemas Estadísticos

Ejemplo
Evaluar el grado de dulzor de un fruto

( Brix).

Identicar el efecto de un fertilizante, en el


crecimiento de la lechuga.

Comparar la efectividad de dos insecticidas,


en el control de plagas.

Comparar la efectividad de una dieta, en


cierto tipo de animal.

Todos estos problemas son distintos, pero hay una linea general de razon-
amiento que es la misma para todos, la cual es llamada metodología de la
investigación estadística.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 7 / 98


Metodología de la Investigación Estadística

La metodología de la investigación
estadística se basa en el Método
Cientíco.

La Estadística proporciona técnicas


que permiten describir, obtener o
comprobar los resultados de una
investigación.

Para que esos resultados sean


conables es importante considerar
todas las etapas de la investigación,
éstas son: la planicación y
ejecución del estudio.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 8 / 98


Metodología de la Investigación Estadística: Planicación

i) Planteamiento del Problema. Aquí debe quedar claro el problema que


motiva la investigación, deben plantearse las preguntas que motivan el
estudio y otros aspectos que permitan comprender con claridad, pero de
manera resumida, lo que se desea describir, obtener o comprobar.

ii) Delimitar la Población Objetivo. Aquí se dene cuales serán las


unidades experimentales a analizar. Este punto es no menos importante, ya
que las conclusiones que se desprendan del estudio sólo pueden alcanzar a
este conjunto.

iii) Describir los Objetivos. Aquí se deben plantear, con la mayor


claridad posible, el(os) objetivo(s) general(es) que motivan la investigación,
así como los objetivos especícos que se desprendan de cada objetivo
general (en el caso de haber más de uno). Los objetivos se plantean como
verbo en innitivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 9 / 98


Metodología de la Investigación Estadística: Planicación

iv) Plantear las Hipótesis de Trabajo. Cada objetivo especíco se


transforma en una hipótesis de trabajo y esta a su vez en dos hipótesis
estadística:

la que postula lo que investigación plantea, es decir, la hipótesis de


investigación (H1 ) y

la que refuta esto y que representa al estado actual de los hechos, es


decir, la hipótesis nula (H0 ).
Las hipótesis son aseveraciones que están sujetas a conrmación, son sólo
conjeturas y deben ser conrmadas en base a los datos recolectados.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 10 / 98


Metodología de la Investigación Estadística: Planicación

v) Establecer la Metodología Estadística. Una vez delineados los


objetivos, se debe plantear de la manera más precisa posible, las técnicas
estadísticas que permitirán comprobar los objetivos planteados. Sin
embargo, una vez recolectados los datos, estos procedimientos deben ser
conrmados en base al comportamiento que presenten los datos.

vi) Plantear el plan de muestreo. Con la metodología estadística


planteada, se procede a desarrollar el plan de muestreo que permitirá
escoger la muestra de unidades que se analizarán para validar los objetivos
propuestos. Aquí se deberá determinar

el tamaño de la muestra,

la técnica especíca que se utilizará (m.a.s., m.a.e. u otro) y

se seleccionarán las unidades de análisis que conformarán esta muestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 11 / 98


Metodología de la Investigación Estadística: Ejecución

i) Recopilar los datos. Esto se realiza basándose en el plan de muestreo


que se planteó antes y a través del instrumento que permitirá recopilar los
datos, por ejemplo:

cuestionarios,

pruebas,

instrumentos de medición, etcétera.

En esta etapa es importante evitar errores en la obtención de los datos.

ii) Diseño de la base de datos. Una vez que se han recogido los datos y
se ha vericado que no hay errores, se procede a crear la matriz de datos.
Generalmente previo al ingreso de los datos al computador, se procede a un
proceso de codicación, en el caso de que los datos recopilados no sean
realmente números. Comúnmente se utiliza el software estadístico
IBM-SPSS o StatGraphics.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 12 / 98


Metodología de la Investigación Estadística: Ejecución

iii) Procesar los datos. Una vez creada la matriz de datos se procede al
procesamiento de los datos. Esto se debe hacer a través de un software
estadístico y se aplican las técnicas que se planicaron anteriormente. De
no ser posible aplicar éstas porque se viole algún supuesto que las valida, se
buscarán técnicas alternativas para el mismo propósito. Habitualmente se
realiza primero un análisis exploratorio (estadística descriptiva) y
posteriormente uno conrmatorio (inferencia estadística).

iv) Analizar los resultados obtenidos. Una vez procesados los datos, se
procede a analizar los resultados obtenidos desde el punto de vista
estadístico. Dependiendo de los objetivos, esto puede consistir simplemente
en una descripción de lo que ocurre en los datos o la búsqueda de
diferencias estadísticamente signicativas, cuando proceda.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 13 / 98


Metodología de la Investigación Estadística: Ejecución

v) Obtener las conclusiones y publicar los resultados. Finalmente, y


tratando de evitar un lenguaje demasiado técnico, se procede a obtener las
conclusiones y a incorporarlas en un informe estadístico del estudio, cuyos
resultados serán incorporados al informe nal del estudio, que deberá
redactar el equipo investigador. Aquí termina la labor estadística.

vi) Tomar las decisiones pertinentes. Con estos resultados se procede a


tomar las decisiones más pertinentes para el propósito que se ha planteado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 14 / 98


Variable Estadística

Denición (Variable estadística)


Es cualquier característica o atributo que es deseable conocer acerca de las
unidades de análisis y que se espera varíe de una unidad a otra.
Comúnmente, se identican con la letra X.

Denición (Recorrido de una Variable)


Es el conjunto de todos los posibles valores de una variable. Comúnmente,
se identican con el símbolo RX .

Denición (Dato estadístico)


Es la observación, conteo o medición de una variable estadística sobre una
unidad de análisis.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 15 / 98


Tipos de Variables: Cualitativas y Cuantitativas

Denición (Variable Cualitativa)


Variable que representa una cualidad o atributo.

Denición (Variable Cuantitativa)


Variable que representa una cantidad o valor numérico.

Denición (Variable Cuantitativa Discreta)


Si la variable cuantitativa se generó a través de un conteo, entonces ésta es
discreta y sólo puede tomar valores enteros (su recorrido se puede
contar)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 16 / 98


Tipos de Variables: Cualitativas y Cuantitativas

Denición (Variable Cuantitativa Continua)


Si la variable cuantitativa se generó a través de una medición
(generalmente se usa un instrumento de medición, como una balanza, un
reloj, termómetro, prueba, etcétera), entonces ésta es continua y admite
valores decimales y sus valores pertenecen a un intervalo de los números
reales (su recorrido no es contable).


 Cualitativa o categórica (cualidad o atributo)



 
Variable  Discreta (contable)



 Cuantitativa o numérica (cantidad)
 
Continua (no contable)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 17 / 98


Escalas de Medición

Toda variable estadística se puede clasicar en una de las siguientes escalas


de medida, las que presentaremos en un orden ascendente respecto de la
riqueza de información que nos entrega cada una de ellas.

Las escalas de medición son:

Nominal

Ordinal

Intervalo

Razón

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 18 / 98


Escala Nominal
Denición (Escala Nominal)
Escala empleada en variables de tipo cualitativa, utiliza los números sólo
como símbolos, códigos o nombres (nominal deriva de nombre) para
separar a las unidades de análisis en distintos grupos o clases excluyentes,
sin que sea posible establecer un orden entre los códigos de dos unidades
que pertenezcan a distintas clases ni tampoco distancia entre los códigos
de estas unidades.

Ejemplo (Escala Nominal)


Sea X la variedad de las manzanas. Entonces, la variable es cualitativa y
medida en escala nominal. Sus clases o categorías pueden ser las siguientes:

RX ≡ {Fuji(1); Royal Gala(2); Cripps Pink(3)}.

Nota: en este ejemplo se ha asignado los códigos 1, 2 y 3 a las tres


variedades, sin que 3 signique mejor que 2 ni que 1.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 19 / 98


Escala Ordinal

Denición (Escala Ordinal)


En esta escala, empleada en el mismo sentido que la escala nominal, los
números sí indican un orden, aunque no establecen distancias, es decir,
siguen siendo códigos y no realmente números.

Ejemplo (Escala Ordinal)


Sea X el desempeño laboral. Entonces, la variable es cualitativa y medida
en escala ordinal. Sus clases o categorías pueden ser:

RX ≡ {Malo(1); Regular(2); Bueno(3); Excelente(4)}.

Nota: Si bien la unidad de análisis que tenga un código 4 tuvo mejor
desempeño que la que obtuvo un 3 ó 2 ó 1, no signica que ésta haya
tenido, por ejemplo, un desempeño el doble de satisfactorio que la que
obtuvo un 2 (4 es el doble de 2).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 20 / 98


Escala de Intervalos

Denición (Escala de Intervalos)


Esta escala, utilizada exclusivamente para variables cuantitativas, en este
caso, los número de dejar de ser códigos y son efectivamente cantidades
numéricas, por lo que es posible medir la magnitud de la diferencia entre
los valores. Sin embargo, su principal característica es que el cero (0) no
indica ausencia de característica, es decir, depende de la unidad en que se
mida la variable (el 0 es relativo).

Ejemplo (Escala de Intervalos)


Sea X la temperatura ambiente. Entonces, la variable es cuantitativa
continua y medida en escala de intervalos, pues la temperatura 0o C no
indica ausencia de temperatura.

 
0o C 6= 0o F 6= 0o K,
29
F = · C + 32 .
5
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 21 / 98
Escala de Razón

Denición (Escala de Razón)


Se usa en el mismo sentido que la escala de intervalos, pero además en este
caso tiene sentido el concepto de razón o cociente entre dos cantidades
(lo cual no es posible establecer en la escala de intervalos) sólo que en este
caso el cero (0) indica ausencia de la característica, es decir, no depende de
la unidad en que se mida la variable (el 0 es absoluto).

Ejemplo (Escala de Razón)


Sea X el peso de las raíces secas de cierta planta. Entonces, la variable es
cuantitativa continua y medida en escala de razón, pues el peso 0, indica
ausencia de peso.

0 tonelada ≡0 libras ≡0 kgs.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 22 / 98


Diagrama de Tipos de Variables v/s Escalas de Medición

Escalas de Medición
z }| {
no existe orden existe orden 0 relativo 0 absoluto
z }| { z }| { z }| { z }| {
| Nominal
{z⇒ Ordinal
} V |Intervalo ⇒
{z

Razón
}
Cualitativa  Discreta
Cuantitativa
 Continua
| {z }
Tipos de Variables

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 23 / 98


Variable de respuesta y explicatoria

Denición (Experimento)
Un experimento es el proceso de obtener una observación y representa
cualquier situación que tenga más de un resultado.

Denición (Variable Respuesta  Y )


Mide alguna característica del resultado de un experimento. La variable de
respuesta, depende de alguna manera, de otra variable. Es también llamada
variable dependiente.

Denición (Variable Explicatoria  X )


Es la que explica o causa los cambios en la variable de respuesta, es
controlada por el investigador. También es llamada variable
independiente.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 24 / 98


Ejemplo

Ejemplo
Un ingeniero realizó un experimento para determinar los efectos de un
fertilizante en el crecimiento y desarrollo de plantas. Se aplicaron dos
fertilizantes (uno orgánico y otro convencional) a 20 plantas (a 10 plantas
se le aplicaron cada fertilizante. Posteriormente, a cada planta, se le mide
el peso de sus raíces en seco.

Experimento = Proceso de pesar las raíces secas.

Unidad experimental = Raíces secas.

Error Experimental = Es la variación entre los pesos de distintas raíces


tratadas de manera idéntica.

Variable de respuesta = Peso de las raíces en seco.

Variable explicatoria = Tipos de Fertilizantes.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 25 / 98


Iniciando SPSS

Cuando se inicia SPPS,


aparece esta ventana, que
es llamada Vista de datos
en ella sólo se debe ingre-
sar los datos. Para entre-
garle las características de
las variables (nombre, es-
cala, decimales, etc), hay
que ingresar a Vista de
variables Existe una ter-
cera vista que es llamada
Vista de resultados, es
donde SPSS entrega todos
los resultados.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 26 / 98


Libro de códigos: Explicación de la base de datos
Puede descargar la base de datos desde: http://bit.ly/data_riego

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 27 / 98


Diseño de la base de datos: Las variables

En Vista de variable debe modicar:

La Anchura en 8.

Los Decimales (según el caso).

La Etiqueta (nombre completo


de la variable, este nombre es el
que aparece en los grácos y
salidas).

Los Valores, si la variable es nominal u ordinal, hay denir que


signican los valores.

En Medida, debe ingresar la escala de medición de las variables


(nominal, ordinal, intervalo y razón). SPSS no distingue entre las de
intervalo o razón y simplemente le llama escala.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 28 / 98


Medidas de Resumen
Estas medidas estadísticas resumen al conjunto de datos, también se les
denomina estadísticos. Estas medidas se clasican en medidas de posición,
dispersión y forma.

(Medidas de Posición)
Entregan la posición relativa que poseen los individuos dentro de la
distribución y se subdividen en dos:

a) Las medidas de tendencia central, que tienden a ubicarse en el centro


de la distribución, entre las cuales se encuentran:
La media o promedio aritmético.
La mediana o valor del centro.
La moda, o valor más frecuente.
b) Los percentiles, que tienden a ubicarse en distintas partes de la
distribución de la variable, entre los que se encuentran:
Los cuartiles (dividen al conjunto en cuatro partes iguales).
Los deciles (dividen al conjunto en 10 partes iguales).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 29 / 98


Medidas de tendencia central: Media
Denición (Media)
La media o promedio aritmético de un conjunto de n datos digamos
x1 , x2 , . . . , xn , viene dado por:

n
X xi
x= .
n
i=1

Denición (Media Recortada al 5%)


Es el promedio de los datos sin considerar el 5% más pequeño, ni el 5%
más alto.

El uso de la media es exclusivamente para variables cuantitativas.


La media puede ser afectado de manera desproporcionada por la
existencia de datos atípicos (fuera de lo común).
La media recortada al 5%, comúnmente no es afectada por valores
atípicos.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 30 / 98
Medidas de tendencia central: Mediana

Denición (Mediana)
Corresponde al valor central cuando las n observaciones se ordenan de
menor a mayor. Es decir, considere las siguientes observaciones
x1 , x2 , ..., xn , además si ordenamos estas observaciones de menor a mayor
tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería


 x( n+1 ) , si n es impar;
2
Me = x( n2 ) + x( n2 +1)
 , si n es par.
2

No se puede usar esta medida si la escala de medición de la variables


es nominal.

Su cálculo no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 31 / 98


Medidas de tendencia central: Moda

Denición (Moda (Mo ))


Corresponde al valor o categoría con más alta frecuencia en los datos.

El uso de esta medida es para cualquier tipo de variable.

En el caso de variables cuantitativas, los datos pueden ser agrupados


en clases y la moda se dene como la marca de clase que tiene la
mayor frecuencia.

Puede existir más de una moda en un conjunto de datos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 32 / 98


Medidas de posición: Los percentiles

Denición (Percentil α)
Los percentiles cumplen con la condición de superar a no más del
(1 − α)100% de los datos y de ser superado, a los más por el porcentaje
complementario de las observaciones.

Considere los siguientes datos ordenados de menor a mayor


x(1) , x(2) , ..., x(n) . Entonces,

Pα = (1 − d) · x(e) + d · x(e+1) .

Donde,

i = α(n + 1),
e= parte entera de i,
d = i − e.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 33 / 98


Medidas de posición: Cuartiles
Denición (Cuartiles)
Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual
tamaño:

El cuartil 1 (Q1 ) marca la parte alta del primer cuarto de los datos,
corresponde al P0,25 .
El cuartil 3 (Q3 ) marca la parte baja del último cuarto de los datos,
corresponde al P0,75 .
El cuartil 2 (Q2 ) corresponde a la P0,50 = Me .

Metodología para el cálculo aproximado de Q1 y Q3

Paso 1: Ordene los datos de menor a mayor y encuentre la Me .


Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la
Me . Si n es impar incluya la mediana en ambas mitades.

Paso 3: Encuentre la mediana en ambas mitades, estas son Q1 y Q3 .


mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 34 / 98
Medidas de dispersión

Las segundas medidas estadísticas de resumen, las de dispersión, nos


entregan el grado de dispersión, variabilidad u homogeneidad que poseen
los datos dentro del conjunto, generalmente respecto de una medida de
tendencia central, entre las que se encuentran:

El rango o desviación máxima

El rango intercuartil.

La varianza.

La desviación estándar o típica.

El coeciente de variación.

Entre otras.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 35 / 98


Medidas de dispersión: Rango y rango intercuartil

Denición (Rango)
Corresponde a la diferencia entre el mayor y menor de los datos.

R = Máx − Mín

Denición (Rango Intercuartil)


Esta medida de variabilidad es resistente a valores atípicos y se concentra
en el 50% de los datos. También llamado Amplitud Intercuartil.

RI = Q3 − Q1

El uso de R y RI no es para variables nominales.

R es afectado por la existencia de datos atípicos.

RI no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 36 / 98


Medidas de dispersión: Varianza

Denición (Varianza)
La varianza de las observaciones x1 , x2 , ..., xn es

n
1 X
s2 = (xi − x)2 .
n−1
i=1

Esta mide las variaciones promedio que existen en los datos con respecto a
la media de la muestra.

Su calculo es afectado por la existencia de datos atípicos.

El uso de esta medida es exclusivamente para variables cuantitativas.

Esta medida no se puede interpreta, pues tiene unidades de medida al


cuadrado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 37 / 98


Medidas de dispersión: Desviación estándar

Denición (Desviación estándar)


Se dene la desviación estándar (típica) como

v

u n
u 1 X
s= s2 = t (xi − x)2 .
n−1
i=1

Su calculo es afectado por la existencia de datos atípicos.

El uso de esta medida es exclusivamente para variables cuantitativas.

Se interpreta como la cantidad de desviaciones promedio de los datos


con respecto a la media.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 38 / 98


Medidas de Dispersión: Coeciente de variación

Denición (Coeciente de variación)


Corresponde a una medida de dispersión relativa a la media. Esta dada por

s
CV = 100%
x

No depende de la unidad de medida.

x > 0.
Útil para comparar variabilidad entre grupos.

Mientras más pequeño es el valor del CV más homogéneos (parecidos


entre si) son los datos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 39 / 98


Relación entre el promedio y la desviación estándar

Regla empírica
Denición (Regla empírica ) Media = 0 y Desviación Estándar =1.

Para un conjunto de datos (n


grande) que tienen un histograma 1.250

simétrico, con forma de campana,


los intervalos, que se presenta a 1.000

continuación, contienen

Frecuencia
aproximadamente los siguientes 750

porcentajes de los datos.


500

Intervalo Porcentaje
[x − s; x + s] 68, 27% 250

[x − 2s; x + 2s] 95, 45%


[x − 3s; x + 3s] 99, 73% 0

-3 -2 -1 0 1 2 3
Normal

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 40 / 98


Intervalo de conanza del 95% para la verdadera media
poblacional µ (para muestras grandes)

Denición (Intervalo de Conanza para µ)


Intervalo de Conanza del 95% para la verdadera media poblacional µ
(para muestras grandes), se dene como

 
s s
x − 1, 96 · √ ; x + 1, 96 · √
n n

n ≥ 30.
Se recomienda utilizar este intervalo para
s
1, 96 · √ es llamado error de estimación.
n
s
√ es llamado error típico de la media.
n

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 41 / 98


Medida de forma: sesgo
Denición (Sesgo)
Índice que expresa el grado de asimetría de la distribución de los datos
(histograma). La asimetría positiva indica que los valores más extremos se
encuentran por encima de la media. La asimetría negativa indica que los
valores más extremos se encuentran por debajo de la media. Su formula es

Xn  
3
  (xi − x) 
n  i=1 
sk = 
3

(n − 1)(n − 2) 
 s 

Si sk = 0, entonces la distribución es simétrica.


Si sk < 0, entonces la distribución es asimétrica negativa.
Si sk > 0, entonces la distribución es asimétrica positiva.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 42 / 98


Medida de forma: Relación Entre Promedio y la Mediana

Distribución Simétrica (No Sesgada):


x = Me
Distribución Asimétrica Positiva, :
Me < x
Distribución Asimétrica Negativa:
x < Me

Una distribución es simétrica si la mitad izquierda de su distribución es


la imagen de su mitad derecha.

La asimetría es positiva o negativa en función de a qué lado se


encuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 43 / 98


Medida de forma: Error típico del sesgo

Denición (Error típico del sesgo)


Es la desviación típica de la distribución muestral del índice de asimetría, el
cual permite tipicar el valor del índice de asimetría e interpretarlo como
una puntuación z. Índices tipicados mayores que 1,96 en valor absoluto
permiten armar que existe asimetría (positiva o negativa, dependiendo del
signo del índice). Su formula es

s
6n(n − 1)
esk = .
(n − 2)(n + 1)(n + 3)

sk
Si,
esk ≤ 1, 96, entonces la distribución de los datos es simétrica.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 44 / 98


Coecientes de apuntamiento: Curtosis
Denición (Curtosis)
Índice que expresa el grado en que una distribución acumula casos en sus
colas en comparación con los casos acumulados en las colas de una
distribución normal con la misma varianza. Su formula es

Xn  
4
(xi − x)  
2
  
n(n + 1)  i=1 
− n(n − 1)
k= 
(n − 1)(n − 2)(n − 3) 
 s4 
 (n − 2)(n − 3)

Si k > 0, entonces la distribución es más puntiagudas (Leptocurtica)..


Si k = 0, (proximos a cero) entonces indican semejanza con la curva
normal.
Si k < 0, entonces la distribución es más aplanada (Mesocurtica).

.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 45 / 98
Coecientes de apuntamiento: Error típico de la curtosis

Denición (Error típico de la curtosis)


El error típico del índice de curtosis, el cual puede utilizarse para tipicar el
valor del índice de curtosis y poder interpretarlo como una puntuación z..
Índices mayores que 1,96 en valor absoluto permiten armar que la
distribución se aleja de la distribución normal. Su formula es

s
24n(n − 1)2
ek = .
(n − 3)(n − 2)(n + 3)(n + 5)

k
Si, ≤ 1, 96, entonces la distribución de los datos es como la normal.
ek
Dependiendo del signo de k, se identica si es platicurtica o mecocurtica.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 46 / 98


Identicación de datos atípicos: Método de la puntuación z

Denición (Método de la puntuación z :)


Si consideramos la regla empírica, sabemos que aproximadamente el 100%
de los datos está en el intervalo [x − 3s; x + 3s]. Es muy improbable que un
dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un
dato atípico. Es decir, un dato es no atípico si


xi − x xi − x
xi ∈ [x − 3s; x + 3s] ⇔ ∈ [−3; 3] ⇔ ≤3
s s
xi −x
∴ Si consideramos la transformación zi = s , entonces un dato xi es
atípico si |zi | > 3.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 47 / 98


Identicación de datos atípicos: Método de Tukey

Denición (Método de Tukey:)


Considere las siguientes barreras (bisagras),

Barrera Interior Inferior: BII = Q1 − 1, 5RI


Barrera Interior Superior: BIS = Q3 + 1, 5RI
Barrera Exterior Inferior: BEI = Q1 − 3RI
Barrera Exterior Superior: BES = Q3 + 3RI
Identique los datos en este diagrama

No atípico
z }| {
· · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · ·
| {z } | {z } | {z } | {z }
Potencial Posible Posible Potencial

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 48 / 98


Identicación de datos atípicos: Diagrama de caja

Denición (Diagrama de caja)


El diagrama de caja, entrega información sobre

centralidad, dispersión y la forma de la distribución de los datos,

identica valores atípicos

y es útil para comparar dos distribuciones.

(Procedimiento para realizar esta gráca)


Paso 1: Los bordes de la caja se representan por Q1 y Q3 , se debe
trazar una linea vertical que atraviese la caja en la Me .
Paso 2: Trazar líneas desde los bordes de la caja hasta los valores
adyacentes (el menor y mayor de los datos no atípicos).

Paso 3: Marque los posibles valores atípicos con o y los potenciales


con ∗.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 49 / 98


Identicación de datos atípicos: Diagrama de caja

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 50 / 98


Ejemplo de un análisis descriptivo en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 51 / 98


Ejemplo de un análisis descriptivo en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 52 / 98


Ejemplo de un análisis descriptivo en SPSS

El DAC promedio es de 2,2815 mm, con un 95% de conanza se espera que


el intervalo (2,2589; 2,3061) contenga al verdadero valor del DAC promedio.
Si no se considera al 5% de las plantas con el DAC más pequeño ni al 5%
con el DAC más grande, el DAC promedio sería de 2,2750. El 50% de las
plantas tiene un DAC inferior 2,25. Existe una desviación de 0,51329 mm
con respecto al DAC promedio.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 53 / 98
Ejemplo de un análisis descriptivo en SPSS

El DAC mínimo es de 1,04 y el


máximo es de 4,71. Existen
cuatro datos atípicos que son el
85, 180, 242 y el 796. La
distribución del DAC es asimétrica
(0,230/0,060 = 3,83>1,96), esta
última armación no concuerda
con los expuesto grácamente,
esto ocurre, por la existencia de
los datos atípicos. Con respecto a
la curtosis, sería como la de la
normal (0,124/0,119 = 1,042 <
1,96).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 54 / 98


Ejemplo Introductorio de prueba de hipótesis

Un distribuidor cree que más del 80% de


sus semillas están sanas. Se selecciona una
muestra aleatoria de 30 semillas y 25 de
ellas están sanas. Proporciona esta muestra
suciente evidencia para creer el
distribuidor tiene razón.

Se dene la variable aleatoria:


X= número de semillas sanas de las 30 semillas seleccionadas.
Bajo el supuesto de que la proporción de semillas sanas en la población es
p = 0.80, la variable aleatoria X es una binomial con n = 30 y p = 0.80.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 55 / 98


Ejemplo Introductorio de prueba de hipótesis

En otras palabras, bajo este supuesto (p = 0.80),

la distribución de probabilidad
sería,
 
30
pX (x) = 0, 80x 0, 2030−x ,
x

si x = 0, 1, ..., 30

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 56 / 98


Ejemplo Introductorio de prueba de hipótesis

La probabilidad de que el número de semillas sanas sea superior o igual a 25,


cuando la proporción se semillas sanas es de un 80% es de

30  
X 30
P(X ≥ 25) = 0, 80x 0, 2030−x = 0, 427512438,
x
x=25

Por otro lado, la probabilidad de que el número de semillas sanas sea superior
o igual a 28, es de

30  
X 30
P(X ≥ 28) = 0, 80x 0, 2030−x = 0, 044178985,
x
x=28

Fíjese que esta última probabilidad es muy pequeña y su hubiese ocurrido


este escenario, no dudaría en darle la razón al distribuidor.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 57 / 98


Introducción a la inferencia estadística
Denición (Métodos Inferenciales)
Son los encargados de llevar adecuadamente los resultados de una muestra
aleatoria hacia la población objetivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 58 / 98


Método para obtener muestras aleatorias

(Método para obtener muestras aleatorias)


1 Asigne la secuencia de números de 1 a N (tamaño de la población) a
las unidades experimentales (UE).

2 Genere un número aleatorio U entre 0 y 1. Calcule X = U (N − 1) + 1.


3 Repita este proceso n (tamaño de la muestra) veces y obtendrá una
permutación aleatoria de los números 1 al n.
4 Los números obtenidos son las UE a considerar en la muestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 59 / 98


Método para obtener muestras aleatorias
Ejemplo (Método para obtener muestras aleatorias)
Suponga que en un estudio existen 16 manzanas que constituyen una
población, se desea medir el grado de dulzor de la manzana (se mide en una
escala de 1 a 7, donde 1=muy poco dulce y 7=muy dulce). Como tamaño
de muestra se ha considerado a 4 manzanas. Seleccione la muestra.

UE1 UE2 UE3 UE4

UE5 UE6 UE7 UE8

UE9 UE10 UE11 UE12

UE13 UE14 UE15 UE16

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 60 / 98


Ejemplo para obtener muestras aleatorias

Considere los siguientes n


◦ aleatorios, generados con el computador, en

Excel, =aleatorio().

0,776 0,989 0,591 0,123

Realice la siguiente tranformación X = 15U + 1 y redondear al entero.

13 16 10 3

Entonces, debería medir los frutos 13, 16, 10 y 3.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 61 / 98


Estudios por muestreo v/s estudios censales

Ejemplo
Considere el ejemplo anterior, recuerde que se desea medir el grado de
dulzor.

Suponga que se realiza un censo (todas las manzanas) y en cada una de las
16 manzanas se va a aplicar la evaluación y se mide el grado de dulzor y los
datos son.

UE1 = 5 UE2 = 1 UE3 = 2 UE4 = 2


Uno de los objetivos del estudio UE5 = 4 UE6 = 3 UE7 = 2 UE8 = 3

es identicar el grado de dulzor UE9 = 2 UE10 = 4 UE11 = 4 UE12 = 2


UE13 = 2 UE14 = 1 UE15 = 1 UE16 = 1
(parámetro) de los frutos.

Como esta es información poblacional lo identicaremos con la letra µ. En


este caso, µ = (5 + 1 + 2 + · · · + 1)/16 = 2, 438.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 62 / 98


Estudios por muestreo v/s estudios censales

Ahora, si consideremos, la muestra aleatoria, encontrada anteriormente,


sólo deberíamos evaluar los frutos 13, 16, 10 y 3. Entonces, tendríamos los
siguientes datos.

UE13 = 2 UE16 = 1 UE10 =4 UE3 =2

Dada la información de la muestra, podríamos tener una estimación del


grado de dulzor (estadístico). Como esta es información muestral lo
x. En este caso,
identicaremos con la letra
x = (2 + 1 + 4 + 2)/4 = 2, 250. Fíjese que x no es exactamente igual a µ.
Esta discrepancia, se debe al error de muestreo.

Nota: Si a cada individuo es remunerado con 5.000 pesos, adicionales, por


cada experimento, en el censo, gastaríamos 80.000 pesos y en el muestreo
20.000 pesos. La diferencia es grande, pero no hay mucha diferencia en los
resultados (µ = 2, 438 y x = 2, 250.).
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 63 / 98
Hipótesis Estadísticas

Denición (Hipótesis Estadísticas)


Conjetura acerca de los parámetros de una población. Es decir, es una
supocisión acerca de la distribución de los datos en la población.

Una prueba de hipótesis consiste en tener un procedimiento que decida, a


partir de la muestra, cuál de dos hipótesis es más razonable para la población
en estudio.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 64 / 98


Tipos de Hipótesis

H0 → Hipótesis nula: Hipótesis que supone que los datos obtenidos


en la muestra provienen de una población con una distribución
conocida por el investigador.

H1 → Hipótesis alternativa (o hipótesis del investigador): Es la


hipótesis contraria a la hipótesis nula, por lo que se acepta cuando H0
es rechazada.

Observación
El objetivo de una prueba de hipótesis es elegir entre H0 o H1 ,
mediante información muestral.

La hipótesis nula no se rechaza a menos que los datos proporcionen


evidencias convincentes de que es falsa.

Esta es la razón por la que tampoco se puede considerar como cierta


si es que no se rechaza.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 65 / 98


Tipos de errores, nivel de signicación y valor−p

Denición (Error tipo I)


Es rechazar H0 , cuando H0 es verdadera.

Denición (Error tipo II)


Es no rechazar H0 , cuando H0 es falsa.

Denición (Nivel de signicación α)


Se dene como la máxima probabilidad de cometer el error tipo I.

Denición (valor−p)
El valor−p, es el mínimo valor de α que lleva al rechazo de H0 . Es también
llamado signicancia (sig.).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 66 / 98


Pasos para una prueba de hipótesis

1 Formular las hipótesis: Luego de plantear las hipótesis de


investigación (basadas en los objetivos), se plantean las hipótesis
estadísticas, H0 y H1 .
2 Elegir y calcular el estadístico de prueba: Dependiendo de las
hipótesis planteadas en el punto anterior, se propone una metodología
estadística, que tiene asociada un estadístico de prueba.
3 Determinar región de rechazo y valor−p:
1 Fijar el nivel de signicación α (comúnmente se ja en α = 0, 05) y
determinar la región de rechazo de H0 .
2 Calcular el valor−p. Regla: Rechace H0 si el valor−p es menor que α.
4 Concluir estadísticamente y tomar la decisión: Dependiendo del
resultado del paso anterior, se concluye si se rechaza o no H0 . Se
deben responder las preguntas de investigación o vericar si se
cumplen la hipótesis. Basado en esta conclusión se debe tomar una
decisión acorde al área de investigación.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 67 / 98


Ejemplo de Prueba de hipótesis

Recuerde el problema del distribuidor que cree que más del 80% de sus
semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y
25 de ellas están sanas.

(Hipótesis)
H0 : p ≤ 0, 80 v/s H1 : p > 0, 80
La hipótesis nula es que la muestra de n = 30 semillas fue extraída de una
población con p ≤ 0, 80. Luego, bajo H0 cierta, la distribución de la
muestra que más favorece a H1 es una distribución binomial con
parámetros (n = 30, p = 0, 80) que es una distribución conocida por el
investigador.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 68 / 98


Ejemplo de Prueba de hipótesis

(Estadístico de Prueba)
El estadístico de prueba es la variable aleatoria X que cuenta la cantidad
de semillas sanas en la muestra de tamaño 30, y su distribución cuando H0
es cierta es conocida, es una binomial de parámetros (n = 30, p = 0, 80).
Para este caso el estadístico de prueba observado es X = 25.

(Región de rechazo)
Consideremos α = 0, 05 y las siguientes probabilidades

P(X ≥ 22) = 0, 871349246 P(X ≥ 25) = 0, 427512438 P(X ≥ 28) = 0, 044178985


P(X ≥ 23) = 0, 760790619 P(X ≥ 26) = 0, 255233255 P(X ≥ 29) = 0, 010522490
P(X ≥ 24) = 0, 606969924 P(X ≥ 27) = 0, 122710806 P(X ≥ 30) = 0, 001237940

Entonces la región de rechazo sería: Rechace H0 si X ≥ 28.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 69 / 98


Ejemplo de Prueba de hipótesis

(Valor−p)
valor−p=P(X ≥ 25) = 0, 427512438

(Conclusión)
Como el estadístico de prueba no pertenece a la región de rechazo ( o
equivalentemente el valor−p > 0,05), no debería rechazarse H0 . Es decir,
basándose en la muestra observada y con α = 0, 05, no existen evidencias
sucientes que demuestren los dichos del distribuidor.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 70 / 98


Prueba Z para la media de una población
Se supone que la variable aleatoria X es continua y la muestra es aleatoria
y grande (n ≥ 30).

(Prueba Z para la media de una población)

x − µo
Estadística de prueba (calculado): zc = √
σ/ n

Hip. Nula Hip. Alternativa Rechace H0 si Valor p


H0 : µ = µ0 H1 : µ 6= µ0 |zc | > z1−α/2 2[1 − P(Z < |zc |)]
H0 : µ ≤ µ0 H1 : µ > µ0 zc > z1−α 1 − P(Z < |zc |)
H0 : µ ≥ µ0 H1 : µ < µ0 zc < −z1−α 1 − P(Z < |zc |)

Donde µ es la media de la población en estudio, µ0 es un valor conocido que


se dene a partir del problema práctico, es el valor numérico con el cuál se
compara la media poblacional y σ es la desviación estándar de la población
(se asume conocida por el investigador). Además Z ∼ N (0, 1).
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 71 / 98
Ejemplo de una prueba Z para la media de una población

Ejemplo
Un Ingeniero Agrónomo de una empresa desea saber si la producción media
de trigo (diaria) es superior a los a 400 kg. Una muestra aleatoria de 172
días reveló que la producción media de la muestra era 407 kg. Se sabe de
estudios anteriores que la desviación estandar es 38 kg.
¾El ingeniero debe llegar a la conclusión de que la media de su producción
diaria es mayor a 400 kg, o es razonable que la diferencia existente se deba
a la casualidad?

Hipótesis: H0 : µ ≤ 400 v/s H1 : µ > 400


407−400
Estadístico de prueba: zc = √
38/ 172
= 2, 42
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
zc > z0,95 = 1, 645.
Descargue las tablas estadísticas desde http://bit.ly/tablas_est.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 72 / 98
Ejemplo de una prueba Z para la media de una población
Valor-p: valor-p = 1 − P(Z < |2, 42|) = 1 − 0.992240 = 0, 00776.
Este valor-p es usualmente considerado pequeño, ya que
0, 00776 < α = 0, 05.
Conclusión: Se rechaza la hipótesis nula H0 (zc > 1, 96 o
equivalentemente, valor-p < 0, 05.) y el ingeniero puede llegar a la
conclusión de que la producción media diaria es mayor a 400 kg.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 73 / 98


Intervalo de Conanza del (1 − α)100% para µ

Denición (Intervalo de Conanza para µ)


Bajo las mismas condiciones del caso anterior. Se dene el intervalo de
conanza del (1 − α)100% para la verdadera media poblacional µ, mediante

 
σ σ
x − z1−α/2 · √ ; x + z1−α/2 · √
n n
σ
ee = z1−α/2 · √ es llamado error de estimación.
n
σ
√ es llamado error típico de la media o error estándar.
n

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 74 / 98


Tamaño de muestra para la estimación de µ

Suponiendo que n es grande, el tamaño de la muestra sería,

2
z1−α/2 · σ2
n> .
ee2
Además, si se conoce el tamaño de la población (N ), el tamaño de
muestra nal (corrección para poblaciones nitas) sería

n
nf > .
1 + n/N

Ejemplo
1 Considere el ejemplo anterior, encuentre un IC del 95% para µ. ¾Tiene
sentido este intervalo?

2 Estime el tamaño de muestra para µ, con una conanza del 95%, un


error de estimación inferior a 5 kg.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 75 / 98


Prueba T para una muestra
Se supone que la muestra es aleatoria proveniente de una distribución X∼
N (µ, σ 2 ).

(Prueba T para una muestra)

x − µo
Estadística de prueba (calculada): tc = √
s/ n

Hip. Nula Hip. Alternativa Rechace H0 si Valor p


H0 : µ = µ0 H1 : µ 6= µ0 |tc | > t1−α/2 (n − 1) 2[1 − P(T < |tc |)]
H0 : µ ≤ µ0 H1 : µ > µ0 tc > t1−α (n − 1) 1 − P(T < |tc |)
H0 : µ ≥ µ0 H1 : µ < µ0 tc < −t1−α (n − 1) 1 − P(T < |tc |)

Donde µ es la media de la población en estudio, µ0 es un valor conocido que


se dene a partir del problema y σ es la desviación estándar de la población
(se asume desconocida por el investigador). Además T ∼ t(n − 1). Cuando
n ≥ 30, se puede aproximar tα (n) ≈ zα .
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 76 / 98
Intervalo de Conanza del (1 − α)100% para µ
Denición (Intervalo de Conanza para µ)
Intervalo de Conanza del (1 − α)100% para la verdadera media
poblacional µ, (cuando σ es desconocido) se dene como
 
s s
x − t1−α/2 (n − 1) · √ ; x + t1−α/2 (n − 1) · √
n n

Ejemplo
Recuerde el experimento experimento en el cual 30 lotes de una misma
variedad, se hicieron crecer en un mismo ambiente. La altura de planta fue
la variable que se registró. Considerando la muestra, la altura promedio fue
de x = 11, 67 cm y la desviación estándar fue de s = 1, 76. El ingeniero
cree que la altura es signicativamente diferente de 12 cm.

Pruebe esta hipótesis, con α = 0, 05.


Encuentre un intervalo de conanza del 95% para la altura media.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 77 / 98


Prueba Z para la proporción

(Prueba Z para la proporción)


Suponga que los datos proviene de una distribución que puede tomar dos
categorías. Entonces,

b − π0
π
Estadística de prueba (calculada): zc = p
π0 (1 − π0 )/n

Hip. Nula Hip. Alternativa Rechace H0 si Valor p


H0 : π = π 0 H1 : π 6= π0 |zc | > z1−α/2 2[1 − P(Z < |z|)]
H0 : π ≤ π 0 H1 : π > π 0 zc > z1−α 1 − P(Z < |z|)
H0 : π ≥ π 0 H1 : π < π 0 zc < −z1−α 1 − P(Z < |z|)

Para que esta prueba se cumple se debe vericar que nπ0 ≥ 5 y n(1−π0 ) ≥ 5.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 78 / 98


Ejemplo de prueba Z para proporciones

Ejemplo
Recuerde el problema en que distribuidor cree que más del 80% de sus
semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y
25 de ellas están sanas. Proporciona esta muestra suciente evidencia para
creer que el distribuidor tiene razón.
Este problema fue resuelto mediante pruebas de hipótesis usando la
distribución binomial,

Resuélvalo utilizando la prueba Z para proporciones. Pruebe la


hipótesis con α = 0, 05 y compare con los resultados obtenidos
anteriormente.

¾Que ocurre con el valor-p, si bajo las mismas condiciones, utilizamos


300 semillas y 250 de ellas están sanas? Compare con el valor-p
obtenido mediante la prueba de hipótesis utilizando la binomial (use
excel para ayudarse en la sumas).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 79 / 98


Comparación de medias: Prueba T para muestras
relacionadas

La prueba que veremos ahora también se utiliza cuando queremos comparar


las medias de dos poblaciones. Una de las característica de esta prueba es
que las dos muestras serán relacionadas (apareadas).
Esto se puede hacer de dos formas distintas:

1 Haciendo mediciones a la misma unidad de análisis con instrumentos


de medición distinto.

2 Hacer mediciones a una unidad de análisis, luego aplicar un


tratamiento y nalmente volver a hacer las mediciones sobre la misma
unidad de análisis.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 80 / 98


Comparación de medias: Prueba T para muestras
relacionadas

Ejemplo
Un suelo agrícola productivo requiere cierto nivel de ventilación para
mantener activo el crecimiento de la raíz de la planta y la actividad de los
microbios de suelo. La actividad microbiana, medida como el aumento de
CO2 , se usó como medida del nivel de oxigenación del suelo. La evolución
CO2 /kg suelo/día en cada contenedor se midió 2 días distintos de iniciado
el periodo de incubación. La actividad microbiana en cada muestra de
suelo se registró como el porcentaje de incremento en el CO2 producido por
encima del nivel atmosférico. Los datos se muestran a continuación.

Muestra de suelo 1 2 3 4 5 6 7
Día 1 0,43 0,68 0,68 0,45 0,72 0,70 0,56
Día 2 0,56 0,72 0,69 0,55 0,82 0,69 0,54

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 81 / 98


Comparación de medias: Prueba T para muestras
relacionadas

Una de las hipótesis es identicar si exis-


te un efecto, atribuible a las fechas, en
los porcentajes de incremento en el CO2 .
Podríamos plantear la siguiente hipótesis
H1 : µ1 < µ2 . Considere los siguientes
estadísticos,

Estadístico Día 1 Día 2


Promedio 0,6029 0,6529
Desv. Estándar 0,12257 0,10579

Fíjese que los promedios muestrales no


son tan diferentes.

¾Porqué la gráca no muestra la poca diferencia que se ve en los promedios?


Respuesta: No se deben comparar los promedios, sino la diferencia en las
mrodriguez@ucm.cl
distintas fechas.(UCM) Introducción 14/03/2011 82 / 98
Comparación de medias: Prueba T para muestras
relacionadas
(Prueba T para muestras relacionadas)
Suponga que se tiene datos bivariados. Considerando d = x1 − x2 , d =
promedio de las diferencias, sd = desviación estándar de las diferencias,
n= tamaño de las muestra y µd = media poblacional de las diferencias.
Entonces,

d
Estadística de prueba: tc = √
sd / n

Hip. Nula Hip. Alternativa Rechace H0 si Valor p


H0 : µd = 0 H1 : µd 6= 0 |tc | > t1−α/2 (n − 1) 2[1 − P(T < |tc |)]
H0 : µd ≤ 0 H1 : µd > 0 tc > t1−α (n − 1) 1 − P(T < |tc |)
H0 : µd ≥ 0 H1 : µd < 0 tc < −t1−α (n − 1) 1 − P(T < |tc |)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 83 / 98


Comparación de medias: Prueba T para muestras
relacionadas
Ejemplo (Prueba T para muestras relacionadas)
Basándose en el ejemplo anterior y considere d = x1 − x2 . Pruebe la
hipótesis de que porcentaje de incremento en el CO2 ha aumentado
(µ1 < µ2 o µd < 0). Entonces, las diferencias serían

Muestra de suelo 1 2 3 4 5 6 7
d -0,13 -0,04 -0,01 -0,10 -0,10 0,01 0,02

Fíjese que está prueba es igual a una prueba T para una muestra, para las
diferencias.

Hipótesis: H0 : µd ≥ 0 v/s H1 : µ d < 0


−0,05
Estadístico de prueba: tc = √
0,06/ 7
= −2, 205
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
tc < −t0,95 (6) = −1, 943.
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 84 / 98
Comparación de medias: Prueba T para muestras
relacionadas

Ejemplo (Prueba T para muestras relacionadas)


Signicancia: valor−p = 1 − P(T < | − 2, 205|) = 1 − P(T < 2, 205).
Donde, T ∼ t(6).

1 − 0, 975 < valor − p < 1 − 0, 950

0, 025 < valor − p < 0, 05


Conclusión: Como tc = −2, 205 < −1, 943 o equivalentemente
valor−p <0,05. Entonces, existe suciente evidencia muestral para
armar que se ha producido un aumento promedio signicativo en día
2 en comparación con el día 1.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 85 / 98


Prueba T para muestras relacionadas en SPSS
Ingrese los datos en SPSS como indica la imagen. Descargue los datos desde
http://bit.ly/eje_relacionadas

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 86 / 98


Prueba T para muestras relacionadas en SPSS
Seleccione el menú de Análisis y siga la misma ruta.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 87 / 98


Prueba T para muestras relacionadas en SPSS
En el lado izquierdo debe seleccionar ambas variables y trasladarlas al lado
derecho. Luego haga click en Aceptar.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 88 / 98


Prueba T para muestras relacionadas en SPSS
El valor−p de la salida, es bilateral, para que coincida con el unilateral hay
que dividirlo por 2. Entonces, valor−p = 0, 035.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 89 / 98


Comparación de medias: Prueba T para muestras
independientes
(Prueba T para muestras independientes)
Suponga que tiene dos muestras independientes y cada una con distribución
normal, donde µ1 y µ2 son las medias de las poblaciones, y σ1 y σ2 son las
desviaciones estándar de las poblaciones (se suponen iguales). Entonces,

x − x2
Estadística de prueba: tc = q1
sp n11 + n12

Hip. Nula Hip. Alternativa Rechace H0 si Valor p


H0 : µ1 = µ2 H1 : µ1 6= µ2 |tc | > t1−α/2 (n1 + n2 − 2) 2[1 − P(T < |tc |)]
H0 : µ1 ≤ µ2 H1 : µ1 > µ2 tc > t1−α (n1 + n2 − 2) 1 − P(T < |tc |)
H0 : µ1 ≥ µ2 H1 : µ1 < µ2 tc < −t1−α (n1 + n2 − 2) 1 − P(T < |tc |)
q
(n1 −1)s21 +(n2 −1)s22
donde sp = n1 +n2 −2 .
mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 90 / 98
Comparación de medias: Prueba T para muestras
independientes

Ejemplo
Considere un problema de crecimiento bacterial. A cada conjunto de
condiciones de empaque, se le asignaron, al azar, 5 cortes de carne. Se
asume que los cortes forman un grupo homogéneo. Se mide el número de
bacterias por centímetro cuadrado.

Condiciones de empaque
Al vacio (T1 ) 100% CO2 (T2 )
620 550
640 500
680 440
630 510
670 550

Con α = 0, 05, pruebe la hipótesis de que existe efecto atribuible a las


condiciones de empaque.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 91 / 98


Comparación de medias: Prueba T para muestras
independientes

Considere los siguientes estadísticos,

Estadístico Al vacío 100% CO2


Promedio x1 = 648 x2 = 510
Desv. Estándar s1 = 25, 884 s2 = 45, 277
Tamaño de muestra n1 = 5 n2 = 5

Fíjese que según el diagrama se ve


un efecto atribuible al empaque (las
carnes tratadas con 100% CO2 tien-
den a diferir en la cantidad de bacte-
rias, en comparación con las carnes
tratadas al vacío).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 92 / 98


Comparación de medias: Prueba T para muestras
independientes

Hipótesis: H0 : µ1 = µ2 v/sH1 : µ1 6= µ2
648 − 510
Estadístico de prueba: tc = q = 5, 917
1 1
36, 878 5 + 5
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | > t0,975 (8) = 2, 306.
Signicancia: valor−p = 2[1 − P(T < |5, 917|)] = 2[1 − P(T <
5, 917)] < 2[1 − 0, 9995] = 0, 001
Donde, T ∼ t(8).

Conclusión: Como |tc | = 5, 917 > 2, 306 o equivalentemente valor−p


<0,05. Entonces, existe suciente evidencia muestral para armar que
existe un efecto, en la cantidad de bacterias promedio, atribuibles a los
tipos de empaque.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 93 / 98


Prueba T para muestras independientes en SPSS
Ingrese los datos en SPSS como indica la imagen. Descargue los datos desde
http://bit.ly/carne_indep

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 94 / 98


Prueba T para muestras independientes en SPSS
Siga la misma ruta,

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 95 / 98


Prueba T para muestras independientes en SPSS
Seleccione la variable a contrastar (numero de bacterias) , la variable de
agrupación (empaques) y dena los grupos (1= Al vacio y 2=100% CO2 .)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 96 / 98


Prueba T para muestras independientes en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 97 / 98


Prueba T para muestras independientes en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 98 / 98

Potrebbero piacerti anche