Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media poblacional de la que ha sido extraída (problema más simple referido a una sola muestra), el uso más habitual de esta distribución es el de comparar las medias de una variable cuantitativa continua entre dos grupos independientes. Este tipo de problemas habrá siempre dos variables: I. Una cuantitativa (variable dependiente que se compara). II. Otra cualitativa dicotómica (variable independiente). Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es decir, calcularemos las medias de la variable continua para los dos grupos de la variable cualitativa y crearemos el contraste para determinar si existen diferencias significativas o no entre las medias de dos muestras independientes. Se plantea una hipótesis nula y una hipótesis alternativa, y a partir de estas hipótesis se tiene que comprobar si la diferencia que existe entre las dos medias es debido a que realmente una hipótesis es mas efectiva que la otra, o si las diferencias observadas se podrían explicar simplemente por azar. Para poder resolver este tipo de problemas se aplica la expresión de la t de Student para comparar dos medias:
Donde EEDM es el “error estándar de la diferencia de medias”.
Podemos ver que la t de Student se obtiene dividiendo el efecto entre un error (en este caso, error estándar de la diferencia de medias) que expresa la variabilidad aleatoria esperada. Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia observada por un término de error que estima la variabilidad biológica aleatoria. I. Si la diferencia observada es mucho mayor que la variabilidad biológica aleatoria esperada, entonces el consciente t tendrá un valor grande y diremos que hay diferencias significativas. II. Si la diferencia observada es pequeña en relación a la variabilidad biológica esperada, entonces la t tendrá un valor pequeño y no podremos decir que existen diferencias significativas. Como regla general, si el valor de t que hemos encontrado es superior al tabulado se rechaza la hipótesis nula y se podrá afirmar que hay diferencias significativas entre ambas medias. Ahora solo nos falta saber qué es eso del error estándar de la diferencia de medias (EEDM). Primero tenemos que usar una varianza común llamada varianza ponderada Sp². Para calcularla se hace una media ponderada entre las dos varianzas. Se pondera cada varianza por los grados de libertad (n-1) de su grupo:
La desviación estándar ponderada (Sp) será:
Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos
calcular el EEDM, mediante la siguiente expresión:
Condiciones de aplicación del test t para dos medias:
Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las condiciones de aplicación. Las condiciones de aplicación del test t para comparar dos medias son: I. Normalidad La variable cuantitativa o dependiente ha de seguir aproximadamente una distribución normal dentro de cada grupo. Habitualmente se suele emplear el siguiente criterio: cuando tanto n como m son mayores o iguales a 3º se puede presumir que la aproximación a la normal será buena. Se debe comprobar si la variable cuantitativa se aproxima a la normal hay que verificar que en cada grupo se cumplen los 3 requisitos siguientes: I. Comprobar que el máximo y el mínimo queden dentro del intervalo definido por: Media ± 3 desviaciones estándar. II. Que la asimetría (en valor absoluto) sea menor que dos veces su error estándar: lAsimetríaI < 2 errores estándar de asimetría. III. Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar: ICurtosisI < 2 errores estándar de curtosis. Si se cumplen estos tres requisitos, podemos asumir que la distribución es normal. Si no se cumple la condición de normalidad, puede intentarse que mejore la aproximación a la normalidad mediante una transformación de los datos de la variable cuantitativa en sus logaritmos. En la práctica, habitualmente, realizaremos un test de normalidad. Existen diversos test para comprobar si los valores de una variable siguen o no la distribución normal. Cuando resultan significativos (p<0.05) se rechaza la hipótesis de normalidad, tendremos evidencia de que los datos no siguen una distribución normal. Si finalmente la variable no se aproxima a la normalidad, se deben aplicar pruebas no paramétricas. II. Homogeneidad de Varianzas (Homocedasticidad) Además de seguir una distribución normal hay que comprobar que las varianzas de ambos grupos sean iguales, es decir, homogéneas. Mediante la prueba F de Snedecor para la homogeneidad de varianzas podremos comprobar que no hay diferencias significativas entre las varianzas. Para ellos calculamos las varianzas de cada grupo y obtenemos al cociente:
A continuación, se calculan los grados de libertad del numerador y denominador
que son (n-1) y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado para p=0.05. Cuanto más diferentes sean las varianzas, mayor valor tendrá F y superara el valor critico de las tablas. Si la F calculada es superior al valor tabulado, pensaremos que las varianzas no son homogéneas entre sí. Intervalo de confianza para la diferencia de medias: Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos independientes, pero se ha llegado a una conclusión algo limitada: “no existen diferencias significativas”. Faltan algo imprescindible: estimar la magnitud de la diferencia entre ambos grupos. Vimos que esto se resolvía calculando unos límites de confianza a la diferencia de medias. La expresión es parecida al intervalo de confianza para una media, pero ahora se utiliza una diferencia de medias y se usa el error estándar de la diferencia de medias: