Sei sulla pagina 1di 17

Revisión de supuestos de ANOVA:

Los supuestos del ANOVA son exactamente los mismos que los de la prueba t para
comparar dos grupos1.

1. Independencia ver ejemplo tomates

1
En el libro de Hopkins & Hopkins & Glass aparece una discusión
detallada sobre la verificación de supuestos página 202-207.
Normalidad de los residuos

Será un problema en caso de que las poblaciones tengan distribuciones


marcadamente asimétricas y en direcciones opuestas. La prueba F es robusta

Alternativas: transformar datos o estadística no paramétrica.

Verificación: Gráficos y test de Normalidad: test de Kolmogorov-Smirnov y


Shapiro-Wilk.

La hipótesis será:

H 0 : los residuos del grupo i son normales


H1 : los residuos del grupo i NO son normales.

Si el valor-p > 0,05 no podemos rechazar la hipótesis nula y por lo tanto


asumimos que se cumple el supuesto de Normalidad.

Pruebas de normalidad para los tomates con SPSS

Gráfico Q-Q normal de Altura en cms. Gráfico Q-Q normal de Altura en cms.
Para FERTIL= A Para FERTIL= B
1.0
1.0

.5 .5

0.0 0.0
Normal esperado

Normal esperado

-.5 -.5

-1.0 -1.0
30 32 34 36 38 40 40 41 42 43 44 45 46 47

Valor observado Valor observado

Gráfico Q-Q normal de Altura en cms.


Para FERTIL= C
1.0

.5

0.0
Normal esperado

-.5

-1.0
34.5 35.0 35.5 36.0 36.5 37.0 37.5 38.0 38.5

Valor observado
FERTILIZA Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
A .215 5 .200(*) .901 5 .415
B .141 5 .200(*) .979 5 .928
C .237 5 .200(*) .961 5 .814
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors

Homocedasticidad: Test de Levene

Test
Hipótesis Estad Distribución bajo
ístico Ho

F F de Fisher con (k-


1, n-k) gl

Si valor-p > 0,05 no podemos rechazar la hipótesis nula y concluimos que se


cumple el supuesto de homocedasticidad.

Si el valor-p fuera menor de 0,05, entonces no se cumple el supuesto de


homocedasticidad. En este caso ya no podemos usar el test F para comparar
las medias.

Existe otro test de comparación de medias que toma en cuenta este problema
y se llama el test de Welch, pero es aconsejable intentar otras medidas para
corregir este problema.

Prueba de homogeneidad de varianzas con SPSS


Estadístico de
Levene gl1 gl2 Sig.
5.450 2 12 .021
Pruebas robustas de igualdad de las medias
Estadístico(a) gl1 gl2 Sig.
Welch 22.565 2 6.942 .001
a Distribuidos en F asintóticamente.
Comparaciones múltiples

Hipótesis ANOVA:

H 0 : 1   2  ...   k
H 1 : al menos dos medias no son iguales.

Si acepto H 0 , las medias son iguales, no hay más comparaciones que hacer.

Si rechazo H 0 , las medias difieren, entonces la pregunta siguiente es: ¿cuáles


medias difieren?
Métodos a-priori y post-hoc

En este curso revisaremos los contrastes (a-priori) y el método de Tukey (post-


hoc), SPSS realiza muchos otros métodos que pudieran ser útiles y que siguen la
misma filosofía de Tukey.

SUPUESTOS PARAMÉTRICOS EN EL ANÁLISIS DE LA


VARIANZA
El análisis de la varianza realizado mediante pruebas paramétricas requiere el cumplimiento de una serie
de supuestos:

1. Las muestras son aleatorias e independientes. Las muestras seleccionadas para el estudio son elegidas
al azar, es decir, todos los sujetos tienen las mismas probabilidades de ser escogido para formar parte de
la muestra. Además, las muestras son independientes, o lo que es igual, el hecho de que un sujeto sea
escogido no determina la inclusión de otro sujeto en alguna de las muestras.

2. Normalidad de las puntuaciones. La variable estudiada se distribuye normalmente en todos los grupos
considerados. En el caso del ejemplo anterior, en las subpoblaciones de alumnos que siguieron el método
de lectura A, el método B y el método C, las puntuaciones de la variable rendimiento habrían de
distribuirse siguiendo el modelo de la curva normal.

Para comprobarlo, un modo fácil y rápido consistiría en examinar el gráfico correspondiente a la


distribución de frecuencias para esa variable y determinar si en líneas generales, tal distribución se
asemeja a la curva normal. Más riguroso sería aplicar una prueba de decisión estadística para comprobar
el supuesto de normalidad; la prueba de Kolmogorof-Smimov, por ejemplo, permite hacer inferencias
respecto a la normalidad de las poblaciones a partir de una muestra extraída de ellas.

3. Homoscedasticidad de varianzas. Se da homogeneidad en las varianzas de todos los grupos, es decir,


la variable estudiada presenta niveles similares de dispersión en cada una de las subpoblaciones
consideradas.

Para comprobar si efectivamente se cumple este supuesto, bastaría realizar la prueba F de contraste de
varianzas comparando las varianzas de aquellos dos grupos en los que éstas alcanzan valores más
distanciados. Es decir, utilizaríamos como estadístico de contraste el cociente entre las varianzas
insesgadas mayor y menor

[D]

y compararíamos su valor con el valor crítico correspondiente al nivel de significación considerado.


SUPUESTOS DE LAS PRUEBAS PARAMÉTRICAS 1. Normalidad. Las observaciones se extraen de poblaciones
distribuidas según la Normal para cada grupo. Pruebas de bondad de ajuste. 2. Homocedasticidad. Las varianzas de los
diferentes grupos tienen que ser iguales. Homogeneidad de varianzas. El numerador y el denominador de la prueba F son
estimaciones de la misma varianza poblacional. Prueba de Levéne. Supuesto de esfericidad respecto a la homogeneidad de
varianzas - covarianzas según la prueba de Mauchley. 3. Respecto a los errores: 1. Los errores son independientes entre sí.
2. Se distribuyen según na Normal dentro de cada población del grupo N(0, σ 2). Es decir, con media cero y varianzas
equivalentes. 3. La ecuación estructural del modelo refleja una composición aditiva de las fuentes de variación.

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la

hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste

es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o

'factores' con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:

 Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.

 Las K muestras sobre las que se aplican los tratamientos son independientes.

 Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto

de que H0 es cierta es una estimación de obtenida a partir de toda la información muestral, en dos partes:

 Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con

respecto a sus correspondientes medias.

 Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la

media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:

Media Global:

Variación Total:

Variación Intra-grupos:

Variación Inter-grupos:

Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y su media.

Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la varianza poblacional y el cociente entre
ambos se distribuye según una F de Snedecor con K-1 grados de libertad en el numerador y N-K grados de libertad en el

denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1,

de forma que se rechazará H0 si dicho cociente difiere significativamente de 1


Test de Tukey

El test de Tukey es bastante conocido y aceptado en la literatura. La prueba


estadística que utiliza el método de Tukey es la estadística o test de rango
estudentizado, q, donde

yi  y j
q ~ q(k , n  k )
MCDq
1. Verificar los supuestos:

Normalidad: Test de Kolmogorov-Smirnov y Shapiro-Wilks

Homocedasticidad: Test de Levene

2a) Si no se obtiene normalidad, se pueden trasformar los datos 2 o usar


métodos no paramétricos (capítulo siguiente).

2b) Si no se obtiene homogeneidad de varianza: se pueden trasformar los


datos o usar métodos no paramétricos o realizar el Test de Welch para
comparar medias

2. Tabla de ANOVA

3a) Si F grande, valor-p < 0,05 entonces:

Test de comparaciones múltiples

3b) Si valor-p > 0,05 quiere decir que no hay diferencias estadísticamente
significativas entre los promedios y por lo tanto no hay más preguntas.

INDEPENDENCIA: prueba de durbin y watson

LINEALIDAD:

2
Gráfica Sesgo vs. valor de referencia

Utilice la gráfica Sesgo vs. valor de referencia para ver cómo varían los valores de sesgo para cada
parte. Los puntos azules representan los valores de sesgo para cada valor de referencia. Los
cuadrados rojos representan el valor promedio de sesgo para cada valor de referencia. La línea es
el ajuste de la línea de regresión de mínimos cuadrados al promedio de las desviaciones.

Interpretación
La situación ideal es que las desviaciones de cada parte estén cerca de 0 y que la línea ajustada
sea horizontal.

La linealidad parece ser un problema


La línea trazada presenta inclinación. En este ejemplo, las mediciones de las partes más pequeñas son mayores
que los valores correspondientes de sus partes de referencia. Las mediciones de las partes más grandes tienden
a ser menores que los valores correspondientes de sus partes de referencia.

La linealidad no parece ser un problema


La línea trazada es casi una línea horizontal, lo que indica que el sesgo promedio es relativamente constante y no
depende del valor de referencia. En este ejemplo, las mediciones de todas las partes son mayores que las
mediciones correspondientes de sus partes de referencia.

Coef

Los coeficientes son números de la línea de regresión de la gráfica Sesgo vs. valor de referencia.

La forma general de esta línea de regresión de mínimos cuadrados es:

El término b representa el coeficiente de la constante. Indica el punto en el que la línea ajustada


cruza el eje Y.

El término a representa el coeficiente de la pendiente. La pendiente de una línea indica la


inclinación de la línea y es el cambio en el eje Y sobre el cambio en el eje X.

Interpretación
Cuando el coeficiente de la pendiente, a, es muy pequeño, la pendiente está cerca de la
horizontal. Por lo tanto, el sesgo es relativamente constante para todos los valores de referencia y
la linealidad no es un problema significativo. Valores absolutos más altos del coeficiente de la
pendiente, |a|, indican una pendiente más pronunciada de la línea. Si el valor p de la pendiente es
menor que alfa, entonces la linealidad es significativa.

En ausencia de linealidad significativa, valores absolutos más altos del coeficiente de la constante,
|b|, indican un sesgo más grande. Cuando existe linealidad significativa, debe examinar los valores
individuales de sesgo.

EE Coef

El error estándar de la estimación de un coeficiente de regresión mide la precisión con la que el


modelo estima el valor desconocido del coeficiente. El error estándar del coeficiente siempre es
positivo.

Interpretación
Utilice el error estándar del coeficiente para medir la precisión de la estimación del coeficiente.
Cuanto menor sea el error estándar, más precisa será la estimación. Al dividir el coeficiente entre
su error estándar se calcula un valor t. Si el valor p asociado con el valor t es menor que el nivel de
significancia (α), usted concluye que el coeficiente es significativamente diferente de 0.
Valor p para la linealidad del sistema de medición

Los siguientes valores p se utilizan para probar la linealidad:


 P para la constante: Utilice este valor para probar si la constante de la línea de linealidad es
igual a 0.

 P para la pendiente: Utilice este valor para probar si la pendiente de la línea de linealidad
es igual a 0.

Interpretación
Si el valor p es mayor que el valor de α, usted no puede rechazar la hipótesis nula, como se indica
a continuación:
 Para la constante, si el valor p es mayor que el valor de α, usted no puede rechazar la
hipótesis nula y concluye que el sesgo para todos los valores de referencia es igual a 0.

 Para la pendiente, si el valor p es mayor que el valor de α, usted no puede rechazar la


hipótesis nula y concluye que el sistema de medición tiene el mismo sesgo para todos los valores
de referencia (no hay linealidad).
Si el valor p es menor que el valor de α, usted rechaza la hipótesis nula, como se indica a
continuación:
 Para la constante, si el valor p es menor que el valor de α, usted rechaza la hipótesis nula y
concluye que el sesgo para todos los valores de referencia no es igual a 0.

 Para la pendiente, si el valor p es menor que el valor de α, usted rechaza la hipótesis nula y
concluye que el sistema de medición no tiene el mismo sesgo para todos los valores de referencia
(hay linealidad).

S y R-cuad.

S y R-cuad. (R2) son mediciones de qué tan bien el modelo se ajusta a los datos.

S es una estimación de σ, la desviación estándar alrededor de la línea de regresión.

R-cuad. (R2) representa la proporción de variación en el sesgo que es explicada por la relación
lineal entre los sesgos y los valores de referencia.
Interpretación
Los valores más bajos de S indican menos variabilidad en las estimaciones del sesgo. R2 varía de 0
a 100%. Por lo general, mientas mayor sea el valor de R 2, mejor se ajustará el modelo a los datos.

Linealidad, %Linealidad

La linealidad evalúa la diferencia en el sesgo promedio en todo el rango esperado de operación


del sistema de medición. La linealidad indica si el sistema de medición tiene la misma exactitud (el
mismo sesgo) para todos los valores de referencia.

El %Linealidad es la linealidad expresada como un porcentaje de la variación del proceso.

Interpretación
Para interpretar la linealidad de los datos, determine si el sesgo cambia para los diferentes valores
de referencia. Si los datos no forman una línea horizontal en una gráfica de dispersión, existe
linealidad. Lo ideal es que la línea ajustada sea horizontal y esté cerca de 0.

La linealidad parece ser un problema


La línea trazada presenta inclinación. En este ejemplo, las mediciones de las partes más pequeñas son mayores
que los valores correspondientes de sus partes de referencia. Las mediciones de las partes más grandes tienden
a ser menores que los valores correspondientes de sus partes de referencia.
La linealidad no parece ser un problema
La línea trazada es casi una línea horizontal, lo que indica que el sesgo promedio es relativamente constante y no
depende del valor de referencia. En este ejemplo, las mediciones de todas las partes son mayores que las
mediciones correspondientes de sus partes de referencia.
Para un sistema de medición que mida las partes consistentemente, el %linealidad estará cerca de
0.

Sesgo, %Sesgo

El sesgo se calcula como la diferencia entre el valor estándar conocido de una parte de referencia
y la medición promedio observada.El sesgo es una medida de la exactitud del sistema de
medición.

El %Sesgo es el sesgo expresado como un porcentaje de la variabilidad del proceso.

Interpretación
Lo ideal es que el valor de sesgo esté cerca de 0. Los valores distintos de 0 indican lo siguiente:
 Un sesgo positivo indica que el sistema de medición mide por encima del valor real.

 Un sesgo negativo indica que el sistema de medición mide por debajo del valor real.
Para un sistema de medición que mida con exactitud, el %Sesgo será bajo.

Valor p para el sesgo del sistema de medición

Los siguientes valores p se utilizan para probar si el sesgo es igual a 0 en cada valor de referencia
y para el sesgo promedio.
 P para el sesgo promedio: Utilice este valor para probar si el sesgo promedio es igual a 0.
 P para cada valor de referencia: Utilice este valor para probar si el sesgo es igual a 0 en
cada valor de referencia.

Interpretación
Si el valor p es mayor que el valor de α, usted no puede rechazar la hipótesis nula, como se indica
a continuación:
 Para cada valor de referencia, si el valor p es mayor que el valor de α, usted no puede
rechazar la hipótesis nula y concluye que el sesgo es igual a 0.

 Para el sesgo promedio, si el valor p es mayor que el valor de α, usted rechaza la hipótesis
nula y concluye que el sesgo promedio es igual a 0.
Si el valor p es menor que el valor de α, usted rechaza la hipótesis nula, como se indica a
continuación:
 Para cada valor de referencia, si el valor p es menor que el valor de α, usted rechaza la
hipótesis nula y concluye que el sesgo no es igual a 0.

 Para el sesgo promedio, si el valor p es menor que el valor de α, usted rechaza la hipótesis
nula y concluye que el sesgo promedio no es igual a 0.

Potrebbero piacerti anche