Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/312167517
CITATIONS READS
0 2,018
1 author:
Antonio Monleon-Getino
University of Barcelona
130 PUBLICATIONS 549 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Ceres 3: a software for the industrial quality of wheat and wheat flour View project
All content following this page was uploaded by Antonio Monleon-Getino on 09 January 2017.
Ya que hay tres pruebas de hipótesis, hay tres modelos restringidos, uno para cada efecto. El modelo
completo es siempre el mismo:
La forma de abordar los modelos lineales es muy amplia y existen diferentes maneras de cuantificar
factores (variables categóricas, por ejemplo: tratamientos A, B, C) asignando los valores de una variable
Nominal u ordinal, pero podemos adoptar codificación binaria para cada nivel de factor y todas las
interacciones aplicables en variables de tipo dummy (indicador 1 ó 0). Ver Spiegel (2007) y Tejedor
(1999).
Como lectura de referencia de modelos lineales generales se recomienda: John Fox. “Applied Regression
Analysis and Generlized Linear Models”, 2nd ed., Sage, 2008.
Un ANOVA se puede escribir como un modelo lineal general de la siguiente forma:
Y1 1 X11 Y1
... X1k
... ... ... ... ... ...
Y = ,X = ,e =
... ... ... ... ... ...
Yn 1 Xn1 ... Xnk Yn
∗ Correspondence Author. amonleong@ub.edu. Statistics and Bioinformatics Research Group (GRBIO), Section of
1
que se puede indicar mediante una forma matricial reducida:
Y = Xb + e
La matriz de diseño para un ANOVA de 2 factores (2 way) con diseño factorial 2X3 (A: 2 niveles, B: 3
niveles, AB interacción) se puede describir con la matriz de diseño de datos:
A B A*B
A B A1 A2 B1 B3 A1 B 1 A1 B 2 A1 B3 A2 B 1 A2 B 2 A2 B 3
1 1 1 1 1 0 1 0 0 0 0 0
1 2 1 1 0 1 0 1 0 0 0 0
1 3 1 1 0 0 0 0 1 0 0 0
2 1 1 0 1 0 0 0 0 1 0 0
2 2 1 0 0 1 0 0 0 0 1 0
2 3 1 0 0 0 0 0 0 0 0 1
Después de eliminar un efecto de un factor o una interacción del modelo completo anterior (supresión
de algunas columnas de la matriz X), se obtiene el error incrementado debido a la eliminación como
una medida del efecto. Y la relación de esta medida con relación a algún error general da un valor F,
revelando la significación del efecto.
Sin embargo, hay diferentes enfoques para mantener o eliminar las columnas de un efecto; este es un
tema sensible y controvertido actualmente entre los estadísticos.
Vamos a ver las diferencias entre unas y otras sumas de cuadrados (SS) considerndo como ejemplo un
modelo ANOVA de 2 factores fijos (A, B) con interacción (AB). SS indicará la suma de cuadrado calculada
para cada uno de los factores considerados.
Consideremos un modelo que incluya dos factores A y B; hay por lo tanto dos efectos principales (A, B),
y una interacción, AB. El modelo completo está representado por SS (A, B, AB).
2
Otros modelos están representados de manera similar: SS (A, B) indica el modelo sin interacción, SS (B,
AB) indica el modelo que no tiene en cuenta los efectos del factor A, y así sucesivamente.
La influencia de factores particulares (incluidas las interacciones) puede comprobarse examinando las
diferencias entre modelos. Por ejemplo, para determinar la presencia de un efecto de interacción, se
llevaría a cabo una prueba F de los modelos SS (A, B, AB) y el modelo de no interacción SS (A, B).
Es conveniente definir sumas incrementales de cuadrados para representar estas diferencias.
Entonces pueden verse las siguientes SS incrementales:
SS(AB | A, B) = SS(A, B, AB) – SS(A, B)
SS(A | B, AB) = SS(A, B, AB) – SS(B, AB)
SS(B | A, AB) = SS(A, B, AB) – SS(A, AB)
SS(A | B) = SS(A, B) – SS(B)
SS(B | A) = SS(A, B) – SS(A)
La notación muestra las diferencias incrementales en sumas de cuadrados, por ejemplo SS (AB | A, B)
representa "la suma de cuadrados para la interacción después de los efectos principales", y SS (A | B)
es "la suma de cuadrados para la Un efecto principal después del efecto principal B e ignorando las
interacciones ".
Los diferentes tipos de sumas de cuadrados (Tipo I, II y III) surgen entonces dependiendo de la etapa de
reducción del modelo en la que se realizan.
3
Contras en el caso de la suma de cuadrados de Tipo I: (1) ¡El orden importa! Las hipótesis
dependen del orden en que se especifican los efectos. Si se ajusta un ANOVA de dos factores con dos
modelos, uno con A y luego con B, el otro con B y A, no sólo la SS tipo I para el factor A puede ser
diferente bajo los dos modelos, sino que NO hay ninguna manera de predecir si la SS subirá o bajará
cuando A vaya en segundo lugar o en primer lugar. Esta falta de invariancia al orden de entrada en el
modelo limita la utilidad de las sumas de cuadrados de Tipo I para probar hipótesis para ciertos diseños.
(2) No apropiado para diseños factoriales.
Este tipo de prueba se realiza para cada efecto principal después del otro efecto principal.
Obsérvese que no se supone ninguna interacción significativa (en otras palabras, debe probarse primero la
interacción (SS (AB | A, B)) y sólo si AB no es significativa, se continúa con el análisis de los efectos
principales).
Si de hecho no hay interacción, entonces el tipo II se ha demostrado que es estadísticamente más potente
que el tipo III
Computacionalmente, esto es equivalente a ejecutar un análisis de tipo I con diferentes órdenes de los
factores, y tomar el resultado apropiado.
Pros en el caso de la suma de cuadrados de Tipo II: (1) apropiado para la construcción de modelos
ANOVA.
(2) más potente cuando no hay interacción
(3) invariante al orden en que se introducen los efectos en el modelo ANOVA
Contras en el caso de la suma de cuadrados de Tipo II: (1) Para los diseños factorialES con
celdas de diferentes tamaños, las sumas de cuadrados de las hipótesis de tipo II son hipótesis que son
funciones complejas de la n de la celda que ordinariamente no son significativas. (2) No apropiado para
diseños factoriales.
Este enfoque es válido en presencia de interacciones significativas. Sin embargo, a menudo no es interesante
interpretar un efecto principal si las interacciones están presentes (en términos generales, si una interacción
significativa está presente, los efectos principales no deberían ser analizados).
Si las interacciones no son significativas, el tipo II es una prueba más potente.
SS de tipo III da la suma de los cuadrados que se obtendrían para cada variable si se introdujera por
último en el modelo. Es decir, el efecto de cada variable se evalúa después de que se hayan tenido en
cuenta todos los demás factores. Por lo tanto, el resultado para cada término es equivalente a lo que se
obtiene con el análisis de Tipo I cuando el término entra en el modelo como el último en el ordenamiento.
Pros en el caso de la suma de cuadrados de Tipo III: No dependen del tamaño de la muestra:
las estimaciones de efecto no son una función de la frecuencia de observaciones en ningún grupo (es
4
decir, para los datos no balanceados, donde tenemos un número desigual de observaciones en cada grupo).
Cuando no hay celdas faltantes en el diseño, las medias de cada subpoblación son medias obtenidas por
mínimos cuadrados, que son las mejores estimaciones lineales-no sesgadas de las medias marginales para
el diseño.
Contras en el caso de la suma de cuadrados de Tipo III: (1) Es interesante para probar los efectos
principales en presencia de interacciones
(2) No es apropiado para diseños con celdas faltantes:Para los diseños de ANOVA con celdas faltantes, las
sumas de cuadrados tipo III generalmente no prueban hipótesis sobre los mínimos cuadrados significativas,
sino que prueban hipótesis que son funciones complejas de los patrones de celdas faltantes con un orden
superior al que contienen las interacciones y que ordinariamente no son significativas.
Un ejemplo práctico en R
A continuación se presentan unos datos simulados de un diseño añova no balanceado con 2 factores e
interacción, con los que se practicará la obtención de los diferentes tipos de suma de cuadrados (SS) de
tipo I, II y III.
####-----------------------------------------------------------------
# 3x3 unbalanced design
# data from Maxwell & Delaney 2004 p339
# dependent variable Y: depression score
# factor A: type of therapy, B: degree of severity
# see at: http://www.uni-kiel.de/psychologie/dwoll/r/ssTypes.php
####-----------------------------------------------------------------
5
Q <- 3 # number of groups factor B
g11 <- c(41, 43, 50) # scores in group A1/B1
g12 <- c(51, 43, 53, 54, 46) # scores in group A1/B2
g13 <- c(45, 55, 56, 60, 58, 62, 62) # scores in group A1/B3
g21 <- c(56, 47, 45, 46, 49) # scores in group A2/B1
g22 <- c(58, 54, 49, 61, 52, 62) # scores in group A2/B2
g23 <- c(59, 55, 68, 63) # scores in group A2/B3
g31 <- c(43, 56, 48, 46, 47) # scores in group A3/B1
g32 <- c(59, 46, 58, 54) # scores in group A3/B2
g33 <- c(55, 69, 63, 56, 62, 67) # scores in group A3/B3
Y <- c(g11, g12, g13, g21, g22, g23, g31, g32, g33) # all scores
# corresponding factors
A <- factor(rep(1:P, c(3+5+7, 5+6+4, 5+4+6)),
labels=paste("A", 1:P, sep=""))
B <- factor(rep(rep(1:Q, P), c(3,5,7, 5,6,4, 5,4,6)),
labels=paste("B", 1:Q, sep=""))
6
####-----------------------------------------------------------------
# order of model terms matters changing B for A
# result from anova(): SS type I
anova(lm(Y ~ B + A + A:B))
7
## A:B 14 4 0.1270 0.97170
## Residuals 1005 36
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Referencias
[1] John Fox. “Applied Regression Analysis and Generlized Linear Models”, 2nd ed., Sage, 2008.
[2] David G. Herr. “On the History of ANOVA in Unbalanced, Factorial Designs: The First 30 Years”,
The American Statistician, Vol. 40, No. 4, pp. 265-270, 1986.
[3] Oyvind Langsrud. “ANOVA for unbalanced data: Use Type II instead of Type III sums of squares”,
Statistics and Computing, Volume 13, Number 2, pp. 163-167, 2003.
[4] Ista Zahn. “Working with unbalanced cell sizes in multiple regression with categorical predictors”,
2009. prometheus.scp.rochester.edu/zlab/sites/default/files/InteractionsAndTypesOfSS.pdf
[5] Langsrud, Ø. (2003), ANOVA for Unbalanced Data: Use Type II Instead of Type III Sums of Squares,
Statistics and Computing, 13, 163-167.
[6] "Diseño de experimentos, su análisis y diagnóstico" (Monleon, 2015). www.researchgate.net/publication/
304283596_Diseno_de_experimentos_su_analisis_y_diagnostico
[7] M.R. Spiegel; J. Schiller; R. A. Srinivasan (2007). «9. Análisis de la varianza». Probabilidad y
Estadística [Schaum’s Outline of Theory and Problems of Probability and Statistics]. Schaum (2ª edición).
México D.F.: McGraw-Hill. pp. 335-371. ISBN 978-970-10-4231-1.
[8] F. J. Tejedor Tejedor (1999). Análisis de varianza. Schaum. Madrid: La Muralla S.A. ISBN
84-7635-388-X.
Comentarios finales
Resumen: En el caso de diseños ANOVA no balanceados no pueden utilizarse SS habituales. Por lo
general, la hipótesis de interés se refiere a la importancia de un factor mientras se controla el nivel de los
otros factores. Esto equivale a usar unas SS de tipo II o III. En general, si no hay un efecto de interacción
significativo, entonces el tipo II es más potente y sigue el principio de marginalidad. Si la interacción
está presente, entonces el tipo II es inapropiado mientras que el tipo III todavía puede usarse, pero los
resultados deben ser interpretados con precaución (en la presencia de interacciones, los efectos principales
son raramente interpretables).
Este artículo está basado en los siguientes links y en los ejemplos que allí se utilizan:
Universidad de Toronto: http://www.utstat.utoronto.ca/reid/sta442f/2009/typeSS.pdf
Anova – Type I/II/III SS explained (2011): http://goanna.cs.rmit.edu.au/~fscholer/anova.php
SS explained https://mcfromnz.wordpress.com/2011/03/02/anova-type-iiiiii-ss-explained/
Sum of Squares Type I, II, III:the underlying hypotheses, model comparisons, and their calculation in R:
www.uni-kiel.de/psychologie/dwoll/r/ssTypes.php
http://afni.nimh.nih.gov/sscc/gangc/SS.html