Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIÓN
El análisis de la varianza se convierte en la técnica más habitual cuando las variables explicativas son
categóricas y cuantitativas la variable explicada. Las variables independientes se denominan factores,
constan de dos o más niveles y pueden interactuar entre ellas. Esta técnica contrasta mediante el
análisis de la variabilidad si los valores medios de la variable dependiente difieren según las diferentes
combinaciones de factores e interacciones. Los experimentos factoriales pueden complicarse tanto
como se deseen e incorporar efectos aleatorios, multinivel, jerárquicos, anidados, fijos, etc. Existe
una amplia gama de situaciones que se presentan de forma habitual al realizar un experimento o
análisis.
Si bien el acercamiento básico al análisis de la varianza proviene de los contrastes de medias para dos
o más niveles, el enfoque más correcto nace desde el análisis de regresión. El análisis de la varianza
particulariza el modelo de regresión lineal cuando las variables independientes son cualitativas y la
independiente cuantitativa. Considerar esta situación desde los modelos de regresión permite al
investigador un estudio completo, detallado y sistematizado del experimento factorial.
En el otro extremo aparecen los contrastes no ortogonales, o a posteriori, muy usuales en las Ciencias
Sociales. Estos estudios no disponen de condiciones controladas desde donde puedan observar las
reacciones de los sujetos entrevistados. En estos modelos el orden de los factores o variables
nominales que intervienen en el modelo sí importan, lo que conlleva a diferentes modelos
igualmente válidos. La principal ventaja en estos modelos surge que los coeficientes son muy fáciles
de interpretar.
OBJETIVOS:
MARCO TEÓRICO
CONTRASTES ORTOGONALES
RESTRICCIONES
Supongamos que el factor que se está estudiando tiene cinco niveles (tratamientos) y al llevar a cabo
el Análisis de Varianza se rechaza Ho, con base a esta información es posible suponer que el
tratamiento uno y dos producen la misma diferencia.
Ho : μ1 = μ2
H1 : μ1 ≠ μ2
Estas hipótesis pueden ser probadas investigando una combinación lineal apropiada de los totales de
los tratamientos, por ejemplo:
y1. – y2. = 0
Por otro lado, si se suponen que el promedio de los tratamientos 1 y 3 no difieren del promedio de
los tratamientos 4 y 5, las hipótesis que deben probarse son:
Ho : μ1 + μ3 = μ4 + μ5
H1 : μ1 + μ3 ≠ μ4 + μ5
Bajo el supuesto de ortogonalidad, dos comparaciones son independientes cuando la suma de los
productos cruzados de los coeficientes es cero, es decir, la condición de ortogonalidad entre dos
comparaciones cumple la siguiente restricción:
(Σajak = 0)
VENTAJAS
Es que con éstos se logra un control total al estimar los errores a y β.
Mejor alternativa para sustituir las pruebas de comparaciones múltiples.
Permite comparaciones entre medias individuales o entre grupos de medias, sobretodo, cua-
ndo se tiene algún criterio que permite separar los tratamientos en grupos lógicos.
Reflejan piezas de información independientes y que el resultado de una comparación no
tiene relación alguna con el resultado de cualquier otra.
Son independientes cuando la suma de los productos cruzados de los coeficientes es cero, es
decir, la condición de ortogonalidad entre dos comparaciones cumple la siguiente restricción.
DESVENTAJAS
Se corre el riesgo de cometer más errores de Tipo I al asumir como verdadera la hipótesis de
nulidad; es decir, hay la posibilidad de realizar más rechazos falsos de la hipótesis de nulidad
o de no efectos. En línea con esa problemática, es conveniente distinguir dos tipos de errores:
Error de Tipo I por comparación (PC) y tasa de error por familia (PF). El error PC, simbolizado
por α, es la probabilidad de cometer un error de Tipo I por comparación.
Si α es 0.05, la probabilidad es 0.05. Por el contrario, la tasa de error PF, αPF, es la
probabilidad de cometer uno o más errores de Tipo I en un conjunto de comparaciones. La
relación entre estos dos errores y la probabilidad de cometer al menos un error de Tipo I es:
αPF = 1 - (1 - α)c
1. H0 = μ2 - μ1 = 0
Dos lecturas de la lista (condición A2) no difieren de una sola lectura (condición A1).
Se establece la igualdad entre tres lecturas y el promedio entre una y dos lecturas.
Sumas de cuadrados
12
=======
SCA: 91.75
Razones F
16.90
F1 = ------------ = 11.66
1.45
28.03
F2 = ------------ = 19.33
1.45
46.28
F3 = ----------- = 32.39
1.45
Valor teórico de F
Siguiendo con el ejemplo propuesto, la Suma de Cuadrados de tratamientos, SCA, tiene a - 1 grados
de libertad y, como consecuencia, tres componentes ortogonales (siendo a igual a cuatro).
EJEMPLO:
Datos
a = 4 , n = 4 , N = 16 , i = 1,2,3,4 , j = 1,2,3,4
Cálculos Matemáticos
Totales
Sumas de Cuadrados
Medias de Cuadrados
Estadística
Utilizando un nivel de significancia del 5% ( = 0.05), para encontrar el FTablas (Tablas Fisher) con 3
grados de libertad (a-1) en el numerador y 12 grados de libertad (N-a) en el denominador.
Por tanto, se Rechaza la hipótesis nula (H0) y se acepta la hipótesis alternativa (H1); es decir, que las
medias de los tratamientos difieren.
Conclusión
Se concluye que la cantidad de carbón usada en la producción de acero tiene efectos significativos en
la resistencia a la tensión.
Como se ha rechazado H0, existe diferencia entre las medias de los tratamientos, pero no se
especifica entre que medias de tratamientos existen las diferencias.
Se podría estar interesado en querer saber entre que medias de tratamientos existe diferencia, para
ello se utilizará el método de contrastes ortogonales para contestar esta inquietud.
Utilizando un nivel de significancia del 5% ( = 0.05), para encontrar el FTablas (Tablas Fisher) con 1
grado de libertad en el numerador y 12 grados de libertad (N-a) en el denominador.
Al comparar el F0 obtenido en cada uno de los contrastes del análisis de varianza con el FTablas; se
llega a las siguientes conclusiones:
a) El valor del F0 del contraste 1 es mayor que el FTablas (5.81 >4.75) entonces se Rechaza
H0, y por lo tanto, hay diferencia significativa entre los porcentajes de carbón uno y dos.
b) Como el F0 del contraste tres es menor que FTablas (1.12 < 4.75) se acepta H0; y por lo tanto,
no hay diferencia significativa entre los porcentajes de carbón tres y cuatro.
c) Al comparar el valor de F0 del contraste dos con el FTablas se observa que el F0 es mayor
(39.31 > 4.75) entonces se Rechaza H0; y por lo tanto, se dice que el promedio de los
porcentajes de carbón uno y dos difieren significativamente del promedio de los porcentajes
de carbón tres y cuatro.
Existen situaciones en que el investigador no sabe de antemano los contrastes que desea comparar, o
le interesa llevar a cabo más de a-1 posibles comparaciones. Estas comparaciones de interés en
muchos experimentos son descubiertas sólo hasta después de hacer un examen preliminar de los
datos.
Scheffé hizo una propuesta de un método para comparar cualquier contraste, o los posibles
contrastes entre medias de tratamientos. Con este método en cualquiera de las posibles
comparaciones el error tipo I es cuando mucho igual a α.
Supongamos que existe un conjunto de m contrastes de interés de las medias de tratamientos.
Wk = C1kμ1 + C2kμ2 + C3kμ3 +………..+Cakμa , con k = 1,2,….,m, estos contrastes usando los
promedios de tratamientos ӯi son:
Ck = C1k 1. y + C2k 2. y + C3k 3. y +………..+Cak a. y con k = 1,2,….,m
Para llegar a probar la hipótesis de que el contraste Ck difiere significativamente de cero, es necesario
comparar Ck con el valor crítico. Si _Ck_ > S,k, la hipótesis nula de que el contraste Wk es igual a cero
debe rechazarse.
Este método de Scheffé se puede utilizar para construir intervalos de confianza para todos los
posibles contrastes de las medias de tratamientos; los cuales pueden ser construidos como Ck - S,k _
Wk _ Ck + S,k , estos son intervalos de confianza simultáneos; en el sentido de que la probabilidad de
que todos ellos sean simultáneamente verdaderos es al menos 1 - α.
El procedimiento para llevar a cabo la comparación de medias por medio del método de Scheffé es el
siguiente:
• Definir los contrastes de interés.
• Calcular los valores numéricos de los contrastes.
• Calcular el error estándar para cada contraste.
• Encontrar los valores críticos.
• Realizar las conclusiones.
COVARIANCIA
Entre las diferentes aplicaciones que puede tener el Análisis de Covariancia – ANCOVA – se destaca su
uso en el control del error, lo cual aumenta la precisión con que se mide un experimento; también,
permite ajustar las medidas de tratamientos, logrando así una mejor interpretación de los datos y del
efecto de los tratamientos. Lo anterior se consigue al eliminar, por progresión, ciertos efectos de los
tratamientos que no pueden ser o no han sido controlados en el experimento. Estos efectos
indirectos de los tratamientos, se miden con una variación adicional en X la cual contribuye a la
variación en Y. así la covariancia controla la varianza del error mediante el uso de la covariable (X).
Para ilustrar el aporte de una covariable en el efecto de los tratamientos, haremos relación a un
experimento de nutrición animal, en el cual se ensayan diferentes raciones. Si al momento de iniciar
este experimento, no contamos con animales experimentales del mismo peso inicial y éste está
correlacionado con la ganancia de peso (variable respuesta del tratamiento) esta falta provoca un
incremento de error en el verdadero efecto de los tratamientos. En estos casos, el ANCOVA permite
calcular y eliminar esta porción del error experimental, generada por la ganancia de peso atribuida al
peso inicial de los animales.
En experimentos de nutrición animal, las diferencias detectadas entre medias de tratamientos
pueden ser provocadas por sus diferencias en el valor nutritivo, a las diferencias en las cantidades
consumidas, o a ambas. Si por covariancia, las diferencias de rendimientos medios observados se
ajustan sobre el consumo de una ración común, entonces, las medias ajustadas indicarán el
verdadero efecto de los tratamientos.
VENTAJAS
DESVENTAJAS
MODELO MATEMÁTICO
El modelo de la covariancia, representa el modelo lineal aditivo del análisis de varianza del diseño
experimental que se esté utilizando más un componente adicional para la variable concomitante o
independiente. Para un DBCR tendremos:
Dónde:
y= variable dependiente o de respuesta
x= covariable o variable independiente
b= pendiente de la regresión lineal
Este modelo igualmente, se resuelve por la suma de cuadrados tal como fue explicado en el
Análisis de Varianza.
Bloques r -1 𝑡 ∑(𝑦𝑖 − 𝑌̅. . )2 ∑(𝑋.𝑡 − 𝑋̅. . )(𝑌.𝑡 − 𝑌̅. . ) 𝑡 ∑(𝑋𝑡 − 𝑋̅. . )2 r-1 𝐶−𝐴
Tratamientos t–1 𝑟 ∑(𝑦𝑡 − 𝑌̅. . )2 ∑(𝑋𝑡 − 𝑋̅. . )(𝑌𝑡 − 𝑌̅. . ) 𝑟 ∑(𝑋𝑖 − 𝑋̅. . )2 t-1 𝐵−𝐴
Diferencia Diferencia Diferencia 𝑎22 2 1
Error (r - 1)(t - 1) (r - 1)(t - 1) -1 𝐴 = 𝑎1 − 𝑆𝑌𝑋
(a1) (a2) (a3) 𝑎3
Covariable 1 𝑎1 − 𝐴
𝑆𝐶(𝑌.𝑇𝑟𝑎𝑡+𝐸𝑟𝑟𝑜𝑟) 𝑆𝑃(𝑋𝑌.𝑇𝑟𝑎𝑡+𝐸𝑟𝑟𝑜𝑟) 𝑆𝐶(𝑋.𝑇𝑟𝑎𝑡+𝐸𝑟𝑟𝑜𝑟) 𝑏22
Tratam + error r(t - 1) (b1) r(t - 1) - 1 𝐵 = 𝑏1 −
(b2) (b3) 𝑏3
𝑆𝐶(𝑌.𝐵𝑙𝑜𝑞+𝐸𝑟𝑟𝑜𝑟) 𝑆𝑃(𝑋𝑌.𝐵𝑙𝑜𝑞+𝐸𝑟𝑟𝑜𝑟) 𝑆𝐶(𝑋.𝐵𝑙𝑜𝑞+𝐸𝑟𝑟𝑜𝑟) 𝑐22
Bloques + error t(r - 1) (c1) t(r - 1) - 1 𝐶 = 𝑐1 −
(c2) (c1) 𝑐3
1 2
𝑆𝑌𝑋 = error estándar de la estima o variancia residual
2
(∑ 𝑦𝑖𝑗 )2 ∑ 𝑥𝑖𝑗 ∑ 𝑦𝑖𝑗
2
(∑ 𝑥𝑖𝑗 )2
𝑆𝐶𝑌.𝑇𝑜𝑡𝑎𝑙 = ∑ 𝑦𝑖𝑗 − 𝑆𝑃𝑋𝑌.𝑇𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 𝑦𝑖𝑗 − 𝑆𝐶𝑋.𝑇𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 −
𝑟𝑡 𝑟𝑡 𝑟𝑡
1 307.3 20.5 393.3 38.4 355.2 30.4 345.1 25.1 1400.9 114.4
2 402.2 38.3 405.2 42.1 388.7 35.2 388.4 40.5 1584.5 156.1
3 342.4 24.6 350.4 25.1 323.2 24.1 302.3 20.1 1318.3 93.9
4 375.7 32.1 381.5 34.4 302.1 21.4 350.9 30.2 1410.2 118.1
5 305.2 27.6 353.1 29.6 377.3 32.1 382.5 32.8 1418.1 122.1
Total Bloq. 5 20 X.. Y..
X.j Y.j 1732.8 143.1 1883.5 169.6 1746.5 143.2 1769.2 148.7 7132 604.6
Cálculos básicos:
504.89⁄4
𝐹= = 6.35∗∗ (𝑝 = 0.0055)
238.67⁄12
La F no significativa para media ajustadas (F = 2.17NS) demuestra que no existen diferencias verdaderas entre las
medidas de tratamiento para Y cuando se ajustan por X. Esto prueba que las diferencias entra las medias no
ajustadas reflejan, en gran medida, diferencias en el consumo y no precisamente por efecto de las dietas solamente,
es decir, a un consumo de alimento común. Si se hubiera detectado significación para las medias ajustadas por
covariancia, entonces se habría concluido que las diferencias entre los tratamientos son reales.
Donde:
A continuación, el siguiente cuadro se observa el ajuste de las medias del ejemplo anterior:
Los errores estándar de la diferencia entre dos medias de tratamiento ajustados, con igual tamaño y diferente
tamaño muestral, respectivamente se determinan por:
2 (𝑋̅𝑖 − 𝑋̅𝑡 )2
𝑆∧ = 𝑆𝑦𝑥 √ +
𝑑 𝑟 𝑆𝐶𝑥. 𝑒𝑟𝑟𝑜𝑟
1 1 (𝑋̅𝑖 − 𝑋̅𝑡 )2
𝑆 ∧ = 𝑆𝑦𝑥 √ + +
𝑑 𝑟1 𝑟1 𝑆𝐶𝑥. 𝑒𝑟𝑟𝑜𝑟
Las comparaciones ortogonales son aquellas que reflejan piezas de información independientes y que el
resultado de una comparación no tiene relación alguna con el resultado de cualquier otra.
Destacamos su uso en el control del error, lo cual aumenta la precisión con que se mide un experimento;
también, permite ajustar las medidas de tratamientos, logrando así una mejor interpretación de los datos
y del efecto de los tratamientos.
BIBLIOGRAFÍA:
Dónde:
Los X son fijos (se repiten), medidos sin error e independientes de los tratamientos.
La regresión de Y respecto a X, después de eliminar diferencias de bloques y tratamientos es
lineal e independiente de estos factores.
Los errores se distribuyen normal e independientemente con medida cero y varianza común.
Desventajas de Covariancia
Si la covarianza es cero no hay una covariación clara en ninguno de los dos sentidos. (V)
Independientes cuando la suma de los productos cruzados de los coeficientes es cero, es decir, la
condición de ortogonalidad entre dos comparaciones cumple la siguiente restricción. (F)
No permite ajustar medias de tratamientos de la variable dependiente a las diferencias en
conjuntos de valores de variables independientes correspondientes. (V)