Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
y
x
10
10
4
20
1
25
9
12
8
13
6
15
2
23
3
21
5
18
6
17
Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.
Otros ejemplos de correlacin son los problemas que encontramos diariamente en el
trabajo, tales como:
Cul es la relacin entre la temperatura del horno y la resistencia del material?
Qu relacin existe entre el alimento consumido y el peso del ganado?
Cul es el precio de una mercanca afectada por la oferta?
Cul es la relacin entre el tamao de la granja y su rentabilidad?
Cul es la relacin entre las horas dedicadas para estudiar una unidad de la materia
de estadstica y la calificacin obtenida?
Otros ejemplos de correlacin los encontramos casi a diario en los peridicos en la
seccin de finanzas, con las grficas; prcticamente todo grfico es, en esencia, una
representacin entre la correlacin de dos variables. Donde el eje de la abscisa (x)
tiene a la variable independiente y el eje de la ordenada (y), la variable dependiente.
Terminaremos esta hoja definiendo los trminos de correlacin y regresin de la
siguiente manera.
Qu es correlacin? es la relacin que existe entre dos variables y a la estrechez de
dicha relacin.
Qu es regresin? es la cantidad de cambio de una variable asociada a un cambio
nico de otra variable.
1.3 Clculo del coeficiente de correlacin.
Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?
Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.
Para medir de un modo matemtico y ms preciso el grado de correlacin existente,
es necesario determinar un valor numrico que lo exprese y ste es el coeficiente
de correlacin lineal o r de Pearson. Veamos algunos ejemplos grficos y su
cuantificacin matemtica en las siguientes grficas.
Los valores que puede tomar el coeficiente de correlacin lineal van de: -1 r 1,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.
Una relacin positiva significa: a mayor rendimiento en x mayor rendimiento en y o
viceversa. Una correlacin negativa significa: a un rendimiento menor en x se tiene
un rendimiento mayor en y o viceversa a un rendimiento mayor en x se tiene un
rendimiento menor en y.
El algoritmo matemtico que simboliza al coeficiente de correlacin lineal se define
por:
n
x x y y
i 1
i 1
i 1
2
2
xi x yi y
Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:
x y
i
i 1
i 1
2
i
x
i 1
xi yi
i 1
i 1
y
i 1
2
i
y
i 1
100
110
120
130
140
150
160
170
180
190
45
51
54
61
66
70
74
78
85
89
Lo primero que debe hacerse es graficar estas variables con el fin de tener una
primera idea de como estn distribuidos los datos, esto es.
DIAGRAMA DE DISPERSIN DE LOS DATOS.
A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente
e independiente para el clculo del coeficiente de correlacin r se presentan a
continuacin.
y 673
47225
xy 101570
(1450)(673)
10
0.998128718
2
2
(1450)
(673)
218,500
47,225
10
10
101,570
El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.
Advertencia
El no encontrar evidencia de correlacin lineal entre las variables, se puede deber a:
a) De hecho las dos variables no estn relacionadas.
b) Las variables estn relacionadas en forma no lineal, en este caso la r de Pearson
no nos sirve para medir la relacin entre dos variables. Por eso es recomendable que
antes de realizar cualquier clculo se grafiquen los datos, sin olvidarse de emplear la
regla de los tres cuartos de altura (el eje de la ordenada y debe medir tres cuartas
partes de lo que mida el eje de la abcisa x).
1.4 Regresin lineal.
El hecho de estudiar la correlacin entre dos variables, es con la esperanza de que
cualquier relacin que se encuentre, pueda usarse como auxiliar para hacer
estimaciones o predicciones de una variable en particular.
El problema de la prediccin lineal se reduce a ajustar una lnea recta a un grupo de
puntos, ahora bien la ecuacin general de la lnea recta puede describirse como:
y a bx
a=3
Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:
b
y 2 y1 7 5
2
x 2 x1
2 1
Con esta ecuacin podemos hacer predicciones, suponga que deseamos encontrar
el valor de y cuando x = 3. La respuesta ser:
y 3 2(3) 9
En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.
Si tenemos un conjunto de puntos de datos a travs de los cuales podramos trazar
un nmero infinito de lneas de estimacin, cmo podemos saber cundo hemos
encontrado la mejor lnea de ajuste?
Para lograr lo anterior se emplea el criterio de mnimos cuadrados, que consiste en
hacer mnima la suma de cuadrados de los errores de estimacin, donde el error de
estimacin es la diferencia entre el valor observado de la muestra y el valor estimado
por la ecuacin obtenida.
En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:
i 1
n
xi x yi
x x
i
i 1
xy n x y
i 1
n
x nx
2
i 1
xy
x y
n
x
x2
n
a y bx
Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.
1.6 Uso del mtodo de mnimos cuadrados en un problema.
Consideremos el ejemplo de la temperatura del horno y la resistencia de la varilla, los
clculos bsicos para el clculo de los coeficientes de regresin a y b son:
n 10
x 1450
218,500
xy
101,570
y 673
(1450)(673)
10
0.48303
1450 2
218500
10
101570
a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada (y)
en un sistema de coordenadas cartesianas en el punto negativo de -2.74.
b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.
Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. Cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?
y 2.74 0.483(165) 76.96 psi.
Se
( y y )
n2
Donde:
y = valores de la variable dependiente
y
= valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).
Continuando con nuestro ejemplo tenemos:
x
y
y
(y - )2
100 110
45
51
45.6 50.4
-0.6 0.6
0.36 0.36
120
54
55.2
-1.2
1.44
130
61
60.1
0.9
0.81
140
66
64.9
1.1
1.21
150
70
69.7
0.3
0.09
160
74
74.6
-0.6
0.36
170
78
79.4
-1.4
1.96
180
85
84.2
0.8
0.64
190
89
89.0
0.0
0.0
8
y y
7.23
Se
7.23
0.90375 0.9506
10 2
y
2
y y 1 r 2 y 2 n
2
(1 0.998,128,7182)(47,225 673 ) 7.22
10
a y b xy ny 2
y 2 ny 2
r2
CME
x
n
Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H 0 si:
t t
c 2,n 2
10
a 1
1
CME
x
x
x
n
t t
c 2,n 2
11
Suma de cuadrados
xy
Grados
de
libertad
x y
S .C . regresin
G.L. regresin
C.M . Re g .
C.M . error
n2
S .C. error
G.L. error
Cuadrado
medio
n-1
n 10
x 1,450
673
47,225
xy
101,570
b = 0.483
Suma de
cuadrados
1,924.75
7.35
1,932.10
Grados de
libertad
1
8
9
Cuadrado
medio
1,924.75
0.919
F
2,094.4
= 0.10
3.46
= 0.05
5.32
= 0.01
11.26
Aqu se puede ver que el valor de F = 2,094.4 se encuentra a la derecha de 11.26 por
lo que le corresponde una probabilidad menor a 0.01. Puesto que la probabilidad de
que se hubiese obtenido por mero azar una F = 2,094.4 es menor al 5%,
rechazamos la hiptesis nula H0: b = 0 y aceptamos la hiptesis alterna H 1 b 0, con
lo que se puede concluir que la temperatura del horno si influye de manera
significativa en la resistencia de la varilla.
En la prctica una manera de concluir lo anterior en este ejemplo es mediante la
comparacin de la F del anlisis contra una F0.05, ( v1 , v 2 ) . Si la F calculada es mayor
que la F de tablas, se concluye que la variable independiente si influye de manera
significativa en la variable dependiente.
De este anlisis podemos ver que la recta que calculamos nos explica el 99.6% de la
variabilidad de y, esto es (1,924.75 1,932.1) 100 = 99.6, valor idntico al del
coeficiente de determinacin.
13
Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos
1.11 Estimacin de intervalos en la regresin lineal simple.
Adems de la estimacin de los parmetros a y b de la ecuacin estimada es posible
obtener estimaciones de intervalos de confianza para estos parmetros, el ancho de
estos intervalos es una media de la calidad total de la lnea de regresin.
En consecuencia el intervalo de confianza 100 (1 - ) % para la pendiente b, est
dado por el siguiente intervalo, donde t es un valor de t de Student con un cierto nivel
con v = n - 2 grados de libertad y CME es el cuadrado medio del error del
ANOVA.
P b t
CME
2,n 2
x
n
b b t
CME
2, n 2
x
n
0.919
0.919
P 0.483 2.306
b 0.483 2.306
8, 250
8,250
0.95
14
x
P a t 2,n2 CME
n
x
2
1
2
CME
2
t 2 ,n 2
n
x
2
x
n
1
145 2
10
8,250
1
145 2
10
8,250
0.95
15
Estos residuos suelen graficarse generalmente contra: 1) la secuencia del tiempo (si
se conoce), 2) contra i y 3) contra la variable independiente xi. Estas grficas por lo
general se presentan como lo indican los cuatro patrones siguientes:
ei
ei
A) Satisfactorio
ei
B) Embudo
ei
C) Doble arco
D) No lineal
x
y
100 110
45
51
45.6 50.4
120
54
55.2
130
61
60.1
140
66
64.9
150
70
69.7
160
74
74.6
170
78
79.4
180
85
84.2
190
89
89.0
16
e1
ei yi y i -0.6
e2
0.6
e3
-1.2
e4
0.9
e5
1.1
e6
0.3
e7
-0.6
e8
-1.4
e9
0.8
e10
0.0
i y contra la variable
La grfica de residuos residuos contra los datos estimados y
independiente x i , se presentan a continuacin.
i
GRFICA DE RESIDUOS CONTRA y
vs. ajustes
(la respuesta es y)
1,0
Residuo
0,5
0,0
-0,5
-1,0
-1,5
40
50
60
70
Valor ajustado
80
90
Residuo
0,5
0,0
-0,5
-1,0
-1,5
100
110
120
130
140
150
160
170
180
190
A la vez podemos observar que los residuos son aleatorios y su promedio es cero
(hay igual nmero de errores positivos como negativos).
Para verificar el supuesto de que los errores se distribuyen de manera normal
realizamos la grfica normal de residuos, en ella se puede observar que los residuos
caen aproximadamente sobre una recta, con lo que se puede concluir que no hay
desviacin importante de normalidad, o sea que el supuesto de que los errores se
distribuyen de manera normal se cumple.
Cuando aparecen valores atpicos, es decir observaciones que no son tpicas al
resto de los datos, significa que los errores no se distribuyen de manera normal. Si
desea ms informacin sobre puntos atpicos consulte a Montgomery y Peck.
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-2
-1
0
Residuo
Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.
Cuando aparece un patrn en las grficas, por lo general suele indicar la necesidad
de una transformacin de los datos originales, esto es, analizar los datos en una
mtrica diferente. Por ejemplo, si la variabilidad de los residuos aumenta con i o xi
entonces es conveniente aplicar la transformacin logartmica. Si los datos
analizados se encuentran en porcentaje, es recomendable la transformacin
arcoseno. Si se analizan valores pequeos con decimales, lo recomendable es la
transformacin raz cuadrada y si la variable es el cociente de dos variables, la
transformacin logartmica es la adecuada.
Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.
18
Con los datos obtenidos hasta aqu, podemos ya responder a algunas preguntas
como:
1. Cun estrecha es la relacin entre la temperatura del horno y la resistencia
de la varilla?
R. Totalmente estrecha. El coeficiente de correlacin es de 0.998, el 1 sera el
perfecto.
2. Cul es la probabilidad de que tal correlacin pudiera deberse a la
casualidad?
R. Una correlacin de este tamao de 10 pares de datos, solo podra ocurrir por
casualidad menos del 1% de las veces.
3. Qu ecuacin describe mejor la relacin entre la temperatura del horno y la
resistencia de la varilla?
R.
2.74 0.483 x
y
1
2
3
4
5
6
7
8
9
10
C1
x
100
110
120
130
140
150
160
170
180
190
C2
y
45
51
54
61
66
70
74
78
85
89
21
2.
3.
Utilizar el anlisis de regresin mltiple, para ver que tan bien describe la ecuacin de
regresin los datos observados.
Adems, en la regresin mltiple podemos observar cada una de las variables independientes y
probar si contribuyen significativamente a la forma en que la regresin describe los datos.
El tema contempla el estudio de los coeficientes de correlacin y determinacin simple, coeficientes
de determinacin y correlacin parcial, coeficientes de determinacin y correlacin mltiple, obtencin
de la ecuacin que mejor se ajusta a los valores observados, error estndar de estimacin, intervalos
de confianza, anlisis de varianza de la regresin mltiple, validacin del modelo y empleo del
software minitab.
2.2 Coeficientes de correlacin.
La correlacin entre dos variables, pasando por alto cualesquiera otras variables que pueden variar
simultneamente, recibe el nombre de correlacin simple o lineal.
La correlacin entre dos variables, cuando una o ms variables permanecen fijas a un nivel constante,
se denomina correlacin parcial.
La relacin combinada entre una variable dependiente y dos o ms variables que varan
simultneamente recibe el nombre de correlacin mltiple.
Supngase que tenemos una variable dependiente Y, y para cada valor de Y existen valores
correspondientes de otras dos variables independientes, X1 y X2.
La correlacin simple o total entre Y y X1 es el coeficiente de correlacin lineal que estudiamos con
anterioridad. Por lo tanto la correlacin simple de Y con X1, utilizando subndices explicativos,
podemos expresarla de la siguiente manera.
(X 1 )(Y )
n
rYX
2
( X 1 )
( Y ) 2
2
2
X 1
Y
n
n
X 1Y
rYX
(X 2 )(Y )
n
2
(X 2 )
(Y ) 2
2
2
X 2
Y
n
n
X 2Y
rX X
1
(X 1 )(X 2 )
n
2
(X 1 )
( X 2 ) 2
2
2
X 1
X 2
n
n
X 1 X 2
La correlacin parcial entre Y y X1, permaneciendo constante X2, se calcula a partir de las
ecuaciones simples anteriores de la manera siguiente.
2
YX 1 X 2
rYX rX X
1 rYX2 1 rX2 X
YX 1
2
YX 2 X 1
rYX rX X
1 rYX2 1 rX2 X
YX 2
2
Y X1X 2
1 rX2 X
1
RY X X
1
RY2 X X
1
El valor de R es siempre positivo, fluctuando entre cero y uno; adems su valor es cuando menos
como el menor de los coeficientes simples o parciales. Este hecho sirve como una buena
comprobacin de los clculos.
El problema de visualizar tres variables se complica un poco, ya que con tres variables, la relacin
debe describirse como un plano en el espacio tridimensional. La proyeccin del elipsoide sobre el
plano X1, Y muestra la correlacin simple de X1 y Y. Una seccin a travs del elipsoide paralelo al
plano X1, Y proyectado sobre el mismo, mostrar la correlacin parcial de X1 con X2 fija, denotada por
rYX
1X2
Las figuras siguientes muestran grficamente diversas situaciones. Note como la correlacin mltiple
puede variar, mientras que la correlacin parcial puede ser alta, o viceversa. Pueden incluso la
correlacin parcial ser diferentes en signo.
Horas de trabajo de
auditorias de campo
(dos ceros omitidos)
X1
Horas en
computadoras
(dos ceros omitidos)
X2
Impuestos reales
no pagados
(millones de dlares)
Y
4
a + b1X1 + b2X2
Los clculos de los datos originales para la obtencin de los coeficientes de correlacin se
presentan a continuacin.
272
2
X Y
1
7428
12005
441
2
1
19461
Y 4013
147
2
2
2173
X 2 6485
Con los clculos anteriores obtenemos los coeficientes de correlacin simple, parcial y mltiple de la
manera siguiente.
441(272)
10
rYX
0.501517
2
441
272 2
19461
7428
10
10
12005
El valor anterior significa que existe correlacin lineal media entre las horas de trabajo de los
auditores y la evasin de impuestos.
6
Este valor nos indica que las horas de trabajo de los auditores nos explican el 25.15% de la
variabilidad de los impuestos no pagados.
rYX
147(272)
10
0.771462
2
147
2722
2173
7428
10
10
4013
Existe correlacin lineal media alta entre las horas de trabajo de las computadoras y los impuestos no
pagados.
rYX2 0.595153
2
Indica que las horas de trabajo de las computadoras nos explican el 59.51% de la variabilidad de la
evasin de impuestos.
rX X
1
441(147)
10
0.184094
2
441
147 2
19461
2173
10
10
6485
Existe correlacin lineal muy baja (no existe) entre las horas de trabajo de los auditores y las horas
de trabajo de las computadoras.
rX2 X 0.033891
1
Las horas de trabajo de los auditores nos explican el 3.3% de las horas de trabajo de las
computadoras.
Los coeficientes de determinacin y correlacin parcial son:
2
YX 1 X 2
rYX rX X
1 rYX2 1 rX2 X
YX 1
2
YX1 X 2
0.5015 (0.7714)0.1841
1 0.59511 0.0339
0.330364
Significa que las horas de trabajo de los auditores y los impuestos no pagados, estando fijos las horas
de trabajo de las computadoras, nos logran explicar el 33% de la variabilidad de Y.
rYX
rYX rX X
1 rYX2 1 rX2 X
YX 2
2 X1
2
YX 2 X 1
0.7714 (0.5015)0.1841
1 0.25151 0.0339
0.637705
Las horas de trabajo de las computadoras y los impuestos no pagados estando fijos las horas de los
auditores, nos logran explicar el 63.77 %.
Existe correlacin parcial media alta entre las horas de trabajo de computadoras e impuestos no
pagados estando fijos las horas de trabajo de los auditores.
Con los valores obtenidos para los coeficientes de correlacin simple obtenemos el clculo del
coeficiente de determinacin mltiple de la siguiente manera:
2
Y X1 X 2
RY2 X X
1
1 r
2
X1 X 2
Significa que: las horas de trabajo de los auditores con las horas de trabajo de las computadoras
cuando se manejan conjuntamente nos explican el 72.8% de la variabilidad de los impuestos no
pagados.
As mismo nos dice que existe un error de estimacin del 27.1% = (1 0.729)100, el cual lo podemos
considerar como grande.
Finalmente el coeficiente de correlacin mltiple se obtiene por:
RY X X 0.728868 0.853738
1
El cual nos indica que existe correlacin mltiple alta entre las horas de trabajo de los auditores con
las horas de trabajo de las computadoras y los impuestos no pagados cuando se manejan
conjuntamente.
Para finalizar este subpunto, se presenta una ecuacin general para encontrar el coeficiente de
correlacin mltiple que incluye m variables independientes.
2
2
1 RY2 X 1 ... X m (1 rYX
)(1 rYX2 2 X 1 )(1 rYX
)....(1 rYX2 m X 1 X m1 )
1
3 X1 X 2
Y a b1 X 1 b2 X 2 ...
Los trminos b1, b2, reciben el nombre de coeficientes de regresin parcial. La ecuacin mejor
ajustada de esta forma, ser aquella que haga mnima la suma de cuadrados de los errores de
2
estimacin (Y Y ) . Para encontrar los valores a, b1, b2, que cumplan este requisito, debemos
resolver ecuaciones normales muy parecidas a las ya manejadas.
an b1 X 1 b2 X 2 ... Y
a X 1 b1 X 12 b2 X 1 X 2 ...
a X 2 b1 X 1 X 2 b2 X
2
2
X Y
... X Y
1
Los puntos indican como pueden ampliarse estas ecuaciones para incluir a ms de tres variables.
2.4 Obtencin de la ecuacin de regresin.
El clculo de la ecuacin de regresin, la obtenemos al substituir en las ecuaciones normales
anteriores los valores originales solicitados, obteniendo en nuestro caso un sistema de tres
ecuaciones con tres incgnitas.
Ahora, utilizamos los clculos obtenidos en el punto 2.2 con los datos originales de X1, X2 y Y, con
dichos valores obtenemos un sistema de tres ecuaciones con tres incgnitas desconocidas (a, b 1 y b2).
10a
Det. 1508
Det. a 20840
Det. b1 850
Det. b2 1658
Por lo tanto:
a
Det. a / Det.
a
a
=
=
20840 / 1508
13.819628
b1
Det. b1 / Det.
b1
b1
=
=
850 / 1508
0.563660
9
b2
b2
=
=
1658 / 1508
1.099469
Es recomendable que los valores estimados de: a, b 1, b2, sean substituidos en alguna de las
ecuaciones del sistema de donde se obtuvieron, para ver si la igualdad se cumple, si esto sucede,
quiere decir que los coeficientes fueron bien estimados.
Luego entonces, la ecuacin que describe la relacin entre el nmero de horas de trabajo de auditoria
de campo, el nmero de horas de computacin y los impuestos no pagados es:
Y a b1 X 1 b2 X 2 ...
Y a b1 X 1 b2 X 2
Y 13.8196 0.5637 ( 43) 1.0995(16) 28.0115
SY X 1 X 2
(Y Y )
n k 1
Donde:
Y
El cuadro siguiente muestra los valores estimados para cada combinacin de variable, as como la
suma de cuadrados de las desviaciones.
X1
X2
Y Y
(Y Y ) 2
45
42
44
45
43
46
44
45
44
43
16
14
15
13
13
14
16
16
15
15
29
24
27
25
26
28
30
28
28
27
29.13
25.24
27.47
25.84
24.71
27.50
28.57
29.13
27.47
26.90
0.13
1.24
0.47
0.84
1.29
0.50
1.43
1.13
0.53
0.10
0.0169
1.5376
0.2209
0.7056
1.6641
0.2500
2.0449
1.2769
0.2809
0.0100
8.0078
Puede observarse que la suma de las desviaciones es cero tal como debe ser, esto suministra una
buena comprobacin de los clculos. La suma de cuadrados de la desviacin es 8.0078. Esto
representa la variacin de los impuestos reales no pagados (Y), no asociado con la variacin de horas
de trabajo de auditoria de campo (X1) o de horas de computadora (X2).
Por lo tanto el error estndar de estimacin ser:
SY X 1 X 2
8.0078
1.069566
10 2 1
( Y ) 2
(Y Y ) 2 (1 R 2 ) Y 2
11
272 2
(Y Y ) 2 (1 0.728868) 7428
8.025
10
Valor muy parecido a 8.0078, la pequea diferencia es debido al ajuste de decimales. Lo anterior nos
permite verificar si los clculos obtenidos en los coeficientes de correlacin simple, parcial, mltiple y
la ecuacin estimada estn correctos.
2.6 Intervalo de confianza para Y.
De manera general un intervalo de confianza alrededor de un valor estimado Y , se define por:
PY tS Y X X Y Y tS Y X X 1
1
Y , es
1 . Donde t es un
SY X
1X 2
es el
el valor de
SY X
1X 2
Fuente de
variacin
Suma de
cuadrados
Regresin debido a X 1
2
rYX
( y 2 )
1
Desviacin de la regresin
simple.
2
(1 rYX
) y 2
1
2
2
rYX
(1 rYX
) y 2
2 X1
1
a X2
Desviacin de la regresin
mltiple.
Total
Donde
1 R
Y X1 X 2
Grados
de libertad
1
(n 1 ) 1
(n 1 ) 2
S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .D.R.
S .C .D.R.
G.L.D.R.
S .C.R. X 2 C .M .R. X 2
G.L.R. X 2 C.M .R.M .
S .C .R.M .
G.L.R.M .
n1
y 2
y 2 Y 2
Cuadrado
medio
(Y ) 2
n
De manera anloga las sumas de cuadrados para la segunda variable independiente X 2 son:
Fuente de
variacin
Suma de
cuadrados
Regresin debido a X 2
2
rYX
(y 2 )
2
Desviacin de la regresin
simple.
2
(1 rYX
) y 2
2
2
2
rYX
(1 rYX
)y 2
1X 2
2
a X1
Desviacin de la regresin
mltiple.
Total
1 R
2
Y X1 X 2
y 2
Grados
de libertad
1
(n 1 ) 1
(n 1 ) 2
Cuadrado
medio
S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .R.M .
S .C .R.M .
G.L.R.M .
n1
13
y 2 7428
272 2
29.6 , con 10 1 = 9 grados de libertad.
10
Grados de
libertad
Cuadrado
medio
7.44
7.44
2.68
22.15
2.77
14.13
14.13
8.03
1.15
Regresin debido a X 1
Suma de
cuadrados
29.6
12.29
14
v1 1
v2
= 0.10
3.46
= 0.05
5.32
= 0.01
11.26
Podemos apreciar que la probabilidad de tener un valor de F = 2.68 es mayor a 0.10 o lo que es lo
mismo es mayor a 5%, por lo tanto, se acepta la hiptesis H 0 y se concluye que la variable horas de
trabajo de los auditores no influye de manera significativa en los impuestos reales no pagados.
Una manera prctica para tomar esta misma decisin es: Si F es mayor que
rechaza la hiptesis H 0 ; en nuestro caso como F = 2.68 es menor que
F0.05 , ( v
,v2 )
se
acepta la hiptesis H 0 y se concluye que las horas de trabajo de los auditores no influyen de
manera significativa en los impuestos no pagados.
Las sumas de cuadrados para la segunda variable independiente horas empleadas en computadora (
X 2 ), as como el ANOVA correspondiente se presentan a continuacin.
Suma de cuadrados total = 29.6
Suma de cuadrados de la regresin debido a X 2
= 0.5951 (29.6) = 17.61
Suma de cuadrados de la desviacin de la regresin simple
= (1 0.5951) 29.6 = 11.99
Suma de cuadrados de la regresin adicional debido a X 1
= 0.3303 (1 0.5951) 29.6 = 3.96
Suma de cuadrados de la desviacin de la regresin mltiple
(1 0.7288) 29.6 = 8.03
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Regresin debido a X 2
17.61
17.61
11.74
11.99
1.50
3.96
3.96
8.03
1.15
Total
29.6
3.44
9
15
H 0 : La variable independiente
X 2 , es menor de 0.01 (ver tabla anterior), se rechaza la hiptesis
horas de trabajo de las computadoras, no influye de manera significativa en los impuestos no
pagados y se acepta la hiptesis alterna H 1 : La variable independiente horas de trabajo de las
computadoras, si influye de manera significativa en los impuestos no pagados. Con lo que se
concluye que las horas de trabajo de las computadoras si influyen significativamente en la
estimacin de los impuestos reales no pagados.
NOTAS: La suma de cuadrados de la desviacin de la regresin simple, se puede calcular por
diferencia de la S. C. Total menos S. C. de la regresin debido a X ? . Ejemplo para el primer anlisis.
29.6 7.44 = 22.16
La suma de cuadrados de la desviacin de la regresin mltiple, se puede calcular por diferencia de la
S. C. de la desviacin de la regresin simple menos S. C. de la regresin adicional debido a X ? .
Ejemplo para el segundo anlisis. 11.99 3.96 = 8.03
Puede observarse que en ambos anlisis, la suma de cuadrados de la desviacin de la regresin
mltiple (8.03) es idntico a (Y Y ) 2 ; as mismo el cuadrado medio de la desviacin de la
regresin mltiple (1.15) es idntico a
SY2 X
1X 2
RY2 X 1 X 2
7.44 14.13
100 72.87%
29.6
Lo que significa que las variables horas de auditora de campo ( X 1 ) y horas en computadoras ( X 2 )
unidas, logran explicar el 72.9% de la variabilidad de Y.
Por otra parte las horas de auditora de campo de manera individual logran explicar el 25.13% de la
variabilidad de Y, (7.44 / 29.6) 100.
Mientras que las horas de computadora de manera individual logran explicar el 59.49% de la
variabilidad de Y, (17.61 / 29.6) 100.
Los valores calculados anteriormente coinciden con los coeficientes de correlacin obtenidos con
anterioridad, que fueron
RY2 X
1X2
rYX2
rYX2
X1
X2
45
42
44
45
43
46
44
45
44
43
16
14
15
13
13
14
16
16
15
15
Yi
Yi
29
24
27
25
26
28
30
28
28
27
29.13
25.24
27.47
25.84
24.71
27.50
28.57
29.13
27.47
26.90
ei
-0.13
-1.24
-0.47
-0.84
1.29
0.50
1.43
-1.13
0.53
0.10
Residuos vs. x1
(la respuesta es y)
1,5
1,0
Residuo
0,5
0,0
-0,5
-1,0
42
43
44
x1
45
46
17
Residuo
0,5
0,0
-0,5
-1,0
13,0
13,5
14,0
14,5
x2
15,0
15,5
16,0
Como no hay un patrn en ambas grficas podemos concluir que hay independencia entre los errores,
que son aleatorios y que su media es cero.
En la grfica de residuos ( ei ) contra valores estimados ( Y ) se puede observar que los residuos no
aumentan conforme crece Y , lo que nos indica que las varianzas de los errores es la misma para
todas las variables independientes.
Cuando la dispersin de los residuos aumenta conforme aumenta Y indica que al menos una
varianza no es constante. Si las suposiciones para el modelo de esta prueba no se satisfacen,
entonces no se justifica sacar conclusiones acerca de la significacin estadistica de la ecuacin
estimada. Cuando una varianza no es constante se sugiere trasformar la variable dependiente a
logaritmos para analizarla bajo otra mtrica, esto hace que los valores de la variable dependiente se
compriman y con esto disminuirn los efectos de la varianza no constante.
18
Residuo
0,5
0,0
-0,5
-1,0
25
26
27
Valor ajustado
28
29
En la grfica de probabilidad normal de los residuos, encontramos que no hay desviaciones marcadas
de la normalidad que se perciban, por lo tanto el supuesto de que los errores se distribuyen de manera
normal se cumple.
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-2
-1
0
Residuo
Dado que los supuestos en que se basa el modelo se cumplen, podemos concluir que no existe
insuficiencia del modelo, es decir nuestro modelo es vlido.
19
X1
45
42
44
45
43
46
44
45
44
43
X2
16
14
15
13
13
14
16
16
15
15
Y
29
24
27
25
26
28
30
28
28
27
21
3. DISEO DE EXPERIMENTOS
3.1 Introduccin.
Factores cuyos niveles no pueden ser arreglados en orden de magnitud. Los cuales
pueden presentarse sin estructura (ejemplo, se comparan tres variedades de trigo)
y con estructura (ejemplo, se comparan cinco tipos de lavadoras donde dos son
de fabricacin nacional y tres de fabricacin extranjera). El inters en estos
factores se centra en comparacin de medias.
Factor cuantitativo:
Factores cuyos niveles estn asociados con puntos en una escala numrica. Pudiendo
ser estos igualmente espaciados o equidistantes (ejemplo se comparan cuatro
concentraciones e nitrgeno 0, 5, 10 y 15%), o no equidistantes (ejemplo se
comparan tres concentraciones de madera dura (5, 10 y 20%). El inters es la relacin
de los niveles de factor con la variable de respuesta.
Es necesario desarrollar todas las ideas sobre los objetivos del experimento. Suele ser
importante solicitar la opinin de todas las partes implicadas: cuerpo tcnico,
aseguramiento de la calidad, manufactura, divisin comercial, direccin, clientes y
personal operativo (quienes normalmente saben mucho del asunto pero son con
demasiada frecuencia ignorados).
2. Eleccin de factores y niveles.
Conclusiones y recomendaciones.
Una vez que se han analizado los datos, el experimentador debe extraer conclusiones
prcticas de los resultados y recomendar un curso de accin. En esta fase a menudo
son tiles los mtodos grficos, en especial al presentar los resultados a otras
personas.
El siguiente esquema representa un experimento, el cual no es ms que un proceso
en el que intervienen diferentes tipos de variables.
VARIABLES DE INVESTIGACIN
VARIABLES
CONTROLABLES
PROCESO
VARIABLES
INDEPENDIENTES
UNIDADES
EXPERIMENTALES
HOMOGNEAS
VARIABLES DE
RESPUESTA
VARIABLES
INCONTROLABLES
Para
i = 1, 2,..., t tratamientos
j = 1, 2,..., r repeticiones
10
Tratamientos
T1
I
y11
II
y12
T2
y21
.
.
.
Tt
Total
yij
Repeticiones:
III
y13
...
r
y1r
y22
y23
...
y2r
.
.
.
yt1
.
.
.
yt2
.
.
.
yt3
...
.
.
.
ytr
Y1
Y 2
Y 3
...
Y r
i = 1, 2, , t tratamientos
Total
Promedio
Y1
Y2
y1
y2
.
.
.
.
.
.
Yt
Y
yt
y
j = 1, 2, , r repeticiones
11
Yi
Se suma sobre j
Yi yij
j 1
Y j
Se suma sobre i
Y j yij
i 1
Suma de totales
i 1
y
j 1
ij
Fuente de
Suma de
variacin
Grados de
cuadrados
t
Y
i 1
2
i
Tratamientos
Cuadrado
libertad
medio
S .C.Trat .
G.L.Trat
Y2
rt
t-1
C .M .Trat .
C .M .error
Error Exptal.
S .C .Tot . S .C .Trat .
t (r - 1)
Total
Y2
Y
rt
i 1 j 1
rt - 1
2
ij
S .C.error
G.L.error
C
D
A
C
A
D
14
22
8
17
9
20
D
A
C
B
B
C
19
7
19
18
19
18
B
C
A
A
D
A
Pruebe la hiptesis H 0 : A B C D
12
18
15
11
18
10
D
B
B
D
C
B
25
17
13
23
16
15
I
7
12
14
19
52
II
8
17
18
25
68
III
15
13
19
22
69
IV
11
18
17
23
69
V
9
19
16
18
62
VI
10
15
18
20
63
Total
60
94
102
127
383
Promedio
10.00
15.67
17.00
21.17
15.96
FC Y2 / rt
2
Suma de cuadrados totales = SCT yij FC
i 1 j 1
13
i 1
2
i
/ r FC
Error experimental
Total
Suma de
cuadrados
382.79
Grados de
libertad
3
Cuadrado
medio
127.60
130.17
512.96
20
23
6.51
22.30
F
19.6
= 0.10
2.38
= 0.05
3.10
= 0.01
4.94
Aqu se puede ver que el valor de F = 19.6 se encuentra a la derecha de 4.94 por lo
que le corresponde una probabilidad menor a 0.01.
Puesto que la probabilidad de obtener por azar una F = 19.6 es menor a 5%,
H 0 : A B C D y aceptamos la hiptesis alterna
rechazamos la hiptesis
H 1 : i j , con lo que se puede concluir que los promedios de las resistencias de las
bolsas de papel (tratamientos) son diferentes estadsticamente.
14
eij yij yi
yi
yi .Tambin es
til grafican los residuos contra los tratamientos para comparar la dispersin de los
residuos y ver si se cumplen sus supuestos.
Cuando aparece un patrn en estas grficas, suele indicar la necesidad de una
transformacin, es decir, analizar los datos bajo una mtrica diferente. Por ejemplo si
la variabilidad en los residuos aumenta con
yi
Repeticiones
15
madera dura
A = 5%
B = 10%
C = 15%
D = 20%
I
-3.00
-3.67
-3.00
-2.17
II
-2.00
1.33
1.00
3.83
III
5.00
-2.67
2.00
0.83
IV
1.00
2.33
0.00
1.83
V
-1.00
3.33
-1.00
-3.17
VI
0.00
-0.67
1.00
-1.17
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-5,0
-2,5
0,0
Residuo
2,5
5,0
CV CME (100) / y
Donde CME es el
CV
lo que
16
En esta grfica se observa que no hay un patrn definido, por lo que podemos decir
que existe independencia entre los errores (no hay tendencia entre ellos), adems de
que el promedio de los residuos es cero (existe igual nmero de residuos positivos
como negativos)
En la grfica de residuos contra los promedios de tratamientos, se observa que no
existe tendencia definida, es decir, la variabilidad de los residuos no aumenta
conforme crece y ij , por lo que podemos concluir que las varianzas son iguales para
cada tratamiento. Como las grficas no muestran en ningn momento falta de
adecuacin del modelo ni algn problema con los supuestos, podemos concluir que
los resultados que da el modelo son vlidos.
2
1
0
-1
-2
-3
-4
10
12
14
16
Valor ajustado
18
20
22
17
Posicin
Posicin
Posicin
1
2
3
90
105
83
82
89
89
79
93
80
98
104
94
83
89
91
95
86
Efecte el ANOVA para probar con un nivel de significancia de 0.05, si las diferencias
entre las medias muestrales en las tres posiciones son significativas.
Las hiptesis planteadas son: H0: 1 = 2 = 3 vs
Repeticiones
Tratamientos
Posicin 1
Posicin 2
Posicin 3
Total
1
90
105
83
278
2
82
89
89
260
3
79
93
80
252
4
98
104
94
296
5
83
89
6
91
95
7
86
172
186
86
Total
523
661
346
1530
Promedio
87.2
94.4
86.5
18
Tratamientos
Error experimental
Total
Suma de
cuadrados
234.45
703.55
938.00
Grados de
libertad
2
14
16
Cuadrado
medio
117.22
50.25
F
2.33
v2
14
= 0.05
3.74
= 0.01
6.51
Puede apreciarse que la probabilidad de tener una F = 2.33 es mayor al 0.10, o lo que
es lo mismo es mayor a 0.05, por lo tanto se acepta la hiptesis H0 y se concluye que
la resistencia promedio de los pernos en las tres distintas posiciones, es la misma
estadsticamente.
Apndice 4.1 Empleo del software Minitab en el anlisis de un diseo
completamente al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis
residual, tomaremos el experimento para probar la resistencia de bolsas de papel
para envasar comestibles. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamiento y en C2 Respuesta.
2. La manera como puede ser concentrada la variable de salida y los tratamientos en
la hoja de clculo es:
1
2
3
Tratamiento
A
A
A
Respuesta
7
8
15
19
4
5
6
4
.
.
.
24
A
A
A
B
.
.
.
D
11
9
10
12
.
.
.
20
20
S A B
2S
/ r (t t ( r 1), / 2 )
Donde:
S2 = cuadrado medio del error del ANOVA.
r = nmero de repeticiones.
t = t de Student con los grados de libertad del error, un cierto nivel
deseado, en una prueba bilateral.
Total
Promedio
21
15
11
50
10.0
12
19
17
25
13
28
18
29
19
28
79
129
15.8
=
5
%
B =10%
Total
T
ratami
ento
Error experimental
Total
Suma de
cuadrados
84.1
Grados de
libertad
1
Cuadrado
medio
84.10
78.8
162.9
8
9
9.85
F
8.53
9.85(2) / 5
= 1.985
Calculemos ahora la DMS con un nivel de significancia del 5%, por lo que debemos
obtener primero el valor de t de tablas con tt ( r 1), / 2 , que en nuestro caso es:
t 2 ( 5 1), 0.05 / 2 t8, 0.025 2.306 . Por lo tanto nuestra DMS ser:
Regla de decisin:
S | A - B | 4.577 se rechaza H0
En nuestro caso la diferencia de medias en valor absoluto es:
|10 15.8| = | 5.8 |, dado que 5.8 es 4.577 se rechaza H0, lo que nos indica que la
media del tratamiento B es mayor estadsticamente a la media del tratamiento A. Esta
prueba es totalmente vlida cuando se tienen dos tratamientos.
22
( x A xB ) 0
S A B
Sx S 2 / r
Donde:
S2 = cuadrado medio del error del ANOVA.
r = nmero de repeticiones.
6.51 / 6 1.0416
2. Obtencin del RESi, con 20 grados de libertad del error y un = 0.05 de la tabla de
Duncan.
2
2.95
3
3.10
4
3.18
2
3.07
3
3.23
4
3.31
B
15.67
C
17.0
D
21.17
= 7.00 vs 3.23
= 1.33 vs 3.07 =
B
C
________________
b
b
D
_______
a
a
(1) = Los tratamientos con la misma letra son estadsticamente iguales con una
probabilidad del 95%.
De manera resumida, la prueba nos dice que el tratamiento D es superior
estadsticamente a todos los dems, que le siguen C y B que pueden considerarse
equivalentes, y que ambos son superiores al tratamiento A.
Finalmente solo nos queda decir que la bolsa que se recomienda para envasar
comestibles, es la que tiene una concentracin de 20% de madera dura que es el
tratamiento D.
Para los casos donde se tengan dos o ms tratamientos estadsticamente iguales
como los mejores, se recomienda recurrir al anlisis econmico y recomendar el ms
barato, as como recurrir a las grficas del anlisis residual para recomendar aquel
tratamiento que presente menor variabilidad dentro del grupo de los que son iguales.
Nota: Para el caso de un experimento desbalanceado, se sugiere que el valor
empleado para el clculo de S x sea sustituido por:
rh
t
t
1 / r
i 1
25
Sx
/r
Donde:
S 2 cuadrado medio del error del ANOVA.
r = nmero de repeticiones.
2. Se extraen t - 1 valores de la tabla de porcentaje mximo del rango
estudentizado (tabla de Student Neyman), estos valores son:
q , i, g
Donde:
= nivel de significancia.
i = 2,....., t
g = grados de libertad del error.
3. Obtencin de los rangos mnimos significativos W i
Wi q , i, g S x
15
9.8,
20
15.4.
25
17.6,
30
21.6 y
35
10.8
26
2
2.95
3
3.58
4
3.96
5
4.23
2
3.74
3
4.55
4
5.03
5
5.37
3. Clculo de Wi
35
15
9.8
10.8
20
15.4
25
17.6
30
21.6
30
30
30
30
15
35
20
25
=
=
=
=
21.6
21.6
21.6
21.6
5.6 vs 4.55
4.6 vs 3.74
35 - 15 = 10.8 - 9.8 =
1.0 vs 3.74 =
Visto en una grfica los tratamientos que son estadsticamente iguales para su
formacin de grupos es:
15
35
20
25
30
27
Resistencia promedio
de la fibra
30
25
20
35
15
21.6
17.6
15.4
10.8
9.8
=
=
=
=
=
30%
25%
20%
35%
15%
Significacin
estadstica
(1)
a
b
b
c
c
(1) = los tratamientos con la misma letra son estadsticamente iguales al nivel
indicado.
La prueba nos indica que el tratamiento que tiene el 30% de algodn es
significativamente superior a todos los dems, le siguen los tratamientos con 20 y
25% que son equivalentes estadsticamente y al final se ubican los tratamientos
con 35 y 15% de algodn que son iguales matemticamente pero inferiores a
todos los dems.
Por lo tanto el tratamiento recomendable en este caso es el que contiene el 30% de
algodn.
5.5 Prueba de Tukey.
Esta prueba es tambin conocida como diferencia mnima significativa honesta
(DMSH). Es similar a la prueba DMS, en el hecho de que se utiliza un solo valor para
juzgar la diferencia entre las medias de los tratamientos.
El fundamento primordial de esta prueba es tratar de asegurar no cometer el error
tipo I (pero no detecta diferencias que si pueden ser).
Esta prueba es ms estricta que la de Duncan y la de Student Neyman en el sentido de
que declara menos diferencias significativas. La prueba consiste en:
28
Sx S 2 / r
2. Obtencin del valor q , t , g en la misma tabla para la prueba de Student Neyman,
donde:
Donde:
= nivel de significacin.
t = nmero de tratamientos.
8.06 / 5 1.2696
15
9.8
35
20
25
30
10.8
15.4
17.6
21.6
29
35
15
20
25
a
b
c
d
30
a
b
c
Resistencia promedio
de la fibra
30
25
20
35
15
21.6
17.6
15.4
10.8
9.8
= 30%
= 25%
= 20%
= 35%
= 15%
Significacin
estadstica
(1)
a
ab
bc
cd
d
30
C CiTi
i 1
Donde:
Ci = coeficiente de los tratamientos
Ti = total del tratamiento.
t
Donde la suma de los coeficientes de esa combinacin lineal debe ser cero.
C
i 1
C d
i 1
Esto nos indica que los contrastes son independientes y sus efectos son separados.
31
SC (Ci )
C T
i i
i 1
r Ci2
i 1
Repeticiones:
3
4
3.8
4.2
3.8
3.5
15.3
4.1
4.2
3.9
3.7
15.9
4.0
4.4
3.7
3.6
15.7
3.8
4.3
3.8
3.7
15.6
Total
Promedio
15.7
17.1
15.2
14.5
62.5
3.92
4.27
3.80
3.63
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Tratamiento
Error
0.906875
0.1425
3
12
0.302292
0.011875
25.46
32
Total
1.049375
15
Dado que los grados de libertad para tratamiento en el ANOVA son tres, por lo tanto
los contrastes que podemos formar tambin son tres.
Para realizar las comparaciones se recomienda ordenar los totales de los tratamientos
de menor a mayor, para poder hacer los grupos de tratamientos que sern
comparados.
D
14.5
C
15.2
A
15.7
B
17.1
Tres.
se cumpla
C
i 1
33
C vs A
1
1
TABLA DE COEFICIENTES Ci
Totales por tratamiento
D
C
14.5
15.2
-1
-1
-2
1
0
-1
Comparaciones
(D, C, A) vs B
D vs (C, A)
C vs A
A
15.7
-1
1
1
B
17.1
3
0
0
si se cumple
C d
i
i 1
(D, C, A) vs (B)
(D vs C, A)
Esto nos indica que los contrastes son independientes y sus efectos son
separados.
Primer contraste vs tercer contraste.
(D, C, A) vs (B)
(C vs A)
(D vs C, A) y (C vs A)
(-2) (0) + (1) (-1) + (1) (1) + (0) (0) = 0
Aqu se planearon tres contrastes que coinciden con los grados de libertad de
los tratamientos.
34
SC (C i )
C T
i 1
t
i i
r C i2
i 1
C T = (-1)(14.5)+(-1)(15.2)+(-1)(15.7)+(3)(17.1) = 5.9
i
i i
4
2
i
i 1
= (-1) 2 + (-1)
+ (-1) 2 + (3) 2 = 12
C T
i 1
4
2
i
C
i 1
= (-2)(14.5)+(1)(15.2)+(1)(15.7)+(0)(17.1) = 1.9
C T
i 1
4
C
i 1
2
i
= (0)(14.5)+(-1)(15.2)+(1)(15.7)+(0)(17.1) = 0.5
= (-1)2 + (1)2 = 2
Suma de
Grados de
Cuadrado
F
35
variacin
Tratamientos
(D, C, A) vs (B)
D vs
(C, A)
C vs A
Error
Total
cuadrados
0.90687499
9
0.72520833
3
0.15041666
6
0.03125
0.1425
1.049375
libertad
3
medio
0.725208333
61.1
0.150416666 12.7
1
12
15
0.03125
0.011875
2.6
D
3.63
C
3.80
A
3.92
que
B
4.27
a
promedios
Resistencia promedio a la
tensin en psi.
4.27
3.92
3.80
3.63
Significacin estadstica
(1)
a
b
b
c
36
EXPERIMENTO
FACTORES
CUALITATIVOS
NIVELES CON
ESTRUCTURA
NIVELES SIN
ESTRUCTURA
FACTORES
CUANTITATIVOS
IGUALMENTE
ESPACIADOS O
EQUIDISTANTES
NO
EQUIDISTANTES
37
CONTRASTES
ORTOGONALES
PRUEBA DE
RANGO
MLTIPLE
CONTRASTES
ORTOGONALES
REGRESIN
38
Donde
i es
j = 1, 2,..., b bloques
es el efecto de j-simo
bloque y ij es el trmino usual N(0; ) de error aleatorio. Por lo que un diseo de bloques al azar lo
podemos representar por:
Tratamientos
1
y11
Bloques:
2
Total
Promedio
y12
y1b
y 21
y 22
y2b
Y1
Y2
y1
y 2
y31
y32
y3b
Y3
y 3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
Y
Y
y
y
S. C. Totales
y FC
2
ij
i 1 j 1
S. C. Tratamientos
i.
i 1
b
b
S. C. Bloques
2
.j
j 1
FC
FC
Estas sumas de cuadrados se concentran en la siguiente tabla para su anlisis de varianza (ANOVA).
Fuente de
variacin
Suma de
cuadrados
2
i
i 1
Tratamientos
b
Bloques
Y
j 1
t
Error Exptal.
2
.j
Y2
bt
Y2
bt
Grados de
libertad
Cuadrado
medio
S .C.Trat .
G.L.Trat
C .M .Trat .
C .M .error
t-1
b-1
S .C.Bloq.
G.L.bloq
C.M .Bloq.
C.M .error
S .C.error
G.L.error
3
Y2
Y
bt
i 1 j 1
t
Total
2
ij
bt - 1
Si la probabilidad de tener una F igual a la del ANOVA es menor a 5% se rechaza la hiptesis H 0: los
tratamientos son iguales y se acepta la hiptesis H1: al menos un tratamiento es diferente.
Ejemplo. Se efectu un experimento para determinar el efecto de cuatro diferentes compuestos
qumicos en la resistencia de una fibra. Estos compuestos se emplearon como parte del proceso de
acabado de planchado permanente. Se seleccionaron cinco muestras de fibra de diferentes lotes de
produccin (bloques), y en cada muestra se probaron los cuatro compuestos qumicos en forma
aleatoria, los resultados se presentan en libras por pulgada cuadrada (psi) en la siguiente tabla.
Bloques
1
2
3
4
5
B
C
D
D
B
Tratamientos
D 3.9
A 1.6
A 0.5
C 1.5
A 1.1
2.2
1.7
2.0
4.1
1.8
C
D
B
B
C
1.8
4.4
0.4
2.0
1.3
A
B
C
A
D
1.3
2.4
0.6
1.2
3.4
Lo primero que tenemos que hacer es organizar los datos como lo muestra el siguiente cuadro.
1
1.3
2.2
1.8
3.9
9.2
2.3
Bloques:
3
0.5
0.4
0.6
2.0
3.5
0.88
2
1.6
2.4
1.7
4.4
10.1
2.53
4
1.2
2.0
1.5
4.1
8.8
2.2
5
1.1
1.8
1.3
3.4
7.6
1.9
Total
yi
5.7
8.8
6.9
17.8
39.2
1.14
1.76
1.38
3.56
1.96
Las sumas de cuadrados para el anlisis de varianza (ANOVA) se obtienen de la siguiente manera:
Factor de correccin =
Y2 / bt = 39.2
4
S. C. Totales
y
i 1 j 1
S. C. Tratamientos
Y
i 1
2
i.
2
ij
/ 5(4) = 76.83
FC
474.38
76.83 18.04
5
S. C. Bloques
Y
j 1
t
S. C. Error
2
.j
FC
334.1
76.83 6.69
4
Suma de
cuadrados
18.04
6.69
0.96
25.69
Grados de libertad
Cuadrado medio
3
4
12
19
6.01
1.67
0.08
75.13
20.87
Para decidir si existe diferencia significativa entre los compuestos qumicos, se obtiene la probabilidad
de tener una F = 75.13 de la tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra
es menor al 5% se rechaza la hiptesis H0: los tratamientos son iguales y se acepta la hiptesis
alterna H1: al menos un tratamiento es diferente.
La manera como se busca la probabilidad en la tabla F es: localizar en la parte superior de la tabla los
grados de libertad para el numerador de la razn F que se tienen en el ANOVA, en nuestro caso v 1 = 3;
posteriormente se busca en la parte izquierda de la tabla los grados de libertad del denominador, en
nuestro ejemplo
v2 = 12. Donde se intercepten v1 y v2 se localiza el valor de F esperada en el
anlisis a cierto nivel de . En nuestro caso son:
v1 =
v2
12
= 0.10
2.61
3
= 0.05
3.49
= 0.01
5.95
Se puede ver que el valor de F = 75.13 se encuentra a la derecha de 5.95 por lo que le corresponde una
probabilidad menor a 0.01. Puesto que la probabilidad de que se hubiese obtenido por mero azar una F
= 75.13 es menor al 5%, rechazamos la hiptesis nula (H0: 1 = 2 =. . . = y se acepta la hiptesis
alterna
(H1: i j para alguna i , j) , con lo que se puede concluir que existe
diferencia altamente significativa en cuanto a resistencia en psi se refiere de los compuestos qumicos,
o sea los tratamientos son diferentes.
En el ANOVA se observa que la F calculada para bloques fue mayor que uno, en nuestro caso es de
20.87. Esto nos indica que al haber utilizado el diseo de bloques al azar para probar el efecto de los
tratamientos, se logr ganar eficiencia ante el diseo completamente al azar, es decir, que se realiz un
buen bloqueo.
El error experimental lo construyen la interaccin entre bloques y tratamientos. Por lo que no debe
existir interaccin entre estas dos fuentes de variacin. O lo que es lo mismo, si el tratamiento A es
bueno en el bloque uno, as debe ser en los dems bloques. Si se presenta interaccin, los datos deben
ser analizados bajo otra mtrica (transformarlos).
2
b
b
c
yi .
4
a
Resistencia promedio de la
fibra en psi.
3.45
1.76
1.38
1.14
Significacin estadstica
a
b
bc
c
La prueba nos indica que el tratamiento D es superior estadsticamente a todos los dems, le siguen B y
C que pueden considerarse equivalentes, pero C es semejante matemticamente a A.
Para este caso el compuesto qumico a recomendar es el tratamiento D, por lograr dar mayor
resistencia a la fibra.
6.5 Anlisis residual y verificacin del modelo.
Los supuestos en que se basa el anlisis de varianza para dar al modelo como vlido son:
a)
b)
c)
d)
e)
Con el fin de verificar los supuestos del ANOVA antes citados, iniciaremos por calcular los residuos as
como los valores ajustados, con el fin de poder realizar las grficas correspondientes.
Los residuos para el diseo de bloques al azar son justo la diferencia entre los valores observados ( yij
ij ), y se define por:
) y los ajustados ( y
eij yij y ij
Mientras que los valores ajustados son:
y ij yi . y. j y..
As el residuo e11 que corresponde al tratamiento A del primer bloque, en el ejemplo de la comparacin
de los cuatro compuestos qumicos es:
e11 y11 y 11
6
ij )
El valor ajustado ( y
representa la estimacin de la respuesta media cuando se ejecuta el
tratamiento i-simo en el bloque j-simo. Los dems residuos se obtendrn de manera anloga, los
cuales aparecen en la siguiente tabla.
RESIDUOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A
B
C
D
1
-0.18
0.10
0.08
0.00
2
-0.11
0.07
-0.24
0.27
Bloques:
3
0.44
-0.27
0.30
-0.48
4
-0.18
0.00
-0.12
0.30
5
0.02
0.10
-0.02
-0.10
Si graficamos los residuos contra los tratamientos y bloques podemos apreciar que:
En la primera grfica de residuos contra tratamientos, el tipo de compuesto D que proporciona la
resistencia ms grande, presenta variabilidad un poco mayor en cuanto a resistencia.
As mismo en esta grfica se puede apreciar que no existe un patrn definido en los residuos, por lo que
podemos decir que el supuesto de igualdad de varianzas en los tratamientos se cumple. En igual
forma se puede apreciar que los residuos son aleatorios y con promedio de cero.
0.5
0.3
0.1
0
-0.1
-0.3
7
-0.5
Residuo
0,25
0,00
-0,25
-0,50
1
3
Bloques
El cuadro siguiente muestra los valores ajustados para cada uno de los tratamientos en los diferentes
bloques.
VALORES AJUSTADOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A
1
1.48
2
1.71
Bloques:
3
0.06
4
1.38
5
1.08
8
ij
GRFICA DE eij CONTRA y
0.6
0.4
0.2
ij
0
0
0.5
1.5
2.5
3.5
4.5
-0.2
-0.4
-0.6
Valores ajustados para la resistencia de la fibra
Como los residuos no presentan la forma de curva, podemos concluir que no existe interaccin entre
bloques y tratamientos.
La grfica que nos dice si la variable de salida se distribuye de manera normal, es la de probabilidad
normal de los residuales, que se presenta a continuacin.
GRFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-0,50
-0,25
0,00
Residuo
0,25
0,50
Puede observarse que no hay anormalidad en la grfica, por lo tanto el supuesto de normalidad de la
variable de salida ( y ij ) se cumple.
Otro indicador prctico que nos dice si la variable de salida se distribuyen de manera normal es el
coeficiente de variacin, que se simboliza por:
CV CME (100) / y
Donde CME es el cuadrado medio del error del anlisis de varianza de los datos.
Un criterio prctico que indica normalidad en los datos, es cuando el coeficiente de variacin toma los
siguientes valores:
0 a 10% muy confiable la normalidad.
10 a 20% confiable la normalidad.
20 a 30% poco confiable la normalidad.
Ms de 30% no confiable la normalidad.
En nuestro ejemplo el coeficiente de variacin es de 14.4%, lo que nos indica que la normalidad es
confiable.
CV
Dado que no se presentaron anomalas al realizar el anlisis residual, concluimos de manera general,
que en base a la evidencia experimental nuestro modelo utilizado para analizar la informacin es vlido.
6.6 Datos faltantes en un diseo de bloques al azar.
Muchas veces despus de haber realizado un gran esfuerzo en la planeacin y la conduccin del
experimento, nos encontramos con el problema de que se pierden parcelas experimentales. Esto es
muy comn debido a:
10
tT bB G
(b 1)(t 1)
Donde:
t = nmero de tratamientos.
b = nmero de bloques.
T = total del tratamiento correspondiente al dato perdido.
B = total del bloque correspondiente al dato perdido.
G = suma de todas las observaciones reales.
Para mayor precisin en la prueba de F, a la suma de cuadrado de tratamientos se le sustrae la
cantidad.
B (t 1) y
Z
t (t 1)
Donde:
B = total no corregido del bloque donde se present la observacin faltante.
El valor estimado ( y p ) se reemplaza en el lugar correspondiente y el ANOVA se realiza en la forma
usual, excepto que se sustrae un grado de libertad en el error y el total.
Tomemos el ejemplo de los datos de diferentes compuestos qumicos en la resistencia de una fibra,
suponiendo que se perdi el tratamiento A del bloque cuatro.
Tratamientos
A
B
1
1.3
2.2
2
1.6
2.4
Bloques:
3
0.5
0.4
4
2.0
5
1.1
1.8
Total
4.5
8.8
11
yp
tT bB G 4( 4.5) 5(7.6) 38
1.5
(b 1)(t 1)
(5 1)(4 1)
B (t 1) y
Z
t (t 1)
7.6 (4 1)1.5
4(4 1)
0.80
El valor obtenido de la parcela perdida de 1.5, es substituido en la tabla correspondiente del dato
faltante y se realiza el anlisis de varianza de la manera acostumbrada, teniendo cuidado de restarle a
la suma de cuadrados de tratamientos la correccin, que en nuestro caso es 0.80, as como restar un
grado de libertad en el error y el total.
Tratamientos
A
B
C
D
Total
1
1.3
2.2
1.8
3.9
9.2
Bloques:
3
0.5
0.4
0.6
2.0
3.5
2
1.6
2.4
1.7
4.4
10.1
4
1.5
2.0
1.5
4.1
9.1
5
1.1
1.8
1.3
3.4
7.6
Total
6.0
8.8
6.9
17.8
39.5
=
=
=
=
=
17.566
17.566 0.8 = 16.766, con 3 g. l.
6.86 con 4 g. l.
25.32 17.56 6.86 = 0.90 con 11 g. l.
25.32 con 18 g. l.
Observe que a la suma de cuadrados del error se le rest la suma de cuadrados de tratamientos sin
corregir. El ANOVA correspondiente queda definido por:
ANOVA DE LA RESISTENCIA DE LA FIBRA
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total
Suma de
cuadrados
16.77
6.86
0.90
25.32
Grados de libertad
Cuadrado medio
3
4
11
18
5.590
1.715
0.082
68.17
20.92
( y j yi ) / 2 .
2. El dato restante se estima siguiendo el procedimiento de cuando existe solo un dato perdido.
3. Con esta aproximacin y los valores previamente asignados, se escoge otro de los datos y
nuevamente se aproxima por la tcnica cuando existe solo un dato perdido, y as sucesivamente.
4. Despus de completar un ciclo, una segunda aproximacin se realiza para todos los valores en el
orden dado previamente. Esto se contina hasta que no existen diferencias esenciales a la
aproximacin encontrada en el ciclo previo. Usualmente dos ciclos son suficientes.
5. Los valores estimados se introducen en la tabla junto con los valores observados y el ANOVA se
efecta. Por cada dato perdido se sustrae un grado de libertad tanto al total como en el error.
6.
B (t 1) y B (t 1) y
Z
2
t (t 1)
Donde:
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 1a observacin faltante.
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 2a observacin faltante.
Ejemplo. Considere el siguiente experimento donde la variable evaluada fue el rendimiento, y en el
experimento se perdieron dos unidades experimentales (tratamientos B bloque 1 y tratamientos D
bloque 3).
RENDIMIENTO...
Tratamientos
A
B
4.4
C
D
E
F
Total
Bloques:
2
Total
ya
5.9
1.9
6.0
4.9
4.1
7.1
20.4
13.9
4.4
6.8
4.0
6.6
4.5
yb
3.1
6.4
16.0
19.8
6.3
6.4
28.3
4.9
6.3
29.6
5.9
7.7
29.0
7.1
7.7
35.5
24.2
28.1
122.4
13
yb
2.
4.5
(b 1)(t 1)
( 4 1)(6 1)
ya
3.
yb
4.
7.2
(b 1)(t 1)
( 4 1)(6 1)
ya
5.
(29 / 5) (19.8 / 3)
6 .2
2
4.47
(b 1)(t 1)
( 4 1)(6 1)
yb
7.2
(b 1)(t 1)
( 4 1)(6 1)
Si nicamente tenemos dos observaciones faltantes (no en el mismo bloque) la correccin necesaria
para los sesgos en la suma de cuadrados de tratamientos es:
B (t 1) y B (t 1) y
Z
2
t (t 1)
28.3 (6 1)4.47
29 (6 1)7.2
2.81
6(6 1)
2
Tratamientos
A
B
C
D
4.4
4.47
4.4
6.8
Bloques:
2
5.9
1.9
4.0
6.6
Total
6.0
4.9
4.5
7.2
4.1
7.1
3.1
6.4
20.4
18.37
16.0
27.0
14
=
=
=
=
=
29.46
29.46 2.81 = 26.65
4.50
51.95
51.95 29.46 4.50 = 17.99
Grados de
libertad
Normal
5
3
15
23
Tratamientos
Bloques
Error experimental
Total
corregido
5
3
13
21
El anlisis de varianza correspondiente para el experimento donde se perdieron dos datos se presenta
a continuacin:
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total
Suma de
cuadrados
26.65
4.50
17.99
51.95
Grados de libertad
Cuadrado medio
5
3
13
21
5.33
1.50
1.38
3.86
1.09
Si faltan ms de dos observaciones, o si faltan dos observaciones en el mismo bloque, debe hacerse
correccin por sesgos o tendencias en la suma de cuadrados de tratamientos.
Apndice 6.1 Empleo del software Minitab en un diseo bloques al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para determinar el efecto de cuatro diferentes compuestos qumicos en la
resistencia de una fibra. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamientos, en C2 Bloques y en C3 Respuesta.
2. Para concentrar los tratamientos (A, B, C, D) sern utilizados nmeros en lugar de letras. La manera
como son concentrados los tratamientos, los bloques y la variable de salida en la hoja de clculo, puede
ser:
1
2
3
4
5
6
.
Tratamientos
1
1
1
1
1
2
.
Bloques
1
2
3
4
5
1
.
Respuesta
1.3
1.6
0.5
1.2
1.1
2.2
.
15
16
7. ARREGLOS FACTORIALES
7.1 Introduccin.
Hasta ahora hemos estudiado experimentos simples, en los que solo se
compara un factor en diversos aspectos, es decir donde solo existe una causa
pertinente de variacin. Ahora veremos la comparacin de varios factores,
con diferentes niveles en cada uno.
Se entiende por arreglo factorial, cuando se investigan todas las
posibles combinaciones de los niveles de los factores en cada ensayo completo
o rplica del experimento.
Los factores pueden ser cualitativos o cuantitativos, los primeros son aquellos que
no pueden ser arreglados en orden de magnitud, mientras que los segundos estn
asociados con puntos en una escala numrica.
Los factores generalmente se denotan con letras maysculas y los niveles con letras minsculas o
nmeros; si hay a niveles del factor A y b niveles del factor B, entonces cada replica del experimento
contiene todas las ab combinaciones de los tratamientos.
Por ejemplo, se comparan los factores A y B, donde el factor A esta compuesto por los niveles , , , ,
y el factor B por los niveles 1, 2, 3. Por lo tanto el total de tratamientos que se tendrn son 4 x 3 = 12,
como se muestra a continuacin.
B
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
Ahora estos 12 tratamientos pueden instalarse bajo las normas de cualquier diseo experimental con n
repeticiones.
Factor
Factor
a1
b1
20
a2
40
b2
30
52
El efecto principal del factor A podra interpretarse como la diferencia entre la respuesta promedio en el
primero y segundo nivel de ese factor, numricamente ser:
40 52 20 30
21
2
2
Lo que significa, incrementar el factor A del nivel 1 al 2, produce un cambio en la respuesta promedio de
21 unidades.
Para factores cualitativos, el efecto principal solo representa la diferencia de medias entre las categoras
probadas.
Para factores cuantitativos, el efecto principal representa el cambio en respuesta promedio al pasar del
nivel bajo al nivel alto del factor.
Si los factores aparecen con ms de dos niveles, se pueden definir comparaciones ortogonales entre
niveles del factor cualitativo; o bien, efectos lineales, cuadrticos, cbicos, etc. Entre los niveles de un
factor cuantitativo.
para la interpretacin de los resultados, porque da lugar a una variacin distinta para cada factor, de la
que hubiera producido actuando por si solo.
Lo anterior significa que a la variacin ocasionada por los factores considerados, actuando
independientemente, se suma una nueva variabilidad, debido a la influencia de uno de los factores
sobre el otro.
Una interaccin es significativa cuando el efecto del factor A no es el mismo en todos los niveles del
factor B, es decir, el efecto principal de A depende del nivel de B.
A menudo la interaccin enmascara la significancia de efectos principales, por lo que la
interpretacin de esta es ms til que la de efectos principales. Por ejemplo considere el segundo
arreglo.
Factor
Factor
A
a1
b1
20
b2
40
a2
50
12
60
50
40
Respuesta
30
20
10
B2
B1
B2
B1
A2
A1
Factor A
Si de manera anloga graficamos los datos del segundo arreglo, se observan que las rectas b 1 y b2 no
son paralelos. Esto indica que existe interaccin entre A y B.
60
50
40
Respuesta
30
20
10
B1
B2
B1
A1
A2
B2
Factor A
El siguiente cuadro muestra un arreglo factorial con dos factores utilizando un diseo completamente al
azar, se considera el caso de n repeticiones de las combinaciones de tratamientos determinados por a
niveles del factor A y b niveles del factor B.
B
Total
A
y111
y112
.
.
y121
y122
.
.
. . .
. . .
. . .
y1b1
y1b2
.
.
y11n
y12n
T1 1.
T1 2.
. . .
T1 b.
y211
y212
.
y221
y222
.
. . .
. . .
y2b1
y2b2
.
y1bn
.
.
y21n
T2 1.
T1 ..
.
.
y22n
y2bn
T2 2.
. . .
T2 b.
.
.
.
.
.
.
ya11
ya12
.
.
.
ya1n
ya21
ya22
.
.
.
ya2n
Ta 1.
Ta 2.
Total
T.1.
T.2.
. . .
Promedio
y.1.
y.2.
. . .
y1 ..
Promedio
T2 ..
y2 ..
.
.
.
. . .
. . .
. . .
yab1
yab2
.
.
.
yabn
Ta b.
T.b.
y.b.
Ta ..
ya..
T...
y...
Donde:
T.
Ti..
Tj.
T...
y.
yi..
y.j.
y...
. . .
T11.
T12.
2
.
.
.
T21.
.
.
.
T22.
.
.
.
Ta1.
Ta2.
. . .
Tab.
Ta..
Total
T.1.
T.2.
. . .
T.b.
T...
. . .
T1b.
T1..
T2b.
T2..
.
.
.
.
.
.
i 0
i 1
i 0
j 0
j 1
i 1
j 1
=. . .=
= 0
is no es igual a cero.
b = 0
H1: al menos una de las j s no es igual a cero.
=. . .=
()ab
= 0
= FC
T...2
abn
6
2
ijk
i 1 j 1 k 1
Suma de cuadrados de A
2
i ..
i 1
FC
bn
b
Suma de cuadrados de B
2
. j.
j 1
FC
an
a
Suma de cuadrados (A B) =
FC
T
i 1 j 1
2
ij .
S .C. A. S .C .B FC
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Efecto principal
A
S.C.A.
a1
S12
S12 / S 2
B
Interaccin de
dos factores
AB
S.C.B.
b1
S 22
S 22 / S 2
(a1)(b1)
S 32
S 32 / S 2
S.C. (A B )
Error
S.C.E.
ab(n1)
Total
S.C.T.
abn1
S2
interaccin es
La interaccin quiere decir que a la variacin ocasionada por los factores en estudio, actuando
independientemente, se suma una nueva variabilidad, debida a la influencia de uno de los factores
sobre el otro.
Si hay evidencia de que los factores interactan, entonces dichos factores deben considerarse
conjuntamente, es decir, no se puede concluir acerca de sus efectos en forma individual.
b1
Tipo de propulsor:
b2
b3
b4
a1
34.0
32.7
30.1
32.8
29.8
26.7
29.0
28.9
a2
32.0
33.2
30.2
29.8
28.7
28.1
27.6
27.8
a3
28.4
29.3
27.3
28.9
29.7
27.3
28.8
29.1
= 0
is no es igual a cero.
4 = 0
j s no es igual a cero.
8
b1
Tipo de propulsor:
b2
b3
b4
Total
a1
66.7
62.9
56.5
57.9
244.0
a2
65.2
60.0
56.8
55.4
237.4
a3
57.7
56.2
57.0
57.9
228.8
Total
189.6
179.1
170.3
171.2
710.2
Factor de correccin
= 21016.00
Suma de cuadrados de B
Suma de cuadrados (A B)
Suma de
cuadrados
14.52
40.08
22.17
14.91
91.68
Grados de
libertad
2
3
6
12
23
Cuadrado
medio
7.26
13.36
3.70
1.24
F
5.85
10.77
2.98
Lo primero que tenemos que hacer en el ANOVA, es ver si existe interaccin entre los factores
principales. Como la probabilidad de tener una F = 2.98 es mayor a 5%, se acepta la hiptesis H 0, y se
concluye que no existe interaccin entre los sistemas de misiles y los tipos de propulsor. Lo anterior
significa que los sistemas de misiles no interfieren en los tipos de propulsor, ni estos en los niveles de
misiles.
Como no existe interaccin entre los factores principales, procedemos a concluir de manera particular
para cada uno de los factores en el ANOVA, de lo contrario tendramos que hacer comparaciones
separadas para cada nivel dentro de cada uno de los factores.
Como la probabilidad de tener una F = 5.85 por mero azar es de 0.024 (menor a 5%), Se rechaza H 0 y
se acepta H1, concluyendo que sistemas diferentes de misiles implican diferentes tasas promedio de
consumo del propulsor.
Como la probabilidad de tener una F = 10.77 es menor que 0.01 (menor a 5%), Se rechaza H 0 y se
acepta H1, concluyendo que las tasas promedio de consumo del propulsor, no son las mismas para los
cuatro tipos de propulsor.
Comparaciones
a3
228.8
a3 vs (a1 , a2)
-2
a1 vs a2
a2
a1
237.4
244.0
-1
CiTi 23.8
i 1
2
i
i 1
C T
i 1
i i
6.6
C
i 1
2
i
Observe que 11.8008 + 2.7225 es igual a 14.5233 que es la suma de cuadrados para misiles en el
ANOVA anterior.
Dado que tambin se encontraron diferencias para los tipos de impulsor, seleccionamos tres contrastes
ortogonales comparando: (b3 y b4) vs (b2 y b1), as como b3 vs b4 y b2 vs b1.
La tabla de coeficientes Ci para las comparaciones es:
Comparaciones
b3
170.3
b4
171.2
b2
179.1
b1
189.6
-1
-1
vs
b4
-1
b2
vs
b1
-1
C T
i 1
i i
27.2
2
i
i 1
CiTi 0.9
i 1
C
i 1
2
i
CiTi 10.5
i 1
C
i 1
2
i
11
Fuente de
variacin
Suma de
cuadrados
Sistema de
misiles
a3 vs (a1 , a2)
a1 vs a2
Grados de
libertad
14.52
Tipo de propulsor
(b3 , b4) vs (b2 , b1)
b3 vs b4
b2 vs b1
Cuadrado
medio
11.80
2.72
1
1
40.08
30.82
0.07
9.19
1
1
1
11.80
2.72
9.5
2.2
30.82
0.07
9.19
24.9
0.06
7.4
Interaccin
22.17
3.70
Error
14.91
12
1.24
Total
91.68
23
2.98
Como la P (F = 2.98) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe
interaccin entre tipos de misiles y tipos de propulsor, esto quiere decir que la variacin en los
sistemas de misiles no interfiere en el consumo de los propulsores, ni stos influyen en el efecto de los
tipos de misiles.
Como los factores no interactan los efectos principales pueden ser interpretados de manera general.
Como la P (F = 9.5) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H 1,
concluyendo que existe diferencia significativa entre estos grupos de niveles de misiles.
Como la P (F = 2.2) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe diferencia
entre estos grupos de niveles de misiles.
Como la P (F = 24.9) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H1,
concluyendo que existe diferencia significativa entre estos grupos de tipos de propulsor.
Como la P (F = 0.06) 0.10 (mayor a 5%) se acepta la hiptesis H0, concluyendo que no existe
diferencia entre estos grupos de tipos de propulsor.
Como la P (F = 7.4) 0.05 se rechaza la hiptesis H 0 y se acepta la hiptesis H1 concluyendo que existe
diferencia entre estos grupos de tipos de propulsor.
La clasificacin de los sistemas de misiles que son iguales as como los tipos de propulsores, se
presentan grficamente con sus correspondientes promedios. No debe olvidarse que la variable que se
analiza es el promedio de consumo de las combinaciones de los tratamientos.
a3
28.6
a
a2
29.7
b
a1
30.5
b
12
b3
28.4
a
b4
28.5
a
b2
b1
29.9
b
31.6
b
Para sistemas de misiles el ANOVA nos dice que: el sistema de misil tres es significativamente superior
a todos los dems, mientras que el sistema de misil dos y uno son iguales estadsticamente.
Con relacin a los tipos de propulsor el experimento nos indica que: el propulsor tres y cuatro son
iguales estadsticamente pero a la vez superiores a todos los dems, le sigue el propulsor dos que es a
la vez superior estadsticamente al propulsor uno.
Ejemplo 2. Un ingeniero disea una batera para su uso en un dispositivo que ser
sometido a ciertas variaciones extremas de temperatura. El nico parmetro de
diseo que l puede seleccionar en este punto es el material de la cubierta de la
batera, y tiene tres alternativas. Cuando el dispositivo se manufactura y se enva
al campo el ingeniero no tiene control sobre los extremos de temperatura a que
ser expuesto el dispositivo, y sabe por experiencia que es probable que la
temperatura influya en la duracin efectiva de vida de la batera. Sin embargo, s
es posible controlar las temperaturas en el laboratorio de desarrollo de productos
para los fines del ensayo.
El ingeniero decide probar tres materiales para la cubierta y tres niveles de temperatura (15, 70 y 125
F) consistentes en el entorno de uso final del producto. Se prueban cuatro bateras (repeticiones) para
cada tratamiento y las 36 pruebas se ejecutan al azar. Los resultados son los siguientes:
Temperatura en F
70
125
130
74
155
180
34
80
40
75
20
82
70
58
150
159
188
126
136
106
122
115
25
58
70
45
138
168
174
150
96
82
13
110
160
120
139
104
60
Temperatura en F
70
125
539
229
230
998
623
479
198
1300
576
583
342
1501
1738
1291
770
3799
Total
Total
= 478547 - FC.
= 4939005 / 12 - FC = 10683.72
S.C. de temperatura
= 77646.97
S.C. de interaccin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Tipo de material
10683.72
5341.86
7.9
Temperatura
39118.72
19559.36
29.0
Interaccin
9613.78
2403.44
3.6
Error
18230.75
Total
77646.97
27
675.21
35
Cuando en un experimento intervienen varios factores de variacin y uno de ellos influye sobre los
efectos de otro, se dice que existe interaccin entre ambos. Es muy importante tener en cuenta la
14
interaccin, en la interpretacin de los resultados, pues da lugar a una variacin distinta para cada
factor, de la que hubiera producido actuando por s solo.
Por lo tanto lo primero a realizar despus del ANOVA es verificar si existe interaccin entre los
efectos principales.
Como P (F = 3.6) es menor a 5% se rechaza la hiptesis H 0, y se acepta la hiptesis alterna, con lo que
se concluye que existe interaccin significativa entre el tipo de material y la temperatura.
Dado que se detect interaccin entre los efectos principales, debemos ser muy cuidadosos en la
interpretacin de los factores tipo de material y temperatura, ya que no podemos concluir acerca de
ellos de manera general.
Como auxiliar en la interpretacin de los resultados construiremos una grfica de tipo de material
contra temperatura utilizando el valor promedio de cada combinacin de tratamientos de la siguiente
manera.
Temperatura
70
125
134.8
57.3
57.5
155.8
119.8
49.5
144.0
145.8
85.5
Si graficamos las horas promedio de vida de las bateras con las temperaturas
tenemos:
Duracin promedio y.
Material tipo 3
Material tipo 1
Material tipo 2
Temperatura ( F)
Podemos observar que las grficas no son paralelas lo que indica una interaccin significativa. Con
relacin a la interpretacin de las curvas podemos decir que en general; a menor temperatura mayor
hora de vida de la batera; independientemente del tipo de material.
Al variar la temperatura de baja a intermedia, la duracin aumenta con el material tipo 3; mientras que
disminuye con los tipos de material 1 y 2.
15
Al variar la temperatura de intermedia a alta, la duracin disminuye con los tipos de material 2 y 3;
mientras que con el tipo 1 permanece constante.
Mat. 2
y22.
119.75
Mat. 3
y32.
145.75
S yi 2. S 2 / r 675.21 / 4 12.99
El rango estudentizado significativo es:
2
2.91
3
3.06
3
39.75
M3 - M1 = 88.50
M3 - M2 = 26.00
vs
vs
39.75
37.80 =
M2 - M1 = 62.50
vs
37.80
Mat. 1
Mat. 2
a
Mat. 3
a
Este anlisis indica que en el nivel de temperatura de 70, las horas de vida para el tipo de material 2
y 3 resultan mejores estadsticamente, mientras que las horas de vida del material 1 es
significativamente menor que las horas alcanzadas por el material 2 y 3.
De igual manera se debe llevar a cabo la prueba de Duncan para comparar los tres tipos de material,
manteniendo fijos los niveles de temperaturas 15 y 125 F.
As mismo, de manera anloga se comparan los tres tipos de temperatura conservando constante cada
uno de los niveles de tipo de material (resultando seis pruebas de comparacin de medias en total).
7.9 Anlisis de varianza para un arreglo con tres factores.
Se ver el caso de un experimento con tres factores A, B y C, cada uno con los niveles a, b y c
respectivamente, en un diseo experimental completamente al azar. Se supone que se tienen n
repeticiones para cada una de las combinaciones abc (tratamientos).
El modelo para un experimento con tres factores est dado por:
2.
La filosofa general del anlisis es la misma que se utiliza para experimentos de uno o dos factores. La
suma de cuadrados se parte en ocho trminos, cada uno representa una fuente de variacin de las
cuales se obtienen estimaciones independientes de
de interaccin.
17
dos niveles (15 y 20 minutos). Se realizaron tres repeticiones en cada combinacin de factores; los
resultados se presentan a continuacin:
TIEMPOS EN LA PRODUCCIN DEL MATERIAL
Tratamientos
I
Repeticiones
II
III
Total
A1B1C1
A1B1C2
A1B2C1
A1B2C2
A1B3C1
A1B3C2
A2B1C1
A2B1C2
A2B2C1
A2B2C2
A2B3C1
A2B3C2
A3B1C1
A3B1C2
A3B2C1
A3B2C2
A3B3C1
A3B3C2
10.7
10.9
10.3
10.5
11.2
12.2
11.4
9.8
10.2
12.6
10.7
10.8
13.6
10.7
12.0
10.2
11.1
11.9
10.8
12.1
10.2
11.1
11.6
11.7
11.8
11.3
10.9
7.5
10.5
10.2
14.1
11.7
11.6
11.5
11.0
11.6
11.3
11.5
10.5
10.3
12.0
11.0
11.5
10.9
10.5
9.9
10.2
11.5
14.5
12.7
11.5
10.9
11.5
12.2
32.8
34.5
31.0
31.9
34.8
34.9
34.7
32.0
31.6
30.0
31.4
32.5
42.2
35.1
35.1
32.6
33.6
35.7
Total
200.8
201.2
204.4
606.4
1
2
3
Total
Operador
A
2
66.7
61.6
63.9
192.2
Total
3
77.3
67.7
69.3
214.3
211.3
192.2
202.9
606.4
Operador
Total
18
C
1
2
Total
1
98.6
101.3
199.9
A
2
97.7
94.5
192.2
3
110.9
103.4
214.3
307.2
299.2
606.4
1
109.7
101.6
211.3
Catalizador
B
2
97.7
94.5
192.2
Total
3
99.8
103.1
202.9
307.2
299.2
606.4
Suma de cuadrados de A
Suma de cuadrados de B
Suma de cuadrados de C
Suma de cuadrados (A B)
Suma de cuadrados (A C)
Suma de cuadrados (B C)
= 3.64
= 63.19
19
= S C T - S C A - S C B - S C C - S C(AB) - S C(AC)
-S C(BC) - S C(ABC)
= 63.19 - 13.98 - 10.18 - 1.18 - 4.78 - 2.92 3.64
-4.89
= 21.62
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
13.98
10.18
1.18
2
2
1
6.99
5.09
1.18
11.65
8.48
1.97 ns
4.78
2.92
3.64
4
2
2
1.20
1.46
1.82
2.00 ns
2.43 ns
3.03 ns
ABC
4.89
1.22
2.03 ns
Error
21.62
36
0.60
Total
63.19
53
Efectos principales
A
B
C
Interaccin de dos
factores
AB
AC
BC
Interaccin de tres
factores
La tabla de coeficientes
Ci
Comparaciones
a2
( a1 , a2 ) vs a3
a1 vs a2
a1
a3
192.2
199.9
214.3
-1
-1
-1
1
2
0
Segundo contraste
Dado que tambin se encontraron diferencias para los tipos de catalizador (B), las comparaciones que
haremos son las siguientes:
( b2 y b 3 )
La tabla de coeficientes
Ci
vs
b1
as como
b2
vs
b3
Comparaciones
( b2 y b3 ) vs b1
b2 vs b3
b2
192.2
-1
b3
202.9
-1
-1
b1
211.3
2
21
Segundo contraste
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Operadores (A)
(a1 , a2) vs a3
a1
vs a2
13.98
12.34
1.64
10.18
7.00
3.18
1.18
1.18
1.9 ns
Interaccin de
dos factores
AB
AC
BC
4.78
2.92
3.64
4
2
2
1.20
1.46
1.82
2.0 ns
2.4 ns
3.0 ns
Interaccin de
tres factores
ABC
4.89
1.22
2.0 ns
1
1
12.34
1.64
20.6 *
2.7 ns
1
1
7.00
3.18
11.7 *
5.3 *
Error
21.62
36
Total
63.19
53
0.60
a3
_______
b
b
22
El experimento nos dice que los operadores dos y uno son significativamente superiores al operador
tres, y que los operadores dos y uno pueden considerarse como equivalentes (iguales
estadsticamente).
La clasificacin para los niveles de tipos de catalizador se muestra a continuacin.
b2
_______
a
a
b3
_______
b
b
b1
_______
c
c
Con relacin a este factor, el experimento nos dice que: el catalizador dos es significativamente superior
a todos los dems, que le sigue el catalizador tres que es a la vez superior estadsticamente al
catalizador uno.
Apndice 7.1 Empleo del software Minitab en un arreglo factorial.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para probar tres sistemas de msiles y cuatro tipos diferentes de
propulsores. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Respuesta, en C2 Factor A y en C3 Factor B.
2. Para concentrar los niveles de cada uno de los factores sern empleados nmeros en lugar de letras.
La manera como es concentrada la variable de salida, los niveles del factor A y los niveles del factor B,
puede ser:
1
2
3
4
5
6
4
5
5
.
.
.
24
Respuesta
34.0
32.7
30.1
32.8
29.8
26.7
29.0
28.9
32.0
.
.
.
29.1
Factor A
1
1
1
1
1
1
1
1
2
.
.
.
3
Factor B
1
1
2
2
3
3
4
4
1
.
.
.
4
23
24