Sei sulla pagina 1di 120

Lic.

Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

1. ANLISIS DE REGRESIN LINEAL


1.1 Introduccin.
La relacin lineal es el tipo de correlacin ms sencillo que se encuentra entre dos
variables, una llamada variable independiente y otra llamada variable dependiente,
debido a que esta ltima depende de los cambios que sufra la primera.
El objetivo de estudiar la correlacin entre dos variables es con la esperanza de que
la relacin que se encuentre entre ellas pueda utilizarse como auxiliar en la
realizacin de predicciones con cierta precisin establecida. Lo antes expuesto
puede lograrse al ajustar una ecuacin de primer grado de la forma y a bx , a un
conjunto de pares de valores de datos observados.
El tema contempla el estudio de los conceptos de correlacin y regresin, obtencin
del diagrama de dispersin de los datos, clculo del coeficiente de correlacin y
regresin, obtencin de la ecuacin que mejor se ajusta a los valores observados,
clculo del error estndar de estimacin, anlisis de varianza para probar la
significacin de la regresin, estimacin de intervalos de confianza en la regresin
lineal, validacin del modelo mediante el anlisis residual y empleo del software
minitab.
1.2 Correlacin lineal y regresin.
Los trminos correlacin y regresin pueden parecer complicados, sin embargo las
ideas bsicas implicadas en los mismos es tan sencilla que en gran parte del tiempo
las estamos utilizando, para comprender mejor estos trminos veamos los siguientes
ejemplos.
Si se aplica cierto fertilizante en algn cultivo, comnmente notamos que se obtiene
un incremento en la produccin a medida que se aumenta el nutriente hasta cierto
punto, ms all de este punto la produccin se estabiliza o disminuye si se utilizan
cantidades excesivas de abono.
Este ejemplo implica dos variables, la magnitud de una dependiendo de la otra. Estas
variables se denominan independiente (fertilizante) y dependiente (produccin),
presenta la idea de que cuando una variable se incrementa as lo har la otra o
viceversa, en estadstica esto recibe el nombre de correlacin directa o positiva.
Veamos otro ejemplo. Un instructor esta interesado en encontrar como est
relacionada la ausencia de estudiantes en un da determinado, con la temperatura
mnima en 0C a las 8 de la maana de ese da, durante un periodo de invierno. Una
muestra aleatoria de 10 das se utilizo para el estudio proporcionando los siguientes
valores.

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

y
x

10
10

4
20

1
25

9
12

8
13

6
15

2
23

3
21

5
18

6
17

Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.
Otros ejemplos de correlacin son los problemas que encontramos diariamente en el
trabajo, tales como:
Cul es la relacin entre la temperatura del horno y la resistencia del material?
Qu relacin existe entre el alimento consumido y el peso del ganado?
Cul es el precio de una mercanca afectada por la oferta?
Cul es la relacin entre el tamao de la granja y su rentabilidad?
Cul es la relacin entre las horas dedicadas para estudiar una unidad de la materia
de estadstica y la calificacin obtenida?
Otros ejemplos de correlacin los encontramos casi a diario en los peridicos en la
seccin de finanzas, con las grficas; prcticamente todo grfico es, en esencia, una
representacin entre la correlacin de dos variables. Donde el eje de la abscisa (x)
tiene a la variable independiente y el eje de la ordenada (y), la variable dependiente.
Terminaremos esta hoja definiendo los trminos de correlacin y regresin de la
siguiente manera.
Qu es correlacin? es la relacin que existe entre dos variables y a la estrechez de
dicha relacin.
Qu es regresin? es la cantidad de cambio de una variable asociada a un cambio
nico de otra variable.
1.3 Clculo del coeficiente de correlacin.
Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?
Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.
Para medir de un modo matemtico y ms preciso el grado de correlacin existente,
es necesario determinar un valor numrico que lo exprese y ste es el coeficiente
de correlacin lineal o r de Pearson. Veamos algunos ejemplos grficos y su
cuantificacin matemtica en las siguientes grficas.

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Los valores que puede tomar el coeficiente de correlacin lineal van de: -1 r 1,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.
Una relacin positiva significa: a mayor rendimiento en x mayor rendimiento en y o
viceversa. Una correlacin negativa significa: a un rendimiento menor en x se tiene
un rendimiento mayor en y o viceversa a un rendimiento mayor en x se tiene un
rendimiento menor en y.
El algoritmo matemtico que simboliza al coeficiente de correlacin lineal se define
por:
n

x x y y
i 1

i 1

i 1

2
2
xi x yi y

Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________
n

x y
i

i 1

i 1

2
i

x
i 1

xi yi
i 1

i 1

y
i 1

2
i

y
i 1

Con el fin de ver su aplicacin tomemos el siguiente ejemplo. Un ingeniero esta


estudiando el efecto de la temperatura del horno con la resistencia en libras por
pulgada cuadrada (psi) de cierta varilla de acero. El estudio da como resultado los
siguientes datos.
Temperatura
0
C
(x)
Resistencia
en psi. (y)

100

110

120

130

140

150

160

170

180

190

45

51

54

61

66

70

74

78

85

89

Lo primero que debe hacerse es graficar estas variables con el fin de tener una
primera idea de como estn distribuidos los datos, esto es.
DIAGRAMA DE DISPERSIN DE LOS DATOS.

A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente
e independiente para el clculo del coeficiente de correlacin r se presentan a
continuacin.

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________
n = 10
x 1450
x 2 218500

y 673

47225

xy 101570

Substituyendo estos valores en el coeficiente de correlacin lineal tenemos:

(1450)(673)
10
0.998128718
2
2

(1450)
(673)
218,500
47,225
10
10

101,570

El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.
Advertencia
El no encontrar evidencia de correlacin lineal entre las variables, se puede deber a:
a) De hecho las dos variables no estn relacionadas.
b) Las variables estn relacionadas en forma no lineal, en este caso la r de Pearson
no nos sirve para medir la relacin entre dos variables. Por eso es recomendable que
antes de realizar cualquier clculo se grafiquen los datos, sin olvidarse de emplear la
regla de los tres cuartos de altura (el eje de la ordenada y debe medir tres cuartas
partes de lo que mida el eje de la abcisa x).
1.4 Regresin lineal.
El hecho de estudiar la correlacin entre dos variables, es con la esperanza de que
cualquier relacin que se encuentre, pueda usarse como auxiliar para hacer
estimaciones o predicciones de una variable en particular.
El problema de la prediccin lineal se reduce a ajustar una lnea recta a un grupo de
puntos, ahora bien la ecuacin general de la lnea recta puede describirse como:
y a bx

a se denomina interseccin y porque su valor es el punto en el cual la lnea de


regresin cruza al eje y.
b es la pendiente de la lnea. Representa la cantidad de cambio que sufre la variable
y por cada cambio nico de la variable x. Visto grficamente es:
5

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

2 Pto. (x2 , y2) = (2,7)

1 Pto. (x1 , y1) = (1,5)

a=3

Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:
b

y 2 y1 7 5

2
x 2 x1
2 1

De esta manera estimamos los valores de los parmetros a y b. Si la ecuacin


general de la lnea recta es y a bx , por lo tanto la ecuacin que mejor se ajusta a
los datos que estamos analizando es.
y 3 2 x

Con esta ecuacin podemos hacer predicciones, suponga que deseamos encontrar
el valor de y cuando x = 3. La respuesta ser:
y 3 2(3) 9

Si se sustituyen ms valores de x en la ecuacin, se observa que y se incrementa en


la medida que x aumenta, por lo tanto la relacin entre las variables es directa, y la
pendiente positiva.
Se recomienda tener mucho cuidado al hacer predicciones, ya que estas son vlidas
siempre y cuando se hagan dentro del rango de valores que se este estudiando, si se
quiere hacer pronsticos fuera del rango observado, es recomendable aumentar los
valores observados y estimar una nueva ecuacin.
1.5 El mtodo de mnimos cuadrados.
Si tenemos un conjunto de puntos en un diagrama de dispersin, cmo podemos
ajustar una lnea matemticamente si ninguno de los puntos cae en ella?
6

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.
Si tenemos un conjunto de puntos de datos a travs de los cuales podramos trazar
un nmero infinito de lneas de estimacin, cmo podemos saber cundo hemos
encontrado la mejor lnea de ajuste?
Para lograr lo anterior se emplea el criterio de mnimos cuadrados, que consiste en
hacer mnima la suma de cuadrados de los errores de estimacin, donde el error de
estimacin es la diferencia entre el valor observado de la muestra y el valor estimado
por la ecuacin obtenida.
En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:

i 1
n

xi x yi

x x
i

i 1

xy n x y
i 1
n

x nx
2

i 1

xy

x y

n
x
x2
n

a y bx

Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.
1.6 Uso del mtodo de mnimos cuadrados en un problema.
Consideremos el ejemplo de la temperatura del horno y la resistencia de la varilla, los
clculos bsicos para el clculo de los coeficientes de regresin a y b son:
n 10

x 1450

218,500

xy

101,570

y 673

Sustituyendo estos valores en las ecuaciones correspondientes son:

(1450)(673)
10
0.48303
1450 2
218500
10

101570

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

a = 67.30 0.4830 (145.00)= -2.7394


Ahora bien, la ecuacin lineal que mejor describe la relacin entre la temperatura del
horno en grados centgrados y la resistencia de la varilla, la obtenemos al sustituir el
valor de a y b en la ecuacin de la recta y a bx , la cual es:
y 2.74 0.483 x

a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada (y)
en un sistema de coordenadas cartesianas en el punto negativo de -2.74.
b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.
Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. Cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?
y 2.74 0.483(165) 76.96 psi.

1.7 Error estndar de estimacin.


Despus de haber ajustado la lnea de regresin a una lista de puntos, generalmente
es posible inspeccionar su grfica y observar que tan exactamente predice los
valores de y. Un procedimiento matemtico para medir la confiabilidad de la ecuacin
estimada es el error estndar de estimacin, el cual se simboliza por Se y es similar a
la desviacin estndar, en cuanto a que ambas son medidas de dispersin.
El error estndar de estimacin mide la variabilidad, o dispersin de los valores
observados alrededor de la lnea de regresin. Su clculo matemtico se obtiene por:

Se

( y y )

n2

Donde:
y = valores de la variable dependiente
y
= valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).
Continuando con nuestro ejemplo tenemos:
x
y

y
(y - )2

100 110
45
51
45.6 50.4
-0.6 0.6
0.36 0.36

120
54
55.2
-1.2
1.44

130
61
60.1
0.9
0.81

140
66
64.9
1.1
1.21

150
70
69.7
0.3
0.09

160
74
74.6
-0.6
0.36

170
78
79.4
-1.4
1.96

180
85
84.2
0.8
0.64

190
89
89.0
0.0
0.0
8

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

y y

7.23

Por lo tanto el error estndar de estimacin ser:

Se

7.23
0.90375 0.9506
10 2

Para saber si el error estndar es chico o grande, se recomienda recurrir al


coeficiente de determinacin (r2). En el ejemplo que nos ocupa su estimacin es de
r2 = 99.6 % (calculado en el punto 1.8), lo que nos indica que el error estndar de
estimacin es de 0.4%, lo cual nos dice que Se es muy pequeo.
El error de estimacin obtenido (0.9506) puede compararse con el de otras
ecuaciones de mayor grado obtenidas con los mismos datos, aquel valor que sea
menor, nos indica que esa ecuacin es la que mejor se ajusta al conjunto de puntos.
Entre ms pequeo sea el error de estimacin, significa un mejor ajuste de la
ecuacin estimada con relacin a los datos observados. Un valor de S e = 0 implica un
r = 1 y un r2 = 1, lo que nos indicar un ajuste perfecto, o lo que es lo mismo, los
datos observados son exactamente los mismos que los datos estimados.
2
Otra manera de obtener y y se presenta a continuacin, esto puede servir
para verificar si el clculo del coeficiente de correlacin lineal fue bien calculado, as
como la ecuacin estimada.

y
2
y y 1 r 2 y 2 n

2
(1 0.998,128,7182)(47,225 673 ) 7.22

10

Valor muy parecido al obtenido en la tabla anterior.

1.8 Coeficiente de determinacin.


El coeficiente de determinacin nos sirve para medir que tan bien ajusta la lnea de
regresin estimada a los datos con los que est basada, ya que ste lo podemos
manejar en porcentaje, pudiendo tomar valores que van del 0 al 100%. As si el
coeficiente est cercano a cero significa que Se es chico. Su algoritmo se define por:
r2

a y b xy ny 2
y 2 ny 2

En el ejemplo que nos ocupa su clculo es:

r2

2.7394(673) 0.48303(101,570) (10)67.3 2


0.996242896
47,225 (10)67.3 2
9

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Lo que significa que el 99.6% de la variacin total de la resistencia de la varilla (y), se


puede explicar por la asociacin del efecto de la temperatura del horno (x). Dicho en
otras palabras, la recta que calculamos nos logra explicar el 99.6% de la variabilidad
de la resistencia de la varilla, o sea que el error estndar de estimacin en porcentaje
es de 100 - 99.6 = 0.4%, lo cual indica que es un error muy pequeo.
1.9 Prueba de hiptesis de la regresin lineal simple.
Una parte importante en la elaboracin de un modelo de regresin simple, es la
prueba de hiptesis estadstica en torno a los parmetros del modelo y la
construccin de ciertos intervalos de confianza.
Para probar hiptesis de la pendiente (b) y la interseccin y (a) suponemos que los
errores de estimacin ei se distribuyen normalmente.
Si deseamos probar la hiptesis de que la pendiente es igual a una constante,
digamos , las hiptesis a probar son:
H0: b =
H1: b
El estadstico de prueba para ste tipo de casos es:

CME

x
n

Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H 0 si:

t t

c 2,n 2

Un Procedimiento similar es utilizado para probar la hiptesis respecto a la


interseccin (a).
Para probar.
H0: a = 1
H1: a 1
Utilizamos el estadstico:

10

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

a 1

1
CME

x
x

x
n

Se rechaza la hiptesis H0 si:

t t

c 2,n 2

Un caso muy especial en la prueba de hiptesis es:


H0: b = 0
H1: b 0
Esta hiptesis se relaciona con la significacin de la regresin. El hecho de
aceptar la hiptesis H 0, equivale a concluir que no hay regresin lineal entre x y
y. Visto esto grficamente es:

En las grficas anteriores se acepta la hiptesis H 0, por lo tanto se concluye que no


hay correlacin lineal entre x y y.

11

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

En estas grficas se rechaza la hiptesis H 0, lo que significa que existe correlacin


lineal entre x y y.
1.10 Anlisis de varianza para probar la significacin de la regresin.
El procedimiento para saber si la variable independiente influye de manera
significativa en la variable dependiente (significacin de la regresin), consiste en la
particin de la variabilidad total de la variable dependiente (y) en dos componentes,
una debido a la regresin y otra debido al azar.
El anlisis de varianza (ANOVA) como su nombre lo indica va a probar mediante la
comparacin de las varianzas si existe efecto de la regresin entre las dos variables.
Las fuentes de variacin que componen el ANOVA son:
Fuente de
variacin
Regresi
n
Error
Total

Suma de cuadrados

xy

Grados
de
libertad

x y

S .C . regresin
G.L. regresin

C.M . Re g .
C.M . error

n2

S .C. error
G.L. error

S .C. total S .C. regresin

Cuadrado
medio

n-1

Si la probabilidad de tener una F igual a la obtenida en el ANOVA es menor al 5% se


rechaza la hiptesis H0: b = 0 y se acepta la hiptesis H1: b 0, con lo que se
concluye que la variable independiente influye de manera significativa en la variable
dependiente.
Continuando con el ejemplo del efecto de la temperatura del horno y la resistencia de
la varilla, los clculos bsicos para la obtencin de las sumas de cuadrados son:

n 10

x 1,450

673

47,225

xy

101,570

b = 0.483

Por lo tanto las sumas de cuadrados son:


12

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Suma de cuadrados total


= 47,225 (673) 2 10 = 1,932.1
Suma de cuadrados de la Reg. = 0.483 101,570 - 1,450 673 10 = 1,924.75
Suma de cuadrados del error
= 1,932.1 1,924.75 = 7.35
La tabla del anlisis de varianza queda definida de la siguiente manera:
ANOVA DE LA TEMPERATURA DEL HORNO Y LA RESISTENCIA DE LA VARILLA.
Fuente de
variacin
Regresin
Error
Total

Suma de
cuadrados
1,924.75
7.35
1,932.10

Grados de
libertad
1
8
9

Cuadrado
medio
1,924.75
0.919

F
2,094.4

Para decidir si la temperatura del horno influye de manera significativa en la


resistencia de la varilla, se obtiene la probabilidad de tener una F = 2,094.4 de la
tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra es menor
al 5% se rechaza la hiptesis H0.
La manera como se busca la probabilidad en la tabla F de Fisher es: localizar en la
parte superior de la tabla los grados de libertad para el numerador de la razn F que
se tienen en el ANOVA, en nuestro caso v 1 = 1; posteriormente se busca en la parte
izquierda de la tabla los grados de libertad del denominador, en nuestro ejemplo
v2 = 8. Donde se intercepten v1 y v2 se localiza el valor de F esperada en el anlisis a
cierto nivele de . En nuestro caso son:
v1 = 1
v2
8

= 0.10
3.46

= 0.05
5.32

= 0.01
11.26

Aqu se puede ver que el valor de F = 2,094.4 se encuentra a la derecha de 11.26 por
lo que le corresponde una probabilidad menor a 0.01. Puesto que la probabilidad de
que se hubiese obtenido por mero azar una F = 2,094.4 es menor al 5%,
rechazamos la hiptesis nula H0: b = 0 y aceptamos la hiptesis alterna H 1 b 0, con
lo que se puede concluir que la temperatura del horno si influye de manera
significativa en la resistencia de la varilla.
En la prctica una manera de concluir lo anterior en este ejemplo es mediante la
comparacin de la F del anlisis contra una F0.05, ( v1 , v 2 ) . Si la F calculada es mayor
que la F de tablas, se concluye que la variable independiente si influye de manera
significativa en la variable dependiente.
De este anlisis podemos ver que la recta que calculamos nos explica el 99.6% de la
variabilidad de y, esto es (1,924.75 1,932.1) 100 = 99.6, valor idntico al del
coeficiente de determinacin.
13

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos
1.11 Estimacin de intervalos en la regresin lineal simple.
Adems de la estimacin de los parmetros a y b de la ecuacin estimada es posible
obtener estimaciones de intervalos de confianza para estos parmetros, el ancho de
estos intervalos es una media de la calidad total de la lnea de regresin.
En consecuencia el intervalo de confianza 100 (1 - ) % para la pendiente b, est
dado por el siguiente intervalo, donde t es un valor de t de Student con un cierto nivel
con v = n - 2 grados de libertad y CME es el cuadrado medio del error del
ANOVA.

P b t

CME
2,n 2

x
n

b b t

CME
2, n 2

x
n

Continuando con nuestro ejemplo un intervalo de confianza al 95% de probabilidad


para la pendiente b es:

0.919
0.919
P 0.483 2.306
b 0.483 2.306

8, 250
8,250

0.95

P (0.483 - 0.024338 b 0.483 + 0.024338) = 0.95


P (0.46 b 0.51) = 0.95
Este resultado debe leerse de la siguiente manera: la probabilidad de que el intervalo
contenga el valor verdadero de b es del 95%, as mismo nos dice que la pendiente
puede tomar valores que van de 0.46 a 0.51
El intervalo nos indica que se tiene una confianza del 95% de que la pendiente
estimada de la ecuacin, diferir de la pendiente verdadera de la poblacin, en una
cantidad que no excede a 0.024338. O lo que es lo mismo se tiene un error de
estimacin del 5% (0.024338 x 100 / 0.483).
En forma semejante el intervalo de confianza del 100 (1 - ) % para la interseccin
y (a) es.

14

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

x
P a t 2,n2 CME
n

x
2

1
2

CME

2
t 2 ,n 2

n
x
2

x
n

Por lo tanto un intervalo de confianza al 95% para a se define por:

1
145 2

p 2.74 2.306 0.919

10
8,250

a 2.74 2.306 0.919

1
145 2

10
8,250

0.95

P (-6.34 a 0.86) = 0.95


Lo anterior nos indica que con un 95% de probabilidad, que el valor de la
interseccin y (a) puede tomar valores que van desde -6.34 a 0.86
1.12 Medida de adecuacin del modelo de regresin.
El ajuste de un modelo de regresin requiere de varios supuestos. As para la
estimacin de parmetros se supone que los errores de estimacin (e i) son variables
aleatorias con media cero y varianza constante. Para la prueba de hiptesis y la
estimacin de intervalos se supone que los errores se distribuyen normalmente,
adems se supone que el grado al que se ajust la ecuacin (modelo) es el correcto.
1.12.1. Anlisis residual.
Para juzgar si el modelo que se ajust a los valores observados es correcto se lleva
a cabo el anlisis residual, lo cual nos sirve para saber si se cumplen los siguientes
supuestos que debe cumplir el modelo, los cuales son:
1. En las pruebas de hiptesis y la estimacin de intervalos, requiere que los errores
de estimacin se ajusten a una distribucin normal.
2. Los errores de estimacin son variables aleatorias no correlacionadas, que tienen
media igual a cero y varianza constante.
3. El orden del modelo es correcto.
Para verificar los supuestos anteriores, se recomienda recurrir al anlisis residual por
su fcil interpretacin, donde un residuo se define como ei yi y i , i = 1, 2, 3,, n,
donde yi es la variable dependiente y i es el valor estimado con la ecuacin
obtenida.

15

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Estos residuos suelen graficarse generalmente contra: 1) la secuencia del tiempo (si
se conoce), 2) contra i y 3) contra la variable independiente xi. Estas grficas por lo
general se presentan como lo indican los cuatro patrones siguientes:

ei

ei

A) Satisfactorio

ei

B) Embudo

ei

C) Doble arco

D) No lineal

La figura A representa la situacin ideal, mientras que las B, C y D representan


anomalas. Si los residuos aparecen como en B entonces nos indica que la varianza
de las observaciones se incrementa con el tiempo o con la magnitud de yi o xi , lo
cual no debe suceder. Para resolver este problema si se presenta, se recomienda
transformar la variable de respuesta y a: y , ln y o 1/y.
Si las grficas contra i y xi se presentan como la figura C nos indica desigualdad
de varianzas. Las grficas de residuos que se observan como D nos indican que el
modelo no es adecuado, lo que significa que debe adaptarse a un modelo de mayor
orden (cuadrtica, cbica, etc).
En el ejemplo que nos ocupa, los valores estimados ( y i ) y los residuos ( ei ) se
presentan en la tabla siguiente.

x
y

100 110
45
51
45.6 50.4

120
54
55.2

130
61
60.1

140
66
64.9

150
70
69.7

160
74
74.6

170
78
79.4

180
85
84.2

190
89
89.0
16

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

e1

ei yi y i -0.6

e2
0.6

e3
-1.2

e4
0.9

e5
1.1

e6
0.3

e7
-0.6

e8
-1.4

e9
0.8

e10
0.0

i y contra la variable
La grfica de residuos residuos contra los datos estimados y
independiente x i , se presentan a continuacin.
i
GRFICA DE RESIDUOS CONTRA y
vs. ajustes
(la respuesta es y)
1,0

Residuo

0,5

0,0

-0,5
-1,0

-1,5
40

50

60
70
Valor ajustado

80

90

GRFICA DE RESIDUOS CONTRA xi


Residuos vs. x
(la respuesta es y)
1,0

Residuo

0,5

0,0

-0,5
-1,0

-1,5
100

110

120

130

140

150

160

170

180

190

En ambas grficas se puede apreciar que no hay un patrn definido en su figura,


lo que significa que las varianzas no se incrementan o disminuyen con el aumento de
i o de x i , lo que nos indica que las varianzas de los errores son iguales.
y
17

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

A la vez podemos observar que los residuos son aleatorios y su promedio es cero
(hay igual nmero de errores positivos como negativos).
Para verificar el supuesto de que los errores se distribuyen de manera normal
realizamos la grfica normal de residuos, en ella se puede observar que los residuos
caen aproximadamente sobre una recta, con lo que se puede concluir que no hay
desviacin importante de normalidad, o sea que el supuesto de que los errores se
distribuyen de manera normal se cumple.
Cuando aparecen valores atpicos, es decir observaciones que no son tpicas al
resto de los datos, significa que los errores no se distribuyen de manera normal. Si
desea ms informacin sobre puntos atpicos consulte a Montgomery y Peck.

Grfica de probabilidad normal


(la respuesta es Resistencia)
99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-2

-1

0
Residuo

Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.
Cuando aparece un patrn en las grficas, por lo general suele indicar la necesidad
de una transformacin de los datos originales, esto es, analizar los datos en una
mtrica diferente. Por ejemplo, si la variabilidad de los residuos aumenta con i o xi
entonces es conveniente aplicar la transformacin logartmica. Si los datos
analizados se encuentran en porcentaje, es recomendable la transformacin
arcoseno. Si se analizan valores pequeos con decimales, lo recomendable es la
transformacin raz cuadrada y si la variable es el cociente de dos variables, la
transformacin logartmica es la adecuada.
Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.
18

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Con los datos obtenidos hasta aqu, podemos ya responder a algunas preguntas
como:
1. Cun estrecha es la relacin entre la temperatura del horno y la resistencia
de la varilla?
R. Totalmente estrecha. El coeficiente de correlacin es de 0.998, el 1 sera el
perfecto.
2. Cul es la probabilidad de que tal correlacin pudiera deberse a la
casualidad?
R. Una correlacin de este tamao de 10 pares de datos, solo podra ocurrir por
casualidad menos del 1% de las veces.
3. Qu ecuacin describe mejor la relacin entre la temperatura del horno y la
resistencia de la varilla?
R.

2.74 0.483 x
y

4. Hasta qu punto se ajusta esta recta a los datos?


R. El 99.6% de la variacin de la resistencia de la varilla (y) estuvo asociada de algn
modo con la temperatura del horno (x).
5. Influye significativamente la temperatura del horno en la resistencia de la
varilla?
R. El anlisis de varianza de la regresin indica que s, con un 99 % de probabilidad.
6. El modelo que fue ajustado a los valores observados es el correcto?
R. En base al anlisis residual, podemos concluir que no existe insuficiencia seria del
modelo.

Apndice 1.1 Empleo del software Minitab en el anlisis de regresin lineal.


Anlisis de regresin lineal.
19

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de


regresin lineal, tomaremos el ejemplo de la temperatura del horno y la resistencia
en psi. de cierta varilla de acero. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo, rotule x (predictora) y en C2 y
(respuesta).
2. La manera como es concentrada la variable predictora y la variable respuesta,
puede ser.

1
2
3
4
5
6
7
8
9
10

C1
x
100
110
120
130
140
150
160
170
180
190

C2
y
45
51
54
61
66
70
74
78
85
89

3. Seleccione el men Estadsticas.


4. Seleccione el men Regresin.
5. Hacer clic en Regresin.
6. Cuando aparezca el cuadro de dilogo Regresin.
Ingresar C2 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Predictores.
Hacer clic en el cuadro de Grficas.
7. Cuando aparezca el cuadro de dilogo Regresin-Grficas.
Hacer clic en el botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos vs. Ajustes.
Hacer clic en el cuadro Residuos vs las variables.
Ingresar C1 en el cuadro Residuos vs las variables.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Resultados.
8. Cuando aparezca el cuadro de dilogo Regresin-Resultados.
Hacer clic en Ecuacin de regresin, tabla de coeficientes, s,
R-cuadrado y anlisis bsico de varianza.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Almacenamiento.
20

Lic. Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________

9. Cuando aparezca el cuadro de dilogo Regresin-Almacenamiento.


Hacer clic en los cuadros que le interesen.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
Elaboracin de un diagrama de dispersin.
Para mostrar el empleo de Minitab en la elaboracin de un diagrama de dispersin,
tomaremos los diez pares de datos concentrados en las columnas de C1 y C2 del
tema anterior sobre Anlisis de regresin lineal.
1. Seleccione el men Grfica.
2. Hacer clic en grfica de dispersin.
3. Cuando aparezca el cuadro de dilogo Grficas de dispersin.
Hacer clic en el cuadro Simple.
Hacer clic en Aceptar.
4. Cuando aparezca el cuadro de dilogo Grficas de dispersin-simple.
Ingresar C2 en el cuadro de Variables y.
Ingresar C1 en el cuadro Variables x.
Hacer clic en Etiquetas.
5. Cuando aparezca el cuadro de dilogo Grfica de dispersin-etiquetas.
Ingresar Temperatura del horno y resistencia de la varilla en el cuadro de Ttulo.
Ingresar x = temperatura del horno en el cuadro Nota al pie de pgina 1:
Ingresar y = resistencia de la varilla en psi. en el cuadro Nota al pie de pgina 2:
Hacer clic en Aceptar.
Hacer clic en Mostrar datos.
6. Cuando aparezca el cuadro de dilogo Grfica de dispersin-Vista de datos.
Hacer clic en el cuadro de Smbolos.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

21

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

2. REGRESIN MLTIPLE Y ANLISIS DE CORRELACIN.


2.1 Introduccin.
El anlisis de regresin mltiple est basado en las mismas suposiciones y
procedimientos de la regresin simple. Su ventaja principal es que nos permite
utilizar ms de una variable independiente para estimar la variable dependiente,
aumentando con ella la precisin de la estimacin.
Imagine un agente de bienes y races que desea relacionar el nmero de casas que vende en un mes
con la cantidad de su publicidad mensual. Aqu se puede encontrar una ecuacin sencilla que
relaciona estas dos variables, podemos obtener mayor precisin en nuestra ecuacin incluyendo otra
variable ms, como el nmero de vendedores que se emplea cada mes?
La respuesta es s, pero ahora debemos correlacionar el nmero de agentes de ventas como los
gastos de publicidad para predecir las ventas mensuales de las casas. En este caso se debe utilizar
regresin mltiple y no lineal.
La regresin mltiple y el anlisis de correlacin implican un proceso de tres pasos, los cuales son:
1.

Describir la ecuacin de regresin mltiple.

2.

Examinar el error estndar de regresin mltiple de la estimacin.

3.

Utilizar el anlisis de regresin mltiple, para ver que tan bien describe la ecuacin de
regresin los datos observados.

Adems, en la regresin mltiple podemos observar cada una de las variables independientes y
probar si contribuyen significativamente a la forma en que la regresin describe los datos.
El tema contempla el estudio de los coeficientes de correlacin y determinacin simple, coeficientes
de determinacin y correlacin parcial, coeficientes de determinacin y correlacin mltiple, obtencin
de la ecuacin que mejor se ajusta a los valores observados, error estndar de estimacin, intervalos
de confianza, anlisis de varianza de la regresin mltiple, validacin del modelo y empleo del
software minitab.
2.2 Coeficientes de correlacin.
La correlacin entre dos variables, pasando por alto cualesquiera otras variables que pueden variar
simultneamente, recibe el nombre de correlacin simple o lineal.
La correlacin entre dos variables, cuando una o ms variables permanecen fijas a un nivel constante,
se denomina correlacin parcial.
La relacin combinada entre una variable dependiente y dos o ms variables que varan
simultneamente recibe el nombre de correlacin mltiple.
Supngase que tenemos una variable dependiente Y, y para cada valor de Y existen valores
correspondientes de otras dos variables independientes, X1 y X2.
La correlacin simple o total entre Y y X1 es el coeficiente de correlacin lineal que estudiamos con
anterioridad. Por lo tanto la correlacin simple de Y con X1, utilizando subndices explicativos,
podemos expresarla de la siguiente manera.

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

(X 1 )(Y )
n
rYX
2
( X 1 )
( Y ) 2

2
2
X 1
Y

n
n

X 1Y

Anlogamente la correlacin simple entre Y y la variable independiente X2 se denota por:

rYX

(X 2 )(Y )
n

2
(X 2 )
(Y ) 2

2
2
X 2
Y

n
n

X 2Y

La correlacin lineal entre las variables independientes X1 y X2 se denomina por:

rX X
1

(X 1 )(X 2 )
n

2
(X 1 )
( X 2 ) 2

2
2
X 1
X 2

n
n

X 1 X 2

La correlacin parcial entre Y y X1, permaneciendo constante X2, se calcula a partir de las
ecuaciones simples anteriores de la manera siguiente.

2
YX 1 X 2

rYX rX X

1 rYX2 1 rX2 X
YX 1

Anlogamente la correlacin parcial entre Y y X2, permaneciendo fija X1 se define de la siguiente


manera.

2
YX 2 X 1

rYX rX X

1 rYX2 1 rX2 X
YX 2

El coeficiente de determinacin mltiple mide la correlacin combinada en porcentaje de X1 y X2


con Y, y este se determina por:

2
Y X1X 2

rYX2 rYX2 2rYX rYX rX X

1 rX2 X
1

Finalmente el coeficiente de correlacin mltiple de X1 y X2 con Y se obtiene sacando la raz


cuadrada al coeficiente de determinacin.

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

RY X X
1

RY2 X X
1

El valor de R es siempre positivo, fluctuando entre cero y uno; adems su valor es cuando menos
como el menor de los coeficientes simples o parciales. Este hecho sirve como una buena
comprobacin de los clculos.
El problema de visualizar tres variables se complica un poco, ya que con tres variables, la relacin
debe describirse como un plano en el espacio tridimensional. La proyeccin del elipsoide sobre el
plano X1, Y muestra la correlacin simple de X1 y Y. Una seccin a travs del elipsoide paralelo al
plano X1, Y proyectado sobre el mismo, mostrar la correlacin parcial de X1 con X2 fija, denotada por

rYX

1X2

Las figuras siguientes muestran grficamente diversas situaciones. Note como la correlacin mltiple
puede variar, mientras que la correlacin parcial puede ser alta, o viceversa. Pueden incluso la
correlacin parcial ser diferentes en signo.

DIAGRAMA DE DIVERSAS COMBINACIONES DE CORRELACIN


PARCIAL Y MLTIPLE, INCLUYENDO TRES VARIABLES.

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

Ejemplo. La Secretara de Hacienda est tratando de estimar la cantidad mensual


de impuesto no pagado descubierto por su departamento de auditora; para el
caso desea relacionar las horas de trabajo de auditoras de campo, como el
nmero de horas que sus computadoras usan para detectar impuestos no pagados,
con el fin de predecir los impuestos reales no pagados por los contribuyentes.
La observacin de 10 meses de trabajo ha dado la siguiente informacin.
HORAS DE TRABAJO DE AUDITORES, COMPUTADORAS E IMPUESTOS NO PAGADOS
Mes

Horas de trabajo de
auditorias de campo
(dos ceros omitidos)
X1

Horas en
computadoras
(dos ceros omitidos)
X2

Impuestos reales
no pagados
(millones de dlares)
Y
4

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Enero
45
16
29
Febrero
42
14
24
Marzo
44
15
27
Abril
45
13
25
Mayo
43
13
26
Junio
46
14
28
Julio
44
16
30
Agosto
45
16
28
Septiembre
44
15
28
Octubre
43
15
27
Para visualizar tres variables, la relacin debe escribirse en un plano tridimensional que posea
profundidad, longitud y ancho. Para tener una idea intuitiva de sta forma tridimensional, visualice la
interseccin de los ejes Y, X1 y X2 como el rincn de un cuarto.
La grfica siguiente presenta los diez puntos tomados de la muestra, algunos se encuentran por
encima del plano y algunos otros por debajo, las distancias que existen entre los valores observados
(puntos negros) y los valores esperados (puntos blancos) es lo que se conoce como error de
estimacin.
Ahora el problema consiste en decidir, cul de los planos posibles que podemos dibujar entre los
valores observados ser el que mejor se ajuste a los puntos del modelo, ya que por dichos puntos se
puede trazar un nmero ilimitado de ecuaciones.
Para lograr esto, de nuevo utilizamos el criterio de mnimos cuadrados y localizaremos un plano que
logre minimizar la suma de los cuadrados de los errores de estimacin.

RELACIN DE HORAS DE AUDITORIA (X1), HORAS EN COMPUTADORAS (X2) E IMPUESTOS NO


PAGADOS (Y)

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

a + b1X1 + b2X2

Los clculos de los datos originales para la obtencin de los coeficientes de correlacin se
presentan a continuacin.

272
2

X Y
1

7428

12005

441

2
1

19461

Y 4013

147

2
2

2173

X 2 6485

Con los clculos anteriores obtenemos los coeficientes de correlacin simple, parcial y mltiple de la
manera siguiente.

Los coeficientes de correlacin y determinacin simple son:

441(272)
10
rYX
0.501517
2
441
272 2

19461
7428

10
10

12005

El valor anterior significa que existe correlacin lineal media entre las horas de trabajo de los
auditores y la evasin de impuestos.
6

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

rYX2 0.501517 2 0.251519


1

Este valor nos indica que las horas de trabajo de los auditores nos explican el 25.15% de la
variabilidad de los impuestos no pagados.

rYX

147(272)
10

0.771462
2
147
2722

2173
7428

10
10

4013

Existe correlacin lineal media alta entre las horas de trabajo de las computadoras y los impuestos no
pagados.

rYX2 0.595153
2

Indica que las horas de trabajo de las computadoras nos explican el 59.51% de la variabilidad de la
evasin de impuestos.

rX X
1

441(147)
10

0.184094
2
441
147 2

19461
2173

10
10

6485

Existe correlacin lineal muy baja (no existe) entre las horas de trabajo de los auditores y las horas
de trabajo de las computadoras.

rX2 X 0.033891
1

Las horas de trabajo de los auditores nos explican el 3.3% de las horas de trabajo de las
computadoras.
Los coeficientes de determinacin y correlacin parcial son:

2
YX 1 X 2

rYX rX X

1 rYX2 1 rX2 X
YX 1

2
YX1 X 2

0.5015 (0.7714)0.1841

1 0.59511 0.0339

0.330364

Significa que las horas de trabajo de los auditores y los impuestos no pagados, estando fijos las horas
de trabajo de las computadoras, nos logran explicar el 33% de la variabilidad de Y.

rYX X 0.330364 0.574773


1

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Lo anterior nos indica que existe correlacin parcial media entre las horas de trabajo de los
auditores con la evasin de impuestos, permaneciendo constante las horas de trabajo de las
computadoras.

rYX

rYX rX X

1 rYX2 1 rX2 X
YX 2

2 X1

2
YX 2 X 1

0.7714 (0.5015)0.1841

1 0.25151 0.0339

0.637705

Las horas de trabajo de las computadoras y los impuestos no pagados estando fijos las horas de los
auditores, nos logran explicar el 63.77 %.

rYX X 0.637705 0.798564


2

Existe correlacin parcial media alta entre las horas de trabajo de computadoras e impuestos no
pagados estando fijos las horas de trabajo de los auditores.
Con los valores obtenidos para los coeficientes de correlacin simple obtenemos el clculo del
coeficiente de determinacin mltiple de la siguiente manera:

2
Y X1 X 2

RY2 X X
1

rYX2 rYX2 2rYX rYX rX X


1

1 r

2
X1 X 2

0.2515 0.5951 2(0.5015)(0.7714)(0.1841)


0.728868
1 0.0339

Significa que: las horas de trabajo de los auditores con las horas de trabajo de las computadoras
cuando se manejan conjuntamente nos explican el 72.8% de la variabilidad de los impuestos no
pagados.
As mismo nos dice que existe un error de estimacin del 27.1% = (1 0.729)100, el cual lo podemos
considerar como grande.
Finalmente el coeficiente de correlacin mltiple se obtiene por:

RY X X 0.728868 0.853738
1

El cual nos indica que existe correlacin mltiple alta entre las horas de trabajo de los auditores con
las horas de trabajo de las computadoras y los impuestos no pagados cuando se manejan
conjuntamente.
Para finalizar este subpunto, se presenta una ecuacin general para encontrar el coeficiente de
correlacin mltiple que incluye m variables independientes.
2
2
1 RY2 X 1 ... X m (1 rYX
)(1 rYX2 2 X 1 )(1 rYX
)....(1 rYX2 m X 1 X m1 )
1
3 X1 X 2

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Su clculo resulta complicado, pero ms difcil es poder visualizar relaciones entre variables que
incluyen cuatro o ms dimensiones. En su lugar, necesitamos pensar en trminos de las ecuaciones
antes que en los diagramas.
2.3 Coeficientes de regresin.
Hasta el momento solo hemos visto la estrechez de la relacin entre las variables. Deseamos conocer
la naturaleza de las relaciones. Para conocer esto necesitamos una ecuacin de la forma.

Y a b1 X 1 b2 X 2 ...
Los trminos b1, b2, reciben el nombre de coeficientes de regresin parcial. La ecuacin mejor
ajustada de esta forma, ser aquella que haga mnima la suma de cuadrados de los errores de
2
estimacin (Y Y ) . Para encontrar los valores a, b1, b2, que cumplan este requisito, debemos
resolver ecuaciones normales muy parecidas a las ya manejadas.
an b1 X 1 b2 X 2 ... Y

a X 1 b1 X 12 b2 X 1 X 2 ...
a X 2 b1 X 1 X 2 b2 X

2
2

X Y
... X Y
1

Los puntos indican como pueden ampliarse estas ecuaciones para incluir a ms de tres variables.
2.4 Obtencin de la ecuacin de regresin.
El clculo de la ecuacin de regresin, la obtenemos al substituir en las ecuaciones normales
anteriores los valores originales solicitados, obteniendo en nuestro caso un sistema de tres
ecuaciones con tres incgnitas.
Ahora, utilizamos los clculos obtenidos en el punto 2.2 con los datos originales de X1, X2 y Y, con
dichos valores obtenemos un sistema de tres ecuaciones con tres incgnitas desconocidas (a, b 1 y b2).
10a

441b1 147b2 272

441a 19461b1 6485b2 12005


147 a 6485b1 2173b2 4013
Resolviendo por determinantes el sistema anterior nos da:

Det. 1508

Det. a 20840

Det. b1 850

Det. b2 1658

Por lo tanto:
a

Det. a / Det.

a
a

=
=

20840 / 1508
13.819628

b1

Det. b1 / Det.

b1
b1

=
=

850 / 1508
0.563660
9

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
b2
=
Det. / Det.
b2

b2
b2

=
=

1658 / 1508
1.099469

Es recomendable que los valores estimados de: a, b 1, b2, sean substituidos en alguna de las
ecuaciones del sistema de donde se obtuvieron, para ver si la igualdad se cumple, si esto sucede,
quiere decir que los coeficientes fueron bien estimados.
Luego entonces, la ecuacin que describe la relacin entre el nmero de horas de trabajo de auditoria
de campo, el nmero de horas de computacin y los impuestos no pagados es:

Y a b1 X 1 b2 X 2 ...

Y 13.8196 0.56366 X 1 1.099469 X 2


La interpretacin a los coeficientes de regresin obtenidos es:
El valor a = -13.8196 no debe tomarse muy en cuenta en su aparente implicacin de que los
impuestos no pagados en un mes son negativos en 13 819,600 dlares, si no se realizan horas de
trabajo de auditores ni horas de trabajo de las computadoras.
Pero lo que si nos dice el valor de a, es que la ecuacin que se ajust a los puntos del modelo, corta
al eje de la ordenada Y en un sistema de tres dimensiones en el punto -13.8.
b1 = 0.56366, significa que por cada 100 horas de trabajo adicional de los auditores ( X 1 ), se logran
detectar 563,660 dlares de impuestos no pagados, si la otra variable horas de trabajo de las
computadoras permanece constante en cualquier nivel.
b2 = 1.099469, significa que por cada 100 horas de trabajo adicional de las computadoras ( X 2 ) se
logra detectar 1 099,469 dlares de impuestos no pagados, si las horas de trabajo de los auditores
permanece constante en cualquier nivel.
Ahora bien el departamento de auditoria puede con la ecuacin estimada, hacer predicciones en un
mes en particular para estimar la cantidad de impuestos no pagados, variando a placer tanto la
variable X 1 como la X 2 .
Suponga que el departamento de auditora desea aumentar la cantidad de sus descubrimientos de
impuestos no pagados durante el siguiente mes. Como los auditores entrenados son escasos el
departamento no tiene la intencin de contratar personal adicional. Por lo tanto, el nmero de horas de
trabajo en auditoras de campo, permanecer en el nivel de octubre, alrededor de 4,300 horas. Pero
con el fin de aumentar sus hallazgos de impuestos no pagados, el departamento de auditora espera
aumentar el nmero de horas en computadora a aproximadamente 1,600, por lo tanto:
X1 = 43
X2 = 16

4300 horas de auditora de campo.


1600 horas de tiempo de computadora.

Sustituyendo valores en nuestra ecuacin estimada tenemos.

Y a b1 X 1 b2 X 2
Y 13.8196 0.5637 ( 43) 1.0995(16) 28.0115

En consecuencia, el pronstico para el mes de noviembre que el departamento de auditora espera,


es de una evasin de impuestos de aproximadamente 28 millones de dlares, para esta combinacin
de factores.
10

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
2.5 Error estndar de estimacin.
La medida de dispersin para cuantificar la relacin entre tres variables es el error estndar de
estimacin, el cual se define como:

SY X 1 X 2

(Y Y )

n k 1

Donde:
Y

valor de la variable dependiente.

valores estimados a partir de la ecuacin de regresin.

nmero de observaciones de la muestra.

total de variables independientes.

El cuadro siguiente muestra los valores estimados para cada combinacin de variable, as como la
suma de cuadrados de las desviaciones.

X1

X2

Y Y

(Y Y ) 2

45
42
44
45
43
46
44
45
44
43

16
14
15
13
13
14
16
16
15
15

29
24
27
25
26
28
30
28
28
27

29.13
25.24
27.47
25.84
24.71
27.50
28.57
29.13
27.47
26.90

0.13
1.24
0.47
0.84
1.29
0.50
1.43
1.13
0.53
0.10

0.0169
1.5376
0.2209
0.7056
1.6641
0.2500
2.0449
1.2769
0.2809
0.0100

8.0078

Puede observarse que la suma de las desviaciones es cero tal como debe ser, esto suministra una
buena comprobacin de los clculos. La suma de cuadrados de la desviacin es 8.0078. Esto
representa la variacin de los impuestos reales no pagados (Y), no asociado con la variacin de horas
de trabajo de auditoria de campo (X1) o de horas de computadora (X2).
Por lo tanto el error estndar de estimacin ser:

SY X 1 X 2

8.0078
1.069566
10 2 1

Es decir se tendr un error de 1 069,566 dlares


NOTA: La suma de desviaciones al cuadrado tambin puede calcularse de la siguiente manera:

( Y ) 2

(Y Y ) 2 (1 R 2 ) Y 2

11

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

272 2

(Y Y ) 2 (1 0.728868) 7428
8.025
10

Valor muy parecido a 8.0078, la pequea diferencia es debido al ajuste de decimales. Lo anterior nos
permite verificar si los clculos obtenidos en los coeficientes de correlacin simple, parcial, mltiple y
la ecuacin estimada estn correctos.
2.6 Intervalo de confianza para Y.
De manera general un intervalo de confianza alrededor de un valor estimado Y , se define por:

PY tS Y X X Y Y tS Y X X 1
1

La probabilidad de que ste intervalo contenga el valor estimado de

Y , es

1 . Donde t es un

valor t / 2 , ( n k 1) de Student con k igual al nmero de variables independientes y

SY X

1X 2

es el

error estndar de la ecuacin obtenida.


Ejemplo. Se desea un intervalo de confianza al 95%, para la estimacin de impuestos no pagados en
el mes de noviembre obtenido en el punto 2.4, donde se tenan 4,300 horas de trabajo en auditoras
de campo y 1,600 horas de tiempo de computadora, donde Y fue de 28 011,500 dlares como
estimacin del descubrimiento de impuestos no pagados.
Dado que deseamos construir un intervalo de confianza para 28 011,500 dlares con un 95% de
probabilidad, esto implica un = 0.05. Por lo tanto el valor de t localizado en la tabla de Student es

t 0.05 / 2 , (10 2 1) t 0.025 , 7 2.365 , mientras que

el valor de

SY X

1X 2

fue 1 069,566 dlares, por

lo tanto el intervalo ser:

P 28,011,500 2.365(1,069,566) Y 28,011,500 2.365(1,069,566) 0.95


P 28,011,500 2,529,524 Y 28,011,500 2,529,524 0.95
P 25,481,976 Y 30,541,024 0.95
Lo que significa que con un 95% de confianza, el Departamento de Auditoria puede sentirse seguro de
que los descubrimientos reales de evasin de impuestos estarn entre 25.5 y 30.5 millones de
dlares. Asimismo el intervalo nos sugiere que se tiene un error de estimacin del 9% (2 529,524 / 28
011,500)(100).
2.7 Anlisis de varianza de la regresin mltiple.
La prueba de la significancia de la regresin, ms que una prueba de significancia de los coeficientes
individuales, requiere probar la hiptesis de que todos los coeficientes de la regresin son cero y que,
por lo tanto, ninguna de las variables independientes ayuda a explicar la variacin de la dependiente.
Los resultados que se han obtenido hasta esta parte, pueden resumirse en un anlisis de varianza
como se indica a continuacin; con la restriccin de que debe hacerse un anlisis de variacin para
cada variable independiente, con el fin de saber que variable realmente influye significativamente en
la correlacin.
En el ejemplo que venimos estudiando, veremos mediante el anlisis de variacin (ANOVA) cuales
variables independientes son las que realmente influyen en la correlacin, esto es con la finalidad de
12

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
que si tenemos varias variables independientes podemos quitar aquellas que no influyen
significativamente. Para el caso nos apoyamos en los coeficientes de correlacin obtenidos con
anterioridad.
Las fuentes de variacin para el anlisis de varianza, las sumas de cuadrados y grados de libertad,
cuando se analiza la primera variable independiente X 1 son:

Fuente de
variacin

Suma de
cuadrados

Regresin debido a X 1

2
rYX
( y 2 )
1

Desviacin de la regresin
simple.

2
(1 rYX
) y 2
1

Regresin adicional debido

2
2
rYX
(1 rYX
) y 2
2 X1
1

a X2
Desviacin de la regresin
mltiple.
Total

Donde

1 R

Y X1 X 2

Grados
de libertad
1

(n 1 ) 1

(n 1 ) 2

S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .D.R.
S .C .D.R.
G.L.D.R.

S .C.R. X 2 C .M .R. X 2
G.L.R. X 2 C.M .R.M .
S .C .R.M .
G.L.R.M .

n1

y 2

y 2 Y 2

Cuadrado
medio

(Y ) 2
n

De manera anloga las sumas de cuadrados para la segunda variable independiente X 2 son:
Fuente de
variacin

Suma de
cuadrados

Regresin debido a X 2

2
rYX
(y 2 )
2

Desviacin de la regresin
simple.

2
(1 rYX
) y 2
2

Regresin adicional debido

2
2
rYX
(1 rYX
)y 2
1X 2
2

a X1
Desviacin de la regresin
mltiple.
Total

1 R

2
Y X1 X 2

y 2

Grados
de libertad
1

(n 1 ) 1

(n 1 ) 2

Cuadrado
medio

S .C.R. X 2 C.M .R. X 2


G.L.R. X 2 C.M .D.R.
S .C .D.R.
G.L.D.R.

S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .R.M .
S .C .R.M .
G.L.R.M .

n1

13

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Las sumas de cuadrados y los grados de libertad para el ANOVA de la variable horas de trabajo de
auditoria ( X 1 ) son:
Suma de cuadrados total.

y 2 7428

272 2
29.6 , con 10 1 = 9 grados de libertad.
10

Suma de cuadrados de la regresin debido a X 1


= (0.2515) 29.6 = 7.44, con 2 1 = 1 grado de libertad.
Suma de cuadrados de la desviacin de la regresin simple
= (1 0.2515) 29.6 = 22.15, con (10 1) 1 = 8 grados de libertad.
Suma de cuadrados de la regresin adicional debido a X 2
= (0.6377) (1 0.2515) 29.6 = 14.13, con 2 1 = 1 grado de libertad.
Suma de cuadrados de la desviacin de la regresin mltiple
= (1 0.7288) 29.6 = 8.03, con (10 1) 2 = 7 grados de libertad.
Concentrando las sumas de cuadrados y los grados de libertad en la tabla siguiente, obtenemos los
cuadrados medios (varianzas) para cada fuente de variacin, para finalmente obtener las F calculadas
para cada variable independiente.

ANLISIS DE REGRESIN MLTIPLE DE IMPUESTOS NO PAGADOS


CONSIDERANDO EL EFECTO TOTAL DE HORAS DE AUDITORIA Y
LUEGO EL EFECTO ADICIONAL DE HORAS DE COMPUTADORA.
Fuente de
variacin

Grados de
libertad

Cuadrado
medio

7.44

7.44

2.68

Desviacin de la regresin simple.

22.15

2.77

Regresin adicional debido a X 2

14.13

14.13

8.03

1.15

Regresin debido a X 1

Desviacin de la regresin mltiple.


Total

Suma de
cuadrados

29.6

12.29

Para poder decidir si la variable independiente X i influye de manera significativa en la variable


dependiente Y, primero debemos plantear las siguientes hiptesis de trabajo.

H 0 : La variable independiente horas de trabajo de los auditores, no influye de manera


significativa en los impuestos no pagados.

H 1 : La variable independiente horas de trabajo de los auditores, si influye de manera significativa


en los impuestos no pagados.

14

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Para decidir si se acepta o rechaza la hiptesis H 0 , se debe considerar la probabilidad de ocurrencia
de la F obtenida en el anlisis de varianza. Si la probabilidad de obtener una F igual a la de la
muestra es menor que 0.05 se rechaza la hiptesis H0.
La probabilidad de obtener una F = 2.68 con un grado de libertad en el numerador y ocho en el
denominador para la variable X 1 , se obtiene de la tabla F de Fisher para diferente valores de

v1 1

v2
= 0.10
3.46

= 0.05
5.32

= 0.01
11.26

Podemos apreciar que la probabilidad de tener un valor de F = 2.68 es mayor a 0.10 o lo que es lo
mismo es mayor a 5%, por lo tanto, se acepta la hiptesis H 0 y se concluye que la variable horas de
trabajo de los auditores no influye de manera significativa en los impuestos reales no pagados.
Una manera prctica para tomar esta misma decisin es: Si F es mayor que
rechaza la hiptesis H 0 ; en nuestro caso como F = 2.68 es menor que

F0.05 , ( v

,v2 )

se

F0.05, (1, 8 ) 5.32 , se

acepta la hiptesis H 0 y se concluye que las horas de trabajo de los auditores no influyen de
manera significativa en los impuestos no pagados.
Las sumas de cuadrados para la segunda variable independiente horas empleadas en computadora (
X 2 ), as como el ANOVA correspondiente se presentan a continuacin.
Suma de cuadrados total = 29.6
Suma de cuadrados de la regresin debido a X 2
= 0.5951 (29.6) = 17.61
Suma de cuadrados de la desviacin de la regresin simple
= (1 0.5951) 29.6 = 11.99
Suma de cuadrados de la regresin adicional debido a X 1
= 0.3303 (1 0.5951) 29.6 = 3.96
Suma de cuadrados de la desviacin de la regresin mltiple
(1 0.7288) 29.6 = 8.03

ANLISIS DE REGRESIN MLTIPLE CONSIDERANDO EL EFECTO


TOTAL DE HORAS EN COMPUTADORA Y LUEGO EL EFECTO
ADICIONAL DE HORAS DE AUDITORIA.
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Regresin debido a X 2

17.61

17.61

11.74

Desviacin de la regresin simple.

11.99

1.50

Regresin adicional debido a X 1

3.96

3.96

Desviacin de la regresin mltiple.

8.03

1.15

Total

29.6

3.44

9
15

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Dado que la probabilidad de tener una F = 11.74 con v1 1 y v 2 8 para la variable independiente

H 0 : La variable independiente
X 2 , es menor de 0.01 (ver tabla anterior), se rechaza la hiptesis
horas de trabajo de las computadoras, no influye de manera significativa en los impuestos no
pagados y se acepta la hiptesis alterna H 1 : La variable independiente horas de trabajo de las
computadoras, si influye de manera significativa en los impuestos no pagados. Con lo que se
concluye que las horas de trabajo de las computadoras si influyen significativamente en la
estimacin de los impuestos reales no pagados.
NOTAS: La suma de cuadrados de la desviacin de la regresin simple, se puede calcular por
diferencia de la S. C. Total menos S. C. de la regresin debido a X ? . Ejemplo para el primer anlisis.
29.6 7.44 = 22.16
La suma de cuadrados de la desviacin de la regresin mltiple, se puede calcular por diferencia de la
S. C. de la desviacin de la regresin simple menos S. C. de la regresin adicional debido a X ? .
Ejemplo para el segundo anlisis. 11.99 3.96 = 8.03
Puede observarse que en ambos anlisis, la suma de cuadrados de la desviacin de la regresin
mltiple (8.03) es idntico a (Y Y ) 2 ; as mismo el cuadrado medio de la desviacin de la
regresin mltiple (1.15) es idntico a

SY2 X

1X 2

obtenido en el punto 2.5.

2.8 Coeficiente de determinacin.


De los anlisis anteriores tambin lo podemos obtener de la siguiente manera:

RY2 X 1 X 2

7.44 14.13
100 72.87%
29.6

Lo que significa que las variables horas de auditora de campo ( X 1 ) y horas en computadoras ( X 2 )
unidas, logran explicar el 72.9% de la variabilidad de Y.
Por otra parte las horas de auditora de campo de manera individual logran explicar el 25.13% de la
variabilidad de Y, (7.44 / 29.6) 100.
Mientras que las horas de computadora de manera individual logran explicar el 59.49% de la
variabilidad de Y, (17.61 / 29.6) 100.
Los valores calculados anteriormente coinciden con los coeficientes de correlacin obtenidos con
anterioridad, que fueron

RY2 X

1X2

rYX2

rYX2

2.9 Validacin del modelo.


2.9.1 Anlisis residual.
Los residuos o errores de estimacin en la regresin mltiple se definen por ei Yi Yi , los cuales
juegan un papel importante en la validacin del modelo, de igual forma como sucede en la regresin
simple.
Los supuestos del error en el modelo de regresin mltiple son anlogos a las suposiciones del
modelo de regresin lineal simple, siendo estos:
1. Los errores ei son variables aleatorias con promedio igual a cero.
2. Las varianzas de los errores es la misma para todas las variables independientes.
16

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
3. Los errores son independientes.
4. Los errores son variables independientes que se distribuyen normalmente.
Es conveniente graficar los residuos ei contra X 1 , X 2 y Y , as como obtener la grfica de
probabilidad normal de los residuos. En el ejemplo que nos ocupa los residuos son:

X1
X2

45

42

44

45

43

46

44

45

44

43

16

14

15

13

13

14

16

16

15

15

Yi
Yi

29

24

27

25

26

28

30

28

28

27

29.13

25.24

27.47

25.84

24.71

27.50

28.57

29.13

27.47

26.90

ei

-0.13

-1.24

-0.47

-0.84

1.29

0.50

1.43

-1.13

0.53

0.10

La grfica de residuos ( ei ) contra las horas de trabajo de los auditores ( X 1 ) se presenta a


continuacin, en ella se puede observar que no hay un patrn definido, as mismo observamos que no
hay valores atpicos u observaciones inusuales.

GRFICA DE RESIDUOS CONTRA HORAS DE TRABAJO DE AUDITORES

Residuos vs. x1
(la respuesta es y)
1,5
1,0

Residuo

0,5
0,0
-0,5
-1,0

42

43

44
x1

45

46

En la grfica de residuos ( ei ) contra las horas de trabajo de las computadoras ( X 2 ), se puede


observar que no hay un patrn definido ni observaciones inusuales en relacin con el resto de los
datos.
GRFICA DE RESIDUOS CONTRA HORAS DE TRABAJO DE COMPUTADORAS

17

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Residuos vs. x2
(la respuesta es y)
1,5
1,0

Residuo

0,5
0,0
-0,5
-1,0

13,0

13,5

14,0

14,5
x2

15,0

15,5

16,0

Como no hay un patrn en ambas grficas podemos concluir que hay independencia entre los errores,
que son aleatorios y que su media es cero.
En la grfica de residuos ( ei ) contra valores estimados ( Y ) se puede observar que los residuos no
aumentan conforme crece Y , lo que nos indica que las varianzas de los errores es la misma para
todas las variables independientes.
Cuando la dispersin de los residuos aumenta conforme aumenta Y indica que al menos una
varianza no es constante. Si las suposiciones para el modelo de esta prueba no se satisfacen,
entonces no se justifica sacar conclusiones acerca de la significacin estadistica de la ecuacin
estimada. Cuando una varianza no es constante se sugiere trasformar la variable dependiente a
logaritmos para analizarla bajo otra mtrica, esto hace que los valores de la variable dependiente se
compriman y con esto disminuirn los efectos de la varianza no constante.

GRFICA DE RESIDUOS CONTRA VALORES AJUSTADOS

18

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
vs. ajustes
(la respuesta es Y)
1,5
1,0

Residuo

0,5
0,0
-0,5
-1,0

25

26

27
Valor ajustado

28

29

En la grfica de probabilidad normal de los residuos, encontramos que no hay desviaciones marcadas
de la normalidad que se perciban, por lo tanto el supuesto de que los errores se distribuyen de manera
normal se cumple.

Grfica de probabilidad normal


(la respuesta es Y)
99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-2

-1

0
Residuo

Dado que los supuestos en que se basa el modelo se cumplen, podemos concluir que no existe
insuficiencia del modelo, es decir nuestro modelo es vlido.

19

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________
Apndice 2.1 Empleo del software Minitab en regresin mltiple.
Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de regresin mltiple,
utilizaremos el ejemplo de la Secretara de Hacienda, de horas de trabajo de auditores, horas de
trabajo de las computadoras e impuestos no pagados. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo, rotule X1 en C2 X2 (predictoras) y en C3 Y (respuesta).
2. La manera como son concentradas las variables predictoras y la variable respuesta, puede ser.
1
2
3
4
5
6
7
8
9
10

X1
45
42
44
45
43
46
44
45
44
43

X2
16
14
15
13
13
14
16
16
15
15

Y
29
24
27
25
26
28
30
28
28
27

3. Seleccione el men Estadsticas.


4. Seleccione el men Regresin.
5. Hacer clic en Regresin.
6. Cuando aparezca el cuadro de dilogo Regresin:
Ingresar C3 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Predictores.
Ingresar C2 en el cuadro Predictores.
Hacer clic en el cuadro de Grficas.
7. Cuando aparezca el cuadro de dilogo Regresin-Grficas:
Hacer clic en al botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos vs ajustes.
Hacer clic en el cuadro Residuos vs las variables:
Ingresar X1 en el cuadro Residuos vs las variables.
Ingresar X2 en el cuadro Residuos vs las variables.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Resultados.
8. Cuando aparezca el cuadro de dilogo Regresin-Resultados:
Hacer clic en el botn Ecuacin de regresin, tabla de coeficientes, s,
R-cuadrado y anlisis bsico de varianza.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Almacenamiento.
9. Cuando aparezca el cuadro de dilogo Regresin-Almacenamiento:
Hacer clic en el cuadro Residuos.
Hacer clic en el cuadro Ajuste.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede aprovechar
seleccionando las opciones que desee.
20

Lic. Vicente Snchez y Ramrez


Regresin mltiple
________________________________________________________________________________________

21

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

3. DISEO DE EXPERIMENTOS
3.1 Introduccin.

El diseo de experimentos est basado en el mtodo cientfico que nos permite


entender y mejorar los procesos, mediante la bsqueda planeada de los factores
que afectan las variables que mejor representan el proceso.
Un experimento es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada de un proceso o sistema, de manera que sea
posible identificar y cuantificar las causas de los cambios en la variable de salida.
Entre los objetivos del experimento pueden citarse:
1. Determinar cules variables tienen mayor influencia en la variable de salida.

2. Determinar el nivel de las variables de entrada al que se


obtiene el nivel deseado de las variables de salida.
3. Determinar el nivel de las variables de entrada al que se
obtiene la menor variabilidad en las variables de salida.
4. Determinar el nivel de las variables de entrada al que
minimicen los efectos de las variables de ruido o
incontrolables.
Dentro de las aplicaciones inmediatas al emplear un diseo experimental, por citar
algunas tenemos: Aumento de la produccin, disminucin de los costos de produccin,
mejorar la calidad de los equipos, verificar si las lneas de produccin trabajan al
mismo ritmo as como reducir los niveles de contaminacin en los procesos
industriales.
La unidad contempla los trminos ms comunes empleados en el tema de diseos
experimentales, as como consejos prcticos en la instalacin de un experimento.

3.2 Trminos ms comunes utilizados en diseo de experimentos.


Unidad experimental.
Divisin ms pequea de material a la que el tratamiento es aplicado. El efecto de
tratamiento es evaluado en la unidad de muestreo, que puede ser una muestra
aleatoria de unidades experimentales, o corresponder a una sola unidad experimental.
1

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Factores, tratamientos o variables independientes.


Son las variables de entrada en un experimento, cuyo efecto se quiere determinar
sobre la variable de respuesta. Tienen las caractersticas de ser medibles, controlables
y de influencia muy pronunciada en la variable de respuesta.
Variables de respuesta.
Son las variables de salida en un experimento. Dentro de las caractersticas que se
desean en una variable de respuesta son:
1. Debe expresarse en unidades apropiadas.
2. Debe reflejar una cantidad o calidad de inters en la unidad experimental.
3. Debe estar asociada con un blanco o condicin deseable (lo que motiva el
experimento).
4. Preferentemente obtenida por mtodos no destructivos o que daen las unidades
experimentales, de tal forma que mediciones repetidas puedan ser hechas.
5. No deben estar cerca de un lmite natural.
6. Debe tener varianza constante.
Repeticin.
Aplicacin de un tratamiento de manera independiente a cada unidad experimental.
Variables controlables.
Son aquellas cuyos efectos no son de inters en el experimento, por lo que se
mantienen constantes, para no tener factores extraos que distorsionen los resultados.
Variables incontrolables (factores superfluos)

No son de inters primario en el experimento. Si no es medible y se considera que


influye sobre la variable de respuesta, puede llegar a ser un factor de riesgo
experimental. Tales factores pueden inflar el error experimental o sesgar los
resultados.
Si es medible, y puede seleccionarse el nivel en cada unidad experimental, entonces
el bloqueo puede ser apropiado. Por el contrario, si es medible, pero los niveles no
pueden ser seleccionados, entonces los factores superfluos llegan a ser una
covariable.
2

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

3.3 Clasificacin de los factores o tratamientos de acuerdo a sus niveles.


Factor cualitativo:

Factores cuyos niveles no pueden ser arreglados en orden de magnitud. Los cuales
pueden presentarse sin estructura (ejemplo, se comparan tres variedades de trigo)
y con estructura (ejemplo, se comparan cinco tipos de lavadoras donde dos son
de fabricacin nacional y tres de fabricacin extranjera). El inters en estos
factores se centra en comparacin de medias.
Factor cuantitativo:
Factores cuyos niveles estn asociados con puntos en una escala numrica. Pudiendo
ser estos igualmente espaciados o equidistantes (ejemplo se comparan cuatro
concentraciones e nitrgeno 0, 5, 10 y 15%), o no equidistantes (ejemplo se
comparan tres concentraciones de madera dura (5, 10 y 20%). El inters es la relacin
de los niveles de factor con la variable de respuesta.

Dentro de los principios generales para la seleccin prctica de niveles tenemos:


1. Es necesario saber que clase de modelo es apropiado para el anlisis de
resultados y ser capaz de definir el rango de niveles de factor para los cuales el
modelo es vlido.
2. Los niveles seleccionados pueden cubrir el rango mximo de los niveles del factor
para los que el supuesto modelo se considera que es apropiado.
3. El nmero de niveles debe ser igual al nmero de parmetros en el modelo que se
va a ajustar o uno ms.
En la prctica modelos de ms de cuatro parmetros para un factor singular no son
informativos, y el nmero de niveles para un factor cuantitativo debe casi
invariablemente ser de tres o cuatro. En general deben ser igualmente repetidos.

3.4 Repeticin y error experimental.


La repeticin de un tratamiento consiste en aplicar de nuevo este tratamiento a otra
unidad experimental. As si tenemos r repeticiones de un tratamiento, esto indica que
dicho tratamiento ha sido aplicado independientemente a r unidades experimentales.
La principal funcin de la repeticin es proporcionar un estimador de error
experimental, el cual surge de las variables no controladas (variables de ruido) o en la
falta de uniformidad en la conduccin fsica del experimento.

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

El nmero de repeticiones a utilizar en un experimento depende de: La precisin, entre


mayor precisin se requiera ms repeticiones deben utilizarse. El presupuesto, entre
mayor sea el nmero de repeticiones ms caro es el costo del experimento. En la
prctica por lo general se emplean de cuatro a nueve repeticiones.
El error experimental es evaluado a travs de los residuales, cuyo patrn refleja la
consistencia de los efectos del tratamiento. Un tratamiento con residuos muy
pequeos muestra efectos muy similares en todas las repeticiones, en tanto que aquel
con grandes residuos tiene efectos discrepantes en las unidades experimentales. As,
el error debe ser interpretado como una medida de consistencia.
3.5 Criterios para buenos diseos experimentales.
1. El anlisis resultante del diseo debe proporcionar informacin no ambigua de los
objetivos primarios
del experimento. El diseo debe conducir a estimadores
insesgados.
2. El modelo y sus suposiciones deben ser apropiadas para el material experimental.
La tcnica empleada para el anlisis de un experimento, se conoce como anlisis de
varianza (ANOVA) y est diseada especficamente para probar si las medias de ms
de dos poblaciones son iguales o diferentes. Consiste en partir la suma de cuadrados
del total de un experimento, en varias partes, para decidir si o no ciertos factores
introducidos en el diseo experimental producen resultados significativamente
diferentes en la variable de entrada.
3. El diseo debe proporcionar mxima informacin con respecto a los objetivos
principales del experimento por mnima cantidad de esfuerzo experimental.
4. El diseo debe proporcionar algo de informacin con respecto a todos los objetivos
del experimento.
5. El diseo debe tener posibilidad dentro de las condiciones de trabajo del
experimentador.
3.6 Consejos prcticos para la instalacin de un experimento.
1.

Comprensin y planteamiento del problema.

Es necesario desarrollar todas las ideas sobre los objetivos del experimento. Suele ser
importante solicitar la opinin de todas las partes implicadas: cuerpo tcnico,
aseguramiento de la calidad, manufactura, divisin comercial, direccin, clientes y
personal operativo (quienes normalmente saben mucho del asunto pero son con
demasiada frecuencia ignorados).
2. Eleccin de factores y niveles.

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

El experimentador debe considerar los factores que variarn en el experimento, los


intervalos de dicha variacin y los niveles especficos a los cuales se har el
experimento.
3. Seleccin de la variable de respuesta.
Al seleccionar la respuesta o variable dependiente, el experimentador debe estar
seguro de que la respuesta que se va a medir realmente provea informacin til
acerca del proceso del estudio.

4. Eleccin del diseo experimental.


Si los tres pasos anteriores se han seguido de manera correcta, este cuarto paso es
relativamente fcil. Para elegir el diseo es necesario considerar el tamao muestral
(nmero de repeticiones), seleccionar un orden adecuado para los ensayos
experimentales, y determinar si hay implicado bloqueo u otras restricciones de
aleatorizacin.
5. Realizacin del experimento.
Cuando se realiza el experimento, es vital vigilar el proceso para estar seguro que
todo se haga bajo lo planeado. En esta fase, los errores en el procedimiento suelen
anular la validez experimental.
6. Anlisis de datos.
Deben emplearse mtodos estadsticos para analizar los datos de modo que los
resultados y conclusiones sean objetivos ms que apreciativos.
7.

Conclusiones y recomendaciones.

Una vez que se han analizado los datos, el experimentador debe extraer conclusiones
prcticas de los resultados y recomendar un curso de accin. En esta fase a menudo
son tiles los mtodos grficos, en especial al presentar los resultados a otras
personas.
El siguiente esquema representa un experimento, el cual no es ms que un proceso
en el que intervienen diferentes tipos de variables.

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

VARIABLES DE INVESTIGACIN

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

VARIABLES
CONTROLABLES

PROCESO
VARIABLES
INDEPENDIENTES

UNIDADES
EXPERIMENTALES
HOMOGNEAS

VARIABLES DE
RESPUESTA

VARIABLES
INCONTROLABLES

4. DISEO COMPLETAMENTE AL AZAR


4.1 Introduccin.

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Un diseo completamente azarizado, es un modelo en el cual los tratamientos son


asignados completamente al azar a las unidades experimentales o viceversa, donde
las unidades experimentales deben ser lo ms homogneo posible.
El anlisis puede realizarse con variables de salida obtenidas de un diseo controlado
o de muestras aleatorias de poblaciones.
Debido a su simplicidad el diseo completamente al azar es usado ampliamente. Sin
embargo el investigador debe ser cauteloso de que su uso debe limitarse a casos en
los cuales se dispone de unidades experimentales homogneas.

Dentro de las ventajas de este tipo de diseo estn:

1. Permite flexibilidad completa; puede usarse cualquier


nmero de tratamientos o repeticiones; puede variarse a
voluntad el nmero de repeticiones de un tratamiento a
otro; todo el material experimental disponible puede
utilizarse.
2. El anlisis estadstico es fcil an cuando los errores
experimentales difieren de un tratamiento a otro.
3. An cuando los datos de algunas unidades o algunos
tratamientos completos se hayan perdido, o se rechacen por
alguna causa, el anlisis sigue siendo fcil.
La objecin principal de los diseos completamente al azar estriba en su grado de
precisin, ya que la aleatorizacin no se restringe en ninguna forma para asegurar
que las unidades que reciben un tratamiento sean similares a aquellas que reciben
otro tratamiento. Toda la variacin que existe entre las unidades experimentales pasa
a formar parte del error experimental.
En esta unidad se contempla: Ejemplos de instalacin de diferentes tipos de
experimentos, planteamiento de hiptesis de trabajo, anlisis de varianza para un
experimento balanceado y desbalanceado as como anlisis residual para validar el
modelo.
4.2 Ejemplos de la instalacin de experimentos completamente al azar.
Ejemplo 1. Se desean probar tres tipos diferentes de hormonas para determinar el
aumento de peso en las ovejas, adems se decide tener un testigo (control) o sea que
dispone de cuatro tratamientos (A, B, C y D), y se cuenta con 16 grupos de ovejas.

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Numeramos del 1 al 16 los grupos de ovejas y con el auxilio de la calculadora


cientfica o con la tabla de nmeros aleatorios seleccionamos cuatro nmeros al azar
entre 01 y 16, suponga que son 14, 13, 02 y 08 a estos grupos de ovejas se les asigna
el tratamiento A. Nuevamente se seleccionan otros cuatro nmeros sin considerar
los que ya salieron a stos se les asigna el tratamiento B y as sucesivamente.

Ejemplo 2. Se desean probar cuatro niveles de concentracin de madera dura: 5,


10, 15 y 20%, para la elaboracin de bolsas de papel para envasar comestibles.
Para el caso se dispone de seis bolsas para cada tratamiento, las que se realizaron
en una planta piloto. Las 24 bolsas se numeran del 01 al 24 y en forma
completamente al azar se mide la resistencia de cada una de ellas en un probador
de tensin.
Ejemplo 3. Se desean probar tres variedades de alfalfa ms un testigo: V 1, V2, V3, T
(cuatro tratamientos). Para el caso se dispone de 18 parcelas relativamente
homogneas y se desea tener ms informacin de la variedad primera.
Una manera como puede resolverse este problema es asignando cuatro parcelas
completamente al azar a las variedades V2, V3, y T, mientras que a la variedad V 1 se le
asignarn seis parcelas de manera aleatoria.
4.3 Prueba de hiptesis en el anlisis de varianza (ANOVA).
Si i denota la media de la i-sima poblacin y 2 indica la varianza comn de las t
poblaciones, podemos expresar cada observacin yij como i ms el efecto del
tratamiento ms el valor de un componente aleatorio; es decir podemos escribir el
modelo de la manera siguiente:
yij i ij

Para

i = 1, 2,..., t tratamientos

j = 1, 2,..., r repeticiones

La hiptesis a probar de acuerdo al modelo anterior es:


H0: 1 = 2
= . . .=t
H1: i j para alguna i , j
Tambin pueden formularse hiptesis de acuerdo al tratamiento:
H0: t1 = t 2 = . . . = t t
H1: t i t j
para i , j

Otra manera de plantear las hiptesis son:


H0: No existe diferencia entre tratamientos.
H1: Si existe diferencia entre tratamientos.
9

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Una manera ms de plantearlas es:


H0: Los tratamientos son iguales.
H1: Al menos dos tratamientos son diferentes.

4.4 Suposiciones en que se basa el ANOVA en un diseo completamente al


azar.
Para probar las hiptesis de que las muestras se obtuvieron de k poblaciones
normales con medias iguales, el ANOVA parte de las siguientes suposiciones:
1. Los efectos de tratamientos y del error son aditivos.
yij i ij

2. En relacin a los residuos (errores) tenemos:


a). ij son variables aleatorias con media igual a cero.
b). ij se distribuyen normalmente.
c). ij son independientes ( o sea que entre error y error hay independencia).
d). Los errores tienen una varianza comn. V ( ij ) = 2 para todo i , j
3. Las varianzas de los tratamientos son estadsticamente iguales. Esto puede
comprobarse mediante la prueba de Bartett para homogeneidad de varianzas, en
caso de que las varianzas sean diferentes, entonces la transformacin de los datos a
logartmos es lo ms recomendable.
4. La variable de salida (datos) se distribuyen de manera normal.
En la prctica nunca se est seguro de que todas estas suposiciones se cumplen, si
una o ms de estas suposiciones no se satisfacen, se ve afectado el nivel de
significancia y la sensibilidad de la prueba F o t.
Esto trae como consecuencia el rechazo de la hiptesis H 0 cuando sta es cierta, o
sea se determinan ms diferencias no existentes entre tratamientos.

Si el experimentador piensa estar usando 5%, en realidad el nivel que est


empleando es del 7 u 8%.
En los casos donde se detecten este tipo de anomalas, se pueden utilizar las
siguientes medidas para su correccin.
Bajar el nivel de significancia (2.5 o 3%) para que la prueba sea ms o menos al
5%, los otros procedimientos son bsicamente la transformacin de los datos
originales de acuerdo a las suposiciones que no se cumplen.

10

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

La transformacin de las variables juega un papel muy importante en el cumplimiento


de estas suposiciones. Por ejemplo si se tienen datos en porcentaje, stos no se
distribuyen normalmente lo ms conveniente es transformarlos a arcoseno, si los
datos que se analizan son pequeos con decimales, lo ms recomendable es
transformarlos a raz cuadrada y si la variable analizada es un cociente de variables se
recomienda la transformacin a logaritmos, y el anlisis se realiza como si fueran
datos originales.

4.5 Ejemplo de ANOVA en un diseo completamente al azar.


El anlisis de varianza est diseado para probar si las medias de dos o ms
poblaciones son iguales estadsticamente. El anlisis pude realizarse con
datos obtenidos bajo un diseo experimental o con muestras de diferentes
poblaciones.
La tcnica consiste partir la suma de cuadrados de la variable de salida en
varias partes, para decidir, si o no, ciertos factores introducidos en el
experimento producen resultados significativamente diferentes en la variable
de entrada.
La prueba se basa en el cociente de dos varianzas, si el cociente es cercano a
uno las medias poblacionales son iguales, cuanto ms difiere de uno, mayor es
la probabilidad de que las medias poblacionales sean diferentes.
Si los resultados de un experimento completamente aleatorio nos dan los siguientes
valores, el anlisis estadstico se procede como se muestra a continuacin:

Tratamientos
T1

I
y11

II
y12

T2

y21

.
.
.
Tt
Total
yij

Repeticiones:
III

y13

...

r
y1r

y22

y23

...

y2r

.
.
.
yt1

.
.
.
yt2

.
.
.
yt3

...

.
.
.
ytr

Y1

Y 2

Y 3

...

Y r

i = 1, 2, , t tratamientos

Total

Promedio

Y1
Y2

y1
y2

.
.
.

.
.
.

Yt
Y

yt
y

j = 1, 2, , r repeticiones

11

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Yi

Se suma sobre j

Yi yij

j 1

Y j

Se suma sobre i

Y j yij

i 1

Suma de totales

i 1

y
j 1

ij

El anlisis de varianza para este tipo de modelo se presenta en la tabla siguiente:

Fuente de

Suma de

variacin

Grados de

cuadrados
t

Y
i 1

2
i

Tratamientos

Cuadrado

libertad

medio

S .C.Trat .
G.L.Trat

Y2

rt

t-1

C .M .Trat .
C .M .error

Error Exptal.

S .C .Tot . S .C .Trat .

t (r - 1)

Total

Y2
Y

rt
i 1 j 1

rt - 1

2
ij

S .C.error
G.L.error

Para decidir si los tratamientos son iguales o diferentes estadsticamente, se saca


la probabilidad de tener una F igual a la obtenida en el ANOVA. Si su
probabilidad es menor a 5% se rechaza H0 (los tratamientos son iguales) y se
acepta H1 (los tratamientos son diferentes).
Ejemplo 1. El departamento de Ingeniera de productos, llev a cabo un
experimento para probar la resistencia de bolsas de papel para envasar
12

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

comestibles. Dicho experimento se realiz con cuatro niveles de concentracin de


madera dura 5, 10, 15 y 20% con seis repeticiones para cada tratamiento. Los
resultados de las pruebas en un probador de tensin de laboratorio son los
siguientes expresados en libras por pulgada cuadrada (psi).

C
D
A
C
A
D

14
22
8
17
9
20

D
A
C
B
B
C

19
7
19
18
19
18

B
C
A
A
D
A

Pruebe la hiptesis H 0 : A B C D

12
18
15
11
18
10

D
B
B
D
C
B

25
17
13
23
16
15

a un nivel de significancia del 5%.

Primero ordenamos los datos como se muestra a continuacin.

RESISTENCIA A LA TENSIN DE LAS BOLSAS DE PAPEL (psi).


Repeticiones
Tratamientos
A = 5%
B = 10%
C = 15%
D = 20%
Total

I
7
12
14
19
52

II
8
17
18
25
68

III
15
13
19
22
69

IV
11
18
17
23
69

V
9
19
16
18
62

VI
10
15
18
20
63

Total
60
94
102
127
383

Promedio
10.00
15.67
17.00
21.17
15.96

Las sumas de cuadrados se obtienen de la siguiente manera:


Factor de correccin =

FC Y2 / rt

= 3832/6 (4) = 6112.04


4

2
Suma de cuadrados totales = SCT yij FC
i 1 j 1

= 72 + 82 ++ 182 + 202 FC:


= 6625 - 6112.04 = 512.96

13

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
4

Suma de cuadrados de tratamiento =

i 1

2
i

/ r FC

= (602 + 942 ++1272) / 6 FC.


= (38969 / 6) - 6112.04 = 382.79

Suma de cuadrados del error = SCT - SC Trat.


= 512.96 - 382.79 = 130.17
Las sumas de cuadrados obtenidas se concentran en la tabla siguiente para su
anlisis.

ANLISIS DE VARIANZA DE LA RESISTENCIA A LA TENSIN DEL


PAPEL.
Fuente de variacin
Tratamientos

Error experimental
Total

Suma de
cuadrados
382.79

Grados de
libertad
3

Cuadrado
medio
127.60

130.17
512.96

20
23

6.51
22.30

F
19.6

Para decidir si los tratamientos son iguales o diferentes, se obtiene la probabilidad de


tener una F = 19.6 de la tabla F de Fisher. Si la probabilidad de tener una F igual a la
de la muestra es menor al 5 % se rechaza la hiptesis H0.
La manera como se busca la probabilidad en la tabla F es: localizar en la parte
superior de la tabla los grados de libertad para el numerador, en nuestro ejemplo
v1
= 3: posteriormente se busca en la parte izquierda de la tabla los grados de libertad
para el denominador, en nuestro caso v 2 = 20. Donde se intercepten imaginariamente
v1 y v2 se localiza el valor de F de tablas a un cierto nivel . En nuestro caso es:
v1 = 3
v2
20

= 0.10
2.38

= 0.05
3.10

= 0.01
4.94

Aqu se puede ver que el valor de F = 19.6 se encuentra a la derecha de 4.94 por lo
que le corresponde una probabilidad menor a 0.01.
Puesto que la probabilidad de obtener por azar una F = 19.6 es menor a 5%,
H 0 : A B C D y aceptamos la hiptesis alterna
rechazamos la hiptesis
H 1 : i j , con lo que se puede concluir que los promedios de las resistencias de las
bolsas de papel (tratamientos) son diferentes estadsticamente.

14

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

En la prctica una manera de concluir lo anterior, es mediante la comparacin de la F


del anlisis de varianza contra una F de tablas a un nivel = 0.05 con v1 y v2 grados
de libertad. Si la F calculada es mayor que la F de tablas, se concluye que existe
diferencia significativa entre los promedios de los tratamientos.
En nuestro caso podemos observar que F = 19.6 es mayor que F 0.05, (3, 20) = 3.10, por lo
que podemos concluir que los tratamientos son diferentes estadsticamente.
4.6 Anlisis residual y validacin del modelo.
En el anlisis de varianza se supone que las observaciones se distribuyen de manera
normal y que las varianzas de los tratamientos son iguales, as mismo que los
residuos se distribuyen normalmente, son independientes y con promedio cero.
Estas suposiciones deben verificarse examinando los residuos, los cuales los
definimos como:

eij yij yi

O sea la diferencia entre el valor observado y su

correspondiente promedio de tratamiento.


Para comprobar la suposicin de varianzas iguales, se grafican los residuos contra el
promedio de tratamiento

yi

(tambien conocido como valor ajustado), la variabilidad

en los residuos no debe depender de ningn momento del valor de

yi .Tambin es

til grafican los residuos contra los tratamientos para comparar la dispersin de los
residuos y ver si se cumplen sus supuestos.
Cuando aparece un patrn en estas grficas, suele indicar la necesidad de una
transformacin, es decir, analizar los datos bajo una mtrica diferente. Por ejemplo si
la variabilidad en los residuos aumenta con

yi

entonces debe hacerse

transformacin logartmica o yij , si los datos estn en porcentaje se recomienda la


transformacin arcoseno, si los valores que se analizan son pequeos debe
emplearse la transformacin a raz cuadrada y si los valores son el resultado de un
cociente de variables estos deben transformarse a logaritmos.
La suposicin de independencia puede verificarse graficando los residuos contra el
tiempo u orden en el que se ejecut el experimento. Un patrn en estas grficas, tal
como la secuencia de residuos positivos y negativos, puede indicar que las
observaciones no son independientes; esto sugiere que el tiempo u orden de la serie
es importante, y no se han incluido en el diseo del experimento.
Continuando con el ejemplo que nos ocupa, obtengamos los residuos para el
experimento de la resistencia a la tensin del papel.
RESIDUOS PARA EL EXPERIMENTO DE RESISTENCIA A LA TENSIN.
Concentracin de

Repeticiones
15

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

madera dura
A = 5%
B = 10%
C = 15%
D = 20%

I
-3.00
-3.67
-3.00
-2.17

II
-2.00
1.33
1.00
3.83

III
5.00
-2.67
2.00
0.83

IV
1.00
2.33
0.00
1.83

V
-1.00
3.33
-1.00
-3.17

VI
0.00
-0.67
1.00
-1.17

La grfica de probabilidad normal de los residuos es:


GRFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS

99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-5,0

-2,5

0,0
Residuo

2,5

5,0

Puede observarse que no hay anormalidad en la grfica, por lo tanto el supuesto de


normalidad de la variable de salida ( y ij ) se cumple.
Una manera prctica para saber si los datos se distribuyen normalmente es mediante
la obtencin del coeficiente de variacin,

CV CME (100) / y

Donde CME es el

cuadrado medio del error del anlisis de varianza de los datos.


Un criterio prctico que indica normalidad en los datos, es cuando el coeficiente de
variacin toma los siguientes valores:
0 a 10% muy confiable la normalidad.
10 a 20% confiable la normalidad.
20 a 30% poco confiable la normalidad.
Ms de 30% no confiable la normalidad.
En nuestro ejemplo el coeficiente de variacin es
nos indica que la normalidad es confiable.

CV

6.51(100) / 15.96 16% ,

lo que

La grfica de residuos contra tratamientos es:

16

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

GRFICA DE RESIDUOS CONTRA TRATAMIENTOS.

En esta grfica se observa que no hay un patrn definido, por lo que podemos decir
que existe independencia entre los errores (no hay tendencia entre ellos), adems de
que el promedio de los residuos es cero (existe igual nmero de residuos positivos
como negativos)
En la grfica de residuos contra los promedios de tratamientos, se observa que no
existe tendencia definida, es decir, la variabilidad de los residuos no aumenta
conforme crece y ij , por lo que podemos concluir que las varianzas son iguales para
cada tratamiento. Como las grficas no muestran en ningn momento falta de
adecuacin del modelo ni algn problema con los supuestos, podemos concluir que
los resultados que da el modelo son vlidos.

GRAFICA DE RESIDUOS CONTRA PROMEDIOS


vs. ajustes
(la respuesta es Resp.)
5
4
3
Residuo

2
1
0
-1
-2
-3
-4
10

12

14

16
Valor ajustado

18

20

22

17

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

4.7 Anlisis de varianza en un diseo completamente al azar desbalanceado.


Hay ocasiones en el que el nmero de parcelas experimentales no alcanza para que
todos los tratamientos tengan igual nmero de repeticiones, o nos interesa ms
informacin en particular sobre un determinado tratamiento, o tenemos la necesidad
de comparar muestras tomadas de diferentes poblaciones.
Un experimento se puede desbalancear por la prdida de una unidad experimental,
por causas ajenas al efecto del tratamiento como robo, ataque de una plaga o
enfermedad, descuido, etc.
Tambin se desbalancea un experimento cuando un tratamiento presenta ms
variabilidad que los otros, aqu es recomendable utilizar ms repeticiones para este
tratamiento.
Ejemplo. Como parte de la investigacin del derrumbe del techo de un edificio, un
laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero
en tres distintas posiciones del techo. Las fuerzas requeridas para cortar cada uno
de los pernos en psi son los siguientes:

Posicin
Posicin
Posicin

1
2
3

90
105
83

82
89
89

79
93
80

98
104
94

83
89

91
95

86

Efecte el ANOVA para probar con un nivel de significancia de 0.05, si las diferencias
entre las medias muestrales en las tres posiciones son significativas.
Las hiptesis planteadas son: H0: 1 = 2 = 3 vs

H1: las i no son iguales.

Los datos ordenados para su anlisis se presentan a continuacin:


FUERZAS REQUERIDAS PARA CORTAR LOS PERNOS

Repeticiones
Tratamientos
Posicin 1
Posicin 2
Posicin 3
Total

1
90
105
83
278

2
82
89
89
260

3
79
93
80
252

4
98
104
94
296

5
83
89

6
91
95

7
86

172

186

86

Total
523
661
346
1530

Promedio
87.2
94.4
86.5

Los clculos para la suma de cuadrados son los siguientes:


Factor de correccin = 15302 / 17 = 137700.

18

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

S. C. Totales = 138638 137700 = 938.


S. C. Tratamientos = (5232 / 6) + (6612 / 7) + (3462 / 4) FC. = 234.45.
S. C. Error experimental = 938 234.45 = 703.55.

El anlisis de varianza se presenta en la siguiente tabla:


ANOVA DE LA RESISTENCIA A LA TENSIN DE PERNOS
Fuente de variacin

Tratamientos
Error experimental
Total

Suma de
cuadrados
234.45
703.55
938.00

Grados de
libertad
2
14
16

Cuadrado
medio
117.22
50.25

F
2.33

Las probabilidad de tener una F = 2.33 para un = 0.05 con v1 = 2 y v2 = 14 grados de


libertad, se presentan a continuacin.
v1 = 2
= 0.10
2.73

v2
14

= 0.05
3.74

= 0.01
6.51

Puede apreciarse que la probabilidad de tener una F = 2.33 es mayor al 0.10, o lo que
es lo mismo es mayor a 0.05, por lo tanto se acepta la hiptesis H0 y se concluye que
la resistencia promedio de los pernos en las tres distintas posiciones, es la misma
estadsticamente.
Apndice 4.1 Empleo del software Minitab en el anlisis de un diseo
completamente al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis
residual, tomaremos el experimento para probar la resistencia de bolsas de papel
para envasar comestibles. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamiento y en C2 Respuesta.
2. La manera como puede ser concentrada la variable de salida y los tratamientos en
la hoja de clculo es:
1
2
3

Tratamiento
A
A
A

Respuesta
7
8
15
19

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

4
5
6
4
.
.
.
24

A
A
A
B
.
.
.
D

11
9
10
12
.
.
.
20

3. Seleccione el men Estadsticas.


4. Seleccione ANOVA.
5. Hacer clic en Un solo factor.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza-Un solo factor:
Ingresar C2 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Factor.
Hacer clic en el cuadro Almacenar residuos.
Hacer clic en Grficas.
7. Cuando aparezca el cuadro de dilogo Anlisis de varianza-Un solo factorGrficas:
Hacer clic en el botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos contra ajustes.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.

5. PRUEBAS DE COMPARACIN DE MEDIAS


5.1 Introduccin.
Cuando se efecta el anlisis de varianza de un experimento, es con la finalidad de
probar la hiptesis de igualdad de medias de los tratamientos (1 = 2, = = t).
La prueba de anlisis de varianza se basa en el cociente de dos varianzas, si el
cociente es cercano a uno implica evidencia suficiente para inferir que las medias de
los tratamientos son iguales. Cuanto ms difiera de uno la evidencia indica que los
promedios de los tratamientos no pertenecen a una poblacin con una misma media
, sin embargo esto no nos indica que parejas de medias pueden considerarse
estadsticamente iguales.

20

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

En estadstica existen diferentes metodologas para separar en grupos iguales


(estadsticamente) los promedios de los tratamientos, al declarar significancia, o no,
entre pares de medias de tratamientos.
Las pruebas estudiadas en este tema son: Diferencia mnima significativa, prueba de
rango mltiple Duncan, prueba de Student Neyman Keuls Test, prueba de Tukey, as
como contrastes ortogonales.

5.2 Diferencia Mnima Significativa (D. M. S.).


Esta prueba no debe utilizarse a menos que la F del ANOVA sea significativa.
Estrictamente hablando la DMS solo debe utilizarse para comparar medias
adyacentes en un arreglo ordenado (medias dispuestas por orden de magnitud).
Cuando esta prueba se usa de manera indiscriminada para probar todas las
posibles diferencias entre diversas medias, ciertas diferencias sern significativas,
pero no en el nivel de significancia que hemos escogido.
En vez de efectuarse el nivel del 5% las comparaciones entre medias con una
separacin mayor de dos en un arreglo ordenado, se realizar en un nivel de
significacin ms bajo.
Para determinar la diferencia estadstica entre medias de tratamientos, se calcula un
valor llamado DMS. Si la diferencia de los promedios de tratamientos es mayor a este
valor, entonces los tratamientos sern diferentes.
En el caso general de un diseo completamente al azar con t tratamientos y r
repeticiones por tratamiento, la DMS se calcula por:

S A B

2S

/ r (t t ( r 1), / 2 )

Donde:
S2 = cuadrado medio del error del ANOVA.
r = nmero de repeticiones.
t = t de Student con los grados de libertad del error, un cierto nivel
deseado, en una prueba bilateral.

Ejemplo: Los siguientes datos corresponden a la resistencia en libras por pulgada


cuadrada de bolsas de papel en dos niveles de concentracin de madera dura.
Repeticiones:
Tratamiento

Total

Promedio

21

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

15

11

50

10.0

12
19

17
25

13
28

18
29

19
28

79
129

15.8

=
5
%
B =10%
Total

Su anlisis de varianza correspondiente es el siguiente.


Fuente de
variacin

T
ratami
ento
Error experimental
Total

Suma de
cuadrados
84.1

Grados de
libertad
1

Cuadrado
medio
84.10

78.8
162.9

8
9

9.85

Como la P (F = 8.53) < 5% se rechaza


tratamientos son diferentes.

F
8.53

H 0 : A B y se concluye que los

Dado que se encontraron diferencias entre tratamientos, para aplicar la prueba


DMS lo primero que tenemos de hacer es calcular el error estndar de la
diferencia de medias de la siguiente manera:
S A B S 2 ( 2) / r =

9.85(2) / 5

= 1.985

Calculemos ahora la DMS con un nivel de significancia del 5%, por lo que debemos
obtener primero el valor de t de tablas con tt ( r 1), / 2 , que en nuestro caso es:
t 2 ( 5 1), 0.05 / 2 t8, 0.025 2.306 . Por lo tanto nuestra DMS ser:

DMS : 1.985(2.306) = 4.577

Regla de decisin:
S | A - B | 4.577 se rechaza H0
En nuestro caso la diferencia de medias en valor absoluto es:
|10 15.8| = | 5.8 |, dado que 5.8 es 4.577 se rechaza H0, lo que nos indica que la
media del tratamiento B es mayor estadsticamente a la media del tratamiento A. Esta
prueba es totalmente vlida cuando se tienen dos tratamientos.

22

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Cuando se tiene un experimento desbalanceado el clculo del error estndar de la


diferencia de medias se modifica a:
S A B S 2 / rA S 2 / rB

La prueba t cuando las repeticiones son iguales o diferentes es:

( x A xB ) 0
S A B

El utilizar la prueba t para comparar ms de dos medias de tratamientos es muy


riesgoso, ya que produce gran distorsin en el error tipo I. Por ejemplo, supongamos
que se desea probar la igualdad de cinco medias usando comparaciones por pares,
existen diez posibles comparaciones, y si la probabilidad de aceptar correctamente la
hiptesis nula en cada prueba es 1 = 0.951, entonces la probabilidad de aceptar
correctamente la hiptesis nula en los 10 pares es (0.95) 10 = 0.60, si stas son
independientes. Es as como se produce un incremento sustancial del error tipo I.

5.3 Prueba de Rango Mltiple Duncan.


Esta prueba es una de las ms utilizadas entre las diversas pruebas de rango
mltiple disponibles. La prueba es similar a la DMS para medias adyacente de un
arreglo ordenado, pero requiere valores progresivamente mayores para la
significacin entre medias, en la medida en que stas se encuentran ms
ampliamente separadas en el arreglo. Para esta prueba no es necesario calcular el
valor F y proceder solo si este es significativo, el investigador puede usarla
independientemente de la significacin de F. Los pasos para su aplicacin son:
1. Obtencin del error estndar de la media de tratamientos.

Sx S 2 / r
Donde:
S2 = cuadrado medio del error del ANOVA.
r = nmero de repeticiones.

2. Obtener de la tabla de DUNCAN los rangos estudentizados significativos, t -1


valores que llamamos RESi i = 2,3,....,t, de acuerdo con un nivel de significacin
requerido y con los grados de libertad del error.
3. Cada uno de los valores RESi se multiplican por S x , obteniendo los rangos
mnimos significativos RMSi = RESi S x .
23

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

4. Se ordenan los promedios de los tratamientos en orden


creciente y se comparan entre si.
5. Si las diferencias de los tratamientos son mayores que la RMS i , entonces se
rechaza la hiptesis H0 : i = j
Ejemplo: Tomemos los valores del ANOVA sobre la resistencia de las bolsas de papel
para envasar comestibles, donde se tienen r = 6 repeticiones, CME = 6.51, GLE = 20 y
con promedios de los tratamientos de: x A 10 , xB 15.67 , xC 17 y xD 21.17 . La
prueba se realizar con un nivel de significacin = 0.05.

1. Obtencin del error estndar de la media de tratamientos.


Sx

6.51 / 6 1.0416

2. Obtencin del RESi, con 20 grados de libertad del error y un = 0.05 de la tabla de
Duncan.
2
2.95

3
3.10

4
3.18

2
3.07

3
3.23

4
3.31

3. Clculo de los RMSi

4. Ordenamiento de los promedios de los tratamientos de menor a mayor.


A
10.0

B
15.67

C
17.0

D
21.17

5. Diferencias de medias y comparacin contra su correspondiente RMS i

D - A = 21.17 10.00 = 11.17 vs 3.31


D - B = 21.17 15.67 = 5.50 vs 3.23
D - C = 21.17 17.00 = 4.17 vs 3.07
C - A = 17.0 10.00
C - B = 17.0 15.67

= 7.00 vs 3.23
= 1.33 vs 3.07 =

B - A = 15.67 10.00 = 5.67 vs 3.07


Los tratamientos son diferentes.
24

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

= Los tratamientos son iguales.

Grficamente los tratamientos que son iguales estadsticamente son:


A
_______
c
c

B
C
________________
b
b

D
_______
a
a

En funcin de la variable evaluada (resistencia de las bolsas), el ordenamiento de los


mejores tratamientos en el reporte se hace del mejor al peor, en nuestro caso el mejor
tratamiento es D con una resistencia promedio de 21.17 psi, por lo cual le asignamos
la primera letra (a). No debe olvidarse que para un estudio ms completo debe
contemplarse el anlisis econmico de los tratamientos as como su anlisis residual.
CLASIFICACIN DE TRATAMIENTOS SEGN PRUEBA DE DUNCAN.
Tratamientos
D = 20%
C = 15%
B = 10%
A = 5%

Resistencia promedio Significacin estadstica (1)


en psi.
21.17
a
17.00
b
15.67
b
10.00
c

(1) = Los tratamientos con la misma letra son estadsticamente iguales con una
probabilidad del 95%.
De manera resumida, la prueba nos dice que el tratamiento D es superior
estadsticamente a todos los dems, que le siguen C y B que pueden considerarse
equivalentes, y que ambos son superiores al tratamiento A.
Finalmente solo nos queda decir que la bolsa que se recomienda para envasar
comestibles, es la que tiene una concentracin de 20% de madera dura que es el
tratamiento D.
Para los casos donde se tengan dos o ms tratamientos estadsticamente iguales
como los mejores, se recomienda recurrir al anlisis econmico y recomendar el ms
barato, as como recurrir a las grficas del anlisis residual para recomendar aquel
tratamiento que presente menor variabilidad dentro del grupo de los que son iguales.
Nota: Para el caso de un experimento desbalanceado, se sugiere que el valor
empleado para el clculo de S x sea sustituido por:
rh

t
t

1 / r
i 1

25

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Donde t = t de Student a un nivel utilizado en la prueba con los grados de libertad


del error.

5.4 Prueba de Student Neyman Keuls Test.


Esta prueba es semejante a la de Duncan pero ms estricta y al igual que ella ordena
las medias en orden creciente, pero es menos estricta que la prueba de Tukey; su
procedimiento es como sigue.
1. Primero se calcula el error estndar de la media.

Sx

/r

Donde:
S 2 cuadrado medio del error del ANOVA.

r = nmero de repeticiones.
2. Se extraen t - 1 valores de la tabla de porcentaje mximo del rango
estudentizado (tabla de Student Neyman), estos valores son:
q , i, g

Donde:
= nivel de significancia.
i = 2,....., t
g = grados de libertad del error.
3. Obtencin de los rangos mnimos significativos W i
Wi q , i, g S x

4. Se ordenan las medias de tratamiento de menor a mayor y se comparan entre ellas. Si


la diferencia entre dos medias es mayor que el valor W i, entonces se rechaza la hiptesis
H0: i = j
Ejemplo. Considerando los resultados de un experimento donde la variable evaluada fue
la resistencia de una fibra textil para la manufactura de camisas, compuestos por 5
porcentajes de algodn (tratamientos) y 5 repeticiones. El ANOVA dio una S 2 = 8.06 con
20 grados de libertad para el error; siendo los promedios de los tratamientos los
siguientes:

15

9.8,

20

15.4.

25

17.6,

30

21.6 y

35

10.8

1. Calculemos S x 8.06 / 5 1.2696

26

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
2. Obtencin de q , i, g con un = 0.05, 5 tratamientos y 20 grados de libertad para el

error, que lo indicamos por q (0.05,5,20)


Newman.

y lo obtenemos de la tabla de Student

2
2.95

3
3.58

4
3.96

5
4.23

2
3.74

3
4.55

4
5.03

5
5.37

3. Clculo de Wi

4. Ordenamiento de los promedios de tratamientos de menor a mayor.

35

15

9.8

10.8

20

15.4

25

17.6

30

21.6

5. Diferencias de medias y comparaciones contra su correspondiente W i

30
30
30
30

15
35
20
25

=
=
=
=

21.6
21.6
21.6
21.6

- 9.8 = 11.8 vs 5.37


- 10.8 = 10.8 vs 5.03
- 15.4 = 6.2 vs 4.55
- 17.6 = 4.0 vs 3.74

25 - 15 = 17.6 - 9.8 = 7.8 vs 5.03


25 - 35 = 17.6 - 10.8 = 6.8 vs 4.55
25 - 20 = 17.6 - 15.4 = 2.2 vs 3. 74 =
20 - 15 = 15.4 - 9.8 =
20 - 35 = 15.4 - 10.8 =

5.6 vs 4.55
4.6 vs 3.74

35 - 15 = 10.8 - 9.8 =

1.0 vs 3.74 =

Los tratamientos son diferentes.


= Los tratamientos son iguales.

Visto en una grfica los tratamientos que son estadsticamente iguales para su
formacin de grupos es:

15

35

20

25

30
27

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
c

En funcin de la variable evaluada, los mejores tratamientos se presentan a


continuacin.
CLASIFICACIN DE TRATAMIENTO SEGN PRUEBA DE S. NEYMAN.
Porcentaje de algodn

Resistencia promedio
de la fibra

30
25
20
35
15

21.6
17.6
15.4
10.8
9.8

=
=
=
=
=

30%
25%
20%
35%
15%

Significacin
estadstica
(1)
a
b
b
c
c

(1) = los tratamientos con la misma letra son estadsticamente iguales al nivel
indicado.
La prueba nos indica que el tratamiento que tiene el 30% de algodn es
significativamente superior a todos los dems, le siguen los tratamientos con 20 y
25% que son equivalentes estadsticamente y al final se ubican los tratamientos
con 35 y 15% de algodn que son iguales matemticamente pero inferiores a
todos los dems.
Por lo tanto el tratamiento recomendable en este caso es el que contiene el 30% de
algodn.
5.5 Prueba de Tukey.
Esta prueba es tambin conocida como diferencia mnima significativa honesta
(DMSH). Es similar a la prueba DMS, en el hecho de que se utiliza un solo valor para
juzgar la diferencia entre las medias de los tratamientos.
El fundamento primordial de esta prueba es tratar de asegurar no cometer el error
tipo I (pero no detecta diferencias que si pueden ser).
Esta prueba es ms estricta que la de Duncan y la de Student Neyman en el sentido de
que declara menos diferencias significativas. La prueba consiste en:

28

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

1. Clculo del error estndar de la media.

Sx S 2 / r
2. Obtencin del valor q , t , g en la misma tabla para la prueba de Student Neyman,
donde:
Donde:

= nivel de significacin.

t = nmero de tratamientos.

g = grados de libertad del error.


3. Clculo del valor Wt = q , t , g S x
4. Ordenamiento de los promedios de tratamientos y comparacin entre ellos.
5. La diferencia entre dos medias se compara con el valor Wt ; si esta diferencia es
mayor que Wt , indica que los tratamientos son diferentes.
Ejemplo. Considere el mismo experimento de la aplicacin de diferentes porcentajes
de algodn para la manufactura de camisas, donde se tienen 5 tratamientos, 5
repeticiones, 20 grados de libertad del error y 8.06 de cuadrado medio del error.
Realice la prueba con un = 0.05

1. Clculo de error estndar de la media.


Sx

8.06 / 5 1.2696

2. Obtenga el valor q (0.05, 5, 20) = 4.23


3. El clculo de W5 = 4.23 (1.2696) = 5.37
4. Ordenamiento de los promedios de tratamientos.

15

9.8

35

20

25

30

10.8

15.4

17.6

21.6

5. Diferencias de medias y su comparacin contra W 5

30 15 21.6 9.80 11.8 vs 5.37

30 35 21.6 10.8 10.8 vs 5.37

29

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

30 20 21.6 15.4 6.20 vs 5.37


30 25 21.6 17.6 4.00 vs 5.37

25 15 17.6 9.80 7.80 vs 5.37

25 35 17.6 10.8 6.80 vs 5.37


25 20 17.6 15.4 2.20 vs 5.37

20 15 15.4 9.80 5.60 vs 5.37


20 35 15.4 10.8 4.60 vs 5.37

35 15 10.8 9.80 1.00 vs 5.37

Los tratamientos son diferentes.


= Los tratamientos son iguales.
Ordenando y graficando los tratamiento en funcin de la variable evaluada, para determinar los
grupos que son estadsticamente iguales tenemos.

35

15

20

25
a

b
c
d

30
a

b
c

CLASIFICACIN DE TRATAMIENTO SEGN PRUEBA DE TUKEY


Porcentaje de algodn

Resistencia promedio
de la fibra

30
25
20
35
15

21.6
17.6
15.4
10.8
9.8

= 30%
= 25%
= 20%
= 35%
= 15%

(1) = Los tratamientos con la misma letra


indicado.

Significacin
estadstica
(1)
a
ab
bc
cd
d

son estadsticamente iguales el nivel

30

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

5.6 Contrastes ortogonales.


Los contrastes ortogonales deben ser planeados antes de llevar a cabo el
experimento. Esto involucra la particin de los grados de libertad y la suma de
cuadrados para los tratamientos en comparaciones componentes. Los cuales pueden
consistir en comparaciones de clase o de tendencia.
Los tratamientos hbilmente son seleccionados para que puedan responder a tantas
preguntas como grados de libertad existan en tratamientos. Esta prueba puede
realizare aun cuando no exista diferencia significativa entre tratamientos.
Dentro de las principales ventajas que presentan son:
1. Permite responder preguntas especficas sobre los efectos del tratamiento.
2. Los clculos son sencillos.
3. Suministra un til control en la suma de cuadrados de tratamientos.
Como desventaja podemos citar que solo se puede aplicar en experimentos
balanceados.
Lo que hacen los contrastes es: comparar un grupo de tratamientos que se parecen
entre s contra otro grupo de tratamientos que son semejantes, pero diferentes al
primer grupo.
Un contraste es una combinacin lineal de los totales de tratamientos, y se representa
por:
t

C CiTi
i 1

Donde:
Ci = coeficiente de los tratamientos
Ti = total del tratamiento.
t

Donde la suma de los coeficientes de esa combinacin lineal debe ser cero.

C
i 1

En un contraste siempre se tendrn signos positivos y negativos, y lo que se va a


comparar son los contrastes con signo positivo contra los que tienen signo negativo.
Dos contrastes con coeficientes C i y di son ortogonales si la suma de su producto da
cero.
t

C d
i 1

Esto nos indica que los contrastes son independientes y sus efectos son separados.

31

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

La suma de cuadrados de cualquier contraste se calcula de la siguiente manera y


tiene asociado un solo grado de libertad.

SC (Ci )

C T

i i

i 1

r Ci2
i 1

Dentro de las principales aplicaciones de los contrastes tenemos:


1. Comparacin de medias. Algo acerca de la naturaleza de los tratamientos debe
sugerir que comparaciones sern de inters.
2. Ajuste de polinomios ortogonales. Para factores cuantitativos cuyos niveles
estn igualmente espaciados, los contrastes se aplican para identificar
tendencias en los tratamientos.
Ejemplo. La resistencia a la tensin de cierto sello de corcho, muestra la siguiente
variacin bajo cuatro condiciones de produccin, A, B, C y D. Los resultados por
unidad experimental aparecen en resistencia en libras por pulgada cuadrada.

RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO


Tratamien
to
A
B
C
D
Total

Repeticiones:
3
4

3.8
4.2
3.8
3.5
15.3

4.1
4.2
3.9
3.7
15.9

4.0
4.4
3.7
3.6
15.7

3.8
4.3
3.8
3.7
15.6

Total

Promedio

15.7
17.1
15.2
14.5
62.5

3.92
4.27
3.80
3.63

El anlisis de varianza general para este experimento se presenta en la tabla


siguiente:
ANOVA DE LA RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Tratamiento
Error

0.906875
0.1425

3
12

0.302292
0.011875

25.46

32

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Total

1.049375

15

Dado que los grados de libertad para tratamiento en el ANOVA son tres, por lo tanto
los contrastes que podemos formar tambin son tres.
Para realizar las comparaciones se recomienda ordenar los totales de los tratamientos
de menor a mayor, para poder hacer los grupos de tratamientos que sern
comparados.
D
14.5

C
15.2

A
15.7

B
17.1

Puede observarse que el grupo de tratamientos D, C y A se parecen entre s, pero


son diferentes al grupo B; as mismo dentro del primer grupo el tratamiento D casi no
se parece al grupo C y A; el ltimo grupo a comparar ser el C vs A. Por lo tanto los
contrastes a realizar son: DCA vs B, D vs CA y C vs A.
La tabla de coeficientes (Ci) para las comparaciones, la realizamos mediante la
elaboracin de los contrastes, de la manera siguiente:
Primer contraste. (D, C, A) vs (B)
Cuntos tratamientos tienen el primer grupo?

Tres.

Cuntos tratamientos tiene el segundo grupo? Uno.


Este valor (3) se puede simplificar igual que el del otro grupo (1)? No.
Ahora el coeficiente de un grupo pasa a ser coeficiente del otro grupo y viceversa,
concentrndose en una tabla como se muestra ms adelante.
A los coeficientes de cualquier grupo se les pone signo negativo, de tal manera que
t

se cumpla

C
i 1

Segundo contraste. (D) vs (C, A)


Nos hacemos las mismas preguntas que se hicieron en el primer contraste y
obtenemos sus coeficientes que son: 1 y 2. As mismo se cambian los coeficientes por
grupo y se le asigna signo negativo a uno de ellos.
Dado que solo participan los tratamientos D, C y A, al tratamiento B se le pone cero
en la tabla de coeficientes.
Tercer contraste. (C) vs (A)

33

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

C vs A
1

1
TABLA DE COEFICIENTES Ci
Totales por tratamiento
D
C
14.5
15.2
-1
-1
-2
1
0
-1

Comparaciones
(D, C, A) vs B
D vs (C, A)
C vs A

A
15.7
-1
1
1

B
17.1
3
0
0

Ya realizada la tabla, verificamos si son ortogonales los contrastes, esto es verificar


t

si se cumple

C d
i

i 1

Primer contraste vs segundo contraste.

(D, C, A) vs (B)

(D vs C, A)

(-1) (-2) + (-1) (1) + (-1) (1) + (3) (0) = 0

Esto nos indica que los contrastes son independientes y sus efectos son
separados.
Primer contraste vs tercer contraste.
(D, C, A) vs (B)

(C vs A)

(-1) (0) + (-1) (-1) + (-1) (1) + (3) (0) = 0


Segundo contraste vs tercer contraste.

(D vs C, A) y (C vs A)
(-2) (0) + (1) (-1) + (1) (1) + (0) (0) = 0
Aqu se planearon tres contrastes que coinciden con los grados de libertad de
los tratamientos.

34

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

La suma de cuadrados para los contrastes se obtiene de la siguiente forma:

SC (C i )

C T
i 1
t

i i

r C i2
i 1

Suma de cuadrados para el primer contraste.


4

C T = (-1)(14.5)+(-1)(15.2)+(-1)(15.7)+(3)(17.1) = 5.9
i

i i
4

2
i

i 1

= (-1) 2 + (-1)

+ (-1) 2 + (3) 2 = 12

SC (C1) = (5.9) 2 / 4(12) = 0.725208333


Segundo contraste:
4

C T
i 1
4

2
i

= (-2) 2 + (1) 2 + (1)2 = 6

C
i 1

= (-2)(14.5)+(1)(15.2)+(1)(15.7)+(0)(17.1) = 1.9

SC (C2)= (1.9) 2 / 4(6) = 0.150416666


Tercer contraste:
4

C T
i 1
4

C
i 1

2
i

= (0)(14.5)+(-1)(15.2)+(1)(15.7)+(0)(17.1) = 0.5

= (-1)2 + (1)2 = 2

SC (C3)= 0.5 2 / 4(2)= 0.03125

Puede observarse que la suma de cuadrados de los contrastes es idntica a la suma


de cuadrados de tratamientos obtenida en el ANOVA anterior, esto nos garantiza
que los cuadrados de los contrastes fueron bien calculados. El nuevo anlisis de
varianza incluyendo contrastes se presenta en la siguiente tabla.
ANOVA DE LA RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO
Fuente de

Suma de

Grados de

Cuadrado

F
35

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

variacin
Tratamientos
(D, C, A) vs (B)
D vs

(C, A)

C vs A
Error
Total

cuadrados
0.90687499
9
0.72520833
3
0.15041666
6
0.03125
0.1425
1.049375

libertad
3

medio

0.725208333

61.1

0.150416666 12.7

1
12
15

0.03125
0.011875

2.6

Como P (F = 61.1) es menor a 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se


acepta la hiptesis alterna, con lo que se concluye que en base a la evidencia
experimental los grupos de tratamientos son diferentes.
Como P (F = 12.7) es menor a 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se
acepta la hiptesis H1, concluyendo que los grupos de tratamientos son diferentes.
Como P (F = 2.6) es mayor a 0.10 (mayor a 5%), se acepta la hiptesis H 0 y se
concluye que los grupos de tratamientos son estadsticamente iguales.
Grficamente los tratamientos con sus correspondientes
estadsticamente son iguales se muestran a continuacin:

D
3.63

C
3.80

A
3.92

que

B
4.27
a

promedios

Dado que la variable analizada es la resistencia a la tensin de cierto sello de corcho,


por lo tanto el ordenamiento del mejor tratamiento se empieza con el tratamiento B,
como se muestra a continuacin:
CLASIFICACIN DE TRATAMIENTOS SEGN CONTRASTES ORTOGONALES
Tratamiento
B
A
C
D

Resistencia promedio a la
tensin en psi.
4.27
3.92
3.80
3.63

Significacin estadstica
(1)
a
b
b
c

36

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

(1) = Los tratamientos con la misma letra son estadsticamente iguales.


En resumen el experimento nos indica que el tratamiento B es estadsticamente
superior a todos los dems, le siguen el A y C que son equivalentes, pero superiores al
tratamiento D que quedo en ultimo lugar, por lo que el tratamiento a recomendar es el
B.
A manera de resumen de las pruebas de rango y contrastes ortogonales se presenta
el siguiente esquema, el cual indica la mejor prueba que deber realizarse segn los
tipos de factores a investigar.

RESUMEN DE PRUEBAS A REALIZAR SEGN


LOS TIPOS DE FACTORES

EXPERIMENTO

FACTORES
CUALITATIVOS

NIVELES CON
ESTRUCTURA

NIVELES SIN
ESTRUCTURA

FACTORES
CUANTITATIVOS

IGUALMENTE
ESPACIADOS O
EQUIDISTANTES

NO
EQUIDISTANTES

37

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

CONTRASTES
ORTOGONALES

PRUEBA DE
RANGO
MLTIPLE

CONTRASTES
ORTOGONALES

REGRESIN

38

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

6. DISEO DE BLOQUES AL AZAR


6.1 Introduccin.
Es uno de los diseos ms utilizados. Mejora la precisin de comparaciones entre tratamientos, al
eliminar la variabilidad entre unidades experimentales en diferentes bloques.

Un bloque es un conjunto de unidades experimentales homogneas para probar los


tratamientos. La homogeneidad debe ser relativa a caractersticas de las unidades
experimentales que influyen fuertemente sobre la variable de respuesta.
La variacin entre bloques debe ser grande para que el diseo sea realmente eficiente en comparacin
con el diseo completamente aleatorio. Si no hay variacin entre bloques el diseo completamente al
azar es el ms apropiado.
El mecanismo de distribucin de los tratamientos debe ser completamente al azar y de manera
independiente dentro de cada bloque. El bloque funciona como una variable de control, no se pueden
probar hiptesis en los bloques ya que no existen repeticiones en los bloques.
En todo caso su interpretacin puede ser: si la F de bloques es mayor que uno, indica que se gan
eficiencia contra el diseo completamente aleatorio, y si es menor que uno quiere decir que no se gan
mucha eficiencia.
Dentro de esta unidad se contemplan los subtemas siguientes: Ventajas de este diseo, anlisis
estadstico, validacin del modelo y estimacin de datos perdidos.
6.2 Ventajas del diseo de bloques al azar.

1. Se obtienen resultados ms exactos que cuando se utiliza


el diseo completamente aleatorio.
2. Pueden incluirse cualquier nmero de repeticiones y
tratamientos. Si se
desean repeticiones adicionales para
algunos tratamientos, cada uno de estos puede aplicarse a
dos unidades dentro de cada bloque.
3. El anlisis estadstico es fcil. Cuando se pierden algunas
unidades experimentales, stas se pueden calcular por la
tcnica de parcelas perdidas desarrollada por Yates.
4. Ningn otro diseo es utilizado tan frecuentemente en las reas de investigacin como el de bloques
al azar.
6.3 Ejemplos de la instalacin de experimentos en bloques al azar.
Ejemplo 1. Se van a comparar seis variedades de avena (A, B, C, D, E, F) con respecto a su
rendimiento, disponindose de 30 parcelas experimentales y se observa evidencia que existe tendencia

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
en la fertilidad de norte a sur. De acuerdo con esto parece razonable agrupar a las parcelas en cinco
grupos de seis parcelas por bloque.
As en el primer bloque estarn las seis parcelas ms frtiles y en el ltimo bloque las seis parcelas
menos frtiles. Una vez hecho esto, las seis variedades se asignan de manera aleatoria en el primer
bloque, posteriormente se aleatorizan en el segundo bloque y as sucesivamente en los dems bloques.
Ejemplo 2. Se van a probar 10 raciones de alimento para la engorda de ganado, para la investigacin
se dispone de 40 toros de la misma raza pero con diversos pesos, aqu es recomendable hacer 40 /10 =
4 grupos o bloques de 10 animales cada uno tomando en cuenta su peso. As los toretes ms pesados
se agruparn en un bloque, los menos pesados en otro y as sucesivamente.
Los 10 tratamientos (raciones) se asignan de manera aleatoria en el primer bloque, posteriormente en
el segundo y as sucesivamente.
Ejemplo 3. Se desea determinar si cuatro diferentes puntas (tratamientos) producen una diferencia en
las lecturas de un equipo para medir la dureza. La mquina funciona presionando la punta sobre una
lmina de metal y determinando la dureza de la punta a partir de la profundidad de la marca que se
produce. Sabemos que las lminas son ligeramente diferentes en cuanto a dureza ya que provienen de
diferentes vaciados.
Para la prueba se dispone de cuatro lminas, por lo que una lmina ser considerada como un bloque y
en cada una de ellas el investigador debe probar cada una de las cuatro puntas de manera aleatoria,
con lo que tendr 16 unidades experimentales.
Puede observarse en cada ejemplo que la variabilidad dentro de cada bloque es chica, mientras que la
variabilidad entre bloques es grande, o sea que un bloque nos sirve como una unidad de control.
6.4 Anlisis estadstico.
Suponga que se tiene t tratamientos (que deben ser comparados) y b bloques, donde se realiza una
observacin por tratamiento en cada bloque y el orden en que los tratamientos son medidos en cada
bloque se determina aleatoriamente. El modelo estadstico para este diseo es:
yij i j ij
i = 1, 2,..., t tratamientos

Donde

es una media general,

i es

j = 1, 2,..., b bloques

el efecto del i-simo tratamiento ,

es el efecto de j-simo

bloque y ij es el trmino usual N(0; ) de error aleatorio. Por lo que un diseo de bloques al azar lo
podemos representar por:

Tratamientos
1

y11

Bloques:
2

Total

Promedio

y12

y1b

y 21

y 22

y2b

Y1
Y2

y1
y 2

y31

y32

y3b

Y3

y 3

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.
2

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
t
. . .
yt 1
yt 2
ytb
t
t
Total
.
.
.
Yb
Y1
Y 2

Y
Y

y
y

Las sumas de cuadrados para las fuentes de variacin son:


2

Factor de correccin = FC = Y.. / bt


t

S. C. Totales

y FC
2

ij

i 1 j 1

S. C. Tratamientos

i.

i 1

b
b

S. C. Bloques

2
.j

j 1

FC

FC

S. C. Error = S. C. Totales S. C. Tratamientos S. C. Bloques.

Estas sumas de cuadrados se concentran en la siguiente tabla para su anlisis de varianza (ANOVA).

Fuente de
variacin

Suma de
cuadrados

2
i

i 1

Tratamientos
b

Bloques

Y
j 1

t
Error Exptal.

2
.j

Y2

bt
Y2

bt

Grados de
libertad

Cuadrado
medio

S .C.Trat .
G.L.Trat

C .M .Trat .
C .M .error

t-1
b-1

S .C.Bloq.
G.L.bloq

S .C.Tot . S .C.Trat . S .C.Blo. (b -1) (t -1)

C.M .Bloq.
C.M .error

S .C.error
G.L.error
3

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

Y2
Y

bt
i 1 j 1
t

Total

2
ij

bt - 1

Si la probabilidad de tener una F igual a la del ANOVA es menor a 5% se rechaza la hiptesis H 0: los
tratamientos son iguales y se acepta la hiptesis H1: al menos un tratamiento es diferente.
Ejemplo. Se efectu un experimento para determinar el efecto de cuatro diferentes compuestos
qumicos en la resistencia de una fibra. Estos compuestos se emplearon como parte del proceso de
acabado de planchado permanente. Se seleccionaron cinco muestras de fibra de diferentes lotes de
produccin (bloques), y en cada muestra se probaron los cuatro compuestos qumicos en forma
aleatoria, los resultados se presentan en libras por pulgada cuadrada (psi) en la siguiente tabla.
Bloques
1
2
3
4
5

B
C
D
D
B

Tratamientos
D 3.9
A 1.6
A 0.5
C 1.5
A 1.1

2.2
1.7
2.0
4.1
1.8

C
D
B
B
C

1.8
4.4
0.4
2.0
1.3

A
B
C
A
D

1.3
2.4
0.6
1.2
3.4

Lo primero que tenemos que hacer es organizar los datos como lo muestra el siguiente cuadro.

RESISTENCIA DE LA FIBRA DE CUATRO COMPUESTOS QUMICOS


Tratamientos
A
B
C
D
Total
y j

1
1.3
2.2
1.8
3.9
9.2
2.3

Bloques:
3
0.5
0.4
0.6
2.0
3.5
0.88

2
1.6
2.4
1.7
4.4
10.1
2.53

4
1.2
2.0
1.5
4.1
8.8
2.2

5
1.1
1.8
1.3
3.4
7.6
1.9

Total

yi

5.7
8.8
6.9
17.8
39.2

1.14
1.76
1.38
3.56
1.96

Las sumas de cuadrados para el anlisis de varianza (ANOVA) se obtienen de la siguiente manera:
Factor de correccin =

Y2 / bt = 39.2
4

S. C. Totales

y
i 1 j 1

S. C. Tratamientos

Y
i 1

2
i.

2
ij

/ 5(4) = 76.83

FC 102.52 76.83 25.69

FC

474.38
76.83 18.04
5

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
5

S. C. Bloques

Y
j 1

t
S. C. Error

2
.j

FC

334.1
76.83 6.69
4

= S. C. Totales S. C. Tratamientos S. C. Bloques


= 25.69 18.04 6.69 = 0.96

La tabla del anlisis de varianza se presenta a continuacin.


ANOVA DE LA RESISTENCIA DE LA FIBRA
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total

Suma de
cuadrados
18.04
6.69
0.96
25.69

Grados de libertad

Cuadrado medio

3
4
12
19

6.01
1.67
0.08

75.13
20.87

Para decidir si existe diferencia significativa entre los compuestos qumicos, se obtiene la probabilidad
de tener una F = 75.13 de la tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra
es menor al 5% se rechaza la hiptesis H0: los tratamientos son iguales y se acepta la hiptesis
alterna H1: al menos un tratamiento es diferente.
La manera como se busca la probabilidad en la tabla F es: localizar en la parte superior de la tabla los
grados de libertad para el numerador de la razn F que se tienen en el ANOVA, en nuestro caso v 1 = 3;
posteriormente se busca en la parte izquierda de la tabla los grados de libertad del denominador, en
nuestro ejemplo
v2 = 12. Donde se intercepten v1 y v2 se localiza el valor de F esperada en el
anlisis a cierto nivel de . En nuestro caso son:
v1 =
v2
12

= 0.10
2.61

3
= 0.05
3.49

= 0.01
5.95

Se puede ver que el valor de F = 75.13 se encuentra a la derecha de 5.95 por lo que le corresponde una
probabilidad menor a 0.01. Puesto que la probabilidad de que se hubiese obtenido por mero azar una F
= 75.13 es menor al 5%, rechazamos la hiptesis nula (H0: 1 = 2 =. . . = y se acepta la hiptesis
alterna
(H1: i j para alguna i , j) , con lo que se puede concluir que existe
diferencia altamente significativa en cuanto a resistencia en psi se refiere de los compuestos qumicos,
o sea los tratamientos son diferentes.
En el ANOVA se observa que la F calculada para bloques fue mayor que uno, en nuestro caso es de
20.87. Esto nos indica que al haber utilizado el diseo de bloques al azar para probar el efecto de los
tratamientos, se logr ganar eficiencia ante el diseo completamente al azar, es decir, que se realiz un
buen bloqueo.
El error experimental lo construyen la interaccin entre bloques y tratamientos. Por lo que no debe
existir interaccin entre estas dos fuentes de variacin. O lo que es lo mismo, si el tratamiento A es
bueno en el bloque uno, as debe ser en los dems bloques. Si se presenta interaccin, los datos deben
ser analizados bajo otra mtrica (transformarlos).

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
Los resultados de la prueba Duncan se muestran a continuacin, as como la agrupacin de los
promedios de tratamientos.
A

2
b

b
c

yi .

4
a

La clasificacin de los mejores tratamientos se presenta en la tabla siguiente.


CLASIFICACIN DE TRATAMIENTOS SEGN PRUEBA DE DUNCAN
Compuestos qumicos
D
B
C
A

Resistencia promedio de la
fibra en psi.
3.45
1.76
1.38
1.14

Significacin estadstica
a
b
bc
c

La prueba nos indica que el tratamiento D es superior estadsticamente a todos los dems, le siguen B y
C que pueden considerarse equivalentes, pero C es semejante matemticamente a A.
Para este caso el compuesto qumico a recomendar es el tratamiento D, por lograr dar mayor
resistencia a la fibra.
6.5 Anlisis residual y verificacin del modelo.
Los supuestos en que se basa el anlisis de varianza para dar al modelo como vlido son:
a)
b)
c)
d)
e)

Las varianzas de los tratamientos son iguales.


Las varianzas de los bloques son iguales.
No existe interaccin entre bloques y tratamientos.
Los errores (residuos) son aleatorios con media igual a cero.
La variable de salida se distribuye normalmente.

Con el fin de verificar los supuestos del ANOVA antes citados, iniciaremos por calcular los residuos as
como los valores ajustados, con el fin de poder realizar las grficas correspondientes.
Los residuos para el diseo de bloques al azar son justo la diferencia entre los valores observados ( yij
ij ), y se define por:
) y los ajustados ( y

eij yij y ij
Mientras que los valores ajustados son:
y ij yi . y. j y..
As el residuo e11 que corresponde al tratamiento A del primer bloque, en el ejemplo de la comparacin
de los cuatro compuestos qumicos es:

e11 y11 y 11
6

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
Donde y11 y1. y.1 y.. 1.14 2.3 1.96 1.48
Por lo tanto

e11 1.3 1.48 0.18

ij )
El valor ajustado ( y
representa la estimacin de la respuesta media cuando se ejecuta el
tratamiento i-simo en el bloque j-simo. Los dems residuos se obtendrn de manera anloga, los
cuales aparecen en la siguiente tabla.
RESIDUOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A
B
C
D

1
-0.18
0.10
0.08
0.00

2
-0.11
0.07
-0.24
0.27

Bloques:
3
0.44
-0.27
0.30
-0.48

4
-0.18
0.00
-0.12
0.30

5
0.02
0.10
-0.02
-0.10

Si graficamos los residuos contra los tratamientos y bloques podemos apreciar que:
En la primera grfica de residuos contra tratamientos, el tipo de compuesto D que proporciona la
resistencia ms grande, presenta variabilidad un poco mayor en cuanto a resistencia.
As mismo en esta grfica se puede apreciar que no existe un patrn definido en los residuos, por lo que
podemos decir que el supuesto de igualdad de varianzas en los tratamientos se cumple. En igual
forma se puede apreciar que los residuos son aleatorios y con promedio de cero.

En la segunda grfica de residuos contra bloques se observa que en la muestra de


fibra (bloque 3) existe mayor variabilidad en la resistencia cuando se trata con los
cuatro componentes qumicos que las otras muestras.
As mismo se puede apreciar que no existe un patrn definido en esta grfica, lo
anterior nos indica que el supuesto de igualdad de varianzas en los bloques se
cumple, por lo tanto los resultados obtenidos por el ANOVA son vlidos.
Cuando aparece un patrn en alguna de las grficas, por lo general suele indicar la necesidad de una
transformacin de los datos originales, esto es, analizar la variable de salida en una mtrica diferente.

0.5
0.3

GRFICA DE RESIDUOS CONTRA TRATAMIENTOS

0.1
0
-0.1

-0.3
7

-0.5

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________

GRFICA DE RESIDUOS CONTRA BLOQUES

Residuos vs. Bloques


(la respuesta es Respuesta)
0,50

Residuo

0,25

0,00

-0,25

-0,50
1

3
Bloques

Es recomendable realizar una grfica de residuos contra y (valores ajustados)


para probar la interaccin de tratamientos y bloques. Si la grfica resultante
presenta la forma de curva, esto nos sugiere que existe interaccin, si esto
sucede, debe usarse alguna transformacin de los datos originales. y volver a
realizar el ANOVA y las pruebas de rango, pero ahora con los nuevos valores.
ij

El cuadro siguiente muestra los valores ajustados para cada uno de los tratamientos en los diferentes
bloques.
VALORES AJUSTADOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A

1
1.48

2
1.71

Bloques:
3
0.06

4
1.38

5
1.08
8

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
B
2.10
2.33
0.68
2.00
1.70
C
1.72
1.95
0.30
1.62
1.32
D
3.90
4.13
2.48
3.80
3.50
Si relacionamos los valores de los residuos obtenidos con anterioridad en el eje y con los valores
ajustados del cuadro anterior en el eje x, obtenemos la siguiente grfica:

ij
GRFICA DE eij CONTRA y

0.6

0.4

0.2

ij

0
0

0.5

1.5

2.5

3.5

4.5

-0.2

-0.4

-0.6
Valores ajustados para la resistencia de la fibra

Como los residuos no presentan la forma de curva, podemos concluir que no existe interaccin entre
bloques y tratamientos.
La grfica que nos dice si la variable de salida se distribuye de manera normal, es la de probabilidad
normal de los residuales, que se presenta a continuacin.
GRFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-0,50

-0,25

0,00
Residuo

0,25

0,50

Puede observarse que no hay anormalidad en la grfica, por lo tanto el supuesto de normalidad de la
variable de salida ( y ij ) se cumple.
Otro indicador prctico que nos dice si la variable de salida se distribuyen de manera normal es el
coeficiente de variacin, que se simboliza por:

CV CME (100) / y
Donde CME es el cuadrado medio del error del anlisis de varianza de los datos.
Un criterio prctico que indica normalidad en los datos, es cuando el coeficiente de variacin toma los
siguientes valores:
0 a 10% muy confiable la normalidad.
10 a 20% confiable la normalidad.
20 a 30% poco confiable la normalidad.
Ms de 30% no confiable la normalidad.
En nuestro ejemplo el coeficiente de variacin es de 14.4%, lo que nos indica que la normalidad es
confiable.
CV

0.08 (100) / 1.96 14.4%

Dado que no se presentaron anomalas al realizar el anlisis residual, concluimos de manera general,
que en base a la evidencia experimental nuestro modelo utilizado para analizar la informacin es vlido.
6.6 Datos faltantes en un diseo de bloques al azar.
Muchas veces despus de haber realizado un gran esfuerzo en la planeacin y la conduccin del
experimento, nos encontramos con el problema de que se pierden parcelas experimentales. Esto es
muy comn debido a:

10

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
Un animal muere por causas ajenas al tratamiento, una parcela en el campo se inunda, nos destruyen
la informacin de una unidad experimental, un tubo de ensayo se quiebra en el laboratorio, un roedor
nos destruye una unidad experimental en la fbrica, etc. Donde todos estos acontecimientos son ajenos
a los efectos de los tratamientos.
Esto comnmente ocasiona un desbalanceo en el experimento. Si estamos en un diseo
completamente al azar no hay problema ya que se trabaja como experimento desbalanceado, pero en
un diseo bloques al azar, un dato faltante destruye usualmente el balance, ya que todos los
tratamientos deben estar en cada bloque.
Qu hacer cuando se desbalancea un experimento?

1. Falta un bloque completo. Cuando falta uno o ms bloques, el anlisis se


procede de forma normal, siempre y cuando tengamos por lo menos dos bloques.
2. Falta totalmente un tratamiento. Nuevamente el anlisis se procede
normalmente, siempre y cuando nos hayan quedado por lo menos dos
tratamientos.
3. La situacin que ocurre comnmente es la falta de una unidad
experimental. En este caso, existe un mtodo desarrollado por Yates para estimar
un dato perdido mediante el algoritmo matemtico siguiente:
yp

tT bB G
(b 1)(t 1)

Donde:
t = nmero de tratamientos.
b = nmero de bloques.
T = total del tratamiento correspondiente al dato perdido.
B = total del bloque correspondiente al dato perdido.
G = suma de todas las observaciones reales.
Para mayor precisin en la prueba de F, a la suma de cuadrado de tratamientos se le sustrae la
cantidad.

B (t 1) y
Z

t (t 1)

Donde:
B = total no corregido del bloque donde se present la observacin faltante.
El valor estimado ( y p ) se reemplaza en el lugar correspondiente y el ANOVA se realiza en la forma
usual, excepto que se sustrae un grado de libertad en el error y el total.
Tomemos el ejemplo de los datos de diferentes compuestos qumicos en la resistencia de una fibra,
suponiendo que se perdi el tratamiento A del bloque cuatro.

Tratamientos
A
B

1
1.3
2.2

2
1.6
2.4

Bloques:
3
0.5
0.4

4
2.0

5
1.1
1.8

Total
4.5
8.8
11

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
C
1.8
1.7
0.6
1.5
1.3
6.9
D
3.9
4.4
2.0
4.1
3.4
17.8
Total
9.2
10.1
3.5
7.6
7.6
38.0
Para estimar el dato perdido tenemos:

yp

tT bB G 4( 4.5) 5(7.6) 38

1.5
(b 1)(t 1)
(5 1)(4 1)

La correccin para la suma de cuadrados de tratamientos ser:

B (t 1) y
Z

t (t 1)

7.6 (4 1)1.5

4(4 1)

0.80

El valor obtenido de la parcela perdida de 1.5, es substituido en la tabla correspondiente del dato
faltante y se realiza el anlisis de varianza de la manera acostumbrada, teniendo cuidado de restarle a
la suma de cuadrados de tratamientos la correccin, que en nuestro caso es 0.80, as como restar un
grado de libertad en el error y el total.

Tratamientos
A
B
C
D
Total

1
1.3
2.2
1.8
3.9
9.2

Bloques:
3
0.5
0.4
0.6
2.0
3.5

2
1.6
2.4
1.7
4.4
10.1

4
1.5
2.0
1.5
4.1
9.1

5
1.1
1.8
1.3
3.4
7.6

Total
6.0
8.8
6.9
17.8
39.5

Las sumas de cuadrados y grados de libertad se presentan a continuacin.


S. C. Tratamientos
S. C. Tratamientos corregida
S. C. Bloques
S. C. Error
S. C. Total

=
=
=
=
=

17.566
17.566 0.8 = 16.766, con 3 g. l.
6.86 con 4 g. l.
25.32 17.56 6.86 = 0.90 con 11 g. l.
25.32 con 18 g. l.

Observe que a la suma de cuadrados del error se le rest la suma de cuadrados de tratamientos sin
corregir. El ANOVA correspondiente queda definido por:
ANOVA DE LA RESISTENCIA DE LA FIBRA
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total

Suma de
cuadrados
16.77
6.86
0.90
25.32

Grados de libertad

Cuadrado medio

3
4
11
18

5.590
1.715
0.082

68.17
20.92

6.6.1 Cuando se tiene varios datos perdidos.


12

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
Cuando en el experimento se presentan varios datos perdidos en diferentes bloques, el procedimiento
para estimarlos se presenta a continuacin:
1. Se estiman todos los datos perdidos excepto uno de ellos. Una aproximacin razonable para ellos
se puede obtener calculando

( y j yi ) / 2 .

2. El dato restante se estima siguiendo el procedimiento de cuando existe solo un dato perdido.
3. Con esta aproximacin y los valores previamente asignados, se escoge otro de los datos y
nuevamente se aproxima por la tcnica cuando existe solo un dato perdido, y as sucesivamente.
4. Despus de completar un ciclo, una segunda aproximacin se realiza para todos los valores en el
orden dado previamente. Esto se contina hasta que no existen diferencias esenciales a la
aproximacin encontrada en el ciclo previo. Usualmente dos ciclos son suficientes.
5. Los valores estimados se introducen en la tabla junto con los valores observados y el ANOVA se
efecta. Por cada dato perdido se sustrae un grado de libertad tanto al total como en el error.
6.

Para mayor precisin en la prueba F, a la S. C. de tratamientos se le sustrae la cantidad:

B (t 1) y B (t 1) y
Z
2

t (t 1)

Donde:
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 1a observacin faltante.
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 2a observacin faltante.
Ejemplo. Considere el siguiente experimento donde la variable evaluada fue el rendimiento, y en el
experimento se perdieron dos unidades experimentales (tratamientos B bloque 1 y tratamientos D
bloque 3).
RENDIMIENTO...
Tratamientos

A
B

4.4

C
D
E
F
Total

Bloques:
2

Total

ya

5.9
1.9

6.0
4.9

4.1
7.1

20.4
13.9

4.4
6.8

4.0
6.6

4.5

yb

3.1
6.4

16.0
19.8

6.3
6.4
28.3

4.9
6.3
29.6

5.9
7.7
29.0

7.1
7.7
35.5

24.2
28.1
122.4

Los clculos para la obtencin de las parcelas perdidas son:

13

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
1.
Iniciemos por calcular la primera parcela perdida yb.

yb

2.

Estimacin de ya en el primer ciclo como si se tuviera una sola parcela


perdida.

tT bB G 6(13.9) 4( 28.3) (122.4 6.2)

4.5
(b 1)(t 1)
( 4 1)(6 1)

ya
3.

Estimacin de yb en el primer ciclo.

yb
4.

tT bB G 6(19.8) 4( 29) (122.4 4.5)

7.2
(b 1)(t 1)
( 4 1)(6 1)

Estimacin de ya en el segundo ciclo.

ya
5.

(29 / 5) (19.8 / 3)
6 .2
2

tT bB G 6(13.9) 4( 28.3) (122.4 7.2)

4.47
(b 1)(t 1)
( 4 1)(6 1)

Estimacin de yb en el segundo ciclo.

yb

tT bB G 6(19.8) 4( 29) (122.4 4.47)

7.2
(b 1)(t 1)
( 4 1)(6 1)

Si nicamente tenemos dos observaciones faltantes (no en el mismo bloque) la correccin necesaria
para los sesgos en la suma de cuadrados de tratamientos es:

B (t 1) y B (t 1) y
Z
2

t (t 1)

Donde sustituyendo valores en las incgnitas correspondientes tenemos.

28.3 (6 1)4.47

29 (6 1)7.2
2.81
6(6 1)
2

Los valores estimados de y a y y b se concentra en la tabla correspondiente y se procede a la


realizacin del ANOVA.

Tratamientos

A
B
C
D

4.4
4.47
4.4
6.8

Bloques:
2
5.9
1.9
4.0
6.6

Total

6.0
4.9
4.5
7.2

4.1
7.1
3.1
6.4

20.4
18.37
16.0
27.0

14

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
E
6.3
4.9
5.9
7.1
24.2
F
6.4
6.3
7.7
7.7
28.1
Total
32.77
29.6
36.2
35.5
134.07
Las sumas de cuadrados para las fuentes de variacin son:
S. C. Tratamientos
S. C. Tratamientos corregida
S. C. Bloques
S. C. Total
S. C. Error

=
=
=
=
=

29.46
29.46 2.81 = 26.65
4.50
51.95
51.95 29.46 4.50 = 17.99

Los grados de libertad para las fuentes de variacin son:


Fuente de variacin

Grados de

libertad

Normal
5
3
15
23

Tratamientos
Bloques
Error experimental
Total

corregido
5
3
13
21

El anlisis de varianza correspondiente para el experimento donde se perdieron dos datos se presenta
a continuacin:
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total

Suma de
cuadrados
26.65
4.50
17.99
51.95

Grados de libertad

Cuadrado medio

5
3
13
21

5.33
1.50
1.38

3.86
1.09

Si faltan ms de dos observaciones, o si faltan dos observaciones en el mismo bloque, debe hacerse
correccin por sesgos o tendencias en la suma de cuadrados de tratamientos.
Apndice 6.1 Empleo del software Minitab en un diseo bloques al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para determinar el efecto de cuatro diferentes compuestos qumicos en la
resistencia de una fibra. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamientos, en C2 Bloques y en C3 Respuesta.
2. Para concentrar los tratamientos (A, B, C, D) sern utilizados nmeros en lugar de letras. La manera
como son concentrados los tratamientos, los bloques y la variable de salida en la hoja de clculo, puede
ser:
1
2
3
4
5
6
.

Tratamientos
1
1
1
1
1
2
.

Bloques
1
2
3
4
5
1
.

Respuesta
1.3
1.6
0.5
1.2
1.1
2.2
.
15

Lic. Vicente Snchez y Ramrez


Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
.
.
.
.
.
.
.
.
.
.
.
.
20
4
5
1.9
3. Seleccione el men Estadsticas.
4. Seleccione ANOVA.
5. Hacer clic en Dos factores.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factores:
Ingresar C3 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Factor de fila.
Ingresar C2 en el cuadro Factor de la columna.
Hacer clic en el cuadro Almacenar residuos.
Hacer clic en el cuadro Almacenar ajustes.
Hacer clic en Grficas.
7. Cuando aparezca el cuadro de dilogo Anlisis de varianza-de dos factoresGrficas:
Hacer clic en el botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos vs ajustes.
Hacer clic en el cuadro Residuos vs las variables.
Ingresar C2 en el cuadro Residuos vs las variables.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
En los cuadros de dilogo, MINITAB tiene otras posibilidades ms que usted puede aprovechar
seleccionando las opciones que desee.

16

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

7. ARREGLOS FACTORIALES
7.1 Introduccin.
Hasta ahora hemos estudiado experimentos simples, en los que solo se
compara un factor en diversos aspectos, es decir donde solo existe una causa
pertinente de variacin. Ahora veremos la comparacin de varios factores,
con diferentes niveles en cada uno.
Se entiende por arreglo factorial, cuando se investigan todas las
posibles combinaciones de los niveles de los factores en cada ensayo completo
o rplica del experimento.
Los factores pueden ser cualitativos o cuantitativos, los primeros son aquellos que
no pueden ser arreglados en orden de magnitud, mientras que los segundos estn
asociados con puntos en una escala numrica.
Los factores generalmente se denotan con letras maysculas y los niveles con letras minsculas o
nmeros; si hay a niveles del factor A y b niveles del factor B, entonces cada replica del experimento
contiene todas las ab combinaciones de los tratamientos.
Por ejemplo, se comparan los factores A y B, donde el factor A esta compuesto por los niveles , , , ,
y el factor B por los niveles 1, 2, 3. Por lo tanto el total de tratamientos que se tendrn son 4 x 3 = 12,
como se muestra a continuacin.
B

1
1
1
1
1

2
2
2
2
2

3
3
3
3
3

Ahora estos 12 tratamientos pueden instalarse bajo las normas de cualquier diseo experimental con n
repeticiones.

Una caracterstica importante de los arreglos factoriales es que la asignacin de


los niveles de cada uno de los factores a las unidades experimentales se puede
hacer independientemente. Sin embargo, hay ocasiones en que los niveles de uno
de los factores son inherentes a las unidades experimentales, como por ejemplo,
cuando se estudia el sexo en los animales en combinacin con otros factores.
El modelo del arreglo factorial puede ser descrito en primer trmino por el modelo
del diseo correspondiente, con el subndice de tratamientos corriendo hasta el
nmero de combinaciones de los niveles de los factores. El efecto de los
tratamientos puede ser luego desglosado en efectos principales y efectos de
1

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

interaccin bajo el modelo:


yijk i j ( )ij ijk
i = 1, 2,, a niveles del factor A.
j = 1, 2,, b niveles del factor B.
k = 1, 2,, n repeticiones por tratamiento.
El efecto i est asociado con el factor A o sea el efecto principal, donde A va a tener de 1 a a niveles;
aqu se tiene nicamente un efecto lineal.
El efecto j est asociado con el factor B que va de 1 a b niveles; aqu se estudia el efecto principal
lineal y cuadrtico.
7.2 Efecto principal de un factor.
Qu significa efecto principal? Es la ganancia o prdida al pasar de un nivel a otro. Por ejemplo
considere el arreglo siguiente.

Factor
Factor

a1

b1
20

a2

40

b2
30
52

El efecto principal del factor A podra interpretarse como la diferencia entre la respuesta promedio en el
primero y segundo nivel de ese factor, numricamente ser:

40 52 20 30

21
2
2

Lo que significa, incrementar el factor A del nivel 1 al 2, produce un cambio en la respuesta promedio de
21 unidades.
Para factores cualitativos, el efecto principal solo representa la diferencia de medias entre las categoras
probadas.
Para factores cuantitativos, el efecto principal representa el cambio en respuesta promedio al pasar del
nivel bajo al nivel alto del factor.
Si los factores aparecen con ms de dos niveles, se pueden definir comparaciones ortogonales entre
niveles del factor cualitativo; o bien, efectos lineales, cuadrticos, cbicos, etc. Entre los niveles de un
factor cuantitativo.

7.3 Efectos de interaccin.


Cuando en un experimento se investigan varios factores y uno de ellos influye sobre los efectos de otro,
se dice que existe interaccin entre estos factores. Es muy importante tener en cuenta la interaccin

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

para la interpretacin de los resultados, porque da lugar a una variacin distinta para cada factor, de la
que hubiera producido actuando por si solo.
Lo anterior significa que a la variacin ocasionada por los factores considerados, actuando
independientemente, se suma una nueva variabilidad, debido a la influencia de uno de los factores
sobre el otro.
Una interaccin es significativa cuando el efecto del factor A no es el mismo en todos los niveles del
factor B, es decir, el efecto principal de A depende del nivel de B.
A menudo la interaccin enmascara la significancia de efectos principales, por lo que la
interpretacin de esta es ms til que la de efectos principales. Por ejemplo considere el segundo
arreglo.

Factor
Factor
A

a1

b1
20

b2
40

a2

50

12

Aqu el efecto de A en el primer nivel de B es:


A = 50 20 = 30
Mientras que en el segundo nivel de B el efecto de A es:
A = 12 40 = -28
Puede observarse que hay interaccin entre los factores A y B, porque el efecto de A depende del
nivel elegido de B.
Grficamente la interaccin podemos mostrarla de la siguiente manera.
Consideremos el primer arreglo. Grafiquemos la respuesta de los niveles del factor A para ambos
niveles del factor B. Puede observarse que las rectas b1 y b2 son aproximadamente paralelas. Esto
indica que no hay interaccin entre los factores.

60
50
40

Respuesta

30
20
10

B2
B1

B2
B1
A2

A1
Factor A

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Si de manera anloga graficamos los datos del segundo arreglo, se observan que las rectas b 1 y b2 no
son paralelos. Esto indica que existe interaccin entre A y B.
60
50
40

Respuesta

30
20
10

B1

B2
B1
A1

A2

B2

Factor A

La representacin de este tipo de grficas es muy til para interpretar


interacciones significativas; sin embargo, no es la nica tcnica, porque su
interpretacin es subjetiva y su apariencia a menudo es engaosa.
7.4 Ventajas de los arreglos factoriales.

1. Son ms eficientes que los experimentos de un solo factor, ya que cada


observacin proporciona informacin acerca de cada uno de los factores por
separado y de la interaccin.
2. Un arreglo factorial es necesario cuando la interaccin de los factores es significativa.
3. Los efectos de un factor son estimados a varios niveles de los otros factores, produciendo
condiciones vlidas en un rango de condiciones experimentales.

7.5 Comparaciones mltiples en un arreglo factorial.


Cuando la interaccin es significativa, las medias pueden compararse de dos maneras.
1. Fijar uno de los factores a un nivel especfico, y aplicar la prueba de rango mltiple Duncan a las
medias de los niveles del otro factor.
2. Comparar todas las (a b) medias de tratamientos para determinar cuales difieren significativamente.
En este anlisis, diferencias entre las medias incluye efectos de interaccin as como tambin de
efectos principales.
Cuando la interaccin no es significativa, las comparaciones deben hacerse entre las medias
individuales de hileras y/o columnas (que representan las medias de los niveles de los factores en una
tabla de doble entrada) para descubrir las diferencias especficas.

7.6 Anlisis de varianza para un arreglo de dos factores.

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

El siguiente cuadro muestra un arreglo factorial con dos factores utilizando un diseo completamente al
azar, se considera el caso de n repeticiones de las combinaciones de tratamientos determinados por a
niveles del factor A y b niveles del factor B.

B
Total
A

y111
y112
.
.

y121
y122
.
.

. . .
. . .
. . .

y1b1
y1b2
.
.

y11n

y12n

T1 1.

T1 2.

. . .

T1 b.

y211
y212
.

y221
y222
.

. . .
. . .

y2b1
y2b2
.

y1bn

.
.
y21n
T2 1.

T1 ..

.
.

y22n

y2bn

T2 2.

. . .

T2 b.

.
.

.
.

.
.

ya11
ya12
.
.
.
ya1n

ya21
ya22
.
.
.
ya2n

Ta 1.

Ta 2.

Total

T.1.

T.2.

. . .

Promedio

y.1.

y.2.

. . .

y1 ..

Promedio

T2 ..

y2 ..

.
.
.

. . .
. . .

. . .

yab1
yab2
.
.
.
yabn
Ta b.
T.b.
y.b.

Ta ..

ya..

T...
y...

Donde:
T.
Ti..
Tj.
T...
y.
yi..
y.j.
y...

= suma de las observaciones en la ij-sima celda.


= suma de las observaciones para el i-simo nivel del factor A.
= suma de las observaciones para el j-simo nivel del factor B.
= suma de todas las a b n observaciones.
= media de las observaciones en la ij-sima celda.
= media de las observaciones para el i-simo nivel del factor A.
= media de las observaciones para el j-simo nivel del factor B.
= media de todas las a b n observaciones.

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Concentrando los Tij del cuadro anterior, tenemos.


B
Total
A

. . .

T11.

T12.

2
.
.
.

T21.
.
.
.

T22.
.
.
.

Ta1.

Ta2.

. . .

Tab.

Ta..

Total

T.1.

T.2.

. . .

T.b.

T...

. . .

T1b.

T1..

T2b.

T2..
.

.
.

.
.
.

El modelo al que se ajusta nuestro experimento es:


yijk i j ij ijk
Lo anterior implica que cada una de las observaciones tiene influencia de los efectos principales y de la
interaccin si es que existe.
Sobre el modelo anterior se imponen las siguientes restricciones:
a

i 0
i 1

i 0

j 0
j 1

i 1


j 1

Las tres hiptesis a ser probadas son las siguientes:


H0: 1 =

=. . .=

H1: al menos una de las


H0: 1 =

= 0

is no es igual a cero.

b = 0
H1: al menos una de las j s no es igual a cero.
=. . .=

H0: ()11 = ()12 = . . . =

()ab

= 0

H1: al menos una de las () s no es igual a cero.


Los clculos de la suma de cuadrados para la fuente de variacin de este arreglo son:
Factor de correccin

= FC

T...2
abn
6

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Suma de cuadrados totales =

2
ijk

i 1 j 1 k 1

Suma de cuadrados de A

2
i ..

i 1

FC

bn
b

Suma de cuadrados de B

2
. j.

j 1

FC

an
a

Suma de cuadrados (A B) =

FC

T
i 1 j 1

2
ij .

S .C. A. S .C .B FC

Suma de cuadrados del error = S.C.T. - S.C.A. - S.C.B. - S.C. (A B)


Estos clculos se concentran en la tabla del anlisis de varianza y se procede a su clculo de la manera
siguiente.
ANOVA PARA UN ARREGLO FACTORIAL DE DOS FACTORES
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Efecto principal
A

S.C.A.

a1

S12

S12 / S 2

B
Interaccin de
dos factores
AB

S.C.B.

b1

S 22

S 22 / S 2

(a1)(b1)

S 32

S 32 / S 2

S.C. (A B )

Error

S.C.E.

ab(n1)

Total

S.C.T.

abn1

En la tabla del anlisis de varianza,


significativa.

S2

lo primero que debe hacerse es ver si la

interaccin es

La interaccin quiere decir que a la variacin ocasionada por los factores en estudio, actuando
independientemente, se suma una nueva variabilidad, debida a la influencia de uno de los factores
sobre el otro.
Si hay evidencia de que los factores interactan, entonces dichos factores deben considerarse
conjuntamente, es decir, no se puede concluir acerca de sus efectos en forma individual.

Los efectos principales pueden ser interpretados individualmente, solo cuando


7

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

no hay evidencia de que los factores interactan.


Si los efectos principales no son significativos pero hay evidencia de
interaccin, podra ser el resultado de un encubrimiento y plantear la necesidad
de observar la influencia de cada factor en niveles fijos de otro.

7.7 Ejemplos de arreglo factorial con dos factores.

Ejemplo 1. Se llev a cabo un experimento para probar tres sistemas de misiles y


cuatro tipos diferentes de propulsores. La variable de salida fue el consumo de los
propulsores para los 12 tratamientos. En el experimento se obtuvieron dos
repeticiones de promedios de consumo en cada combinacin de tratamientos, los
datos despus de codificarse se muestran a continuacin.
PROMEDIOS DE IGNICIN DEL PROPULSOR
Sistema de
misiles

b1

Tipo de propulsor:
b2
b3

b4

a1

34.0
32.7

30.1
32.8

29.8
26.7

29.0
28.9

a2

32.0
33.2

30.2
29.8

28.7
28.1

27.6
27.8

a3

28.4
29.3

27.3
28.9

29.7
27.3

28.8
29.1

Utilice un nivel de significancia de 0.05 para probar las siguientes hiptesis:


a) H0: No existe diferencia entre los promedios de consumo de los tres diferentes misiles.
b) H0: No existe diferencia entre el promedio de consumo de los cuatro tipos de propulsor.
c) H0: No existe interaccin entre los diferentes sistemas de msiles y los diferentes tipos de
propulsor.
Hiptesis de trabajo
a) H0 :

= 0

H1 : Al menos una de las


b) H0:

H1: Al menos una de las

is no es igual a cero.
4 = 0
j s no es igual a cero.
8

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

c) H0: ()11 = ()12 = ()13 = ... = ()34 = 0

H1: Al menos una de las () s no es igual a cero.


Del primer cuadro sumamos las celdas de cada tratamiento y construimos la tabla de totales siguiente:
Sistema de
misiles

b1

Tipo de propulsor:
b2
b3

b4

Total

a1

66.7

62.9

56.5

57.9

244.0

a2

65.2

60.0

56.8

55.4

237.4

a3

57.7

56.2

57.0

57.9

228.8

Total

189.6

179.1

170.3

171.2

710.2

Obtencin de las sumas de cuadrados:


= FC. = 710.2 2 / 3(4)2

Factor de correccin

= 21016.00

Suma de cuadrados totales = 34.02 + 32.72 + ...+ 29.12 - FC.


= 21107.68 - 21016.00 = 91.68
Suma de cuadrados de A

= (244.02 + 237.42 + 228.82) / 8 - FC.


= 21030.52 - 21016.00 = 14.52

Suma de cuadrados de B

= (189.62 + 179.12 + 170.32 + 171.22) / 6 - FC


= 21056.08 - 21016.00 = 40.08

Suma de cuadrados (A B)

= (66.72 + 65.22 + ...+ 57.92) / 2 - S.C.A


S.C.B - FC
= 21092.77 - 14.52 - 40.08 - 21016 = 22.17

Suma de cuadrados del error = 91.68 - 14.52 - 40.08 - 22.17 = 14.91


Estos resultados se concentran en la tabla siguiente para su anlisis correspondiente.
ANOVA PARA LOS PROMEDIOS DE IGNICIN DEL PROPULSOR
Fuente de variacin
Sistema de misiles
Tipo de propulsor
Interaccin
Error
Total

Suma de
cuadrados
14.52
40.08
22.17
14.91
91.68

Grados de
libertad
2
3
6
12
23

Cuadrado
medio
7.26
13.36
3.70
1.24

F
5.85
10.77
2.98

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Lo primero que tenemos que hacer en el ANOVA, es ver si existe interaccin entre los factores
principales. Como la probabilidad de tener una F = 2.98 es mayor a 5%, se acepta la hiptesis H 0, y se
concluye que no existe interaccin entre los sistemas de misiles y los tipos de propulsor. Lo anterior
significa que los sistemas de misiles no interfieren en los tipos de propulsor, ni estos en los niveles de
misiles.
Como no existe interaccin entre los factores principales, procedemos a concluir de manera particular
para cada uno de los factores en el ANOVA, de lo contrario tendramos que hacer comparaciones
separadas para cada nivel dentro de cada uno de los factores.
Como la probabilidad de tener una F = 5.85 por mero azar es de 0.024 (menor a 5%), Se rechaza H 0 y
se acepta H1, concluyendo que sistemas diferentes de misiles implican diferentes tasas promedio de
consumo del propulsor.
Como la probabilidad de tener una F = 10.77 es menor que 0.01 (menor a 5%), Se rechaza H 0 y se
acepta H1, concluyendo que las tasas promedio de consumo del propulsor, no son las mismas para los
cuatro tipos de propulsor.

7.7.1 Prueba de contrastes ortogonales en un arreglo factorial.


Dado que se encontraron diferencias entre los sistemas de misiles y no se encontr interaccin, los
totales de misiles (3) los ordenamos de menor a mayor y seleccionamos dos contrastes, comparando:
a3 vs (a1 y a2 ), as como a1 vs a2 .
La elaboracin de la tabla de coeficientes (C i) para las comparaciones de los contrastes es presentada
a continuacin.

Comparaciones

a3
228.8

a3 vs (a1 , a2)

-2

a1 vs a2

a2

a1

237.4

244.0

-1

Las sumas de cuadrados para los contrastes son:


Primer contraste:
3

CiTi 23.8
i 1

2
i

i 1

S.C (C1) = 23.82 / 8(6) = 11.8008


Segundo contraste:
3

C T
i 1

i i

6.6

C
i 1

2
i

S.C (C2) = 6.62 / 8(2) = 2.7225


10

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Observe que 11.8008 + 2.7225 es igual a 14.5233 que es la suma de cuadrados para misiles en el
ANOVA anterior.
Dado que tambin se encontraron diferencias para los tipos de impulsor, seleccionamos tres contrastes
ortogonales comparando: (b3 y b4) vs (b2 y b1), as como b3 vs b4 y b2 vs b1.
La tabla de coeficientes Ci para las comparaciones es:

Comparaciones

b3
170.3

b4
171.2

b2
179.1

b1
189.6

-1

-1

(b3 , b4) vs (b2 , b1)


b3

vs

b4

-1

b2

vs

b1

-1

Las sumas de cuadrados para los contrastes son:


Primer contraste.
4

C T
i 1

i i

27.2

2
i

i 1

S.C (C1) = 27.22 / 6(4) = 30.8267


Segundo contraste.
4

CiTi 0.9
i 1

C
i 1

2
i

S.C (C2) = 0.92 / 6(2) = 0.0675


Tercer contraste.
4

CiTi 10.5
i 1

C
i 1

2
i

S.C (C3) = 10.52 / 6(2) = 9.18751


La suma de cuadrados de estos contrastes, debe ser igual a la suma de cuadrados de tipo propulsor del
ANOVA anterior.
El nuevo anlisis de varianza mostrando los contrastes, se presenta en el siguiente cuadro.

11

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Fuente de
variacin

Suma de
cuadrados

Sistema de
misiles
a3 vs (a1 , a2)
a1 vs a2

Grados de
libertad

14.52

Tipo de propulsor
(b3 , b4) vs (b2 , b1)
b3 vs b4
b2 vs b1

Cuadrado
medio

11.80
2.72

1
1

40.08
30.82
0.07
9.19

1
1
1

11.80
2.72

9.5
2.2

30.82
0.07
9.19

24.9
0.06
7.4

Interaccin

22.17

3.70

Error

14.91

12

1.24

Total

91.68

23

2.98

Como la P (F = 2.98) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe
interaccin entre tipos de misiles y tipos de propulsor, esto quiere decir que la variacin en los
sistemas de misiles no interfiere en el consumo de los propulsores, ni stos influyen en el efecto de los
tipos de misiles.
Como los factores no interactan los efectos principales pueden ser interpretados de manera general.
Como la P (F = 9.5) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H 1,
concluyendo que existe diferencia significativa entre estos grupos de niveles de misiles.
Como la P (F = 2.2) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe diferencia
entre estos grupos de niveles de misiles.
Como la P (F = 24.9) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H1,
concluyendo que existe diferencia significativa entre estos grupos de tipos de propulsor.
Como la P (F = 0.06) 0.10 (mayor a 5%) se acepta la hiptesis H0, concluyendo que no existe
diferencia entre estos grupos de tipos de propulsor.
Como la P (F = 7.4) 0.05 se rechaza la hiptesis H 0 y se acepta la hiptesis H1 concluyendo que existe
diferencia entre estos grupos de tipos de propulsor.
La clasificacin de los sistemas de misiles que son iguales as como los tipos de propulsores, se
presentan grficamente con sus correspondientes promedios. No debe olvidarse que la variable que se
analiza es el promedio de consumo de las combinaciones de los tratamientos.
a3
28.6
a

a2
29.7
b

a1
30.5
b

12

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

b3
28.4
a

b4
28.5
a

b2

b1

29.9
b

31.6
b

Para sistemas de misiles el ANOVA nos dice que: el sistema de misil tres es significativamente superior
a todos los dems, mientras que el sistema de misil dos y uno son iguales estadsticamente.
Con relacin a los tipos de propulsor el experimento nos indica que: el propulsor tres y cuatro son
iguales estadsticamente pero a la vez superiores a todos los dems, le sigue el propulsor dos que es a
la vez superior estadsticamente al propulsor uno.

Ejemplo 2. Un ingeniero disea una batera para su uso en un dispositivo que ser
sometido a ciertas variaciones extremas de temperatura. El nico parmetro de
diseo que l puede seleccionar en este punto es el material de la cubierta de la
batera, y tiene tres alternativas. Cuando el dispositivo se manufactura y se enva
al campo el ingeniero no tiene control sobre los extremos de temperatura a que
ser expuesto el dispositivo, y sabe por experiencia que es probable que la
temperatura influya en la duracin efectiva de vida de la batera. Sin embargo, s
es posible controlar las temperaturas en el laboratorio de desarrollo de productos
para los fines del ensayo.
El ingeniero decide probar tres materiales para la cubierta y tres niveles de temperatura (15, 70 y 125
F) consistentes en el entorno de uso final del producto. Se prueban cuatro bateras (repeticiones) para
cada tratamiento y las 36 pruebas se ejecutan al azar. Los resultados son los siguientes:

TIEMPO DE DURACIN EN HORAS DE VIDA DE LAS BATERAS


Tipo de material
15

Temperatura en F
70

125

130
74
155
180

34
80
40
75

20
82
70
58

150
159
188
126

136
106
122
115

25
58
70
45

138
168

174
150

96
82

13

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

110
160

120
139

104
60

Las sumas de las observaciones en la ij-sima celda (T .) son:


Tipo de material
15

Temperatura en F
70

125

539

229

230

998

623

479

198

1300

576

583

342

1501

1738

1291

770

3799

Total

Total

Los clculos para la obtencin de las sumas de cuadrados se obtienen por:


Factor de correccin

= FC. = 3799 2 / 3(3)4 = 400900.03

Suma de cuadrados totales

= 478547 - FC.

S.C. de tipos de material

= 4939005 / 12 - FC = 10683.72

S.C. de temperatura

= 5280225 /12 - FC. = 39118.72

= 77646.97

S.C. de interaccin

= 1841265 / 4 - FC. S.C.M. - S.C.T.


= 9613.78

S.C. del error

= S.C.Tot. S.C.M. S.C.T. S.C.I.


= 18230.75

El anlisis de varianza correspondiente para los clculos anteriores se presenta a continuacin.


ANOVA PARA LAS HORAS DE VIDA DE LAS BATERAS
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Tipo de material

10683.72

5341.86

7.9

Temperatura

39118.72

19559.36

29.0

Interaccin

9613.78

2403.44

3.6

Error

18230.75

Total

77646.97

27

675.21
35

Cuando en un experimento intervienen varios factores de variacin y uno de ellos influye sobre los
efectos de otro, se dice que existe interaccin entre ambos. Es muy importante tener en cuenta la

14

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

interaccin, en la interpretacin de los resultados, pues da lugar a una variacin distinta para cada
factor, de la que hubiera producido actuando por s solo.
Por lo tanto lo primero a realizar despus del ANOVA es verificar si existe interaccin entre los
efectos principales.
Como P (F = 3.6) es menor a 5% se rechaza la hiptesis H 0, y se acepta la hiptesis alterna, con lo que
se concluye que existe interaccin significativa entre el tipo de material y la temperatura.
Dado que se detect interaccin entre los efectos principales, debemos ser muy cuidadosos en la
interpretacin de los factores tipo de material y temperatura, ya que no podemos concluir acerca de
ellos de manera general.
Como auxiliar en la interpretacin de los resultados construiremos una grfica de tipo de material
contra temperatura utilizando el valor promedio de cada combinacin de tratamientos de la siguiente
manera.

TIEMPO PROMEDIO DE VIDA POR UNIDAD EXPERIMENTAL


Tipo de material
15

Temperatura
70

125

134.8

57.3

57.5

155.8

119.8

49.5

144.0

145.8

85.5

Si graficamos las horas promedio de vida de las bateras con las temperaturas
tenemos:

Duracin promedio y.

Material tipo 3
Material tipo 1
Material tipo 2

Temperatura ( F)
Podemos observar que las grficas no son paralelas lo que indica una interaccin significativa. Con
relacin a la interpretacin de las curvas podemos decir que en general; a menor temperatura mayor
hora de vida de la batera; independientemente del tipo de material.
Al variar la temperatura de baja a intermedia, la duracin aumenta con el material tipo 3; mientras que
disminuye con los tipos de material 1 y 2.
15

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Al variar la temperatura de intermedia a alta, la duracin disminuye con los tipos de material 2 y 3;
mientras que con el tipo 1 permanece constante.

Al parecer el material tipo 3 da los mejores resultados, si lo que se desea es menor


prdida de duracin al cambiar la temperatura.
7.7.2 Prueba de rango mltiple Duncan en un arreglo factorial.
En razn de que el ANOVA anterior muestra diferencias significativas en la interaccin as como para
los factores principales, es conveniente llevar a cabo comparaciones entre las medias individuales de
rengln o columna para descubrir las diferencias especficas, Para ello las pruebas de rango mltiple
resultan de mucha utilidad.
Dado que la interaccin result significativa, las diferencias en las medias de un factor (por ejemplo A)
pueden ser ocultas por la interaccin A B. La manera de analizarla es fijar el factor B en un nivel
especfico, y aplicar la prueba de rango Duncan a las medias del factor A en ese nivel.
Por ejemplo, se desea detectar diferencias en el nivel medio de temperatura (70 F), para los tres tipos
de material. Los promedios de vida por batera para los tipos de material, ordenados de menor a mayor
son:
Mat. 1
y12.
57.25

Mat. 2
y22.
119.75

Mat. 3
y32.
145.75

El error estndar de la diferencia de medias es:

S yi 2. S 2 / r 675.21 / 4 12.99
El rango estudentizado significativo es:
2
2.91

3
3.06

El rango mnimo significativo ser:


2
37.80

3
39.75

La diferencia de promedios es:

M3 - M1 = 88.50
M3 - M2 = 26.00

vs
vs

39.75
37.80 =

M2 - M1 = 62.50

vs

37.80

Existe diferencia significativa entre los promedios de los tipos de material.


No existe diferencia significativa.

Grficamente los tipos de material estadsticamente iguales se muestran a


continuacin:
16

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Mat. 1

Mat. 2
a

Mat. 3
a

Este anlisis indica que en el nivel de temperatura de 70, las horas de vida para el tipo de material 2
y 3 resultan mejores estadsticamente, mientras que las horas de vida del material 1 es
significativamente menor que las horas alcanzadas por el material 2 y 3.
De igual manera se debe llevar a cabo la prueba de Duncan para comparar los tres tipos de material,
manteniendo fijos los niveles de temperaturas 15 y 125 F.
As mismo, de manera anloga se comparan los tres tipos de temperatura conservando constante cada
uno de los niveles de tipo de material (resultando seis pruebas de comparacin de medias en total).
7.9 Anlisis de varianza para un arreglo con tres factores.
Se ver el caso de un experimento con tres factores A, B y C, cada uno con los niveles a, b y c
respectivamente, en un diseo experimental completamente al azar. Se supone que se tienen n
repeticiones para cada una de las combinaciones abc (tratamientos).
El modelo para un experimento con tres factores est dado por:

yijkl i j k ( )ij ( )ik ( ) jk ( )ijk ijkl


Donde:
i = 1, 2, , a
j = 1, 2, , b
k =1, 2, , c
l = 1, 2, , n
Al igual que los diseos anteriores, para realizar las pruebas vlidas de significancia, se debe asumir
que los errores son valores de variables aleatorias independientes y con distribucin normal, cada uno
con media cero y varianza comn

2.

La filosofa general del anlisis es la misma que se utiliza para experimentos de uno o dos factores. La
suma de cuadrados se parte en ocho trminos, cada uno representa una fuente de variacin de las
cuales se obtienen estimaciones independientes de
de interaccin.

2 para todos los efectos principales y los efectos

Ejemplo. En la produccin de un material en particular se investigan tres variables: A el efecto del


operador con tres niveles (tres operadores), B el catalizador utilizado en el experimento con tres niveles
(tres catalizadores) y el tiempo C del lavado del producto en seguida del proceso de enfriamiento con

17

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

dos niveles (15 y 20 minutos). Se realizaron tres repeticiones en cada combinacin de factores; los
resultados se presentan a continuacin:
TIEMPOS EN LA PRODUCCIN DEL MATERIAL
Tratamientos
I

Repeticiones
II

III

Total

A1B1C1
A1B1C2
A1B2C1
A1B2C2
A1B3C1
A1B3C2
A2B1C1
A2B1C2
A2B2C1
A2B2C2
A2B3C1
A2B3C2
A3B1C1
A3B1C2
A3B2C1
A3B2C2
A3B3C1
A3B3C2

10.7
10.9
10.3
10.5
11.2
12.2
11.4
9.8
10.2
12.6
10.7
10.8
13.6
10.7
12.0
10.2
11.1
11.9

10.8
12.1
10.2
11.1
11.6
11.7
11.8
11.3
10.9
7.5
10.5
10.2
14.1
11.7
11.6
11.5
11.0
11.6

11.3
11.5
10.5
10.3
12.0
11.0
11.5
10.9
10.5
9.9
10.2
11.5
14.5
12.7
11.5
10.9
11.5
12.2

32.8
34.5
31.0
31.9
34.8
34.9
34.7
32.0
31.6
30.0
31.4
32.5
42.2
35.1
35.1
32.6
33.6
35.7

Total

200.8

201.2

204.4

606.4

Realice el anlisis de variacin para probar efectos significativos con un = 0.05


Lo primero que hacemos es concentrar del cuadro anterior los efectos del operador y catalizador, de
operador y lavado, as como de catalizador y tiempo de lavado, en los siguientes cuadros:

TIEMPOS POR EFECTO DE OPERADOR Y CATALIZADOR


Catalizador
B
1
67.3
62.9
69.7
199.9

1
2
3
Total

Operador
A
2
66.7
61.6
63.9
192.2

Total
3
77.3
67.7
69.3
214.3

211.3
192.2
202.9
606.4

TIEMPOS POR OPERADOR Y TIEMPO DE LAVADO


Lavado

Operador

Total
18

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

C
1
2
Total

1
98.6
101.3
199.9

A
2
97.7
94.5
192.2

3
110.9
103.4
214.3

307.2
299.2
606.4

TIEMPOS POR CATALIZADOR Y TIEMPO DE LAVADO


Lavado
C
1
2
Total

1
109.7
101.6
211.3

Catalizador
B
2
97.7
94.5
192.2

Total
3
99.8
103.1
202.9

307.2
299.2
606.4

Los clculos para la obtencin de las sumas de cuadrados se presentan a continuacin:


Factor de correccin

= FC. = 606.4 2 / 3(3)2(3) = 6809.65

Suma de cuadrados de A

= (199.92 + 192.22 + 214.32) / b c n FC.


= 122825.34 / 18 F.C = 13.98

Suma de cuadrados de B

= (211.32 + 192.22 + 202.92) / a c n FC.


= 122756.94 / 18 F.C = 10.18

Suma de cuadrados de C

= (307.22 + 299.22) / a b n FC.


= 183892.48 / 27 F.C = 1.18

Suma de cuadrados (A B)

= (67.32 + 66.72 +..+ 69.32) / c n - FC. - S.C.A


S.C.B.
= 41031.52 / 6 6809.65 13.98 10.18 = 4.78

Suma de cuadrados (A C)

= (98.62 + 97.72 +..+103.42) / b n - FC. - S.C.A


S.C.C.
= 61449.56 / 9 - 6809.65 - 13.98 - 1.18 = 2.92

Suma de cuadrados (B C)

= (109.72+ 97.72 +..+103.12) / a n - FC.


S.C.B - S.C.C.
= 61421.84 / 9 - 6809.65 - 10.18 - 1.18

= 3.64

Suma de cuadrados (A B C) = (32.82 + 34.52 +..+ 35.72) / n - FC. - S.C.A - S.C.B


- S.C.C S.C(A B) - S.C(A C) S.C(B C)
= 20553.68 / 3 6809.65 13.98 10.18 1.18
-4.78 2.92 3.64
= 4.89
Suma de cuadrados totales

= 10.72 + 10.82 ++ 12.22 - FC.


= 6872.84 6809.65

= 63.19

19

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

Suma de cuadrados error

= S C T - S C A - S C B - S C C - S C(AB) - S C(AC)
-S C(BC) - S C(ABC)
= 63.19 - 13.98 - 10.18 - 1.18 - 4.78 - 2.92 3.64
-4.89
= 21.62

La tabla de anlisis de varianza se presenta a continuacin.

ANOVA DE TIEMPOS EN LA PRODUCCIN DEL MATERIAL


Fuente de variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

13.98
10.18
1.18

2
2
1

6.99
5.09
1.18

11.65
8.48
1.97 ns

4.78
2.92
3.64

4
2
2

1.20
1.46
1.82

2.00 ns
2.43 ns
3.03 ns

ABC

4.89

1.22

2.03 ns

Error

21.62

36

0.60

Total

63.19

53

Efectos principales
A
B
C
Interaccin de dos
factores
AB
AC
BC
Interaccin de tres
factores

* = existe diferencia significativa entre los promedios de los factores.


ns = no existe diferencia significativa, ni interaccin de los factores.

Dado que no se encontr interaccin entre los factores, pero si diferencias


20

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

estadsticas para el factor operador ( A ) y tipos de catalizador ( B ), procederemos


al anlisis correspondiente de los niveles de dichos factores, mediante la prueba de
contrastes ortogonales.
Como se tienen dos grados de libertad para el factor operador (A), podemos plantear las
comparaciones siguientes para los contrastes.
( a1 y a2 ) vs a3 as como a1 vs a2

La tabla de coeficientes

Ci

para las comparaciones es:

Comparaciones

a2

( a1 , a2 ) vs a3
a1 vs a2

a1

a3

192.2

199.9

214.3

-1
-1

-1
1

2
0

Las sumas de cuadrados para los contrastes son:


Primer contraste

S. C ( C1 ) = 36.52 / 18 (6) = 12.3356

Segundo contraste

S. C ( C2 ) = 7.72 / 18 (2) = 1.6469

Dado que tambin se encontraron diferencias para los tipos de catalizador (B), las comparaciones que
haremos son las siguientes:
( b2 y b 3 )

La tabla de coeficientes

Ci

vs

b1

as como

b2

vs

b3

para las comparaciones es:

Comparaciones
( b2 y b3 ) vs b1
b2 vs b3

b2
192.2
-1

b3
202.9
-1

-1

b1
211.3
2

Las sumas de cuadrados para los contrastes son:


Primer contraste

S. C ( C1 ) = 27.52 / 18 (6) = 7.00

21

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

S. C ( C2 ) = 10.72 / 18 (2) = 3.18

Segundo contraste

El nuevo anlisis de varianza incluyendo a la suma de cuadrados de los contrastes es:

ANOVA DE TIEMPOS EN LA PRODUCCIN DEL MATERIAL


Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Operadores (A)
(a1 , a2) vs a3
a1
vs a2

13.98
12.34
1.64

Tipos de catalizador (B)


(b2 , b3) vs b1
b2
vs b3

10.18
7.00
3.18

Tiempo de lavado (C)

1.18

1.18

1.9 ns

Interaccin de
dos factores
AB
AC
BC

4.78
2.92
3.64

4
2
2

1.20
1.46
1.82

2.0 ns
2.4 ns
3.0 ns

Interaccin de
tres factores
ABC

4.89

1.22

2.0 ns

1
1

12.34
1.64

20.6 *
2.7 ns

1
1

7.00
3.18

11.7 *
5.3 *

Error

21.62

36

Total

63.19

53

0.60

* = existe diferencia significativa para los niveles de los factores A y B.


ns = no existe diferencia significativa para el factor C, ni interaccin entre factores.
La clasificacin para los niveles de operadores se presenta a continuacin.
a2
a1
______________
a
a

a3
_______
b
b

22

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

El experimento nos dice que los operadores dos y uno son significativamente superiores al operador
tres, y que los operadores dos y uno pueden considerarse como equivalentes (iguales
estadsticamente).
La clasificacin para los niveles de tipos de catalizador se muestra a continuacin.
b2
_______
a
a

b3
_______
b
b

b1
_______
c
c

Con relacin a este factor, el experimento nos dice que: el catalizador dos es significativamente superior
a todos los dems, que le sigue el catalizador tres que es a la vez superior estadsticamente al
catalizador uno.
Apndice 7.1 Empleo del software Minitab en un arreglo factorial.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para probar tres sistemas de msiles y cuatro tipos diferentes de
propulsores. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Respuesta, en C2 Factor A y en C3 Factor B.
2. Para concentrar los niveles de cada uno de los factores sern empleados nmeros en lugar de letras.
La manera como es concentrada la variable de salida, los niveles del factor A y los niveles del factor B,
puede ser:

1
2
3
4
5
6
4
5
5
.
.
.
24

Respuesta
34.0
32.7
30.1
32.8
29.8
26.7
29.0
28.9
32.0
.
.
.
29.1

Factor A
1
1
1
1
1
1
1
1
2
.
.
.
3

Factor B
1
1
2
2
3
3
4
4
1
.
.
.
4

3. Seleccione el men Estadsticas.


4. Seleccione ANOVA.
5. Hacer clic en Dos factores.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factores:
Ingresar C1 en el cuadro de Respuestas.
Ingresar C2 en el cuadro Factor de fila.
Ingresar C3 en el cuadro Factor de la columna.
Hacer clic en el cuadro Almacenar residuos.
Hacer clic en el cuadro Almacenar ajustes.
Hacer clic en Grficas.

23

Lic. Vicente Snchez y Ramrez


Arreglos factoriales
___________________________________________________________________________________________________________________

7. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factoresGrficas:


Hacer clic en Grficas individuales.
Hacer clic en los cuadros de las grficas que le interesen.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede aprovechar
seleccionando las opciones que desee.

24

Potrebbero piacerti anche