Temas Basicos de Estadistica Diferencial

Lic.
Vicente Snchez y Ramrez

Anlisis de regresin lineal
___________________________________________________________________________________________
1. ANLISIS DE REGRESIN LINEAL

1.1 Introduccin.
La relacin lineal es el tipo de correlacin ms sencillo que se encuentra entre dos
variables, una llamada variable independiente y otra llamada variable dependiente,
debido a que esta ltima depende de los cambios que sufra la primera.
El objetivo de estudiar la correlacin entre dos variables es con la esperanza de que
la relacin que se encuentre entre ellas pueda utilizarse como auxiliar en la
realizacin de predicciones con cierta precisin establecida. Lo antes expuesto
puede lograrse al ajustar una ecuacin de primer grado de la forma y a bx , a un
conjunto de pares de valores de datos observados.
El tema contempla el estudio de los conceptos de correlacin y regresin, obtencin
del diagrama de dispersin de los datos, clculo del coeficiente de correlacin y
regresin, obtencin de la ecuacin que mejor se ajusta a los valores observados,
clculo del error estndar de estimacin, anlisis de varianza para probar la
significacin de la regresin, estimacin de intervalos de confianza en la regresin
lineal, validacin del modelo mediante el anlisis residual y empleo del software
minitab.
1.2 Correlacin lineal y regresin.
Los trminos correlacin y regresin pueden parecer complicados, sin embargo las
ideas bsicas implicadas en los mismos es tan sencilla que en gran parte del tiempo
las estamos utilizando, para comprender mejor estos trminos veamos los siguientes
ejemplos.
Si se aplica cierto fertilizante en algn cultivo, comnmente notamos que se obtiene
un incremento en la produccin a medida que se aumenta el nutriente hasta cierto
punto, ms all de este punto la produccin se estabiliza o disminuye si se utilizan
cantidades excesivas de abono.
Este ejemplo implica dos variables, la magnitud de una dependiendo de la otra. Estas
variables se denominan independiente (fertilizante) y dependiente (produccin),
presenta la idea de que cuando una variable se incrementa as lo har la otra o
viceversa, en estadstica esto recibe el nombre de correlacin directa o positiva.
Veamos otro ejemplo. Un instructor esta interesado en encontrar como est
relacionada la ausencia de estudiantes en un da determinado, con la temperatura
mnima en 0C a las 8 de la maana de ese da, durante un periodo de invierno. Una
muestra aleatoria de 10 das se utilizo para el estudio proporcionando los siguientes
valores.
Lic. Vicente Snchez y Ramrez

___________________________________________________________________________________________
y
x
10
10
4
20
1
25
9
12
8
13
6
15
2
23
3
21
5
18
6
17
Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.
Otros ejemplos de correlacin son los problemas que encontramos diariamente en el
trabajo, tales como:
Cul es la relacin entre la temperatura del horno y la resistencia del material?
Qu relacin existe entre el alimento consumido y el peso del ganado?
Cul es el precio de una mercanca afectada por la oferta?
Cul es la relacin entre el tamao de la granja y su rentabilidad?
Cul es la relacin entre las horas dedicadas para estudiar una unidad de la materia
de estadstica y la calificacin obtenida?
Otros ejemplos de correlacin los encontramos casi a diario en los peridicos en la
seccin de finanzas, con las grficas; prcticamente todo grfico es, en esencia, una
representacin entre la correlacin de dos variables. Donde el eje de la abscisa (x)
tiene a la variable independiente y el eje de la ordenada (y), la variable dependiente.
Terminaremos esta hoja definiendo los trminos de correlacin y regresin de la
siguiente manera.
Qu es correlacin? es la relacin que existe entre dos variables y a la estrechez de
dicha relacin.
Qu es regresin? es la cantidad de cambio de una variable asociada a un cambio
nico de otra variable.
1.3 Clculo del coeficiente de correlacin.
Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?
Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.
Para medir de un modo matemtico y ms preciso el grado de correlacin existente,
es necesario determinar un valor numrico que lo exprese y ste es el coeficiente
de correlacin lineal o r de Pearson. Veamos algunos ejemplos grficos y su
cuantificacin matemtica en las siguientes grficas.

___________________________________________________________________________________________
Los valores que puede tomar el coeficiente de correlacin lineal van de: -1 r 1,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.
Una relacin positiva significa: a mayor rendimiento en x mayor rendimiento en y o
viceversa. Una correlacin negativa significa: a un rendimiento menor en x se tiene
un rendimiento mayor en y o viceversa a un rendimiento mayor en x se tiene un
rendimiento menor en y.
El algoritmo matemtico que simboliza al coeficiente de correlacin lineal se define
por:
n
x x y y
i 1
i 1
i 1
2
2
xi x yi y
Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:

___________________________________________________________________________________________
n
x y
i
i 1
i 1
2
i
x
i 1
xi yi
i 1
i 1
y
i 1
2
i
y
i 1
Con el fin de ver su aplicacin tomemos el siguiente ejemplo. Un ingeniero esta

estudiando el efecto de la temperatura del horno con la resistencia en libras por
pulgada cuadrada (psi) de cierta varilla de acero. El estudio da como resultado los
siguientes datos.
Temperatura
0
C
(x)
Resistencia
en psi. (y)
100
110
120
130
140
150
160
170
180
190
45
51
54
61
66
70
74
78
85
89
Lo primero que debe hacerse es graficar estas variables con el fin de tener una
primera idea de como estn distribuidos los datos, esto es.
DIAGRAMA DE DISPERSIN DE LOS DATOS.
A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente
e independiente para el clculo del coeficiente de correlacin r se presentan a
continuacin.

___________________________________________________________________________________________
n = 10
x 1450
x 2 218500
y 673
47225
xy 101570
Substituyendo estos valores en el coeficiente de correlacin lineal tenemos:
(1450)(673)
10
0.998128718
2
2

(1450)
(673)
218,500
47,225
10
10

101,570
El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.
Advertencia
El no encontrar evidencia de correlacin lineal entre las variables, se puede deber a:
a) De hecho las dos variables no estn relacionadas.
b) Las variables estn relacionadas en forma no lineal, en este caso la r de Pearson
no nos sirve para medir la relacin entre dos variables. Por eso es recomendable que
antes de realizar cualquier clculo se grafiquen los datos, sin olvidarse de emplear la
regla de los tres cuartos de altura (el eje de la ordenada y debe medir tres cuartas
partes de lo que mida el eje de la abcisa x).
1.4 Regresin lineal.
El hecho de estudiar la correlacin entre dos variables, es con la esperanza de que
cualquier relacin que se encuentre, pueda usarse como auxiliar para hacer
estimaciones o predicciones de una variable en particular.
El problema de la prediccin lineal se reduce a ajustar una lnea recta a un grupo de
puntos, ahora bien la ecuacin general de la lnea recta puede describirse como:
y a bx
a se denomina interseccin y porque su valor es el punto en el cual la lnea de

regresin cruza al eje y.
b es la pendiente de la lnea. Representa la cantidad de cambio que sufre la variable
y por cada cambio nico de la variable x. Visto grficamente es:
5

___________________________________________________________________________________________
2 Pto. (x2 , y2) = (2,7)
1 Pto. (x1 , y1) = (1,5)
a=3
Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:
b
y 2 y1 7 5
2
x 2 x1
2 1
De esta manera estimamos los valores de los parmetros a y b. Si la ecuacin

general de la lnea recta es y a bx , por lo tanto la ecuacin que mejor se ajusta a
los datos que estamos analizando es.
y 3 2 x
Con esta ecuacin podemos hacer predicciones, suponga que deseamos encontrar
el valor de y cuando x = 3. La respuesta ser:
y 3 2(3) 9
Si se sustituyen ms valores de x en la ecuacin, se observa que y se incrementa en

la medida que x aumenta, por lo tanto la relacin entre las variables es directa, y la
pendiente positiva.
Se recomienda tener mucho cuidado al hacer predicciones, ya que estas son vlidas
siempre y cuando se hagan dentro del rango de valores que se este estudiando, si se
quiere hacer pronsticos fuera del rango observado, es recomendable aumentar los
valores observados y estimar una nueva ecuacin.
1.5 El mtodo de mnimos cuadrados.
Si tenemos un conjunto de puntos en un diagrama de dispersin, cmo podemos
ajustar una lnea matemticamente si ninguno de los puntos cae en ella?
6

___________________________________________________________________________________________
En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.
Si tenemos un conjunto de puntos de datos a travs de los cuales podramos trazar
un nmero infinito de lneas de estimacin, cmo podemos saber cundo hemos
encontrado la mejor lnea de ajuste?
Para lograr lo anterior se emplea el criterio de mnimos cuadrados, que consiste en
hacer mnima la suma de cuadrados de los errores de estimacin, donde el error de
estimacin es la diferencia entre el valor observado de la muestra y el valor estimado
por la ecuacin obtenida.
En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:
i 1
n
xi x yi
x x
i
i 1
xy n x y
i 1
n
x nx
2
i 1
xy
x y
n
x
x2
n
a y bx
Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.
1.6 Uso del mtodo de mnimos cuadrados en un problema.
Consideremos el ejemplo de la temperatura del horno y la resistencia de la varilla, los
clculos bsicos para el clculo de los coeficientes de regresin a y b son:
n 10
x 1450
218,500
xy
101,570
y 673
Sustituyendo estos valores en las ecuaciones correspondientes son:
(1450)(673)
10
0.48303
1450 2
218500
10
101570

___________________________________________________________________________________________
a = 67.30 0.4830 (145.00)= -2.7394

Ahora bien, la ecuacin lineal que mejor describe la relacin entre la temperatura del
horno en grados centgrados y la resistencia de la varilla, la obtenemos al sustituir el
valor de a y b en la ecuacin de la recta y a bx , la cual es:
y 2.74 0.483 x
a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada (y)
en un sistema de coordenadas cartesianas en el punto negativo de -2.74.
b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.
Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. Cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?
y 2.74 0.483(165) 76.96 psi.
1.7 Error estndar de estimacin.

Despus de haber ajustado la lnea de regresin a una lista de puntos, generalmente
es posible inspeccionar su grfica y observar que tan exactamente predice los
valores de y. Un procedimiento matemtico para medir la confiabilidad de la ecuacin
estimada es el error estndar de estimacin, el cual se simboliza por Se y es similar a
la desviacin estndar, en cuanto a que ambas son medidas de dispersin.
El error estndar de estimacin mide la variabilidad, o dispersin de los valores
observados alrededor de la lnea de regresin. Su clculo matemtico se obtiene por:
Se
( y y )
n2
Donde:
y = valores de la variable dependiente
y
= valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).
Continuando con nuestro ejemplo tenemos:
x
y
y
(y - )2
100 110
45
51
45.6 50.4
-0.6 0.6
0.36 0.36
120
54
55.2
-1.2
1.44
130
61
60.1
0.9
0.81
140
66
64.9
1.1
1.21
150
70
69.7
0.3
0.09
160
74
74.6
-0.6
0.36
170
78
79.4
-1.4
1.96
180
85
84.2
0.8
0.64
190
89
89.0
0.0
0.0
8

___________________________________________________________________________________________
y y
7.23
Por lo tanto el error estndar de estimacin ser:
Se
7.23
0.90375 0.9506
10 2
Para saber si el error estndar es chico o grande, se recomienda recurrir al

coeficiente de determinacin (r2). En el ejemplo que nos ocupa su estimacin es de
r2 = 99.6 % (calculado en el punto 1.8), lo que nos indica que el error estndar de
estimacin es de 0.4%, lo cual nos dice que Se es muy pequeo.
El error de estimacin obtenido (0.9506) puede compararse con el de otras
ecuaciones de mayor grado obtenidas con los mismos datos, aquel valor que sea
menor, nos indica que esa ecuacin es la que mejor se ajusta al conjunto de puntos.
Entre ms pequeo sea el error de estimacin, significa un mejor ajuste de la
ecuacin estimada con relacin a los datos observados. Un valor de S e = 0 implica un
r = 1 y un r2 = 1, lo que nos indicar un ajuste perfecto, o lo que es lo mismo, los
datos observados son exactamente los mismos que los datos estimados.
2
Otra manera de obtener y y se presenta a continuacin, esto puede servir
para verificar si el clculo del coeficiente de correlacin lineal fue bien calculado, as
como la ecuacin estimada.
y
2
y y 1 r 2 y 2 n
2
(1 0.998,128,7182)(47,225 673 ) 7.22
10
Valor muy parecido al obtenido en la tabla anterior.
1.8 Coeficiente de determinacin.

El coeficiente de determinacin nos sirve para medir que tan bien ajusta la lnea de
regresin estimada a los datos con los que est basada, ya que ste lo podemos
manejar en porcentaje, pudiendo tomar valores que van del 0 al 100%. As si el
coeficiente est cercano a cero significa que Se es chico. Su algoritmo se define por:
r2
a y b xy ny 2
y 2 ny 2
En el ejemplo que nos ocupa su clculo es:
r2
2.7394(673) 0.48303(101,570) (10)67.3 2

0.996242896
47,225 (10)67.3 2
9

___________________________________________________________________________________________
Lo que significa que el 99.6% de la variacin total de la resistencia de la varilla (y), se

puede explicar por la asociacin del efecto de la temperatura del horno (x). Dicho en
otras palabras, la recta que calculamos nos logra explicar el 99.6% de la variabilidad
de la resistencia de la varilla, o sea que el error estndar de estimacin en porcentaje
es de 100 - 99.6 = 0.4%, lo cual indica que es un error muy pequeo.
1.9 Prueba de hiptesis de la regresin lineal simple.
Una parte importante en la elaboracin de un modelo de regresin simple, es la
prueba de hiptesis estadstica en torno a los parmetros del modelo y la
construccin de ciertos intervalos de confianza.
Para probar hiptesis de la pendiente (b) y la interseccin y (a) suponemos que los
errores de estimacin ei se distribuyen normalmente.
Si deseamos probar la hiptesis de que la pendiente es igual a una constante,
digamos , las hiptesis a probar son:
H0: b =
H1: b
El estadstico de prueba para ste tipo de casos es:
CME
x
n
Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H 0 si:
t t
c 2,n 2
Un Procedimiento similar es utilizado para probar la hiptesis respecto a la

interseccin (a).
Para probar.
H0: a = 1
H1: a 1
Utilizamos el estadstico:
10

___________________________________________________________________________________________
a 1
1
CME
x
x
x
n
Se rechaza la hiptesis H0 si:
t t
c 2,n 2
Un caso muy especial en la prueba de hiptesis es:

H0: b = 0
H1: b 0
Esta hiptesis se relaciona con la significacin de la regresin. El hecho de
aceptar la hiptesis H 0, equivale a concluir que no hay regresin lineal entre x y
y. Visto esto grficamente es:
En las grficas anteriores se acepta la hiptesis H 0, por lo tanto se concluye que no

hay correlacin lineal entre x y y.
11

___________________________________________________________________________________________
En estas grficas se rechaza la hiptesis H 0, lo que significa que existe correlacin

lineal entre x y y.
1.10 Anlisis de varianza para probar la significacin de la regresin.
El procedimiento para saber si la variable independiente influye de manera
significativa en la variable dependiente (significacin de la regresin), consiste en la
particin de la variabilidad total de la variable dependiente (y) en dos componentes,
una debido a la regresin y otra debido al azar.
El anlisis de varianza (ANOVA) como su nombre lo indica va a probar mediante la
comparacin de las varianzas si existe efecto de la regresin entre las dos variables.
Las fuentes de variacin que componen el ANOVA son:
Fuente de
variacin
Regresi
n
Error
Total
Suma de cuadrados
xy
Grados
de
libertad
x y
S .C . regresin
G.L. regresin
C.M . Re g .
C.M . error
n2
S .C. error
G.L. error
S .C. total S .C. regresin
Cuadrado
medio
n-1
Si la probabilidad de tener una F igual a la obtenida en el ANOVA es menor al 5% se

rechaza la hiptesis H0: b = 0 y se acepta la hiptesis H1: b 0, con lo que se
concluye que la variable independiente influye de manera significativa en la variable
dependiente.
Continuando con el ejemplo del efecto de la temperatura del horno y la resistencia de
la varilla, los clculos bsicos para la obtencin de las sumas de cuadrados son:
n 10
x 1,450
673
47,225
xy
101,570
b = 0.483
Por lo tanto las sumas de cuadrados son:

12

___________________________________________________________________________________________
Suma de cuadrados total

= 47,225 (673) 2 10 = 1,932.1
Suma de cuadrados de la Reg. = 0.483 101,570 - 1,450 673 10 = 1,924.75
Suma de cuadrados del error
= 1,932.1 1,924.75 = 7.35
La tabla del anlisis de varianza queda definida de la siguiente manera:
ANOVA DE LA TEMPERATURA DEL HORNO Y LA RESISTENCIA DE LA VARILLA.
Fuente de
variacin
Regresin
Error
Total
Suma de
cuadrados
1,924.75
7.35
1,932.10
Grados de
libertad
1
8
9
Cuadrado
medio
1,924.75
0.919
F
2,094.4
Para decidir si la temperatura del horno influye de manera significativa en la

resistencia de la varilla, se obtiene la probabilidad de tener una F = 2,094.4 de la
tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra es menor
al 5% se rechaza la hiptesis H0.
La manera como se busca la probabilidad en la tabla F de Fisher es: localizar en la
parte superior de la tabla los grados de libertad para el numerador de la razn F que
se tienen en el ANOVA, en nuestro caso v 1 = 1; posteriormente se busca en la parte
izquierda de la tabla los grados de libertad del denominador, en nuestro ejemplo
v2 = 8. Donde se intercepten v1 y v2 se localiza el valor de F esperada en el anlisis a
cierto nivele de . En nuestro caso son:
v1 = 1
v2
8
= 0.10
3.46
= 0.05
5.32
= 0.01
11.26
Aqu se puede ver que el valor de F = 2,094.4 se encuentra a la derecha de 11.26 por
lo que le corresponde una probabilidad menor a 0.01. Puesto que la probabilidad de
que se hubiese obtenido por mero azar una F = 2,094.4 es menor al 5%,
rechazamos la hiptesis nula H0: b = 0 y aceptamos la hiptesis alterna H 1 b 0, con
lo que se puede concluir que la temperatura del horno si influye de manera
significativa en la resistencia de la varilla.
En la prctica una manera de concluir lo anterior en este ejemplo es mediante la
comparacin de la F del anlisis contra una F0.05, ( v1 , v 2 ) . Si la F calculada es mayor
que la F de tablas, se concluye que la variable independiente si influye de manera
significativa en la variable dependiente.
De este anlisis podemos ver que la recta que calculamos nos explica el 99.6% de la
variabilidad de y, esto es (1,924.75 1,932.1) 100 = 99.6, valor idntico al del
coeficiente de determinacin.
13

___________________________________________________________________________________________
Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos
1.11 Estimacin de intervalos en la regresin lineal simple.
Adems de la estimacin de los parmetros a y b de la ecuacin estimada es posible
obtener estimaciones de intervalos de confianza para estos parmetros, el ancho de
estos intervalos es una media de la calidad total de la lnea de regresin.
En consecuencia el intervalo de confianza 100 (1 - ) % para la pendiente b, est
dado por el siguiente intervalo, donde t es un valor de t de Student con un cierto nivel
con v = n - 2 grados de libertad y CME es el cuadrado medio del error del
ANOVA.
P b t
CME
2,n 2
x
n
b b t
CME
2, n 2
x
n
Continuando con nuestro ejemplo un intervalo de confianza al 95% de probabilidad

para la pendiente b es:
0.919
0.919
P 0.483 2.306
b 0.483 2.306
8, 250
8,250
0.95
P (0.483 - 0.024338 b 0.483 + 0.024338) = 0.95

P (0.46 b 0.51) = 0.95
Este resultado debe leerse de la siguiente manera: la probabilidad de que el intervalo
contenga el valor verdadero de b es del 95%, as mismo nos dice que la pendiente
puede tomar valores que van de 0.46 a 0.51
El intervalo nos indica que se tiene una confianza del 95% de que la pendiente
estimada de la ecuacin, diferir de la pendiente verdadera de la poblacin, en una
cantidad que no excede a 0.024338. O lo que es lo mismo se tiene un error de
estimacin del 5% (0.024338 x 100 / 0.483).
En forma semejante el intervalo de confianza del 100 (1 - ) % para la interseccin
y (a) es.
14

___________________________________________________________________________________________
x
P a t 2,n2 CME
n
x
2
1
2
CME
2
t 2 ,n 2
n
x
2
x
n
Por lo tanto un intervalo de confianza al 95% para a se define por:
1
145 2
p 2.74 2.306 0.919
10
8,250
a 2.74 2.306 0.919
1
145 2
10
8,250
0.95
P (-6.34 a 0.86) = 0.95

Lo anterior nos indica que con un 95% de probabilidad, que el valor de la
interseccin y (a) puede tomar valores que van desde -6.34 a 0.86
1.12 Medida de adecuacin del modelo de regresin.
El ajuste de un modelo de regresin requiere de varios supuestos. As para la
estimacin de parmetros se supone que los errores de estimacin (e i) son variables
aleatorias con media cero y varianza constante. Para la prueba de hiptesis y la
estimacin de intervalos se supone que los errores se distribuyen normalmente,
adems se supone que el grado al que se ajust la ecuacin (modelo) es el correcto.
1.12.1. Anlisis residual.
Para juzgar si el modelo que se ajust a los valores observados es correcto se lleva
a cabo el anlisis residual, lo cual nos sirve para saber si se cumplen los siguientes
supuestos que debe cumplir el modelo, los cuales son:
1. En las pruebas de hiptesis y la estimacin de intervalos, requiere que los errores
de estimacin se ajusten a una distribucin normal.
2. Los errores de estimacin son variables aleatorias no correlacionadas, que tienen
media igual a cero y varianza constante.
3. El orden del modelo es correcto.
Para verificar los supuestos anteriores, se recomienda recurrir al anlisis residual por
su fcil interpretacin, donde un residuo se define como ei yi y i , i = 1, 2, 3,, n,
donde yi es la variable dependiente y i es el valor estimado con la ecuacin
obtenida.
15

___________________________________________________________________________________________
Estos residuos suelen graficarse generalmente contra: 1) la secuencia del tiempo (si
se conoce), 2) contra i y 3) contra la variable independiente xi. Estas grficas por lo
general se presentan como lo indican los cuatro patrones siguientes:
ei
ei
A) Satisfactorio
ei
B) Embudo
ei
C) Doble arco
D) No lineal
La figura A representa la situacin ideal, mientras que las B, C y D representan

anomalas. Si los residuos aparecen como en B entonces nos indica que la varianza
de las observaciones se incrementa con el tiempo o con la magnitud de yi o xi , lo
cual no debe suceder. Para resolver este problema si se presenta, se recomienda
transformar la variable de respuesta y a: y , ln y o 1/y.
Si las grficas contra i y xi se presentan como la figura C nos indica desigualdad
de varianzas. Las grficas de residuos que se observan como D nos indican que el
modelo no es adecuado, lo que significa que debe adaptarse a un modelo de mayor
orden (cuadrtica, cbica, etc).
En el ejemplo que nos ocupa, los valores estimados ( y i ) y los residuos ( ei ) se
presentan en la tabla siguiente.
x
y
100 110
45
51
45.6 50.4
120
54
55.2
130
61
60.1
140
66
64.9
150
70
69.7
160
74
74.6
170
78
79.4
180
85
84.2
190
89
89.0
16

___________________________________________________________________________________________
e1
ei yi y i -0.6
e2
0.6
e3
-1.2
e4
0.9
e5
1.1
e6
0.3
e7
-0.6
e8
-1.4
e9
0.8
e10
0.0
i y contra la variable
La grfica de residuos residuos contra los datos estimados y
independiente x i , se presentan a continuacin.
i
GRFICA DE RESIDUOS CONTRA y
vs. ajustes
(la respuesta es y)
1,0
Residuo
0,5
0,0
-0,5
-1,0
-1,5
40
50
60
70
Valor ajustado
80
90
GRFICA DE RESIDUOS CONTRA xi

Residuos vs. x
(la respuesta es y)
1,0
Residuo
0,5
0,0
-0,5
-1,0
-1,5
100
110
120
130
140
150
160
170
180
190
En ambas grficas se puede apreciar que no hay un patrn definido en su figura,

lo que significa que las varianzas no se incrementan o disminuyen con el aumento de
i o de x i , lo que nos indica que las varianzas de los errores son iguales.
y
17

___________________________________________________________________________________________
A la vez podemos observar que los residuos son aleatorios y su promedio es cero
(hay igual nmero de errores positivos como negativos).
Para verificar el supuesto de que los errores se distribuyen de manera normal
realizamos la grfica normal de residuos, en ella se puede observar que los residuos
caen aproximadamente sobre una recta, con lo que se puede concluir que no hay
desviacin importante de normalidad, o sea que el supuesto de que los errores se
distribuyen de manera normal se cumple.
Cuando aparecen valores atpicos, es decir observaciones que no son tpicas al
resto de los datos, significa que los errores no se distribuyen de manera normal. Si
desea ms informacin sobre puntos atpicos consulte a Montgomery y Peck.
Grfica de probabilidad normal

(la respuesta es Resistencia)
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-2
-1
0
Residuo
Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.
Cuando aparece un patrn en las grficas, por lo general suele indicar la necesidad
de una transformacin de los datos originales, esto es, analizar los datos en una
mtrica diferente. Por ejemplo, si la variabilidad de los residuos aumenta con i o xi
entonces es conveniente aplicar la transformacin logartmica. Si los datos
analizados se encuentran en porcentaje, es recomendable la transformacin
arcoseno. Si se analizan valores pequeos con decimales, lo recomendable es la
transformacin raz cuadrada y si la variable es el cociente de dos variables, la
transformacin logartmica es la adecuada.
Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.
18

___________________________________________________________________________________________
Con los datos obtenidos hasta aqu, podemos ya responder a algunas preguntas
como:
1. Cun estrecha es la relacin entre la temperatura del horno y la resistencia
de la varilla?
R. Totalmente estrecha. El coeficiente de correlacin es de 0.998, el 1 sera el
perfecto.
2. Cul es la probabilidad de que tal correlacin pudiera deberse a la
casualidad?
R. Una correlacin de este tamao de 10 pares de datos, solo podra ocurrir por
casualidad menos del 1% de las veces.
3. Qu ecuacin describe mejor la relacin entre la temperatura del horno y la
resistencia de la varilla?
R.
2.74 0.483 x
y
4. Hasta qu punto se ajusta esta recta a los datos?

R. El 99.6% de la variacin de la resistencia de la varilla (y) estuvo asociada de algn
modo con la temperatura del horno (x).
5. Influye significativamente la temperatura del horno en la resistencia de la
varilla?
R. El anlisis de varianza de la regresin indica que s, con un 99 % de probabilidad.
6. El modelo que fue ajustado a los valores observados es el correcto?
R. En base al anlisis residual, podemos concluir que no existe insuficiencia seria del
modelo.
Apndice 1.1 Empleo del software Minitab en el anlisis de regresin lineal.

Anlisis de regresin lineal.
19

___________________________________________________________________________________________
Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de

regresin lineal, tomaremos el ejemplo de la temperatura del horno y la resistencia
en psi. de cierta varilla de acero. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo, rotule x (predictora) y en C2 y
(respuesta).
2. La manera como es concentrada la variable predictora y la variable respuesta,
puede ser.
1
2
3
4
5
6
7
8
9
10
C1
x
100
110
120
130
140
150
160
170
180
190
C2
y
45
51
54
61
66
70
74
78
85
89
3. Seleccione el men Estadsticas.

4. Seleccione el men Regresin.
5. Hacer clic en Regresin.
6. Cuando aparezca el cuadro de dilogo Regresin.
Ingresar C2 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Predictores.
Hacer clic en el cuadro de Grficas.
7. Cuando aparezca el cuadro de dilogo Regresin-Grficas.
Hacer clic en el botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos vs. Ajustes.
Hacer clic en el cuadro Residuos vs las variables.
Ingresar C1 en el cuadro Residuos vs las variables.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Resultados.
8. Cuando aparezca el cuadro de dilogo Regresin-Resultados.
Hacer clic en Ecuacin de regresin, tabla de coeficientes, s,
R-cuadrado y anlisis bsico de varianza.
Hacer clic en el cuadro de Almacenamiento.
20

___________________________________________________________________________________________
9. Cuando aparezca el cuadro de dilogo Regresin-Almacenamiento.

Hacer clic en los cuadros que le interesen.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
Elaboracin de un diagrama de dispersin.
Para mostrar el empleo de Minitab en la elaboracin de un diagrama de dispersin,
tomaremos los diez pares de datos concentrados en las columnas de C1 y C2 del
tema anterior sobre Anlisis de regresin lineal.
1. Seleccione el men Grfica.
2. Hacer clic en grfica de dispersin.
3. Cuando aparezca el cuadro de dilogo Grficas de dispersin.
Hacer clic en el cuadro Simple.
4. Cuando aparezca el cuadro de dilogo Grficas de dispersin-simple.
Ingresar C2 en el cuadro de Variables y.
Ingresar C1 en el cuadro Variables x.
Hacer clic en Etiquetas.
5. Cuando aparezca el cuadro de dilogo Grfica de dispersin-etiquetas.
Ingresar Temperatura del horno y resistencia de la varilla en el cuadro de Ttulo.
Ingresar x = temperatura del horno en el cuadro Nota al pie de pgina 1:
Ingresar y = resistencia de la varilla en psi. en el cuadro Nota al pie de pgina 2:
Hacer clic en Mostrar datos.
6. Cuando aparezca el cuadro de dilogo Grfica de dispersin-Vista de datos.
Hacer clic en el cuadro de Smbolos.
21

Regresin mltiple
________________________________________________________________________________________
2. REGRESIN MLTIPLE Y ANLISIS DE CORRELACIN.

2.1 Introduccin.
El anlisis de regresin mltiple est basado en las mismas suposiciones y
procedimientos de la regresin simple. Su ventaja principal es que nos permite
utilizar ms de una variable independiente para estimar la variable dependiente,
aumentando con ella la precisin de la estimacin.
Imagine un agente de bienes y races que desea relacionar el nmero de casas que vende en un mes
con la cantidad de su publicidad mensual. Aqu se puede encontrar una ecuacin sencilla que
relaciona estas dos variables, podemos obtener mayor precisin en nuestra ecuacin incluyendo otra
variable ms, como el nmero de vendedores que se emplea cada mes?
La respuesta es s, pero ahora debemos correlacionar el nmero de agentes de ventas como los
gastos de publicidad para predecir las ventas mensuales de las casas. En este caso se debe utilizar
regresin mltiple y no lineal.
La regresin mltiple y el anlisis de correlacin implican un proceso de tres pasos, los cuales son:
1.
Describir la ecuacin de regresin mltiple.
2.
Examinar el error estndar de regresin mltiple de la estimacin.
3.
Utilizar el anlisis de regresin mltiple, para ver que tan bien describe la ecuacin de
regresin los datos observados.
Adems, en la regresin mltiple podemos observar cada una de las variables independientes y
probar si contribuyen significativamente a la forma en que la regresin describe los datos.
El tema contempla el estudio de los coeficientes de correlacin y determinacin simple, coeficientes
de determinacin y correlacin parcial, coeficientes de determinacin y correlacin mltiple, obtencin
de la ecuacin que mejor se ajusta a los valores observados, error estndar de estimacin, intervalos
de confianza, anlisis de varianza de la regresin mltiple, validacin del modelo y empleo del
software minitab.
2.2 Coeficientes de correlacin.
La correlacin entre dos variables, pasando por alto cualesquiera otras variables que pueden variar
simultneamente, recibe el nombre de correlacin simple o lineal.
La correlacin entre dos variables, cuando una o ms variables permanecen fijas a un nivel constante,
se denomina correlacin parcial.
La relacin combinada entre una variable dependiente y dos o ms variables que varan
simultneamente recibe el nombre de correlacin mltiple.
Supngase que tenemos una variable dependiente Y, y para cada valor de Y existen valores
correspondientes de otras dos variables independientes, X1 y X2.
La correlacin simple o total entre Y y X1 es el coeficiente de correlacin lineal que estudiamos con
anterioridad. Por lo tanto la correlacin simple de Y con X1, utilizando subndices explicativos,
podemos expresarla de la siguiente manera.

Regresin mltiple
________________________________________________________________________________________
(X 1 )(Y )
n
rYX
2
( X 1 )
( Y ) 2
2
2
X 1
Y
n
n
X 1Y
Anlogamente la correlacin simple entre Y y la variable independiente X2 se denota por:
rYX
(X 2 )(Y )
n
2
(X 2 )
(Y ) 2
2
2
X 2
Y
n
n
X 2Y
La correlacin lineal entre las variables independientes X1 y X2 se denomina por:
rX X
1
(X 1 )(X 2 )
n
2
(X 1 )
( X 2 ) 2
2
2
X 1
X 2
n
n
X 1 X 2
La correlacin parcial entre Y y X1, permaneciendo constante X2, se calcula a partir de las
ecuaciones simples anteriores de la manera siguiente.
2
YX 1 X 2
rYX rX X
1 rYX2 1 rX2 X
YX 1
Anlogamente la correlacin parcial entre Y y X2, permaneciendo fija X1 se define de la siguiente

manera.
2
YX 2 X 1
rYX rX X
1 rYX2 1 rX2 X
YX 2
El coeficiente de determinacin mltiple mide la correlacin combinada en porcentaje de X1 y X2

con Y, y este se determina por:
2
Y X1X 2
rYX2 rYX2 2rYX rYX rX X
1 rX2 X
1
Finalmente el coeficiente de correlacin mltiple de X1 y X2 con Y se obtiene sacando la raz

cuadrada al coeficiente de determinacin.

Regresin mltiple
________________________________________________________________________________________
RY X X
1
RY2 X X
1
El valor de R es siempre positivo, fluctuando entre cero y uno; adems su valor es cuando menos
como el menor de los coeficientes simples o parciales. Este hecho sirve como una buena
comprobacin de los clculos.
El problema de visualizar tres variables se complica un poco, ya que con tres variables, la relacin
debe describirse como un plano en el espacio tridimensional. La proyeccin del elipsoide sobre el
plano X1, Y muestra la correlacin simple de X1 y Y. Una seccin a travs del elipsoide paralelo al
plano X1, Y proyectado sobre el mismo, mostrar la correlacin parcial de X1 con X2 fija, denotada por
rYX
1X2
Las figuras siguientes muestran grficamente diversas situaciones. Note como la correlacin mltiple
puede variar, mientras que la correlacin parcial puede ser alta, o viceversa. Pueden incluso la
correlacin parcial ser diferentes en signo.
DIAGRAMA DE DIVERSAS COMBINACIONES DE CORRELACIN

PARCIAL Y MLTIPLE, INCLUYENDO TRES VARIABLES.

Regresin mltiple
________________________________________________________________________________________
Ejemplo. La Secretara de Hacienda est tratando de estimar la cantidad mensual

de impuesto no pagado descubierto por su departamento de auditora; para el
caso desea relacionar las horas de trabajo de auditoras de campo, como el
nmero de horas que sus computadoras usan para detectar impuestos no pagados,
con el fin de predecir los impuestos reales no pagados por los contribuyentes.
La observacin de 10 meses de trabajo ha dado la siguiente informacin.
HORAS DE TRABAJO DE AUDITORES, COMPUTADORAS E IMPUESTOS NO PAGADOS
Mes
Horas de trabajo de
auditorias de campo
(dos ceros omitidos)
X1
Horas en
computadoras
(dos ceros omitidos)
X2
Impuestos reales
no pagados
(millones de dlares)
Y
4

Regresin mltiple
________________________________________________________________________________________
Enero
45
16
29
Febrero
42
14
24
Marzo
44
15
27
Abril
45
13
25
Mayo
43
13
26
Junio
46
14
28
Julio
44
16
30
Agosto
45
16
28
Septiembre
44
15
28
Octubre
43
15
27
Para visualizar tres variables, la relacin debe escribirse en un plano tridimensional que posea
profundidad, longitud y ancho. Para tener una idea intuitiva de sta forma tridimensional, visualice la
interseccin de los ejes Y, X1 y X2 como el rincn de un cuarto.
La grfica siguiente presenta los diez puntos tomados de la muestra, algunos se encuentran por
encima del plano y algunos otros por debajo, las distancias que existen entre los valores observados
(puntos negros) y los valores esperados (puntos blancos) es lo que se conoce como error de
estimacin.
Ahora el problema consiste en decidir, cul de los planos posibles que podemos dibujar entre los
valores observados ser el que mejor se ajuste a los puntos del modelo, ya que por dichos puntos se
puede trazar un nmero ilimitado de ecuaciones.
Para lograr esto, de nuevo utilizamos el criterio de mnimos cuadrados y localizaremos un plano que
logre minimizar la suma de los cuadrados de los errores de estimacin.
RELACIN DE HORAS DE AUDITORIA (X1), HORAS EN COMPUTADORAS (X2) E IMPUESTOS NO

PAGADOS (Y)

Regresin mltiple
________________________________________________________________________________________
a + b1X1 + b2X2
Los clculos de los datos originales para la obtencin de los coeficientes de correlacin se
presentan a continuacin.
272
2
X Y
1
7428
12005
441
2
1
19461
Y 4013
147
2
2
2173
X 2 6485
Con los clculos anteriores obtenemos los coeficientes de correlacin simple, parcial y mltiple de la
manera siguiente.
Los coeficientes de correlacin y determinacin simple son:
441(272)
10
rYX
0.501517
2
441
272 2
19461
7428
10
10
12005
El valor anterior significa que existe correlacin lineal media entre las horas de trabajo de los
auditores y la evasin de impuestos.
6

Regresin mltiple
________________________________________________________________________________________
rYX2 0.501517 2 0.251519

1
Este valor nos indica que las horas de trabajo de los auditores nos explican el 25.15% de la
variabilidad de los impuestos no pagados.
rYX
147(272)
10
0.771462
2
147
2722
2173
7428
10
10
4013
Existe correlacin lineal media alta entre las horas de trabajo de las computadoras y los impuestos no
pagados.
rYX2 0.595153
2
Indica que las horas de trabajo de las computadoras nos explican el 59.51% de la variabilidad de la
evasin de impuestos.
rX X
1
441(147)
10
0.184094
2
441
147 2
19461
2173
10
10
6485
Existe correlacin lineal muy baja (no existe) entre las horas de trabajo de los auditores y las horas
de trabajo de las computadoras.
rX2 X 0.033891
1
Las horas de trabajo de los auditores nos explican el 3.3% de las horas de trabajo de las
computadoras.
Los coeficientes de determinacin y correlacin parcial son:
2
YX 1 X 2
rYX rX X
1 rYX2 1 rX2 X
YX 1
2
YX1 X 2
0.5015 (0.7714)0.1841
1 0.59511 0.0339
0.330364
Significa que las horas de trabajo de los auditores y los impuestos no pagados, estando fijos las horas
de trabajo de las computadoras, nos logran explicar el 33% de la variabilidad de Y.
rYX X 0.330364 0.574773

1

Regresin mltiple
________________________________________________________________________________________
Lo anterior nos indica que existe correlacin parcial media entre las horas de trabajo de los
auditores con la evasin de impuestos, permaneciendo constante las horas de trabajo de las
computadoras.
rYX
rYX rX X
1 rYX2 1 rX2 X
YX 2
2 X1
2
YX 2 X 1
0.7714 (0.5015)0.1841
1 0.25151 0.0339
0.637705
Las horas de trabajo de las computadoras y los impuestos no pagados estando fijos las horas de los
auditores, nos logran explicar el 63.77 %.
rYX X 0.637705 0.798564

2
Existe correlacin parcial media alta entre las horas de trabajo de computadoras e impuestos no
pagados estando fijos las horas de trabajo de los auditores.
Con los valores obtenidos para los coeficientes de correlacin simple obtenemos el clculo del
coeficiente de determinacin mltiple de la siguiente manera:
2
Y X1 X 2
RY2 X X
1
rYX2 rYX2 2rYX rYX rX X

1
1 r
2
X1 X 2
0.2515 0.5951 2(0.5015)(0.7714)(0.1841)

0.728868
1 0.0339
Significa que: las horas de trabajo de los auditores con las horas de trabajo de las computadoras
cuando se manejan conjuntamente nos explican el 72.8% de la variabilidad de los impuestos no
pagados.
As mismo nos dice que existe un error de estimacin del 27.1% = (1 0.729)100, el cual lo podemos
considerar como grande.
Finalmente el coeficiente de correlacin mltiple se obtiene por:
RY X X 0.728868 0.853738
1
El cual nos indica que existe correlacin mltiple alta entre las horas de trabajo de los auditores con
las horas de trabajo de las computadoras y los impuestos no pagados cuando se manejan
conjuntamente.
Para finalizar este subpunto, se presenta una ecuacin general para encontrar el coeficiente de
correlacin mltiple que incluye m variables independientes.
2
2
1 RY2 X 1 ... X m (1 rYX
)(1 rYX2 2 X 1 )(1 rYX
)....(1 rYX2 m X 1 X m1 )
1
3 X1 X 2

Regresin mltiple
________________________________________________________________________________________
Su clculo resulta complicado, pero ms difcil es poder visualizar relaciones entre variables que
incluyen cuatro o ms dimensiones. En su lugar, necesitamos pensar en trminos de las ecuaciones
antes que en los diagramas.
2.3 Coeficientes de regresin.
Hasta el momento solo hemos visto la estrechez de la relacin entre las variables. Deseamos conocer
la naturaleza de las relaciones. Para conocer esto necesitamos una ecuacin de la forma.
Y a b1 X 1 b2 X 2 ...
Los trminos b1, b2, reciben el nombre de coeficientes de regresin parcial. La ecuacin mejor
ajustada de esta forma, ser aquella que haga mnima la suma de cuadrados de los errores de
2
estimacin (Y Y ) . Para encontrar los valores a, b1, b2, que cumplan este requisito, debemos
resolver ecuaciones normales muy parecidas a las ya manejadas.
an b1 X 1 b2 X 2 ... Y
a X 1 b1 X 12 b2 X 1 X 2 ...
a X 2 b1 X 1 X 2 b2 X
2
2
X Y
... X Y
1
Los puntos indican como pueden ampliarse estas ecuaciones para incluir a ms de tres variables.
2.4 Obtencin de la ecuacin de regresin.
El clculo de la ecuacin de regresin, la obtenemos al substituir en las ecuaciones normales
anteriores los valores originales solicitados, obteniendo en nuestro caso un sistema de tres
ecuaciones con tres incgnitas.
Ahora, utilizamos los clculos obtenidos en el punto 2.2 con los datos originales de X1, X2 y Y, con
dichos valores obtenemos un sistema de tres ecuaciones con tres incgnitas desconocidas (a, b 1 y b2).
10a
441b1 147b2 272
441a 19461b1 6485b2 12005

147 a 6485b1 2173b2 4013
Resolviendo por determinantes el sistema anterior nos da:
Det. 1508
Det. a 20840
Det. b1 850
Det. b2 1658
Por lo tanto:
a
Det. a / Det.
a
a
=
=
20840 / 1508
13.819628
b1
Det. b1 / Det.
b1
b1
=
=
850 / 1508
0.563660
9

Regresin mltiple
________________________________________________________________________________________
b2
=
Det. / Det.
b2
b2
b2
=
=
1658 / 1508
1.099469
Es recomendable que los valores estimados de: a, b 1, b2, sean substituidos en alguna de las
ecuaciones del sistema de donde se obtuvieron, para ver si la igualdad se cumple, si esto sucede,
quiere decir que los coeficientes fueron bien estimados.
Luego entonces, la ecuacin que describe la relacin entre el nmero de horas de trabajo de auditoria
de campo, el nmero de horas de computacin y los impuestos no pagados es:
Y a b1 X 1 b2 X 2 ...
Y 13.8196 0.56366 X 1 1.099469 X 2

La interpretacin a los coeficientes de regresin obtenidos es:
El valor a = -13.8196 no debe tomarse muy en cuenta en su aparente implicacin de que los
impuestos no pagados en un mes son negativos en 13 819,600 dlares, si no se realizan horas de
trabajo de auditores ni horas de trabajo de las computadoras.
Pero lo que si nos dice el valor de a, es que la ecuacin que se ajust a los puntos del modelo, corta
al eje de la ordenada Y en un sistema de tres dimensiones en el punto -13.8.
b1 = 0.56366, significa que por cada 100 horas de trabajo adicional de los auditores ( X 1 ), se logran
detectar 563,660 dlares de impuestos no pagados, si la otra variable horas de trabajo de las
computadoras permanece constante en cualquier nivel.
b2 = 1.099469, significa que por cada 100 horas de trabajo adicional de las computadoras ( X 2 ) se
logra detectar 1 099,469 dlares de impuestos no pagados, si las horas de trabajo de los auditores
permanece constante en cualquier nivel.
Ahora bien el departamento de auditoria puede con la ecuacin estimada, hacer predicciones en un
mes en particular para estimar la cantidad de impuestos no pagados, variando a placer tanto la
variable X 1 como la X 2 .
Suponga que el departamento de auditora desea aumentar la cantidad de sus descubrimientos de
impuestos no pagados durante el siguiente mes. Como los auditores entrenados son escasos el
departamento no tiene la intencin de contratar personal adicional. Por lo tanto, el nmero de horas de
trabajo en auditoras de campo, permanecer en el nivel de octubre, alrededor de 4,300 horas. Pero
con el fin de aumentar sus hallazgos de impuestos no pagados, el departamento de auditora espera
aumentar el nmero de horas en computadora a aproximadamente 1,600, por lo tanto:
X1 = 43
X2 = 16
4300 horas de auditora de campo.

1600 horas de tiempo de computadora.
Sustituyendo valores en nuestra ecuacin estimada tenemos.
Y a b1 X 1 b2 X 2
Y 13.8196 0.5637 ( 43) 1.0995(16) 28.0115
En consecuencia, el pronstico para el mes de noviembre que el departamento de auditora espera,

es de una evasin de impuestos de aproximadamente 28 millones de dlares, para esta combinacin
de factores.
10

Regresin mltiple
________________________________________________________________________________________
2.5 Error estndar de estimacin.
La medida de dispersin para cuantificar la relacin entre tres variables es el error estndar de
estimacin, el cual se define como:
SY X 1 X 2
(Y Y )
n k 1
Donde:
Y
valor de la variable dependiente.
valores estimados a partir de la ecuacin de regresin.
nmero de observaciones de la muestra.
total de variables independientes.
El cuadro siguiente muestra los valores estimados para cada combinacin de variable, as como la
suma de cuadrados de las desviaciones.
X1
X2
Y Y
(Y Y ) 2
45
42
44
45
43
46
44
45
44
43
16
14
15
13
13
14
16
16
15
15
29
24
27
25
26
28
30
28
28
27
29.13
25.24
27.47
25.84
24.71
27.50
28.57
29.13
27.47
26.90
0.13
1.24
0.47
0.84
1.29
0.50
1.43
1.13
0.53
0.10
0.0169
1.5376
0.2209
0.7056
1.6641
0.2500
2.0449
1.2769
0.2809
0.0100
8.0078
Puede observarse que la suma de las desviaciones es cero tal como debe ser, esto suministra una
buena comprobacin de los clculos. La suma de cuadrados de la desviacin es 8.0078. Esto
representa la variacin de los impuestos reales no pagados (Y), no asociado con la variacin de horas
de trabajo de auditoria de campo (X1) o de horas de computadora (X2).
Por lo tanto el error estndar de estimacin ser:
SY X 1 X 2
8.0078
1.069566
10 2 1
Es decir se tendr un error de 1 069,566 dlares

NOTA: La suma de desviaciones al cuadrado tambin puede calcularse de la siguiente manera:
( Y ) 2
(Y Y ) 2 (1 R 2 ) Y 2
11

Regresin mltiple
________________________________________________________________________________________
272 2
(Y Y ) 2 (1 0.728868) 7428
8.025
10
Valor muy parecido a 8.0078, la pequea diferencia es debido al ajuste de decimales. Lo anterior nos
permite verificar si los clculos obtenidos en los coeficientes de correlacin simple, parcial, mltiple y
la ecuacin estimada estn correctos.
2.6 Intervalo de confianza para Y.
De manera general un intervalo de confianza alrededor de un valor estimado Y , se define por:
PY tS Y X X Y Y tS Y X X 1
1
La probabilidad de que ste intervalo contenga el valor estimado de
Y , es
1 . Donde t es un
valor t / 2 , ( n k 1) de Student con k igual al nmero de variables independientes y
SY X
1X 2
es el
error estndar de la ecuacin obtenida.

Ejemplo. Se desea un intervalo de confianza al 95%, para la estimacin de impuestos no pagados en
el mes de noviembre obtenido en el punto 2.4, donde se tenan 4,300 horas de trabajo en auditoras
de campo y 1,600 horas de tiempo de computadora, donde Y fue de 28 011,500 dlares como
estimacin del descubrimiento de impuestos no pagados.
Dado que deseamos construir un intervalo de confianza para 28 011,500 dlares con un 95% de
probabilidad, esto implica un = 0.05. Por lo tanto el valor de t localizado en la tabla de Student es
t 0.05 / 2 , (10 2 1) t 0.025 , 7 2.365 , mientras que
el valor de
SY X
1X 2
fue 1 069,566 dlares, por
lo tanto el intervalo ser:
P 28,011,500 2.365(1,069,566) Y 28,011,500 2.365(1,069,566) 0.95

P 28,011,500 2,529,524 Y 28,011,500 2,529,524 0.95
P 25,481,976 Y 30,541,024 0.95
Lo que significa que con un 95% de confianza, el Departamento de Auditoria puede sentirse seguro de
que los descubrimientos reales de evasin de impuestos estarn entre 25.5 y 30.5 millones de
dlares. Asimismo el intervalo nos sugiere que se tiene un error de estimacin del 9% (2 529,524 / 28
011,500)(100).
2.7 Anlisis de varianza de la regresin mltiple.
La prueba de la significancia de la regresin, ms que una prueba de significancia de los coeficientes
individuales, requiere probar la hiptesis de que todos los coeficientes de la regresin son cero y que,
por lo tanto, ninguna de las variables independientes ayuda a explicar la variacin de la dependiente.
Los resultados que se han obtenido hasta esta parte, pueden resumirse en un anlisis de varianza
como se indica a continuacin; con la restriccin de que debe hacerse un anlisis de variacin para
cada variable independiente, con el fin de saber que variable realmente influye significativamente en
la correlacin.
En el ejemplo que venimos estudiando, veremos mediante el anlisis de variacin (ANOVA) cuales
variables independientes son las que realmente influyen en la correlacin, esto es con la finalidad de
12

Regresin mltiple
________________________________________________________________________________________
que si tenemos varias variables independientes podemos quitar aquellas que no influyen
significativamente. Para el caso nos apoyamos en los coeficientes de correlacin obtenidos con
anterioridad.
Las fuentes de variacin para el anlisis de varianza, las sumas de cuadrados y grados de libertad,
cuando se analiza la primera variable independiente X 1 son:
Fuente de
variacin
Suma de
cuadrados
Regresin debido a X 1
2
rYX
( y 2 )
1
Desviacin de la regresin
simple.
2
(1 rYX
) y 2
1
Regresin adicional debido
2
2
rYX
(1 rYX
) y 2
2 X1
1
a X2
mltiple.
Total
Donde
1 R
Y X1 X 2
Grados
de libertad
1
(n 1 ) 1
(n 1 ) 2
S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .D.R.
S .C .D.R.
G.L.D.R.
S .C.R. X 2 C .M .R. X 2
G.L.R. X 2 C.M .R.M .
S .C .R.M .
G.L.R.M .
n1
y 2
y 2 Y 2
Cuadrado
medio
(Y ) 2
n
De manera anloga las sumas de cuadrados para la segunda variable independiente X 2 son:
Fuente de
variacin
Suma de
cuadrados
2
rYX
(y 2 )
2
simple.
2
(1 rYX
) y 2
2
Regresin adicional debido
2
2
rYX
(1 rYX
)y 2
1X 2
2
a X1
mltiple.
Total
1 R
2
Y X1 X 2
y 2
Grados
de libertad
1
(n 1 ) 1
(n 1 ) 2
Cuadrado
medio
S .C.R. X 2 C.M .R. X 2

G.L.R. X 2 C.M .D.R.
S .C .D.R.
G.L.D.R.
S .C.R. X 1 C .M .R. X 1
G.L.R. X 1 C .M .R.M .
S .C .R.M .
G.L.R.M .
n1
13

Regresin mltiple
________________________________________________________________________________________
Las sumas de cuadrados y los grados de libertad para el ANOVA de la variable horas de trabajo de
auditoria ( X 1 ) son:
Suma de cuadrados total.
y 2 7428
272 2
29.6 , con 10 1 = 9 grados de libertad.
10
Suma de cuadrados de la regresin debido a X 1

= (0.2515) 29.6 = 7.44, con 2 1 = 1 grado de libertad.
Suma de cuadrados de la desviacin de la regresin simple
= (1 0.2515) 29.6 = 22.15, con (10 1) 1 = 8 grados de libertad.
Suma de cuadrados de la regresin adicional debido a X 2
= (0.6377) (1 0.2515) 29.6 = 14.13, con 2 1 = 1 grado de libertad.
Suma de cuadrados de la desviacin de la regresin mltiple
= (1 0.7288) 29.6 = 8.03, con (10 1) 2 = 7 grados de libertad.
Concentrando las sumas de cuadrados y los grados de libertad en la tabla siguiente, obtenemos los
cuadrados medios (varianzas) para cada fuente de variacin, para finalmente obtener las F calculadas
para cada variable independiente.
ANLISIS DE REGRESIN MLTIPLE DE IMPUESTOS NO PAGADOS

CONSIDERANDO EL EFECTO TOTAL DE HORAS DE AUDITORIA Y
LUEGO EL EFECTO ADICIONAL DE HORAS DE COMPUTADORA.
Fuente de
variacin
Grados de
libertad
Cuadrado
medio
7.44
7.44
2.68
Desviacin de la regresin simple.
22.15
2.77
Regresin adicional debido a X 2
14.13
14.13
8.03
1.15
Desviacin de la regresin mltiple.

Total
Suma de
cuadrados
29.6
12.29
Para poder decidir si la variable independiente X i influye de manera significativa en la variable

dependiente Y, primero debemos plantear las siguientes hiptesis de trabajo.
H 0 : La variable independiente horas de trabajo de los auditores, no influye de manera

significativa en los impuestos no pagados.
H 1 : La variable independiente horas de trabajo de los auditores, si influye de manera significativa

en los impuestos no pagados.
14

Regresin mltiple
________________________________________________________________________________________
Para decidir si se acepta o rechaza la hiptesis H 0 , se debe considerar la probabilidad de ocurrencia
de la F obtenida en el anlisis de varianza. Si la probabilidad de obtener una F igual a la de la
muestra es menor que 0.05 se rechaza la hiptesis H0.
La probabilidad de obtener una F = 2.68 con un grado de libertad en el numerador y ocho en el
denominador para la variable X 1 , se obtiene de la tabla F de Fisher para diferente valores de
v1 1
v2
= 0.10
3.46
= 0.05
5.32
= 0.01
11.26
Podemos apreciar que la probabilidad de tener un valor de F = 2.68 es mayor a 0.10 o lo que es lo
mismo es mayor a 5%, por lo tanto, se acepta la hiptesis H 0 y se concluye que la variable horas de
trabajo de los auditores no influye de manera significativa en los impuestos reales no pagados.
Una manera prctica para tomar esta misma decisin es: Si F es mayor que
rechaza la hiptesis H 0 ; en nuestro caso como F = 2.68 es menor que
F0.05 , ( v
,v2 )
se
F0.05, (1, 8 ) 5.32 , se
acepta la hiptesis H 0 y se concluye que las horas de trabajo de los auditores no influyen de
manera significativa en los impuestos no pagados.
Las sumas de cuadrados para la segunda variable independiente horas empleadas en computadora (
X 2 ), as como el ANOVA correspondiente se presentan a continuacin.
Suma de cuadrados total = 29.6
Suma de cuadrados de la regresin debido a X 2
= 0.5951 (29.6) = 17.61
Suma de cuadrados de la desviacin de la regresin simple
= (1 0.5951) 29.6 = 11.99
Suma de cuadrados de la regresin adicional debido a X 1
= 0.3303 (1 0.5951) 29.6 = 3.96
Suma de cuadrados de la desviacin de la regresin mltiple
(1 0.7288) 29.6 = 8.03
ANLISIS DE REGRESIN MLTIPLE CONSIDERANDO EL EFECTO

TOTAL DE HORAS EN COMPUTADORA Y LUEGO EL EFECTO
ADICIONAL DE HORAS DE AUDITORIA.
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
17.61
17.61
11.74
Desviacin de la regresin simple.
11.99
1.50
Regresin adicional debido a X 1
3.96
3.96
Desviacin de la regresin mltiple.
8.03
1.15
Total
29.6
3.44
9
15

Regresin mltiple
________________________________________________________________________________________
Dado que la probabilidad de tener una F = 11.74 con v1 1 y v 2 8 para la variable independiente
H 0 : La variable independiente
X 2 , es menor de 0.01 (ver tabla anterior), se rechaza la hiptesis
horas de trabajo de las computadoras, no influye de manera significativa en los impuestos no
pagados y se acepta la hiptesis alterna H 1 : La variable independiente horas de trabajo de las
computadoras, si influye de manera significativa en los impuestos no pagados. Con lo que se
concluye que las horas de trabajo de las computadoras si influyen significativamente en la
estimacin de los impuestos reales no pagados.
NOTAS: La suma de cuadrados de la desviacin de la regresin simple, se puede calcular por
diferencia de la S. C. Total menos S. C. de la regresin debido a X ? . Ejemplo para el primer anlisis.
29.6 7.44 = 22.16
La suma de cuadrados de la desviacin de la regresin mltiple, se puede calcular por diferencia de la
S. C. de la desviacin de la regresin simple menos S. C. de la regresin adicional debido a X ? .
Ejemplo para el segundo anlisis. 11.99 3.96 = 8.03
Puede observarse que en ambos anlisis, la suma de cuadrados de la desviacin de la regresin
mltiple (8.03) es idntico a (Y Y ) 2 ; as mismo el cuadrado medio de la desviacin de la
regresin mltiple (1.15) es idntico a
SY2 X
1X 2
obtenido en el punto 2.5.
2.8 Coeficiente de determinacin.

De los anlisis anteriores tambin lo podemos obtener de la siguiente manera:
RY2 X 1 X 2
7.44 14.13
100 72.87%
29.6
Lo que significa que las variables horas de auditora de campo ( X 1 ) y horas en computadoras ( X 2 )
unidas, logran explicar el 72.9% de la variabilidad de Y.
Por otra parte las horas de auditora de campo de manera individual logran explicar el 25.13% de la
variabilidad de Y, (7.44 / 29.6) 100.
Mientras que las horas de computadora de manera individual logran explicar el 59.49% de la
variabilidad de Y, (17.61 / 29.6) 100.
Los valores calculados anteriormente coinciden con los coeficientes de correlacin obtenidos con
anterioridad, que fueron
RY2 X
1X2
rYX2
rYX2
2.9 Validacin del modelo.

2.9.1 Anlisis residual.
Los residuos o errores de estimacin en la regresin mltiple se definen por ei Yi Yi , los cuales
juegan un papel importante en la validacin del modelo, de igual forma como sucede en la regresin
simple.
Los supuestos del error en el modelo de regresin mltiple son anlogos a las suposiciones del
modelo de regresin lineal simple, siendo estos:
1. Los errores ei son variables aleatorias con promedio igual a cero.
2. Las varianzas de los errores es la misma para todas las variables independientes.
16

Regresin mltiple
________________________________________________________________________________________
3. Los errores son independientes.
4. Los errores son variables independientes que se distribuyen normalmente.
Es conveniente graficar los residuos ei contra X 1 , X 2 y Y , as como obtener la grfica de
probabilidad normal de los residuos. En el ejemplo que nos ocupa los residuos son:
X1
X2
45
42
44
45
43
46
44
45
44
43
16
14
15
13
13
14
16
16
15
15
Yi
Yi
29
24
27
25
26
28
30
28
28
27
29.13
25.24
27.47
25.84
24.71
27.50
28.57
29.13
27.47
26.90
ei
-0.13
-1.24
-0.47
-0.84
1.29
0.50
1.43
-1.13
0.53
0.10
La grfica de residuos ( ei ) contra las horas de trabajo de los auditores ( X 1 ) se presenta a

continuacin, en ella se puede observar que no hay un patrn definido, as mismo observamos que no
hay valores atpicos u observaciones inusuales.
GRFICA DE RESIDUOS CONTRA HORAS DE TRABAJO DE AUDITORES
Residuos vs. x1
(la respuesta es y)
1,5
1,0
Residuo
0,5
0,0
-0,5
-1,0
42
43
44
x1
45
46
En la grfica de residuos ( ei ) contra las horas de trabajo de las computadoras ( X 2 ), se puede

observar que no hay un patrn definido ni observaciones inusuales en relacin con el resto de los
datos.
GRFICA DE RESIDUOS CONTRA HORAS DE TRABAJO DE COMPUTADORAS
17

Regresin mltiple
________________________________________________________________________________________
Residuos vs. x2
(la respuesta es y)
1,5
1,0
Residuo
0,5
0,0
-0,5
-1,0
13,0
13,5
14,0
14,5
x2
15,0
15,5
16,0
Como no hay un patrn en ambas grficas podemos concluir que hay independencia entre los errores,
que son aleatorios y que su media es cero.
En la grfica de residuos ( ei ) contra valores estimados ( Y ) se puede observar que los residuos no
aumentan conforme crece Y , lo que nos indica que las varianzas de los errores es la misma para
todas las variables independientes.
Cuando la dispersin de los residuos aumenta conforme aumenta Y indica que al menos una
varianza no es constante. Si las suposiciones para el modelo de esta prueba no se satisfacen,
entonces no se justifica sacar conclusiones acerca de la significacin estadistica de la ecuacin
estimada. Cuando una varianza no es constante se sugiere trasformar la variable dependiente a
logaritmos para analizarla bajo otra mtrica, esto hace que los valores de la variable dependiente se
compriman y con esto disminuirn los efectos de la varianza no constante.
GRFICA DE RESIDUOS CONTRA VALORES AJUSTADOS
18

Regresin mltiple
________________________________________________________________________________________
vs. ajustes
(la respuesta es Y)
1,5
1,0
Residuo
0,5
0,0
-0,5
-1,0
25
26
27
Valor ajustado
28
29
En la grfica de probabilidad normal de los residuos, encontramos que no hay desviaciones marcadas
de la normalidad que se perciban, por lo tanto el supuesto de que los errores se distribuyen de manera
normal se cumple.
Grfica de probabilidad normal

(la respuesta es Y)
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-2
-1
0
Residuo
Dado que los supuestos en que se basa el modelo se cumplen, podemos concluir que no existe
insuficiencia del modelo, es decir nuestro modelo es vlido.
19

Regresin mltiple
________________________________________________________________________________________
Apndice 2.1 Empleo del software Minitab en regresin mltiple.
Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de regresin mltiple,
utilizaremos el ejemplo de la Secretara de Hacienda, de horas de trabajo de auditores, horas de
trabajo de las computadoras e impuestos no pagados. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo, rotule X1 en C2 X2 (predictoras) y en C3 Y (respuesta).
2. La manera como son concentradas las variables predictoras y la variable respuesta, puede ser.
1
2
3
4
5
6
7
8
9
10
X1
45
42
44
45
43
46
44
45
44
43
X2
16
14
15
13
13
14
16
16
15
15
Y
29
24
27
25
26
28
30
28
28
27

4. Seleccione el men Regresin.
5. Hacer clic en Regresin.
6. Cuando aparezca el cuadro de dilogo Regresin:
Hacer clic en el cuadro de Grficas.
7. Cuando aparezca el cuadro de dilogo Regresin-Grficas:
Hacer clic en al botn Grficas individuales.
Hacer clic en el cuadro Residuos vs ajustes.
Hacer clic en el cuadro Residuos vs las variables:
Ingresar X1 en el cuadro Residuos vs las variables.
Ingresar X2 en el cuadro Residuos vs las variables.
Hacer clic en el cuadro de Resultados.
8. Cuando aparezca el cuadro de dilogo Regresin-Resultados:
Hacer clic en el botn Ecuacin de regresin, tabla de coeficientes, s,
R-cuadrado y anlisis bsico de varianza.
Hacer clic en el cuadro de Almacenamiento.
9. Cuando aparezca el cuadro de dilogo Regresin-Almacenamiento:
Hacer clic en el cuadro Residuos.
Hacer clic en el cuadro Ajuste.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede aprovechar
seleccionando las opciones que desee.
20

Regresin mltiple
________________________________________________________________________________________
21

Diseo completamente al azar y
pruebas de rango mltiple
___________________________________________________________________________________________
3. DISEO DE EXPERIMENTOS
3.1 Introduccin.
El diseo de experimentos est basado en el mtodo cientfico que nos permite

entender y mejorar los procesos, mediante la bsqueda planeada de los factores
que afectan las variables que mejor representan el proceso.
Un experimento es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada de un proceso o sistema, de manera que sea
posible identificar y cuantificar las causas de los cambios en la variable de salida.
Entre los objetivos del experimento pueden citarse:
1. Determinar cules variables tienen mayor influencia en la variable de salida.
2. Determinar el nivel de las variables de entrada al que se

obtiene el nivel deseado de las variables de salida.
3. Determinar el nivel de las variables de entrada al que se
obtiene la menor variabilidad en las variables de salida.
4. Determinar el nivel de las variables de entrada al que
minimicen los efectos de las variables de ruido o
incontrolables.
Dentro de las aplicaciones inmediatas al emplear un diseo experimental, por citar
algunas tenemos: Aumento de la produccin, disminucin de los costos de produccin,
mejorar la calidad de los equipos, verificar si las lneas de produccin trabajan al
mismo ritmo as como reducir los niveles de contaminacin en los procesos
industriales.
La unidad contempla los trminos ms comunes empleados en el tema de diseos
experimentales, as como consejos prcticos en la instalacin de un experimento.
3.2 Trminos ms comunes utilizados en diseo de experimentos.

Unidad experimental.
Divisin ms pequea de material a la que el tratamiento es aplicado. El efecto de
tratamiento es evaluado en la unidad de muestreo, que puede ser una muestra
aleatoria de unidades experimentales, o corresponder a una sola unidad experimental.
1

___________________________________________________________________________________________
Factores, tratamientos o variables independientes.

Son las variables de entrada en un experimento, cuyo efecto se quiere determinar
sobre la variable de respuesta. Tienen las caractersticas de ser medibles, controlables
y de influencia muy pronunciada en la variable de respuesta.
Variables de respuesta.
Son las variables de salida en un experimento. Dentro de las caractersticas que se
desean en una variable de respuesta son:
1. Debe expresarse en unidades apropiadas.
2. Debe reflejar una cantidad o calidad de inters en la unidad experimental.
3. Debe estar asociada con un blanco o condicin deseable (lo que motiva el
experimento).
4. Preferentemente obtenida por mtodos no destructivos o que daen las unidades
experimentales, de tal forma que mediciones repetidas puedan ser hechas.
5. No deben estar cerca de un lmite natural.
6. Debe tener varianza constante.
Repeticin.
Aplicacin de un tratamiento de manera independiente a cada unidad experimental.
Variables controlables.
Son aquellas cuyos efectos no son de inters en el experimento, por lo que se
mantienen constantes, para no tener factores extraos que distorsionen los resultados.
Variables incontrolables (factores superfluos)
No son de inters primario en el experimento. Si no es medible y se considera que

influye sobre la variable de respuesta, puede llegar a ser un factor de riesgo
experimental. Tales factores pueden inflar el error experimental o sesgar los
resultados.
Si es medible, y puede seleccionarse el nivel en cada unidad experimental, entonces
el bloqueo puede ser apropiado. Por el contrario, si es medible, pero los niveles no
pueden ser seleccionados, entonces los factores superfluos llegan a ser una
covariable.
2

___________________________________________________________________________________________
3.3 Clasificacin de los factores o tratamientos de acuerdo a sus niveles.

Factor cualitativo:
Factores cuyos niveles no pueden ser arreglados en orden de magnitud. Los cuales
pueden presentarse sin estructura (ejemplo, se comparan tres variedades de trigo)
y con estructura (ejemplo, se comparan cinco tipos de lavadoras donde dos son
de fabricacin nacional y tres de fabricacin extranjera). El inters en estos
factores se centra en comparacin de medias.
Factor cuantitativo:
Factores cuyos niveles estn asociados con puntos en una escala numrica. Pudiendo
ser estos igualmente espaciados o equidistantes (ejemplo se comparan cuatro
concentraciones e nitrgeno 0, 5, 10 y 15%), o no equidistantes (ejemplo se
comparan tres concentraciones de madera dura (5, 10 y 20%). El inters es la relacin
de los niveles de factor con la variable de respuesta.
Dentro de los principios generales para la seleccin prctica de niveles tenemos:

1. Es necesario saber que clase de modelo es apropiado para el anlisis de
resultados y ser capaz de definir el rango de niveles de factor para los cuales el
modelo es vlido.
2. Los niveles seleccionados pueden cubrir el rango mximo de los niveles del factor
para los que el supuesto modelo se considera que es apropiado.
3. El nmero de niveles debe ser igual al nmero de parmetros en el modelo que se
va a ajustar o uno ms.
En la prctica modelos de ms de cuatro parmetros para un factor singular no son
informativos, y el nmero de niveles para un factor cuantitativo debe casi
invariablemente ser de tres o cuatro. En general deben ser igualmente repetidos.
3.4 Repeticin y error experimental.

La repeticin de un tratamiento consiste en aplicar de nuevo este tratamiento a otra
unidad experimental. As si tenemos r repeticiones de un tratamiento, esto indica que
dicho tratamiento ha sido aplicado independientemente a r unidades experimentales.
La principal funcin de la repeticin es proporcionar un estimador de error
experimental, el cual surge de las variables no controladas (variables de ruido) o en la
falta de uniformidad en la conduccin fsica del experimento.

___________________________________________________________________________________________
El nmero de repeticiones a utilizar en un experimento depende de: La precisin, entre

mayor precisin se requiera ms repeticiones deben utilizarse. El presupuesto, entre
mayor sea el nmero de repeticiones ms caro es el costo del experimento. En la
prctica por lo general se emplean de cuatro a nueve repeticiones.
El error experimental es evaluado a travs de los residuales, cuyo patrn refleja la
consistencia de los efectos del tratamiento. Un tratamiento con residuos muy
pequeos muestra efectos muy similares en todas las repeticiones, en tanto que aquel
con grandes residuos tiene efectos discrepantes en las unidades experimentales. As,
el error debe ser interpretado como una medida de consistencia.
3.5 Criterios para buenos diseos experimentales.
1. El anlisis resultante del diseo debe proporcionar informacin no ambigua de los
objetivos primarios
del experimento. El diseo debe conducir a estimadores
insesgados.
2. El modelo y sus suposiciones deben ser apropiadas para el material experimental.
La tcnica empleada para el anlisis de un experimento, se conoce como anlisis de
varianza (ANOVA) y est diseada especficamente para probar si las medias de ms
de dos poblaciones son iguales o diferentes. Consiste en partir la suma de cuadrados
del total de un experimento, en varias partes, para decidir si o no ciertos factores
introducidos en el diseo experimental producen resultados significativamente
diferentes en la variable de entrada.
3. El diseo debe proporcionar mxima informacin con respecto a los objetivos
principales del experimento por mnima cantidad de esfuerzo experimental.
4. El diseo debe proporcionar algo de informacin con respecto a todos los objetivos
del experimento.
5. El diseo debe tener posibilidad dentro de las condiciones de trabajo del
experimentador.
3.6 Consejos prcticos para la instalacin de un experimento.
1.
Comprensin y planteamiento del problema.
Es necesario desarrollar todas las ideas sobre los objetivos del experimento. Suele ser
importante solicitar la opinin de todas las partes implicadas: cuerpo tcnico,
aseguramiento de la calidad, manufactura, divisin comercial, direccin, clientes y
personal operativo (quienes normalmente saben mucho del asunto pero son con
demasiada frecuencia ignorados).
2. Eleccin de factores y niveles.

___________________________________________________________________________________________
El experimentador debe considerar los factores que variarn en el experimento, los

intervalos de dicha variacin y los niveles especficos a los cuales se har el
experimento.
3. Seleccin de la variable de respuesta.
Al seleccionar la respuesta o variable dependiente, el experimentador debe estar
seguro de que la respuesta que se va a medir realmente provea informacin til
acerca del proceso del estudio.
4. Eleccin del diseo experimental.

Si los tres pasos anteriores se han seguido de manera correcta, este cuarto paso es
relativamente fcil. Para elegir el diseo es necesario considerar el tamao muestral
(nmero de repeticiones), seleccionar un orden adecuado para los ensayos
experimentales, y determinar si hay implicado bloqueo u otras restricciones de
aleatorizacin.
5. Realizacin del experimento.
Cuando se realiza el experimento, es vital vigilar el proceso para estar seguro que
todo se haga bajo lo planeado. En esta fase, los errores en el procedimiento suelen
anular la validez experimental.
6. Anlisis de datos.
Deben emplearse mtodos estadsticos para analizar los datos de modo que los
resultados y conclusiones sean objetivos ms que apreciativos.
7.
Conclusiones y recomendaciones.
Una vez que se han analizado los datos, el experimentador debe extraer conclusiones
prcticas de los resultados y recomendar un curso de accin. En esta fase a menudo
son tiles los mtodos grficos, en especial al presentar los resultados a otras
personas.
El siguiente esquema representa un experimento, el cual no es ms que un proceso
en el que intervienen diferentes tipos de variables.

___________________________________________________________________________________________
VARIABLES DE INVESTIGACIN

___________________________________________________________________________________________
VARIABLES
CONTROLABLES
PROCESO
VARIABLES
INDEPENDIENTES
UNIDADES
EXPERIMENTALES
HOMOGNEAS
VARIABLES DE
RESPUESTA
VARIABLES
INCONTROLABLES
4. DISEO COMPLETAMENTE AL AZAR

4.1 Introduccin.

___________________________________________________________________________________________
Un diseo completamente azarizado, es un modelo en el cual los tratamientos son

asignados completamente al azar a las unidades experimentales o viceversa, donde
las unidades experimentales deben ser lo ms homogneo posible.
El anlisis puede realizarse con variables de salida obtenidas de un diseo controlado
o de muestras aleatorias de poblaciones.
Debido a su simplicidad el diseo completamente al azar es usado ampliamente. Sin
embargo el investigador debe ser cauteloso de que su uso debe limitarse a casos en
los cuales se dispone de unidades experimentales homogneas.
Dentro de las ventajas de este tipo de diseo estn:
1. Permite flexibilidad completa; puede usarse cualquier

nmero de tratamientos o repeticiones; puede variarse a
voluntad el nmero de repeticiones de un tratamiento a
otro; todo el material experimental disponible puede
utilizarse.
2. El anlisis estadstico es fcil an cuando los errores
experimentales difieren de un tratamiento a otro.
3. An cuando los datos de algunas unidades o algunos
tratamientos completos se hayan perdido, o se rechacen por
alguna causa, el anlisis sigue siendo fcil.
La objecin principal de los diseos completamente al azar estriba en su grado de
precisin, ya que la aleatorizacin no se restringe en ninguna forma para asegurar
que las unidades que reciben un tratamiento sean similares a aquellas que reciben
otro tratamiento. Toda la variacin que existe entre las unidades experimentales pasa
a formar parte del error experimental.
En esta unidad se contempla: Ejemplos de instalacin de diferentes tipos de
experimentos, planteamiento de hiptesis de trabajo, anlisis de varianza para un
experimento balanceado y desbalanceado as como anlisis residual para validar el
modelo.
4.2 Ejemplos de la instalacin de experimentos completamente al azar.
Ejemplo 1. Se desean probar tres tipos diferentes de hormonas para determinar el
aumento de peso en las ovejas, adems se decide tener un testigo (control) o sea que
dispone de cuatro tratamientos (A, B, C y D), y se cuenta con 16 grupos de ovejas.

___________________________________________________________________________________________
Numeramos del 1 al 16 los grupos de ovejas y con el auxilio de la calculadora

cientfica o con la tabla de nmeros aleatorios seleccionamos cuatro nmeros al azar
entre 01 y 16, suponga que son 14, 13, 02 y 08 a estos grupos de ovejas se les asigna
el tratamiento A. Nuevamente se seleccionan otros cuatro nmeros sin considerar
los que ya salieron a stos se les asigna el tratamiento B y as sucesivamente.
Ejemplo 2. Se desean probar cuatro niveles de concentracin de madera dura: 5,

10, 15 y 20%, para la elaboracin de bolsas de papel para envasar comestibles.
Para el caso se dispone de seis bolsas para cada tratamiento, las que se realizaron
en una planta piloto. Las 24 bolsas se numeran del 01 al 24 y en forma
completamente al azar se mide la resistencia de cada una de ellas en un probador
de tensin.
Ejemplo 3. Se desean probar tres variedades de alfalfa ms un testigo: V 1, V2, V3, T
(cuatro tratamientos). Para el caso se dispone de 18 parcelas relativamente
homogneas y se desea tener ms informacin de la variedad primera.
Una manera como puede resolverse este problema es asignando cuatro parcelas
completamente al azar a las variedades V2, V3, y T, mientras que a la variedad V 1 se le
asignarn seis parcelas de manera aleatoria.
4.3 Prueba de hiptesis en el anlisis de varianza (ANOVA).
Si i denota la media de la i-sima poblacin y 2 indica la varianza comn de las t
poblaciones, podemos expresar cada observacin yij como i ms el efecto del
tratamiento ms el valor de un componente aleatorio; es decir podemos escribir el
modelo de la manera siguiente:
yij i ij
Para
i = 1, 2,..., t tratamientos
j = 1, 2,..., r repeticiones
La hiptesis a probar de acuerdo al modelo anterior es:

H0: 1 = 2
= . . .=t
H1: i j para alguna i , j
Tambin pueden formularse hiptesis de acuerdo al tratamiento:
H0: t1 = t 2 = . . . = t t
H1: t i t j
para i , j
Otra manera de plantear las hiptesis son:

H0: No existe diferencia entre tratamientos.
H1: Si existe diferencia entre tratamientos.
9

___________________________________________________________________________________________
Una manera ms de plantearlas es:

H0: Los tratamientos son iguales.
H1: Al menos dos tratamientos son diferentes.
4.4 Suposiciones en que se basa el ANOVA en un diseo completamente al

azar.
Para probar las hiptesis de que las muestras se obtuvieron de k poblaciones
normales con medias iguales, el ANOVA parte de las siguientes suposiciones:
1. Los efectos de tratamientos y del error son aditivos.
yij i ij
2. En relacin a los residuos (errores) tenemos:

a). ij son variables aleatorias con media igual a cero.
b). ij se distribuyen normalmente.
c). ij son independientes ( o sea que entre error y error hay independencia).
d). Los errores tienen una varianza comn. V ( ij ) = 2 para todo i , j
3. Las varianzas de los tratamientos son estadsticamente iguales. Esto puede
comprobarse mediante la prueba de Bartett para homogeneidad de varianzas, en
caso de que las varianzas sean diferentes, entonces la transformacin de los datos a
logartmos es lo ms recomendable.
4. La variable de salida (datos) se distribuyen de manera normal.
En la prctica nunca se est seguro de que todas estas suposiciones se cumplen, si
una o ms de estas suposiciones no se satisfacen, se ve afectado el nivel de
significancia y la sensibilidad de la prueba F o t.
Esto trae como consecuencia el rechazo de la hiptesis H 0 cuando sta es cierta, o
sea se determinan ms diferencias no existentes entre tratamientos.
Si el experimentador piensa estar usando 5%, en realidad el nivel que est

empleando es del 7 u 8%.
En los casos donde se detecten este tipo de anomalas, se pueden utilizar las
siguientes medidas para su correccin.
Bajar el nivel de significancia (2.5 o 3%) para que la prueba sea ms o menos al
5%, los otros procedimientos son bsicamente la transformacin de los datos
originales de acuerdo a las suposiciones que no se cumplen.
10

___________________________________________________________________________________________
La transformacin de las variables juega un papel muy importante en el cumplimiento

de estas suposiciones. Por ejemplo si se tienen datos en porcentaje, stos no se
distribuyen normalmente lo ms conveniente es transformarlos a arcoseno, si los
datos que se analizan son pequeos con decimales, lo ms recomendable es
transformarlos a raz cuadrada y si la variable analizada es un cociente de variables se
recomienda la transformacin a logaritmos, y el anlisis se realiza como si fueran
datos originales.
4.5 Ejemplo de ANOVA en un diseo completamente al azar.

El anlisis de varianza est diseado para probar si las medias de dos o ms
poblaciones son iguales estadsticamente. El anlisis pude realizarse con
datos obtenidos bajo un diseo experimental o con muestras de diferentes
poblaciones.
La tcnica consiste partir la suma de cuadrados de la variable de salida en
varias partes, para decidir, si o no, ciertos factores introducidos en el
experimento producen resultados significativamente diferentes en la variable
de entrada.
La prueba se basa en el cociente de dos varianzas, si el cociente es cercano a
uno las medias poblacionales son iguales, cuanto ms difiere de uno, mayor es
la probabilidad de que las medias poblacionales sean diferentes.
Si los resultados de un experimento completamente aleatorio nos dan los siguientes
valores, el anlisis estadstico se procede como se muestra a continuacin:
Tratamientos
T1
I
y11
II
y12
T2
y21
.
.
.
Tt
Total
yij
Repeticiones:
III
y13
...
r
y1r
y22
y23
...
y2r
.
.
.
yt1
.
.
.
yt2
.
.
.
yt3
...
.
.
.
ytr
Y1
Y 2
Y 3
...
Y r
i = 1, 2, , t tratamientos
Total
Promedio
Y1
Y2
y1
y2
.
.
.
.
.
.
Yt
Y
yt
y
j = 1, 2, , r repeticiones
11

___________________________________________________________________________________________
Yi
Se suma sobre j
Yi yij
j 1
Y j
Se suma sobre i
Y j yij
i 1
Suma de totales
i 1
y
j 1
ij
El anlisis de varianza para este tipo de modelo se presenta en la tabla siguiente:
Fuente de
Suma de
variacin
Grados de
cuadrados
t
Y
i 1
2
i
Tratamientos
Cuadrado
libertad
medio
S .C.Trat .
G.L.Trat
Y2
rt
t-1
C .M .Trat .
C .M .error
Error Exptal.
S .C .Tot . S .C .Trat .
t (r - 1)
Total
Y2
Y
rt
i 1 j 1
rt - 1
2
ij
S .C.error
G.L.error
Para decidir si los tratamientos son iguales o diferentes estadsticamente, se saca

la probabilidad de tener una F igual a la obtenida en el ANOVA. Si su
probabilidad es menor a 5% se rechaza H0 (los tratamientos son iguales) y se
acepta H1 (los tratamientos son diferentes).
Ejemplo 1. El departamento de Ingeniera de productos, llev a cabo un
experimento para probar la resistencia de bolsas de papel para envasar
12

___________________________________________________________________________________________
comestibles. Dicho experimento se realiz con cuatro niveles de concentracin de

madera dura 5, 10, 15 y 20% con seis repeticiones para cada tratamiento. Los
resultados de las pruebas en un probador de tensin de laboratorio son los
siguientes expresados en libras por pulgada cuadrada (psi).
C
D
A
C
A
D
14
22
8
17
9
20
D
A
C
B
B
C
19
7
19
18
19
18
B
C
A
A
D
A
Pruebe la hiptesis H 0 : A B C D
12
18
15
11
18
10
D
B
B
D
C
B
25
17
13
23
16
15
a un nivel de significancia del 5%.
Primero ordenamos los datos como se muestra a continuacin.
RESISTENCIA A LA TENSIN DE LAS BOLSAS DE PAPEL (psi).

Repeticiones
Tratamientos
A = 5%
B = 10%
C = 15%
D = 20%
Total
I
7
12
14
19
52
II
8
17
18
25
68
III
15
13
19
22
69
IV
11
18
17
23
69
V
9
19
16
18
62
VI
10
15
18
20
63
Total
60
94
102
127
383
Promedio
10.00
15.67
17.00
21.17
15.96
Las sumas de cuadrados se obtienen de la siguiente manera:

Factor de correccin =
FC Y2 / rt
= 3832/6 (4) = 6112.04

4
2
Suma de cuadrados totales = SCT yij FC
i 1 j 1
= 72 + 82 ++ 182 + 202 FC:

= 6625 - 6112.04 = 512.96
13

___________________________________________________________________________________________
4
Suma de cuadrados de tratamiento =
i 1
2
i
/ r FC
= (602 + 942 ++1272) / 6 FC.

= (38969 / 6) - 6112.04 = 382.79
Suma de cuadrados del error = SCT - SC Trat.

= 512.96 - 382.79 = 130.17
Las sumas de cuadrados obtenidas se concentran en la tabla siguiente para su
anlisis.
ANLISIS DE VARIANZA DE LA RESISTENCIA A LA TENSIN DEL

PAPEL.
Fuente de variacin
Tratamientos
Error experimental
Total
Suma de
cuadrados
382.79
Grados de
libertad
3
Cuadrado
medio
127.60
130.17
512.96
20
23
6.51
22.30
F
19.6
Para decidir si los tratamientos son iguales o diferentes, se obtiene la probabilidad de

tener una F = 19.6 de la tabla F de Fisher. Si la probabilidad de tener una F igual a la
de la muestra es menor al 5 % se rechaza la hiptesis H0.
La manera como se busca la probabilidad en la tabla F es: localizar en la parte
superior de la tabla los grados de libertad para el numerador, en nuestro ejemplo
v1
= 3: posteriormente se busca en la parte izquierda de la tabla los grados de libertad
para el denominador, en nuestro caso v 2 = 20. Donde se intercepten imaginariamente
v1 y v2 se localiza el valor de F de tablas a un cierto nivel . En nuestro caso es:
v1 = 3
v2
20
= 0.10
2.38
= 0.05
3.10
= 0.01
4.94
Aqu se puede ver que el valor de F = 19.6 se encuentra a la derecha de 4.94 por lo
que le corresponde una probabilidad menor a 0.01.
Puesto que la probabilidad de obtener por azar una F = 19.6 es menor a 5%,
H 0 : A B C D y aceptamos la hiptesis alterna
rechazamos la hiptesis
H 1 : i j , con lo que se puede concluir que los promedios de las resistencias de las
bolsas de papel (tratamientos) son diferentes estadsticamente.
14

___________________________________________________________________________________________
En la prctica una manera de concluir lo anterior, es mediante la comparacin de la F

del anlisis de varianza contra una F de tablas a un nivel = 0.05 con v1 y v2 grados
de libertad. Si la F calculada es mayor que la F de tablas, se concluye que existe
diferencia significativa entre los promedios de los tratamientos.
En nuestro caso podemos observar que F = 19.6 es mayor que F 0.05, (3, 20) = 3.10, por lo
que podemos concluir que los tratamientos son diferentes estadsticamente.
4.6 Anlisis residual y validacin del modelo.
En el anlisis de varianza se supone que las observaciones se distribuyen de manera
normal y que las varianzas de los tratamientos son iguales, as mismo que los
residuos se distribuyen normalmente, son independientes y con promedio cero.
Estas suposiciones deben verificarse examinando los residuos, los cuales los
definimos como:
eij yij yi
O sea la diferencia entre el valor observado y su
correspondiente promedio de tratamiento.

Para comprobar la suposicin de varianzas iguales, se grafican los residuos contra el
promedio de tratamiento
yi
(tambien conocido como valor ajustado), la variabilidad
en los residuos no debe depender de ningn momento del valor de
yi .Tambin es
til grafican los residuos contra los tratamientos para comparar la dispersin de los
residuos y ver si se cumplen sus supuestos.
Cuando aparece un patrn en estas grficas, suele indicar la necesidad de una
transformacin, es decir, analizar los datos bajo una mtrica diferente. Por ejemplo si
la variabilidad en los residuos aumenta con
yi
entonces debe hacerse
transformacin logartmica o yij , si los datos estn en porcentaje se recomienda la

transformacin arcoseno, si los valores que se analizan son pequeos debe
emplearse la transformacin a raz cuadrada y si los valores son el resultado de un
cociente de variables estos deben transformarse a logaritmos.
La suposicin de independencia puede verificarse graficando los residuos contra el
tiempo u orden en el que se ejecut el experimento. Un patrn en estas grficas, tal
como la secuencia de residuos positivos y negativos, puede indicar que las
observaciones no son independientes; esto sugiere que el tiempo u orden de la serie
es importante, y no se han incluido en el diseo del experimento.
Continuando con el ejemplo que nos ocupa, obtengamos los residuos para el
experimento de la resistencia a la tensin del papel.
RESIDUOS PARA EL EXPERIMENTO DE RESISTENCIA A LA TENSIN.
Concentracin de
Repeticiones
15

___________________________________________________________________________________________
madera dura
A = 5%
B = 10%
C = 15%
D = 20%
I
-3.00
-3.67
-3.00
-2.17
II
-2.00
1.33
1.00
3.83
III
5.00
-2.67
2.00
0.83
IV
1.00
2.33
0.00
1.83
V
-1.00
3.33
-1.00
-3.17
VI
0.00
-0.67
1.00
-1.17
La grfica de probabilidad normal de los residuos es:

GRFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-5,0
-2,5
0,0
Residuo
2,5
5,0
Puede observarse que no hay anormalidad en la grfica, por lo tanto el supuesto de

normalidad de la variable de salida ( y ij ) se cumple.
Una manera prctica para saber si los datos se distribuyen normalmente es mediante
la obtencin del coeficiente de variacin,
CV CME (100) / y
Donde CME es el
cuadrado medio del error del anlisis de varianza de los datos.

Un criterio prctico que indica normalidad en los datos, es cuando el coeficiente de
variacin toma los siguientes valores:
0 a 10% muy confiable la normalidad.
10 a 20% confiable la normalidad.
20 a 30% poco confiable la normalidad.
Ms de 30% no confiable la normalidad.
En nuestro ejemplo el coeficiente de variacin es
nos indica que la normalidad es confiable.
CV
6.51(100) / 15.96 16% ,
lo que
La grfica de residuos contra tratamientos es:
16

___________________________________________________________________________________________
GRFICA DE RESIDUOS CONTRA TRATAMIENTOS.
En esta grfica se observa que no hay un patrn definido, por lo que podemos decir
que existe independencia entre los errores (no hay tendencia entre ellos), adems de
que el promedio de los residuos es cero (existe igual nmero de residuos positivos
como negativos)
En la grfica de residuos contra los promedios de tratamientos, se observa que no
existe tendencia definida, es decir, la variabilidad de los residuos no aumenta
conforme crece y ij , por lo que podemos concluir que las varianzas son iguales para
cada tratamiento. Como las grficas no muestran en ningn momento falta de
adecuacin del modelo ni algn problema con los supuestos, podemos concluir que
los resultados que da el modelo son vlidos.
GRAFICA DE RESIDUOS CONTRA PROMEDIOS

vs. ajustes
(la respuesta es Resp.)
5
4
3
Residuo
2
1
0
-1
-2
-3
-4
10
12
14
16
Valor ajustado
18
20
22
17

___________________________________________________________________________________________
4.7 Anlisis de varianza en un diseo completamente al azar desbalanceado.

Hay ocasiones en el que el nmero de parcelas experimentales no alcanza para que
todos los tratamientos tengan igual nmero de repeticiones, o nos interesa ms
informacin en particular sobre un determinado tratamiento, o tenemos la necesidad
de comparar muestras tomadas de diferentes poblaciones.
Un experimento se puede desbalancear por la prdida de una unidad experimental,
por causas ajenas al efecto del tratamiento como robo, ataque de una plaga o
enfermedad, descuido, etc.
Tambin se desbalancea un experimento cuando un tratamiento presenta ms
variabilidad que los otros, aqu es recomendable utilizar ms repeticiones para este
tratamiento.
Ejemplo. Como parte de la investigacin del derrumbe del techo de un edificio, un
laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero
en tres distintas posiciones del techo. Las fuerzas requeridas para cortar cada uno
de los pernos en psi son los siguientes:
Posicin
Posicin
Posicin
1
2
3
90
105
83
82
89
89
79
93
80
98
104
94
83
89
91
95
86
Efecte el ANOVA para probar con un nivel de significancia de 0.05, si las diferencias
entre las medias muestrales en las tres posiciones son significativas.
Las hiptesis planteadas son: H0: 1 = 2 = 3 vs
H1: las i no son iguales.
Los datos ordenados para su anlisis se presentan a continuacin:

FUERZAS REQUERIDAS PARA CORTAR LOS PERNOS
Repeticiones
Tratamientos
Posicin 1
Posicin 2
Posicin 3
Total
1
90
105
83
278
2
82
89
89
260
3
79
93
80
252
4
98
104
94
296
5
83
89
6
91
95
7
86
172
186
86
Total
523
661
346
1530
Promedio
87.2
94.4
86.5
Los clculos para la suma de cuadrados son los siguientes:

Factor de correccin = 15302 / 17 = 137700.
18

___________________________________________________________________________________________
S. C. Totales = 138638 137700 = 938.

S. C. Tratamientos = (5232 / 6) + (6612 / 7) + (3462 / 4) FC. = 234.45.
S. C. Error experimental = 938 234.45 = 703.55.
El anlisis de varianza se presenta en la siguiente tabla:

ANOVA DE LA RESISTENCIA A LA TENSIN DE PERNOS
Fuente de variacin
Tratamientos
Error experimental
Total
Suma de
cuadrados
234.45
703.55
938.00
Grados de
libertad
2
14
16
Cuadrado
medio
117.22
50.25
F
2.33
Las probabilidad de tener una F = 2.33 para un = 0.05 con v1 = 2 y v2 = 14 grados de

libertad, se presentan a continuacin.
v1 = 2
= 0.10
2.73
v2
14
= 0.05
3.74
= 0.01
6.51
Puede apreciarse que la probabilidad de tener una F = 2.33 es mayor al 0.10, o lo que
es lo mismo es mayor a 0.05, por lo tanto se acepta la hiptesis H0 y se concluye que
la resistencia promedio de los pernos en las tres distintas posiciones, es la misma
estadsticamente.
Apndice 4.1 Empleo del software Minitab en el anlisis de un diseo
completamente al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis
residual, tomaremos el experimento para probar la resistencia de bolsas de papel
para envasar comestibles. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamiento y en C2 Respuesta.
2. La manera como puede ser concentrada la variable de salida y los tratamientos en
la hoja de clculo es:
1
2
3
Tratamiento
A
A
A
Respuesta
7
8
15
19

___________________________________________________________________________________________
4
5
6
4
.
.
.
24
A
A
A
B
.
.
.
D
11
9
10
12
.
.
.
20

4. Seleccione ANOVA.
5. Hacer clic en Un solo factor.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza-Un solo factor:
Ingresar C1 en el cuadro Factor.
Hacer clic en el cuadro Almacenar residuos.
Hacer clic en Grficas.
7. Cuando aparezca el cuadro de dilogo Anlisis de varianza-Un solo factorGrficas:
Hacer clic en el cuadro Residuos contra ajustes.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
5. PRUEBAS DE COMPARACIN DE MEDIAS

5.1 Introduccin.
Cuando se efecta el anlisis de varianza de un experimento, es con la finalidad de
probar la hiptesis de igualdad de medias de los tratamientos (1 = 2, = = t).
La prueba de anlisis de varianza se basa en el cociente de dos varianzas, si el
cociente es cercano a uno implica evidencia suficiente para inferir que las medias de
los tratamientos son iguales. Cuanto ms difiera de uno la evidencia indica que los
promedios de los tratamientos no pertenecen a una poblacin con una misma media
, sin embargo esto no nos indica que parejas de medias pueden considerarse
estadsticamente iguales.
20

___________________________________________________________________________________________
En estadstica existen diferentes metodologas para separar en grupos iguales

(estadsticamente) los promedios de los tratamientos, al declarar significancia, o no,
entre pares de medias de tratamientos.
Las pruebas estudiadas en este tema son: Diferencia mnima significativa, prueba de
rango mltiple Duncan, prueba de Student Neyman Keuls Test, prueba de Tukey, as
como contrastes ortogonales.
5.2 Diferencia Mnima Significativa (D. M. S.).

Esta prueba no debe utilizarse a menos que la F del ANOVA sea significativa.
Estrictamente hablando la DMS solo debe utilizarse para comparar medias
adyacentes en un arreglo ordenado (medias dispuestas por orden de magnitud).
Cuando esta prueba se usa de manera indiscriminada para probar todas las
posibles diferencias entre diversas medias, ciertas diferencias sern significativas,
pero no en el nivel de significancia que hemos escogido.
En vez de efectuarse el nivel del 5% las comparaciones entre medias con una
separacin mayor de dos en un arreglo ordenado, se realizar en un nivel de
significacin ms bajo.
Para determinar la diferencia estadstica entre medias de tratamientos, se calcula un
valor llamado DMS. Si la diferencia de los promedios de tratamientos es mayor a este
valor, entonces los tratamientos sern diferentes.
En el caso general de un diseo completamente al azar con t tratamientos y r
repeticiones por tratamiento, la DMS se calcula por:
S A B
2S
/ r (t t ( r 1), / 2 )
Donde:
S2 = cuadrado medio del error del ANOVA.
r = nmero de repeticiones.
t = t de Student con los grados de libertad del error, un cierto nivel
deseado, en una prueba bilateral.
Ejemplo: Los siguientes datos corresponden a la resistencia en libras por pulgada

cuadrada de bolsas de papel en dos niveles de concentracin de madera dura.
Repeticiones:
Tratamiento
Total
Promedio
21

___________________________________________________________________________________________
15
11
50
10.0
12
19
17
25
13
28
18
29
19
28
79
129
15.8
=
5
%
B =10%
Total
Su anlisis de varianza correspondiente es el siguiente.

Fuente de
variacin
T
ratami
ento
Error experimental
Total
Suma de
cuadrados
84.1
Grados de
libertad
1
Cuadrado
medio
84.10
78.8
162.9
8
9
9.85
Como la P (F = 8.53) < 5% se rechaza

tratamientos son diferentes.
F
8.53
H 0 : A B y se concluye que los
Dado que se encontraron diferencias entre tratamientos, para aplicar la prueba

DMS lo primero que tenemos de hacer es calcular el error estndar de la
diferencia de medias de la siguiente manera:
S A B S 2 ( 2) / r =
9.85(2) / 5
= 1.985
Calculemos ahora la DMS con un nivel de significancia del 5%, por lo que debemos
obtener primero el valor de t de tablas con tt ( r 1), / 2 , que en nuestro caso es:
t 2 ( 5 1), 0.05 / 2 t8, 0.025 2.306 . Por lo tanto nuestra DMS ser:
DMS : 1.985(2.306) = 4.577
Regla de decisin:
S | A - B | 4.577 se rechaza H0
En nuestro caso la diferencia de medias en valor absoluto es:
|10 15.8| = | 5.8 |, dado que 5.8 es 4.577 se rechaza H0, lo que nos indica que la
media del tratamiento B es mayor estadsticamente a la media del tratamiento A. Esta
prueba es totalmente vlida cuando se tienen dos tratamientos.
22

___________________________________________________________________________________________
Cuando se tiene un experimento desbalanceado el clculo del error estndar de la

diferencia de medias se modifica a:
S A B S 2 / rA S 2 / rB
La prueba t cuando las repeticiones son iguales o diferentes es:
( x A xB ) 0
S A B
El utilizar la prueba t para comparar ms de dos medias de tratamientos es muy

riesgoso, ya que produce gran distorsin en el error tipo I. Por ejemplo, supongamos
que se desea probar la igualdad de cinco medias usando comparaciones por pares,
existen diez posibles comparaciones, y si la probabilidad de aceptar correctamente la
hiptesis nula en cada prueba es 1 = 0.951, entonces la probabilidad de aceptar
correctamente la hiptesis nula en los 10 pares es (0.95) 10 = 0.60, si stas son
independientes. Es as como se produce un incremento sustancial del error tipo I.
5.3 Prueba de Rango Mltiple Duncan.

Esta prueba es una de las ms utilizadas entre las diversas pruebas de rango
mltiple disponibles. La prueba es similar a la DMS para medias adyacente de un
arreglo ordenado, pero requiere valores progresivamente mayores para la
significacin entre medias, en la medida en que stas se encuentran ms
ampliamente separadas en el arreglo. Para esta prueba no es necesario calcular el
valor F y proceder solo si este es significativo, el investigador puede usarla
independientemente de la significacin de F. Los pasos para su aplicacin son:
1. Obtencin del error estndar de la media de tratamientos.
Sx S 2 / r
Donde:
S2 = cuadrado medio del error del ANOVA.
2. Obtener de la tabla de DUNCAN los rangos estudentizados significativos, t -1

valores que llamamos RESi i = 2,3,....,t, de acuerdo con un nivel de significacin
requerido y con los grados de libertad del error.
3. Cada uno de los valores RESi se multiplican por S x , obteniendo los rangos
mnimos significativos RMSi = RESi S x .
23

___________________________________________________________________________________________
4. Se ordenan los promedios de los tratamientos en orden

creciente y se comparan entre si.
5. Si las diferencias de los tratamientos son mayores que la RMS i , entonces se
rechaza la hiptesis H0 : i = j
Ejemplo: Tomemos los valores del ANOVA sobre la resistencia de las bolsas de papel
para envasar comestibles, donde se tienen r = 6 repeticiones, CME = 6.51, GLE = 20 y
con promedios de los tratamientos de: x A 10 , xB 15.67 , xC 17 y xD 21.17 . La
prueba se realizar con un nivel de significacin = 0.05.
1. Obtencin del error estndar de la media de tratamientos.

Sx
6.51 / 6 1.0416
2. Obtencin del RESi, con 20 grados de libertad del error y un = 0.05 de la tabla de
Duncan.
2
2.95
3
3.10
4
3.18
2
3.07
3
3.23
4
3.31
3. Clculo de los RMSi
4. Ordenamiento de los promedios de los tratamientos de menor a mayor.

A
10.0
B
15.67
C
17.0
D
21.17
5. Diferencias de medias y comparacin contra su correspondiente RMS i
D - A = 21.17 10.00 = 11.17 vs 3.31

D - B = 21.17 15.67 = 5.50 vs 3.23
D - C = 21.17 17.00 = 4.17 vs 3.07
C - A = 17.0 10.00
C - B = 17.0 15.67
= 7.00 vs 3.23
= 1.33 vs 3.07 =
B - A = 15.67 10.00 = 5.67 vs 3.07

Los tratamientos son diferentes.
24

___________________________________________________________________________________________
= Los tratamientos son iguales.
Grficamente los tratamientos que son iguales estadsticamente son:

A
_______
c
c
B
C
________________
b
b
D
_______
a
a
En funcin de la variable evaluada (resistencia de las bolsas), el ordenamiento de los

mejores tratamientos en el reporte se hace del mejor al peor, en nuestro caso el mejor
tratamiento es D con una resistencia promedio de 21.17 psi, por lo cual le asignamos
la primera letra (a). No debe olvidarse que para un estudio ms completo debe
contemplarse el anlisis econmico de los tratamientos as como su anlisis residual.
CLASIFICACIN DE TRATAMIENTOS SEGN PRUEBA DE DUNCAN.
Tratamientos
D = 20%
C = 15%
B = 10%
A = 5%
Resistencia promedio Significacin estadstica (1)

en psi.
21.17
a
17.00
b
15.67
b
10.00
c
(1) = Los tratamientos con la misma letra son estadsticamente iguales con una
probabilidad del 95%.
De manera resumida, la prueba nos dice que el tratamiento D es superior
estadsticamente a todos los dems, que le siguen C y B que pueden considerarse
equivalentes, y que ambos son superiores al tratamiento A.
Finalmente solo nos queda decir que la bolsa que se recomienda para envasar
comestibles, es la que tiene una concentracin de 20% de madera dura que es el
tratamiento D.
Para los casos donde se tengan dos o ms tratamientos estadsticamente iguales
como los mejores, se recomienda recurrir al anlisis econmico y recomendar el ms
barato, as como recurrir a las grficas del anlisis residual para recomendar aquel
tratamiento que presente menor variabilidad dentro del grupo de los que son iguales.
Nota: Para el caso de un experimento desbalanceado, se sugiere que el valor
empleado para el clculo de S x sea sustituido por:
rh
t
t
1 / r
i 1
25

___________________________________________________________________________________________
Donde t = t de Student a un nivel utilizado en la prueba con los grados de libertad

del error.
5.4 Prueba de Student Neyman Keuls Test.

Esta prueba es semejante a la de Duncan pero ms estricta y al igual que ella ordena
las medias en orden creciente, pero es menos estricta que la prueba de Tukey; su
procedimiento es como sigue.
1. Primero se calcula el error estndar de la media.
Sx
/r
Donde:
S 2 cuadrado medio del error del ANOVA.
2. Se extraen t - 1 valores de la tabla de porcentaje mximo del rango
estudentizado (tabla de Student Neyman), estos valores son:
q , i, g
Donde:
= nivel de significancia.
i = 2,....., t
g = grados de libertad del error.
3. Obtencin de los rangos mnimos significativos W i
Wi q , i, g S x
4. Se ordenan las medias de tratamiento de menor a mayor y se comparan entre ellas. Si

la diferencia entre dos medias es mayor que el valor W i, entonces se rechaza la hiptesis
H0: i = j
Ejemplo. Considerando los resultados de un experimento donde la variable evaluada fue
la resistencia de una fibra textil para la manufactura de camisas, compuestos por 5
porcentajes de algodn (tratamientos) y 5 repeticiones. El ANOVA dio una S 2 = 8.06 con
20 grados de libertad para el error; siendo los promedios de los tratamientos los
siguientes:
15
9.8,
20
15.4.
25
17.6,
30
21.6 y
35
10.8
1. Calculemos S x 8.06 / 5 1.2696
26

___________________________________________________________________________________________
2. Obtencin de q , i, g con un = 0.05, 5 tratamientos y 20 grados de libertad para el
error, que lo indicamos por q (0.05,5,20)

Newman.
y lo obtenemos de la tabla de Student
2
2.95
3
3.58
4
3.96
5
4.23
2
3.74
3
4.55
4
5.03
5
5.37
3. Clculo de Wi
4. Ordenamiento de los promedios de tratamientos de menor a mayor.
35
15
9.8
10.8
20
15.4
25
17.6
30
21.6
5. Diferencias de medias y comparaciones contra su correspondiente W i
30
30
30
30
15
35
20
25
=
=
=
=
21.6
21.6
21.6
21.6
- 9.8 = 11.8 vs 5.37

- 10.8 = 10.8 vs 5.03
- 15.4 = 6.2 vs 4.55
- 17.6 = 4.0 vs 3.74
25 - 15 = 17.6 - 9.8 = 7.8 vs 5.03

25 - 35 = 17.6 - 10.8 = 6.8 vs 4.55
25 - 20 = 17.6 - 15.4 = 2.2 vs 3. 74 =
20 - 15 = 15.4 - 9.8 =
20 - 35 = 15.4 - 10.8 =
5.6 vs 4.55
4.6 vs 3.74
35 - 15 = 10.8 - 9.8 =
1.0 vs 3.74 =

Visto en una grfica los tratamientos que son estadsticamente iguales para su
formacin de grupos es:
15
35
20
25
30
27

___________________________________________________________________________________________
c
En funcin de la variable evaluada, los mejores tratamientos se presentan a

continuacin.
CLASIFICACIN DE TRATAMIENTO SEGN PRUEBA DE S. NEYMAN.
Porcentaje de algodn
Resistencia promedio
de la fibra
30
25
20
35
15
21.6
17.6
15.4
10.8
9.8
=
=
=
=
=
30%
25%
20%
35%
15%
Significacin
estadstica
(1)
a
b
b
c
c
(1) = los tratamientos con la misma letra son estadsticamente iguales al nivel
indicado.
La prueba nos indica que el tratamiento que tiene el 30% de algodn es
significativamente superior a todos los dems, le siguen los tratamientos con 20 y
25% que son equivalentes estadsticamente y al final se ubican los tratamientos
con 35 y 15% de algodn que son iguales matemticamente pero inferiores a
todos los dems.
Por lo tanto el tratamiento recomendable en este caso es el que contiene el 30% de
algodn.
5.5 Prueba de Tukey.
Esta prueba es tambin conocida como diferencia mnima significativa honesta
(DMSH). Es similar a la prueba DMS, en el hecho de que se utiliza un solo valor para
juzgar la diferencia entre las medias de los tratamientos.
El fundamento primordial de esta prueba es tratar de asegurar no cometer el error
tipo I (pero no detecta diferencias que si pueden ser).
Esta prueba es ms estricta que la de Duncan y la de Student Neyman en el sentido de
que declara menos diferencias significativas. La prueba consiste en:
28

___________________________________________________________________________________________
1. Clculo del error estndar de la media.
Sx S 2 / r
2. Obtencin del valor q , t , g en la misma tabla para la prueba de Student Neyman,
donde:
Donde:
= nivel de significacin.
t = nmero de tratamientos.
g = grados de libertad del error.

3. Clculo del valor Wt = q , t , g S x
4. Ordenamiento de los promedios de tratamientos y comparacin entre ellos.
5. La diferencia entre dos medias se compara con el valor Wt ; si esta diferencia es
mayor que Wt , indica que los tratamientos son diferentes.
Ejemplo. Considere el mismo experimento de la aplicacin de diferentes porcentajes
de algodn para la manufactura de camisas, donde se tienen 5 tratamientos, 5
repeticiones, 20 grados de libertad del error y 8.06 de cuadrado medio del error.
Realice la prueba con un = 0.05
1. Clculo de error estndar de la media.

Sx
8.06 / 5 1.2696
2. Obtenga el valor q (0.05, 5, 20) = 4.23

3. El clculo de W5 = 4.23 (1.2696) = 5.37
4. Ordenamiento de los promedios de tratamientos.
15
9.8
35
20
25
30
10.8
15.4
17.6
21.6
5. Diferencias de medias y su comparacin contra W 5
30 15 21.6 9.80 11.8 vs 5.37
30 35 21.6 10.8 10.8 vs 5.37
29

___________________________________________________________________________________________
30 20 21.6 15.4 6.20 vs 5.37

30 25 21.6 17.6 4.00 vs 5.37
25 15 17.6 9.80 7.80 vs 5.37
25 35 17.6 10.8 6.80 vs 5.37

25 20 17.6 15.4 2.20 vs 5.37
20 15 15.4 9.80 5.60 vs 5.37

20 35 15.4 10.8 4.60 vs 5.37
35 15 10.8 9.80 1.00 vs 5.37

Ordenando y graficando los tratamiento en funcin de la variable evaluada, para determinar los
grupos que son estadsticamente iguales tenemos.
35
15
20
25
a
b
c
d
30
a
b
c
CLASIFICACIN DE TRATAMIENTO SEGN PRUEBA DE TUKEY

Porcentaje de algodn
Resistencia promedio
de la fibra
30
25
20
35
15
21.6
17.6
15.4
10.8
9.8
= 30%
= 25%
= 20%
= 35%
= 15%
(1) = Los tratamientos con la misma letra

indicado.
Significacin
estadstica
(1)
a
ab
bc
cd
d
son estadsticamente iguales el nivel
30

___________________________________________________________________________________________
5.6 Contrastes ortogonales.

Los contrastes ortogonales deben ser planeados antes de llevar a cabo el
experimento. Esto involucra la particin de los grados de libertad y la suma de
cuadrados para los tratamientos en comparaciones componentes. Los cuales pueden
consistir en comparaciones de clase o de tendencia.
Los tratamientos hbilmente son seleccionados para que puedan responder a tantas
preguntas como grados de libertad existan en tratamientos. Esta prueba puede
realizare aun cuando no exista diferencia significativa entre tratamientos.
Dentro de las principales ventajas que presentan son:
1. Permite responder preguntas especficas sobre los efectos del tratamiento.
2. Los clculos son sencillos.
3. Suministra un til control en la suma de cuadrados de tratamientos.
Como desventaja podemos citar que solo se puede aplicar en experimentos
balanceados.
Lo que hacen los contrastes es: comparar un grupo de tratamientos que se parecen
entre s contra otro grupo de tratamientos que son semejantes, pero diferentes al
primer grupo.
Un contraste es una combinacin lineal de los totales de tratamientos, y se representa
por:
t
C CiTi
i 1
Donde:
Ci = coeficiente de los tratamientos
Ti = total del tratamiento.
t
Donde la suma de los coeficientes de esa combinacin lineal debe ser cero.
C
i 1
En un contraste siempre se tendrn signos positivos y negativos, y lo que se va a

comparar son los contrastes con signo positivo contra los que tienen signo negativo.
Dos contrastes con coeficientes C i y di son ortogonales si la suma de su producto da
cero.
t
C d
i 1
Esto nos indica que los contrastes son independientes y sus efectos son separados.
31

___________________________________________________________________________________________
La suma de cuadrados de cualquier contraste se calcula de la siguiente manera y

tiene asociado un solo grado de libertad.
SC (Ci )
C T
i i
i 1
r Ci2
i 1
Dentro de las principales aplicaciones de los contrastes tenemos:

1. Comparacin de medias. Algo acerca de la naturaleza de los tratamientos debe
sugerir que comparaciones sern de inters.
2. Ajuste de polinomios ortogonales. Para factores cuantitativos cuyos niveles
estn igualmente espaciados, los contrastes se aplican para identificar
tendencias en los tratamientos.
Ejemplo. La resistencia a la tensin de cierto sello de corcho, muestra la siguiente
variacin bajo cuatro condiciones de produccin, A, B, C y D. Los resultados por
unidad experimental aparecen en resistencia en libras por pulgada cuadrada.
RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO

Tratamien
to
A
B
C
D
Total
Repeticiones:
3
4
3.8
4.2
3.8
3.5
15.3
4.1
4.2
3.9
3.7
15.9
4.0
4.4
3.7
3.6
15.7
3.8
4.3
3.8
3.7
15.6
Total
Promedio
15.7
17.1
15.2
14.5
62.5
3.92
4.27
3.80
3.63
El anlisis de varianza general para este experimento se presenta en la tabla

siguiente:
ANOVA DE LA RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Tratamiento
Error
0.906875
0.1425
3
12
0.302292
0.011875
25.46
32

___________________________________________________________________________________________
Total
1.049375
15
Dado que los grados de libertad para tratamiento en el ANOVA son tres, por lo tanto
los contrastes que podemos formar tambin son tres.
Para realizar las comparaciones se recomienda ordenar los totales de los tratamientos
de menor a mayor, para poder hacer los grupos de tratamientos que sern
comparados.
D
14.5
C
15.2
A
15.7
B
17.1
Puede observarse que el grupo de tratamientos D, C y A se parecen entre s, pero

son diferentes al grupo B; as mismo dentro del primer grupo el tratamiento D casi no
se parece al grupo C y A; el ltimo grupo a comparar ser el C vs A. Por lo tanto los
contrastes a realizar son: DCA vs B, D vs CA y C vs A.
La tabla de coeficientes (Ci) para las comparaciones, la realizamos mediante la
elaboracin de los contrastes, de la manera siguiente:
Primer contraste. (D, C, A) vs (B)
Cuntos tratamientos tienen el primer grupo?
Tres.
Cuntos tratamientos tiene el segundo grupo? Uno.

Este valor (3) se puede simplificar igual que el del otro grupo (1)? No.
Ahora el coeficiente de un grupo pasa a ser coeficiente del otro grupo y viceversa,
concentrndose en una tabla como se muestra ms adelante.
A los coeficientes de cualquier grupo se les pone signo negativo, de tal manera que
t
se cumpla
C
i 1
Segundo contraste. (D) vs (C, A)

Nos hacemos las mismas preguntas que se hicieron en el primer contraste y
obtenemos sus coeficientes que son: 1 y 2. As mismo se cambian los coeficientes por
grupo y se le asigna signo negativo a uno de ellos.
Dado que solo participan los tratamientos D, C y A, al tratamiento B se le pone cero
en la tabla de coeficientes.
Tercer contraste. (C) vs (A)
33

___________________________________________________________________________________________
C vs A
1
1
TABLA DE COEFICIENTES Ci
Totales por tratamiento
D
C
14.5
15.2
-1
-1
-2
1
0
-1
Comparaciones
(D, C, A) vs B
D vs (C, A)
C vs A
A
15.7
-1
1
1
B
17.1
3
0
0
Ya realizada la tabla, verificamos si son ortogonales los contrastes, esto es verificar

t
si se cumple
C d
i
i 1
Primer contraste vs segundo contraste.
(D, C, A) vs (B)
(D vs C, A)
(-1) (-2) + (-1) (1) + (-1) (1) + (3) (0) = 0
Esto nos indica que los contrastes son independientes y sus efectos son
separados.
Primer contraste vs tercer contraste.
(D, C, A) vs (B)
(C vs A)
(-1) (0) + (-1) (-1) + (-1) (1) + (3) (0) = 0

Segundo contraste vs tercer contraste.
(D vs C, A) y (C vs A)
(-2) (0) + (1) (-1) + (1) (1) + (0) (0) = 0
Aqu se planearon tres contrastes que coinciden con los grados de libertad de
los tratamientos.
34

___________________________________________________________________________________________
La suma de cuadrados para los contrastes se obtiene de la siguiente forma:
SC (C i )
C T
i 1
t
i i
r C i2
i 1
Suma de cuadrados para el primer contraste.

4
C T = (-1)(14.5)+(-1)(15.2)+(-1)(15.7)+(3)(17.1) = 5.9
i
i i
4
2
i
i 1
= (-1) 2 + (-1)
+ (-1) 2 + (3) 2 = 12
SC (C1) = (5.9) 2 / 4(12) = 0.725208333

Segundo contraste:
4
C T
i 1
4
2
i
= (-2) 2 + (1) 2 + (1)2 = 6
C
i 1
= (-2)(14.5)+(1)(15.2)+(1)(15.7)+(0)(17.1) = 1.9
SC (C2)= (1.9) 2 / 4(6) = 0.150416666

Tercer contraste:
4
C T
i 1
4
C
i 1
2
i
= (0)(14.5)+(-1)(15.2)+(1)(15.7)+(0)(17.1) = 0.5
= (-1)2 + (1)2 = 2
SC (C3)= 0.5 2 / 4(2)= 0.03125
Puede observarse que la suma de cuadrados de los contrastes es idntica a la suma

de cuadrados de tratamientos obtenida en el ANOVA anterior, esto nos garantiza
que los cuadrados de los contrastes fueron bien calculados. El nuevo anlisis de
varianza incluyendo contrastes se presenta en la siguiente tabla.
ANOVA DE LA RESISTENCIA A LA TENSIN DE UN SELLO DE CORCHO
Fuente de
Suma de
Grados de
Cuadrado
F
35

___________________________________________________________________________________________
variacin
Tratamientos
(D, C, A) vs (B)
D vs
(C, A)
C vs A
Error
Total
cuadrados
0.90687499
9
0.72520833
3
0.15041666
6
0.03125
0.1425
1.049375
libertad
3
medio
0.725208333
61.1
0.150416666 12.7
1
12
15
0.03125
0.011875
2.6
Como P (F = 61.1) es menor a 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se

acepta la hiptesis alterna, con lo que se concluye que en base a la evidencia
experimental los grupos de tratamientos son diferentes.
Como P (F = 12.7) es menor a 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se
acepta la hiptesis H1, concluyendo que los grupos de tratamientos son diferentes.
Como P (F = 2.6) es mayor a 0.10 (mayor a 5%), se acepta la hiptesis H 0 y se
concluye que los grupos de tratamientos son estadsticamente iguales.
Grficamente los tratamientos con sus correspondientes
estadsticamente son iguales se muestran a continuacin:
D
3.63
C
3.80
A
3.92
que
B
4.27
a
promedios
Dado que la variable analizada es la resistencia a la tensin de cierto sello de corcho,

por lo tanto el ordenamiento del mejor tratamiento se empieza con el tratamiento B,
como se muestra a continuacin:
CLASIFICACIN DE TRATAMIENTOS SEGN CONTRASTES ORTOGONALES
Tratamiento
B
A
C
D
Resistencia promedio a la
tensin en psi.
4.27
3.92
3.80
3.63
Significacin estadstica
(1)
a
b
b
c
36

___________________________________________________________________________________________
(1) = Los tratamientos con la misma letra son estadsticamente iguales.

En resumen el experimento nos indica que el tratamiento B es estadsticamente
superior a todos los dems, le siguen el A y C que son equivalentes, pero superiores al
tratamiento D que quedo en ultimo lugar, por lo que el tratamiento a recomendar es el
B.
A manera de resumen de las pruebas de rango y contrastes ortogonales se presenta
el siguiente esquema, el cual indica la mejor prueba que deber realizarse segn los
tipos de factores a investigar.
RESUMEN DE PRUEBAS A REALIZAR SEGN

LOS TIPOS DE FACTORES
EXPERIMENTO
FACTORES
CUALITATIVOS
NIVELES CON
ESTRUCTURA
NIVELES SIN
ESTRUCTURA
FACTORES
CUANTITATIVOS
IGUALMENTE
ESPACIADOS O
EQUIDISTANTES
NO
EQUIDISTANTES
37

___________________________________________________________________________________________
CONTRASTES
ORTOGONALES
PRUEBA DE
RANGO
MLTIPLE
CONTRASTES
ORTOGONALES
REGRESIN
38

___________________________________________________________________________________________
6. DISEO DE BLOQUES AL AZAR

6.1 Introduccin.
Es uno de los diseos ms utilizados. Mejora la precisin de comparaciones entre tratamientos, al
eliminar la variabilidad entre unidades experimentales en diferentes bloques.
Un bloque es un conjunto de unidades experimentales homogneas para probar los

tratamientos. La homogeneidad debe ser relativa a caractersticas de las unidades
experimentales que influyen fuertemente sobre la variable de respuesta.
La variacin entre bloques debe ser grande para que el diseo sea realmente eficiente en comparacin
con el diseo completamente aleatorio. Si no hay variacin entre bloques el diseo completamente al
azar es el ms apropiado.
El mecanismo de distribucin de los tratamientos debe ser completamente al azar y de manera
independiente dentro de cada bloque. El bloque funciona como una variable de control, no se pueden
probar hiptesis en los bloques ya que no existen repeticiones en los bloques.
En todo caso su interpretacin puede ser: si la F de bloques es mayor que uno, indica que se gan
eficiencia contra el diseo completamente aleatorio, y si es menor que uno quiere decir que no se gan
mucha eficiencia.
Dentro de esta unidad se contemplan los subtemas siguientes: Ventajas de este diseo, anlisis
estadstico, validacin del modelo y estimacin de datos perdidos.
6.2 Ventajas del diseo de bloques al azar.
1. Se obtienen resultados ms exactos que cuando se utiliza

el diseo completamente aleatorio.
2. Pueden incluirse cualquier nmero de repeticiones y
tratamientos. Si se
desean repeticiones adicionales para
algunos tratamientos, cada uno de estos puede aplicarse a
dos unidades dentro de cada bloque.
3. El anlisis estadstico es fcil. Cuando se pierden algunas
unidades experimentales, stas se pueden calcular por la
tcnica de parcelas perdidas desarrollada por Yates.
4. Ningn otro diseo es utilizado tan frecuentemente en las reas de investigacin como el de bloques
al azar.
6.3 Ejemplos de la instalacin de experimentos en bloques al azar.
Ejemplo 1. Se van a comparar seis variedades de avena (A, B, C, D, E, F) con respecto a su
rendimiento, disponindose de 30 parcelas experimentales y se observa evidencia que existe tendencia

___________________________________________________________________________________________
en la fertilidad de norte a sur. De acuerdo con esto parece razonable agrupar a las parcelas en cinco
grupos de seis parcelas por bloque.
As en el primer bloque estarn las seis parcelas ms frtiles y en el ltimo bloque las seis parcelas
menos frtiles. Una vez hecho esto, las seis variedades se asignan de manera aleatoria en el primer
bloque, posteriormente se aleatorizan en el segundo bloque y as sucesivamente en los dems bloques.
Ejemplo 2. Se van a probar 10 raciones de alimento para la engorda de ganado, para la investigacin
se dispone de 40 toros de la misma raza pero con diversos pesos, aqu es recomendable hacer 40 /10 =
4 grupos o bloques de 10 animales cada uno tomando en cuenta su peso. As los toretes ms pesados
se agruparn en un bloque, los menos pesados en otro y as sucesivamente.
Los 10 tratamientos (raciones) se asignan de manera aleatoria en el primer bloque, posteriormente en
el segundo y as sucesivamente.
Ejemplo 3. Se desea determinar si cuatro diferentes puntas (tratamientos) producen una diferencia en
las lecturas de un equipo para medir la dureza. La mquina funciona presionando la punta sobre una
lmina de metal y determinando la dureza de la punta a partir de la profundidad de la marca que se
produce. Sabemos que las lminas son ligeramente diferentes en cuanto a dureza ya que provienen de
diferentes vaciados.
Para la prueba se dispone de cuatro lminas, por lo que una lmina ser considerada como un bloque y
en cada una de ellas el investigador debe probar cada una de las cuatro puntas de manera aleatoria,
con lo que tendr 16 unidades experimentales.
Puede observarse en cada ejemplo que la variabilidad dentro de cada bloque es chica, mientras que la
variabilidad entre bloques es grande, o sea que un bloque nos sirve como una unidad de control.
6.4 Anlisis estadstico.
Suponga que se tiene t tratamientos (que deben ser comparados) y b bloques, donde se realiza una
observacin por tratamiento en cada bloque y el orden en que los tratamientos son medidos en cada
bloque se determina aleatoriamente. El modelo estadstico para este diseo es:
yij i j ij
i = 1, 2,..., t tratamientos
Donde
es una media general,
i es
j = 1, 2,..., b bloques
el efecto del i-simo tratamiento ,
es el efecto de j-simo
bloque y ij es el trmino usual N(0; ) de error aleatorio. Por lo que un diseo de bloques al azar lo
podemos representar por:
Tratamientos
1
y11
Bloques:
2
Total
Promedio
y12
y1b
y 21
y 22
y2b
Y1
Y2
y1
y 2
y31
y32
y3b
Y3
y 3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2

___________________________________________________________________________________________
t
. . .
yt 1
yt 2
ytb
t
t
Total
.
.
.
Yb
Y1
Y 2
Y
Y
y
y
Las sumas de cuadrados para las fuentes de variacin son:

2
Factor de correccin = FC = Y.. / bt

t
S. C. Totales
y FC
2
ij
i 1 j 1
S. C. Tratamientos
i.
i 1
b
b
S. C. Bloques
2
.j
j 1
FC
FC
S. C. Error = S. C. Totales S. C. Tratamientos S. C. Bloques.
Estas sumas de cuadrados se concentran en la siguiente tabla para su anlisis de varianza (ANOVA).
Fuente de
variacin
Suma de
cuadrados
2
i
i 1
Tratamientos
b
Bloques
Y
j 1
t
Error Exptal.
2
.j
Y2
bt
Y2
bt
Grados de
libertad
Cuadrado
medio
S .C.Trat .
G.L.Trat
C .M .Trat .
C .M .error
t-1
b-1
S .C.Bloq.
G.L.bloq
S .C.Tot . S .C.Trat . S .C.Blo. (b -1) (t -1)
C.M .Bloq.
C.M .error
S .C.error
G.L.error
3

___________________________________________________________________________________________
Y2
Y
bt
i 1 j 1
t
Total
2
ij
bt - 1
Si la probabilidad de tener una F igual a la del ANOVA es menor a 5% se rechaza la hiptesis H 0: los
tratamientos son iguales y se acepta la hiptesis H1: al menos un tratamiento es diferente.
Ejemplo. Se efectu un experimento para determinar el efecto de cuatro diferentes compuestos
qumicos en la resistencia de una fibra. Estos compuestos se emplearon como parte del proceso de
acabado de planchado permanente. Se seleccionaron cinco muestras de fibra de diferentes lotes de
produccin (bloques), y en cada muestra se probaron los cuatro compuestos qumicos en forma
aleatoria, los resultados se presentan en libras por pulgada cuadrada (psi) en la siguiente tabla.
Bloques
1
2
3
4
5
B
C
D
D
B
Tratamientos
D 3.9
A 1.6
A 0.5
C 1.5
A 1.1
2.2
1.7
2.0
4.1
1.8
C
D
B
B
C
1.8
4.4
0.4
2.0
1.3
A
B
C
A
D
1.3
2.4
0.6
1.2
3.4
Lo primero que tenemos que hacer es organizar los datos como lo muestra el siguiente cuadro.
RESISTENCIA DE LA FIBRA DE CUATRO COMPUESTOS QUMICOS

Tratamientos
A
B
C
D
Total
y j
1
1.3
2.2
1.8
3.9
9.2
2.3
Bloques:
3
0.5
0.4
0.6
2.0
3.5
0.88
2
1.6
2.4
1.7
4.4
10.1
2.53
4
1.2
2.0
1.5
4.1
8.8
2.2
5
1.1
1.8
1.3
3.4
7.6
1.9
Total
yi
5.7
8.8
6.9
17.8
39.2
1.14
1.76
1.38
3.56
1.96
Las sumas de cuadrados para el anlisis de varianza (ANOVA) se obtienen de la siguiente manera:
Factor de correccin =
Y2 / bt = 39.2
4
S. C. Totales
y
i 1 j 1
S. C. Tratamientos
Y
i 1
2
i.
2
ij
/ 5(4) = 76.83
FC 102.52 76.83 25.69
FC
474.38
76.83 18.04
5

___________________________________________________________________________________________
5
S. C. Bloques
Y
j 1
t
S. C. Error
2
.j
FC
334.1
76.83 6.69
4
= S. C. Totales S. C. Tratamientos S. C. Bloques

= 25.69 18.04 6.69 = 0.96
La tabla del anlisis de varianza se presenta a continuacin.

ANOVA DE LA RESISTENCIA DE LA FIBRA
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total
Suma de
cuadrados
18.04
6.69
0.96
25.69
Grados de libertad
Cuadrado medio
3
4
12
19
6.01
1.67
0.08
75.13
20.87
Para decidir si existe diferencia significativa entre los compuestos qumicos, se obtiene la probabilidad
de tener una F = 75.13 de la tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra
es menor al 5% se rechaza la hiptesis H0: los tratamientos son iguales y se acepta la hiptesis
alterna H1: al menos un tratamiento es diferente.
La manera como se busca la probabilidad en la tabla F es: localizar en la parte superior de la tabla los
grados de libertad para el numerador de la razn F que se tienen en el ANOVA, en nuestro caso v 1 = 3;
posteriormente se busca en la parte izquierda de la tabla los grados de libertad del denominador, en
nuestro ejemplo
v2 = 12. Donde se intercepten v1 y v2 se localiza el valor de F esperada en el
anlisis a cierto nivel de . En nuestro caso son:
v1 =
v2
12
= 0.10
2.61
3
= 0.05
3.49
= 0.01
5.95
Se puede ver que el valor de F = 75.13 se encuentra a la derecha de 5.95 por lo que le corresponde una
probabilidad menor a 0.01. Puesto que la probabilidad de que se hubiese obtenido por mero azar una F
= 75.13 es menor al 5%, rechazamos la hiptesis nula (H0: 1 = 2 =. . . = y se acepta la hiptesis
alterna
(H1: i j para alguna i , j) , con lo que se puede concluir que existe
diferencia altamente significativa en cuanto a resistencia en psi se refiere de los compuestos qumicos,
o sea los tratamientos son diferentes.
En el ANOVA se observa que la F calculada para bloques fue mayor que uno, en nuestro caso es de
20.87. Esto nos indica que al haber utilizado el diseo de bloques al azar para probar el efecto de los
tratamientos, se logr ganar eficiencia ante el diseo completamente al azar, es decir, que se realiz un
buen bloqueo.
El error experimental lo construyen la interaccin entre bloques y tratamientos. Por lo que no debe
existir interaccin entre estas dos fuentes de variacin. O lo que es lo mismo, si el tratamiento A es
bueno en el bloque uno, as debe ser en los dems bloques. Si se presenta interaccin, los datos deben
ser analizados bajo otra mtrica (transformarlos).

___________________________________________________________________________________________
Los resultados de la prueba Duncan se muestran a continuacin, as como la agrupacin de los
promedios de tratamientos.
A
2
b
b
c
yi .
4
a
La clasificacin de los mejores tratamientos se presenta en la tabla siguiente.

CLASIFICACIN DE TRATAMIENTOS SEGN PRUEBA DE DUNCAN
Compuestos qumicos
D
B
C
A
Resistencia promedio de la
fibra en psi.
3.45
1.76
1.38
1.14
Significacin estadstica
a
b
bc
c
La prueba nos indica que el tratamiento D es superior estadsticamente a todos los dems, le siguen B y
C que pueden considerarse equivalentes, pero C es semejante matemticamente a A.
Para este caso el compuesto qumico a recomendar es el tratamiento D, por lograr dar mayor
resistencia a la fibra.
6.5 Anlisis residual y verificacin del modelo.
Los supuestos en que se basa el anlisis de varianza para dar al modelo como vlido son:
a)
b)
c)
d)
e)
Las varianzas de los tratamientos son iguales.

Las varianzas de los bloques son iguales.
No existe interaccin entre bloques y tratamientos.
Los errores (residuos) son aleatorios con media igual a cero.
La variable de salida se distribuye normalmente.
Con el fin de verificar los supuestos del ANOVA antes citados, iniciaremos por calcular los residuos as
como los valores ajustados, con el fin de poder realizar las grficas correspondientes.
Los residuos para el diseo de bloques al azar son justo la diferencia entre los valores observados ( yij
ij ), y se define por:
) y los ajustados ( y
eij yij y ij
Mientras que los valores ajustados son:
y ij yi . y. j y..
As el residuo e11 que corresponde al tratamiento A del primer bloque, en el ejemplo de la comparacin
de los cuatro compuestos qumicos es:
e11 y11 y 11
6

___________________________________________________________________________________________
Donde y11 y1. y.1 y.. 1.14 2.3 1.96 1.48
Por lo tanto
e11 1.3 1.48 0.18
ij )
El valor ajustado ( y
representa la estimacin de la respuesta media cuando se ejecuta el
tratamiento i-simo en el bloque j-simo. Los dems residuos se obtendrn de manera anloga, los
cuales aparecen en la siguiente tabla.
RESIDUOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A
B
C
D
1
-0.18
0.10
0.08
0.00
2
-0.11
0.07
-0.24
0.27
Bloques:
3
0.44
-0.27
0.30
-0.48
4
-0.18
0.00
-0.12
0.30
5
0.02
0.10
-0.02
-0.10
Si graficamos los residuos contra los tratamientos y bloques podemos apreciar que:
En la primera grfica de residuos contra tratamientos, el tipo de compuesto D que proporciona la
resistencia ms grande, presenta variabilidad un poco mayor en cuanto a resistencia.
As mismo en esta grfica se puede apreciar que no existe un patrn definido en los residuos, por lo que
podemos decir que el supuesto de igualdad de varianzas en los tratamientos se cumple. En igual
forma se puede apreciar que los residuos son aleatorios y con promedio de cero.
En la segunda grfica de residuos contra bloques se observa que en la muestra de

fibra (bloque 3) existe mayor variabilidad en la resistencia cuando se trata con los
cuatro componentes qumicos que las otras muestras.
As mismo se puede apreciar que no existe un patrn definido en esta grfica, lo
anterior nos indica que el supuesto de igualdad de varianzas en los bloques se
cumple, por lo tanto los resultados obtenidos por el ANOVA son vlidos.
Cuando aparece un patrn en alguna de las grficas, por lo general suele indicar la necesidad de una
transformacin de los datos originales, esto es, analizar la variable de salida en una mtrica diferente.
0.5
0.3
GRFICA DE RESIDUOS CONTRA TRATAMIENTOS
0.1
0
-0.1
-0.3
7
-0.5

___________________________________________________________________________________________
GRFICA DE RESIDUOS CONTRA BLOQUES
Residuos vs. Bloques

(la respuesta es Respuesta)
0,50
Residuo
0,25
0,00
-0,25
-0,50
1
3
Bloques
Es recomendable realizar una grfica de residuos contra y (valores ajustados)

para probar la interaccin de tratamientos y bloques. Si la grfica resultante
presenta la forma de curva, esto nos sugiere que existe interaccin, si esto
sucede, debe usarse alguna transformacin de los datos originales. y volver a
realizar el ANOVA y las pruebas de rango, pero ahora con los nuevos valores.
ij
El cuadro siguiente muestra los valores ajustados para cada uno de los tratamientos en los diferentes
bloques.
VALORES AJUSTADOS PARA LA RESISTENCIA DE LA FIBRA
Compuesto
qumico
A
1
1.48
2
1.71
Bloques:
3
0.06
4
1.38
5
1.08
8

___________________________________________________________________________________________
B
2.10
2.33
0.68
2.00
1.70
C
1.72
1.95
0.30
1.62
1.32
D
3.90
4.13
2.48
3.80
3.50
Si relacionamos los valores de los residuos obtenidos con anterioridad en el eje y con los valores
ajustados del cuadro anterior en el eje x, obtenemos la siguiente grfica:
ij
GRFICA DE eij CONTRA y
0.6
0.4
0.2
ij
0
0
0.5
1.5
2.5
3.5
4.5
-0.2
-0.4
-0.6
Valores ajustados para la resistencia de la fibra
Como los residuos no presentan la forma de curva, podemos concluir que no existe interaccin entre
bloques y tratamientos.
La grfica que nos dice si la variable de salida se distribuye de manera normal, es la de probabilidad
normal de los residuales, que se presenta a continuacin.
GRFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS

___________________________________________________________________________________________
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-0,50
-0,25
0,00
Residuo
0,25
0,50
Puede observarse que no hay anormalidad en la grfica, por lo tanto el supuesto de normalidad de la
variable de salida ( y ij ) se cumple.
Otro indicador prctico que nos dice si la variable de salida se distribuyen de manera normal es el
coeficiente de variacin, que se simboliza por:
CV CME (100) / y
Donde CME es el cuadrado medio del error del anlisis de varianza de los datos.
Un criterio prctico que indica normalidad en los datos, es cuando el coeficiente de variacin toma los
siguientes valores:
0 a 10% muy confiable la normalidad.
10 a 20% confiable la normalidad.
20 a 30% poco confiable la normalidad.
Ms de 30% no confiable la normalidad.
En nuestro ejemplo el coeficiente de variacin es de 14.4%, lo que nos indica que la normalidad es
confiable.
CV
0.08 (100) / 1.96 14.4%
Dado que no se presentaron anomalas al realizar el anlisis residual, concluimos de manera general,
que en base a la evidencia experimental nuestro modelo utilizado para analizar la informacin es vlido.
6.6 Datos faltantes en un diseo de bloques al azar.
Muchas veces despus de haber realizado un gran esfuerzo en la planeacin y la conduccin del
experimento, nos encontramos con el problema de que se pierden parcelas experimentales. Esto es
muy comn debido a:
10

___________________________________________________________________________________________
Un animal muere por causas ajenas al tratamiento, una parcela en el campo se inunda, nos destruyen
la informacin de una unidad experimental, un tubo de ensayo se quiebra en el laboratorio, un roedor
nos destruye una unidad experimental en la fbrica, etc. Donde todos estos acontecimientos son ajenos
a los efectos de los tratamientos.
Esto comnmente ocasiona un desbalanceo en el experimento. Si estamos en un diseo
completamente al azar no hay problema ya que se trabaja como experimento desbalanceado, pero en
un diseo bloques al azar, un dato faltante destruye usualmente el balance, ya que todos los
tratamientos deben estar en cada bloque.
Qu hacer cuando se desbalancea un experimento?
1. Falta un bloque completo. Cuando falta uno o ms bloques, el anlisis se

procede de forma normal, siempre y cuando tengamos por lo menos dos bloques.
2. Falta totalmente un tratamiento. Nuevamente el anlisis se procede
normalmente, siempre y cuando nos hayan quedado por lo menos dos
tratamientos.
3. La situacin que ocurre comnmente es la falta de una unidad
experimental. En este caso, existe un mtodo desarrollado por Yates para estimar
un dato perdido mediante el algoritmo matemtico siguiente:
yp
tT bB G
(b 1)(t 1)
Donde:
t = nmero de tratamientos.
b = nmero de bloques.
T = total del tratamiento correspondiente al dato perdido.
B = total del bloque correspondiente al dato perdido.
G = suma de todas las observaciones reales.
Para mayor precisin en la prueba de F, a la suma de cuadrado de tratamientos se le sustrae la
cantidad.
B (t 1) y
Z
t (t 1)
Donde:
B = total no corregido del bloque donde se present la observacin faltante.
El valor estimado ( y p ) se reemplaza en el lugar correspondiente y el ANOVA se realiza en la forma
usual, excepto que se sustrae un grado de libertad en el error y el total.
Tomemos el ejemplo de los datos de diferentes compuestos qumicos en la resistencia de una fibra,
suponiendo que se perdi el tratamiento A del bloque cuatro.
Tratamientos
A
B
1
1.3
2.2
2
1.6
2.4
Bloques:
3
0.5
0.4
4
2.0
5
1.1
1.8
Total
4.5
8.8
11

___________________________________________________________________________________________
C
1.8
1.7
0.6
1.5
1.3
6.9
D
3.9
4.4
2.0
4.1
3.4
17.8
Total
9.2
10.1
3.5
7.6
7.6
38.0
Para estimar el dato perdido tenemos:
yp
tT bB G 4( 4.5) 5(7.6) 38
1.5
(b 1)(t 1)
(5 1)(4 1)
La correccin para la suma de cuadrados de tratamientos ser:
B (t 1) y
Z
t (t 1)
7.6 (4 1)1.5
4(4 1)
0.80
El valor obtenido de la parcela perdida de 1.5, es substituido en la tabla correspondiente del dato
faltante y se realiza el anlisis de varianza de la manera acostumbrada, teniendo cuidado de restarle a
la suma de cuadrados de tratamientos la correccin, que en nuestro caso es 0.80, as como restar un
grado de libertad en el error y el total.
Tratamientos
A
B
C
D
Total
1
1.3
2.2
1.8
3.9
9.2
Bloques:
3
0.5
0.4
0.6
2.0
3.5
2
1.6
2.4
1.7
4.4
10.1
4
1.5
2.0
1.5
4.1
9.1
5
1.1
1.8
1.3
3.4
7.6
Total
6.0
8.8
6.9
17.8
39.5
Las sumas de cuadrados y grados de libertad se presentan a continuacin.

S. C. Tratamientos
S. C. Tratamientos corregida
S. C. Bloques
S. C. Error
S. C. Total
=
=
=
=
=
17.566
17.566 0.8 = 16.766, con 3 g. l.
6.86 con 4 g. l.
25.32 17.56 6.86 = 0.90 con 11 g. l.
25.32 con 18 g. l.
Observe que a la suma de cuadrados del error se le rest la suma de cuadrados de tratamientos sin
corregir. El ANOVA correspondiente queda definido por:
ANOVA DE LA RESISTENCIA DE LA FIBRA
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total
Suma de
cuadrados
16.77
6.86
0.90
25.32
Grados de libertad
Cuadrado medio
3
4
11
18
5.590
1.715
0.082
68.17
20.92
6.6.1 Cuando se tiene varios datos perdidos.

12

___________________________________________________________________________________________
Cuando en el experimento se presentan varios datos perdidos en diferentes bloques, el procedimiento
para estimarlos se presenta a continuacin:
1. Se estiman todos los datos perdidos excepto uno de ellos. Una aproximacin razonable para ellos
se puede obtener calculando
( y j yi ) / 2 .
2. El dato restante se estima siguiendo el procedimiento de cuando existe solo un dato perdido.
3. Con esta aproximacin y los valores previamente asignados, se escoge otro de los datos y
nuevamente se aproxima por la tcnica cuando existe solo un dato perdido, y as sucesivamente.
4. Despus de completar un ciclo, una segunda aproximacin se realiza para todos los valores en el
orden dado previamente. Esto se contina hasta que no existen diferencias esenciales a la
aproximacin encontrada en el ciclo previo. Usualmente dos ciclos son suficientes.
5. Los valores estimados se introducen en la tabla junto con los valores observados y el ANOVA se
efecta. Por cada dato perdido se sustrae un grado de libertad tanto al total como en el error.
6.
Para mayor precisin en la prueba F, a la S. C. de tratamientos se le sustrae la cantidad:
B (t 1) y B (t 1) y
Z
2
t (t 1)
Donde:
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 1a observacin faltante.
B = total sin corregir de todas las observaciones en el mismo bloque en
que se present la 2a observacin faltante.
Ejemplo. Considere el siguiente experimento donde la variable evaluada fue el rendimiento, y en el
experimento se perdieron dos unidades experimentales (tratamientos B bloque 1 y tratamientos D
bloque 3).
RENDIMIENTO...
Tratamientos
A
B
4.4
C
D
E
F
Total
Bloques:
2
Total
ya
5.9
1.9
6.0
4.9
4.1
7.1
20.4
13.9
4.4
6.8
4.0
6.6
4.5
yb
3.1
6.4
16.0
19.8
6.3
6.4
28.3
4.9
6.3
29.6
5.9
7.7
29.0
7.1
7.7
35.5
24.2
28.1
122.4
Los clculos para la obtencin de las parcelas perdidas son:
13

___________________________________________________________________________________________
1.
Iniciemos por calcular la primera parcela perdida yb.
yb
2.
Estimacin de ya en el primer ciclo como si se tuviera una sola parcela

perdida.
tT bB G 6(13.9) 4( 28.3) (122.4 6.2)
4.5
(b 1)(t 1)
( 4 1)(6 1)
ya
3.
Estimacin de yb en el primer ciclo.
yb
4.
tT bB G 6(19.8) 4( 29) (122.4 4.5)
7.2
(b 1)(t 1)
( 4 1)(6 1)
Estimacin de ya en el segundo ciclo.
ya
5.
(29 / 5) (19.8 / 3)
6 .2
2
tT bB G 6(13.9) 4( 28.3) (122.4 7.2)
4.47
(b 1)(t 1)
( 4 1)(6 1)
Estimacin de yb en el segundo ciclo.
yb
tT bB G 6(19.8) 4( 29) (122.4 4.47)
7.2
(b 1)(t 1)
( 4 1)(6 1)
Si nicamente tenemos dos observaciones faltantes (no en el mismo bloque) la correccin necesaria
para los sesgos en la suma de cuadrados de tratamientos es:
B (t 1) y B (t 1) y
Z
2
t (t 1)
Donde sustituyendo valores en las incgnitas correspondientes tenemos.
28.3 (6 1)4.47
29 (6 1)7.2
2.81
6(6 1)
2
Los valores estimados de y a y y b se concentra en la tabla correspondiente y se procede a la

realizacin del ANOVA.
Tratamientos
A
B
C
D
4.4
4.47
4.4
6.8
Bloques:
2
5.9
1.9
4.0
6.6
Total
6.0
4.9
4.5
7.2
4.1
7.1
3.1
6.4
20.4
18.37
16.0
27.0
14

___________________________________________________________________________________________
E
6.3
4.9
5.9
7.1
24.2
F
6.4
6.3
7.7
7.7
28.1
Total
32.77
29.6
36.2
35.5
134.07
Las sumas de cuadrados para las fuentes de variacin son:
S. C. Tratamientos
S. C. Tratamientos corregida
S. C. Bloques
S. C. Total
S. C. Error
=
=
=
=
=
29.46
29.46 2.81 = 26.65
4.50
51.95
51.95 29.46 4.50 = 17.99
Los grados de libertad para las fuentes de variacin son:

Fuente de variacin
Grados de
libertad
Normal
5
3
15
23
Tratamientos
Bloques
Error experimental
Total
corregido
5
3
13
21
El anlisis de varianza correspondiente para el experimento donde se perdieron dos datos se presenta
a continuacin:
Fuente de
variacin
Tratamientos
Bloques
Error Exptal.
Total
Suma de
cuadrados
26.65
4.50
17.99
51.95
Grados de libertad
Cuadrado medio
5
3
13
21
5.33
1.50
1.38
3.86
1.09
Si faltan ms de dos observaciones, o si faltan dos observaciones en el mismo bloque, debe hacerse
correccin por sesgos o tendencias en la suma de cuadrados de tratamientos.
Apndice 6.1 Empleo del software Minitab en un diseo bloques al azar.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para determinar el efecto de cuatro diferentes compuestos qumicos en la
resistencia de una fibra. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Tratamientos, en C2 Bloques y en C3 Respuesta.
2. Para concentrar los tratamientos (A, B, C, D) sern utilizados nmeros en lugar de letras. La manera
como son concentrados los tratamientos, los bloques y la variable de salida en la hoja de clculo, puede
ser:
1
2
3
4
5
6
.
Tratamientos
1
1
1
1
1
2
.
Bloques
1
2
3
4
5
1
.
Respuesta
1.3
1.6
0.5
1.2
1.1
2.2
.
15

___________________________________________________________________________________________
.
.
.
.
.
.
.
.
.
.
.
.
20
4
5
1.9
5. Hacer clic en Dos factores.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factores:
Ingresar C1 en el cuadro Factor de fila.
Ingresar C2 en el cuadro Factor de la columna.
Hacer clic en el cuadro Almacenar ajustes.
7. Cuando aparezca el cuadro de dilogo Anlisis de varianza-de dos factoresGrficas:
Hacer clic en el cuadro Residuos vs ajustes.
Hacer clic en el cuadro Residuos vs las variables.
Ingresar C2 en el cuadro Residuos vs las variables.
En los cuadros de dilogo, MINITAB tiene otras posibilidades ms que usted puede aprovechar
16

Arreglos factoriales
___________________________________________________________________________________________________________________
7. ARREGLOS FACTORIALES
7.1 Introduccin.
Hasta ahora hemos estudiado experimentos simples, en los que solo se
compara un factor en diversos aspectos, es decir donde solo existe una causa
pertinente de variacin. Ahora veremos la comparacin de varios factores,
con diferentes niveles en cada uno.
Se entiende por arreglo factorial, cuando se investigan todas las
posibles combinaciones de los niveles de los factores en cada ensayo completo
o rplica del experimento.
Los factores pueden ser cualitativos o cuantitativos, los primeros son aquellos que
no pueden ser arreglados en orden de magnitud, mientras que los segundos estn
asociados con puntos en una escala numrica.
Los factores generalmente se denotan con letras maysculas y los niveles con letras minsculas o
nmeros; si hay a niveles del factor A y b niveles del factor B, entonces cada replica del experimento
contiene todas las ab combinaciones de los tratamientos.
Por ejemplo, se comparan los factores A y B, donde el factor A esta compuesto por los niveles , , , ,
y el factor B por los niveles 1, 2, 3. Por lo tanto el total de tratamientos que se tendrn son 4 x 3 = 12,
como se muestra a continuacin.
B
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
Ahora estos 12 tratamientos pueden instalarse bajo las normas de cualquier diseo experimental con n
repeticiones.
Una caracterstica importante de los arreglos factoriales es que la asignacin de

los niveles de cada uno de los factores a las unidades experimentales se puede
hacer independientemente. Sin embargo, hay ocasiones en que los niveles de uno
de los factores son inherentes a las unidades experimentales, como por ejemplo,
cuando se estudia el sexo en los animales en combinacin con otros factores.
El modelo del arreglo factorial puede ser descrito en primer trmino por el modelo
del diseo correspondiente, con el subndice de tratamientos corriendo hasta el
nmero de combinaciones de los niveles de los factores. El efecto de los
tratamientos puede ser luego desglosado en efectos principales y efectos de
1

___________________________________________________________________________________________________________________
interaccin bajo el modelo:

yijk i j ( )ij ijk
i = 1, 2,, a niveles del factor A.
j = 1, 2,, b niveles del factor B.
k = 1, 2,, n repeticiones por tratamiento.
El efecto i est asociado con el factor A o sea el efecto principal, donde A va a tener de 1 a a niveles;
aqu se tiene nicamente un efecto lineal.
El efecto j est asociado con el factor B que va de 1 a b niveles; aqu se estudia el efecto principal
lineal y cuadrtico.
7.2 Efecto principal de un factor.
Qu significa efecto principal? Es la ganancia o prdida al pasar de un nivel a otro. Por ejemplo
considere el arreglo siguiente.
Factor
Factor
a1
b1
20
a2
40
b2
30
52
El efecto principal del factor A podra interpretarse como la diferencia entre la respuesta promedio en el
primero y segundo nivel de ese factor, numricamente ser:
40 52 20 30
21
2
2
Lo que significa, incrementar el factor A del nivel 1 al 2, produce un cambio en la respuesta promedio de
21 unidades.
Para factores cualitativos, el efecto principal solo representa la diferencia de medias entre las categoras
probadas.
Para factores cuantitativos, el efecto principal representa el cambio en respuesta promedio al pasar del
nivel bajo al nivel alto del factor.
Si los factores aparecen con ms de dos niveles, se pueden definir comparaciones ortogonales entre
niveles del factor cualitativo; o bien, efectos lineales, cuadrticos, cbicos, etc. Entre los niveles de un
factor cuantitativo.
7.3 Efectos de interaccin.

Cuando en un experimento se investigan varios factores y uno de ellos influye sobre los efectos de otro,
se dice que existe interaccin entre estos factores. Es muy importante tener en cuenta la interaccin

___________________________________________________________________________________________________________________
para la interpretacin de los resultados, porque da lugar a una variacin distinta para cada factor, de la
que hubiera producido actuando por si solo.
Lo anterior significa que a la variacin ocasionada por los factores considerados, actuando
independientemente, se suma una nueva variabilidad, debido a la influencia de uno de los factores
sobre el otro.
Una interaccin es significativa cuando el efecto del factor A no es el mismo en todos los niveles del
factor B, es decir, el efecto principal de A depende del nivel de B.
A menudo la interaccin enmascara la significancia de efectos principales, por lo que la
interpretacin de esta es ms til que la de efectos principales. Por ejemplo considere el segundo
arreglo.
Factor
Factor
A
a1
b1
20
b2
40
a2
50
12
Aqu el efecto de A en el primer nivel de B es:

A = 50 20 = 30
Mientras que en el segundo nivel de B el efecto de A es:
A = 12 40 = -28
Puede observarse que hay interaccin entre los factores A y B, porque el efecto de A depende del
nivel elegido de B.
Grficamente la interaccin podemos mostrarla de la siguiente manera.
Consideremos el primer arreglo. Grafiquemos la respuesta de los niveles del factor A para ambos
niveles del factor B. Puede observarse que las rectas b1 y b2 son aproximadamente paralelas. Esto
indica que no hay interaccin entre los factores.
60
50
40
Respuesta
30
20
10
B2
B1
B2
B1
A2
A1
Factor A

___________________________________________________________________________________________________________________
Si de manera anloga graficamos los datos del segundo arreglo, se observan que las rectas b 1 y b2 no
son paralelos. Esto indica que existe interaccin entre A y B.
60
50
40
Respuesta
30
20
10
B1
B2
B1
A1
A2
B2
Factor A
La representacin de este tipo de grficas es muy til para interpretar

interacciones significativas; sin embargo, no es la nica tcnica, porque su
interpretacin es subjetiva y su apariencia a menudo es engaosa.
7.4 Ventajas de los arreglos factoriales.
1. Son ms eficientes que los experimentos de un solo factor, ya que cada

observacin proporciona informacin acerca de cada uno de los factores por
separado y de la interaccin.
2. Un arreglo factorial es necesario cuando la interaccin de los factores es significativa.
3. Los efectos de un factor son estimados a varios niveles de los otros factores, produciendo
condiciones vlidas en un rango de condiciones experimentales.
7.5 Comparaciones mltiples en un arreglo factorial.

Cuando la interaccin es significativa, las medias pueden compararse de dos maneras.
1. Fijar uno de los factores a un nivel especfico, y aplicar la prueba de rango mltiple Duncan a las
medias de los niveles del otro factor.
2. Comparar todas las (a b) medias de tratamientos para determinar cuales difieren significativamente.
En este anlisis, diferencias entre las medias incluye efectos de interaccin as como tambin de
efectos principales.
Cuando la interaccin no es significativa, las comparaciones deben hacerse entre las medias
individuales de hileras y/o columnas (que representan las medias de los niveles de los factores en una
tabla de doble entrada) para descubrir las diferencias especficas.
7.6 Anlisis de varianza para un arreglo de dos factores.

___________________________________________________________________________________________________________________
El siguiente cuadro muestra un arreglo factorial con dos factores utilizando un diseo completamente al
azar, se considera el caso de n repeticiones de las combinaciones de tratamientos determinados por a
niveles del factor A y b niveles del factor B.
B
Total
A
y111
y112
.
.
y121
y122
.
.
. . .
. . .
. . .
y1b1
y1b2
.
.
y11n
y12n
T1 1.
T1 2.
. . .
T1 b.
y211
y212
.
y221
y222
.
. . .
. . .
y2b1
y2b2
.
y1bn
.
.
y21n
T2 1.
T1 ..
.
.
y22n
y2bn
T2 2.
. . .
T2 b.
.
.
.
.
.
.
ya11
ya12
.
.
.
ya1n
ya21
ya22
.
.
.
ya2n
Ta 1.
Ta 2.
Total
T.1.
T.2.
. . .
Promedio
y.1.
y.2.
. . .
y1 ..
Promedio
T2 ..
y2 ..
.
.
.
. . .
. . .
. . .
yab1
yab2
.
.
.
yabn
Ta b.
T.b.
y.b.
Ta ..
ya..
T...
y...
Donde:
T.
Ti..
Tj.
T...
y.
yi..
y.j.
y...
= suma de las observaciones en la ij-sima celda.

= suma de las observaciones para el i-simo nivel del factor A.
= suma de las observaciones para el j-simo nivel del factor B.
= suma de todas las a b n observaciones.
= media de las observaciones en la ij-sima celda.
= media de las observaciones para el i-simo nivel del factor A.
= media de las observaciones para el j-simo nivel del factor B.
= media de todas las a b n observaciones.

___________________________________________________________________________________________________________________
Concentrando los Tij del cuadro anterior, tenemos.

B
Total
A
. . .
T11.
T12.
2
.
.
.
T21.
.
.
.
T22.
.
.
.
Ta1.
Ta2.
. . .
Tab.
Ta..
Total
T.1.
T.2.
. . .
T.b.
T...
. . .
T1b.
T1..
T2b.
T2..
.
.
.
.
.
.
El modelo al que se ajusta nuestro experimento es:

yijk i j ij ijk
Lo anterior implica que cada una de las observaciones tiene influencia de los efectos principales y de la
interaccin si es que existe.
Sobre el modelo anterior se imponen las siguientes restricciones:
a
i 0
i 1
i 0
j 0
j 1
i 1

j 1
Las tres hiptesis a ser probadas son las siguientes:

H0: 1 =
=. . .=
H1: al menos una de las

H0: 1 =
= 0
is no es igual a cero.
b = 0
H1: al menos una de las j s no es igual a cero.
=. . .=
H0: ()11 = ()12 = . . . =
()ab
= 0
H1: al menos una de las () s no es igual a cero.

Los clculos de la suma de cuadrados para la fuente de variacin de este arreglo son:
Factor de correccin
= FC
T...2
abn
6

___________________________________________________________________________________________________________________
Suma de cuadrados totales =
2
ijk
i 1 j 1 k 1
Suma de cuadrados de A
2
i ..
i 1
FC
bn
b
Suma de cuadrados de B
2
. j.
j 1
FC
an
a
Suma de cuadrados (A B) =
FC
T
i 1 j 1
2
ij .
S .C. A. S .C .B FC
Suma de cuadrados del error = S.C.T. - S.C.A. - S.C.B. - S.C. (A B)

Estos clculos se concentran en la tabla del anlisis de varianza y se procede a su clculo de la manera
siguiente.
ANOVA PARA UN ARREGLO FACTORIAL DE DOS FACTORES
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Efecto principal
A
S.C.A.
a1
S12
S12 / S 2
B
Interaccin de
dos factores
AB
S.C.B.
b1
S 22
S 22 / S 2
(a1)(b1)
S 32
S 32 / S 2
S.C. (A B )
Error
S.C.E.
ab(n1)
Total
S.C.T.
abn1
En la tabla del anlisis de varianza,

significativa.
S2
lo primero que debe hacerse es ver si la
interaccin es
La interaccin quiere decir que a la variacin ocasionada por los factores en estudio, actuando
independientemente, se suma una nueva variabilidad, debida a la influencia de uno de los factores
sobre el otro.
Si hay evidencia de que los factores interactan, entonces dichos factores deben considerarse
conjuntamente, es decir, no se puede concluir acerca de sus efectos en forma individual.
Los efectos principales pueden ser interpretados individualmente, solo cuando

7

___________________________________________________________________________________________________________________
no hay evidencia de que los factores interactan.

Si los efectos principales no son significativos pero hay evidencia de
interaccin, podra ser el resultado de un encubrimiento y plantear la necesidad
de observar la influencia de cada factor en niveles fijos de otro.
7.7 Ejemplos de arreglo factorial con dos factores.
Ejemplo 1. Se llev a cabo un experimento para probar tres sistemas de misiles y

cuatro tipos diferentes de propulsores. La variable de salida fue el consumo de los
propulsores para los 12 tratamientos. En el experimento se obtuvieron dos
repeticiones de promedios de consumo en cada combinacin de tratamientos, los
datos despus de codificarse se muestran a continuacin.
PROMEDIOS DE IGNICIN DEL PROPULSOR
Sistema de
misiles
b1
Tipo de propulsor:
b2
b3
b4
a1
34.0
32.7
30.1
32.8
29.8
26.7
29.0
28.9
a2
32.0
33.2
30.2
29.8
28.7
28.1
27.6
27.8
a3
28.4
29.3
27.3
28.9
29.7
27.3
28.8
29.1
Utilice un nivel de significancia de 0.05 para probar las siguientes hiptesis:

a) H0: No existe diferencia entre los promedios de consumo de los tres diferentes misiles.
b) H0: No existe diferencia entre el promedio de consumo de los cuatro tipos de propulsor.
c) H0: No existe interaccin entre los diferentes sistemas de msiles y los diferentes tipos de
propulsor.
Hiptesis de trabajo
a) H0 :
= 0
H1 : Al menos una de las

b) H0:
H1: Al menos una de las
is no es igual a cero.
4 = 0
j s no es igual a cero.
8

___________________________________________________________________________________________________________________
c) H0: ()11 = ()12 = ()13 = ... = ()34 = 0
H1: Al menos una de las () s no es igual a cero.

Del primer cuadro sumamos las celdas de cada tratamiento y construimos la tabla de totales siguiente:
Sistema de
misiles
b1
Tipo de propulsor:
b2
b3
b4
Total
a1
66.7
62.9
56.5
57.9
244.0
a2
65.2
60.0
56.8
55.4
237.4
a3
57.7
56.2
57.0
57.9
228.8
Total
189.6
179.1
170.3
171.2
710.2
Obtencin de las sumas de cuadrados:

= FC. = 710.2 2 / 3(4)2
Factor de correccin
= 21016.00
Suma de cuadrados totales = 34.02 + 32.72 + ...+ 29.12 - FC.

= 21107.68 - 21016.00 = 91.68
= (244.02 + 237.42 + 228.82) / 8 - FC.

= 21030.52 - 21016.00 = 14.52
= (189.62 + 179.12 + 170.32 + 171.22) / 6 - FC

= 21056.08 - 21016.00 = 40.08
Suma de cuadrados (A B)
= (66.72 + 65.22 + ...+ 57.92) / 2 - S.C.A

S.C.B - FC
= 21092.77 - 14.52 - 40.08 - 21016 = 22.17
Suma de cuadrados del error = 91.68 - 14.52 - 40.08 - 22.17 = 14.91

Estos resultados se concentran en la tabla siguiente para su anlisis correspondiente.
ANOVA PARA LOS PROMEDIOS DE IGNICIN DEL PROPULSOR
Fuente de variacin
Sistema de misiles
Tipo de propulsor
Interaccin
Error
Total
Suma de
cuadrados
14.52
40.08
22.17
14.91
91.68
Grados de
libertad
2
3
6
12
23
Cuadrado
medio
7.26
13.36
3.70
1.24
F
5.85
10.77
2.98

___________________________________________________________________________________________________________________
Lo primero que tenemos que hacer en el ANOVA, es ver si existe interaccin entre los factores
principales. Como la probabilidad de tener una F = 2.98 es mayor a 5%, se acepta la hiptesis H 0, y se
concluye que no existe interaccin entre los sistemas de misiles y los tipos de propulsor. Lo anterior
significa que los sistemas de misiles no interfieren en los tipos de propulsor, ni estos en los niveles de
misiles.
Como no existe interaccin entre los factores principales, procedemos a concluir de manera particular
para cada uno de los factores en el ANOVA, de lo contrario tendramos que hacer comparaciones
separadas para cada nivel dentro de cada uno de los factores.
Como la probabilidad de tener una F = 5.85 por mero azar es de 0.024 (menor a 5%), Se rechaza H 0 y
se acepta H1, concluyendo que sistemas diferentes de misiles implican diferentes tasas promedio de
consumo del propulsor.
Como la probabilidad de tener una F = 10.77 es menor que 0.01 (menor a 5%), Se rechaza H 0 y se
acepta H1, concluyendo que las tasas promedio de consumo del propulsor, no son las mismas para los
cuatro tipos de propulsor.
7.7.1 Prueba de contrastes ortogonales en un arreglo factorial.

Dado que se encontraron diferencias entre los sistemas de misiles y no se encontr interaccin, los
totales de misiles (3) los ordenamos de menor a mayor y seleccionamos dos contrastes, comparando:
a3 vs (a1 y a2 ), as como a1 vs a2 .
La elaboracin de la tabla de coeficientes (C i) para las comparaciones de los contrastes es presentada
a continuacin.
Comparaciones
a3
228.8
a3 vs (a1 , a2)
-2
a1 vs a2
a2
a1
237.4
244.0
-1
Las sumas de cuadrados para los contrastes son:

Primer contraste:
3
CiTi 23.8
i 1
2
i
i 1
S.C (C1) = 23.82 / 8(6) = 11.8008

Segundo contraste:
3
C T
i 1
i i
6.6
C
i 1
2
i
S.C (C2) = 6.62 / 8(2) = 2.7225

10

___________________________________________________________________________________________________________________
Observe que 11.8008 + 2.7225 es igual a 14.5233 que es la suma de cuadrados para misiles en el
ANOVA anterior.
Dado que tambin se encontraron diferencias para los tipos de impulsor, seleccionamos tres contrastes
ortogonales comparando: (b3 y b4) vs (b2 y b1), as como b3 vs b4 y b2 vs b1.
La tabla de coeficientes Ci para las comparaciones es:
Comparaciones
b3
170.3
b4
171.2
b2
179.1
b1
189.6
-1
-1
(b3 , b4) vs (b2 , b1)

b3
vs
b4
-1
b2
vs
b1
-1

Primer contraste.
4
C T
i 1
i i
27.2
2
i
i 1
S.C (C1) = 27.22 / 6(4) = 30.8267

Segundo contraste.
4
CiTi 0.9
i 1
C
i 1
2
i
S.C (C2) = 0.92 / 6(2) = 0.0675

Tercer contraste.
4
CiTi 10.5
i 1
C
i 1
2
i
S.C (C3) = 10.52 / 6(2) = 9.18751

La suma de cuadrados de estos contrastes, debe ser igual a la suma de cuadrados de tipo propulsor del
ANOVA anterior.
El nuevo anlisis de varianza mostrando los contrastes, se presenta en el siguiente cuadro.
11

___________________________________________________________________________________________________________________
Fuente de
variacin
Suma de
cuadrados
Sistema de
misiles
a3 vs (a1 , a2)
a1 vs a2
Grados de
libertad
14.52
Tipo de propulsor
(b3 , b4) vs (b2 , b1)
b3 vs b4
b2 vs b1
Cuadrado
medio
11.80
2.72
1
1
40.08
30.82
0.07
9.19
1
1
1
11.80
2.72
9.5
2.2
30.82
0.07
9.19
24.9
0.06
7.4
Interaccin
22.17
3.70
Error
14.91
12
1.24
Total
91.68
23
2.98
Como la P (F = 2.98) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe
interaccin entre tipos de misiles y tipos de propulsor, esto quiere decir que la variacin en los
sistemas de misiles no interfiere en el consumo de los propulsores, ni stos influyen en el efecto de los
tipos de misiles.
Como los factores no interactan los efectos principales pueden ser interpretados de manera general.
Como la P (F = 9.5) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H 1,
concluyendo que existe diferencia significativa entre estos grupos de niveles de misiles.
Como la P (F = 2.2) 0.10 (mayor a 5%) se acepta la hiptesis H 0, concluyendo que no existe diferencia
entre estos grupos de niveles de misiles.
Como la P (F = 24.9) 0.01 (menor a 5%) se rechaza la hiptesis H 0 y se acepta la hiptesis H1,
concluyendo que existe diferencia significativa entre estos grupos de tipos de propulsor.
Como la P (F = 0.06) 0.10 (mayor a 5%) se acepta la hiptesis H0, concluyendo que no existe
diferencia entre estos grupos de tipos de propulsor.
Como la P (F = 7.4) 0.05 se rechaza la hiptesis H 0 y se acepta la hiptesis H1 concluyendo que existe
diferencia entre estos grupos de tipos de propulsor.
La clasificacin de los sistemas de misiles que son iguales as como los tipos de propulsores, se
presentan grficamente con sus correspondientes promedios. No debe olvidarse que la variable que se
analiza es el promedio de consumo de las combinaciones de los tratamientos.
a3
28.6
a
a2
29.7
b
a1
30.5
b
12

___________________________________________________________________________________________________________________
b3
28.4
a
b4
28.5
a
b2
b1
29.9
b
31.6
b
Para sistemas de misiles el ANOVA nos dice que: el sistema de misil tres es significativamente superior
a todos los dems, mientras que el sistema de misil dos y uno son iguales estadsticamente.
Con relacin a los tipos de propulsor el experimento nos indica que: el propulsor tres y cuatro son
iguales estadsticamente pero a la vez superiores a todos los dems, le sigue el propulsor dos que es a
la vez superior estadsticamente al propulsor uno.
Ejemplo 2. Un ingeniero disea una batera para su uso en un dispositivo que ser
sometido a ciertas variaciones extremas de temperatura. El nico parmetro de
diseo que l puede seleccionar en este punto es el material de la cubierta de la
batera, y tiene tres alternativas. Cuando el dispositivo se manufactura y se enva
al campo el ingeniero no tiene control sobre los extremos de temperatura a que
ser expuesto el dispositivo, y sabe por experiencia que es probable que la
temperatura influya en la duracin efectiva de vida de la batera. Sin embargo, s
es posible controlar las temperaturas en el laboratorio de desarrollo de productos
para los fines del ensayo.
El ingeniero decide probar tres materiales para la cubierta y tres niveles de temperatura (15, 70 y 125
F) consistentes en el entorno de uso final del producto. Se prueban cuatro bateras (repeticiones) para
cada tratamiento y las 36 pruebas se ejecutan al azar. Los resultados son los siguientes:
TIEMPO DE DURACIN EN HORAS DE VIDA DE LAS BATERAS

Tipo de material
15
Temperatura en F
70
125
130
74
155
180
34
80
40
75
20
82
70
58
150
159
188
126
136
106
122
115
25
58
70
45
138
168
174
150
96
82
13

___________________________________________________________________________________________________________________
110
160
120
139
104
60
Las sumas de las observaciones en la ij-sima celda (T .) son:

Tipo de material
15
Temperatura en F
70
125
539
229
230
998
623
479
198
1300
576
583
342
1501
1738
1291
770
3799
Total
Total
Los clculos para la obtencin de las sumas de cuadrados se obtienen por:

Factor de correccin
= FC. = 3799 2 / 3(3)4 = 400900.03
Suma de cuadrados totales
= 478547 - FC.
S.C. de tipos de material
= 4939005 / 12 - FC = 10683.72
S.C. de temperatura
= 5280225 /12 - FC. = 39118.72
= 77646.97
S.C. de interaccin
= 1841265 / 4 - FC. S.C.M. - S.C.T.

= 9613.78
S.C. del error
= S.C.Tot. S.C.M. S.C.T. S.C.I.

= 18230.75
El anlisis de varianza correspondiente para los clculos anteriores se presenta a continuacin.

ANOVA PARA LAS HORAS DE VIDA DE LAS BATERAS
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Tipo de material
10683.72
5341.86
7.9
Temperatura
39118.72
19559.36
29.0
Interaccin
9613.78
2403.44
3.6
Error
18230.75
Total
77646.97
27
675.21
35
Cuando en un experimento intervienen varios factores de variacin y uno de ellos influye sobre los
efectos de otro, se dice que existe interaccin entre ambos. Es muy importante tener en cuenta la
14

___________________________________________________________________________________________________________________
interaccin, en la interpretacin de los resultados, pues da lugar a una variacin distinta para cada
factor, de la que hubiera producido actuando por s solo.
Por lo tanto lo primero a realizar despus del ANOVA es verificar si existe interaccin entre los
efectos principales.
Como P (F = 3.6) es menor a 5% se rechaza la hiptesis H 0, y se acepta la hiptesis alterna, con lo que
se concluye que existe interaccin significativa entre el tipo de material y la temperatura.
Dado que se detect interaccin entre los efectos principales, debemos ser muy cuidadosos en la
interpretacin de los factores tipo de material y temperatura, ya que no podemos concluir acerca de
ellos de manera general.
Como auxiliar en la interpretacin de los resultados construiremos una grfica de tipo de material
contra temperatura utilizando el valor promedio de cada combinacin de tratamientos de la siguiente
manera.
TIEMPO PROMEDIO DE VIDA POR UNIDAD EXPERIMENTAL

Tipo de material
15
Temperatura
70
125
134.8
57.3
57.5
155.8
119.8
49.5
144.0
145.8
85.5
Si graficamos las horas promedio de vida de las bateras con las temperaturas
tenemos:
Duracin promedio y.
Material tipo 3
Material tipo 1
Material tipo 2
Temperatura ( F)
Podemos observar que las grficas no son paralelas lo que indica una interaccin significativa. Con
relacin a la interpretacin de las curvas podemos decir que en general; a menor temperatura mayor
hora de vida de la batera; independientemente del tipo de material.
Al variar la temperatura de baja a intermedia, la duracin aumenta con el material tipo 3; mientras que
disminuye con los tipos de material 1 y 2.
15

___________________________________________________________________________________________________________________
Al variar la temperatura de intermedia a alta, la duracin disminuye con los tipos de material 2 y 3;
mientras que con el tipo 1 permanece constante.
Al parecer el material tipo 3 da los mejores resultados, si lo que se desea es menor

prdida de duracin al cambiar la temperatura.
7.7.2 Prueba de rango mltiple Duncan en un arreglo factorial.
En razn de que el ANOVA anterior muestra diferencias significativas en la interaccin as como para
los factores principales, es conveniente llevar a cabo comparaciones entre las medias individuales de
rengln o columna para descubrir las diferencias especficas, Para ello las pruebas de rango mltiple
resultan de mucha utilidad.
Dado que la interaccin result significativa, las diferencias en las medias de un factor (por ejemplo A)
pueden ser ocultas por la interaccin A B. La manera de analizarla es fijar el factor B en un nivel
especfico, y aplicar la prueba de rango Duncan a las medias del factor A en ese nivel.
Por ejemplo, se desea detectar diferencias en el nivel medio de temperatura (70 F), para los tres tipos
de material. Los promedios de vida por batera para los tipos de material, ordenados de menor a mayor
son:
Mat. 1
y12.
57.25
Mat. 2
y22.
119.75
Mat. 3
y32.
145.75
El error estndar de la diferencia de medias es:
S yi 2. S 2 / r 675.21 / 4 12.99
El rango estudentizado significativo es:
2
2.91
3
3.06
El rango mnimo significativo ser:

2
37.80
3
39.75
La diferencia de promedios es:
M3 - M1 = 88.50
M3 - M2 = 26.00
vs
vs
39.75
37.80 =
M2 - M1 = 62.50
vs
37.80
Existe diferencia significativa entre los promedios de los tipos de material.

No existe diferencia significativa.
Grficamente los tipos de material estadsticamente iguales se muestran a

continuacin:
16

___________________________________________________________________________________________________________________
Mat. 1
Mat. 2
a
Mat. 3
a
Este anlisis indica que en el nivel de temperatura de 70, las horas de vida para el tipo de material 2
y 3 resultan mejores estadsticamente, mientras que las horas de vida del material 1 es
significativamente menor que las horas alcanzadas por el material 2 y 3.
De igual manera se debe llevar a cabo la prueba de Duncan para comparar los tres tipos de material,
manteniendo fijos los niveles de temperaturas 15 y 125 F.
As mismo, de manera anloga se comparan los tres tipos de temperatura conservando constante cada
uno de los niveles de tipo de material (resultando seis pruebas de comparacin de medias en total).
7.9 Anlisis de varianza para un arreglo con tres factores.
Se ver el caso de un experimento con tres factores A, B y C, cada uno con los niveles a, b y c
respectivamente, en un diseo experimental completamente al azar. Se supone que se tienen n
repeticiones para cada una de las combinaciones abc (tratamientos).
El modelo para un experimento con tres factores est dado por:
yijkl i j k ( )ij ( )ik ( ) jk ( )ijk ijkl

Donde:
i = 1, 2, , a
j = 1, 2, , b
k =1, 2, , c
l = 1, 2, , n
Al igual que los diseos anteriores, para realizar las pruebas vlidas de significancia, se debe asumir
que los errores son valores de variables aleatorias independientes y con distribucin normal, cada uno
con media cero y varianza comn
2.
La filosofa general del anlisis es la misma que se utiliza para experimentos de uno o dos factores. La
suma de cuadrados se parte en ocho trminos, cada uno representa una fuente de variacin de las
cuales se obtienen estimaciones independientes de
de interaccin.
2 para todos los efectos principales y los efectos
Ejemplo. En la produccin de un material en particular se investigan tres variables: A el efecto del

operador con tres niveles (tres operadores), B el catalizador utilizado en el experimento con tres niveles
(tres catalizadores) y el tiempo C del lavado del producto en seguida del proceso de enfriamiento con
17

___________________________________________________________________________________________________________________
dos niveles (15 y 20 minutos). Se realizaron tres repeticiones en cada combinacin de factores; los
resultados se presentan a continuacin:
TIEMPOS EN LA PRODUCCIN DEL MATERIAL
Tratamientos
I
Repeticiones
II
III
Total
A1B1C1
A1B1C2
A1B2C1
A1B2C2
A1B3C1
A1B3C2
A2B1C1
A2B1C2
A2B2C1
A2B2C2
A2B3C1
A2B3C2
A3B1C1
A3B1C2
A3B2C1
A3B2C2
A3B3C1
A3B3C2
10.7
10.9
10.3
10.5
11.2
12.2
11.4
9.8
10.2
12.6
10.7
10.8
13.6
10.7
12.0
10.2
11.1
11.9
10.8
12.1
10.2
11.1
11.6
11.7
11.8
11.3
10.9
7.5
10.5
10.2
14.1
11.7
11.6
11.5
11.0
11.6
11.3
11.5
10.5
10.3
12.0
11.0
11.5
10.9
10.5
9.9
10.2
11.5
14.5
12.7
11.5
10.9
11.5
12.2
32.8
34.5
31.0
31.9
34.8
34.9
34.7
32.0
31.6
30.0
31.4
32.5
42.2
35.1
35.1
32.6
33.6
35.7
Total
200.8
201.2
204.4
606.4
Realice el anlisis de variacin para probar efectos significativos con un = 0.05

Lo primero que hacemos es concentrar del cuadro anterior los efectos del operador y catalizador, de
operador y lavado, as como de catalizador y tiempo de lavado, en los siguientes cuadros:
TIEMPOS POR EFECTO DE OPERADOR Y CATALIZADOR

Catalizador
B
1
67.3
62.9
69.7
199.9
1
2
3
Total
Operador
A
2
66.7
61.6
63.9
192.2
Total
3
77.3
67.7
69.3
214.3
211.3
192.2
202.9
606.4
TIEMPOS POR OPERADOR Y TIEMPO DE LAVADO

Lavado
Operador
Total
18

___________________________________________________________________________________________________________________
C
1
2
Total
1
98.6
101.3
199.9
A
2
97.7
94.5
192.2
3
110.9
103.4
214.3
307.2
299.2
606.4
TIEMPOS POR CATALIZADOR Y TIEMPO DE LAVADO

Lavado
C
1
2
Total
1
109.7
101.6
211.3
Catalizador
B
2
97.7
94.5
192.2
Total
3
99.8
103.1
202.9
307.2
299.2
606.4
Los clculos para la obtencin de las sumas de cuadrados se presentan a continuacin:

Factor de correccin
= FC. = 606.4 2 / 3(3)2(3) = 6809.65
= (199.92 + 192.22 + 214.32) / b c n FC.

= 122825.34 / 18 F.C = 13.98
= (211.32 + 192.22 + 202.92) / a c n FC.

= 122756.94 / 18 F.C = 10.18
Suma de cuadrados de C
= (307.22 + 299.22) / a b n FC.

= 183892.48 / 27 F.C = 1.18
Suma de cuadrados (A B)
= (67.32 + 66.72 +..+ 69.32) / c n - FC. - S.C.A

S.C.B.
= 41031.52 / 6 6809.65 13.98 10.18 = 4.78
Suma de cuadrados (A C)
= (98.62 + 97.72 +..+103.42) / b n - FC. - S.C.A

S.C.C.
= 61449.56 / 9 - 6809.65 - 13.98 - 1.18 = 2.92
Suma de cuadrados (B C)
= (109.72+ 97.72 +..+103.12) / a n - FC.

S.C.B - S.C.C.
= 61421.84 / 9 - 6809.65 - 10.18 - 1.18
= 3.64
Suma de cuadrados (A B C) = (32.82 + 34.52 +..+ 35.72) / n - FC. - S.C.A - S.C.B

- S.C.C S.C(A B) - S.C(A C) S.C(B C)
= 20553.68 / 3 6809.65 13.98 10.18 1.18
-4.78 2.92 3.64
= 4.89
Suma de cuadrados totales
= 10.72 + 10.82 ++ 12.22 - FC.

= 6872.84 6809.65
= 63.19
19

___________________________________________________________________________________________________________________
Suma de cuadrados error
= S C T - S C A - S C B - S C C - S C(AB) - S C(AC)
-S C(BC) - S C(ABC)
= 63.19 - 13.98 - 10.18 - 1.18 - 4.78 - 2.92 3.64
-4.89
= 21.62
La tabla de anlisis de varianza se presenta a continuacin.
ANOVA DE TIEMPOS EN LA PRODUCCIN DEL MATERIAL

Fuente de variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
13.98
10.18
1.18
2
2
1
6.99
5.09
1.18
11.65
8.48
1.97 ns
4.78
2.92
3.64
4
2
2
1.20
1.46
1.82
2.00 ns
2.43 ns
3.03 ns
ABC
4.89
1.22
2.03 ns
Error
21.62
36
0.60
Total
63.19
53
Efectos principales
A
B
C
Interaccin de dos
factores
AB
AC
BC
Interaccin de tres
factores
* = existe diferencia significativa entre los promedios de los factores.

ns = no existe diferencia significativa, ni interaccin de los factores.
Dado que no se encontr interaccin entre los factores, pero si diferencias

20

___________________________________________________________________________________________________________________
estadsticas para el factor operador ( A ) y tipos de catalizador ( B ), procederemos

al anlisis correspondiente de los niveles de dichos factores, mediante la prueba de
contrastes ortogonales.
Como se tienen dos grados de libertad para el factor operador (A), podemos plantear las
comparaciones siguientes para los contrastes.
( a1 y a2 ) vs a3 as como a1 vs a2
La tabla de coeficientes
Ci
para las comparaciones es:
Comparaciones
a2
( a1 , a2 ) vs a3
a1 vs a2
a1
a3
192.2
199.9
214.3
-1
-1
-1
1
2
0

Primer contraste
S. C ( C1 ) = 36.52 / 18 (6) = 12.3356
Segundo contraste
S. C ( C2 ) = 7.72 / 18 (2) = 1.6469
Dado que tambin se encontraron diferencias para los tipos de catalizador (B), las comparaciones que
haremos son las siguientes:
( b2 y b 3 )
La tabla de coeficientes
Ci
vs
b1
as como
b2
vs
b3
para las comparaciones es:
Comparaciones
( b2 y b3 ) vs b1
b2 vs b3
b2
192.2
-1
b3
202.9
-1
-1
b1
211.3
2

Primer contraste
S. C ( C1 ) = 27.52 / 18 (6) = 7.00
21

___________________________________________________________________________________________________________________
S. C ( C2 ) = 10.72 / 18 (2) = 3.18
Segundo contraste
El nuevo anlisis de varianza incluyendo a la suma de cuadrados de los contrastes es:
ANOVA DE TIEMPOS EN LA PRODUCCIN DEL MATERIAL

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Operadores (A)
(a1 , a2) vs a3
a1
vs a2
13.98
12.34
1.64
Tipos de catalizador (B)

(b2 , b3) vs b1
b2
vs b3
10.18
7.00
3.18
Tiempo de lavado (C)
1.18
1.18
1.9 ns
Interaccin de
dos factores
AB
AC
BC
4.78
2.92
3.64
4
2
2
1.20
1.46
1.82
2.0 ns
2.4 ns
3.0 ns
Interaccin de
tres factores
ABC
4.89
1.22
2.0 ns
1
1
12.34
1.64
20.6 *
2.7 ns
1
1
7.00
3.18
11.7 *
5.3 *
Error
21.62
36
Total
63.19
53
0.60
* = existe diferencia significativa para los niveles de los factores A y B.

ns = no existe diferencia significativa para el factor C, ni interaccin entre factores.
La clasificacin para los niveles de operadores se presenta a continuacin.
a2
a1
______________
a
a
a3
_______
b
b
22

___________________________________________________________________________________________________________________
El experimento nos dice que los operadores dos y uno son significativamente superiores al operador
tres, y que los operadores dos y uno pueden considerarse como equivalentes (iguales
estadsticamente).
La clasificacin para los niveles de tipos de catalizador se muestra a continuacin.
b2
_______
a
a
b3
_______
b
b
b1
_______
c
c
Con relacin a este factor, el experimento nos dice que: el catalizador dos es significativamente superior
a todos los dems, que le sigue el catalizador tres que es a la vez superior estadsticamente al
catalizador uno.
Apndice 7.1 Empleo del software Minitab en un arreglo factorial.
Para ilustrar el empleo del software Minitab en la elaboracin del ANOVA y el anlisis residual,
tomaremos el experimento para probar tres sistemas de msiles y cuatro tipos diferentes de
propulsores. Los pasos a seguir pueden ser:
1. En la columna C1 de la hoja de clculo rotule Respuesta, en C2 Factor A y en C3 Factor B.
2. Para concentrar los niveles de cada uno de los factores sern empleados nmeros en lugar de letras.
La manera como es concentrada la variable de salida, los niveles del factor A y los niveles del factor B,
puede ser:
1
2
3
4
5
6
4
5
5
.
.
.
24
Respuesta
34.0
32.7
30.1
32.8
29.8
26.7
29.0
28.9
32.0
.
.
.
29.1
Factor A
1
1
1
1
1
1
1
1
2
.
.
.
3
Factor B
1
1
2
2
3
3
4
4
1
.
.
.
4

5. Hacer clic en Dos factores.
6. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factores:
Ingresar C2 en el cuadro Factor de fila.
Ingresar C3 en el cuadro Factor de la columna.
Hacer clic en el cuadro Almacenar ajustes.
23

___________________________________________________________________________________________________________________
7. Cuando aparezca el cuadro de dilogo Anlisis de varianza de dos factoresGrficas:

Hacer clic en Grficas individuales.
Hacer clic en los cuadros de las grficas que le interesen.
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede aprovechar
24

Temas Basicos de Estadistica Diferencial

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Temas Basicos de Estadistica Diferencial

Caricato da

Copyright:

Formati disponibili

Lic.

Vicente Snchez y Ramrez

1. ANLISIS DE REGRESIN LINEAL

Lic. Vicente Snchez y Ramrez

Lic. Vicente Snchez y Ramrez

Lic. Vicente Snchez y Ramrez

Con el fin de ver su aplicacin tomemos el siguiente ejemplo. Un ingeniero esta

Lic. Vicente Snchez y Ramrez

Substituyendo estos valores en el coeficiente de correlacin lineal tenemos:

a se denomina interseccin y porque su valor es el punto en el cual la lnea de

Lic. Vicente Snchez y Ramrez

2 Pto. (x2 , y2) = (2,7)

1 Pto. (x1 , y1) = (1,5)

De esta manera estimamos los valores de los parmetros a y b. Si la ecuacin

Si se sustituyen ms valores de x en la ecuacin, se observa que y se incrementa en

Lic. Vicente Snchez y Ramrez

Sustituyendo estos valores en las ecuaciones correspondientes son:

Lic. Vicente Snchez y Ramrez

a = 67.30 0.4830 (145.00)= -2.7394

1.7 Error estndar de estimacin.

Lic. Vicente Snchez y Ramrez

Por lo tanto el error estndar de estimacin ser:

Para saber si el error estndar es chico o grande, se recomienda recurrir al

Valor muy parecido al obtenido en la tabla anterior.

1.8 Coeficiente de determinacin.

En el ejemplo que nos ocupa su clculo es:

2.7394(673) 0.48303(101,570) (10)67.3 2

Lic. Vicente Snchez y Ramrez

Lo que significa que el 99.6% de la variacin total de la resistencia de la varilla (y), se

Un Procedimiento similar es utilizado para probar la hiptesis respecto a la

Lic. Vicente Snchez y Ramrez

Se rechaza la hiptesis H0 si:

Un caso muy especial en la prueba de hiptesis es:

En las grficas anteriores se acepta la hiptesis H 0, por lo tanto se concluye que no

Lic. Vicente Snchez y Ramrez

En estas grficas se rechaza la hiptesis H 0, lo que significa que existe correlacin

S .C. total S .C. regresin

Si la probabilidad de tener una F igual a la obtenida en el ANOVA es menor al 5% se

Por lo tanto las sumas de cuadrados son:

Lic. Vicente Snchez y Ramrez

Suma de cuadrados total

Para decidir si la temperatura del horno influye de manera significativa en la

Lic. Vicente Snchez y Ramrez

Continuando con nuestro ejemplo un intervalo de confianza al 95% de probabilidad

P (0.483 - 0.024338 b 0.483 + 0.024338) = 0.95

Lic. Vicente Snchez y Ramrez

Por lo tanto un intervalo de confianza al 95% para a se define por:

p 2.74 2.306 0.919

a 2.74 2.306 0.919

P (-6.34 a 0.86) = 0.95

Lic. Vicente Snchez y Ramrez

La figura A representa la situacin ideal, mientras que las B, C y D representan

Lic. Vicente Snchez y Ramrez

GRFICA DE RESIDUOS CONTRA xi

En ambas grficas se puede apreciar que no hay un patrn definido en su figura,

Lic. Vicente Snchez y Ramrez

Grfica de probabilidad normal

Lic. Vicente Snchez y Ramrez

4. Hasta qu punto se ajusta esta recta a los datos?

Apndice 1.1 Empleo del software Minitab en el anlisis de regresin lineal.

Lic. Vicente Snchez y Ramrez

Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de

3. Seleccione el men Estadsticas.