Sei sulla pagina 1di 305

Suavizacin

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Contenido
CAPTULO 1. Regresin lineal simple y mltiple. 4
1.1. Regresin Lineal simple. 4
1.1.1. Prueba de hiptesis en la regresin lineal simple.... 12
1.1.2. Calidad del ajuste en regresin lineal simple.... .. 19
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple.... 23
1.1.4. Uso de software estadstico....... 25
1.2. Regresin lineal mltiple 30
1.2.1. Pruebas de hiptesis en regresin lineal mltiple. 34
1.2.2. Intervalos de confianza y prediccin en regresin mltiple...... 37
1.2.3. Uso de un software estadstico...... 40
1.3. Regresin no lineal. 43

CAPTULO 2. Diseo de experimentos de un factor.. 45


2.1. Familia de diseos para comparar tratamientos. 49
2.2. El modelo de efectos fijos.. 50
2.3. Diseo completamente aleatorio y ANOVA. 50
2.4. Comparaciones o pruebas de rangos mltiples.. 62
2.5. Verificacin de los supuestos del Modelo. 71
2.6. Uso de un software estadstico... 80
CAPTULO 3. Diseo de bloques. 84
3.1. Diseos en bloques completos al azar 85
3.2. Diseo en cuadrado latino.. 95
3.3. Diseo en cuadrado grecolatino....... 104
3.4. Uso de un software estadstico. 108
CAPTULO 4. Conceptos bsicos en diseos factoriales.. 112
4.1. Diseos factoriales con dos factores. 114
4.2. Diseos factoriales con tres factores. 123
4.3. Diseo factorial general 128
4.4. Modelos de efectos aleatorios... 130
4.5. Uso de un software estadstico . 134
CAPTULO 5. Series de tiempo... 138
5.1. Modelo clsico de series de tiempo....... 141
5.2. Anlisis de fluctuaciones... 143
5.3. Anlisis de tendencia. 146
5.4. Anlisis de variaciones cclicas

......147

5.5. Medicin de variaciones estacionales e irregulares.. 148


5.6. Aplicacin de ajustes estacionales......... 148
5.7.

Pronsticos

basados

en

factores

de

tendencia

estacionales........150
Apndice. Tablas Estadsticas..166
Bibliografa....174

CAPTULO 1

Regresin lineal simple y mltiple

1.1. Regresin Lineal simple


1.1.1. Prueba de hiptesis en la regresin lineal simple
1.1.2. Calidad del ajuste en regresin lineal simple
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple
1.1.4. Uso de software estadstico

1.1. Regresin Lineal simple


El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis
de regresin es desarrollar un modelo estadstico que se pueda usar para predecir
los valores de una variable dependiente o de respuesta basados en los valores de
al menos una variable independiente o explicativa. Este captulo se centra en un
modelo de regresin lineal simple, que usa una variable numrica independiente
para predecir la variable numrica dependiente .
Para establecer una relacin cuantitativa entre

es necesario disponer

de cierta informacin muestral. Esta informacin consiste de un conjunto de pares


de observaciones de

y , donde cada uno de estos pares pertenece a una unidad

elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un


proceso qumico est relacionado con la temperatura de operacin, o la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc. Si
mediante un modelo matemtico es posible describir tal relacin, entonces este
modelo puede ser usado para propsitos de prediccin, optimizacin o control
Para ilustrar el concepto, considrense los datos de la tabla 1.1. En esta
tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del
producto (papel).
Tabla 1.1 Datos de resistencia de pulpa
Porcentaj

Resistenci

e de fibra

134

145

142

10

149

12

144

14

160

16

156

18

157

20

168

22

166

24

167

26

171

28

174

30

183

Es claro que la variable de respuesta o variable dependiente es la resistencia,


por eso se denota con

. Para tener una idea de la relacin que existe entre

y ,

los 14 pares de datos son graficados en un diagrama de dispersin de la figura


1.1. De la inspeccin de este diagrama de dispersin se ve que los puntos cercanos
siguen una lnea recta, lo que indica que la suposicin de linealidad entre las dos
variables parece ser razonable
El diagrama de dispersin es una grafica en la que cada punto trazado representa
un par de valores observados por las variables independiente y dependiente. El
valor de la variable independiente X, se traza en relacin con el eje horizontal y el
valor de la variable dependiente Y, en relacin con el eje vertical. La naturaleza de la
relacin entre dos variables puede tomar muchas formas, que van desde algunas
funciones

Reg
resin lineal simple

matemticas sencillas a otras en extremo complicadas. La relacin ms


elemental consiste en una lnea recta o relacin lineal.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg
resin lineal simple

9
r

Figura 1.1 Diagrama de dispersin para los datos de resistencia de la


pulpa
o

La relacin del modelo matemtico adecuado tiene influencia de la


distribucin de los valores

en el diagrama de dispersin. Es sencillo ver


P

esto si se examinan las siguientes graficas (figura 1.2)

Plan A

Plan B

Plan C
Relacin lineal positiva

Relacin lineal negativa

No

hay relacin entre X y Y

Plan

Plan E

Plan F
c

Relacin curvilnea positiva

Relacin curvilnea en forma de U

Relacin curvilnea negativa


n

Figura 1.2 Relacin entre dos variables


e

En la grafica A se observa que lost valores de Y, en general, aumentan en


forma lineal cuando se incrementa

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
s

10

CAPTULO 1

Regresin lineal simple y mltiple

e
En la grafica B es un ejemplo de
una relacin lineal negativa. Cuando

crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de


relacin puede ser el precio de un producto
especfico y la cantidad de ventas.
R
En la grafica C se muestra un conjunto de datos en el que existe muy
poca o ninguna relacin entre

y Y. Para cada valor de

aparecen valores

altos y bajos de Y.
En la grafica D muestran una relacin curvilnea entre
de Y aumentan cuando
altos de

y Y. Los valores

crece, pero
el incremento disminuye para valores
e

. un ejemplo de esta relacin curvilnea puede ser la edad y el costo

de mantenimiento de una maquina. Cuando la mquina tiene muchos aos, el


d

costo de mantenimiento se eleva con rapidez al principio, pero despus de


cierto nmero de aos se nivela.
En la grafica E muestra una relacin parablica o en forma de U entre
y Y. Conforme

aumenta, al principio Y disminuye; pero si

aumenta ms, Y

no slo deja de disminuir sino que aumenta despus de su valor mnimo. Un


n

ejemplo tipo de relacin puede ser el nmero de errores por hora en una tarea
y nmero de horas trabajadas.
Por ultimo en la grafica F indica una relacin exponencial o curvilnea
negativa entre
incremento de

y Y. en este caso, Y disminuye con rapidez al principio del


pero despus,
cuando
i

aumenta ms, la velocidad de

disminucin es mucho menor. Un ejemplo de esta relacin exponencial puede


ser el valor de reventa de un tipo dado de automvil y los aos que tiene. El
s

primer ao el valor baja en forma drstica respeto a su precio original; sin


embargo, la disminucin es mucho ms lenta en los aos subsecuentes.
r

El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que


e

mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras.
Quiz la ms sencilla sea encontrar la lnea recta para la cual las diferencias
entre los valores reales y los pvalores pronosticados a partir de la recta ajustada
de regresin sean tan pequeas como sea posible. Sin embargo, como estas
diferencias son positivas para algunas observaciones y negativas para otras,
s

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez
d

Biol.

Reg
resin lineal simple

11

en trminos matemticos se minimiza la suma de los cuadrados de las


diferencias.
d

ai
c
n
e
t
s
i
s
e
190
180
170
160

R
150
140
130
5

10

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

15
20
Porcentaje de fibra

25

30

Biol.

12

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
e

Reg
r
resin lineal simple

13

Figura 1.3 Lnea recta que mejor se ajusta a los datos, donde
la

o
distancia
a los puntos es la ms pequea

posible
P

Suponga que las variables


para cada valor de

y Y estn relacionadas linealmente y que

, la variable dependiente, Y, es una variable aleatoria. Es

decir, que cada observacin de Y puede ser descrita por el modelo:


4

(1.1)
2
donde

es un error aleatorio con media cero y varianza

. Tambin suponga

que los errores aleatorios no estn correlacionados. La ecuacin (1.1) es


6

conocida como el modelo de regresin lineal simple. Bajo el supuesto de que


este modelo es adecuado y como el valor esperado del error es cero,
,
se puede ver que el valor esperado de la
variable Y, para cada valor de

,
, est

dado por lnea recta


1

(1.2)
En donde

son los parmetros del modelo y son constantes

+
desconocidas. Por lo tanto, para tener
bien especificada la ecuacin que

relaciona las dos variables ser necesario estimar los dos parmetros, que
tienen los siguientes significados:
- Es el punto en el cual la lnea recta intercepta o cruza el eje y.
7

- Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o


disminuye la variable

por cada unidad que se incrementa


,

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar


es mediante el mtodo de mnimos
cuadrados, el cual consiste en lo
0
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez
3

Biol.

14

CAPTULO 1

siguiente:

Regresin lineal simple y mltiple

si de la ecuacin (1.1) despejamos los errores, los elevamos al

cuadrado y los sumamos, obtendremos lo siguiente:


=

(1.3)
De esta forma, se quierenaencontrar los valores de

que minimizan

la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera


que la suma de las distancias en forma vertical de los puntos a la recta se
i

minimice, como se ilustra en la figura 1.3.


El procedimiento matemtico para minimizar los errores de la ecuacin (1.3) y
c

as encontrar los estimadores de mnimos cuadrados de


derivar a

con respecto a

y derivar tambin a

, consiste en

con respecto a

se obtiene:
e

i
Al igualar a cero las dos
ecuaciones y resolverlas en forma simultnea

con respecto a las dos incgnitas (

), se obtiene la solucin nica:

(1.4)

(1.5) donde
R

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
d

Reg
resin lineal simple

15

(1.6)

(1.7)
son las medias mustrales de las dos variables, es decir,
u

De esta forma, para obtener la recta ajustada


es necesario aplicar las frmulas
a
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los
datos de la resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple para
los datos de la resistencia

de la pulpa.
a

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
d

16

CAPTULO 1

Regresin lineal simple y mltiple


a

134

16

17

536

145

36

956

870

142

64

21

1 136

10

149

100

025

1 490

12

144

144

20

14

160

196

164 2 240

16

156

256

22

18

157

324

201 2f 826

20

168

400

20

22

166

484

736 3 652

24

167

576

25

26

171

676

600

28

174

784

24

30

183

900

336 5 490

1 i728

2 496
3

38,44

360
008
4 446

4
r

4,6

872

24
649

28
224
%

27
4

556
27

889

27

241

30
o

276
d

33
489

=4

= 39

956

353

150

2216.6

342

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg

resin lineal simple

17
-

Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje
.

de fibra y resistencia del papel, est dada por

En la figura 1.3 se muestra el ajuste de esta lnea. De esta manera, por


c

cada punto porcentual de incremento en el porcentaje de fibra, se espera un


incremento de resistencia de 1,6242 en promedio. La ecuacin (1.8) sirve para
-

estimar la resistencia promedio esperada para cualquier porcentaje de fibra


R

utilizada.
8

Nota: La calculadora cientfica, trae la funcin de Regresin Lineal, una


vez activada esta funcin,

se procede a capturar por parejas (X, Y)


6

correspondientes sin olvidar separarlas por una coma entre ambos datos, se
manda cada par a memoria, al finalizar la captura se obtienen los coeficientes
7

correspondientes presionando la inversa correspondiente de acuerdo al modelo


de esta.

Utilizando un paquete computacional el resultado arrojado sera el


siguiente:
Resumen de Excel

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

18

ai
c
n
e
t
s
i
s
e

CAPTULO 1

Regresin lineal simple y mltiple

190

Estadsticas de la regresin
180

Coeficiente

de 0,96443231
170

correlacin

8160
R

mltiple
Coeficiente

150

de 0,93012969
140

determinacin

5130
5

10

15
20
Porcentaje de fibra

R^2
R^2 ajustado

0,9243071

Error tpico

7
3,87648116

25

30

6
Observaciones
14
ANLISIS DE VARIANZA
Grados de Suma
libertad

de Promedio de

cuadrados

Valor

los

crtico

F
2,70702E

2400,531

cuadrados
2400,531

n
Residuos

12

868
180,3252

868
15,02710

13

747
2580,857

623

Total

Regresi

159,7467
824

-08

de

143
Coeficien

Error

Estadsti

Probabilid

Inferior

Intercepc

tes
130,6747

tpico
2,417790

co t
54,0471

ad
1,05975E

95%
125,4068

in
Porcentaj

253
1,624175

201
0,128504

73
12,63909

-15
2,70702E

13
1,344189

737

-08

444

e de fibra
824
099
Anlisis de los residuales
Observaci

Pronstico

n
1

Resistencia
137,171428

Residuos
-

3,17142857

140,419780

1
4,5802197

2
143,668131

8
-

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg
resin lineal simple

1,66813186

146,916483

8
2,08351648

5
150,164835

4
-

6,16483516

153,413186

5
6,58681318

8
156,661538

7
-

0,66153846

159,909890

2
-

1
163,158241

2,90989011
4,84175824

10

8
166,406593

2
-

0,40659340

169,654945

7
-

2,65494505

172,903296

5
-

1,90329670

176,151648

3
-

2,15164835

11

12

13

19

2
14

179,4

3,6

Resumen de Minitab
Anlisis de regresin: Resistencia vs. Porcentaje de fibra
La ecuacin de regresin es
Resistencia = 131 + 1,62 Porcentaje de fibra
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

20

CAPTULO 1

Regresin lineal simple y mltiple

Coef.
Predictor

Coef

de EE

Constante

130,675

Porcentaje de fibra 1,6242

2,418

54,05 0,000

0,1285 12,64 0,000

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg
resin lineal simple

21

Anlisis de varianza

Fuente

GL

Regresin

SC

1
13

180,3

15,0

2580,9

Porcentaje
Obs

2400,5 2400,5 159,75 0,000

Error residual 12
Total

MC

Ajuste

de fibra Resistencia Ajuste


1

Residuo
SE

4,0

Residuo estndar
134,00

137,17

1,97

-3,17

145,00

140,42

1,75

4,58

142,00

143,67

1,55

-1,67

149,00

146,92

1,37

2,08

144,00

150,16

1,22

-6,16

160,00

153,41

1,11

6,59

156,00

156,66

1,04

-0,66

157,00

159,91

1,04

-2,91

168,00

163,16

1,11

4,84

166,00

166,41

1,22

-0,41

167,00

169,65

1,37

-2,65

-0,95
2

6,0
1,32

8,0
-0,47

10,0
0,57

12,0
-1,68

14,0
1,77

16,0
-0,18

18,0
-0,78

20,0
1,30

10

22,0
-0,11

11

24,0
-0,73

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

22

CAPTULO 1

Regresin lineal simple y mltiple


12

26,0

171,00

172,90

1,55

-1,90

174,00

176,15

1,75

-2,15

183,00

179,40

1,97

3,60

-0,54
13

28,0
-0,62

14

30,0
1,08

Tabla 1.4.

Formulas bsicas para el Anlisis de regresin para el modelo

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg
resin lineal simple

23

Ejemplo
Suponga que el gerente de una cadena de servicios de entrega de paquetera
desea desarrollar un modelo para predecir las ventas semanales (en miles de
dlares) para las tiendas individuales basado en el nmero de clientes que
realizan compras. Se seleccion una muestra aleatoria entre todas las tiendas
de la cadena con los siguientes resultados.
Tienda Cliente

Ventas

Tienda Clientes Ventas

s
907

($000)
11,20

11

679

($000)
7,63

926

11,05

12

872

9,43

506

6,48

13

924

9,46

741

9,21

14

607

7,64

789

9,42

15

452

6,92

889

10,08

16

729

8,95

874

9,45

17

794

9,33

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

24

CAPTULO 1

Regresin lineal simple y mltiple

510

6,73

18

844

10,23

529

7,24

19

1010

11,77

10

420

6,12

20

621

7,41

(a) Grafique el diagrama de dispersin.


(b) Suponga una relacin lineal y utilice el

mtodo

de

mnimos

cuadrados

para

encontrar los coeficientes de regresin

(c) Interprete el significado de la pendiente.


(d) Pronostique las ventas semanales (en miles

de dlares) para las tiendas que tienen 600


clientes.
(e) Qu otros factores adems del nmero de

clientes pueden afectar las ventas?


Respuestas
a)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Reg
resin lineal simple

25

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

26

CAPTULO 1

Regresin lineal simple y mltiple

b) Los coeficientes son

= 2,3086 y

= 0,0088

c) Por cada cliente ms, se espera un incremento en las ventas de 0,0088612

de miles

de dlares en promedio.

d)
e) Factores

tan variados como, atencin al cliente, lejana, falta de

estacionamiento etc., etc.

Resumen de Excel
Coeficiente
Intercepci

s
2,30862007

Error tpico
0,48690393

n
Clientes

7
0,00886121

4
0,00064758

n
Estadstico

Probabilida

t
4,74142826

d
0,00016297

9
13,6833888

7
5,93374E-

11

1.1.1. Prueba de hiptesis en la regresin lineal simple.


En cualquier anlisis de regresin no basta hacer los clculos que se
explicaron antes, sino que es necesario
evaluar qu tan bien el modelo (la
e
lnea recta) explica la relacin entre

y . Una primera forma de hacer esto

es probar una serie hiptesis sobre el modelo. Para ello es necesario suponer
una distribucin de probabilidad para del trmino de error,
normalidad:
y varianza

Es usual suponer

se distribuye en forma normal, independiente, con media cero


.

Por lo general, la hiptesis de mayor inters plantea que la pendiente es


significativamente diferente de cero. Esto se logra al aprobar la siguiente
hiptesis

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
i

Reg
resin lineal simple
r

27

(1.9)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez
i

Biol.

28

CAPTULO 1

Regresin lineal simple y mltiple

Prueba de hiptesis en regresin

lineal simple

El estadstico de prueba
es:
r

(1.10)
s
a
t
n
e

Si la hiptesis nula es verdadera l estadstico (1.10) tiene una


12

distribucin Student con

11

grados de libertad. Se rechaza

si el valor absoluto de

10

este estadstico es mayor que el correspondiente valor crtico obtenido de


9

V
tablas, es decir, se
rechaza

si:

(1.11)

6
400

500

600

En caso contrario no se rechaza

700
Clientes

800

900

. No rechazar que

1000

, en el caso del

modelo de regresin lineal simple, implica que no existe una relacin lineal
significativa entre

y ; por tanto, no existe relacin entre estas variables o

sta es de otro tipo.


La suma de cuadrados de los residuos o suma de cuadrados del error (

se utiliza para estimar la varianza del error de ajuste de un modelo, y est dada
por:

A partir de la ecuacin (1.12) se obtiene que el valor esperado de la suma de


cuadrados

, del error est dado por:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

29

(1.13)
Por lo tanto, un estimador insesgado de

est dado por:

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba

El valor de -Student encontrado en tablas con

grados de libertad y

un 0,05 de nivel de significancia es

Se rechaza la Hiptesis nula


Dado que el valor absoluto de

es significativamente mayor que el

valor encontrado en tablas con un nivel de significancia de 0,05 concluimos


que rechazamos la hiptesis nula por lo tanto si existe una relacin entre
ambas variables. 0 bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hiptesis nula valor-p
En ocasiones, en lugar de probar que
probar que es igual a cierta constante (

.
, puede ser de inters
, en este caso en el

numerador del estadstico de la expresin (1,10) se resta

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

, es decir, el

Biol.

30

CAPTULO 1

Regresin lineal simple y mltiple

estadstico queda de la siguiente manera

, y el criterio de

rechazo es el mismo.
Si se utiliza como criterio de rechazo la comparacin de la significancia
observada (p-value o valor p) contra la significancia predefinida ( ), entonces
se rechaza

si el valor p

Por otro lado, con respecto del parmetro


la

suele ser de inters probar

siguiente hiptesis:

(1.15)
El estadstico de prueba es el
siguiente:

El cual tiene una distribucin


lo que

-Student con

grados de libertad, por

se rechaza si:

o si se utiliza el criterio de la significancia observada se rechaza


p

. No rechazar que

si el valor-

simplemente significa que el punto de corte de

la lnea recta pasa por el origen, es decir pasa por (0, 0). En ocasiones, en
lugar de probar que
, puede ser de inters probar que es igual a cierta constante
; en ese caso, en el numerador del estadstico de la expresin
(1.16) se resta , es decir, el estadstico queda de la siguiente manera:

(1.17) y el criterio de rechazo es el mismo.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

31

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hiptesis sera el siguiente:
Prueba de hiptesis en regresin
lineal simple

Aplicando el estadstico de prueba

El valor de -Student encontrado en tablas con

grados de libertad y

un 0,05 de nivel de significancia es

Se rechaza la Hiptesis nula


Dado que el valor absoluto de

es significativamente mayor que el

valor encontrado en tablas con un nivel de significancia de 0,05 concluimos


que rechazamos la hiptesis nula por lo tanto el punto de corte de la lnea
recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el
valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula
valor-p

La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre


los mismos se sintetizan en la siguiente tabla:
Parmetro

Estimacin

Error

Estadstico

Valor-p

estndar

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

32

CAPTULO 1

Regresin lineal simple y mltiple

Intercepci
n

Pendiente

Las pruebas de hiptesis para el ejemplo de las ventas contra clientes, el


resumen que nos arroja Excel y Minitab incluye el clculo del valor de t y el
valor-p, optando por cualesquiera de ambos estadsticos las hiptesis
quedaran de la siguiente manera:

El valor de -Student encontrado en tablas con

grados de libertad y

un 0,05 de nivel de significancia es

Se rechaza la Hiptesis nula


Dado que el valor absoluto de

es significativamente mayor que el

valor encontrado en tablas con un nivel de significancia de 0,05 concluimos


que rechazamos la hiptesis nula por lo tanto si existe una relacin entre
ambas variables. 0 bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hiptesis nula valor-p

en el caso de las hiptesis para la intercepcin tenemos:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

33

Se rechaza la Hiptesis nula


Dado que el valor absoluto de

es significativamente mayor que el

valor encontrado en tablas con un nivel de significancia de 0,05 concluimos


que rechazamos la hiptesis nula por lo tanto el punto de corte de la lnea
recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el
valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula
valor-p

Resumen de Excel
Coeficiente

Estadstico

Probabilida

Intercepci

s
2,30862007

Error tpico
0,48690393

t
4,74142826

d
0,00016297

n
Clientes

7
0,00886121

4
0,00064758

9
13,6833888

7
5,93374E-

11

Ejercicios
1.- Cul es el propsito general del anlisis de regresin?
2.- En el anlisis de regresin intervienen dos tipos de variables: las
independientes y las dependientes. Explique con sus palabras y a travs de
ejemplos, las caractersticas de estos dos tipos de variables.
3.- En el artculo de Concrete Research (Caractersticas del concreto cerca de
la superficie: Permeabilidad intrnseca), se presentaron los datos sobre la
resistencia a la compresin y la permeabilidad intrnseca

de varias mezclas

y curados de concreto.
Las cantidades resumidas son

y
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

34

CAPTULO 1

Regresin lineal simple y mltiple

= 1 697,80. Suponga que las dos variables se relacionan de acuerdo con el

modelo de regresin lineal simple.


a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la
ordenada al origen
b) Use la ecuacin de la recta ajustada para predecir la permeabilidad que se
observara cuando la resistencia a la compresin es

= 4,3.

c) D una estimacin puntual de la permeabilidad media cuando la resistencia a


la compresin es

= 3,7.

d) Suponga que el valor observado de la permeabilidad para

= 3,7 es

= 46,1

Ejercicios

4.- Se utilizaron mtodos de regresin para analizar los datos de un estudio


para investigar la relacin entre la temperatura superficial de una carretera (x) y
la deflexin del pavimento (y). Las cantidades resumidas fueron
,

= 8,86,

, = 143 215,8,

= 1 083,67.

a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la


ordenada al origen. Grafique la recta de regresin
b) Use la ecuacin de la recta ajustada para predecir la deflexin del pavimento
que se observara cuando la temperatura superficial es de 85 .
c) Cul es la deflexin media del pavimento cuando la temperatura superficial
es
90 ?
d) Qu cambio en la deflexin media del pavimento se esperara para un
cambio de 1

en la temperatura superficial?

5.- Se piensa que el nmero de libras de vapor consumidas mensualmente por


una planta qumica se relaciona con la temperatura ambiente promedio (en
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

35

de ese mes. En la tabla siguiente se muestra la temperatura y el consumo


anual:
Mes Temperatur Consumo/
a
Ene 21

1 000
185,79

24

214,47

Feb 32

288,03

47

424,84

Mar 50

454,58

59

539,03

Abr. 68

621,55

Ma

74

675,06

62

562,03

Jun 50

452,93

41

369,95

Jul. 30

273,98

Ago
.
Sep
.
Oct
.
Nov
.
Dic.

a) Suponiendo que un modelo de regresin lineal simple es apropiado,


ajuste el modelo de regresin que relacione el consumo de vapor ( ) con
la temperatura promedio ( ).
b) Cul es la estimacin del consumo esperado de vapor cuando la
temperatura promedio es 55 ?
c) Qu cambio se espera en el consumo de vapor promedio cuando la
temperatura mensual promedio cambia 1 ?
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

36

CAPTULO 1

Regresin lineal simple y mltiple

d) Suponga que la temperatura mensual promedio es de 47 . Calcule el


vapor ajustado

y el residual correspondiente.

6.- En un artculo de Journal of Environmental Energineering se reportan los


resultados de un estudio sobre la presencia de sodio y cloruros en corrientes
superficiales de la parte central de Rhode Island. Los datos que se presentan a
continuacin corresponden a la concentracin de cloruros
de carretera de la vertiente

(en mg/l) y al rea

(en %).

4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 23,1
27,4 27,7 31,8 39,5
0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69
1,30 1,05 1,06 1,74 1,62

a)

Trace un diagrama de dispersin de los datos. Parecera apropiado un


modelo
de regresin lineal simple en este caso?

b)

Ajuste el modelo de regresin lineal simple usando el mtodo de mnimos


cuadrados.

c)

Estime la concentracin de cloruros media de una vertiente que tiene 1%


del rea de carretera.

d)

Encuentre el valor ajustado que corresponde a

= 0,47

7.- Demuestre que en un modelo de regresin lineal simple el punto (

) se

localiza exactamente sobre la recta de regresin de mnimos cuadrados.


8.- En un artculo de Wear se presentan los datos del desgaste por rozamiento
del acero dulce y la viscosidad del aceite. Los datos representativos, con
viscosidad del aceite y

= volumen del desgaste (

), son:

240 181 193 155 172 110 113


75 94
1,6 9,4 15,5 20,0 22,0 35,5 43,0
40,5 33,0
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

37

a) Construya un diagrama de dispersin de los datos. Parecera plausible


un modelo de regresin lineal simple?
b) Ajuste el modelo de regresin lineal simple usando mnimos cuadrados.
c) Estime el desgaste por rozamiento cuando la viscosidad es
d) Obtenga el valor ajustado de

cuando

= 30.

= 22,0 y calcule el residual

correspondiente.

9.- Considrense los datos del ejercicio 4 para


carretera y

= temperatura superficial de una

= deflexin del pavimento.

a) Pruebe la significacin de la regresin utilizando

. Encuentre el valor

P para esta prueba. Qu conclusiones pueden sacarse? b) Estime


c) Estime los errores estndar de la pendiente y la ordenada al origen.
10.- En un proceso de extraccin se estudia la relacin entre tiempo de
extraccin y rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
Tiempo

10

15

20

12

13

15

12

(minutos)
Rendimient

14 20 19 18
64 81,7 76,2 68,5 77,9 82,2 74,2 70

o (%)

76 83,2 85,3

Ejercicios

a) En este problema cul variable se considera independiente y cul


dependiente?
b) Mediante un diagrama de dispersin analice la relacin entre estas dos
variables.
c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos,
aplique pruebas de hiptesis y verifique residuos).
d) La calidad del ajuste es satisfactoria? Argumente
e) Destaque el valor de la pendiente de la recta e interprtelo en trminos
prcticos.
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

38

CAPTULO 1

Regresin lineal simple y mltiple

f) Estime el rendimiento promedio que se espera a un tiempo de extraccin


de 25 minutos y obtenga un intervalo de confianza para esta estimacin.
11.- Considere los datos del ejercicio 5 para

= consumo de vapor y

temperatura promedio.
a) Pruebe la significacin de la regresin usando

. Cul es el valor P

para esta prueba? Enuncie las conclusiones que resultan de esta prueba. b)
Estime
c) Estime los errores estndar de la pendiente y la ordenada al origen.
d) Pruebe la hiptesis

contra

usando

Encuentre el valor P para esta prueba.


e) Pruebe la hiptesis

contra

usando

Encuentre el valor P para esta prueba y saque conclusiones.


12.- En el ejercicio 6 se presentan los datos para
en corrientes superficiales y

= concentracin de cloruros

= rea de carretera.

a) Pruebe la hiptesis

contra

indicado con un nivel de significancia del 0,01 (

usando el procedimiento
.

1.1.2. Calidad del ajuste en regresin lineal simple


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay
una relacin significativa entre

; sin embargo, no hemos visto si tal

relacin permite hacer estimaciones con una precisin aceptable. Por ejemplo,
es de inters saber qu tanta de la variabilidad presente en

fue explicada por

el modelo, adems si se cumplen los supuestos de los residuos.


Coeficiente de determinacin

. Un primer criterio para evaluar la calidad

del ajuste es observar la forma en que el modelo se ajust a los datos. En el


caso de la regresin lineal simple esto se distingue al observar si los puntos
tienden a ajustarse razonablemente bien a la lnea recta (vase la figura 1.3).
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

39

Pero otro criterio ms cuantitativo es el que proporciona el coeficiente de


determinacin, el cual est definido por:

(1.17)
Es claro que

. En general

se interpreta como la proporcin

de la
variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los
datos de la resistencia de la pulpa (tabla 1.1) tenemos

Por lo tanto, podemos decir que 93% de la variacin observada en la


resistencia es explicada por el modelo (lnea recta), lo cual nos dice que la
calidad del ajuste es satisfactorio, y que por ello, la relacin entre

es

descrita adecuadamente por una lnea recta.


Nota. El resultado arrojado por Excel o Minitab, incluye el anlisis de
varianza para el modelo de regresin simple cuyo cuadro sinttico es el
siguiente:
Fuente

de Suma

variacin

cuadrados

Regresin

Error

de Grados de Cuadrado
libertad

Valor-p

medio

residual
Total
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

40

CAPTULO 1

Regresin lineal simple y mltiple

Resumen de Excel
Estadsticas de la regresin
Coeficiente

de 0,96443231

correlacin

mltiple
Coeficiente

de 0,93012969

determinacin

R^2
R^2 ajustado

0,9243071

Error tpico

7
3,87648116
6

Observaciones

14

ANLISIS DE VARIANZA
Grad

Suma

de Promedio

os de cuadrados

de

los cuadrados

liberta

Valor
crtico de
F

d
Regresi

2400,53186

2400,53186 159,746782

2,70702

n
Residuos

8
4
15,0271062

E-08

8
180,325274
7
2580,85714

Total

2
1
3

Anlisis de varianza en Minitab

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

41

Fuente

GL

Regresin

SC

1
13

2400,5 2400,5 159,75 0,000

Error residual 12
Total

MC

180,3

15,0

2580,9

S = 3,87648 R-cuad. = 93,0% R-cuad.(ajustado) = 92,4%

Coeficiente de determinacin ajustado

. Este coeficiente se calcula de la

siguiente manera:

(1.18)
Calidad de ajuste en
regresin lineal simple

donde el cuadrado medio total,

, se obtiene al dividir la suma de

cuadrados total,
, entre sus grados d libertad. Cuando hay muchos trminos en un modelo, el
estadstico

se prefiere en lugar de

, puesto que este ltimo es engaoso

al incrementarse en forma artificial con cada trmino que se agrega al modelo,


aunque sea un trmino que no contribuya en nada a la explicacin de la
respuesta. En cambio, el

incluso baja de valor cuando el trmino que se

agrega no aporta nada.


Se cumple que

. En general, para fines de prediccin se

recomienda un coeficiente de determinacin ajustado de al menos 0,7.


En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el
coeficiente de determinacin ajustado est dado por:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

42

CAPTULO 1

Regresin lineal simple y mltiple

Observe que estos coeficientes son arrojados automticamente en Excel y


Minitab.

Coeficiente de correlacin

. Es bien conocido que el coeficiente de

correlacin,
, mide la intensidad de la relacin lineal entre dos variables
pares de datos de la forma (

Si se tiene

, entonces este coeficiente se obtiene de la

siguiente manera:

(1.19)

Se puede ver que

; si

es prximo a

una relacin lineal negativa fuerte, y si

, entonces tendremos

es prximo a cero, entonces diremos

que no hay correlacin lineal, y finalmente se

es prximo a , entonces

tendremos una relacin lineal positiva fuerte. Por ejemplo, para los datos de la
resistencia de la pulpa (tabla 1.1), el coeficiente de correlacin es;

lo cual habla de una correlacin lineal positiva fuerte.

Error estndar de estimacin

. Una medicin sobre la calidad del ajuste

de un modelo lo da el error estndar de estimacin, que es una estimacin de

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

43

la desviacin estndar del error

. En el caso de la regresin lineal simple, est

dado por:

(1.20)

Es claro que a medida que el modelo ajuste mejor, la

ser menor y en

consecuencia el error estndar de estimacin tambin ser menor.

Anlisis grfico de residuos.


Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado
de los residuos proporciona informacin adicional sobre la calidad del ajuste del
modelo de regresin y de esa manera es posible verificar si el modelo es
adecuado. Las grficas que suelen hacerse para completar el diagnstico del
modelo consisten en:
a) graficar los residuos en papel de probabilidad normal,
b) graficar los residuos contra los predichos.
Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se
construye la grfica de probabilidad normal que se muestra en la figura 1.4.
En sta se aprecia que el supuesto de normalidad sobre los errores se
cumple razonablemente bien, ya que los puntos en esta grfica tienden a
ajustarse a la lnea recta.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

44

CAPTULO 1

Regresin lineal simple y mltiple

Figura 1.4 Grfica de probabilidad normal para los residuos de la


resistencia de la pulpa
A partir de la tabla 1.2 es fcil obtener la grfica de residuos contra
predichos que se muestra en la figura 1.5. Si el modelo es adecuado se espera
que en esta grfica los puntos no sigan ningn patrn y que, por lo tanto, estn
distribuidos ms o menos aleatoriamente a lo largo y ancho de la grfica.
Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo
de los valores de . Por el contrario, si se aprecia algn patrn habr que ver
cul es el tipo de patrn que se observa en la grfica
y

diagnosticar

cul

es

la

falla

que

registra

el

modelo

Estimacin y prediccin por intervalos en regresin lineal


simple

23

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

45

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.
R

46

CAPTULO 1

Regresin lineal simple y mltiple


s

Figura 1.5 Grfica de residuos contra estimados o predichos

para la

resistencia de la pulpa
e

En particular la figura 1.5 no muestra ninguna anomala, lo cual es una


evidencia ms a favor del modelo de regresin simple para este ejemplo.

1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple


a

Una de las aplicaciones ms importantes en un anlisis de regresin es hacer


estimaciones de la respuesta media para un valor dado de X. En el caso
particular de la regresin lineal simple,t sabemos que un estimador puntual de la
respuesta media lo da la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por


intervalos para

a partir de cualquier
valor de X, para lo cual aplicamos la
e

siguiente ecuacin:

A este intervalo se le conocep como intervalo para la recta de regresin.


Note que su amplitud depende del
amplitud es mnima cuando

y de la distancia entre

y se incrementa conforme

ms grande.

. La

se hace

Para ilustrar lo anterior consideremos el modelo ajustado a los datos del


ejemplo

de la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de

confianza para la respuesta mediae en

= 12 (porcentaje de fibra)

Primeramente calculemos el estimador puntual para


dado por

cuando

= 12, est

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

47
l

un intervalo de confianza al 95% para


(

De aqu que el intervalo de confianza para la respuesta media en

= 12

est dada por:


e

Adems de la estimacin puntual para la pendiente y la ordenada al origen,


, es posible obtener estimaciones de los intervalos de confianza para
estos parmetros. La anchura de estos intervalos de confianza es una medida
s
de la calidad global de la recta de regresin.
Si los trminos del error,

del

modelo de regresin tienen una distribucin normal e independiente, entonces


tienen ambos una distribucin igual a la de una variable aleatoria
grados de libertad. Esto lleva a la siguiente
definicin de los intervalos de
u
confianza del

% para la pendiente y la ordenada al origen.

(1.22)
a

(1.23)
En el caso del intervalo de confianza para la pendiente de los datos del
porcentaje de fibra (tabla 1.1) tenemos
.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

48

CAPTULO 1

Regresin lineal simple y mltiple

Por lo que
puntual

pendiente de forma

o
u
di
s
e

es

1,6242,

por

intervalos con un 95% de nivel de confianza tenemos que esta se encuentra


7,5
entre 1,3442 y 1,9042
5,0
2,5

Ejercicios
R

0,0

1.- En un artculo -2,5


se presentaron los datos de la concentracin del licor verde
( , y la produccin
de una mquina papelera ( . Los datos se muestran
-5,0
en la tabla siguiente

140

150

160
Valor ajustado

170

180

Estimacin y prediccin por intervalos en regresin


lineal simple

25
Nmero

Concentrac

de

in

observaci Del

Producci
licor n

verde

(tons

40

825

42

830

49

890

46

895

44

890

48

910

46

915

43

960

53

990

10

52

1010

11

54

1012

12

57

1030

13

58

1050

a) Encuentre un intervalo de confianza de 99% para


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

49

b) La concentracin media de

cuando la produccin es

toneladas
c) Encuentre un intervalo de prediccin de 99% para la concentracin de
cuando

toneladas

2.- Remtase a los datos del ejercicio 3 (de la seccin anterior) para
intrnseca del concreto y

a la compresin.

Encuentre un intervalo de confianza de 95%


para:

a) la pendiente

b) la ordenada al origen
c) la permeabilidad media cuando
d) Encuentre un intervalo de prediccin 95% para la permeabilidad cuando

3.- En el ejercicio 4 (de la seccin anterior) se presentaron los datos de la


temperatura superficial de una carretera

y la deflexin del pavimento

Encuentre un intervalo de confianza de 99% para: a) la pendiente


b) la ordenada al origen
c) la deflexin media cuando la temperatura es
d) Encuentre un intervalo de prediccin de 99% para la deflexin del pavimento
cuando la temperatura es de

1.1.4. Uso de un software estadstico


Excel
En la hoja de clculo de Excel se incluye la regresin lineal simple y mltiple;
para ello, es necesario realizar la siguiente secuencia de opciones:
Datos

Anlisis de datos

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Regresin

Biol.

50

CAPTULO 1

Regresin lineal simple y mltiple

Generalmente Excel no trae instalado la herramienta de anlisis de datos


esta debe instalarse con la siguiente secuencia:
1.- En la hoja de clculo de Excel (pantalla principal) hacer clic con el puntero en
el smbolo del sistema localizado en el extremo superior izquierdo

2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

51

3.-

De

la

ventana desplegada hacer

clic

en

complementos

Uso de un
software estadstico

27

4.- De la ventana desplegada hacer clic en ir

5.- De esta ventana activar la casilla de herramientas para anlisis (palomearla)


y dar clic en aceptar. De esta manera hemos activado la opcin de anlisis de
datos.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

52

CAPTULO 1

Regresin lineal simple y mltiple

Para capturar la tabla de datos para el anlisis de regresin lineal simple


o mltiple, primeramente capturamos los datos en la hoja de clculo,
posteriormente activamos Datos seguido de Anlisis de datos y seleccionamos
Regresin
Datos

Anlisis de datos

En la ventana de captura

Regresin

se solicitar el rango de celdas donde se

encuentran los datos para la variable dependiente Rango


la(s) variable(s) regresora(s) Rango
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

de entrada y para

de entrada
Biol.

53

Activamos la casilla de rtulos, por default est indicado en una hoja


nueva, seleccionamos adems cualquiera de las opciones de residuos, grafica
de residuales, y curva de regresin ajustada y aceptar.

En Minitab
En Minitab la secuencia de captura para la regresin lineal simple o mltiple en
la hoja de clculo una vez capturada las columnas de datos seleccionamos
Estadsticas luego Regresin seguida de Regresin nuevamente
Uso de un
software estadstico

29

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

54

CAPTULO 1

Regresin lineal simple y mltiple

de la ventana desplegada en respuesta indicamos la variable de respuesta, en


este caso es resistencia y en predictor indicamos porcentaje de fibra activando
tambin cualquiera de las opciones posibles, terminando en aceptar.

Nota: De la ventana de captura aparecen automticamente en el cuadro de la


izquierda la informacin de la tabla, en respuesta, se indica con un clic del ratn
en resistencia y este automticamente se manifiesta en el recuadro, en

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

55

predictores de igual manera se da un clic en porcentaje de fibra y igualmente se


manifiestan en el recuadro.

1.2. Regresin lineal mltiple


En muchas situaciones prcticas existen varias variables independientes que se
cree que influyen o estn relacionadas con una variable de respuesta , y por lo
tanto ser necesario tomar en cuenta si se quiere predecir o entender mejor el
comportamiento de
. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa
habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de
personas que la habitan, la temperatura promedio de la zona, etctera.
Sea

variables independientes o regresoras, y sea

una variable

de respuesta, entonces el modelo de regresin lineal mltiple con

variables

independientes es el polinomio de primer orden:}

(1.22)
Donde los

son los parmetros del modelo que se conocen como

coeficientes de regresin y

es el error aleatorio, con media cero,

. Si en la ecuacin (1.22)

, estamos en el caso de

regresin lineal simple y el modelo es una lnea recta; si

, tal ecuacin

representa un plano. En general, la ecuacin (1.22) representa un hiperplano en


el espacio de

dimensiones generado por las variables

}.
El trmino lineal del modelo de regresin se emplea debido a que la ecuacin
(1.22) es funcin lineal de los parmetros desconocidos

La

interpretacin de stos es muy similar a lo ya explicado para el caso de


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

56

CAPTULO 1

regresin lineal simple:


en

Regresin lineal simple y mltiple

es la ordenada al origen, y

por cambio unitario en

mide el cambio esperado

cuando el resto de las variables regresoras se

mantienen fijas o constantes.


Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:

(1.23)
Estas ecuaciones se pueden resolver para

mediante cualquier

mtodo apropiado para resolver sistemas de ecuaciones lineales


Por ejemplo La siguiente tabla muestra los pesos Y a la libra ms cercana, las
estaturas X1 a la pulgada ms cercana y las edades X 2 al ao ms cercano de
12 muchachos.
Regresin
lineal mltiple

31

Tabla 1.5 Peso, estatura y edad


Pes

Estatur

Eda

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

57

64

57

71

59

10

53

49

67

62

11

55

51

58

50

77

55

10

57

48

56

52

10

51

42

76

61

12

68

57

Para encontrar los coeficientes de regresin (

) mltiple mediante el

mtodo de mnimos cuadrados seria de la siguiente manera

Tabla 1.6 Procedimiento para realizar los clculos para la regresin mltiple
Y

X1

X2

Y2

64

57

4096

71

59

10

53

49

67

X12

X22

X1Y

X2Y

X1X2

3249

64

3648

512

456

5041

3481

100

4189

710

590

2809

2401

36

2597

318

294

62

11

4489

3844

121

4154

737

682

55

51

3025

2601

64

2805

440

408

58

50

3364

2500

49

2900

406

350

77

55

10

5929

3025

100

4235

770

550

57

48

3249

2304

81

2736

513

432

56

52

10

3136

2704

100

2912

560

520

51

42

2601

1764

36

2142

306

252

76

61

12

5776

3721

144

4636

912

732

68

57

4624

3249

81

3876

612

513

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

58

CAPTULO 1

Regresin lineal simple y mltiple

y x1

x2

y2

x12

753

106

48,13

34,843

643

x22
976

x1y

x2y

x1x2

40,83

6,796

5,779

Al sustituir las sumatorias calculadas en las ecuaciones normales, se


obtiene

Resolver

ecuaciones
,

es

comn

este sistema de tres


lineales para

por

lo

emplear

menos
matrices

tedioso.

y
Es

para

simplificar el proceso. Hoy en da, esta clase de clculos son realizados por la
computadora.

El resultado seria el siguiente

por

lo
tanto la ecuacin de regresin es

La solucin manual aplicando el sistema de tres ecuaciones lineales con


tres incgnitas (3x3) pudiera ser aplicando el mtodos de eliminacin de Gauss
o bien el mtodo de Cramer. Para este tipo de planteamiento se recomienda el
mtodo de Cramer el cual consiste en la siguiente secuencia:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

59

Siguiendo la misma secuencia de la multiplicacin para el denominador,


as como para

Sustituyendo los valores tendremos

Regresin
lineal mltiple

33

753

643

106

753

643

40,830

34,843

5,779

40,830

34,843

6,796

5,779

976

6,796

5,779

12

643

106

12

643

643

34,843

5,779

643

34,843

106

5,779

976

106

5,779

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

60

CAPTULO 1

Regresin lineal simple y mltiple

(2.56070963x1010+

2.525323601x1010+

2.501139642x1010)

(2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010)

( 408081216 + 393885082 + 393885082 ) ( 391495948


+ 400762092 + 403526224 )

Siguiendo el mismo procedimiento correspondiente para

tenemos

los coeficientes de regresin mltiple

Anlisis de regresin: Peso vs. Estatura; Edad en Minitab


La ecuacin de regresin es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad

Coef.
Predictor
Constante

Coef de EE
3,65

16,17 0,23 0,826

Estatura 0,8546 0,4517 1,89 0,091


Edad

1,506

1,414 1,07 0,315

S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%


Anlisis de varianza
Fuente

GL

SC

MC

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

P
Biol.

61

Regresin

2 629,37 314,69 10,94 0,004

Error residual 9 258,88 28,76


Total

11 888,25

Resultados en Excel
Resumen
Estadsticas
de

la

regresin
Coeficiente de 0,84175667
correlacin
mltiple
Coeficiente

3
de 0,70855429

determinacin

R^2
R^2 ajustado

0,64378858

Error tpico

4
5,36321469
1

Observaciones
12
ANLISIS DE VARIANZA
Grados de

Suma

de

libertad

cuadrados

Promedio de
los

Regresi

629,3733

n
Residuos

536
258,8766

768
28,76407

11

464
888,25

182

Total

Error

Estadsti

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Valor
crtico

cuadrados
314,6866

Coeficien

de

F
10,94026 0,003895
88

018

Probabili

Inferior
Biol.

62

CAPTULO 1

Regresin lineal simple y mltiple

Intercepc

tes
3,651215

tpico
16,16780

co t
dad
0,225832 0,826376

95%
-

in

805

562

49

76

32,92290

Estatura

Edad

0,854609

0,451664

1,892135

0,09102

14
-

929

156

824

51

0,167125

1,506332

1,414265

1,065098

0,314570

373
-

32

835

43

45

1,692959
262

Anlisis de los residuales

Observ

Pronstic

Residuo

acin

o Peso
64,41464

s
-

032

0,414640

69,13652

324
1,863475

482
54,56509

177
-

625

1,565096

73,20668

251
-

693

6,206686

59,28698

93
-

075

4,286980

56,9260

75
1,073961

385
65,71808

499
11,28191

511
58,22948

489
-

328

1,229483

63,15425

283
-

532

7,154255

48,58282

319
2,417173

10

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

63

11

675
73,85840

252
2,141590

12

932
65,92097

679
2,079027

264

356

1.2.1. Pruebas de hiptesis en regresin lineal mltiple


Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas
para regresin lineal simple, pero ahora son ms necesarias porque en
regresin mltiple tenemos ms parmetros en el modelo; sin embargo, por lo
general es necesario evaluar su verdadera contribucin a la explicacin de la
respuesta. Tambin requerimos de la suposicin de que los errores se
distribuyen en forma normal, independientes, con media cero y varianza
. Una consecuencia de esta suposicin es que las
observaciones

son:

La hiptesis global ms importante sobre un modelo de regresin mltiple


consiste en ver si la regresin es significativa. Esto se logra probando la
siguiente

Aceptar

hiptesis:

significa que ningn trmino o variable en el modelo tiene una

contribucin significativa al explicar la variable de respuesta


rechazar

. Mientras que

implica que por lo menos un trmino en el modelo contribuye de

manera significativa a explicar

. El procedimiento para probar esta hiptesis es

una generalizacin del procedimiento utilizado para probar la hiptesis


equivalente en regresin lineal simple.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

64

CAPTULO 1

Regresin lineal simple y mltiple

Pruebas de hiptesis en regresin lineal


mltiple

El estadstico de prueba para la significancia del modelo de regresin


lineal mltiple esta dado por:

(1.24)

que

bajo

tiene

una

distribucin

. As, se

rechaza

si

o tambin si
Ejemplo
Se probar la significacin de la regresin (con

utilizando los datos de

los pesos , estaturas y edades de la tabla 1.5

El valor de

calculado por formula nos da un valor de

= 10,9402 ,por

comodidad observamos el resumen arrojado por Excel y/o Minitab

En tanto que el valor de

encontrado en tablas cuando tenemos un nivel

de significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el


denominador el cual es igual a 4,26
=

=
Se rechaza la Hiptesis nula

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

65

Dado que el valor encontrado en formula es mayor al punto crtico en base al


nivel de significancia por lo que rechazamos la hiptesis nula y aceptamos la
alterna lo cual implica que por lo menos un trmino en el modelo contribuye de
manera significativa a explicar
Tabla 1.7 ANOVA para la significancia del modelo de regresin lineal
mltiple
Fuente de

Suma

de

variacin

cuadrados

Cuadrado

de

medio

libertad
K

Regresin

Error

Grados

residuo
n-1
Total

ANLISIS DE VARIANZA
Grad

Suma

os de

cuadrados

de

Promedio

de

los cuadrados

Valor crtico
de F

libert
ad
Regresi
n
Residuo
s
Total

629,37335

314,68667

10,94026

0,0038950

68
28,764071

88

18

36
258,87664

82

64
888,25

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

66

CAPTULO 1

Regresin lineal simple y mltiple

Anlisis de varianza en Minitab


Fuente

GL

Regresin

SC

MC

2 629,37 314,69 10,94 0,004

Error residual 9 258,88 28,76


Total

11 888,25

Coeficiente de determinacin
El que un modelo sea significativo no necesariamente implica que sea bueno
en trminos de que explique la variacin de los datos. Por ello es importante
tener mediciones adicionales de la calidad del ajuste del modelo, como las
grficas de residuales y el coeficiente de determinacin. Con la informacin del
anlisis de varianza de la tabla 1.7 es muy sencillo calcular el coeficiente de
determinacin

, y el coeficiente de determinacin ajustado

(1.25)

(1.26)
Ambos coeficientes se interpretan de forma similar al caso de regresin
lineal simple, es decir, como el porcentaje de variabilidad de los datos que son
explicados por el modelo. Se cumple que

; en general, para

hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos


coeficientes tengan valores superiores a 0,7. Cuando en el modelo hay
trminos que no contribuyen de manera significativa a ste, el
menor que el

tiende a ser

. Por lo tanto, es deseable depurar el modelo y para ello las

siguientes pruebas de hiptesis son de mucha utilidad.


Para los datos de la tabla 1.5 tenemos que
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

67

Pruebas de hiptesis en regresin lineal


mltiple

Coeficiente de correlacin mltiple


Es la raz cuadrada del coeficiente de determinacin

(1.27)
y es una medida de la intensidad de la relacin entre la variable dependiente, ,
y el
conjunto de variables o trminos en el modelo

Error estndar de estimacin


Al igual que en regresin lineal simple, el error estndar de estimacin
proporciona la medida del error de ajuste de un modelo, stas tienen una
interpretacin similar a la que se dio para el caso de regresin lineal simple. En
cuanto al clculo en el caso mltiple, el error estndar de estimacin,

(1.28)
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

68

CAPTULO 1

Regresin lineal simple y mltiple

En el caso del ejemplo de los pesos, estatura y edades tenemos

1.2.2. Intervalos de confianza y prediccin en regresin mltiple


En los modelos de regresin mltiple con frecuencia es conveniente construir
estimaciones de intervalos de confianza para los coeficientes de regresin

Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual est dado por:

Tabla 1.8 Anlisis de regresin mltiple


Parmetro

Estimaci

Error

Estadstic

estndar

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Valor-p

Biol.

69

Intercepci
n

.
.
.

.
.

Coeficient

Error

Estadstic

Probabilid

Inferior

Intercepci

es
3,6512158

tpico
16,167805

ot
0,2258324

ad
0,826376

95%
-

05

62

76

32,922901

Estatura

Edad

0,8546099

0,4516641

1,8921358

0,091025

4
-

29

56

24

0,1671253

1,5063323

1,4142658

1,0650984

0,314570

73
-

35

45

1,6929592
62

Tambin es posible obtener un intervalo de confianza con respecto a la


respuesta media en un punto particular, digamos

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

est dado por:

Biol.

70

CAPTULO 1

Regresin lineal simple y mltiple

Ejercicios de regresin lineal mltiple


13.- Por qu se requiere la regresin lineal mltiple?
14.- Se realizo un estudio para investigar la relacin de la resistencia al corte
del terreno ( ) con la profundidad en pies ( ) y el contenido de humedad
Se hicieron 10 observaciones, obtenindose

las siguientes cantidades

resumidas
,
,
,

, ,

a) Establezca las ecuaciones normales de mnimos cuadrados para el


modelo
b) Estime los parmetros del modelo del inciso a)
c) Cul es la resistencia predicha cuando

pies y

15.- En una empresa dedicada a anodizar artculos de aluminio (bateras de


cocina), el anodizado se logra con una solucin hecha a base de cidos
(sulfrico, ctrico, brico) y dicromato de aluminio. En este proceso se controla
el pH de la solucin, la temperatura, la corriente y el tiempo de permanencia.
Debido al poco grosor del anodizado, han aumentado las quejas por la escasa
resistencia y durabilidad del producto. Para resolver este problema se decide
estudiar, mediante un experimento, la relacin del pH y la temperatura con el
grosor del anodizado. Los datos se muestran en la siguiente tabla:
p

Temperat

H ura

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Espes
or

Biol.

71

1, -8

14

-8

1, 8
8

1, -8
2

-8

10
19
8
12

1, 8

11

20

1, 0

14

13

1,
8
1,
2
1,
8
1,
5
1,
5
a) Cules son las variables independientes y cul la dependiente?
Argumente
Intervalos de confianza y prediccin en regresin
mltiple

b) Ajuste un modelo del tipo

y anote la

ecuacin del modelo ajustado


c) A partir del modelo ajustado, cul es el espesor estimado cuando se
utiliza un pH = 2 y una temperatura de 10 grados?
d) El modelo es adecuado? Argumente con base en graficas de residuos,
pruebas de hiptesis y coeficientes de determinacin.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

72

CAPTULO 1

Regresin lineal simple y mltiple

16.- Se realiz un experimento para estudiar el sabor del queso panela en


funcin de la cantidad del cuajo y la sal. La variable de respuesta observada es
el sabor promedio reportado por un grupo de cinco panelistas que probaron
todos los quesos y los calificaron en una escala hednica. Los datos obtenidos
se muestran a continuacin:
S

Cuaj Sab

al
6

o
0,3

or
5,67

5,

0,38

7,44

7,33

4,

0,38

6,33

7,11

0,3

7,22

4,

0,21

6,33

6,66

5,

0,21

0,3

0,3

a) Ajuste

el

modelo

b) El modelo explica la variacin observada en


el

sabor?

Argumente

con

base

en

la

significancia del modelo, los residuales y el


coeficiente de determinacin.
c) Ajuste un modelo que incluya trminos
cuadrticos y analice con detalle la calidad del
ajuste aplique las pruebas de hiptesis
d) Compare el error estndar de estimacin (
y los coeficientes de determinacin
) para ambos modelos
e) Cul modelo prefiere para explicar el sabor?
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

73

17.- Se piensa que la energa elctrica consumida mensualmente por una


planta qumica se relaciona con la temperatura ambiente promedio (
nmero de das laborales del mes (

, el

, la pureza promedio del producto

las toneladas del producto producidas


. Se cuenta con los datos del ltimo ao, los cuales se presentan en la tabla
siguiente:

24

10

23

95

11

29

88

27

94

99

30

97

96

31

11

30

10

29

10

26

98

27

28

26

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

74

CAPTULO 1

Regresin lineal simple y mltiple

a) Ajuste un modelo de regresin lineal mltiple a estos datos


b) Prediga el consumo de electricidad para un mes en el que
das
c) Calcule

toneladas

para este modelo. Interprete esta cantidad

d) Grafique los residuales contra . Interprete la grafica

1.2.3. Uso de un software estadstico


Para capturar la tabla de datos para el anlisis de regresin lineal
mltiple, primeramente capturamos los datos en la hoja de clculo,
posteriormente activamos Datos seguido de Anlisis de datos y seleccionamos
Regresin, y aceptar
Datos

Anlisis de datos

Regresin

En la ventana de captura se solicitar el rango de celdas donde se


encuentran los datos para la variable dependiente Rango
la(s) variable(s) regresora(s) Rango

de entrada y para

de entrada (para los datos de X1 y X2,

se sombrean ambos simultneamente con el ratn, en este caso a partir de la


columna 2)
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

75

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

76

CAPTULO 1

Regresin lineal simple y mltiple

Uso de
software estadstico

41

Activamos la casilla de rtulos, por default est indicado en una hoja


nueva, seleccionamos adems cualquiera de las opciones de residuos, grafica
de residuales, y curva de

regresin ajustada y aceptar y tendremos el

resultado.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Resumen
Estadsti
cas de la
regresin
Coeficien 0,84175
te

de 6673

correlaci
n
mltiple
Coeficien 0,70855
te

de 4296

determin
acin
R^2
R^2

0,64378

ajustado 8584
Error
5,36321
tpico
4691
Observac 12
iones
ANLISI
S

DE

VARIANZ
A
Grados Suma

Promed F

Valor

de

io

crtico

de

de

libertad cuadra los


dos

de F

cuadrad

Regresi 2

os
629,373 314,686 10,940 0,00389

n
Residuos 9

3536
6768
2688
258,876 28,7640

Total

6464
7182
888,25

11

Coeficie Error

5018

Estadst Probabi Inferior Superio Inferior Superio

ntes
tpico
ico t
lidad
95%
Intercepc 3,65121 16,1678 0,22583 0,8263 in

5805

0562

249

7676

32,9229 3308

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

0147
Estatura 0,85460 0,45166 1,89213 0,0910 9929

4156

5824

251

r 95%
95,0% r 95,0%
40,2253 40,2253
32,9229 3308

0147
1,87634 -

Biol.

1,87634

0,16712 5234

0,16712 5234

5376

5376

78

CAPTULO 1

Regresin lineal simple y mltiple

Utilizando Minitab
En Minitab la secuencia de captura para la regresin lineal simple o mltiple en
la hoja de clculo una vez capturada las columnas de datos seleccionamos
Estadsticas luego Regresin seguida de Regresin nuevamente
Estadsticas

Regresin

Regresin

De la ventana desplegada en respuesta indicamos la variable de


respuesta, en este caso es resistencia y en predictor indicamos porcentaje de
fibra activando tambin cualquiera de las opciones posibles, terminando en
aceptar.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Nota: De la ventana de captura aparecen automticamente en el cuadro de la


izquierda la informacin de la tabla, en respuesta , se indica con un clic del
ratn en peso y este automticamente se manifiesta, en predictores de igual
manera se da un clic a cada uno y estos se manifiestan en el recuadro.

Anlisis de regresin: Peso vs. Estatura; Edad


La ecuacin de regresin es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad

Coef.
Predictor
Constante

Coef de EE

3,65 16,17 0,23 0,826

Estatura 0,8546 0,4517 1,89 0,091


Edad

1,506 1,414 1,07 0,315

S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%


Anlisis de varianza

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

80

CAPTULO 1

Fuente

GL

Regresin

Regresin lineal simple y mltiple

SC

MC

2 629,37 314,69 10,94 0,004

Error residual 9 258,88 28,76


Total

11 888,25

Fuente

GL SC sec.

Estatura 1 596,74
Edad

32,63

Observaciones poco comunes


Ajuste

Residuo

Obs Estatura Peso Ajuste


7

55,0 77,00 65,72

SE Residuo estndar

1,96

11,28

2,26R

R denota una observacin con un residuo estandarizado grande.

Regr
esin no lineal

43

1.3. Regresin no lineal


Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se
habla de regresin lineal simple

Cuando las variables X y Y se relacionan segn una lnea curva, se habla


de regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin
parablica, exponencial, potencial etc.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Supongamos que al hacer la representacin grfica correspondiente la


distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara
relacin entre las dos variables, pero desde luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia
entre las dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.

Parbola de Regresin
En muchos casos, es una funcin de segundo grado la que se ajusta lo
suficiente a la situacin real dada.
La expresin general de un polinomio de 2 grado es:

donde a, b y c son los parmetros.


El problema consiste, por tanto, en determinar dichos parmetros para
una distribucin dada. Seguiremos para ello, un razonamiento similar al que
hicimos en el caso del modelo de regresin lineal simple, utilizando el
procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la
suma de los cuadrados de las desviaciones con respecto a la curva de
regresin sea mnima:

donde, siguiendo la notacin habitual, y i son los valores observados de la


variable dependiente, e

los valores estimados segn el modelo; por tanto,

podemos escribir D de la forma:


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

82

CAPTULO 1

Regresin lineal simple y mltiple

Para encontrar los valores de a, b y c que hacen mnima la expresin


anterior, deberemos igualar las derivadas parciales de D con respecto a dichos
parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman
dicho sistema se conocen como ecuaciones normales de Gauss (igual que en
el caso de la regresin lineal simple).

Funcin Exponencial, Potencial y Logartmica


El problema de ajustar un modelo potencial, de la forma
exponencial

y uno

se reduce al de la funcin lineal, con solo tomar

logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Como vemos es la ecuacin de una recta:

donde ahora

. De modo que el problema es sencillo, basta con transformar Y en


y X en

y ajustar una recta a los valores transformados. El parmetro

b del modelo potencial coincide con el coeficiente de regresin de la recta


ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Tambin se trata de la ecuacin de una recta


ajustndola a

, pero ahora

y a X; de modo que, para obtener el parmetro A del modelo

exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando


antilog(b).

Modelo logartmico:
La curva logartmica Y = a + b

es tambin una recta, pero en lugar de estar

referida a las variables originales X e Y, est referida a

y a Y.

Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms


complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin
ms que transformar adecuadamente los datos de partida.
45
Captulo 2
Diseo de experimentos de un factor

2.1. Familia de diseos para comparar tratamientos


2.2. El modelo de efectos fijos
2.3. Diseo completamente aleatorio y ANOVA
2.4. Comparaciones o pruebas de rangos mltiples
2.5. Verificacin de los supuestos del Modelo
2.6. Uso de un software estadstico
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

84

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Competencias
1. Identificar dentro de la familia de los diseos experimentales, aquellos
utilizados en la comparacin de tratamientos.
2. Diferenciar los distintos modelos estadsticos y los anlisis de varianzas
en experimentos con un slo factor.
3. Realizar las diversas pruebas de rangos mltiples y la comparacin por
contrastes.
4. Verificar los supuestos del modelo estadstico en diseos con un solo
factor.

Experimentos con un solo factor


En este tipo de diseo de experimento se considera un slo factor de inters y
el objetivo es comparar ms de dos tratamientos, con el fin de elegir la mejor
alternativa entre las varias que existen, o por lo menos para tener una mejor
comprensin del comportamiento de la variable de inters en cada uno de los
distintos tratamientos.
En esta unidad se presentan los diseos experimentales que se utilizan
cuando el objetivo es comparar ms de dos tratamientos. Puede ser de inters
comparar tres o ms mquinas, varios proveedores, cuatro procesos, tres
materiales, cinco dosis de un frmaco, etc.
Es obvio que, al hacer tales comparaciones, existe un inters y un objetivo
claro. Por ejemplo, una comparacin de cuatro dietas de alimentacin en la que
se utilizan ratas de laboratorio, se hace con el fin de estudiar si alguna dieta
que se propone es mejor o igual que las que ya existentes; en este caso, la
variable de inters es el peso promedio alcanzado por cada grupo de animales
despus de ser alimentado con la dieta que le toco.
Por lo general, el inters del experimentador est centrado en comparar los
tratamientos en cuanto a sus medias poblacionales, sin olvidar que tambin es
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

86

CAPTULO 2

Diseo de experimentos de un factor

importante compararlos con respecto a sus varianzas. As, desde el punto de


vista estadstico, la hiptesis fundamental a probar cuando se comparan varios
tratamientos es:
(2.1)
Con la cual se quiere decidir si los tratamientos son iguales
estadsticamente en cuanto a sus medias, frente a la alternativa de que al
menos dos de ellos son diferentes. La estrategia natural para resolver este
problema es obtener una muestra representativa de mediciones en cada uno de
los tratamientos, y construir un estadstico de prueba para decidir el resultado
de dicha comparacin

Se podra pensar que una forma de probar la hiptesis nula de la


expresin (2.1) es mediante la prueba T de Student aplicadas a todos los
posibles pares de medias; sin embargo, esta manera de proceder incrementara
de manera considerable el error tipo I (rechazar

siendo verdadera).
Experimentos con

un solo factor

47

Ejemplo
En el caso de comparar varias mquinas, si cada mquina es manejada por un
operador diferente y se sabe que ste tiene una influencia en el resultado,
entonces, es claro que el factor operador debe tomarse en cuenta si se quiere
comparar a las mquinas de manera justa.
Un operador ms hbil puede ver a su mquina (aunque sta sea la peor)
como la que tiene el mejor desempeo, lo que impide una comparacin
adecuada de los equipos. Para evitar este sesgo habra dos maneras de anular
el posible efecto del factor operador:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Utilizando el mismo operador en las cuatro mquinas. Esta estrategia no


es aconsejable, ya que al utilizar el mismo operador, se elimina el efecto
del factor operador, pero restringe la validez de la comparacin a dicho
operador, y es posible que el resultado no se mantenga al utilizar otros
operadores.

Cada operador trabaje durante el experimento con cada una de las


mquinas, esta estrategia es ms recomendable, ya que al utilizar todos
los operadores con todas las mquinas permite tener resultados de la
comparacin que son vlidos para todos los operadores. Esta ltima de
manera nulificar el efecto de operadores, recibe el nombre de Bloqueo.

Factores de bloqueo.
Son factores adicionales al factor de inters que se incorporan de manera
explcita en un experimento comparativo, para estudiar de manera ms
adecuada y eficaz al factor de inters.
Observacin.

Cuando

se

comparan

varias

mquinas,

manejadas

por

operadores diferentes, es pertinente incluir explcitamente al factor operadores


(bloques) para lograr el propsito del estudio. Tambin se podran controlar el
tipo de material, lotes, tipo de producto, da, turno, etc. Se controlan factores
que por conocimiento del proceso o experiencia previa, se sabe que pueden
afectar en forma sensible el resultado de la comparacin
En el campo de la industria es frecuente hacer experimentos o pruebas
con la intencin de resolver un problema o comprobar una idea (conjetura,
hiptesis); por ejemplo, hacer algunos cambios en los materiales, mtodos o
condiciones de operacin de un proceso, probar varias temperaturas en una
mquina hasta encontrar la que de el mejor resultado o crear un nuevo material
con la intencin de lograr mejoras o eliminar algn problema.
Sin embargo, es comn que estas pruebas o experimentos se hagan
sobre la marcha, con base en el ensayo y error, apelando a la experiencia y a la
intuicin, en lugar de seguir un plan experimental adecuado que garantice una
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

88

CAPTULO 2

Diseo de experimentos de un factor

buena respuesta a las interrogantes planteadas. Algo similar ocurre con el


anlisis de los datos experimentales, donde ms que hacer un anlisis riguroso
de toda la informacin obtenida y tomar en cuenta la variacin, se realiza un
anlisis informal, intuitivo Es tal el poder de la experimentacin que, en
ocasiones, se logra mejoras a pesar de que el experimento se hizo con base en
el ensayo y error. Sin embargo, en situaciones de cierta complejidad no es
suficiente aplicar este tipo de experimentacin, por lo que es mejor proceder
siempre en una forma eficaz que garantice la obtencin de las respuestas a las
interrogantes planteadas en un lapso corto de tiempo y utilizando pocos
recursos.
El diseo estadstico de experimentos es precisamente la forma ms eficaz de
hacer pruebas. El diseo de experimentos consiste en determinar cules
pruebas se deben realizar y de qu manera, para obtener datos que, al ser
analizados estadsticamente, proporcionen evidencias objetivas que permitan
responder las interrogantes planteadas, y de esa manera clarificar los aspectos
inciertos de un proceso, resolver un problema o lograr mejoras. Algunos
problemas tpicos que pueden resolverse con el diseo y el anlisis de
experimentos son los siguientes:
1. Comparar a dos o ms materiales con el fin de elegir al que mejor
cumple los requerimientos.
2. Comparar varios instrumentos de medicin para verificar si trabajan con
la misma precisin y exactitud.
3. Determinar los factores (las x vitales) de un proceso que tienen impacto
sobre una o ms caractersticas del producto final.
4. Encontrar las condiciones de operacin (temperatura, velocidad,
humedad, por ejemplo) donde se reduzcan los defectos o se logre un
mejor desempeo del proceso.
5. Reducir el tiempo de ciclo del proceso.
6. Hacer el proceso insensible o robusto a oscilaciones de variables
ambientales. 7. Apoyar el diseo o rediseo de nuevos productos o
procesos
8. Ayudar a conocer y caracterizar nuevos materiales.
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

En general, cuando se requiere mejorar un proceso existen dos maneras


bsicas de obtener la informacin necesaria para ello:

Observar o monitorear va herramientas estadsticas, hasta obtener


seales tiles que permitan mejorarlo; se dice que sta es una
estrategia pasiva.

La otra manera consiste en experimentar, es decir, hacer cambios


estratgicos y deliberados al proceso para provocar dichas seales
tiles.

Al analizar los resultados del experimento se obtienen las pautas a


seguir, que muchas veces se concretan en mejoras sustanciales del proceso.
En este sentido, experimentar es mejor que sentarse a esperar a que el
proceso nos indique por s solo cmo mejorarlo. El diseo de experimentos es
un conjunto de tcnicas activas, en el sentido de que no esperan que el proceso
mande las seales tiles, sino que ste se manipulan para que proporcione la
informacin que se requiere para su mejora.

El saber diseo de experimentos y otras tcnicas estadsticas, en


combinacin con conocimientos del proceso, sitan al responsable del mismo
como un observador perceptivo y proactivo que es capaz de proponer mejoras
y de observar algo interesante (oportunidades de mejora) en el proceso y en los
datos donde otra persona no ve nada.
Nota. Comentarles la ancdota de las naranjas
Experimentos con un
solo factor

49

2.1. Familia de diseos para comparar tratamientos.


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

90

CAPTULO 2

Diseo de experimentos de un factor

Los diseos experimentales ms utilizados para comparar tratamientos son:


1. Diseo completamente al azar (DCA)
2. Diseo en bloque completamente al azar (DBCA)
3. Diseo en cuadro latino (DCL)
4. Diseo en cuadro grecolatino (DCGL)
La diferencia fundamental entre estos diseos es el nmero de factores de
bloque que incorporan o controlan de forma explcita durante el experimento. La
comparacin de los tratamientos en cuanto a la respuesta media que logran, en
cualquiera de estos diseos, se hace mediante la hiptesis

que se prueba con la tcnica estadstica llamada Anlisis de Varianza (ANOVA)


con uno, dos, tres o cuatro criterios de clasificacin, dependiendo del nmero
de factores de bloques incorporados al diseo.
Dise

Factores ANOVA

de

bloqueo
DCA 0
DBCA 1

con
Un criterio
Dos

criterios
Tres

DCGL 3

criterios
Cuatro

DCL

Modelo estadstico

criterios
Y

es la variable de salida,

tratamiento,

la media global,

error aleatorio, y

el efecto del

i-simo

son los efectos de tres factores de

bloqueo.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

El modelo estadstico que describe el comportamiento de la variable


observada Y en cada diseo, incorpora un trmino adicional por cada factor de
bloqueo controlado.
De acuerdo con los modelos dados en la tabla, para cada diseo comparativo
se tienen al menos dos fuentes de variabilidad: los tratamientos o niveles del
factor de inters y el error aleatorio. Se agrega una nueva fuente de variabilidad
por cada factor de bloque que se controla directamente. Se observa que los
diseos suponen que no hay efectos de interaccin entre los factores, lo cual
sera lo deseable que ocurra; de no ocurrir as, tal efecto se recarga al error y el
problema de comparacin no se resuelve con xito.
Un efecto de interaccin entre dos factores hace referencia a que el
efecto de cada factor depende del nivel en que se encuentra el otro.

2.2. El modelo de efectos fijos


El modelo de efectos fijos (es cuando se estudian todos los posibles
tratamientos) de anlisis de la varianza se aplica a situaciones en las que el
experimentador ha sometido al grupo o material analizado a varios factores,
cada uno de los cuales le afecta slo a la media, permaneciendo la "variable
respuesta" con una distribucin normal.
Este modelo se supone cuando el investigador se interesa nicamente por los
niveles del factor presentes en el experimento, por lo que cualquier variacin
observada en las puntuaciones se deber al error experimental.
En caso que los tratamientos tengan efecto, las observaciones

se podrn

describir con el modelo estadstico lineal dado por:

(2.2)
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

92

CAPTULO 2

donde

es el parmetro de escala comn a todos los tratamientos, llamado

media global,

Diseo de experimentos de un factor

; es un parmetro que mide el efecto del tratamiento y

error atribuible a la medicin

es el

. Este modelo implica que en el diseo

completamente al azar actuaran a lo ms dos fuentes de variabilidad: Los


tratamientos y el error aleatorio. La media global

de la variable de respuesta

no se considera una fuente de variabilidad por ser una constante comn a


todos los tratamientos, que hace las veces de punto de referencia con respecto
al cual se comparan las respuestas medias de los tratamientos.
Si la respuesta media de un tratamiento particular
respuesta media global

es muy diferente de la

, es un sntoma de que existe un efecto de dicho

tratamiento, ya que como se ver ms adelante,


debe tener las medias entre s para concluir que

. La diferencia que
hay un efecto (que los

tratamientos son diferentes), nos lo dice el anlisis de varianza (ANOVA).


En la prctica puede suceder que los tratamientos que se desea comparar
sean demasiados como para experimentar con todos. Cuando esto sucede es
conveniente comparar slo una muestra de la poblacin de tratamientos, de
modo que

pasa a ser una variable aleatoria con su propia varianza

que

deber estimarse a partir de los datos. En este captulo slo se presenta el


caso en que todos los tratamientos que se tienen se prueban, es decir, se
supone una poblacin pequea de tratamientos, lo cual hace posible
compararlos a todos. En este caso, el modelo dado por la ecuacin (2.2) se
llama modelo de efectos fijos.

2.3. Diseo completamente al azar y ANOVA


Muchas comparaciones, como las antes mencionadas, se hacen con base en el
diseo completamente al azar (DCA), que es el ms simple de todos los
diseos que se utilizan para comparar dos o ms tratamientos, dado que slo
consideran dos fuentes de

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos completamente al
azar y ANOVA

93

variabilidad: los tratamientos y el error aleatorio. En la siguiente unidad veremos


diseos que consideran la influencia de otras fuentes de variabilidad (bloques).
Este diseo se llama completamente al azar porque todas las corridas
experimentales se realizan en orden aleatorio completo. De esta manera, si
durante el estudio se hacen en total N pruebas, stas se corren al azar, de
manera que los posibles efectos ambientales y temporales se vayan
repartiendo equitativamente entre los tratamientos.
Ejemplo 1
Comparacin de cuatro mtodos de ensamble. Un equipo de mejora
investiga el efecto de cuatro mtodos de ensamble A, B, C y D, sobre el tiempo
de ensamble en minutos con un nivel de significancia de 0.05. En primera
instancia, la estrategia experimental es aplicar cuatro veces los cuatro mtodos
de ensamble en orden completamente aleatorio (las 16 pruebas en orden
aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 2.1. Si
se usa el diseo completamente al azar (DCA), se supone que, adems del
mtodo de ensamble, no existe ningn otro factor que influya de manera
significativa sobre la variable de respuesta (tiempo de ensamble)
Tabla 2,1 Diseo completamente al
azar

para el ejemplo 1
Mtodo

de

ensamble
A
B
C
6 7
11

D
10

16

12

10

11

11

13

Ejemplo 2
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

94

CAPTULO 2

Diseo de experimentos de un factor

Comparacin de cuatro tipos de cuero. Un fabricante de calzado desea


mejorar la calidad de las suelas, las cuales se pueden hacer con uno de los
cuatro tipos de cuero A, B, C y D disponibles en el mercado. Para ello, prueba
los cueros con una mquina que hace pasar los zapatos por una superficie
abrasiva; la suela de stos se desgasta al pasarla por dicha superficie. Como
criterio de desgaste se usa la prdida de peso despus de un nmero fijo de
ciclos. Se prueban en orden aleatorio 24 zapatos, seis de cada tipo de cuero. Al
hacer las pruebas en orden completamente al azar se evitan sesgos y las
mediciones en un tipo de cuero resultan independientes de las dems. Los
datos (en miligramos) sobre el desgaste de cada tipo de cuero se muestran en
la tabla 2.2
Tabla 2,2 Comparacin de cuatro tipos de cuero (cuatro tratamientos)
Tipo

de Observaciones

cuero
A

264

255

208

206
220

260

258

Promedio
241

262 256,7
209,8

220

216

200

213 230,8
220,7

263

219

225

230

226

215

227

220

228
217
222

El anlisis de la varianza de un criterio (ANOVA de un criterio) es una


metodologa para analizar la variacin entre muestras y la variacin al interior
de las mismas con varianzas, en lugar de rangos. Como tal, es un mtodo
estadstico til para comparar dos o ms medias poblacionales.
El objetivo del anlisis de varianza en el DCA es probar las hiptesis de
igualdad de los tratamientos con respecto a la media de la correspondiente
variable de respuesta:
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

95

Nota: Primeramente explicare el clculo manual tradicional para ANOVA,


posteriormente el simplificado y ms prctico, as como su solucin utilizando
un paquete computacional.
El mtodo de ANOVA con un criterio requiere del clculo de dos
estimaciones independientes para

, la varianza poblacional comn. Estas

dos estimaciones se denotan por

. Se denomina estimacin de la varianza entre muestras (Mtodo entre)


. Se denomina estimacin de la varianza al interior de las muestras (Mtodo
dentro)

El estadstico entonces resulta

y tiene una distribucin muestral que sigue una

distribucin F.

Estadstico F para el ANOVA con un criterio

(2,3)
El cual se contrastara con el valor de

encontrado en tablas en relacin

a los grados de libertad del numerador entre grados de libertad del


denominador y con un nivel de significancia ( ) prefijado.
Se rechaza la

si

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

96

CAPTULO 2

Diseo de experimentos de un factor

Se deduce que si

es grande, se contradice la hiptesis de que no hay

efectos de tratamientos; en cambio, si

es pequeo se confirma la validez de

Mtodo dentro
El mtodo dentro de estimacin de la varianza produce una estimacin vlida
sin importar si la hiptesis nula de las medias poblacionales iguales es cierta.
Esto se debe a que la variabilidad de los valores de la muestra se determina
comparando cada elemento en los datos con la media muestral. Cada valor de
la muestra obtenido de la poblacin A se compara con la media muestral A;
cada elemento obtenido de la poblacin B se compara con la media muestral B,
y as sucesivamente. La ecuacin para calcular la estimacin de la varianza
con el mtodo dentro es:

donde:
(2,4)

= Estimacin de la varianza muestral con el mtodo entre.

= i-

simo elemento de los datos de grupo j.

= media del grupo j

C = nmero de grupos

n = nmero de elementos de la muestra en cada grupo.

El nmero adecuado de grados de libertad para el mtodo dentro se calcula


como c(n-1) si el nmero de observaciones en cada grupo es igual. Como a
cada elemento del grupo se le resta la media de ese grupo, slo (n-1)
elementos de cada grupo pueden variar. Adems como se tienen c grupos, c se
multiplica por (n-1) para obtener los grados de libertad para el mtodo dentro.
Grados de libertad para
glw = C(n 1)
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

97

Mtodo entre
El segundo mtodo para estimar la varianza comn de la poblacin produce
una estimacin vlida slo si la hiptesis nula es cierta. Para entender el
mtodo entre recuerde el teorema del lmite central. Este importante teorema
en estadstica establece que la distribucin de las medias muestrales tiende a
una distribucin normal conforme crece el tamao de la muestra, con una
media y una desviacin estndar n. Si el error estndar de la media es
n, entonces la varianza de la distribucin es igual al error estndar al
cuadrado, 2n.
Esta varianza es una medida de las diferencias entre todas las medias
muestrales que puedan obtenerse de la distribucin y la media de la poblacin.
La raz cuadrada de esta varianza es el error estndar de la media, es decir, la
diferencia estndar entre una media muestral y la media poblacional.
En ANOVA,

para estimar la varianza de la distribucin muestral de

medias, se debe estimar primero la media poblacional. La media de todos los


valores muestrales proporciona esa estimacin. Despus, se determina la
diferencia entre la media de cada grupo y esta media poblacional estimada, y
estas diferencias se elevan al cuadrado y se suman. Este valor, con frecuencia
se llama la suma de cuadrados entre (SC b). Esta suma se divide entonces
entre el nmero adecuado de grados de libertad para obtener la estimacin de
la varianza de la distribucin muestral. La ecuacin siguiente da el clculo de la
estimacin de la varianza de la distribucin muestral de las medias:

donde:

(2,5)

= Estimacin del mtodo entre de la varianza poblacional comn.

= media del grupo j.

= media global (media de todos los valores), usada como estimacin de


. C = nmero de grupos

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

98

CAPTULO 2

Diseo de experimentos de un factor

n = nmero de elementos de la muestra en cada grupo si el nmero de


observaciones en cada uno es el mismo.

Grados de libertad para


glb = (C 1)
Tabla ANOVA
Los resultados del anlisis de varianza se presentan en una tabla ANOVA
que resume los valores importantes de la prueba. Esta tabla tiene un formato
estndar que usan los libros y los problemas de computadora que ejecutan
ANOVA. La siguiente tabla muestra la forma general de la tabla ANOVA.
En dicha tabla se resumen los clculos necesarios para la prueba de
igualdad de las medias poblacionales usando anlisis de varianza. Primero se
usa el mtodo dentro para estimar 2. Cada valor de los datos se compara con
su propia media, y la suma de las diferencias al cuadrado se divide entre los
grados de libertad c(n-1).

Fuente de

SC

GL

variacin

Estimacin de
F
2

Coeficiente
/

Grupos Entre

c-1

/ glb

Grupos
Dentro
2

c(n-1)
Total

/ glb
( xij x ) 2

d
onde:

= Nmero de la columna

i = Nmero de la fila

c = Nmero de columnas (grupos)

n = Nmero de elementos en cada grupo (tamao de la muestra)

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

99

La tabla ANOVA contiene columnas con las fuentes de variacin, las sumas
de cuadrados, los grados de libertad, las estimaciones de la varianza y el valor
F para el procedimiento de anlisis de varianza.

Retomando el problema del efecto de cuatro mtodos de ensamble A, B, C y


D, sobre el tiempo de ensamble en minutos tenemos:

Mtodo

de

ensamble
A
B
C
6 7
11

D
10

16

12

10

11

11

13

7,25

8,5

Media ( i)
Media global :
C = 4,

12,75

10,5

= 9,73
n

=4
=4

+
+
+

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

100

CAPTULO 2

Diseo de experimentos de un factor

Completando la tabla ANOVA, quedando de la siguiente manera


Fuente de
Variacin

SC

Estimacin de 2

gl

Coeficiente F

--------------------------------------------------------------------------------------------------------- Grupos entre

69,49

69,75/3 = 23,25

12

29,48/12 = 2,45

23,25/2,45 = 9,42
Grupos dentro

29,48

--------------------------------------------------------------------------------------------------------- TOTA

98,97

15

Como la hiptesis a probar es


H0:

1 = 2 = 3 = 4

H1:

No todas las poblaciones tienen la misma media

El valor de F calculado por tabla cuando tenemos un nivel de


significancia de 0,05 y 3 grados de libertad en el numerador y 12 grados de
libertad en el denominador es

F0,05 (3,12) = 3,49

Como nuestro estadstico de prueba F (9,42) excede el valor crtico


tabulado (3,49), rechazamos

la hiptesis nula y aceptamos la alterna,

concluyendo que s hay diferencia o efecto de los mtodos de ensamble en


cuanto a su tiempo promedio.

Ahora veremos el procedimiento y notacin ms comnmente utilizado para la


solucin de ANOVA
Tabla 2.3 Diseo completamente al azar (DCA)
Tratamientos

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

101

.
.

..

.
.

Notacin de puntos
Sirve para presentar de manera abreviada cantidades numricas que se
pueden calcular a partir de los datos experimentales donde
observacin en el tratamiento , con

representa la
. Las

cantidades de inters son las siguientes:

Note que el punto indica la suma sobre el correspondiente subndice. As, algunas
relaciones vlidas son:

(2.6)
donde

es el total de observaciones.

ANOVA
Como ya lo mencionamos el objetivo del anlisis de varianza en el DCA es
probar la hiptesis de igualdad de los tratamientos con respecto a la media de
correspondiente variable de respuesta.
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

102

CAPTULO 2

Diseo de experimentos de un factor

Para probar la hiptesis dada por la relacin:

mediante la tcnica de ANOVA, lo primero es descomponer la variabilidad total


de los datos en sus dos componentes: la variabilidad debida a tratamientos y la
que corresponde al error aleatorio (equivalente al mtodo entre y mtodo
dentro), como se hace a continuacin.
Una medida de la variabilidad total presente en las observaciones de la
tabla 2.3 es la suma total de cuadrados (

) dada por:

(2.7)
donde

es la suma de los

datos en el experimento.

La suma de cuadrados de tratamientos (

) sta dado por:

(2.8) donde apreciamos


que la

mide la variacin o diferencias entre tratamientos, ya que si stos

son muy diferentes entre s, entonces la diferencia

tender a ser grande

en valor absoluto, y con ello tambin ser grande la


La suma de cuadrados del error (

) sta dado por:


(2.9) donde la

mide la

variacin dentro de tratamientos, ya que si hay mucha variacin entre las


observaciones de cada tratamiento entonces

tender a ser grande en

valor absoluto. En forma abreviada, esta descomposicin de la suma total de


cuadrados se puede describir como:
(2.10)

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

103

La suma de cuadrados divididos entre sus respectivos grados de libertad se


llaman cuadrados medios. Los dos que ms interesan son el cuadrado medio
de tratamientos (

) y el cuadrado medio del error (

, que se denotan

por:

(2.11)

(2.12)
Con base en este hecho se construye el estadstico de prueba como sigue: se
sabe que

son independientes, por lo que

son

dos variables son dos variables aleatorias independientes con distribucin jicuadrada con

grados de libertad, respectivamente. Entonces, bajo

el supuesto de que la
hiptesis

es verdadera, el estadstico

(2.13)
sigue una distribucin

con (

grados de libertad en el numerador y (

) grados de libertad en el denominador. De la ecuacin (2.13) se deduce que si


es grande, se contradice la hiptesis de que no hay efecto de tratamientos;
en cambio, si
significancia
el percentil (
p

es pequeo se confirma la validez de


prefijado, se rechaza

si

. As para un nivel de
donde

) x 100 de la distribucin . Tambin se rechaza

, donde el valor-p es el rea bajo la distribucin

estadstico

es
si el valor-

a la derecha del

, es decir, el
)

Toda la informacin necesaria para calcular el estadstico

hasta llegar al

valor-p se escribe en la llamada tabla de anlisis de varianza (ANOVA) que se


muestra en la tabla 2.4. En esta tabla, las abreviaturas significan lo siguiente:
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

104

CAPTULO 2

Diseo de experimentos de un factor

fuente de variabilidad (efecto),

suma de cuadrados,

grados de

libertad,
cuadrado medio,

estadstico de prueba, valor-p = significancia observada

Tabla 2.4 Tabla de ANOVA para DCA


SC

GL

CM

Valorp

Tratamientos
)

Error

Total

Anlisis del ejemplo 1 (comparacin de cuatro tipos de mtodos de


ensamble). La interrogante que se plante en el problema de la comparacin
entre los cuatro tipos de mtodos de ensamble fue: existen diferencias entre
el tiempo promedio de los diferentes mtodos de ensamble? La respuesta a
esta pregunta es el resultado de contrastar las hiptesis:

Clculos manuales
Detalles de los clculos para el ANOVA en DCA para el tiempo de ensamble
Mtodos de ensamble
Observaciones
B

Operaciones bsicas
=
Suma

de

los

cuadrados

de

todas

las

observaciones o datos
6 7 11 10
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

105

8 9 16 12
10 11 11

suma de los datos

8 13 9
Total por

total de mediciones
media
Tratamiento (

29 34 51 42
Numero de datos
En

cada

(
Media

global
tratamiento

4 4 4
muestral por

Tratamiento

7.25

8.50

12.75

10.50
Desviaciones
respecto -2.50 -1.25 3.0 0.75
A la media global (
1.

Suma total de cuadrados o variabilidad total de

los datos:

2.- Suma de cuadrados de tratamientos o variabilidad debida a la diferencia entre


mtodos de ensamble:

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble:

4.- Cuadrados medios de tratamientos y del error (efecto ponderado de cada fuente
de variacin):
Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

106

CAPTULO 2

Diseo de experimentos de un factor

5.- Estadstico de prueba:

Con toda esta informacin se procede a llenar la tabla ANOVA. El valor de la


significancia observada o valor-p es el rea bajo la curva de la distribucin
a la derecha de

, lo cual es difcil de calcular de forma manual. Sin

embargo, cuando esto no sea posible, recordemos que otra forma de rechazar o
no una hiptesis es comparar el estadstico de prueba contra un nmero crtico
de tablas. En el caso de las tablas de la distribucin
valor crtico para

es

entonces se rechaza

, en donde se lee que el

. Como:

, con lo cual se concluye que s hay diferencias o efecto de

los mtodos de ensamble en cuanto a su tiempo promedio


Tabla ANOVA
Fuente de

SC GL

CM

Valor

variaciones

crtic
o
para

F
Tratamientos 69,5 3
23,17 9,42 3,49
Error
29,5 12 2,46
Total
99,0 15

Resultados arrojados en un paquete computacional (Excel y Minitab), para el


ejemplo 1 de los tiempos de ensamble para los cuatro mtodos.

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

107

ANOVA unidireccional: A; B; C; D Minitab


Fuente GL

SC

MC

Factor 3 69,50 23,17 9,42 0,002


Error 12 29,50 2,46
Total 15 99,00
S = 1,568 R-cuad. = 70,20% R-cuad.(ajustado) = 62,75%

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Nivel N Media Desv.Est. --------+---------+---------+---------+A

4 7,250

0,957 (------*------)

4 8,500

1,291

4 12,750

2,363

4 10,500

1,291

(------*------)
(------*------)
(------*------)

--------+---------+---------+---------+Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

108

CAPTULO 2

Diseo de experimentos de un factor

7,5

10,0

12,5

15,0

Desv.Est. agrupada = 1,568

Diagrama de cajas simultneos


Los diagramas de cajas es una herramienta para describir el comportamiento e
unos datos, y es de suma utilidad para comparar procesos, tratamientos y, en
general, para hacer anlisis por estratos (lotes, proveedores, turnos). En el
resultado arrojado por Minitab se observa en la figura (figura 2.1) que el
mtodo C parece diferente al los mtodos A y B en cuanto a sus medias; la
media del mtodo D tambin se ve diferente a la media del mtodo A. Por otra
parte, se observa un poco ms de variabilidad en el mtodo C que en todos
los dems. Lo que sigue es verificar que lo que se observa en el diagrama de
cajas implica diferencias significativas entre los distintos tratamientos; por lo
tanto, es necesario hacer pruebas estadsticas porque los datos que se
analizan en los diagramas de cajas son muestras.
En general, cuando los diagramas no se traslapan es probable que los
tratamientos correspondientes sean diferentes entre s, y la probabilidad es
mayor en la medida que los diagramas estn basados en ms datos. Cuando
se traslapan un poco puede ser que haya o no diferencias significativas, y en
cualquier caso es conveniente utilizar una prueba estadstica para determinar
cules diferencias son significativas. Estas pruebas se vern en la siguiente
seccin.

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

109

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

110

CAPTULO 2

Diseo de experimentos de un factor


e

Figura 2.1 Diagrama de cajas para los mtodos de ensamble

Anlisis del ejemplo 2 (comparacin de cuatro tipos de cuero). La interrogante


que se plante en el problema de la comparacin entre los cuatro tipos de
cuero fue: existen diferencias entre el desgaste promedio de los diferentes
tipos de cuero? La
pregunta

es

respuesta

el

esta

resultado de contrastar

las hiptesis:
a

En el resultado arrojado por Excel, se muestra el anlisis de varianza


para este ejemplo. Como el valor-p = 0,0000 es menor que la significancia
prefijada

, se rechaza

y se acepta que al menos un par de tipos de

cuero tiene un desgaste promedio diferente


c
Anlisis de varianza de un factor en Excel

RESUMEN
Grupos
A

Cuenta
6

Suma
1540

Promedio
Varianza
256,666666 68,666666
7

B
C

6
6

1263
1385

210,5
52,7
230,833333 266,96666
e

1327

3
7
221,166666 22,966666
7

ANLISIS DE VARIANZA
Origen

Suma

de

cuadrados

Grad

Promedio

os

de

variacio

de

cuadrados

nes

libert

las

de

los

Probabilid

Valor

ad

crtico para
F

ad
Instituto Tecnolgico de Ensenada
a
Jimnez Gonzlez

Biol. Ral

Diseos completamente al
azar y ANOVA

111
i

Entre

7019,4583

grupos
Dentro

33
2056,5

de

2339,8194

22,75535

1,17615E

3,0983912

56

-06

24

20

44
102,825

los

grupos
9075,9583
Total

33

23

ANOVA unidireccional: A; B; C; D Minitab


Fuente GL

SC

MC

Factor 3 7019 2340 22,76 0,000


Error 20 2057 103
Total 23 9076
G

S = 10,14 R-cuad. = 77,34% R-cuad.(ajustado) = 73,94%

s
o
t
a

ICs de 95% individuales para la media


17,5

basados en Desv.Est. agrupada


Nivel N Media15,0Desv.Est. ----+---------+---------+---------+----A

6 256,67
12,5 8,29

D
6 210,50

6 230,83 16,34

10,0

7,5

6 221,17

(----*-----)

7,26 (-----*----)
(----*-----)

4,79

(----*-----)

----+---------+---------+---------+----A
B
C

5,0

208

224

240

256

Desv.Est. agrupada = 10,14

2.4. Comparaciones o pruebas de rangos mltiples


Instituto Tecnolgico de Ensenada
Jimnez Gonzlez

Biol. Ral

112

CAPTULO 2

Diseo de experimentos de un factor

El anlisis de varianza es un procedimiento poderoso para probar la


homogeneidad de un conjunto de medias. Sin embargo, si rechazamos la
hiptesis nula (

) y aceptamos la alterna (que no todas las medias son

iguales) an no sabemos cules de las medias poblacionales son iguales y


cules son diferentes.

Comparacin de parejas de medias de tratamientos.


Cuando no se rechaza la H0: 1 = 2 = 3, el objetivo del experimento est
cubierto y la conclusin es que los tratamientos no son diferentes. Si por el
contrario se rechaza H0, y por consiguiente se acepta la H1: No todas las
poblaciones tienen la misma media, es necesario investigar cules tratamientos
resultaron diferentes, o cules provocan la diferencia.
Estas interrogantes se responden probando la igualdad de todos los posibles
pares de medias, para lo cual se han propuesto varios mtodos, conocidos
como mtodos de comparaciones mltiples o pruebas de rango mltiple.
La diferencia primordial entre los mtodos radica en la potencia que tienen para
detectar las diferencias entre las medias. Se dice que una prueba es ms
potente si es capaz de detectar diferencias ms pequeas.
Hay varios mtodos estndar para realizar comparaciones pareadas que
apoyen la credibilidad de la tasa de error tipo I.

Mtodo de la diferencia mnima significativa de Fisher (mtodo LSD).


Una vez que se rechazo

en el ANOVA, el problema es probar la igualdad de

todos los posibles pares de medias con la hiptesis:

Instituto Tecnolgico de Ensenada


Jimnez Gonzlez

Biol. Ral

Comparacin o pruebas de
rangos mltiples

para toda

113

. Para

tratamientos se tienen en total

medias. Por ejemplo, si

existen

pares de

posibles pares de medias. El

estadstico de prueba para cada una de las hiptesis dadas es la


correspondiente diferencia en valor absoluto entre sus medias muestrales
. Se rechaza la hiptesis

si ocurre que

(2.14)
donde el valor de
con

se lee en las tablas de la distribucin T de student

grados de libertad que corresponde al error, el

medio del error y se obtiene de la tabla ANOVA,


observaciones para los tratamientos

es el cuadrado
son el nmero de

, respectivamente. La LSD se llama

diferencia mnima significativa de Fisher, ya que es la diferencia mnima que


debe existir entre dos medias muestrales para considerar que los tratamientos
correspondientes son significativamente diferentes. As, cada diferencia de
medias

muestrales

que

si

el

diseo

es

balanceado,

es

decir,

si

, la diferencia mnima significativa se reduce a:

(2.15)
En caso de rechazar

se acepta la hiptesis alternativa la cual nos dice que

las medias de los tratamientos

son diferentes. El mtodo LSD tiene una

potencia importante, por lo que en ocasiones declara significativas aun


pequeas diferencias.
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

114

CAPTULO 2

Diseo de experimentos de un factor

Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el


ANOVA se rechaz la hiptesis nula y se acept que al menos un par de
medias de tratamientos (mtodos de ensamble) son diferentes entre s. Para
investigar cules pares de medias son estadsticamente diferentes se prueban
los seis posibles pares de hiptesis:

(2.16)
Utilizando el mtodo de LSD. EN el ANOVA se observa que los grados
de libertad del error son

, y que el cuadrado medio del error es

. Si usamos una significacin predefinida de

, de la tabla de

la distribucin T de Student con 12 grados de libertad, se obtiene que

. Como
en cada tratamiento se hicieron

pruebas, entonces

La decisin sobre cada una de las seis hiptesis listadas arriba se obtiene al
comparar las correspondientes diferencias de medias muestrales en valor
absoluto con el nmero LSD = 2,42. Se declaran significativas aquellas
diferencias que son mayores a este nmero. Los resultados se muestran en la
tabla 2,5, de donde se concluye que
mientras que

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

115

Tabla 2,5 Aplicacin de la prueba LSD a mtodos de ensamble


Diferencia

Diferencia muestral

poblaciona

en valor absoluto

Decisin

l
7,25 - 8,50 = 1.25 2,42

No

7,25 12,75 = 5,50

significativo

2,42

Significativo

7,25 10,50 = 3,25

Significativo

2,42

Significativo

8,50 12,75 = 4,25

No

2,42

significativo

8,50 10,50 = 2

2,42

12,75 10,50 = 2,25

No
significativo

2,42
En el resultado de comparacin de parejas arrojado por minitab, por el
mtodo de LSD, observamos que este nos indica los intervalos de confianza
para las comparaciones de cada par de muestras, por lo que debemos tomar el
punto medio de cada comparacin (centro) y contrastarlo con el valor del
estadstico t de student obtenido en tablas (2,42) y tomar la decisin que
corresponda

Intervalos de confianza individuales de Fisher(LSD) del

95%

Todas las comparaciones en parejas en Minitab


Se rest A a:
Inferior Centro Superior -------+---------+---------+---------+-B

-1,166 1,250

3,666

(-----

*-----)
C

3,084

5,500

7,916

3,250

5,666

(-----*-----)
D

0,834
(-----*-----)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

116

CAPTULO 2

Diseo de experimentos de un factor

-------+---------+---------+---------+--4,0

0,0

4,0

8,0 Se rest B a:

Inferior Centro Superior -------+---------+---------+---------+-1,834

4,250

6,666

(-----*-----)
-0,416 2,000

4,416

(-----

*-----)
-------+---------+---------+---------+--4,0

0,0

4,0

8,0 Se rest C a:

Inferior Centro Superior -------+---------+---------+---------+-- D


-2,250

0,166

-4,666

(-----*-----)
-------+---------+---------+---------+--

-4,0

0,0

4,0

8,0

Mtodo de Tukey.
Es el mtodo ms conservador para comparar pares de medias de
tratamientos, el cual consiste en comparar las diferencias entre medias
muestrales con el valor crtico dado por:

(2,17) donde
Es el cuadrado medio del error (

/ glb )

Es el nmero de observaciones por tratamiento


Es el nmero de tratamientos
Es igual a los grados de libertad para el error
Es el nivel de significancia prefijado
Son puntos porcentuales de la distribucin del rango
estudentizado,
que se obtienen de la correspondiente tabla

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

117

Se declaran significativamente diferentes los pares de medias cuya diferencia


muestral en valor absoluto sea mayor que

. A diferencia de los mtodos LSD

y Duncan, el mtodo Tukey trabaja con un error

muy cercano al declarado por

el experimentador.
Ejemplo. Al aplicar el mtodo de Tukey al ejemplo 1 de los mtodos de
ensamble, a partir de la tabla ANOVA correspondiente, se toma la informacin
pertinente y de las tablas del rango estudentizado (tabla 1) dada en el
apndice.

( / glb ) = 2,45
4
4
12
0,05
en tablas de rango estudentizado corresponde a 4,20
sustituyendo en la ecuacin tenemos

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

118

CAPTULO 2

Diseo de experimentos de un factor

Que al compararlo con las diferencias de medias muestrales, los


resultados sobre las hiptesis son:
Diferencia

Dife ncia

poblacional

re
1,2
5
5,5
0
3,2

Decisin

muestral
No

3,27

significativ

3,27

3,27

Significativ

3,27

3,27

No

3,27

significativ

4,2

Significativ

2,0

No

significativ

2,2

No
significativ
o

De esta tabla se concluye que

Observe que esta prueba no encuentra diferencias entre los mtodos d


ensamble A y D, la cual si se detecta por otros mtodos. Esto es congruente
con el hecho de que la prueba de Tukey es menos potente que la prueba LSD
(diferencia mnima significativa)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

119

En el resultado de comparacin de parejas arrojado por minitab, por el


mtodo de Tukey, observamos que este nos indica los intervalos de confianza
para las comparaciones de cada par de muestras, por lo que debemos tomar el
punto medio de cada comparacin (centro) y contrastarlo con el valor del
estadstico de rango estudentizado obtenido en tablas (4,20) y sustituyendo en
la formula obteniendo el valor de

, el cual se contrasta con la

diferencia de medias y se tomar la decisin que corresponda


Intervalos de confianza simultneos de Tukey del 95%
Todas las comparaciones en parejas en Minitab
Se rest A a:
Inferior Centro Superior -----+---------+---------+---------+---B

-2,043 1,250

2,207 5,500

-0,043 3,250

4,543

(------*-----)

8,793

(------*------)

6,543

(------*-----)
-----+---------+---------+---------+----

-5,0

0,0

5,0

10,0 Se rest B a:

Inferior Centro Superior -----+---------+---------+---------+---C

0,957 4,250

-1,293 2,000

7,543

(------*-----)

5,293

(------*------)
-----+---------+---------+---------+----

-5,0

0,0

5,0

10,0 Se rest C a:

Inferior Centro Superior -----+---------+---------+---------+---D -5,543 -2,250

1,043

(------*-----)

-----+---------+---------+---------+----5,0

0,0

5,0

10,0

Mtodo de Duncan.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

120

CAPTULO 2

Diseo de experimentos de un factor

En este mtodo para la comparacin de medias, si las


tamao, los

muestras son de igual

promedios se acomodan en orden ascendente y el error estndar

de los promedios se estima con

(2,18)
Este procedimiento de Duncan tambin se llama prueba de rango
mltiple de Duncan. Este procedimiento tambin se basa en la notacin
general del rango studentizado. El rango de cualquier subconjunto de

medias

muestrales debe exceder cierto valor antes de que se encuentre que cualquiera
de las

medias es diferente. Este valor se llama rango de menor significancia

para las

medias y se denota como

(2,19)
( = muestras)
=

Grados de libertad para el error que corresponden a (


= Cuadrado medio del error (

/ glb )

Numero de observaciones por tratamiento


= Valores crticos para la prueba de Duncan (obtenidos en tabla)
Los valores de la cantidad

, que se denominan rango studentizado de

menor significancia, dependen del nivel de significancia que se desea y el


nmero de grados de libertad del cuadrado medio del error. Estos valores se
pueden obtener de la tabla valores crticos para la prueba de Duncan (tabla
2)
Las diferencias observadas entre las medias muestrales se comparan con los
rangos

(rango de menor significancia) de la siguiente manera:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

121

Primero se comparan la diferencia entre la media ms grande y la ms


pequea con el rango

Luego, la diferencia entre la media ms grande y la segunda ms


pequea se compara con el rango

Estas comparaciones continan hasta que la media mayor se haya


comparado con todas las dems.

Enseguida, se compara la diferencia entre la segunda media ms grande


y la media menor con el rango

Despus la diferencia entre la segunda media ms grande y la segunda


ms pequea se compara con el valor de

Y as sucesivamente hasta que se comparan los

pares de

medias posibles con el rango que les corresponda


En las comparaciones donde la diferencia observada es mayor que el rango
respectivo, se concluye que esas medias son significativamente diferentes. Si
dos medias caen entre otras dos que no son muy diferentes, entonces esas dos
medias poblacionales tambin se consideran estadsticamente iguales.
Ejemplo. Supongamos que nos interesa probar las seis hiptesis para los
cuatro mtodos de ensamble del problema anterior.

Estos valores se obtienen de la tabla


correspondiente

Substituyendo en la ecuacin tenemos:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

122

CAPTULO 2

Diseo de experimentos de un factor

= (3,08)(0,78)
= (3,23)(0,78)
= (3,33)(0,78)
Estos rangos se comparan con las diferencias de medias de acuerdo al mtodo
descrito anteriormente.
Las cuatro medias muestrales acomodadas en orden ascendente son:

de aqu se obtienen las diferencias en el orden dado por el mtodo de Duncan y


se van comparando con el rango correspondiente.
En la siguiente tabla se resumen los resultados
Diferencia
poblacional

Diferencia muestral

Decisin

Comparada con su
rango
Significativo
12,75 7,25 = 5,5

Significativo

2,60 =

No

12,75 8,50 = 3,27

significativo

2,52 =

Significativo

12,75 10,50 = 2,25

No
significativo

2,40 =
10,50 7,25 = 3,25 2,60 =
10,50 8,50 = 2,0

2,40 =

8,50 7,25 = 1,25

2,40 =

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

No
significativo

Biol.

Comparacin o pruebas de
rangos mltiples

123

De esta tabla se concluye que


,

, mientras que

. Que son las mismas conclusiones que se

obtuvieron con
el mtodo LSD. En general, las pruebas de Duncan y LSD tienen un desempeo
similar.

Mtodo de Dunnet (Comparacin de tratamientos con un control).


En muchos problemas cientficos y de ingeniera no interesa extraer inferencias
con respecto a todas las posibles comparaciones entre las medias de los
tratamientos. En su lugar, el experimento a menudo dicta la necesidad de
comparar de manera simultnea cada tratamiento con un control. Por ejemplo,
al comparar varios medicamentos para el resfriado es conveniente que uno de
los tratamientos sea que los pacientes no utilicen ningn medicamento, esto
sirve como referencia para decidir la posible utilidad de los medicamentos.
Un procedimiento de prueba desarrollado por C.W. Dunnett determina
diferencias significativas entre cada media del tratamiento y el control, en un
solo nivel de significancia.
Por facilidad, denotemos como tratamiento control al
tratamiento. Hacer comparaciones con respecto al control implica probar las
hiptesis dadas por:

con

, donde

es el tratamiento control. La hiptesis nula se

rechaza
si,

donde
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

124

CAPTULO 2

Diseo de experimentos de un factor

= Media del tratamiento


= Media del tratamiento control
Valor encontrado en tablas de Dunnett
= Grados de libertad del cuadrado medio del error
= Cuadrado medio del error
Donde

se encuentra en las tablas (tabla 3) valores crticos

para la prueba de Dunnett; son los grados de libertad del cuadrado medio del
error. Se recomienda que el tamao de muestra del tratamiento control sea
grande, a fin de estimar su media con mayor precisin.
Ejemplo. Para ilustrar el procedimiento de Dunnett , consideremos los
datos experimentales de la siguiente tabla para la clasificacin unilateral donde
se estudia el efecto de tres catalizadores sobre el rendimiento de una reaccin.
Un cuarto tratamiento, sin ningn catalizador, se utiliza como control.

Rendimiento de la reaccin
Control

Catalizador 1

Catalizador 2

50,7

54,1

52,7

51,2

51,5

53,8

53,9

50,8

49,2

53,1

57,0

49,7

53,1
48,0

52,5

52,7

Catalizador 3

54,1

54,0

52,5

47,2
Anlisis de varianza de un factor (Resultado de Excel)
RESUMEN
Grupos

Cuenta

Suma

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Promedi

Varianz

a
Biol.

Comparacin o pruebas de
rangos mltiples

125

Control
Catalizador

5
5

257,2
267,5

51,44
53,5

2,478
0,465

1
Catalizador

270,2

54,04

3,238

2
Catalizador

246,9

49,38

3,022

3
ANLISIS DE VARIANZA
Origen
de

Suma

las de

Gra

Promedio de

dos

los
cuadrados

variacio

cuadra

de

nes

dos

libert

Probabili

Valor

dad

crtico para
F

ad
Entre

67,7

grupos
Dentro
de los

22,59533 9,82085

0,000651

3,238871

86
36,8

134

522

333
552
2,30075

12

104,

grupos
Total
598
= 53,5 54,04 49,38

= 51,44
=

= 2,59

= grados de libertad del erros medio


, como es prueba bilateral
=
=
51,44 = 2,06

53,5
= 54,04

51,44 = 2,6
= 49,38 51,44 = 2,06

2,59(0,9593)

2,48
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

126

2,06

CAPTULO 2

Diseo de experimentos de un factor

2,48 Se acepta la hiptesis nula, no hay diferencia significativa de la

muestra 1

con la patrn

2,60 2,48 Se rechaza la nula y se acepta la alterna


2,06

2,48 Se acepta la hiptesis nula

ANOVA unidireccional: Control; Catalizador 1; Catalizador 2; Catalizador


3
Fuente GL

SC

MC

Factor 3 67,79 22,60 9,82 0,001


Error 16 36,81 2,30
Total 19 104,60
Nivel
Control

N Media Desv.Est.
5 51,440 1,574

Catalizador 1 5 53,500 0,682


Catalizador 2 5 54,040 1,799
Catalizador 3 5 49,380 1,738
Comparacin de Dunnett con un control
nivel de significancia de la familia = 0,05
nivel de significancia individual = 0,0196
Valor crtico = 2,59

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

127

Control = Control
Intervalos para media de tratamientos menos media de
control
Nivel

Inferior Centro Superior

Catalizador 1

-0,427 2,060

4,547

Catalizador 2

0,113 2,600

5,087

Catalizador 3

-4,547 -2,060

0,427

Nivel

--------+---------+---------+---------+-

Catalizador 1

(---------*---------)

Catalizador 2

(---------*---------)

Catalizador 3 (---------*---------)
--------+---------+---------+---------+-2,5

0,0

2,5

5,0

2.5. Verificacin de los supuestos del modelo


La validez de los resultados obtenidos en cualquier anlisis de varianza queda
supeditada a que los supuestos del modelo se cumplan. Estos supuestos son:
A) Normalidad
B) Varianza constante (igual varianza de los tratamientos)
C) Independencia
Esto es, la respuesta (Y) se debe distribuir de manera normal, con la misma
varianza en cada tratamiento y las mediciones deben ser independientes. Estos
supuestos sobre Y se traducen en supuestos sobre el termino error ( ) en el
modelo
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

128

CAPTULO 2

Diseo de experimentos de un factor

Es una prctica comn utilizar la muestra de residuos para comprobar los


supuestos del modelo, ya que si los supuestos se cumplen, los residuos o
residuales se pueden ver

como una muestra aleatoria de una distribucin

normal con media cero y varianza constante.


Los residuos,

se definen como la diferencia entre la respuesta observada (

) y la respuesta predicha por el modelo (

), lo cual permite hacer un

diagnstico ms directo de la calidad del modelo, ya que su magnitud seala


qu tan bien describe a los datos del modelo. Veamos

Recordemos que el modelo que se espera describa los datos en el DCA est
dada por:

donde
( = 1,2, ,

= 1,2,, ) Es el

simo dato en el tratamiento

Es la media global
Es el efecto del tratamiento
Representa al error asociado con la observacin
Cuando se realiza el ANOVA, y slo cuando ste resulta significativo,
entonces se procede a estimar el modelo ajustado o modelo de trabajo dado
por:
donde
Es la respuesta predicha
Es la media global estimada

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

129

Es el efecto estimado del


tratamiento
Los gorros indican que son estimadores, es decir, valores calculados a
partir de los datos del experimento. El trmino del error desaparece del modelo
estimado, por el hecho de que su valor esperado es igual a cero (
Como la media global se estima con .. y el efecto del tratamiento con

..,

el modelo ajustado del DCA se puede escribir como:

Para comprobar cada supuesto existen pruebas analticas y grficas que


veremos a continuacin. Por sencillez, muchas veces se prefieren las pruebas
grficas. stas tienen el inconveniente de que no son exactas, pero aun as ,
en la mayora de las situaciones prcticas proporcionan la evidencia suficiente
en contra o a favor de los supuestos.

Normalidad
Un

procedimiento grfico para verificar el cumplimiento del supuesto de

normalidad de los residuos consiste en graficar los residuos en papel o en la


grfica de probabilidad normal que se incluye casi en todos los paquetes
estadsticos. Esta grfica del tipo

tiene
Verificacin de los supuestos

del modelo

las escalas de tal manera que si los residuos siguen una distribucin normal,
al graficarlos tienden a quedar alineados en una lnea recta; por lo tanto, si
claramente no se alinean se concluye que el supuesto de normalidad no es
correcto.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

130

CAPTULO 2

Diseo de experimentos de un factor

Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no


tiene que ser perfecto, dado que el anlisis de varianza resiste pequeas y
moderadas desviaciones al supuesto de normalidad.

Figura 2.2 Grafica de normalidad para


los cuatro tipos de cuero

Varianza constante
Una forma de verificar el supuesto de varianza constante (o que los
tratamientos tienen la misma varianza) es graficado los predichos contra
residuos (

), por lo general

va en el eje horizontal y los residuos en

el eje vertical. Si los puntos en esta grfica se distribuyen de manera aleatoria


en una banda horizontal (sin ningn patrn claro y contundente), entonces es
seal d que se cumple el supuesto de que los tratamientos tienen igual
varianza. Por el contrario, si se distribuyen con algn patrn claro y
contundente, como por ejemplo una forma de corneta o embudo, entonces es
seal de que no se est cumpliendo el supuesto de varianza constante.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

131

vs. ajustes

o
u
d
i
s
e

30
20
10
R

0
-10
210

220

230
240
250
Valor ajustado

Figura 2.3 Grafica de la varianza constante


para los cuatro tipos de cuero

Independencia
La suposicin de independencia en los residuos puede verificarse si se
grafica el orden en que se colect un dato contra el residuo correspondiente.
De esta manera, si al graficar en el eje horizontal el tiempo (orden de corrida)
y en el eje vertical los residuos, se detecta una tendencia o patrn no
aleatorio claramente definido, esto es evidencia de que existe una correlacin
entre los errores y, por lo tanto, el supuesto de independencia no se cumple.
Si el comportamiento de los puntos es aleatorio dentro de una banda
horizontal, el supuesto se est cumpliendo.
La violacin de este supuesto generalmente indica deficiencias en la
planeacin y ejecucin del experimento; asimismo, puede ser un indicador de
que no se aplico en forma correcta el principio de aleatorizacin, o de que
conforme se fueron realizando las pruebas experimentales aparecieron
factores que afectaron la respuesta observada. Por ello, en caso de tener
problemas con este supuesto, las conclusiones que se obtienen del anlisis
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

132

CAPTULO 2

Diseo de experimentos de un factor

son endebles y por ello es mejor revisar lo hecho y tratar de investigar por
qu no se cumpli con ese supuesto de independencia, a fin de reconsiderar
la situacin.
En el ejemplo

para comparar los cuatro tipos de cuero, las grficas

resultantes figuras 2.2 y 2.3. Se observa el cumplimiento de los supuestos de


normalidad y varianza constante, sin embargo, en las dos grficas es notorio
un punto que se aleja bastante del resto, el cual es un punto aberrante cuyo
origen debe investigarse

Eleccin del tamao de la muestra


Una decisin importante en cualquier diseo de experimentos es decidir el
nmero de replicas que se har por cada tratamiento (tamao de muestra).
Por lo general, si se esperan diferencias pequeas entre tratamientos ser
necesario un mayor tamao de muestra.
Aunque existen varios mtodos para estimar el tamao muestral,
muchas veces tienen poca aplicabilidad porque requieren cierto conocimiento
previo sobre la varianza del error experimental.
Si recurrimos a la experiencia vemos que el nmero de rplicas en la
mayora de las situaciones experimentales en las que se involucra un factor
vara entre cinco y diez; incluso, en algn caso puede llegar hasta 30. La
tendencia podra inclinarse por un extremo de este rango e incluso salirse de
ste, de acuerdo con las siguientes consideraciones:

A menor diferencia que se espera en los tratamientos, mayor ser la


cantidad de rplicas si se quieren detectar diferencias significativas, y
viceversa, es decir, si se esperan grandes diferencias quiz con pocas
replicas sea suficiente

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

133

Si se espera mucha variacin dentro de cada tratamiento, debido a la


variacin de fuentes no controladas como mtodos de medicin, medio
ambiente, materia prima, etc., entonces se necesitarn ms rplicas

Si son varios tratamientos (cuatro o ms), entonces ste es un punto


favorable para reducir el nmero de rplicas.

Adems de lo anterior, es preciso considerar los costos y el tiempo global


del experimento. De aqu que si toman en cuenta las consideraciones antes
expuestas se podr establecer el tamao de muestra que permita responder
en una primera fase las preguntas ms importantes que se plantearon con el
experimento
Eleccin del tamao de
la muestra

Supongamos que el experimentador ya tiene el nmero de tratamientos


que desea probar,

y que tomando en cuenta las consideraciones antes

citadas tiene una propuesta inicial del nmero de rplicas por tratamiento que
va a utilizar,

. Tambin tiene una idea aproximada del valor de

(la

desviacin estndar del error aleatorio), as como una idea de la magnitud de


las diferencias,

, entre tratamientos que le interesa detectar. Por ejemplo,

supongamos que en el caso de los tiempos promedio de los

= 4 mtodos

de ensamble (del ejemplo 1), tiene idea realizar

= 5 pruebas; en cuanto a

las diferencias, le interesa detectar 2 minutos,

entre un mtodo y otro, y

espera que cada mtodo tenga una variabilidad intrnseca de

= 1,5; esto

debido a factores no controlados (habilidad del operador, cansancio,


variabilidad de las partes a ensamblar, error de medicin del tiempo de
ensamble, etctera).
La formula que tentativamente debemos usar para la eleccin del tamao de
muestra es:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

134

CAPTULO 2

El valor de

Diseo de experimentos de un factor

arrojado por esta frmula dar una idea del nmero de rplicas

por tratamiento, de acuerdo con las consideraciones iniciales que se reflejan a


travs de
, y sobre todo por el nmero total de corridas experimentales,
x
, que es lo que muchas veces interesa ms al experimentador debido a los
costos y tiempos. Si

est fuera del presupuesto se podrn revisar algunas

consideraciones y quiz pensar en un nmero menor de tratamientos.


Al aplicar esta expresin al caso de los cuatro mtodos del ensamble
obtenemos con un nivel se significancia del 0,05:
=4
=5
= 1,5
=2
= 0,05

1
Por lo tanto

se debera utilizar como tamao de muestra (nmero

de pruebas por tratamiento).


Ejercicios.
1 Explique en qu consiste y cundo se debe aplicar el diseo completamente al
azar con un solo criterio de clasificacin.
2 Una analista de una cadena de supermercados, quiere saber si las tres tiendas
tienen el mismo promedio en dlares por compra. Se elige una muestra
aleatoria de seis compras en cada tienda. En la siguiente tabla se presenta los
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

135

datos recolectados de esta muestra junto con las medias maestrales para cada
tienda. Haga las pruebas necesarias con un nivel de significancia de 0,01. Y
concluya con un reporte de todo lo analizado a lo largo de la unidad, en este
reporte usted como analista deber de incluir y describir todo lo que considere
importante para el cliente, es decir la gerencia del supermercado.

Tabla nmero 1 Datos maestrales para ANOVA (en dlares) para el ejercicio
Tienda 1

Tienda 2

Tienda 3

--------------------------------------------------------------------------12,05

15,17

9,4

23,94

18,52

8
6,9

14,63

19,57

2
10,

25,78

21,40

47
7,6

17,52

13,59

3
11,

20,57

90
5,9

18,45

3. Se hace un estudio sobre la efectividad de tres marcas de spray para matar


moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se
cuentan el nmero de moscas muertas expresando en porcentajes. Se hacen
seis rplicas y los resultados obtenidos se muestran a continuacin

Marca

de

Nmero de replicas
1 2 3 4 5 6

spray
1

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

136

CAPTULO 2

Diseo de experimentos de un factor

a) Formule la hiptesis adecuada y aplique el mtodo estadstico.


b) Existe diferencia entre la efectividad promedio de los productos en spray.
c) Hay algn spray mejor, Argumente su respuesta.
d) D un intervalo al 95% de confianza para la efectividad promedio
(porcentaje) de cada una de las marcas
e) De ser necesario, aplique los mtodos de comparacin o pruebas de
rangos mltiples.
4. Para estudiar la confiabilidad de ciertos tableros electrnicos para carros, se
someten a un envejecimiento acelerado durante 100 horas a determinada
temperatura, y como variables de inters se mide la intensidad de corriente
que circula entre dos puntos, cuyos valores aumentan con el deterioro. Se
probaron 20 mdulos repartidos de manera equitativamente en cinco
temperaturas y los resultados obtenidos fueron los siguientes:

15

17

23

28

45

18

21

19

32

51

13

11

25

34

57

12

16

22

31

48

a) Formule la hiptesis y el modelo estadstico para el problema.


b) Realice el anlisis de varianza para estos datos, a fin de estudiar si la
temperatura afecta la intensidad de corriente promedio.
Ejercicios

c) La temperatura afecta la variabilidad de las intensidades? Es decir,


verifique si hay igual varianza entre los diferentes tratamientos.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

137

5. Una compaa farmacutica desea evaluar el efecto que tiene la cantidad de


almidn en la dureza de las tabletas. Se decidi producir lotes con una
cantidad determinada de almidn, y que las cantidades de almidn a probar
fueron 2%, 5% y 10%. La variable de respuesta sera el promedio de la
dureza de 20 tabletas de cada lote. Se hicieron 4 rplicas por tratamiento y
se obtuvieron los siguientes resultados:
%

de Dureza

almidn
2

4,3

4,5

10

6,5

5,2

4,8

7,3

6,9

7,8

8,5

6,1
9,0
8,1
a) Hay evidencia suficiente de que el almidn influye en la dureza de las
tabletas?
Halle el ANOVA.
b) Realice los anlisis complementarios necesarios.
c) Si se desea maximizar la dureza de las tabletas, qu recomendara al
fabricante?
d) Verifique los supuestos del modelo
6.- Un qumico del departamento de desarrollo de un laboratorio
farmacutico desea conocer cmo influye el tipo de aglutinante utilizado
en tabletas de ampicilina de 500 mg en el porcentaje de friabilidad; para
ello, se eligen los siguientes aglutinantes: polivinilpirrolidona (PVP),
carboximetilcelulosa sdica (CMC) y grenetina (Gre). Los resultados del
diseo experimental son los siguientes.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

138

CAPTULO 2

Diseo de experimentos de un factor

Aglutinante % de friabilidad
PVP
0,485
0,250
CMC

0,0161

Gre

9,64

0,073

0,205

9,37

9,53

9,86

0,275

0,612

0,152

9,79
0,289
0,137
a) Especifique el nombre del diseo experimental
b) Sospecha que hay algn efecto significativo del tipo de aglutinante
sobre la variable de respuesta?
c) Escriba las hiptesis para probar la igualdad de medias y el modelo
estadstico.
d) Realice el anlisis adecuado para probar las hiptesis e intrprete los
resultados.
e) Revise los supuestos, hay algn problema?
7. En el siguiente experimento biolgico se usan cuatro concentraciones de
cierto qumico para reforzar el crecimiento en centmetros de cierto tipo de
planta con el tiempo.

Se utilizan cinco plantas en cada concentracin y se

mide el crecimiento de cada planta. Se toman los siguientes datos de


crecimiento. Tambin se aplica un control (ningn qumico)

concentracin
Control 1
2
3
4
6,8
8,2 7,7 6,9 5,9
7,3

8,7 8,4 5,8 6,1

6,3

9,4 8,6 7,2 6,9

6,9

9,2 8,1 6,8 5,7

7,1

8,6 8,0 7,4 6,1

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

139

Utilice la prueba bilateral de Duncan en el nivel de significancia de 0,05 para


comparar de manera simultnea las concentraciones con el control.
8. En un experimento en el que se investig la cantidad de radn liberado en
las duchas. Se us agua enriquecida con radn, y se probaron seis dimetros
diferentes de los orificios de las regaderas. Los datos del experimento se
presentan en la siguiente tabla.
Dimetro
de

Radn

liberado

Los (%)

orificios
0,37

80

83

83

85

0,51

75

75

79

79

0,71

74

73

76

77

1,02

67

72

74

74

1,40

62

62

67

69

1,99

60

61

64

66

a) El tamao de los orificios afecta el porcentaje promedio de radn


liberado? Use
b) Encuentre el valor P para el estadstico F del inciso a)
c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza de 95% para el porcentaje promedio
de radn liberado cuando el dimetro de los orificios es 1,40
f) Use los diversos mtodos de comparacin o pruebas de rangos mltiples.
9.- Se describe un experimento para determinar el efecto de los vacos de aire
sobre la resistencia porcentual conservada del asfalto. Para los fines del
experimento, los vacos de aire se controlan en tres niveles: bajo (2-4%),
medio (4-6%) y alto (6-8%). Los datos se presentan en la tabla siguiente:
Nivel
vaco

del Resistencia conservada (%)


de

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

140

CAPTULO 2

Diseo de experimentos de un factor

aire
Bajo

106

Medio

95

Alto

80

90 103

90 79 88 92

69

94

91 70 83 87

80

62

69 76 85 69

83
78
85
a) Los diferentes niveles de los vacos de aire afectan de manera
significativa a la resistencia conservada promedio? Use

b) Encuentre el valor P para el estadstico F del inciso a)


c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza del 95% para la resistencia
conservada promedio cuando hay un nivel alto de vacos de aire.
Ejercicios

e) Aplique el mtodo de la LSD. Usando

, cules medias de los

tratamientos son diferentes?


10.- Se investigaron cuatro mtodos diferentes para preparar el compuesto
superconductor

. Los autores sostienen que la presencia de oxgeno

durante el proceso de preparacin afecta la temperatura de transicin de


superconduccin

del material. Los mtodos de preparacin 1 y 2 usan

tcnicas que estn diseadas para eliminar la presencia de oxgeno, mientras


que los mtodos 3 y 4 permiten la presencia de oxgeno. Se hicieron cinco
observaciones de

(en

) para cada mtodo, y los resultados son los

siguientes:
Mtodo de Temperatura de transicin
preparaci

(
)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

141

14,8
23

14,8

14,7

14,8

15,0

14,9

14,8

11,6

12,4

12,7

14,4

14,4

12,2

14,9
14,6

14,7
12,7
12,1
14,2
11,7
a) Hay evidencia que apoye la afirmacin de que la presencia de oxgeno
durante la preparacin afecta la temperatura de transicin media? Use
.
b) Cul es el valor P para la prueba F del inciso anterior
c) Analice los residuales de este experimento.
d) Aplique el mtodo de la LSD en el experimento. Qu mtodos de
preparacin difieren se

11. Ejercicio. Se utilizan cuatro laboratorios para realizar anlisis qumicos.


Muestras del mismo material se mandan a los laboratorios para su anlisis
como parte del estudio para determinar si, en promedio, dan los mismos
resultados. Los resultados analticos para los cuatro laboratorios son los
siguientes:

Laboratorios
A
B
C
58,7
62,7

D
55,9

60,7
61,4

64,5

56.1

63,1

57,3

59,2

55,2

60,3
60,9
60,9
59,1
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

142

CAPTULO 2

Diseo de experimentos de un factor

61,4
58,2

60,3

58,1

62,3

Realice una prueba de rango mltiple de LSD, Tukey y Duncan con un nivel
de significancia de 0,05 y 0,01, para determinar cules laboratorios difieren,
en promedio, en sus anlisis

2.6. Uso de un software estadstico


Excel
a) En una hoja de Excel capturar primeramente la tabla de datos
b) En la misma hoja de clculo seleccionar del cintillo superior Datos, luego
Anlisis de datos
c) Seleccionar anlisis de varianza de un factor en la ventana desplegada

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

143

d) En rango de entrada (en ventana de captura) seleccionar todos los


grupos,

incluyendo

su

rtulo

(sombrearlos

con

el

mouse),

automticamente se incluyen.
e) En el siguiente recuadro seleccionar si nuestros datos estn ordenados
en filia o columnas, adems indicar si tenemos rtulos en los
encabezados, e indicar que los resultados los arroje en una hoja nueva

Uso de software
estadstico

Nota: Si no aparece Anlisis de datos en la parte superior derecha de la hoja de


clculo, se deber de activar de la siguiente manera:

En el smbolo del sistema en la parte superior izquierda

de los

encabezados dar clic.

En la ventana desplegada seleccionar opciones de Excel en la parte


inferior dando un clic.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

144

CAPTULO 2

Diseo de experimentos de un factor

De la ventana desplegada sealar en el men del lado izquierdo


complementos

De la ventana desplegada en el lado derecho, sealar en la parte inferior


de la misma ir con un clic.

De la ventana desplegada palomear el recuadro de herramientas para


anlisis, y aceptar

Nota como no est instalada esta herramienta el sistema nos preguntara


si queremos instalarla a lo que indicaremos que si, y la instalara en un
par de minutos.

Minitab

En la hoja de clculo que despliega Minitab capturar nuestra tabla de


datos indicando sus correspondientes rtulos en la primer fila que no est
numerada

En el cintillo superior indicar con el mouse Estadsticas

Del men desplegado seleccionar ANOVA, en el men desplegado


seleccionar Un solo factor (Desapilado) y dar clic con el mouse

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

145

En ventana de captura desplegada (Anlisis de varianza- Un solo factor),


en la parte izquierda aparecern automticamente los grupos de tabla de
datos

En el cuadro superior derecho (Respuestas (en columnas separadas))


indicar separando por un espacio (sin comas) los nombres de las
columnas que generalmente son letras, esto tambin se logra dando
doble clic en cada letra del cuadro de la izquierda, automticamente son
capturadas

En nivel de confianza por default es 95%

Sealar Aceptar y nos arrojara el resultado ANOVA en la parte superior


de la hoja de calculo

Si queremos hacer comparaciones de rango mltiples, entonces


sealamos de la ventana anterior comparaciones dando un clic.

En la ventana desplegada sealaremos las comparaciones que


queramos, y en control nivel del grupo indicamos la A, y damos clic en
aceptar

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

146

CAPTULO 2

Diseo de experimentos de un factor

Uso de software
estadstico

Si queremos las graficas del supuesto del modelo entonces, damos clic
a grficas (antepenltima ventana) y sealamos tres en uno y damos clic
en aceptar

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

147

Captulo 3
Diseo
de bloques

3.1. Diseos en bloques completos al azar.


3.2. Diseo en cuadrado latino.
3.3. Diseo en cuadrado grecolatino.
3.4. Uso de un software estadstico.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

148

CAPTULO 2

Diseo de experimentos de un factor

Competencias a desarrollar

Identificar las caractersticas generales y los usos que se le dan a los


diseos en bloques.

Explicar la definicin del diseo en bloques completos al azar, as como


su hiptesis, modelo estadstico y anlisis de varianza.

Describir la seleccin y la aleatorizacin del diseo en cuadro latino y su


diferencia con el diseo en cuadro grecolatino

3. 1. Diseos en bloques completos al azar.


Cuando se quieren comparar ciertos tratamientos o estudiar el efecto
de un factor, es deseable que las posibles diferencias se deban
principalmente al factor de inters y no a otros factores que no se
consideran en el estudio. Cuando esto no ocurre y existen otros
factores que no se controlan o nulifican para hacer la comparacin, las
conclusiones podran ser afectadas sensiblemente.
Por ejemplo, supongamos que se quieren comparar varias mquinas, si
cada mquina es manejada por un operador diferente y se sabe que
ste tiene una influencia en el resultado, entonces es claro que el factor
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

149

operador debe tomarse en cuenta si se quiere comparar a las mquinas


de manera justa.
Un operador ms hbil puede hacer ver a su mquina (aunque sta
sea la peor) como la que tiene el mejor desempeo, lo cual impide
hacer una comparacin adecuada de los equipos.
Para evitar este sesgo hay dos maneras de anular el posible efecto del
factor operador: la manera lgica es utilizar el mismo operador en las
cuatro maquinas; sin embargo, tal estrategia no siempre es
aconsejable, ya que utilizar el mismo sujeto elimina el efecto del factor
operador pero restringe la validez de la comparacin con dicho
operador, y es posible que el resultado no se mantenga al utilizar a
otros operadores. La otra forma de anular el efecto operador en la
comparacin consiste en que cada operador trabaje durante el
experimento con cada una de las mquinas. Esta estrategia es la ms
recomendable, ya que utilizar a todos los operadores con todas las
mquinas permite tener resultados de la comparacin que son vlidos
para todos los operadores. Esta forma de nulificar el efecto de
operadores, recibe el nombre de bloqueo.

Factores de bloque
A los factores adicionales al factor de inters que se incorporan de
manera explcita en un experimento comparativo se les llama factores
de bloque. stos tienen la particularidad de que no se incluyen en el
experimento porque interese analizar su efecto, sino como un medio
para estudiar de manera adecuada y eficaz al factor de inters.
Los factores de bloque entran al estudio en un nivel de
importancia secundaria con respecto al factor de inters y, en este
sentido, se puede afirmar que se estudia un solo factor, porque es uno
el factor de inters.
En un diseo en bloques completos al azar (DBCA) se consideran tres
fuentes de variabilidad:
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

150

CAPTULO 2

Diseo de experimentos de un factor

El factor de tratamientos

El factor de bloque

El error aleatorio

es decir, se tienen tres posibles culpables de la variabilidad presente


en los datos. La palabra completo en el nombre del diseo se debe a
que en cada bloque se prueban todos los tratamientos, o sea, los
bloques estn completos. La aleatorizacin se hace dentro de cada
bloque; por lo tanto, no se realiza de manera total como en el diseo
completamente al azar.
Los factores de bloqueo que aparecen en la prctica son: Turno, lote, da,
tipo de material, lnea de produccin, operador, maquina, mtodo, etc.
Supongamos una situacin experimental con k tratamientos y b
bloques. El aspecto de los datos para este caso se muestra en la tabla
3,1. Considerando una repeticin en cada combinacin de tratamiento y
bloque.
Tabla 3.1 Arreglo de los
datos

en

un

diseo

en

bloques completos al azar


Tratamiento

Bloque

.
k

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

.
.

Biol.

Comparacin o pruebas de
rangos mltiples

151

Modelo estadstico
Cuando se decide utilizar un DBCA, el experimentador piensa que cada
medicin ser el resultado del efecto del tratamiento donde se
encuentre, del efecto al que pertenece y de cierto error que se espera
sea aleatorio. El modelo estadstico para este diseo est dado por:

donde
Es la medicin que corresponde al tratamiento y al bloque
Es la media global poblacional
Es el efecto debido al tratamiento
Es el efecto debido al bloque
Es el error aleatorio atribuible a la medicin

Hiptesis a probar
La hiptesis de inters es la misma para todos los diseos
comparativos, y est pada por:

que tambin se puede expresar como

En cualquiera de estas hiptesis la afirmacin a probar es que la


respuesta media poblacional lograda con cada tratamiento es la misma
para los

tratamientos y que, por lo tanto, cada respuesta media

igual a la media global poblacional


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

es

. De manera alternativa, es posible


Biol.

152

CAPTULO 2

Diseo de experimentos de un factor

afirmar que todos los efectos de tratamiento sobre la variable de


respuesta son nulos, porque cuando el efecto

, entonces

necesariamente la respuesta media del tratamiento es igual a la media


global (

).

Anlisis de varianza
La hiptesis dada se prueba con un anlisis de varianza con dos
criterios de clasificacin, porque se controlan dos fuentes de variacin:
el factor de tratamientos y el factor de bloque. En la

tabla 3.2 se

muestra el aspecto del ANOVA para diseo DBCA.


Tabla 3.2 ANOVA para un diseo en bloques completos al azar
Fuentes

de Suma de Grado Cuadrad

variabilidad

cuadrado de
s

Tratamiento SCTRAT

liberta
d
K1

Bloques

o medio

Valor-

CMTRA
T

SCB

b1
CMB

(k 1)
Error

SCE

(b 1)
CME

Total

SCT

N-1

Los clculos necesarios pueden ser manuales, pero siempre es


ms prctico hacerlos con un software estadstico, porque adems
proporciona muchas otras opciones grficas y tabulares tiles (no slo
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

153

el ANOVA). Utilizando la notacin de puntos, las frmulas ms prcticas


para calcular las sumas de cuadrados son:

y la del error se obtiene por sustraccin como:

Ejemplo
En el ejemplo donde se planteo la comparacin de los cuatro mtodos
de ensamble, ahora se va a controlar activamente en el experimento a
los operadores que realizaran el ensamble, lo que da lugar al siguiente
diseo en bloques completamente al azar.
Mtodo
A

Operador
1 2 3 4
6 9 7 8

10 16 11 14

10 13 11

10 11

8
9

Recordemos que la variable de respuesta son los minutos en que se realiza el


ensamble. Para comparar los cuatro mtodos se plantea la hiptesis:
=
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

154

CAPTULO 2

Diseo de experimentos de un factor

la cual se prueba mediante el anlisis de varianza dado en la siguiente


tabla( Excel y Minitab)
Nota: para capturar la tabla en Excel se sombrea totalmente, tal y como
est indicada la tabla anterior, en la herramienta de Anlisis de
varianza de dos factores con una sola muestra por grupo)
Anlisis de varianza de dos factores con una sola
muestra por grupo
RESUMEN

Cuenta Suma

Promedi

Varianza

o
A

30

36

51

43

7,5

1,6666666

7
3,3333333

12,75

3
7,5833333

10,75

3
2,9166666
7

Operador

4
4
4
4
ANLISIS DE VARIANZA

33
48
40
39

8,25
12
10
9,75

Origen

Suma

Grad

Promedi

de

de

os de

o de los

cuadrad

libert

cuadrad

os

ad

os

las

variacion
es
Filas
Columnas
Error

61,5
28,5
18

4,25
10
4
8,25
F

Probabilid

Valor crtico

ad

para F

20,

10,

0,0029192

3,8625483

5
9,5

25
4,7

57
0,0298459

58
3,8625483

48

58

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

2
Biol.

Comparacin o pruebas de
rangos mltiples

155

1
Total

108

De esta tabla se observa que para los mtodos se obtuvo un valor-p =


0,003
, por lo que se rechaza la

de que el tiempo medio

poblacional de los mtodos de ensamble son iguales, y se acepta que


al menos dos de los mtodos son diferentes en cuanto al tiempo medio
que se requiere.
De la misma manera para operadores, como su valor-p = 0,030
, el factor de bloque (operadores) tambin afecta, es decir,
existen diferencias entre los operadores en cuanto al tiempo promedio.

Resultados arrojados en Minitab 15

ANOVA de dos factores: Dato vs. Mtodo; Operador


Fuente

GL

SC

MC

Mtodo

61,5

20,5

10,25

0,003

Operador

28,5

9,5

Error

18,0

2,0

Total

15

108,0

4,75

0,030

S = 1,414 R-cuad. = 83,33% R-cuad.(ajustado) = 72,22%

Calculo manual para Diseo de bloque


ANOVA para el diseo bloque
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

156

CAPTULO 2

Fuente de SC

Diseo de experimentos de un factor

GL

CM

Valor

variaciones
crtico
para
F
Tratamientos
Bloque
Error
Total

1.-

Suma

de

cuadrados de
tratamientos o variabilidad
debida a la diferencia entre las marcas de llantas, bloque 1 y bloque 2

2.- Suma total de cuadrados o variabilidad total de los datos

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

157

4.- Cuadrados medios de tratamientos, del bloque, y del error

5- Estadstico de prueba

Concentrado en tabla
ANOVA
Suma
de

Valor
Grados

cuadrad
os
61,5
28,5

Promedio

crtico

de

de

para F

libertad
3

cuadrados
20,5

los

9,5

F
10,25

3,86254

4,75

83
3,86254
86

18
108

15

Comparacin de parejas de medias de tratamiento en el DBCA.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

158

CAPTULO 2

Diseo de experimentos de un factor

Cuando se rechaza la hiptesis de igualdad de los cuatro tratamientos,


es natural preguntarse cules de ellos son diferentes entre s. Para
averiguarlo se utiliza alguna de las pruebas que se estudiaron en la
seccin Comparaciones o pruebas de rangos mltiples del captulo
anterior. Por ejemplo, recordemos que la
significativa (LSD) para dos tratamientos,

Diferencia mnima
en un DCA est dada

por

Entonces, en bloque esta expresin se transforma en

donde b es el nmero de bloques, que hace las veces de nmero de


rplicas, y (k-1)(b-1) son los grados de libertad del
De aqu que en el ejemplo de los cuatro mtodos de ensamble tenemos que
=

2,26 (valor buscado en

tablas de T
de estudent)

Al comparar esta diferencia mnima significativa con los datos se obtiene la


siguiente tabla:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

159

Diferencia

Diferencia

poblacional

muestral

Decisin
No significativo

-1,5

2,26

Significativo

-5,25

2,26

Significativo

-3,25

2,26

Significativo

-3,75

2,26

No significativo

-1,75

2,26

No significativo

2,00

2,26

Ejercicios
1.- En qu situaciones se aplica un diseo en bloques completos al azar? En
qu diferentes los factores de tratamiento y de bloque?
2.- Se hace un estudio sobre la efectividad de tres marcas de
atomizador para matar moscas. Para ello, cada producto se aplica a un
grupo de 100 moscas, y se cuenta el nmero de moscas muertas
expresando en porcentajes. Se hicieron seis replicas, pero en das
diferentes; por ello, se sospecha que puede haber algn efecto
importante debido a esta fuente de variacin. Los datos obtenidos se
muestran a continuacin.
Marca

del Nmero

de

replicas

atomizador
A

(da)
72 65 67 75 62 73

55 59 68 70 53 50

64 74 61 58 51 69

a) Suponiendo un DBCA, formule las hiptesis adecuadas y el modelo


estadstico.
b) Existe diferencia entre la efectividad promedio de los atomizadores?
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

160

CAPTULO 2

Diseo de experimentos de un factor

c) Hay algn atomizador mejor? Argumente su respuesta


d) Hay diferencias significativas en los resultados de diferentes das en
que se realiz el experimento? Argumente su respuesta
ANLISIS DE VARIANZA
Origen
de

Suma

de Gra

las cuadrados

Promedio

dos

de

los

variacio

de

cuadrados

nes

liber

Probabili

Valor

dad

crtico
para F

tad
Filas

296,3333

Column

333
281,3333

as
Error

333
514,3333
333

Total

148,166

2,88075

0,102804

4,102821

6667
56,2666

178
1,09397

418
0,420717

015
3,325834

278

751

529

6667
51,4333

0
1

1092

3333

ANOVA de dos factores: datos vs. Spray, replicas Minitab


Fuente

GL

P Spray
2,88

SC
2

0,103 replicas

56,267

1,09

MC

296,33

148,167

281,33

0,421

Error

10

514,33

Total

17

1092,00

51,433

a)
=

a) No existe diferencias entre la efectividad de los spray

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

161

b) No existe evidencia estadsticas para suponer lo que existe algn


spray mejor que el otro
c) =

En el ANOVA para los diferentes das de los spray se acepta la


hiptesis nula de que no importa el da, es decir son iguales
3.- A continuacin se muestran los datos para un diseo en bloque al azar
Tratamiento
A

Bloque
1 2 3 4
3 4 2 6

7 9 3 10

4 6 3

a) Obtenga la tabla de anlisis de varianza y anote los principales


conclusiones
b) Obtenga la diferencia mnima significativa (LSD) para comparar
tratamientos en este diseo en bloque.
Anlisis de varianza de dos factores con una sola muestra por grupo
RESUME

Cuenta

Suma

Promedio

Varianza

N
A
B
C

4
4
4

15
29
20

3,75

2,91666666

7,25

7
9,58333333

3
3,33333333

3
4,66666666 4,33333333
Tratamiento

3
3

14
19

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

7
3
6,33333333 6,33333333
Biol.

162

CAPTULO 2

Diseo de experimentos de un factor

3
3

3
3
2,66666666 0,33333333

23

7
3
7,66666666 4,33333333
7

ANLISIS DE VARIANZA
Origen

Suma

Grad

Promedio de

de

cuadrados

os

los

variacio

de

cuadrados

nes

libert

las

de

Probabilid

Valor

ad

crtico para
F

ad
Filas

25,16666

Columna

667
42

s
Error

12,58333

13,72727

0,005768

5,143252

333

273
15,27272

838
0,003244

85
4,757062

727

859

664

3 14

5,5

0,916666
667

Total

72,66666

667

a) valor-p = 0,0057

, por lo que se rechaza la

, es decir

existe diferencia entre los tratamientos


valor-p = 0,0032

, el factor de bloque (tratamientos) tambin

afecta, es decir, existen diferencias entre el bloque, por lo que se rechaza la

b)

c)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

163

Diferencia

Diferencia

poblacional

muestral

Decisin
Significativo

-3,5

1,65

-1,25

1,65

2,25

1,65

No Significativo
Significativo

5.- En una empresa lechera se tienen varios silos para almacenar leche
(cisternas de 60 000 L). Un aspecto crtico para que se conserve la
leche es la temperatura de almacenamiento. Se sospecha que en
algunos silos hay problemas, por ello, durante cinco das se decide
registrar la temperatura a cierta hora crtica. Obviamente la temperatura
de un da a otro es una fuente de variabilidad que podra impactar la
variabilidad total.

Sil

Lune

Marte

Da
Mircole

o
A

s
4,0

s
4,0

s
5,0

s
0,5

s
3,0

5,0

6,0

2,0

4,0

4,0

4,5

4,0

3,5

2,0

3,0

2,5

4,0

6,5

4,5

4,0

4,0

4,0

3,5

2,0

4,0

D
E

Jueve

Vierne

a) En este problema, cul es el factor de tratamiento u cul el factor de


bloque?
b) Suponga un DBCA, formule las hiptesis adecuadas y el modelo
estadstico.
c) Hay diferencia entre los silos?
d) La temperatura de un da a otro es diferente?
e) Revise residuos, hay algn problema evidente?
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

164

CAPTULO 2

Diseo de experimentos de un factor

6.- Se diseo un experimento para estudiar el rendimiento de cuatro


detergentes. Las siguientes lecturas de blancura se obtuvieron con un
equipo especial diseado para 12 cargas de lavado, distribuidas en tres
modelos de lavadoras:
Detergent

Lavadora

Lavadora

Lavadora

e
A

1
45

2
43

3
51

47

44

52

50

49

57

42

37

49

a) Seale el nombre del diseo experimental utilizado


b) Formule la hiptesis que se quiere probar en este problema
c) Realice el anlisis estadstico ms apropiado para estos datos y obtenga
conclusiones.
7.- Se realizo un experimento para determinar el efecto de cuatro
sustancias qumicas diferentes sobre la resistencia de una tela. Estas
sustancias qumicas se usan como parte del proceso de acabado del
planchado permanente. Se seleccionaron cinco muestras de tela, y se
corri un diseo de bloques completos aleatorizados para probar cada
tipo de sustancia qumica sobre cada muestra de tela en orden
aleatorio. Se probarn las diferencias de las medias utilizadas en el
anlisis de varianza con

Sustancia 1

Muestra de tela
2
3
4
5

Qumica
1

1,3 1,6 0,5 1,2 1,1

2,2 2,4 0,4 2,0 1,8

1,8 1,7 0,6 1,5 1,3

3,9 4,4 2,0 4,1 3,4

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

165

a) Seale el nombre del diseo experimental utilizado


b) Formule la hiptesis que se quiere probar en este problema
c) Realice el anlisis estadstico ms apropiado para estos datos y obtenga
conclusiones.

3.2. Diseo en cuadrado latino


En el diseo en cuadro latino (DCL) se controlan dos factores de bloque
y se estudia un factor de tratamientos, por lo que se tienen cuatro
fuentes de variabilidad que pueden afectar la respuesta observada,
estas son:

Los tratamientos

El factor de bloque I (renglones)

El factor de bloque II (columnas)

El error aleatorio

Se llama cuadro latino por dos razones: es un cuadro debido a que


tiene la restriccin adicional de que los tres factores involucrados se
prueban en la misma cantidad de niveles, y es latino porque se utilizan
letras latinas para denotar a los tratamientos o niveles del factor de
inters. Sean A, B, C, , K, los k tratamientos a comparar, por lo tanto
ambos factores de bloques tienen tambin k niveles cada uno. El
aspecto de los datos se muestra en la siguiente tabla.

Bloque II (columnas)
2
3
k

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

166

CAPTULO 2

Bloque I

Diseo de experimentos de un factor

C K = YK1K

D A = Y12K B

3 .

(renglones .

k Ykk1

D.
.
= .

= Y23K

B = Y2k3

.
J = YJkK

A = Y1k2

Ahora se necesitan al menos tres subndices, por ejemplo, la


respuesta Y313 se gener en el tratamiento tres (C), en el primer nivel del
factor rengln y en el tercer nivel del factor columna.
El modelo estadstico para describir el comportamiento de las
observaciones est dado por

donde

es la observacin del tratamiento , en el nivel , del factor

rengln y en el nivel del factor columna;

es el error atribuible a dicha

observacin. De acuerdo con este modelo, la variabilidad total presente


en los datos se puede descomponer como

y los grados de libertad correspondientes son

El ANOVA para el diseo en cuadro latino se muestra en la tabla 3.4. En


l se prueba la hiptesis sobre los efectos de tratamiento del factor rengln y
del factor columna. Otra vez, la hiptesis fundamental es la de los
tratamientos; las otras dos proporcionan un adicional al objetivo inicial y
permiten comprobar la relevancia de controlar los factores de bloque.
Tabla 3.4 ANOVA para el cuadro latino

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Comparacin o pruebas de
rangos mltiples

Fuentes

167

de Suma de Grado

variabilidad

cuadrado

de Cuadrado

libertad

Valor-p

medio

s
Tratamientos SCTRAT

k1

Renglones

k1

SCB1

Columnas

CMB1

k1
CMB2

SCB2
Error
Total

CMTRAT

(k 2)(k
SCE

1)

CME

k2 - 1
SCT

Seleccin y aleatorizacin de un cuadro latino. No cualquier arreglo


de letras latinas en forma de cuadro es cuadro latino, la regla
fundamental es que cada letra debe aparecer slo una vez en cada
rengln y en cada columna. Un cuadro latino estndar es aquel en el
que en la primera columna y en el primer rengln aparecen las letras en
orden alfabtico. Por ejemplo, un cuadro latino estndar de tamao
cuatro est dado por:
A BCD
B CDA
C DAB
D ABC

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

168

CAPTULO 2

Diseo de experimentos de un factor

Existen adems los siguientes tres cuadros latinos de dimensin


cuatro:

Para cuatro tratamientos se pueden construir un total de 576


cuadros latinos de los cuales cuatro son estndar. La seleccin del
diseo debera ser elegir uno al azar de los 576 posibles; no obstante,
es prcticamente imposible construirlos a todos para seleccionar uno al
azar. Sin embargo, ocurre que dado un cuadro latino, cualquier
intercambio de columnas o de renglones es tambin cuadro latino, por
eso la estrategia de seleccin y aleatorizacin recomendada en la
prctica es la siguiente:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

169

Se construye el cuadro latino estndar ms sencillo.

Se aleatoriza el orden de los renglones (o columnas) y


posteriormente se aleatoriza el orden de las columnas (o
renglones).

Por ltimo, los tratamientos a comparar se asignan en forma


aleatoria a las letras latinas.

El cuadro latino tiene dos restricciones a la aleatorizacin debido a los


dos factores de bloque, lo que implica que a la hora de correr el experimento no
hay ningn margen de aleatorizacin. Es decir, se puede correr por columna o
por rengln segn convenga. Lo que no es correcto es hacer todas las pruebas
de un tratamiento, y luego todas las de otro, y as sucesivamente, puesto que
se puede introducir ruido adicional debido a factores no controlables que
cambian con el tiempo.

Ejemplo.
Comparacin de cuatro marcas de llantas. Una compaa de mensajera
est interesada en determinar cul marca de llantas tiene mayor duracin en
trminos del desgaste. Para ello se planea un experimento en cuadro latino, en
el que se comparan las cuatro marcas de llantas sometindolas a una prueba
de 32 000 kilmetros de recorrido, utilizando cuatro diferentes tipos de auto y
las cuatro posiciones posibles de las llantas en el auto. As, el factor de inters
es el tipo de llantas o marca, y se controlan dos factores de bloque: el tipo de
carro y la posicin de la llanta en el auto. Estos factores de bloque se controlan
ya que, por experiencia, se sabe que el tipo de carro y la posicin de la llanta
tienen efecto en el desgaste de la misma.
La eleccin del cuadro latino a utilizar se hace antes de obtener los datos. Para
ello, a partir de un cuadro latino

inicial se aleatorizan las columnas y los

renglones; despus, las diferentes marcas de llantas se asignan de manera


aleatoria a las letras latinas que denotan los niveles del factor de inters
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

170

CAPTULO 3

Diseo de bloques

Posicin
1

Carro
1
2
3
4
C = 12 D = 11 A = 13 B = 8

B = 14 C = 12 D = 11 A = 3

A = 17 B = 14 C = 10 D = 9

D = 13 A = 14 B = 13 C = 9

Las pruebas se hacen al mismo tiempo con choferes, a quienes se les


instruye para que manejen de manera similar sobre el mismo terreno para los
cuatro automviles. Al hacer las pruebas de los cuatro autos al mismo tiempo
se evita el efecto del ambiente en el desgaste; asimismo, el conductor y el tipo
de terreno podran influir, pero se considera suficiente mantenerlos lo ms
homogneo posible durante el experimento. El diseo y los datos observados
se muestran en la tabla anterior. Se mide la diferencia mxima entre el grosor
de la llanta nueva y el grosor de la llanta despus de recorrido los 32 000
kilmetros. Obviamente, a mayor diferencia en grosor mayor desgaste. Las
unidades de medicin son milsimas de pulgada

ANOVA resultante
Fuente de
variabilidad

Marca
Posicin
Carro
Error
Total

Suma

Grados

Promedio

de

de

los

cuadrad

libertad

cuadrados

os
5,6875
16,1875
103,687

3
3
3

5
30,375
155,937

6
15

10
2,0625
12,8958

de

Valor crtico
Valor-p
F
0,37
1,07
6,83

para F

0,775
4,76
0,431
4,76
0,023 4,76

0,895833

5
Se observa que nuestro punto critico tanto para la posicin, el tipo de
carro y las marcas es de 4,76. Concluimos que en las marcas y posicin no
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

171

existe evidencia de que esta influya por lo que se acepta la hiptesis nula de
que son iguales a un nivel de significancia de

= 0,05. En cuanto al tipo de

carro observamos que este si influye en el desgaste de las llantas por lo que
rechazamos la hiptesis nula
Resultado arrojado en Minitab

Modelo lineal general: Desgaste vs. Posicin, Carro, Marcas


Factor

Tipo

Posicin

fijo

1, 2, 3, 4

Carro

fijo

1, 2, 3, 4

Marcas

fijo

A, B, C, D

Fuente

Niveles

Valores

GL

SC sec.

SC ajust.

Posicin

16,188

16,187

Carro

103,688

Marcas

Error
Total

MC ajust.

5,396

1,07

0,431

103,688

34,563

6,83

0,023

5,687

5,687

1,896

0,37

0,775

30,375

30,375

5,062

15

155,938

Calculo manual para ANOVA de cuadro latino


Fuente de

SC

GL

variaciones

CM

Valor
crtico
para
F

Tratamientos
Bloque 1
(filas)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

172

CAPTULO 3

Bloque

Diseo de bloques

(columnas)
Error

Total

Sumas bsicas para el clculo manual


Posicin, carro y marca

Operaciones bsicas

C = 12 D = 11 A = 13 B = 8
B = 14 C = 12 D = 11 A = 3
A = 17 B = 14 C = 10 D =
9
D = 13 A = 14 B = 13 C =
9
Suma de los cuadrados de los tratamientos
Suma

total

por

Tratamiento (

Sumatoria

de las letras A,B,C y D

Suma de los cuadrados de filas (bloque 1)

correspondientes
47
44
Suma total por

49

43

fila

Suma de los cuadrados de las columnas

Bloque 1 (
44

40

50

(bloque 2)

49

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

173

Suma total por

columna

suma

Bloque II

de los datos

total
56

51

47

de

medicin

29
media global

1.- Suma de cuadrados de tratamientos o variabilidad debida a la diferencia


entre las marcas de llantas, bloque 1 y bloque 2

2.- Suma total de cuadrados o variabilidad total de los datos

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble

4.- Cuadrados medios de tratamientos, del bloque 1, del bloque 2 y del error

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

174

CAPTULO 3

Diseo de bloques

5- Estadstico de prueba

ANOVA para el diseo del cuadro latino


Fuente de SC

GL

CM

variaciones

Valor
crtico para

F
1,89 0,37 4,76

Renglones

16,19 3

5,39 1,06 4,76

(Bloque 1)
Columnas

103,6

34,56 6,83 4,76

(Bloque2)
Error

9
30,37 6

Tratamientos 5,68

5,06

Comprobacin de supuestos. Como se coment antes, la validez del anlisis


de varianza recae en tres supuestos que siempre deben verificarse:
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

175

Normalidad

Varianza constante

Independencia de los residuos

Adems de la ausencia de observaciones atpicas o aberrantes. Como se


observa en la figura 3.6, el supuesto de normalidad se cumple al caer los
residuos o puntos ms o menos en lnea recta (Grafica de probabilidad
normal). Tambin se cumple el supuesto de varianza constante de acuerdo a la
grafica de residuos vs valor ajustado, y en la grafica de residuos vs orden de
observacin, en la que los residuos se ubican aleatoriamente dentro de una
banda horizontal; su dispersin vertical es la misma a lo largo de los grficos.
No se comprob el supuesto de independencia porque no se conoce el orden
en que se realizaron las mediciones del desgaste.
Figura 3.6 Grficas de residuos para la verificacin de supuestos

Grfica
s de residuos para Desgaste

Ejercicios
1.- Las letras A, B, C y D representan cuatro variedades de trigo; los renglones
representan cuatro diferentes fertilizantes; y las columnas 4 anos diferentes.
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

176

CAPTULO 3

Diseo de bloques

Los datos de la siguiente tabla son los rendimientos para las cuatro variedades
de trigo, medidas en kilogramos por parcela. Se supone que las diversas
fuentes de variacin no interactan. Utilice un nivel de significancia de 0.05
para probar la

; no hay diferencia en los rendimientos promedio de las cuatro

variedades de trigo
Rendimiento del trigo (kg por parcela)
Fertilizante

1981

198

s
Fertilizante

2
A

1
Fertilizante

70
D

2
Fertilizante

66
C

59
D

3
Fertilizante

59 66
B 41
C

198 1984
3

75

68 81
B
C
55

63
B

A
39
D

57 39

42
A
55

Modelo lineal general: Rendimiento vs. Fertilizante, Ano, Trigo


Factor

Tipo

Niveles Valores

Fertilizante

fijo

1, 2, 3, 4

Ano

fijo

1, 2, 3, 4

Trigo

fijo

A, B, C, D

Fuente

GL

SC sec.

SC ajust.

MC ajust.

Fertilizante

1557,19

1557,19

519,06

11,92

0,006

Ano

417,69

417,69

139,23

3,20

0,105

Trigo

263,69

263,69

87,90

2,02

0,213

Error

261,37

261,37

43,56

Total

15

2499,94

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

177

La variabilidad debida al fertilizante, aos y tipos de tratamiento. La

2,02 es sobre 3 y 6 grados de libertad El valor p de aproximadamente 0,2 es


en realidad demasiado grande para concluir que las variedades de trigo afectan
de manera significativa el rendimiento.

2.- El departamento de matemticas de una universidad desea evaluar las


capacidades de enseanza de cuatro profesores. A fin de eliminar cualquier
efecto debido a los diferentes cursos de matemticas y los diferentes horarios,
se decide realizar un experimento con el uso de un diseo de cuadros latinos
en que las letras A, B, C y D representan a los cuatro diferentes profesores.
Cada profesor ensena una seccin de cada de cuatro diferentes cursos
programados en cada uno de los cuatro diferentes horarios durante el da. Los
datos muestran las calificaciones asignadas por estos profesores a 16
estudiantes de aproximadamente igual capacidad. Utilice un nivel de
significancia de 0,05 para probar la hiptesis de que los diferentes profesores
no tienen efecto en las calificaciones.
Horari
lgebr

Curso
Geometr

Estadstic

Clcul

a
A 84

a
B 79

a
C 63

o
D 97

B 91

C 82

D 80

A 93

C 59

D 70

A 77

B 80

D 75

A 91

B 75

C 68

3.- Una empresa fabricante quiere investigar los efectos de cinco aditivos de
color en el tiempo de fraguado de una mezcla de concreto nueva. Las
variaciones en el tiempo de fraguado se pueden esperar de los cambios diarios
en la temperatura y humedad y tambin de los diferentes trabajadores que
preparan los moldes de prueba. Para eliminar estas fuentes externas de
variacin se utiliza un diseo de cuadro latino de 5 x 5 en el que las letras A, B,
C, D y E representan los cinco aditivos. Los tiempos de fraguado, en horas,
para los 25 moldes. El nivel de significancia de 0,05, Podemos decir que los
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

178

CAPTULO 3

Diseo de bloques

aditivos de color tienen algn efecto en el tiempo de fraguado de la mezcla de


concreto?
Da
Trabajador 1
1

2
3
4
5
DE 10,3 B 11,2 A 10,9 C 10,5

EC 10,5 D 12,0 B 11,5 A 10,3

AB 10,9 C 10,5 D 11,3 E 7,5

BA 11,6 E 11.0 C 11,7 D 11,5

CD 11,5 A 11,5 E 12,7 B 10,9

4.- Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y


E) sobre el tiempo de reaccin de un proceso qumico. Cada lote de material
slo permite cinco corridas y cada corrida requiere aproximadamente 1,5 horas
por lo que slo se pueden realizar cinco corridas diarias. El experimentador
decide correr los experimentos con un diseo en cuadro latino para controlar
activamente a los lotes y das. Los datos obtenidos son:

Lote 1
1
A 8

Da
2
3
4
B 7 D 1

5
CE 3

C 11 E 2 A 7

DB 8

B 4

ED 5

D 6

C10

B 6 A 10

E 4

DE 6

A 8

A 9 C

C 8

B 3
a) Cmo se aleatoriza el experimento?
b) Anote

la

ecuacin

del

modelo

las

hiptesis

estadsticas

correspondientes
c) Existen diferencias entre los tratamientos? Cules tratamientos son
diferentes entre si?
d) Verifique los supuestos del modelo, considerando que los datos se
obtuvieron columna por columna, da a da

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseo
en cuadro latino

179

5.- Se comprueba el peso en gramos de un material de tres proveedores: A, B y


C, por tres diferentes inspectores: I, II y III, utilizando tres diferentes escalas:
1,2 y 3. El experimento se lleva a cabo como el siguiente cuadro latino:

Inspecto 1

Escala
2
3

r
I

AB 10

II

BC 9

III

CA 11

C 11

a) Hay diferencias entre los proveedores?


b) Hay diferencias entre los inspectores y entre las escalas?
c) Si el peso debe ser 15 g, cul proveedor es mejor?
d) Si algn factor de bloque es no significativo, elimnelo y haga el anlisis
adecuado
6.- Cuando se comparan varios fertilizantes o diferentes variedades de cierto
cultivo, es tpico que se deba considerar el gradiente de fertilidad del suelo
(factor columna) o los efectos residuales de cultivos previos (factor rengln).
Considerando estos factores de bloque, Gmez y Gmez (1984) plantean un
experimento en cuadro

latino para comparar, en cuanto a rendimiento en

toneladas por hectrea, tres variedades de maz hibrido (A, B, C) y una


variedad control (D). Para ello, se utiliza un campo agrcola cuadrado de 16
hectreas, dividido en parcelas de una hectrea. Los datos de rendimiento
obtenidos en cada parcela se muestran a continuacin:

Ren

Col
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

180

CAPTULO 3

Diseo de bloques

BD

C A 1,34

C 1,210

B 1,29

1,670

1,185

1,665

1,565

0,710

1,655

1,180

1,290

0,660

a) Existen diferencias en los rendimientos de las diferentes variedades de


maz?
b) Cul de los factores de bloque tuvo efectos?
c) Se habran detectado las mismas diferencias en los tratamientos con
un diseo completamente al azar?
d) Y con un diseo en bloques completos al azar?

3.3. Diseo en cuadrado grecolatino


Con el diseo en cuadro grecolatino (DCGL) se controlan tres factores de
bloque, adems del factor de tratamiento. Se llama cuadro grecolatino porque
los cuatro factores involucrados se prueban en la misma cantidad de niveles,
de aqu que se pueda escribir como un cuadro (ver tabla 3.5); adems, se
utilizan letras latinas para denotar a los tratamientos y letras griegas para
nombrar a los niveles del tercer factor de bloque.

Tabla 3.5 Diseo en cuadro grecolatino


1

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Columnas
2 3
4

Biol.

Diseo
en cuadro latino

181

A BC

BD

Renglones

CAA

DB
3

Al igual que en el cuadro latino, cada letra (latinas y griegas) debe


aparecer slo una vez en cada rengln y en cada columna. Adems, cada par
de letras debe aparecer slo una
vez en todo el arreglo. El modelo estadstico que describe a las mediciones en
un cuadro grecolatino est dado por

donde

es la observacin o respuesta que se encuentra en el tratamiento

( -sima letra latina), en el rengln , en la columna


griega;

es el efecto del tratamiento ,

representa el efecto de la columna

y en la

-sima letra

es el efecto del rengln


representa el efecto de la

-sima

letra griega, que son los niveles del tercer factor


de bloque; el trmino

representa el error aleatorio atribuible a la medicin

. Es importante no confundir las letras griegas del modelo que representan


efectos, con las letras griegas en el diseo que simbolizan a los niveles del
tercer factor de bloque. La variabilidad total presente en los datos se puede
partir de la manera usual como

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

182

CAPTULO 3

Diseo de bloques

Diseo en
cuadro grecolatino

donde las sumas

miden la variabilidad debida a los factores

de bloque rengln, columna y de letras griegas, respectivamente. Para


tratamientos, los grados de libertad correspondientes a cada suma son

Un bosquejo del anlisis de varianza se muestra en la tabla 3.6, en la


cual se prueban las hiptesis de igualdad de letras latinas (tratamientos), de
renglones, de columnas y de letras griegas
Tabla 3.6 ANOVA para el diseo en cuadro grecolatino
Fuente

de Suma de cuadrados

variabilidad
Tratamientos

Grados

de

libertad
k-1

(letras latinas)
Factor

de

k-1

bloque I
(renglones)
k-1
Factor

de

k-1

bloque II
(columnas)
Factor

(k-3)(k-1)
d

bloque III
(letras
griegas)
Error
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

183

Total

Ejemplo
En el caso del ejemplo donde se comparan los cuatro mtodos de ensamble y
se tiene el factor de bloque operador, se podran tener dos factores de bloque
adicionales:

Orden en el que se hace el ensamble

Lugar donde se hace

De acuerdo con esto, el diseo en cuadro grecolatino se observa en la


siguiente tabla.

Tabla 3.7 Diseo en cuadro grecolatino para mtodos de ensamble


Operador
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

184

CAPTULO 3

Diseo de bloques

1
1 C

2
= B

3
D

4
A

2 10

AD

ensamb
3 Bledel
Orden

CC
A

D
B

D
A

Tabla 3,8 ANOVA para el diseo en cuadro grecolatino


Fuente

Suma de Gl Cuadrad

Razn

Valor-p F

Mtodo

cuadrados
83,5
3

o medio
27,8333

F
23,86

critica
0,0135 9,28

Operado 18,5

6,16667

5,29

0,1024

9,5

3,16667

2,71

0,2170

Orden

2,0

0,666667 0,57

0,6714

Lugar

3,5

1,16667

Residual 117,0

15

Total

Resultado arrojado en Minitab


Modelo lineal general: promedio vs. Mtodo; operador; orden; lugar
Factor
fijo

Tipo Niveles
4

1; 2; 3; 4 operador fijo

1; 2; 3; 4 orden
lugar

fijo

Fuente
3

Valores Mtodo

9,500

fijo

1; 2; 3; 4

1; 2; 3; 4

GL SC sec. SC ajust.
9,500

MC ajust.

P Mtodo

3,167 2,71 0,217 operador 3 18,500

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

185

18,500

6,167

5,29 0,102 orden

27,833 23,86 0,014 lugar

2,000

83,500

83,500

2,000

0,667

0,57 0,671
Error
Total

3,500

3,500

1,167

15 117,000

S = 1,08012 R-cuad. = 97,01% R-cuad.(ajustado) = 85,04%

El anlisis de varianza para el ejemplo se aprecia que el nico efecto


significativo son los tratamientos (mtodos), y ninguno de los factores de
bloque tiene un efecto significativo sobre el tiempo de ensamble. El factor
operador tiene un valor-p bajo, lo cual indica que podra tener un efecto
significativo; sin embargo, en este experimento fue imposible detectarlo. Si
contrastamos con respecto a F critica para los cuatro casos F en tablas es F =
9,28, por lo cual se rechaza la hiptesis nula para mtodo, en cuanto para
operador, orden y lugar se acepta.

Diseo en cuadro
grecolatino

Ejercicios.
1.- Una compaa distribuidora ubicada en los suburbios est interesada en
estudiar la diferencia en costos (tiempo y gasolina) entre las cuatro rutas (A, B,
C, D) que llegan a la zona comercial, ms importante para ellos, en el otro
extremo de la ciudad. Deciden correr un experimento en cuadro grecolatino
controlando los factores de bloque chofer, marca de vehculo (

) y da de

la semana. El experimento se repite en dos semanas diferentes, en las cuales


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

186

CAPTULO 3

Diseo de bloques

no hay das festivos ni quincenas. Los costos observados en pesos se


muestran en la siguiente tabla:

Chofer/da Lunes
Carlos
Enrique

Martes
825,

750

610

Genaro
Luis

Mircoles
585,

650,
725

560

675

580,

850, 770
450,

635

740

480

650

650,

475,

580,

580
540,

700,

Jueves
550,

635, 550
670,

540
650, 730

560,
615

725

a) Haga el anlisis de varianza de este experimento


b) Realice las pruebas de comparaciones mltiples para los factores
significativos
c) Represente los tratamientos y factores de bloque usando grficas de
medias y diagrama de dispersin.
d) Cul es la mejor ruta? Cul es la peor?
e) Hay diferencias significativas entre los choferes? Y entre el tipo o
marca de unidad?
2.- El rendimiento de un proceso qumico se midi utilizando cinco lotes de
materia

prima,

cinco

concentraciones

del

cido,

cinco

tiempos

de

procesamiento (A, B, C, D y E) y cinco concentraciones del catalizador (


,

). Se us el cuadrado grecolatino siguiente. Analizar los datos de este

experimento (utilizar

Lote 1

= 0,05) y sacar conclusiones.

Concentracin de cido
2
3
4

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

187

B B,

C, C

20 D,

15

E,

10

E,

16

16

13

21

E,
C,

19 11

D,

12
E
24

18
E

15
A,

A, 21

A, 25
16

D,

14

A 22

14

B,

C,

17

17

3.4. Uso de un software estadstico


Para capturar los datos

en Minitab para el diseo de bloques se sigue la

siguiente secuencia:
Primeramente en la hoja de clculo de Minitab, se capturan los datos en
las columnas uno dos y tres de la siguiente manera:
a) En la columna uno se captura el mtodo u tratamiento indicando de
que mtodo se trata y cuantas repeticiones hay del mismo, repitiendo
el mismo nmero 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
b) En la segunda columna se anota el operador, en la posicin que le
corresponde. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
c) En la tercera columna se anota el dato numrico de la tabla de datos,
es decir el tiempo promedio para este caso.
6, 9, 7, 8, 7, 10, 11, 8, 10, 16, 11, 14, 10, 13, 11, 9
d) En el cuadro de captura ser en ANOVA de dos factores, en la
ventana de captura se anotara en Respuestas el nombre de la tercer
columna, en este caso dato, en el cuadro del factor fila se anota el
nombre de la primera columna que corresponde al mtodo o
tratamiento, en el factor columna se anota el nombre del factor
bloque que en este caso es operador
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

188

CAPTULO 3

Diseo de bloques

Nota, recordar que esto se hace en el cuadro principal de la izquierda dando


dos clics con el ratn.
e) Indicar aceptar y obtendremos el resultado.

Para capturar los datos en Minitab para el

cuadro latino (ANOVA de

dos factores) se sigue la siguiente secuencia:


Primeramente en la hoja de clculo de Minitab, se capturan los datos en las
columnas uno dos tres y cuatro de la siguiente manera:
Uso de software
estadstico

f) En la columna uno, se captura la posicin (para el problema de


comparacin de llantas) indicando cuantas repeticiones hay de ese
nmero repitiendo el
mismo nmero 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4
g) En la segunda columna se anota el carro, tal y como se indica en el
diseo del

cuadro. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

189

h) En la tercera columna se anota la letra que corresponde a la marca


de las llantas en la secuencia que le corresponda segn los nmeros
de la columna anterior,
C, D, A, B, B, C, D, A, A, B, C, D, D, A, B, C
i) En la cuarta columna se anota los valores correspondientes a la
respuesta, es decir, el desgaste. 12, 11, 13, 8, 14, 12, 11, 3, 17, 14,
10, 9, 13, 14, 13, 9
j) Ahora en Estadsticas de Minitab, seleccionar ANOVA, luego Modelo
linear general.
k) En respuesta seleccionar la columna cuatro (desgaste) dando dos
clic con el ratn, luego en Modelo, indicar con dos clic del ratn,
carro, marca y desgaste (recordar que esto se hace en el cuadro
principal de la izquierda quedando de manera continua sin comas,
pero con su espacio de separacin)
l) En factores aleatorios se deja en blanco, y se indica aceptar, y
obtendremos el resultado

Para capturar los datos en Minitab para el cuadro grecolatino (ANOVA de tres
factores de bloque) se sigue la siguiente secuencia:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

190

CAPTULO 3

Diseo de bloques

Primeramente en la hoja de clculo de Minitab, se capturan los datos en las


columnas uno dos tres, cuatro y cinco de la siguiente manera:
a) En la columna uno se captura la tratamiento o mtodo, indicando con
un nmero cuantas repeticiones hay de ese tratamiento, repitiendo el
mismo nmero 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
b) En la segunda columna se anota el operador (para el ejemplo de
referencia), es decir si es repeticin 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2,
3, 4
c) En la tercera columna se anota el nmero que representa a la letra
latina como se colocaron el diseo del cuadro (para este caso el orden
de las cuatro letras inciales fue C, B, D, y A (C = 1, B = 2, D = 3 y A =
4)). Anotando el nmero que represente a cada letra indicada en el
cuadro. 1, 2, 3 ,4, 2, 1, 4, 3, 4, 3, 2, 1,
3, 4, 1, 2
d) En la cuarta columna se anota el nmero que representa a la letra
griega como se colocaron el diseo del cuadro (para este caso el orden
de las cuatro letras inciales fue

, ,y

( = 1,

= 2, ,

=3y

4)). Anotando el nmero que represente a cada letra indicada en el


cuadro.
1, 2, 3, 4, 4, 3, 2, 1, 3, 4, 1, 2, 2, 1, 4, 3
e) En la quinta columna se

anota los valores correspondientes a la

respuesta, es decir, el tiempo o promedio (para este ejemplo), siendo:


10, 10, 12, 7, 8, 15, 7, 14, 6, 14, 11, 13, 11, 8, 10, 8
f) Ahora en Estadsticas de Minitab, seleccionar ANOVA, luego Modelo
linear general.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

191

g) En respuesta seleccionar la columna quinta (tiempo o promedio) dando


dos clic con el ratn, luego en Modelo, indicar con dos clic del ratn,
mtodo, operador, orden y lugar

(recordar que esto se hace en el

cuadro principal de la izquierda)


h) En factores aleatorios

se deja en blanco, y se indica aceptar, y

obtendremos el resultado
Uso de
software estadstico

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

192

CAPTULO 3

Diseo de bloques

15/11/2011 11:26:49

Modelo lineal general: promedio vs. Mtodo; operador; orden; lugar

Factor
fijo

Tipo Niveles Valores Metodo


4 1; 2; 3; 4 operador fijo

1; 2; 3; 4 orden
lugar

fijo

fijo

4 1; 2; 3; 4

4 1; 2; 3; 4

Anlisis de varianza para promedio, utilizando SC ajustada para pruebas


Fuente

GL SC sec.

SC ajust.

Metodo

9,500

9,500

3,167

2,71

0,217

operador

18,500

18,500

6,167

5,29

0,102

orden
3

3 83,500

2,000

Error
Total

2,000
3,500

MC ajust.

83,500

27,833

0,667

0,57 0,671

3,500

23,86 0,014 lugar

1,167

15 117,000

S = 1,08012 R-cuad. = 97,01% R-cuad.(ajustado) = 85,04%

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

193

CAPTULO 4
Conceptos bsicos en diseos factoriales

4.1. Diseos factoriales con dos factores


4.2. Diseos factoriales con tres factores
4.3. Diseo factorial general
4.4. Modelos de efectos aleatorios
4.5. Uso de un software estadstico

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

194

CAPTULO 4

Diseos factoriales

Diseos
factoriales

Competencias
Explicar cuando un diseo de experimentos es un diseo factorial, describiendo
los conceptos bsicos que estos involucran y mostrado cmo se hace tal
experimentacin.
Desarrollar los diseos factoriales de dos y tres factores. Conocer el diseo
factorial general y diferenciar los modelos de efectos fijos con los modelos de
efectos aleatorios. Interpretar correctamente los anlisis grficos y el anlisis
de varianza en los diseos factoriales.

Conceptos bsicos en diseos factoriales


Es frecuente que en muchos procesos existan varios factores de los que es
necesario investigar de manera simultnea su influencia sobre una o varias
variables de respuesta, donde cada factor tiene la misma importancia a priori
desde el momento que se decide estudiarlo, y es poco justificable suponer de
antemano que los factores no interactan entre s. Los diseos experimentales
que permiten estudiar de manera simultnea el efecto de varios factores son
los llamados diseos factoriales.
El objetivo de un diseo factorial es estudiar el efecto de varios factores
sobre una o varias respuestas o caractersticas de calidad y determinar una
combinacin de niveles de los factores en la cual el desempeo del proceso
sea mejor que en las condiciones de operacin actuales; es decir, encontrar

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

195
nuevas condiciones de operacin del proceso que eliminen o disminuyan
ciertos problema de calidad en la variable de salida.
Los factores pueden ser de tipo cualitativo (mquinas, tipos de material,
operador, la presencia o ausencia de una operacin previa, etc.), o de tipo
cuantitativo (temperatura, humedad, velocidad, presin, etc.). Para poder
estudiar la manera en que incluye cada factor sobre la variable respuesta, es
necesario elegir al menos dos niveles de prueba para cada uno de ellos (tres
mquinas, dos operadores, tres velocidades, dos temperaturas, etc.). Con el
diseo factorial completa se corren aleatoriamente en el proceso todas las
posibles combinaciones que pueden formarse con los niveles seleccionados.
Un diseo de experimentos factorial o arreglo factorial es el conjunto de
puntos experimentales o tratamientos que pueden formarse considerando todas
las posibles combinaciones de los niveles de los factores. Por ejemplo, con k =
2 factores, ambos con dos niveles de prueba, se forma el diseo factorial
, que consiste de cuatro combinaciones o puntos experimentales.
Considerando otra vez k = 2 factores, pero ahora uno con tres niveles y
el otro con dos niveles, se pueden construir 3 x 2 combinaciones que dan lugar
al diseo factorial 3 x 2. Observe que en el nombre del diseo factorial va
implcita el nmero de tratamientos que lo componen. Para obtener el nmero
de corridas experimentales se multiplica el nmero de tratamientos por el
nmero de rplicas, donde una rplica se lleva a cabo cada vez que se repite el
arreglo completo.
Ms en general, la familia de diseos factoriales

consiste de k

factores, todos con dos niveles de prueba; y la familia de diseos factoriales


consiste de k factores cada uno con tres niveles de prueba. Es claro que si los
k factores no tienen la misma cantidad de niveles, entonces no se puede
factorizar de esta forma, y debe escribirse el producto de manera ms explcita:
por ejemplo con k = 3 factores, el primero con cuatro niveles y los dos restantes
con dos niveles, se tiene el diseo factorial

, que consiste de 16

combinaciones de niveles diferentes.


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

196

CAPTULO 4

Diseos factoriales

4.1. Diseos factoriales con dos factores


El experimento factorial ms sencillo es en el que intervienen solamente dos
factores, por ejemplo, A y B. Hay
El experimento tiene

niveles del factor A y

niveles del factor B.

rplicas y cada rplica contiene todas las

combinaciones de tratamientos

Considere los factores A y B con

) niveles de prueba,

respectivamente. Con ellos se puede construir el arreglo o diseo factorial


que consiste de

tratamientos. Se llama rplica cada repeticin completa

del arreglo factorial. Los diseos factoriales que involucran menos de cuatro
factores se corren replicados para poder tener la potencia necesaria en las
pruebas estadsticas sobre los efecto de inters, de tal forma que si se hacen
rplicas, el nmero total de corridas experimentales es (

).

Efecto principal y efecto de interaccin


El efecto de un factor se define como el cambio observado en la variable de
respuesta debido a un cambio de nivel de tal factor. En particular, los efectos
principales son los cambios en la media de la variable de respuesta que se
deben a la accin individual de cada factor. En trminos matemticos, el efecto
principal de un factor con dos niveles es la diferencia entre la respuesta media
observada cuando tal factor estuvo en su primer nivel, y la respuesta media
observada cuando el factor estuvo en su segundo nivel.
Ejemplo
Diseo factorial

. Suponga que en un proceso de fermentacin tequilera, se

tienen dos factores A: tipo de levadura y B: temperatura, cada uno con dos
niveles denotados por

respectivamente.

La respuesta de inters es el
rendimiento del proceso de fermentacin. En la tabla 4.1 se muestran los cuatro
tratamientos o puntos del diseo factorial

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

, y entre parntesis se ha indicado

Biol.

197
cada nivel con los cdigos (1, -1). En el experimento original cada tratamiento
se corri tres veces (tres rplicas), lo cual da un total de 12 corridas del
proceso pero, por simplicidad, en la ltima columna de la tabla 4.1 slo se
anotaron los resultados de la primera rplica.
Tabla 4.1 Diseo factorial
A: Levadura B:
Temperatura

Y:
Rendimiento
28
41
63
45

Para los datos de la tabla 4.1, los efectos principales estn dados por

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

198

CAPTULO 4

Diseos factoriales

Efecto A =

Efecto B =

por lo que en trminos absolutos el efecto principal de B es mayor. Por otra


parte, se dice que dos factores interactan entre s o tienen un efecto de
interaccin sobre

la variable de respuesta, cuando el efecto de un factor

depende del nivel en que se encuentra el otro. Por ejemplo, los factores A y B
interactan si el efecto de A es muy diferente en cada nivel de B, o viceversa.
Ahora veamos esto con los datos de la tabla
4.1: el efecto de A cuando B es baja est determinado por
Efecto A (con B bajo) = 41 - 28 = 13
y cuando la temperatura es alta, el efecto de A es
Efecto A (con B alta) = 45 - 63 = 13
Como estos dos efectos de A en funcin del nivel de B son muy diferentes,
entonces es evidencia de que la eleccin ms conveniente del nivel de A
depende del nivel en que est B, y viceversa. Es decir, eso es evidencia de que
los factores de A y B interactan sobre Y. En la prctica, el clculo del efecto A
en cada nivel de B no se hace, y ms bien se calcula el efecto global de la
interaccin de los dos factores, que se denotan por AB y se calculan como la
diferencia entre la respuesta media cuando ambos factores se encuentran en el
m ismo nivel: (-1, -1); (1, 1), y la respuesta media cuando los factores se
encuentran en niveles opuestos: (-1, 1) (1, -1). Para el ejemplo, el efecto de
interaccin levadura x temperatura est dado por

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

199

Los valores absolutos (sin importar el signo) de los efectos principales y del
efecto de interaccin son una medida de importancia de su efecto sobre la
variable de respuesta. Sin embargo, como se tienen estimaciones muestrales,
para saber si los efectos son estadsticamente significativos (diferentes de
coro) se requiere el anlisis de varianza (ANOVA).

Modelo estadstico
Con un diseo factorial

se pueden estudiar los dos efectos individuales y

el efecto de interaccin de ambos factores. En trminos estadsticos, lo que se


afirma es que el comportamiento de la respuesta Y en el experimento con k
rplicas se podra describir mediante el modelo de efectos:

donde

es la media general,

es el efecto debido al i-simo nivel del factor

es el efecto del j-simo nivel del factor B,


interaccin en la combinacin

representa al efecto de

es el error aleatorio que supone sigue

una distribucin con media cero y varianza constante

y son

independientes entre s. Para que la estimacin de los parmetros en este


modelo sea nica, se introducen las restricciones:

Es decir, los efectos dados en el modelo son desviaciones respecto de la


media global. Puede usarse el anlisis de varianza para probar hiptesis
relativas a los efectos principales de los factores A y B y la interaccin AB.
En este modelo, las hiptesis de inters para los tres efectos son:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

200

CAPTULO 4

Diseos factoriales

Estas hiptesis se prueban mediante la tcnica de anlisis de varianza que


para un diseo factorial

con

rplicas resulta de descomponer la

variacin total como,

donde los respectivos grados de libertad de cada una de ellas son:

El factor
error (

en los grados de libertad de la suma de cuadrados del

) seala que se necesitan al menos dos rplicas del experimento para

calcular ese componente y, por ende, para construir una tabla de ANOVA.
Recordemos que las sumas de cuadrados divididas entre sus correspondientes
grados de libertad se llama cuadrados medios
cuadrado medio del error

. Al dividir stos entre el

se obtienen estadsticos de prueba con

distribucin F. Toda esta informacin se sintetiza en la siguiente tabla:


ANOVA para el diseo factorial
FV
Efecto A

SC GL

CM

Valor-p

Efecto B
Efecto AB
Error
Total

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

201

Si el valor-p es menor al nivel de significancia

prefijado, se rechaza la

hiptesis nula y se concluye que el correspondiente efecto est activo o influye


en la variable de respuesta.
Recordemos la notacin de puntos para representar sumas y medias:

Con esta notacin la suma de cuadrados totales es:

donde N =

es el total de observaciones en el experimento. Las sumas de

cuadrados de efectos son:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

202

CAPTULO 4

Diseos factoriales

y al final, al restar stas del total, se obtiene la suma de cuadrados del error
como:

Ejemplo
Consideremos un experimento en el que se quiere estudiar el efecto de los
factores A: profundidad de corte sobre el acabado de un metal y B: velocidad
de alimentacin. Aunque los factores son de naturaleza continua, en este
proceso slo se puede trabajar en 4 y 3 niveles, respectivamente. Por ello, se
decide correr un factorial completo 4 x 3 con tres rplicas, que permitir obtener
toda la informacin relevante en relacin al efecto de esos factores sobre el
acabado. Al aleatorizar las 36 pruebas se obtienen los datos de la siguiente
tabla:
Datos del experimento factorial 4 x 3
B:
velocidad
0,25
0,30
92
99

Total

64

86

98

763

198

266

299

60
79

88
98

102
104

68

104

99

220

290

298

73
82

88
99

95
108

88

108

110

262

302

317

92
99

95
104

99
114

104

110

111

299

313

332

0,20
0,15
Profundidad74

0,18
A:

0,21

0,24

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

808

8
81

944

Biol.

Diseos factoriales
con dos factores

203

Total

96

99

107

979

1 171

1 246

El acabado ( ) est en unidades de gramos e interesa minimizar su valor


De acuerdo a esto para obtener el ANOVA para el ejemplo, calculemos los
totales necesarios. De donde:

La suma de cuadrados totales y la suma de cuadrados del error estn dadas


por

Con esta informacin se construye el anlisis de varianza de la tabla 4.2. Del


ANOVA se concluye que los tres efectos A: velocidad, B: profundidad y AB
estn activos o influyen en el acabado. Dado que el efecto de integracin AB
resulta

significativo,

prcticamente

toda

la

informacin

relevante

del

experimento se aprecia en su representacin grfica (figura 4.1). Ntese que


aparecen tantas lneas como niveles tenga el factor que se dibuja en la parte
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

204

CAPTULO 4

Diseos factoriales

de arriba, que en este caso es la profundidad con sus cuatro niveles que se
denotan con la escala de -1 a 1. La significancia de la interaccin detectada
por el ANOVA se observa en el hecho de que las lneas en la figura 5.1 tienen
pendientes relativamente diferentes. Como lo que interesa es minimizar la
variable de respuesta, se observa que a mayor velocidad y profundidad hay
una tendencia a obtener peores acabados. Adems se ve que cuando se tiene
velocidad alta (

) el efecto de profundidad es menor (vase la dispersin de

las lneas en la figura cuando la velocidad es alta). Por lo tanto, las condiciones
de operacin o tratamiento que convienen es profundidad y velocidad bajas (
).
El ANOVA de la tabla 5.2 se dice que no est desglosado, ya que cuando en
un experimento hay factores cuantitativos con ms de dos niveles, el ANOVA se
puede desglosar para estudiar con mayor detalle en el efecto de tal factor.

Tabla 5.2 ANOVA para el ejemplo


FV
B: velocidad

SC
3 160.5

GL CM
2
1

Valor-p
55,02 0,0000

A:

580,25

24,66 0,0000

profundidad

125,10

708,37

3,23

AB

557,07

24

92,84

Error

689,33

35

28,72

Total

6 532,0

0,0180

El planteamiento de hiptesis quedara de la siguiente manera:


Con su nivel de significancia como con sus grados de libertad
respectivamente tenemos que el valor de F crtica es:
y
Se concluye que
Se rechaza

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

205

Se rechaza

Se acepta

Resultado arrojado en Minitab para el ejemplo anterior


Factores:

Rplicas:

Corridas base: 12

Total de corridas: 36

Bloques base:

Total de bloques:

Nmero de niveles: 4; 3

Modelo lineal general: RESPUESTA vs. PRFUNDIDAD; VELOCIDAD


Factor

Tipo

Niveles

PRFUNDIDAD A fijo
VELOCIDAD B fijo

Valores

4
3

0.15; 0.18; 0.21; 0.24


0.20; 0.25; 0.30

Anlisis de varianza para RESPUESTA, utilizando SC ajustada para


pruebas
Fuente

GL SC sec. SC ajust. MC ajust.

PRFUNDIDAD A
VELOCIDAD B
PRF.*VEL. AB

3 2125,11
2 3160,50
6 557,06

Error

24 689,33

Total

35 6532,00

2125,11

708,37

24,66 0,000

3160,50

1580,25

55,02 0,000

557,06

689,33

92,84

3,23 0,018

28,72

Comparacin de medias

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

206

CAPTULO 4

Diseos factoriales

Las comparaciones de medias se introdujeron en la seccin Diseo


completamente al azar y ANOVA del captulo 2, para despus de un ANOVA
en el que se rechaza

, investigar cules medias causa las diferencias

detectadas. El ANOVA slo indica que al menos un par de niveles del factor
significativo son diferentes entre s, pero no dice cules son. Por facilidad,
denotemos los cuatro niveles de la profundidad (A) del ejemplo anterior como
as como los tres niveles de la velocidad (B) como
Entonces es, los seis pares de hiptesis para comparar las medias del factor A
son:

mientras que para el factor B se tienen los tres pares de


hiptesis,

Para probar estas hiptesis con el mtodo LSD habra que calcular las
diferencias muestrales en el valor absoluto y compararlas con la diferencia
mnima significativa. Cabe aclarar que este anlisis es engaoso cuando el
efecto de interaccin es significativo. Por ello, y slo por ilustrar el mtodo, se
prueban las hiptesis del factor A ignorando por el momento la interaccin. La

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

207

diferencia mnima significativa para comparar los niveles

del factor A, est

dada por:

Donde
T de Student,
y

es el punto porcentual 100(

de la distribucin

los grados de libertad del cuadrado medio del error,

son el total de observaciones en los niveles

del factor A, que estn

comparando. De esta manera, en el ejemplo, como es un diseo balanceado


=

= 9; entonces,

Comp
aracin de medias

De los totales marginales dados en el rengln inferior de la tabla donde se


representan los datos del experimento factorial 4 x 3, se obtienen las medias
del factor A, al dividir entre 9, que son el nmero de mediciones involucradas
en cada total. As, las seis posibles diferencias muestrales en valor absoluto
resultan ser:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

208

CAPTULO 4

Diseos factoriales

donde slo la primer diferencia resulta no significativa, es decir, se acepta


; en cambio, en las cinco comparaciones restantes se rechaza
.
Ejercicios
1.- La pintura tapaporo de aviones se aplica en superficies de aluminio
utilizando dos mtodos: por inmersin y por aspersin. El objeto de la pintura
tapaporo es mejorar la adherencia de la pintura, y en algunas partes puede
aplicarse utilizando cualquiera de los dos mtodos. Al grupo de ingenieros
responsable del proceso de esta operacin le interesa saber si tres pinturas
tapaporo diferentes difieren en sus propiedades de adherencia. Se realiz un
experimento factorial para investigar el efecto que tiene el tipo de pintura
tapaporo y el mtodo de aplicacin sobre la adherencia de la pintura. Se
pintaron tres ejemplares de prueba con cada pintura utilizando cada uno de los
mtodos de aplicacin, se aplico la pintura final, y se midi la fuerza de
adherencia. Probemos la hiptesis apropiada y saquemos conclusiones
Tipo de Inmersin

Aspersin

tapapor
o
1

4.0,

12.8

5.6,

4,5

4.3 5.4,

5.6 28.7

15.9
4.9,

5.4 5.8,

15.9
3.8,

4.9,

34.1
6.1,

6.3 27.0

5.0,

5.0

18.2
3.7,

4.0 5.5,

11.5
40.2

15.5
49.6

89.8

Resultado en Minitab Diseo factorial de mltiples niveles


Factores:

Corridas base: 6

Rplicas:

Total de corridas: 18

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

Bloques base: 1

209

Total de bloques:

Nmero de niveles: 3; 2

Modelo lineal general: Respuesta vs. Tapaporo; Adherencia


Factor

Tipo Niveles Valores

Tapaporo

fijo

3 1; 2; 3

Adherencia fijo

2 Inmersin; Aspersin

Anlisis de varianza para Respuesta, utilizando SC ajustada para pruebas


Fuente

GL SC sec. SC ajust. MC ajust.

Tapaporo

2 4,5811

Adherencia

4,5811

1 4,9089

4,9089

Tapaporo*Adherencia 2 0,2411
Error

12 0,9867

Total

17 10,7178

2,2906
4,9089

0,2411

0,9867

27,86 0,000
59,70 0,000

0,1206

1,47 0,269

0,0822

S = 0,286744 R-cuad. = 90,79% R-cuad.(ajustado) = 86,96%

Dado que utilizamos un

= 0.05 y puesto que el valor de

tanto para el

factor A (tipo de pintura) como para el factor B(tipo de aplicacin), con su nivel
de significancia como con sus grados de libertad respectivamente tenemos
y

. Se concluye que los efectos principales del

tipo de pintura tapaporo y del mtodo de aplicacin afectan la fuerza de


adherencia. Adems, puesto que 1,5

, no hay indicios de

interaccin entre estos factores. En la ltima columna del ANOVA se muestra el


valor P para cada cociente F. Obsrvese que los valores P de los dos
estadsticos de prueba para los efectos principales son considerablemente
menores que 0,05 mientras que el valor P para el estadstico de prueba de la
interaccin es mayor que 0,05.
Se rechaza
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

210

CAPTULO 4

Diseos factoriales

Se rechaza

Se acepta

2.- Se presentan los resultados de un experimento en el que interviene una


batera de almacenamiento usada en el mecanismo de lanzamiento de un misil
tierra-aire para cargar al hombro. Pueden usarse tres tipos de materiales para
hacer las placas de la batera. El objetivo es disear una batera que se
mantenga relativamente sin alteraciones por la temperatura ambiente. La
respuesta de salida de la batera es la vida efectiva en horas. Se seleccionan
tres niveles de temperatura y se corre un experimento factorial con cuatro
replicas. Los datos son los siguientes:
Material
1

Temperatura (
Baja
Media
Alta
130 155 34 40 20 70

74 180 80 75 82 58
150 188 136 122 25 70

159 126 106 115 58 45


138 110 174 120 96 104
168 160 150 139 82 60

a) Pruebe las hiptesis apropiadas y saque conclusiones utilizando el


anlisis de
Ejercicios

123

b) varianza con

= 0.05

c) Analice grficamente la interaccin

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

211

d) Analice los residuales de este experimento


3.- En un artculo se describe un experimento para investigar el efecto de dos
factores (tipo de cristal y tipo de fsforo) sobre la brillantez de un cinescopio. La
variable de respuesta media es la corriente (en microamperes) necesaria para
obtener un nivel especifico de brillantez. Los datos se presentan en la siguiente
tabla:
Tipo de Tipo
cristal
1

de

fsforo
1
2
3
280 300 290
290 310 285

285 295 290


230 260 220
235 240 225
240 235 230

a) Enuncie las hiptesis de inters en este experimento


b) Pruebe las hiptesis anteriores y saque conclusiones utilizando anlisis
de varianza con

= 0.05

c) Analice los residuales de este experimento


4.- Se condujo un experimento para determinar si la temperatura del fuego o la
posicin en el horno afectan la densidad de endurecimiento de un nodo de
carbono. Los datos son los siguientes:
Posicin Temperatura (

800 825
570 1

)
850
565

565 063

510

583 1

590

080
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

212

CAPTULO 4

Diseos factoriales

1
043
2

528 988

526

547 1

538

521 026

532

1
004
a) Enuncie las hiptesis de inters
b) Pruebe las hiptesis anteriores utilizando el anlisis de varianza con

0.05. A qu conclusiones se llega?


c) Utilizando el mtodo de la LSD de Fisher, investigar las diferencias entre
la media de la densidad del endurecimiento de los nodos en los tres
diferentes niveles de temperatura
4.2. Diseos factoriales con tres factores
Cuando se quiere investigar la influencia de tres factores (A, B y C) sobre una o
ms variables de respuesta, y el nmero de niveles de prueba en cada uno de
los factores es a, b y c, respectivamente, se puede construir el arreglo factorial
, que consiste de

tratamientos o puntos experimentales. Entre

los arreglos de este tipo que se utilizan con frecuencia en aplicaciones diversas
se encuentran: el factorial

, el factorial

y los factoriales mixtos con no ms

de cuatro niveles en dos de los factores, por ejemplo, el factorial 4 x 3 x 2 y el


factorial 4 x 4 x 2, por mencionar dos de ellos.

Hiptesis de inters
El estudio factorial de tres factores (A, B y C) permite investigar los efectos: A,
B, C, AB, AC, BC y ABC, donde el nivel de desglose o detalle con el que
pueden estudiarse depende del nmero de niveles utilizando en cada factor.
Por ejemplo, si un factor se prueba en dos niveles, todo su efecto marginal
(individual) es lineal, o sea que su efecto individual no se puede descomponer;

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Diseos factoriales
con dos factores

213

pero, si tuviera tres niveles su efecto marginal se puede descomponer en una


parte lineal y otra cuadrtica pura.
En resumen, se tienen siete efectos de inters sin considerar desglose, y
con ellos se pueden plantar las siete hiptesis nulas

cada una aparejada con su correspondiente hiptesis alternativa. El ANOVA


para probar estas hiptesis se muestran en la siguiente tabla.
ANOVA para el diseo a x b x c
FV
Efecto A

SC

GL

CM

Valor-p

Efecto B
Efecto C
Efecto AB
Efecto AC
Efecto BC
Efecto ABC
Error
Total
Al efecto cuyo valor-p sea menor al valor especificado para alfa, se declara
estadsticamente significativo o se dice que est activo. Las sumas de
cuadrados son muy similares a las obtenidas para dos factores; habr que
considerar un subndice adicional para el tercer factor, y comenzando otra vea,
por la suma total de cuadrados, stas resultan ser:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

214

CAPTULO 4

donde N =

Diseos factoriales

es el total de observaciones en el experimento. Las sumas de

cuadrados

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

215

Diseos factoriales con


tres factores

de efectos son:

Al restar stas del total, la suma de cuadrados del error resulta ser

cuyos respectivos grados de libertad se dan en la tabla anterior. Una vez hecho
el ANOVA, se procede a interpretar los efectos activos, y luego (aunque no
necesariamente despus) a diagnosticar la calidad del modelo.
Ejemplo

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

216

CAPTULO 4

Diseos factoriales

El experimento. Se desea investigar el efecto del tipo de suspensin (A),


abertura de malla (B) y temperatura de ciclaje (C) en el volumen de
sedimentacin Y(%) de una suspensin. Para ello se decide correr un
experimento factorial 3 x 2 x 2 con seis rplicas, y las observaciones obtenidas
en las 72 corridas experimentales se muestran en la siguiente tabla:

60,

75, 67,

73, 62,

68, 71,

80, 76,

71, 75,

75,

75

73

65

80

75

75

86,

70, 67,

68, 76,

65, 72,

80, 70,

68, 75,

75,

70
55,

68
53, 52,

65
52, 44,

80
44, 60,

73
60, 52,

77
51, 56,

55,

53

57

45

60

50

57

55,

55, 52,

54, 48,

48, 67,

67, 52,

48, 59,

55

54

45

65

54

55

50,

Los niveles de prueba para cada factor, tanto en unidades originales como en
unidades codificadas, se muestran en la siguiente tabla

Factor
A:

U. originales
U. codificadas
Bajo Medio Alto Bajo Medio Alto
de
-1
0
1

Tipo

suspensin

40

B: Abertura de malla 0

60

-1

30

-1

C: Temperatura
El anlisis de varianza para este ejemplo se muestra en la siguiente tabla. De
aqu se concluye que no influyen los efectos ABC, AC ni A, dado que su valor-p
es mayor que

. Por otra parte, se encuentran activos los efectos B, C,

AB y en menor medida BC. stos son los cuatro efectos que se deben
interpretar. Los efectos que no influyeron se pueden eliminar mandndolos al
trmino error. El ANOVA simplificado, pero con el efecto A note que el

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

en

Biol.

217

ambos ANOVAS es prcticamente igual. En general se recomienda interpretar


slo los efectos significativos.

Diseo factorial de mltiples niveles


Factores:

Rplicas:

Corridas base: 12

Total de corridas: 72

Bloques base:

Total de bloques:

Nmero de niveles: 3; 2; 2

Modelo lineal general: Respuesta vs. Suspensin; Abertura de malla; ...


Factor

Tipo Niveles Valores

Suspensin
malla fijo

fijo

3 A1; A2; A3 Abertura de

2 B1; B2 temperatura

fijo

C1; C2

Anlisis de varianza para Respuesta, utilizando SC ajustada para pruebas


Fuente

GL SC sec.

SC ajust. MC ajust.

Suspensin

13,86

13,86

6,93

0,49 0,613

Abertura de malla

1 480,50

480,50

480,50

34,25 0,000

temperatura

1 6086,72

0,000 Suspensin*Abertura de malla

6086,72

6086,72

433,90

788,25

788,25

394,13

28,10 0,000
Suspensin*temperatura

40,86

40,86

20,43

1,46 0,241

Abertura de malla*temperatura

56,89

56,89

56,89

4,06 0,049

Suspensin*Abertura de malla*

31,03

31,03

15,51

1,11 0,338

temperatura
Error

60 841,67

Total

71 8339,78

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

841,67

14,03

Biol.

218

CAPTULO 4

S = 3,74537

Diseos factoriales

R-cuad. = 89,91%

R-cuad.(ajustado) =

88,06%
Observaciones inusuales de Respuesta
Residuo
Obs Respuesta Ajuste Ajuste SE Residuo estndar
23

60,0000 72,6667

1,5290 -12,6667

-3,70 R

36

76,0000 66,8333

1,5290

9,1667

2,68 R

52

86,0000 72,6667

1,5290 13,3333

3,90 R

R denota una observacin con un residuo estandarizado grande.


Diseos factoriales con
tres factores

Dado que utilizamos un

= 0.05 y puesto que el valor de , con su nivel

de significancia como con sus grados de libertad en tablas respectivamente


tenemos

Se acepta
;

Se rechaza

Se rechaza
,

rechaza

Se
;

Se acepta
,

Se rechaza

Ejercicios
1.- Se investigan el porcentaje de la concentracin de madera dura en la pulpa
cruda, la libertad de orientacin de la fibra o lof, y el tiempo de coccin de la

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

219

pulpa en cuanto a sus efectos sobre la resistencia del papel. En la siguiente


tabla se muestran los datos de un experimento factorial con tres factores.
Porcentaje de la

1.5 horas de tiempo de coccin

2.0

horas de tiempo de coccin


Concentracin de

lof

lof
Madera dura
500

350

500

650

350

96.6

97.9

99.4

98.4

96.0

96.0

99.8

98.6

98.5

96.0

98.4

97.5

97.2

96.9

97.6

98.1

97.5

95.6

97.4

97.6

96.6

96.2

98.1

98.4

650
10

99.6

1000.6

100.4 100.9
15
98.7

99.0

96.0 99.0
20
97.0
97.8

98.5
99.8

a) Analice los datos usando el anlisis de varianza bajo el supuesto de que


todos los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a
2.- El departamento de control de calidad de una planta de acabados textiles
estudia los efectos de varios factores sobre el teido de una tela combinada de
algodn y fibra sinttica que se usa para hacer camisas. Se seleccionan tres
operadores, tres duraciones del ciclo y dos temperaturas, y tres ejemplares de
prueba pequeos de tela se tieron bajo cada conjunto de condiciones. La tela
terminada se compar con un patrn y se asigno una puntuacin numrica.
Los resultados se presentan en la tabla siguiente

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

220

CAPTULO 4

Diseos factoriales

Temperatura
300
350
Operador
Operador
Duracin del ciclo
1
24

2
40

38

34

1
23
24

50
37

34

36

60

29
25

37
34

31
32

36

36

26

28

28
36

35 39
34
33

38

34

39

36

27

34
35

26

28
23

25

38

36

39

35

35
28

36 31
35
26

28
24

35

27

27

34

25

26
34

a) Enuncie y pruebe las hiptesis apropiadas usando el anlisis de varianza con

3.- Un ingeniero mecnico estudia la rugosidad superficial de una pieza


producida en una operacin de corte de metal. Son de inters tres factores: la
rapidez de alimentacin (A), la profundidad del corte (B) y el ngulo de la
herramienta (C). A los tres factores se les ha asignado dos niveles, y se corren
dos rplicas de un diseo factorial

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

221

Profundidad
Rapidez de
alimentaci
n

del

corte
0.025

0.04

pulgada
ngulo

pulgada
de
la

herramienta
15 25 15
30 pulg/min 9
11 9

25
10

7
30 pulg/min 10

10
10

11
12

8
16

12

13

15

14

a) Analice los datos usando el anlisis de varianza bajo el supuesto de que


todos los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a

4.3. Diseo factorial general


Lo que se ha dicho para los dos diseos factoriales con 2 y 3 factores puede
extenderse fcilmente para cuando se tienen ms factores. Considerarse
factores A, B, C,, K con niveles

respectivamente, donde la letra K

denota al -simo o ltimo factor del conjunto a estudiar, no necesariamente el


undcimo, que es el lugar de esta letra en el alfabeto. Con estos niveles y
factores se puede construir el diseo factorial general

que consiste

de

tratamientos o puntos de prueba. Con este diseo se pueden

estudiar

efectos

principales,

interacciones

dobles,

interacciones triples, y as sucesivamente hasta la nica


interaccin de los

factores (ABCK). El clculo del nmero de interacciones

de cierta cantidad

de factores se hace mediante la operacin combinaciones

de

en
que cuenta el nmero de diferentes maneras de

seleccionar
factores de los , donde

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

222

CAPTULO 4

Diseos factoriales

Por ejemplo, el diseo factorial

tiene cinco efectos principales, 10

interacciones dobles, 10 interacciones triples, cinco interacciones cudruples y


una interaccin quntuple, lo cual da un total de 31 efectos. Por su parte, el
factorial

tambin tiene este mismo nmero de efectos, pero al contar con tres

niveles en cada factor, cada efecto principal se puede descomponer en su parte


lineal y cuadrtica. Cabe destacar que mientras el diseo factorial
tratamientos, el factorial

tiene 32

tiene 243, una cantidad de tratamientos difcil de

manejar. Aun si pudiera correrse, representa una opcin muy ineficaz; adems,
existen arreglos experimentales ms pequeos y eficientes.
Diseo
factorial general

De acuerdo con lo antes dicho, en el factorial general


pueden plantear
varianza. Si se tienen

se

hiptesis que se prueban mediante el anlisis de


rplicas. Las primeras tres columnas de este ANOVA se

muestran en la siguiente tabla


ANOVA para el diseo factorial general
FV

SC

GL

Error
Total

La suma de cuadrados totales est dada por:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

223

donde N =

es el total de observaciones en el experimento. Las sumas

de cuadrados de efectos son:

Al final, la suma de cuadrados del error se calcula por sustraccin,

En el ANOVA para el factorial general


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

se observa la necesidad de
Biol.

224

CAPTULO 4

Diseos factoriales

contar con al menos dos rplicas del experimento para calcular la suma de
cuadrados del error (
necesidad de rplicas (
que interesan los

), y completar toda la tabla ANOVA. Sin embargo, esta


, que se ha mencionado,. Es para el caso irreal de
efectos. Pero resulta que, con excepcin del factorial

, en un factorial completo prcticamente nunca interesan todos sus posibles


efectos, puesto que en trminos generales slo algunos de ellos estn activos.
El principio de Pareto, que en este contexto tambin se llama principio de
esparcidad de efectos, dice que la mayora de la variabilidad observada se debe
a unos pocos de los efectos posibles; por lo comn se debe a algunos efectos
principales e interacciones dobles.

4.4. Modelos de efectos aleatorios


Hasta aqu los modelos de efectos que se han utilizado son modelos de efectos
o factores fijos, lo cual significa que todos los niveles de prueba en cada factor
son todos los disponibles para ese factor, o bien, se estudian todos los niveles
de inters en ese factor; es en este sentido que los niveles estn fijos. ste es
el caso, por ejemplo, cuando en el factor operador se toman los tres nicos
operadores como los niveles de prueba, o cuando los niveles del factor
mquinas son las cuatro mquinas existentes. O bien, cuando se comparan
tres tipos de material porque son los que interesa comprar aunque existan otros
materiales de ese tipo. Con factores fijos, las conclusiones obtenidas slo son
validas para los niveles de prueba que se estudian en el experimento.
En ocasiones, los niveles de prueba son una muestra aleatoria de la poblacin
de niveles posibles. En este caso es ms apropiado utilizar un modelo de
efectos o factores aleatorios. Un ejemplo de esta situacin es cuando se
prueban cinco instrumentos de medicin, pero la poblacin de los mismos es
de 100 instrumentos; obviamente, no es posible experimentar con todos los
equipos. Entonces se experimenta slo con cinco de ellos elegidos al azar, y
las conclusiones obtenidas se infieren como vlidas para la poblacin entera de
instrumentos.
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

225

La aplicacin de un modelo de efectos aleatorios conlleva la necesidad de


considerar la incertidumbre asociada con la eleccin aleatoria de los niveles de
prueba. Es decir, ya no tiene sentido, para un factor A, preocuparse por el efecto
del nivel
Modelo de
efectos aleatorios

como en efectos fijos. Lo que ahora (con efectos aleatorios) tiene sentido es
hablar de la varianza con la que el factor aleatorio contribuye a la variacin total;
es decir, es preciso estimar dicha varianza y probar si su contribucin a la
variabilidad total es significativa.

El caso de dos factores aleatorios.


Si se consideran dos factores aleatorios A y B, de los cuales se prueban
niveles elegidos de una poblacin grande de niveles, entonces si los
tratamientos se replican

donde
A,

veces, el modelo de efectos aleatorios es

es la media general,

es el efecto del

interaccin en la combinacin

es el efecto debido al

nivel del factor

nivel del factor B,


y

representa al efecto de

es el error aleatorio que se supone sigue

una distribucin normal con media cero y varianza constante,

y son

independientes entre s. El aspecto de este modelo es igual al de efectos fijos,


pero el hecho de que los efectos sean aleatorios implica que no tiene sentido
probar hiptesis directamente sobre tales efectos (medidas), sino que ahora el
inters se enfoca en estudiar la varianza de dichos efectos.
Para ello, se supone que los trminos

son variables aleatorias

independientes normales, con media cero y varianzas

, y

respectivamente.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

226

CAPTULO 4

Diseos factoriales

De esta manera, si se calcula la varianza en ambos lados del modelo anterior,


se obtiene el modelo de componentes de varianza dado por:

donde

son las contribuciones de cada efecto a la variacin total y se

llaman componentes de varianza;

es el componente de varianza debido al

error aleatorio. Las hiptesis de inters son

Los

clculos necesarios para probar estas hiptesis involucran las

mismas sumas de cuadrados del modelo de efectos fijos (diseos factoriales


con dos factores), de las cuales se obtienen los correspondientes cuadrados
medios. Para obtener los estadsticos de prueba

apropiados debe tomarse

en cuenta que los valores esperados de los cuadrados medios son

de tal forma que para probar la hiptesis mencionadas, los estadsticos de


prueba apropiados en el

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

ANOVA son

Biol.

227

respectivamente. Observe que en el modelo de efectos aleatorios los


cuadrados medios de los efectos principales se comparan con el cuadrado
medio de la interaccin, y no con el cuadrado medio del error, como se hace en
el modelo de efectos fijos. En caso de rechazar alguna de las hiptesis sobre
las varianzas, se concluye que el efecto correspondiente contribuye de manera
significativa a la variacin de la respuesta. La conclusin prctica no consiste
en determinar el mejor tratamiento, sino que generalmente se traduce en tomar
medidas para que la contribucin del componente de varianza se reduzca.
Al resolver las ecuaciones dadas por los valores esperados de cuadrados
medios para los componentes de varianza, se obtienen estimadores de stos
en funcin de los cuadrados medios del error, esto es,

Ejemplo
En una compaa dedicada a la fabricacin de bombas y vlvulas, algunos
componentes crticos tienen tolerancias muy estrechas que son difciles de
cumplir. De aqu que sea necesario estimar el error de medicin con el fin de
ver la posibilidad de reducirlo para cumplir con las especificaciones. El ancho
de una pieza particular es una caracterstica de calidad crtica, cuyas
especificaciones son 69

0,4mm. Se eligen dos inspectores al azar y siete

piezas para correr un experimento, a fin de estimar la contribucin de los


inspectores, de las piezas y del error aleatorio (repetibilidad) en la variabilidad
total observada. El experimento utilizado se muestra en la siguiente tabla:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

228

CAPTULO 4

Diseos factoriales

Modelo de
efectos aleatorios
Nmero

Inspector Z
1
2

Inspector W
1
2

69,38

69,62

69,60

69,52

39,72

69,78

69,80

69,90

69,58

69,70

69,70

69,92

69,50

69,46

69,50

69,50

69,48

69,50

69,40

69,42

69,56

69,68

69,40

69,64

69,90

69,94

70,02

69,88

de piezas
1

Ntese que cada inspector mide dos veces cada pieza. Sean los inspectores el
factor A y las piezas el factor B, el primero con dos niveles y el segundo con
siete niveles, en ambos casos seleccionados al azar. El modelo de
componentes de varianza propuesto para describir estos datos es donde
el componente de varianza de los inspectores,
las piezas,

es

es el componente debido a

es el componente de interaccin de ambos factores y

es el

componente aleatorio.
Interesa probar las hiptesis:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

229

y estimar los componentes de varianza. El ANOVA para probar estas hiptesis


se muestran en la siguiente tabla.
FV
SC
A: Insp. 0,0003

GL CM
1
0,0003

Valor-p
0,069 0,8043

B:

24,07 0,0000

Pieza

0,7516

0,1252

0,75

AB

0,0313

14

0,0052

Error

0,097

27

0,0069

Total

0,8803

0,6169

Las tres primeras columnas se obtienen igual que el modelo de efectos


fijos, pero las dos ltimas deben corregirse de acuerdo con el estadstico de
prueba

apropiado

para

un

modelo

de

efectos

aleatorios

y
). Los valor-p indican que la variabilidad de las piezas
es
estadsticamente diferente a cero, mientras que la variabilidad de los
inspectores y de la interaccin inspector x pieza no es significativa (es igual a
cero). Desde el punto de vista del objetivo del experimento, los resultados del
ANOVA son los deseados: la reproducibilidad (

) es estadsticamente

igual a cero, es decir, los inspectores no afectan el proceso de medicin. La


estimacin de los componentes de varianza, a partir de los cuadros medios,
queda como:

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

230

CAPTULO 4

Diseos factoriales

De aqu se concluye que la reproducibilidad (

) no tiene

contribucin y la repetibilidad expresada como 5.15 es igual a 0,428. Si este


valor se compara con la tolerancia de 0.8, se encuentra que ocupa 53% de
sta, cuando lo deseable es que este porcentaje sea menor al 10%, por lo que
el instrumento es inadecuado para discriminar entre piezas buenas y malas.

4.5. Uso de un software estadstico


Utilizando Minitab
1. El primer paso consisten en seleccionar la opcin Estadsticas del Men
Principal de Minitab y, dentro de esa opcin, seleccionar la opcin DOE luego
Factorial y Crear diseo factorial como se presenta en la siguiente Figura.

2. Como consecuencia de la accin anterior le debe aparecer la siguiente pantalla


<<Crear diseo factorial>>. El paso en esta pantalla ser seleccionar en Tipo
de diseo la casilla de Diseo factorial completo general luego escoger el
nmero de factores considerados en el experimento (en nuestro ejemplo son
dos factores: A y B), por tanto en la casilla <<Nmero de factores>> usted
deber tener el nmero 2. Luego

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

231

Uso de software

debe oprimir el botn de la opcin <<Diseos>> para poder escoger su diseo,


nmero de repeticiones y otras opciones.
3. En la siguiente ventana escribir el nombre de nuestros factores A y B, adems
de indicar el numero de niveles para ambos (4 y 3 respectivamente), tambin
indicar que realizamos tres

repeticiones por tratamiento, para esto en la

casilla <<Nmero de replicas>>, usted deber tener el valor de 3. Finalice


esta pantalla oprimiendo <<Aceptar>>. Esto lo devolver a la pantalla anterior
<<Crear diseo factorial>>.

4. De vuelta en la pantalla <<Crear diseo factorial>>. Seleccionar factores y


aparecer una siguiente ventana.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

232

CAPTULO 4

Diseos factoriales

En la casilla <<Tipo>> seleccionar texto para ambos factores, <<Valores de


nivel>> , indicar los valores correspondientes tanto para el factor A as como
para el factor B, luego indicar aceptar, lo que lo llevara nuevamente a la
pantalla <<Crear diseo factorial>>.
5. De vuelta a la pantalla <<Crear diseo factorial>> oprima <<Aceptar>>.
MINITAB le crear la

siguiente pantalla. Minitab crea las columnas de los

tratamientos, lo nico que usted tiene que ingresar a MINITAB es una columna
con la respuesta del experimento. Proceda entonces a ingresar los datos en la
columna C7

6. Una vez capturados los datos (estos datos debern corresponder al factor A
con respecto a factor B de acuerdo a la tabla original) en su correspondiente
rengln. El siguiente paso es regresar al paso 1.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

233

slo que esta vez seleccionara la secuencia: <<Estadsticas>> seguida de


<<DOE>>, <<Factorial>> y <<Analizar diseo factorial>>.

Uso de software

Esta accin resultar en la pantalla donde slo es necesario indicar la


columna de la variable de respuesta <<Respuesta>>

seguido de aceptar y

MINITAB le ofrecer el resultado correspondiente.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

234

CAPTULO 4

Diseos factoriales

Para capturar los datos en Minitab, de tres factores, es idntico al de


dos factores, solo que en la ventana correspondiente indicar que se trata de
tres factores, y se aplica la misma secuencia.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

235

CAPTULO 5
Series de tiempo

5.1. Modelo clsico de series de tiempo


5.2. Anlisis de fluctuaciones
5.3. Anlisis de tendencia
5.4. Anlisis de variaciones cclicas
5.5. Medicin de variaciones estacionales e irregulares
5.6. Aplicacin de ajustes estacionales
5.7. Pronsticos basados en factores de tendencia y estacionales.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

236

CAPTULO 5 Series de tiempo

Series de tiempo

Series de tiempo
T oda institucin, ya sea la familia, la empresa o el gobierno, tienen que hacer
planes para el futuro si ha de sobrevivir y progresar. Hoy en da diversas
instituciones requieren conocer el comportamiento futuro de ciertos fenmenos
con el fin de planificar, prever o prevenir.
Debido a que las condiciones econmicas y comerciales varan en el tiempo,
los lderes de los negocios deben encontrar formas de mantenerse al da
respecto a los efectos que esos cambios tendrn en sus operaciones. Una
tcnica que pueden usar los lderes de negocios como ayuda en la planeacin
de las necesidades operativas en lo futuro es el pronstico. Aunque se han
desarrollado numerosos mtodos para pronosticar, todos tienen un objetivo
comn, predecir los eventos futuros de manera que las proyecciones se
puedan incorporar en el proceso de toma de decisiones.
Suponga que necesitamos hacer pronsticos trimestrales para el volumen de
ventas de determinado producto durante el prximo ao. Los programas de
produccin, las compras de materias primas, las polticas de inventarios y las
cuotas de venta sern afectados, todos, por esos pronsticos. Entonces, los
malos pronsticos darn como resultado una mala planeacin y, en
consecuencia, aumentarn los costos de la empresa. Cmo se hace para
elaborar los pronsticos trimestrales del volumen de ventas?
Desde luego que se deben considerar los datos reales de ventas del producto
en periodos pasados. Con tales datos histricos podemos identificar el nivel
general de ventas y cualquier tendencia, como aumento o disminucin en el

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

237

volumen a travs del tiempo. Por ejemplo, un examen ms detallado de los


datos puede revelar un comportamiento estacional, como el de los picos que se
presentan en el tercer trimestre de cada ao y los mnimos durante el primer
trimestre. Al repasar los datos histricos se puede, con frecuencia, adquirir una
mejor comprensin de la tendencia de las ventas en el pasado para poder
pronosticar las ventas del producto en el futuro de una mejor manera.
Las ventas histricas forman una serie de tiempo que es un conjunto de
observaciones de una variable medida en puntos o periodos sucesivos en el
tiempo.
En esencia, existen dos enfoques de pronsticos: cualitativo y
cuantitativo.
Los mtodos de pronstico cualitativos son importantes en especial
cuando no se dispone de datos histricos, como sera el caso de un
departamento de finanzas que desea pronosticar los ingresos de una compaa
nueva. Los mtodos de pronstico cualitativos se consideran altamente
subjetivos o basados en la opinin. Incluyen el mtodo de elaboracin de
escenarios, la opinin de expertos y la tcnica Delphi.
Mtodo Delphi. El mtodo dlfico, desarrollado en principio por un grupo
de investigacin de la Rand Corporation. Trata de determinar pronsticos
mediante consenso de grupo. En forma normal, a los miembros de un equipo
de expertos, todos ellos separados fsicamente y desconocidos entre s, se les
pide contestar una serie de cuestionarios. Se tabulan las respuestas del primer
cuestionario y stas se usan para preparar un segundo cuestionario que
contiene la informacin y las opiniones de todo el grupo. A continuacin se pide
a cada encuestado reconsiderar y, posiblemente, corregir sus respuestas
anteriores a la vista de la informacin obtenida con el grupo.
Este proceso continua hasta que el coordinador siente que ha
alcanzado cierto nivel de consenso. El objetivo del mtodo dlfico no es llegar
al resultado de una sola respuesta, sino producir un conjunto compacto de
opiniones dentro del cual est la mayora de los expertos.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

238

CAPTULO 5 Series de tiempo

Opinin de expertos. Con frecuencia, los pronsticos se basan en el


juicio de un solo experto, o representan el consenso de un grupo de expertos.
Por ejemplo, cada ao se rene un grupo de expertos en Merrill Lynch con el
fin de pronosticar el nivel del promedio industrial Dow Jones y la tasa prima
para el siguiente ao. Al hacerlo, los expertos se basan, de manera individual
en informacin que cree que influye en el mercado accionario y las tasas de
inters, a continuacin combinan sus conclusiones en forma de un pronstico.
No se usa modelo formal alguno, y es improbable que dos expertos
cualesquiera visualicen de la misma forma la misma observacin.
La opinin de expertos es un mtodo de pronstico que se recomienda
normalmente cuando es probable que las condiciones en el pasado no rijan en
el futuro. Aunque no se usa modelo cuantitativo formal, el juicio experto ha
producido buenos pronsticos en muchos casos.
Elaboracin de escenarios. Este mtodo consiste en desarrollar un
escenario conceptual del futuro, basado en un conjunto bien definido de
supuestos. Los distintos conjuntos de supuestos producen diferentes
escenarios. La tarea de quien toma decisiones es decidir lo probable que es
cada escenario y, a continuacin, tomar las decisiones pertinentes.
Por otro lado, los mtodos de pronstico cuantitativo utilizan los datos
histricos. La meta es estudiar lo que ocurri en el pasado para entender mejor
la estructura fundamental de los datos y proporcionar los medios necesarios
para predecir los sucesos futuros.
Los mtodos de pronstico cuantitativos se dividen en dos tipos: series de
tiempo y causales.
Los mtodos de pronstico de series de tiempo implican la
proyeccin de los valores futuros de una variable basada por completo en las
observaciones pasadas y presentes de esa variable.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

239

Series de tiempo. Una serie de tiempo es un conjunto de valores


numricos obtenidos en periodos iguales en el tiempo

Los mtodos de pronstico causales comprenden la determinacin de


factores relacionados con la variable que se predice, e incluyen anlisis con
variables retrasadas, modelado economtrico, anlisis de indicador lder, ndice
de difusin y otros medidores econmicos ms all del alcance de este libro. La
figura 5.1 representa una perspectiva de los mtodos de pronstico.

Series de tiempo

Figura 5.1 Clasificacin de los mtodos de pronsticos


Mtodo de pronostico

Cuantitativo
s

Causales

Cualitativos

Serietemporal

Suavizamiento

Proyeccin de tendencia
Proyeccin de tendencia ajustada por
influencia estacional

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

240

CAPTULO 5 Series de tiempo

5.1. Modelo clsico de series de tiempo


La suposicin fundamental del anlisis de series de tiempo es que los factores
que han influido en los patrones de actividad en el pasado y el presente
tendrn ms o menos la misma influencia en lo futuro. Entonces

la meta

principal del anlisis de series de tiempo es: identificar y aislar estos factores
de influencia con el fin de realizar predicciones (pronosticar), as como fines
administrativos de planeacin y control.
Para conseguir estas metas, se han desarrollado muchos modelos
matemticos que exploran las fluctuaciones entre los factores que componen
una serie de tiempo. Tal vez el ms esencial sea el modelo multiplicativo
clsico para datos registrados cada ao, trimestre o mes. En principio, el
modelo multiplicativo clsico se usar para pronosticar. Otras aplicaciones
incluyen un anlisis detallado de los componentes particulares mediante la
descomposicin de las series de tiempo. Por ejemplo, con frecuencia los
economistas estudian una serie de tiempo anual, trimestral o mensual para
filtrar el componente cclico y evaluar su movimiento respecto a la actividad
econmica general. No obstante, las aplicaciones de la descomposicin de una
serie de tiempo estn fuera de los objetivos de este libro.
Para exponer el modelo multiplicativo clsico de series de tiempo, en la figura
5.2 se presentan los ingresos brutos reales de Eastman Kodak Company de
1975 a 1998. Si se intenta observar las caractersticas de esta serie de tiempo,
es evidente que los ingresos reales muestran una propensin a aumentar en
este periodo de 24 aos. Esta inclinacin global a largo plazo o impresin de un
movimiento hacia arriba o hacia abajo se conoce como tendencia
Figura 5.2 Grfica de ingresos netos reales (en miles de millones de dlares)
de Eastman Kodak Company (1975-1998)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

241

Sin embargo, la tendencia no es el nico factor componente que influye en


estos datos en particular o en otra serie de tiempo anual. Otros dos factores, el
componente cclico y el componente irregular, estn presentes en los datos.
El componente cclico describe la oscilacin o movimiento hacia arriba
o hacia abajo en una serie de tiempo. Los movimientos cclicos varan en
longitud, en general, duran de 2 a 10 aos; difieren en intensidad o amplitud, y
a menudo se relacionan con los ciclos de los negocios. En algunos aos los
valores sern ms altos que los pronosticados por una sencilla recta de
tendencia lineal (es decir, se encuentran en o cerca de un pico) de un ciclo); en
otros aos los valores sern menores que el pronstico de una recta de
tendencia (esto es, estn en o cerca del fondo o depresin de un ciclo).
Cualquier dato observado que no siga la tendencia curva modificada por el
componente cclico es un indicio del componente aleatorio o irregular.
Cuando los datos se registran por mes o trimestre, se considera un
componente adicional llamado factor estacional junto con los componentes de
tendencia, cclico e irregular.
Los tres o cuatro componentes que influyen en una serie de tiempo
econmica o de negocios se resumen en la tabla 5.1. El modelo multiplicativo
clsico de series de tiempo establece que todo valor observado en una serie de
tiempo es el producto de estos factores de influencia; es decir, cuando los datos

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

242

CAPTULO 5 Series de tiempo

se obtienen cada ao, una observacin

registrada en el ao

se puede

expresar por la ecuacin (5.1)


Modelo multiplicativo clsico de series de tiempo para datos
anuales
(5.1)
donde, en el ao i
= valor del componente de tendencia
= valor del componente cclico
= valor del componente irregular

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Modelo clsico

143

Cuando los datos se obtienen por trimestre o por mes, una observacin
registrada en el periodo puede estar dada por la ecuacin (5.2)
Modelo multiplicativo clsico de series de tiempo para
datos con
Componente estacional
(5.2)
donde
=
componente

de

valores

respectivos

tendencia,

del

cclico e

Tabla 5.1
Factores
que

irregular en el

influyen

periodo

en

= valor del componente estacional en el periodo

datos

de series
de tiempo.

Componente

Clasificaci

Definicin

Tendencias

componente
Sistemtico Patrn

Razn de la

del

influencia
de

Cambios

movimiento
global

Sistemtico largo

poblacin,
riqueza,

plazo

Valores.

hacia arriba o

Sistemtico o menos regular costumbres


ocurre

de

Condiciones de datos

Fluctuacin ms clima,
que

Dentro

12 meses (o

hacia abajo.
Cclico

en Varios aos

tecnologa,

persistente, a
Estacional

Duracin

en sociales

menstruales
o
y trimestrales)

cada periodo de religiosas.

. De 2 a 10

12 meses cada

aos

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

con
Biol.

244

CAPTULO 5 Series de tiempo

ao.

Interaccin de

Oscilacin

o numerosas

movimiento
Irregular

intensidad

combinacione

en el

No

repetitivo arriba o s de factores

sistemtico

abajo en cuatro 4 que


etapas;

diferente

ciclo completo

influyen

en

la

pico(prosperidad) economa
,

contraccin

Corta duracin

(recesin), fondo

sin

(depresin)

y Variaciones

repeticin.

expansin

aleatorias

(recuperacin)

los

Fluctuacin

debidas

errtica o residual eventos

no

en

datos

en una serie que previstos como


est

presente huelgas,

despus de tomar huracanes,


en

cuenta

los inundaciones,

efectos
sistemticos

asesinatos
(de polticos, tec.

tendencia,
estacional

cclica)

5.2. Anlisis de fluctuaciones


El primer paso en un anlisis de series de tiempo, consiste en graficar los datos
y observar sus tendencias en el tiempo. Primero debe determinarse si parece
haber un movimiento hacia arriba o hacia abajo a largo plazo en la serie (una
tendencia) o si la serie parece oscilar alrededor de una recta horizontal en el
tiempo. En este caso (es decir, no hay tendencia positiva o negativa a largo
plazo), puede emplearse el mtodo de promedios mviles o el de suavizacin
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

exponencial para emparejar la serie y proporcionar un panorama global a


largo plazo. Por otro lado, si de hecho existe una tendencia, se pueden aplicar
varios mtodos de pronstico de series de tiempo al manejar datos anuales, y
otro mtodo para los datos de series de tiempo mensual o trimestral.
El patrn o comportamiento de los datos en una serie de tiempo tiene diversos
componentes. El supuesto usual es que se combinan cuatro componentes
separados: la tendencia, el cclico, el estacional y el irregular para definir
valores especficos de la serie de tiempo. Examinaremos cada uno de estos
componentes.
El grfico de la serie permitir:
a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal.
Un outliers es una observacin de la serie que corresponde a un
comportamiento anormal del fenmeno (sin incidencias futuras) o a un error de
medicin. Se debe determinar desde fuera si un punto dado es outlier o no. Si
se concluye que lo es, se debe omitir o reemplazar por otro valor antes de
analizar la serie.

Por ejemplo, en un estudio de la produccin diaria en una fbrica se


present la siguiente situacin ver figura 5.3:

Figura 5.3 Produccin diaria

Los dos puntos enmarcados en una flecha parecen corresponder a un


comportamiento anormal de la serie. Al investigar estos dos puntos se vio que
correspondan a dos das de paro, lo que naturalmente afect la produccin en
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

246

CAPTULO 5 Series de tiempo

esos das.

El problema fue solucionado eliminando las observaciones e

interpolando.
b) Permite detectar tendencia: la tendencia representa el comportamiento
predominante de la serie. Esta puede ser definida vagamente como el cambio
de la media a lo largo de un periodo.

c) Variacin estacional: la variacin estacional representa un movimiento


peridico de la serie de tiempo.

La duracin de la unidad del periodo es

generalmente menor que un


Anlisis
de fluctuaciones

145

ao. Puede ser un trimestre, un mes o un da, etc.


Matemticamente, podemos decir que la serie representa variacin
estacional si existe un nmero s tal que x(t) = x(t + ks).
Las principales fuerzas que causan una variacin estacional son las
condiciones del tiempo, como por ejemplo:
1) en invierno las ventas de
helado 2) en verano la venta
de lana 3) exportacin de fruta
en marzo.
Todos estos fenmenos presentan un comportamiento estacional (anual,
semanal, etc.)
d) Variaciones irregulares (componente aleatoria): los movimientos irregulares
(al azar) representan todos los tipos de movimientos de una serie de tiempo
que no sea tendencia, variaciones estacionales y fluctuaciones cclicas.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Un modelo clsico para una serie de tiempo, supone que una serie
x(1), ..., x(n) puede ser expresada como suma o producto de tres componentes:
tendencia, estacionalidad y un trmino de error aleatorio.
Existen tres modelos de series de tiempos, que generalmente se aceptan
como buenas aproximaciones a las verdaderas relaciones, entre los
componentes de los datos observados. Estos son:
1. Aditivo: X(t) = T(t) + E(t) + A(t)
2. Multiplicativo: X(t) = T(t) E(t) A(t)
3. Mixto: X(t) = T(t) E(t) + A(t)
donde:
X(t) serie observada en instante t
T(t) componente de tendencia
E(t) componente estacional
A(t) componente aleatoria (accidental)

Una suposicin usual es que A(t) sea una componente aleatoria o ruido
blanco con media cero y varianza constante.
Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no
depende de otras componentes, como T(t), s por el contrario la estacionalidad
vara con la tendencia, el modelo ms adecuado es un modelo multiplicativo
(2). Es claro que el modelo 2 puede ser transformado en aditivo, tomando
logaritmos.

El problema que se presenta, es modelar adecuadamente las

componentes de la serie.
5.3. Anlisis de tendencia

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

248

CAPTULO 5 Series de tiempo

En el anlisis de serie de tiempo, las mediciones pueden efectuarse cada hora,


da, semana, mes o ao o en cualquier otro intervalo regular peridico. Aunque
los datos de serie de tiempo presentan, por lo general, fluctuaciones aleatorias,
esta serie puede mostrar tambin desplazamientos o movimientos graduales
hacia valores relativamente mayores o menores a lo largo de un lapso
importante de tiempo. El desplazamiento gradual de la serie de tiempo se llama
tendencia de esa serie; este desplazamiento o tendencia es, por lo comn, el
resultado de factores a largo plazo, como cambios en la poblacin,
caractersticas demogrficas de la misma, la tecnologa y/o las preferencias del
consumidor.
Por ejemplo, un fabricante de bicicletas podra detectar cierta variabilidad, de
ao a ao, en la cantidad de bicicletas vendidas. Sin embargo, al revisar las
ventas durante los ltimos 10 aos, puede encontrar que hay un aumento
gradual en el volumen anual de ventas. Suponga que sus ventas fueron:
Ao

Ventas

9
10
21,6 22,9

(miles)

29,7 28,6 31,4

25,5

4
21,9

5
23,9

27,5

31,5

Este crecimiento anual de las ventas a travs del tiempo muestra una
tendencia creciente de la serie de tiempo. La figura 5.4 presenta una recta que
puede ser una buena aproximacin a la tendencia de las ventas de bicicletas.
Aunque esa tendencia parece ser lineal y aumentar con el tiempo a veces, en
una serie de tiempo, la tendencia se puede describir mejor mediante otros
patrones.
Figura 5.4 Tendencia lineal de las ventas de bicicletas

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

35
30
25
Venta (miles
20 )
15
10

Ao

5
0
0

10

12

Si al graficar nuestros datos observamos de manera clara la tendencia


lineal a largo plazo (no importando si es positiva o negativa), entonces
estaremos en la posicin de pronosticar con un buen nivel de confianza, con
alguno de los mtodos que se indicaran ms adelante.
La figura 5.5 muestra otros patrones posibles de tendencia. La seccin
A representa una tendencia no lineal; en este caso, la serie de tiempo crece
poco al principio; luego tiene un crecimiento rpido y, finalmente, se nivela.
Anlisi
s de tendencia

Esa tendencia podra ser una buena aproximacin de las ventas de un


producto, desde su introduccin, pasando por un periodo de crecimiento y
llegando a una etapa de saturacin del mercado. La tendencia lineal
decreciente en la seccin B se aplica a una serie de tiempo que tenga una
disminucin continua a travs del tiempo. La recta horizontal de la seccin C
representa una serie de tiempo que no tiene aumento o disminucin
consistentes a travs del tiempo y que, en consecuencia, no tiene tendencia.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

250

CAPTULO 5 Series de tiempo

Figura 5.5 Ejemplos de algunos posibles patrones de tendencia en series de


tiempo

C
5.4. Anlisis de variaciones cclicas
Aunque una serie de tiempo puede presentar una tendencia a travs de
periodos grandes, sus valores no caern con exactitud sobre la lnea de
tendencia. De hecho, con frecuencia estas series temporales presentan
secuencias alternas de puntos abajo y arriba de la lnea de tendencia. Toda
secuencia recurrente de puntos arriba y debajo de la lnea de tendencia, que
dura ms de un ao, se puede atribuir a un componente cclico de la serie. La
figura 5.6 es la grfica de una serie de tiempo con un componente cclico obvio.
Las observaciones se hicieron con intervalos de un ao.
Figura 5.6 Componente de tendencia y cclico de una serie de tiempo con datos
anuales

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Los ciclos aparecen como series de


Observaciones sobre y debajo
de la lnea de tendencia

o
l
u
m
n
Tiempo

Lnea de
tendencia

Muchas series se tiempo presentan comportamiento cclico con tramos


regulares de observaciones abajo y arriba de la lnea de tendencia. En general,
este comportamiento de la serie se debe a movimientos cclicos de la economa
a travs de varios aos. Por ejemplo, los periodos de inflacin moderada
seguidos de periodos de inflacin rpida pueden determinar series de tiempo
que se alternan abajo y arriba de una lnea de tendencia ascendente en general
(como la serie de tiempo de los costos de vivienda). Diversas series de tiempo
de principios de la dcada de los ochenta presentaron este comportamiento

5.5. Medicin de variaciones estacionales e irregulares


Mientras que la tendencia y los componentes cclicos de una serie de tiempo se
identifican analizando los movimientos de datos histricos a travs de varios
aos, hay muchas series de tiempo que muestran un patrn regular dentro de
un periodo de un ao. Por ejemplo, un fabricante de albercas inflables espera
poca actividad de ventas durante los meses de otoo e invierno, y ventas
mximas en los de primavera y verano. Los fabricantes de equipo para la nieve
y de ropa de abrigo esperan un comportamiento anual opuesto al del fabricante
de albercas. No es de sorprender que el componente de la serie de tiempo que
representa la variabilidad en los datos, debida a influencias de las estaciones,
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

252

CAPTULO 5 Series de tiempo

se llama componente estacional. Aunque uno suele imaginarse que un


movimiento estacional de una serie de tiempo sucede dentro de un ao,
tambin se puede usar para representar cualquier patrn regularmente
repetitivo cuya duracin sea menor de un ao. Por ejemplo, los datos diarios de
intensidad de trfico muestran un comportamiento estacional dentro del
mismo da, as se tiene que el flujo mximo se presenta durante las horas de
aglomeracin, el moderado durante el resto del da y al caer la noche, y el
mnimo a partir de la medianoche hasta temprano por la maana.
El componente irregular de la serie de tiempo es el factor residual, mil
usos, que explica las desviaciones de la serie de tiempo real respecto a los
factores determinados por los efectos de la tendencia y los componentes
cclicos y estacionales. Se debe a factores a corto plazo, imprevisibles y no
recurrentes que afecta a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible; de esta manera, no se puede
esperar predecir su impacto sobre la serie de tiempo

5.6. Aplicacin de ajustes estacionales


Una aplicacin frecuente de ndices estacionales es la de ajustar datos
de serie de tiempo observados para eliminar la influencia del componente
estacional en ellos; se llaman datos con ajuste estacional. Los ajustes
estacionales son particularmente pertinentes cuando se desea comparar datos
de diferentes meses para determinar si ha tenido lugar un incremento (o
decremento) en relacin con las expectativas estacionales. Los valores de serie
de tiempo mensuales (o trimestrales) observados se ajustan respecto de la
influencia estacional dividiendo cada valor entre el ndice mensual (o trimestral)
de ese mes. El resultado se multiplica luego por 100 para mantener la posicin
decimal de los datos originales. La serie que resultante se llama ventas
desestacionalizadas o ventas ajustadas estacionalmente.
La razn para desestacionalizar las series de ventas es similar las
fluctuaciones estacinales a fin de estudiar la tendencia y el ciclo. Para ilustrar
el procedimiento, los totales trimestrales de ventas de la empresa

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Tabla 5.2 Ajuste para datos trimestrales

A fin de eliminar el efecto de la variacin estacional, la cantidad


estacional, la cantidad de ventas para cada trimestre (que contiene efectos de
tendencia, cclicos, irregulares y estacinales) se divide entre el ndice
estacional de ese trimestre; esto es, TSCI/S.
Por ejemplo, las ventas reales para el primer trimestre de 1996 fueron
6.7 millones de dlares, el ndice estacional par el trimestre de invierno es 76.5
el ndice 76.5 indica que las ventas en el primer trimestre normalmente se
encuentran 23.5% abajo del promedio de un trimestre normal. Dividiendo las
ventas reales $6.7 millones entre 76.5 y multiplicando el resultado por 100 se
encuentra el valor de las ventas desestacionalizadas del primer trimestre de
1996. El valor es $8758170 que se obtuvo de ($6700000/76.5)100.
Este proceso se repite con los dems trimestres en la columna 3 de la
tabla 5.2 y los resultados se dan en millones de dlares. Puesto que la
componente estacionalizadas contiene solo las componentes de tendencia (T),
ciclo e irregular (I). Al revisar las ventas desestacionalizadas. Es claro que la
eliminacin del factor estacional permite considerar la tendencia general a largo
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

254

CAPTULO 5 Series de tiempo

plazo de las ventas. Tambin se podr determinar la ecuacin de regresin de


los datos de tendencia y usarla para pronosticar ventas futuras.
5.7. Pronsticos basados en factores de tendencia y estacionales.
Como lo indicamos anteriormente el primer pas en un anlisis de series de
tiempo, consiste en graficar los datos y observar sus tendencias en el tiempo.
Primero debe determinarse si parece haber un movimiento hacia arriba o hacia
abajo a largo plazo en la serie (una tendencia) o si la serie parece oscilar
alrededor de una recta horizontal en el tiempo. En este caso (es decir, no hay
tendencia positiva o negativa a largo plazo), se recomienda antes de aplicar
alguno de los mtodos de pronostico suavizar nuestros datos a fin de que la
tendencia se observe de manera clara.
Los mtodos que

pueden emplearse

para suavizar nuestros datos

usualmente son:
a) El mtodo de promedios mviles

b) El mtodo de suavizacin

exponencial
El objetivo de ambos mtodos es el de emparejar la serie y proporcionar
un panorama global a largo plazo. Por otro lado, si de hecho existe una
tendencia, se pueden aplicar varios mtodos de pronstico de series de tiempo
al manejar datos anuales, y otro mtodo para los datos de series de tiempo
mensual o trimestral, los cuales se vern posteriormente.

Suavizacin de una serie de tiempo anual


La tabla 5.3 presenta las ventas mundiales de una fbrica (en millones de
unidades) de automviles, camiones y autobuses hechos por General Motors
Corporation (GM). Para un periodo de 24 aos, de 1975 a 1998, y la figura 5.7
es una grfica de serie de tiempo de estos datos. Al examinar este tipo de
datos anuales, la impresin visual de las tendencias globales a largo plazo o
movimientos de tendencia en la serie quedan veladas por la cantidad de

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

variacin de un ao a otro. Entonces se vuelve difcil juzgar si en esta serie en


realidad existe un efecto de tendencia positivo o negativo a largo plazo.
Tabla 5.3 Ventas de fbrica (en millones de unidades) Para la General Motors
Corporation (1975-1998)
A

Ventas de

o
fbrica
197
6.6

Ventas de

Ventas de

o
fbrica
198
7.8

fbrica
19

7.4

8.3

91
19

7.7

5
197

8.6

3
198

6
197

9.1

4
198

9.3

92
19

7.8

7
197

9.5

5
198

8.6

93
19

8.4

8
197

9.0

6
198

7.8

94
19

8.3

9
198

7.1

7
198

8.1

95
19

8.4

6.8

8
198

7.9

96
19

8.8

6.2

9
199

7.5

97
19

8.1

0
198
1
198
2

98

En situaciones como stas, se pueden usar el mtodo de promedios mviles


o la suavizacin exponencial para suavizar o emparejar la serie de tiempo y
proporcionar un panorama global del patrn de movimiento de los datos en el
tiempo.

Figura 5.7 Grfica de las ventas de fbrica (en


millones de unidades)

Para la General

Motors Corporation (1975-1998)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

256

CAPTULO 5 Series de tiempo

Ventas de fabrica para General Motors


10
8

Unidades (millones)
6
4
2
0
1970

1980

1990

2000

Ao

Promedios mviles
El mtodo de promedios mviles para suavizar una serie de tiempo es muy
subjetivo y dependiente de L, la longitud del periodo seleccionado para calcular
los promedios. Para eliminar las fluctuaciones cclicas, el periodo elegido debe
ser un valor entero que corresponda a (o sea mltiplo de) la longitud promedio
estimada de un ciclo en una serie. Los promedios mviles para un promedio
determinado de longitud L consiste en una serie de promedios aritmticos en el
tiempo tales que cada uno se calcula a partir de una secuencia de L valores
observados. Estos promedios mviles se representan por el smbolo PM (L)
A manera de ejemplo, suponga que se desea calcular promedios mviles de 5
aos de una serie que contiene n = 11 aos. Como L = 5, los promedios
mviles de 5 aos consisten en una serie de medidas obtenidas en el tiempo al
promediar secuencias consecutivas de cinco valores observados. El primer
promedio mvil de 5 aos se calcula con la suma de los valores para los
primeros 5 aos en la serie, dividida entre 5.

PM (5) = Y1Y2Y3Y4Y5
5

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

El segundo promedio mvil de 5 aos se calcula con la suma de los valores de


los aos 2 a 6 en la serie, dividida entre 5
PM (5) = Y2Y3Y4 Y5Y6
5
Este proceso contina hasta calcular el ltimo promedio mvil de 5 aos con la
suma de los valores de los ltimos 5 aos en la serie (aos del 7 al 11), dividida
entre 5.

PM (5) = Y7 Y8Y9 Y10Y11


5
Cuando se trata de una serie de tiempo anual, L, la longitud del periodo
elegido para construir los promedios mviles, debe ser un nmero de aos
impar. Al seguir esta regla se observa que no se pueden obtener promedios
mviles para los primeros (L 1)/2 aos o los ltimos (L -1)/2 aos en la serie.
Entonces, para un promedio mvil de 5 aos, no es posible hacer clculos para
los primeros 2 aos o los ltimos 2 aos de la serie.
Al graficar los promedios mviles, cada valor calculado se coloca en el ao a la
mitad de la secuencia de aos usada para calcularlos. Si n = 11 y L = 5, el
primer promedio mvil se centra en el tercer ao, el segundo promedio mvil se
centra en el cuarto ao y el ltimo en el noveno ao. Esto se ilustra en el
siguiente ejemplo:
Suponga que los siguientes datos representan los ingresos totales (en millones
de dlares constantes de 1995) de una agencia donde se rentan automviles,
en un intervalo de 11 aos de 1987 a 1997:
4.0

5.0

7.0

6.0

8.0

9.0

5.0

2.0

3.5

5.5

6.5

Calcule los promedios mviles de 5 aos para esta serie de tiempo anual.
Solucin
El primer promedio mvil de 5 aos es
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

258

CAPTULO 5 Series de tiempo

4.
PM (5) = 6.0
Es decir, para calcular un promedio mvil de 5 aos, primero se obtiene la
suma de los cinco aos y se divide entre 5. Despus el promedio se centra en
el valor medio, el tercer ao de esta serie de tiempo. Los siguientes valores
quedan de la siguiente manera:

5.
PM (5) = 7.0

7.
PM (5) = 7.0

6.
PM (5) = 6.0

8.
PM (5) = 5.5

9.
PM (5) = 5.0

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

5.
PM (5) = 4.5
Estos promedios mviles se centran en sus respectivos valores medios, el
quinto, sexto y sptimo aos de la serie de tiempo. Se observa que al obtener
promedios mviles de 5 aos, no se pueden calcular los valores para los
primeros dos y los ltimos dos valores de la serie de tiempo.
En la prctica, al obtener promedios mviles se debe usar un programa de
computadora como Microsoft Excel o Minitab para evitar los clculos tediosos.
La tabla 5.4 y 5.5 presenta las ventas anuales de la fbrica (General Motors)
que ampara el periodo de 24 aos de 1975 a 1998 junto con los clculos para
los promedios mviles de 3 y 7 aos. La grfica de las dos series construidas
se presenta en la figura 5.8 y 5.9 con los datos originales.
Se observa en la tabla 5.4 que al obtener los promedios mviles de 3 aos, no
se pueden calcular valores para el primero o el ltimo valor en la serie de
tiempo.
Tabla 5.4 promedios mviles de 3 y 7 aos obtenida con Microsoft
Excel
Ao

Ventas PM 3 aos PM 7 aos

1975

6,6

#N/A #N/A

1976

8,6

8,1

1977

9,1

9,06666667 #N/A

1978

9,5

9,2

1979

8,53333333 8,04285714

1980

7,1

7,63333333 7,92857143

1981

6,8

6,7

1982

6,2

6,93333333 7,78571429

1983

7,8

7,43333333 7,72857143

1984

8,3

8,46666667 7,82857143

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

#N/A
8,1

7,81428571

Biol.

260

CAPTULO 5 Series de tiempo


1985

9,3

8,73333333 8,01428571

1986

8,6

8,56666667 8,25714286

1987

7,8

8,16666667 8,21428571

1988

8,1

7,93333333 8,08571429

1989

7,9

7,83333333 7,85714286

1990

7,5

7,6

1991

7,4

7,53333333 7,82857143

1992

7,7

7,63333333 7,85714286

1993

7,8

7,96666667 7,92857143

1994

8,4

8,16666667 8,11428571

1995

8,3

8,36666667 8,21428571

1996

8,4

8,5

1997

8,8

8,43333333 #N/A

1998

8,1

#N/A #N/A

7,74285714

#N/A

Figura 5.8 Grfica de promedios mviles de 3 y 7 ao

Tabla 5.5 promedios mviles de 3 y 7 aos obtenida con


Minitab
Tiempo Ventas MA 3 aos MA 7 aos
1975

6,6

1976

8,6 8,10000

1977

9,1 9,06667

1978

9,5 9,20000 8,10000

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

1979

9,0 8,53333 8,04286

1980

7,1 7,63333 7,92857

1981

6,8 6,70000 7,81429

1982

6,2 6,93333 7,78571

1983

7,8 7,43333 7,72857

1984

8,3 8,46667 7,82857

1985

9,3 8,73333 8,01429

1986

8,6 8,56667 8,25714

1987

7,8 8,16667 8,21429

1988

8,1 7,93333 8,08571

1989

7,9 7,83333 7,85714

1990

7,5 7,60000 7,74286

1991

7,4 7,53333 7,82857

1992

7,7 7,63333 7,85714

1993

7,8 7,96667 7,92857

1994

8,4 8,16667 8,11429

1995

8,3 8,36667 8,21429

1996

8,4 8,50000

1997

8,8 8,43333

1998

8,1

Figura 5.9 Grfica de promedios mviles de 3 y 7 aos en Minitab

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

262

CAPTULO 5 Series de tiempo

Suavizacin exponencial
La suavizacin exponencial es otra tcnica que se usa para alisar una serie de
tiempo y proporcionar una visualizacin global de los movimientos a largo plazo
de los datos. Adems, se puede usar el mtodo de suavizacin exponencial
para obtener pronsticos a corto plazo (un periodo futuro) para series de
tiempo.
El mtodo de suavizacin exponencial obtiene su nombre del hecho de que
proporciona un promedio mvil con ponderacin exponencial a travs de la
serie de tiempo. En toda la serie, cada clculo de suavizacin o pronstico
depende de todos los valores observados anteriores. sta es otra ventaja
respecto al mtodo de pronsticos mviles, que no toma en cuenta todos los
valores observados de esta manera. Con la suavizacin exponencial, los pesos
asignados a los valores observados decrecen en el tiempo, de manera que al
hacer un clculo, el valor observado ms reciente recibe el peso ms alto, el
valor observado anterior tiene el siguiente peso ms alto, y as sucesivamente,
por lo que el valor observado inicial tiene la menor ponderacin. Aunque la
magnitud de los clculos involucrados puede parecer enorme, la suavizacin
exponencial al igual que los mtodos de promedios mviles est disponible
entre los procedimientos de Microsoft Excel y Minitab.
Si se centra la atencin en los aspectos de suavizacin de la tcnica (ms que
en el aspecto del pronstico), las frmulas desarrolladas para suavizar
exponencialmente una serie en un periodo dado i se basa en slo tres
trminos: el valor observado actual en la serie de tiempo

, valor con

suavizacin exponencial calculado anterior Ei1 y un peso subjetivo asignado o


coeficiente de suavizacin W. As, para alisar una serie en cualquier periodo ,
se tiene la siguiente expresin.
Obtencin de un valor que tiene suavizacin exponencial en el periodo

donde
EI = valor de la serie suavizada exponencialmente que se calcula en el
periodo
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

EI

= valor de la serie suavizada exponencialmente que se calcula en el

periodo 1
Yi = valor observado de la serie de tiempo en el periodo
W = peso subjetivo asignado o coeficiente de suavizacin (donde 0 <
W < 1) E1 = Y1
La eleccin del coeficiente de suavizacin o peso que se asigna a la serie de
tiempo es crtica porque afectar en forma directa los resultados. Es
desafortunado que esta seleccin sea subjetiva. Si se desea slo suavizar una
serie con la eliminacin de la variacin cclica y la irregular, debe elegirse un
valor pequeo para W (cercano a 0). Por otro lado, si la meta es pronosticar,
debe elegirse un valor grande para W (ms cercano a 1). En el primer caso, se
podrn observar las tendencias globales a largo plazo de la serie; en el ltimo
caso, es posible predecir direcciones futuras a corto plazo de manera ms
adecuada.
Los clculos de la suavizacin exponencial se ilustra para un coeficiente
de suavizacin de W = 0.25. Como punto de partida, se utiliza el valor
observado inicial
(tabla 5.3),

Y1975 = 6.6 como el primer valor de suavizacin (E 1975 = 6.6)

Despus, con el valor observado de la serie de tiempo para el ao 1976 (Y 1976 =


8.6), se suaviza la serie para el ao de 1976 con el clculo

E i WYi (1W)Ei 1
E1976 = WY1976 + (1 W)E1975 = (0.25)(8.6) + (0.75)(6.6) = 7.10 millones
E1977 = WY1977 + (1 W)E1976 = (0.25)(9.1) + (0.75)(7.1) = 7.6
E1978 = WY1978 + (1 W)E1977 = (0.25)(9.5) + (0.75)(7.6) = 8.08
Este proceso contina hasta obtener los valores de la suavizacin
exponencial para los 24 aos en la serie de las ventas anuales de la fbrica
(General Motors), como se muestra en la tabla 5.6 y 5.7, y las figuras 5.10 y
5.11

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

264

CAPTULO 5 Series de tiempo

Tabla 5.6 Serie suavizada exponencialmente de


las ventas de GM

obtenida con

Microsoft Excel
SE
Ao

Ventas

(W=0.25)

SE
(W=0.50)

1975

6,

6,6 6,6

1976

6
8,

7,1 7,6

1977

6
9,

7,6 8,35

1978

1
9,
5

1979

8,07

5
9 8,30625

8,925
8,9625

1980

7,

8,00468

8,03125

1981

1
6,

75
7,703515

7,415625

1982

8
6,

63
7,327636

6,80781

1983

2
7,

72
7,445727

25
7,303906

1984

8
8,

54
7,659295

25
7,801953

1985

3
9,

65
8,069471

13
8,550976

1986

3
8,

74
8,202103

56
8,575488

1987

6
7,

81
8,101577

28
8,187744

1988

8
8,

85
8,101183

14
8,143872

1989

1
7,

39
8,050887

07
8,021936

1990

9
7,

54
7,913165

04
7,760968

1991

5
7,

66
7,784874

02
7,580484

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

1992

4
7,

24
7,763655

01
7,640242

1993

7
7,

68
7,772741

7,720121

1994

8
8,

76
7,929556

8,06006

1995

4
8,

32
8,022167

05
8,180030

1996

3
8,

24
8,116625

25
8,290015

1997

4
8,

43
8,287469

13
8,545007

8
1998

07
8,1

56

Figura 5.10 Grfica de una serie suavizada


exponencialmente

(W = 0.50 y W =

0.25) para las ventas de GM

Tabla 5.7 Serie suavizada exponencialmente de


las ventas de GM
Ao

obtenida con Minitab


Ventas

Suavizar 0,25

1975

6,6

6,60000

1976

8,6

6,60000
7,10000

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Suavizar 0,50

Biol.

266

CAPTULO 5 Series de tiempo

1977

9,1

7,60000
7,60000

1978
1979
1980

9,5
9,0
7,1

8,35000
8,07500
8,30625
8,00469

1981

6,8

8,03125
7,70352

1982

6,2

7,41563
7,32764

1983
1984

7,8
8,3

6,80781
7,44573
7,65930

1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998

9,3
8,6
7,8
8,1
7,9
7,5
7,4
7,7
7,8
8,4
8,3
8,4
8,8
8,1

7,80195
8,06947
8,20210
8,10158
8,10118
8,05089
7,91317
7,78487
7,76366
7,77274
7,92956
8,02217
8,11663
8,28747
8,24060

8,92500
8,96250

7,30391

8,55098
8,57549
8,18774
8,14387
8,02194
7,76097
7,58048
7,64024
7,72012
8,06006
8,18003
8,29002
8,54501
8,32250

Figura 5.11 Grfica de una serie suavizada exponencialmente (W = 0.50 y W


= 0.25) para las ventas de GM en Minitab

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Proyeccin de tendencias
Para pronosticar una serie de tiempo que tiene una tendencia lineal a largo
plazo. El tipo de serie de tiempo para el cual se aplica el mtodo de proyeccin
de tendencias presenta un aumento o disminucin consistentes a travs del
tiempo; y no es estable como para aplicar los mtodos de suavizamiento
analizados en la seccin anterior.
Veamos la serie de tiempo de ventas de bicicletas de determinado fabricante
durante los ltimos 10 aos, que se muestran en la tabla 5.8 y en la figura 5.12.
Observe que en el primer ao se vendieron 21 600 bicicletas, en el segundo,
22 900, y as sucesivamente. En el dcimo ao, el ms reciente, se vendieron
31 400 bicicletas. Aunque la figura 5.12 muestra algo de movimiento hacia
arriba y hacia abajo durante los 10 aos, parece que la serie de tiempo tiene
una tendencia general de aumento o crecimiento
Tabla 5.8 Serie de tiempo de venta de bicicletas
A Venta
o

(t)

(miles
)

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

268

CAPTULO 5 Series de tiempo

21,6

22,9

25,5

21,9

23,9

27,5

31,5

29,7

28,6

10

31,4

Figura 5.12 Serie de tiempo de venta de bicicletas

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

270

CAPTULO 5 Series de tiempo

p
En este caso no se trata de
que el componente de tendencia de una

serie de tiempo siga cada aumento y disminucin; ms bien ese componente


debe reflejar el desplazamiento gradual, que para este caso es el crecimiento,
de los valores de la serie de tiempo.
m

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

271

Proyeccin
i

de tendencias

Despus de examinar los datos de la serie de tiempo en la tabla 5.8 y en


la grfica de la figura 5.12r concordamos que con una tendencia lneas, como la
que muestra la figura 5.13, se obtiene una descripcin razonable del
movimiento en la serie a largo plazo.
e

Vamos a emplear los datos de ventas de bicicletas para ilustrar los clculos del
anlisis de regresin, a fin de identificar una tendencia lineal. Recuerde que en
la descripcin de la regresin lineal simple, describimos cmo se aplica el
mtodo de mnimos cuadrados
para determinar la mejor relacin lineal entre
s
dos variables; tal metodologa es la que usaremos para definir la lnea de
tendencia para la serie de tiempo de ventas de bicicletas. En forma especfica,
aplicaremos el anlisis de regresin para estimar la relacin entre el tiempo y el
volumen de ventas.
Figura 5.13 Tendencias de las ventas de bicicletas, representada por una
funcin lineal

La ecuacin de regresin que describe una relacin lineal entre una variable
independiente, , y una variable dependiente, , es
c

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez
i

Biol.

f 5 Series de tiempo
CAPTULO

272

Para enfatizar que el tiempo es la variable independiente en los


pronsticos, usaremos

lugar de

en la ecuacin en lugar de ; adems, usaremos

en

. As para una tendencia lineal, el volumen estimado de ventas,

expresado en funcin del tiempo, se puede escribir como sigue:


r

donde
= valor de la tendencia de la serie de tiempo en el periodo
= ordenada alGorigen e la lnea de tendencia
= pendiente de la lnea de tendencia
= tiempo
s
En
a esta ecuacin igualaremos
t
n
e

dato de la serie de tiempo,

= 1 para el tiempo en que se obtiene el primer


= 2 para el tiempo del segundo dato y as

sucesivamente.32
Observe
que, para la serie de tiempo de ventas de bicicletas,
30

= 1

correspondiente al valor ms antiguo de esa serie y = 10 al ms reciente.


28

v 26
Las frmulas
para calcular los coeficientes estimados de regresin,

, en la ecuacin
que se muestra a continuacin.
24
22
1

10

Ao

donde
= valor de la serie de tiempo en el periodo
= nmero de periodos
= valor promedio de la serie de tiempo,
= valor promedio de
Con las ecuaciones anteriores y los datos de las ventas de bicicletas de la tabla
5.8 podemos calcular

como sigue:
t

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

273

21,6 21,6

22,9 45,8

25,5 76,5

21,9 87,6

16

23,9 119,5 25

27,5 165,0 36

31,5 220,5 49

29,7 237,6 64

28,6 257,4 81

31,4 314,0 10

0
5

0
264, 1545, 38

Por consiguiente,

Proye
ccin de tendencias
Resumen de Excel donde
observamos

los

coeficientes
Estadsticas

de

la

regresin
Coeficiente de 0,87452616
correlacin

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

274

CAPTULO 5 Series de tiempo

mltiple
Coeficiente de 0,76479601
determinacin 6
R^2
R^2 ajustado 0,73539551
Error tpico

8
1,95895380

2
Observacione 10
s
ANLISIS DE
VARIANZA
Grados
libertad
Regresin

de Suma

de Promedio

cuadrados

de

99,825

cuadrados
99,825

los

de F
26,013029 0,00092950
3

Residuos
Total

8
9

30,7
130,525

Valor crtico

3,8375

Coeficientes Error tpico Estadstico t Probabilida Inferior 95%


Intercepcin
Ao

20,4

d
1,33822021 15,2441278 3,3999E-

1,1

1
6
07
6
0,21567371 5,10029698 0,0009295 0,60265552
5

17,3140586

Es la ecuacin del componente de tendencia lineal para la serie de


tiempo de ventas de bicicletas.
La pendiente 1,1 indica que, durante los ltimos 10 aos, la empresa ha
tenido un crecimiento promedio de ventas igual a 1100 unidades anuales,
aproximadamente. Si suponemos que la tendencia en los 10 aos pasados es
un buen indicador del futuro, aplicamos la ecuacin para proyectar el
componente de tendencia de la serie de tiempo. Por ejemplo, al sustituir

= 11

en esa ecuacin, se obtiene la proyeccin de tenencia para el ao prximo,

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

275

As slo con el componente de tendencia pronosticaramos ventas de 32


500 bicicletas para el prximo ao.
Utilice Microsoft Excel o Minitab para resolver los siguientes problemas
Ejercicios
1.- En la compaa Prez, los porcentajes mensuales de los embarques
recibidos durante los ltimos 12 meses fueron
80, 82, 84, 83, 83, 84, 85, 84, 82, 83, 84 y 83
a) Compare el pronstico con promedios mviles de tres meses con uno de
suavizamiento exponencial con

Con cul se obtienen mejores

pronsticos?
2.- La siguiente serie de tiempo representa las ventas de un producto durante
los ltimos 12 meses.
Mes
1 2
3
4 5 6 7
8
9 10 11 12
Ventas 10535 120 105 90 120 145 140 100 80 100 110
a) Use con

para calcular los valores de suavizamiento exponencial

de la serie de tiempo
b) Use una constante de suavizamiento igual a 0,5 para calcular los valores
de suavizamiento exponencial. Cul de las constantes 0,3 o 0,5, parece
producir los mejores pronsticos
3.- Los datos que siguen representan el nmero anual de empleados (en miles)
de una compaa petrolera para los aos 1978 a 1997.
Nmero de empleados (en miles)
Ao

Nmero

Ao

Nmero

Ao

Nmero

1978

1.45

1985

2.04

1992

1.65

1979

1.55

1986

2.06

1993

1.73

1980

1.61

1987

1.80

1994

1.88

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

276

CAPTULO 5 Series de tiempo

1981

1.60

1988

1.73

1995

2.00

1982

1.74

1989

1.77

1996

2.08

1983

1.92

1984

1990
1.95

1.90
1991

1997

1.88

1.82

a) Grafique los datos en un diagrama


b) Ajuste un promedio mvil de 3 aos a los datos y grafique los resultados en el
diagrama
c) Utilice un coeficiente de suavizacin W = 0.50, aplique la suavizacin
exponencial a la serie y grafique los resultados en el diagrama
4.- Los siguientes datos representan las ventas anuales (en millones de dlares)
de una compaa que procesa alimentos para los aos 1972 a 1997
Ventas anuales (millones de dlares)
Ao

Ventas

Ao

Ventas

Ao

Ventas

1972 41.6

1981

53.2

1990

36.4

1973 48.0

1982

53.3

1991

38.4

1974 51.7

1983

51.6

1992

42.6

1975 55.9

1984

49.0

1993

34.8

1976 51.8

1985

38.6

1994

28.4

1977 57.0

1986

37.3

1995

23.9

1978 64.4

1987

43.8

1996

27.8

1979 60.8
1980

1988
56.3

41.7
1989

1997

42.1

38.3

a) Grafique los datos en un diagrama


b) Ajuste un promedio mvil de 7 aos a los datos y grafique los resultados en el
diagrama

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

277

c) Utilice un coeficiente de suavizacin W = 0.25, aplique la suavizacin


exponencial a la serie y grafique los resultados en el diagrama
Ejercicios
5.- Los datos de inscripciones, en miles, en una universidad estatal durante los
ltimos seis aos son los siguientes:
Ao
Inscripci

1
20,5

18,8

2
3
4
5
6
20,2 19,5 19,0 19,1

Deduzca una ecuacin del componente de tendencia lineal en esta serie


de tiempo. Haga comentarios acerca de lo que sucede con la inscripcin en esta
institucin.
6.- Al final de la dcada de los noventa, muchas empresas trataron de reducir
su tamao para disminuir sus costos. Uno de los resultados de esas medidas
de recorte de costos fue una disminucin en el porcentaje de empleos
gerenciales en la industria privada. Los siguientes datos corresponden al
porcentaje de mujeres gerentes, de 1990 1 1995
Ao

1990

1991

1992

1993

1994

Porcentaj

1995
7,45

7,53

7,52

7,65

7,62

7,73

a) Deduzca una ecuacin de tendencia lineal para esta serie de tiempo.


b) Use la ecuacin de la tendencia para estimar el porcentaje de mujeres
gerentes para 1996 y 1997
7.- ACT Networks. Inc., desarrolla, fabrica y vende productos para acceso a
redes de banda ancha. Los siguientes datos son las ventas anuales de 1992 a
1997

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

278

CAPTULO 5 Series de tiempo

Ao

1992

1993

1994

1995

1996

Ventas

1997
5,4

6,2

12,7

20,6

28,4

(millones) 44,9
a) Deduzca una ecuacin de tendencia lineal para esta serie de tiempo
b) Cul es el aumento promedio de ventas anuales en esta empresa
c) Use la ecuacin de tendencia para pronosticar las ventas en 1998

Caso a resolver 1 Pronstico de ventas de alimentos y bebidas


El restaurante Vintage est en la isla Captiva, lugar de descanso cerca de Fort
Myers, Florida. El restaurante, cuya duea y operadora es Karen Payne, acaba
de completar su tercer ao de funcionamiento. Karen, durante ese lapso, ha
tratado de ganarse una reputacin como establecimiento de alta calidad que se
especializa en mariscos. Sus esfuerzos han tenido xito y su restaurante ha
llegado a ser uno de los mejores y de mayor crecimiento en la isla.
Karen ve que, para planear el crecimiento futuro del restaurante, necesita
desarrollar un sistema que le permita pronosticar las ventas de alimentos y
bebidas cada mes, hasta con un ao de anticipacin. Cuenta con los siguientes
datos sobre las ventas totales de alimentos y bebidas (en miles de dlares)
durante los tres aos de funcionamiento.
Mes

Primer

Segundo

Tercer

ao

ao

ao

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

279

Enero

242

263

282

Febrero

235

238

255

Marzo

232

247

265

Abril

178

193

205

Mayo

184

193

210

Junio

140

149

160

Julio

145

157

166

Agosto

152

161

174

Septiembr

110

122

126

130

130

148

Octubre

152

167

173

Noviembre 206

230

235

Diciembre
Analice los datos de ventas del restaurant. Prepare un informe a Karen que
contenga lo que encontr, sus pronsticos y recomendaciones. Dicho informe
debe incluir:
a) Una grfica de la serie de tiempo
b) Un anlisis de influencias estacionales sobre los datos. Indique los
ndices estacionales para cada mes y haga comentarios acerca de los
meses con ventas altas y bajas. Tiene sentido intuitivo esos ndices
estacionales? Describa por qu.
c) Un pronstico de ventas desde enero hasta diciembre del cuarto ao.
d) Recomendaciones sobre cundo se debe actualizar el sistema que ha
preparado, para tomar en cuenta nuevos datos de ventas
e) Todos los clculos detallados de su anlisis aparecen en el apndice de
su informe.
Suponga que las ventas en enero del cuarto ao fueron de 295 000 dlares.
Cul fue su error de pronstico? Si es grande, Karen se quedar confundida
por la diferencia entre su pronstico y el valor real de las ventas. Qu puede
hacer para resolver la incertidumbre en el procedimiento de pronstico?

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

280

CAPTULO 5 Series de tiempo

Caso a resolver 2 Pronstico de ventas perdidas


La tienda de departamentos Carlson sufri graves daos cuando pas un
huracn el 31 de agosto de 2000. Estuvo cerrada durante cuatro meses (de
septiembre a diciembre de 2000), y ahora tiene una dificultad con su
aseguradora acerca de la cantidad de ventas perdidas, mientras estuvo
cerrada. Se deben resolver dos asuntos clave: 1) la cantidad de ventas de
Carlson si no la hubiera daado el huracn, y 2) si Carlson tiene derecho a una
compensacin por ventas adicionales a causa de mayor actividad despus de
la tormenta. A su condado llegaron ms de 8000 millones de dlares en fondos
federales para desastres y seguros, lo cual ocasion un aumento en las ventas
de las tiendas de departamento y de muchos otros negocios.
La siguiente tabla muestra los datos del departamento de comercio de Estados
Unidos sobre las ventas totales durante los 48 meses anteriores a la tormenta,
en todas las tiendas de departamentos en el condado, y tambin las ventas
totales durante los cuatro meses en que Carlson estuvo cerrada. Los
administradores de Carlson le pidieron
Ejercicios
analizar estos datos y preparar estimados de las ventas perdidas en sus
almacenes durante los meses de septiembre a diciembre de 2000. Tambin le
pidieron determinar si es posible alegar exceso de ventas relacionado con el
huracn, durante el mismo periodo. Si se puede presentar ese argumento.
Carlson tiene derecho a compensaciones por exceso sobre las ventas
ordinarias.
Mes

199

199

199

199

200

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

281

Enero

1,45 2,31 2,31 2,56

Febrero

1,80 1,89 1,99 2,28

Marzo

2,03 2,02 2,42 2,69

Abril

1,99 2,23 2,45 2,48

Mayo

2,32 2,39 2,57 2,73

Junio

2,20 2,14 2,42 2,37

Julio

1,13 2,27 2,40 2,31

Agosto

2,43 2,21 2,50 2,23

Septiembr

1,71 1,90 1,89 2,09

1,90 2,13 2,29 2,54

Octubre

2,74 2,56 2,83 2,97

Noviembre 4,20 4,16 4,04 4,35


Diciembre
Prepare un informe a los gerentes de Carlson que resuma lo que
encontr, sus pronsticos y recomendaciones. ste debe incluir:
a) Un estimado de ventas si no hubiera habido huracn.
b) Un estimado de ventas en tiendas de departamentos de todo el
condado, si no

hubiera habido huracn

c) Un estimado de ventas perdidas de Carlson, de septiembre a


diciembre de 200

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

282

Apndice
Tablas

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

283

Distribucin T de Student
Grados

0,25

0,2

de

0,01

libertad
1

1,000

1,376

31,821

63,656

2,920

4,303

1,250

0,741

3,747

0,727

0,920

3,365

4,032

1,943

2,447

10

1,119

11

0,706

12

2,896

13

0,703

14

2,821

15

0,700

16

2,764

17

0,697

18

2,718

19

0,695

20

2,681

0,15

0,1

0,05

0,025

1,963

3,078

6,314

12,706

1,061

1,386

1,886

0,765

0,978

0,005

1,638

0,816
6,965
2,353

0,941

9,925
3,182

4,541

5,841

1,190

1,533

2,132

2,776

1,156

1,476

2,015

2,571

1,134

1,440

0,711

0,896

4,604

1,415

0,718

0,906

3,143
1,895

0,889

3,707
2,365

2,998

3,499

1,108

1,397

1,860

2,306

1,100

1,383

1,833

2,262

1,093

1,372

1,812

2,228

1,088

1,363

1,796

2,201

1,083

1,356

1,782

2,179

3,355
0,883
3,250
0,879
3,169
0,876
3,106
0,873
3,055

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

284

21

0,694

22

2,650

23

0,692

24

2,624

25

0,691

0,866

26

2,602

2,947

27

1,746

2,120

28

1,069

29

0,688

30

2,552
0,688
2,539
0,687
2,528
0,686
2,518
0,686
2,508

0,870
0,868

1,333

2,467
0,683
2,462
0,683
2,457

1,761

2,145

1,074

1,341

1,753

2,131

1,071

1,337

0,689

0,863

0,865

1,740

2,921
2,110

2,567

2,898

1,067

1,330

1,734

2,101

1,066

1,328

1,729

2,093

1,064

1,325

1,725

2,086

1,063

1,323

1,721

2,080

1,061

1,321

1,717

2,074

1,060

1,319

1,714

2,069

1,059

1,318

0,684

0,856

2,861
0,860
2,845
0,859
2,831
0,858
2,819

2,064

0,683

1,345

2,583

0,861

1,711

2,473

1,076

2,878

2,807

0,684

2,160

0,690

0,862

2,500

2,479

1,771

2,977

0,858

0,684

1,350

3,012

0,685

1,058

1,079

1,316

0,685

0,857

2,492
1,708

0,856

2,797
2,060

2,485

2,787

1,058

1,315

1,706

2,056

1,057

1,314

1,703

2,052

1,056

1,313

1,701

2,048

1,055

1,311

1,699

2,045

1,055

1,310

1,697

2,042

2,779
0,855
2,771
0,855
2,763
0,854
2,756
0,854
2,750

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

285

Distribucin normal estndar

0.00
0.07

0.01
0.08

0.02

0.03

0.04

0.05

0.06

0.09

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

286

0.

0.0000

0.0279

0.

0.0398

0.0675

0.

0.0793

0.1064

0.

0.1179

0.1443

0.

0.1915

0.2157

0.

0.1915

0.2157

0.

0.2257

0.2486

0.

0.2580

0.2794

0.

0.2881

0.3078

0.

0.3159

0.3340

1.

0.3413

0.3577

1.

0.3643

0.3790

1.

0.3849

3.3980

1.

0.4032

0.4147

1.

0.4192

0.4292

1.

0.4332

0.4418

0.0040
0.0319
0.0438
0.0714
0.0832
0.1103
0.1217
0.1480
0.1850
0.2190
0.1950
0.2190
0.2291
0.2518
0.2612
0.2823
0.2910
0.3106
0.3186
0.3365
0.3438
0.3599
0.3665
0.3810
0.3869
0.3997
0.4049
0.4162
0.4207
0.4306
0.4345
0.4429

0.0080

0.0120

0.0160

0.0199

0.0239

0.0517

0.0557

0.0596

0.0636

0.0910

0.0948

0.0987

0.1026

0.1293

0.1331

0.1368

0.1406

0.2019

0.2054

0.2088

0.2123

0.2019

0.2054

0.2088

0.2123

0.2357

0.2389

0.2422

0.2454

0.2673

0.2704

0.2734

0.2764

0.2967

0.2995

0.3023

0.3051

0.3238

0.3264

0.3289

0.3315

0.3485

0.3508

0.3531

0.3554

0.3708

0.3729

0.3749

0.3770

0.3907

0.3925

0.3944

0.3962

0.4082

0.4099

0.4115

0.4131

0.4236

0.4251

0.4265

0.4279

0.4370

0.4382

0.4394

0.4406

0.0359
0.0478
0.0753
0.0871
0.1141
0.1255
0.1517
0.1985
0.2224
0.1985
0.2224
0.2324
0.2549
0.2642
0.2852
0.2939
0.3133
0.3212
0.3389
0.3461
0.3621
0.3686
0.3830
0.3888
0.4015
0.4066
0.4177
0.4222
0.4319
0.4357
0.4441

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

287

1.

0.4452

0.4525

1.

0.4554

0.4616

1.

0.4641

0.4693

1.

0.4713

0.4756

2.

0.4772

0.4808

2.

0.4821

0.4850

2.

0.4861

0.4884

2.

0.4893

0.4911

2.

0.4918

0.4932

2.

0.4938

0.4949

2.

0.4953

0.4962

2.

0.4956

0.4972

2.

0.4974

0.4979

2.

0.4981

0.4985

3.

0.4986

0.4989

3.

0.4990

0.4463
0.4535
0.4564
0.4625
0.4649
0.4699
0.4719
0.4761
0.4778
0.4812
0.4826
0.4854
0.4864
0.4887
0.4896
0.4913
0.4920
0.4934
0.4940
0.4951
0.4955
0.4963
0.4966
0.4973
0.4975
0.4980
0.4982
0.4986
0.4986
0.4989
0.4990

0.4474

0.4484

0.4495

0.4505

0.4515

0.4582

0.4591

0.4599

0.4608

0.4664

0.4671

0.4678

0.4686

0.4732

0.4738

0.4744

0.4750

0.4788

0.4793

0.4798

0.4803

0.4834

0.4838

0.4842

0.4846

0.4871

0.4875

0.4878

0.4881

0.4901

0.4904

0.4906

0.4909

0.4925

0.4927

0.4929

0.4931

0.4943

0.4945

0.4946

0.4948

0.4957

0.4959

0.4960

0.4961

0.4968

0.4969

0.4970

0.4971

0.4977

0.4977

0.4978

0.4979

0.4983

0.4984

0.4984

0.4985

0.4987

0.4988

0.4988

0.4988

0.4991

0.4991

0.4991

0.4992

0.4545
0.4573
0.4633
0.4656
0.4706
0.4726
0.4767
0.4783
0.4817
0.4830
0.4857
0.4868
0.4890
0.4898
0.4916
0.4922
0.4936
0.4941
0.4952
0.4956
0.4964
0.4967
0.4974
0.4976
0.4981
0.4982
0.4986
0.4987
0.4990
0.4991

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

288

0.4992

3.

0.4993

0.4994

3.

0.4995

0.4996

3.

0.4996

0.4997

3.

0.4997

0.4998

3.

0.4998

0.4998

3.

0.4998

0.4999

3.

0.4999

0.4999

3.

0.4999

0.4999

0.4992
0.4993
0.4994
0.4995
0.4996
0.4996
0.4997
0.4997
0.4998
0.4998
0.4998
0.4999
0.4999
0.4999
0.4999
0.4999
0.4999

0.4992
0.4993

0.4993

0.4994

0.4994

0.4994

0.4995

0.4995

0.4996

0.4996

0.4997

0.4997

0.4997

0.4997

0.4997

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4995
0.4995
0.4996
0.4996
0.4997
0.4997
0.4998
0.4998
0.4998
0.4999
0.4999
0.4999
0.4999
0.4999
0.4999

Distribucin normal para una cola

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

289

0.00
0.08

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.09

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

290

0.0 0.5000

0.5039

0.5079

0.5119

0.5159

0.5199

0.5239

0.5279

0.1 0.5318

0.5358

0.2 0.5398

0.5437 0.5477

0.5517

0.5556

0.5596

0.5635

0.5674

0.3 0.5714

0.5753

0.4 0.5792

0.5831 0.5870

0.5909

0.5948

0.5987

0.6025

0.6064

0.5 0.6102

0.6140

0.6 0.6179

0.6217 0.6255

0.6293

0.6330

0.6368

0.6405

0.6443

0.7 0.6480

0.6517

0.8 0.6554

0.6590 0.6627

0.6664

0.6700

0.6736

0.6772

0.6808

0.9 0.6843

0.6879

1.0 0.6914

0.6949 0.6984

0.7019

0.7054

0.7088

0.7122

0.7156

1.1 0.7190

0.7224

1.2 0.7257

0.7290 0.7323

0.7356

0.7389

0.7421

0.7453

0.7485

1.3 0.7517

0.7549

1.4 0.7580

0.7611 0.7642

0.7673

0.7703

0.7733

0.7763

0.7793

1.5 0.7823

0.7852

1.6 0.7881

0.7910 0.7938

0.7967

0.7995

0.8023

0.8051

0.8078

1.7 0.8105

0.8132

1.8 0.8159

0.8185 0.8212

0.8238

0.8263

0.8289

0.8314

0.8339

1.9 0.8364

0.8389

2.0 0.8413

0.8437 0.8461

0.8484

0.8508

0.8531

0.8554

0.8576

2.1 0.8599

0.8621

2.2 0.8643

0.8665 0.8686

0.8707

0.8728

0.8749

0.8769

0.8790

2.3 0.8810

0.8829

2.4 0.8849

0.8868 0.8887

0.8906

0.8925

0.8943

0.8961

0.8979

2.5 0.8997

0.9014

2.6 0.9032

0.9049

0.9065

0.9082

0.9098

0.9114

0.9130

0.9146

2.7 0.9162

0.9177

2.8 0.9192

0.9207 0.9221

0.9236

0.9250

0.9264

0.9278

0.9292

2.9 0.9305

0.9318

3.0 0.9331

0.9344 0.9357

0.9369

0.9382

0.9394

0.9406

0.9417

0.9484

0.9494

0.9505

0.9515

0.9525

0.9429

0.9440

0.9452

0.9463 0.9473

0.9535

0.9544

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

291

0.9554

0.9563 0.9572

0.9581

0.9590

0.9599

0.9607

0.9616

0.9624

0.9632

0.9640

0.9648 0.9656

0.9663

0.9671

0.9678

0.9685

0.9692

0.9699

0.9706

0.9712

0.9719 0.9725

0.9731

0.9738

0.9744

0.9750

0.9755

0.9761

0.9767

0.9772

0.9777 0.9783

0.9788

0.9793

0.9798

0.9803

0.9807

0.9812

0.9816

0.9821

0.9825 0.9829

0.9834

0.9838

0.9842

0.9846

0.9849

0.9853

0.9857

0.9860

0.9864 0.9867

0.9871

0.9874

0.9877

0.9880

0.9883

0.9886

0.9889

0.9892

0.9895

0.9898

0.9900

0.9903

0.9906

0.9908

0.9911

0.9913

0.9915

0.9918

0.9920 0.9922

0.9924

0.9926

0.9928

0.9930

0.9932

0.9934

0.9936

0.9937

0.9939 0.9941

0.9942

0.9944

0.9946

0.9947

0.9949

0.9950

0.9952

0.9953

0.9954 0.9956

0.9957

0.9958

0.9959

0.9960

0.9962

0.9963

0.9964

0.9965

0.9966 0.9967

0.9968

0.9969

0.9970

0.9971

0.9971

0.9972

0.9973 0.9974

0.9975

0.9977

0.9978

0.9978

0.9979

0.9980

0.9981

0.9981 0.9982

0.9985

0.9986

0.9986

0.9986 0.9987

0.9989

0.9990

0.9975

0.9976

0.9980
0.9983

0.9983

0.9984

0.9984

0.9985

0.9987

0.9988

0.9988

0.9988

0.9989

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

292

Valores Crticos de la Distribucin Chi-Cuadrado.


FUNCION DE DISTRIBUCION
0.005

0.010

0.900

0.950

0.975

0.990
0.995
1
0.000039 0.000157 0.000982 0.003932 0.0158

2.71

3.84

5.02

6.63

0.0100

9.21

0.0717 0.11

0.0201

0.025

0.050

0.100

7.88
0.0506

0.10

0.21

4.61

5.99

7.38

7.81

9.35

10.60

11.34

12.84

0.21

0.30

13.28

14.86

0.41

0.55

0.22

0.35

0.58

6.25

0.48

0.71

1.06

7.78

9.49

11.14

0.83

1.15

1.61

9.24

11.07

12.83

1.24

1.64

2.20

10.64

12.59

14.45

1.69

2.17

2.83

12.02

14.07

16.01

2.18

2.73

3.49

13.36

15.51

17.53

2.70

3.33

4.17

14.68

16.92

19.02

3.25

3.94

4.87

15.99

18.31

20.48

3.82

4.57

5.58

17.28

19.68

21.92

4.40

5.23

6.30

18.55

GRADOS DE LIBERTAD

15.09

16.75

0.68

0.87

16.81

18.55

1
0
1

0.99

1.24

18.48

1.34

1.65

20.09

21.95

1.73

2.09

21.67

23.59

2.16

2.56

23.21

25.19

2.60

3.05

24.72

26.76

3.07

3.57

26.22

28.30

20.28

1
5

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

21.03

23.34

Biol.

293

1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
2
9
3
0

3.57

4.11

27.69

29.82

4.07

4.66

29.14

31.32

4.60

5.23

30.58

32.80

5.14

5.81

32.00

34.27

5.70

6.41

33.41

35.72

6.26

7.01

34.81

37.16

6.84

7.63

36.19

38.58

7.43

8.26

37.57

40.00

8.03

8.90

38.93

41.40

8.64

9.54

40.29

42.80

9.26

10.20

41.64

44.18

9.89

10.86

42.98

45.56

10.52

11.52

44.31

46.93

11.16
45.64
11.81
46.96

12.20

5.01

5.89

7.04

19.81

22.36

24.74

5.63

6.57

7.79

21.06

23.68

26.12

6.26

7.26

8.55

22.31

25.00

27.49

6.91

7.96

9.31

23.54

26.30

28.85

7.56

8.67

10.09

24.77

27.59

30.19

8.23

9.39

10.86

25.99

28.87

31.53

8.91

10.12

11.65

27.20

30.14

32.85

9.59

10.85

12.44

28.41

31.41

34.17

10.28

11.59

13.24

29.62

32.67

35.48

10.98

12.34

14.04

30.81

33.92

36.78

11.69

13.09

14.85

32.01

35.17

38.08

12.40

13.85

15.66

33.20

36.42

39.36

13.12

14.61

16.47

34.38

37.65

40.65

13.84

15.38

17.29

35.56

38.89

41.92

14.57

16.15

18.11

36.74

40.11

43.19

48.29
12.88
49.64

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

294

12.46

13.56

48.28

50.99

13.12

14.26

49.59

52.34

13.79

14.95

50.89

53.67

15.31

16.93

18.94

37.92

41.34

44.46

16.05

17.71

19.77

39.09

42.56

45.72

16.79

18.49

20.60

40.26

43.77

46.98

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

295

Valores Crticos de la Distribucin F Funcin de Distribucin = 0.90.

GRADOS DE LIBERTAD DEL NUMERADOR


1

10

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

296

39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86


1

60.19

8.53

9.39

R
A
D

3 5.54
4

9.00

9.16

9.24

9.29

9.33

9.35

9.37

9.38

5.46

5.39

5.34

5.31

5.28

5.27

5.25

5.24

3.98

3.95

5.23 4.54

4.32

4.19

4.11

4.05

4.01

3.94

3.92

4.06

3.78

3.62

3.52

3.45

3.40

3.37

3.34

3.32

3.46

3.29

3.18

3.11

3.05

3.01

2.98

2.96

2.83

2.78

2.75

2.62

2.59

2.56

2.55

2.51

2.47

S 3.30
6
7

3.78

D 2.94 3.59
E 2.72

2.70

10 3.46

3.11

L
I

2.54 3.36

3.26
2.92
3.01

3.07
2.81
2.81

2.96
2.73
2.69

2.88
2.67
2.61

11 2.44

2.42

B 3.29

2.92

2.73

2.61

2.52

2.46

2.41

2.38

2.35

2.86

2.66

2.54

2.45

2.39

2.34

2.30

2.27

2.28

2.24

2.20

2.16

2.19

2.15

12

2.32
E

13

3.23

R 2.25 3.18
14

2.21

2.19

15 3.14

2.76

2.14 3.10

2.81
2.56
2.73

2.61
2.43
2.52

2.48
2.35
2.39

2.39
2.28
2.31

2.33
2.23
2.24

D 2.12

2.10

16

3.07

2.70

2.49

2.36

2.27

2.21

2.16

2.12

2.09

17

2.06
2.67

2.46

2.33

2.24

2.18

2.13

2.09

2.06

2.15

2.10

2.06

2.08

2.04

2.00

D
E 3.05
L

20 2.03 3.03
2.03

2.00

D 3.01

2.62

2.64
2.42

2.44
2.29

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

2.31
2.20

2.22
2.13

Biol.

297

E 1.98 2.99

2.61

2.40

2.27

2.18

2.11

2.06

2.02

N 1.98

1.96

O 2.97

2.59

2.38

2.25

2.16

2.09

2.04

2.00

1.96

2.57

2.36

2.23

2.14

2.08

2.02

1.98

1.95

M 25 1.94
I
A

26 2.96

D 1.92 2.95
27

1.93

1.90

O 2.94

2.55

28

1.89 2.93

2.56
2.34
2.54

2.35
2.21
2.33

2.22

2.13

2.06

2.01

1.97

2.11

2.05

1.99

1.95

1.92

1.98

1.94

2.19

2.10

2.04

R 1.91

1.88

2.92

2.53

2.32

2.18

2.09

2.02

1.97

1.93

1.89

2.52

2.31

2.17

2.08

2.01

1.96

1.92

1.88

2.51

2.30

2.17

2.07

2.00

1.95

1.91

1.87

2.00

1.94

1.90

29
3

1.87

0
40 2.91
60 1.86
90 2.90

120 1.85 2.89

2.50

2.29

2.16

2.06

1.87

1.84

2.89

2.50

2.28

2.15

2.06

1.99

1.93

1.89

1.86

2.49

2.28

2.14

2.05

1.98

1.93

1.88

1.85

2.44

2.23

2.09

2.00

1.93

1.87

1.83

1.79

2.39

2.18

2.04

1.95

1.87

1.82

1.77

1.74

1.78

1.74

1.72

1.68

1.83
2.88
1.82
2.84
1.76
2.79

1.71 2.76
1.70

1.67

2.75

2.35

2.36
2.13

2.15
1.99

2.01
1.90

1.91
1.82

1.84
1.77

1.65

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

298

Valores Crticos de la Distribucin F Funcin de Distribucin = 0.95.

GRADOS DE LIBERTAD DEL NUMERADOR


1

10

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

299

161.45 199.50 215.71 224.58 230.16 233.99


1

240.54

241.88

18.51

19.00

19.38

19.40

R
A
D

3 10.13
4

19.16

19.25

19.30

19.33

236.77 238.88
19.35

19.37

9.55

9.28

9.12

9.01

8.94

8.89

8.85

8.81

6.94

6.59

6.39

6.26

6.16

6.09

6.04

6.00

5.79

5.41

5.19

5.05

4.95

4.88

4.82

4.77

5.14

4.76

4.53

4.39

4.28

4.21

4.15

4.10

4.74

4.35

4.12

3.97

3.87

3.79

3.73

3.68

4.46

4.07

3.84

3.69

3.58

3.50

8.79

7.71

5.96
S 6.61

4.74

7
D 5.99
E 4.06
10 5.59
L

3.64

11 5.32

B 3.35 5.12
3.18

3.14

E 4.96

4.10

12

4.26
3.71

3.86

3.63

3.48

3.37

3.44

3.39

3.29

3.23

3.48

3.33

3.22

3.14

3.07

3.02

3.36

3.20

3.09

3.01

2.95

2.90

2.91

2.85

2.77

2.71

2.76

2.70

2.64

2.59

2.98

13
R
14

4.84

3.98

15 2.85 4.75

2.80

2.75

D 4.67

3.81

16

2.67 4.60

17

2.65

2.60

D 4.54

3.68

3.59
3.89
3.41
3.74
3.29

3.49
3.18
3.34
3.06

3.26
3.03
3.11
2.90

3.11
2.92
2.96
2.79

3.00
2.83
2.85
2.71

E 2.54
L

20
4.49

3.63

D 2.49 4.45

3.24
3.59

3.01
3.20

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

2.85
2.96

2.74
2.81

2.66
2.70

2.59

2.54

2.61

2.55
Biol.

300

E 2.49

2.45

N 4.41

3.55

O 2.41 4.38

3.16
3.52

2.93
3.13

2.77
2.90

2.66
2.74

2.58
2.63

2.51
2.54

2.46
2.48

M 25 2.42

2.38

3.49

3.10

2.87

2.71

2.60

2.51

2.45

2.39

3.47

3.07

2.84

2.68

2.57

2.49

2.42

2.37

2.46

2.40

2.37

2.32

2.42

2.36

4.35
26 2.35
D

27

4.32

O 2.32 4.30
28

2.34

2.30

R 4.28

3.42

29

2.27 4.26
3

3.44
3.03
3.40

3.05
2.80
3.01

2.82
2.64
2.78

2.66
2.53
2.62

2.55
2.44
2.51

2.30

2.25

4.24

3.39

2.99

2.76

2.60

2.49

2.40

2.34

2.28

3.37

2.98

2.74

2.59

2.47

2.39

2.32

2.27

2.37

2.31

2.29

2.24

2.35

2.28

40 2.24
60
90 4.23

120 2.22 4.21


2.25

2.20

4.20

3.34

2.19 4.18

3.35
2.95
3.33

2.96
2.71
2.93

2.73
2.56
2.70

2.57
2.45
2.55

2.46
2.36
2.43

2.22

2.18

4.17

3.32

2.92

2.69

2.53

2.42

2.33

2.27

2.21

3.23

2.84

2.61

2.45

2.34

2.25

2.18

2.12

2.17

2.10

2.16
4.08

2.08 4.00

3.15

2.76

2.53

2.37

2.25

2.04

1.99

3.95

3.10

2.71

2.47

2.32

2.20

2.11

2.04

1.99

3.07

2.68

2.45

2.29

2.18

2.09

2.02

1.96

1.94
3.92
1.91
Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

301

Valores Crticos de la Distribucin F Funcin de Distribucin = 0.99.


Instituto Tecnolgico de Ensenada
Ral Jimnez Gonzlez

Biol.

302

GRADOS DE LIBERTAD DEL NUMERADOR


1

5000 5403

5625

5764

5859

5928

5981

6022

99.37

99.39

10
1

4052

6056

98.50 99.00 99.17 99.25 99.30 99.33 99.36

99.40

34.12 30.82 29.46 28.71 28.24 27.91 27.67

27.49

27.35

27.23 21.20

15.21

14.98

14.80

14.66

16.26 13.27 12.06 11.39 10.97 10.67 10.46

10.29

10.16

10.05

O
S

10
L

13.75

16.69

15.98 15.52

14.55

10.92

9.78

9.15

8.75

8.47

8.26

8.10

7.98

7.87

11

12.25

12

6.62

13

11.26

14

5.81 10.56

15

5.35

A
D

18.00

10.04
16

9.55

8.45

7.85

7.46

7.19

6.99

6.84

6.72

8.65

7.59

7.01

6.63

6.37

6.18

6.03

5.91

5.61

5.47

8.02

6.99

6.42

6.06

5.80

5.99

5.64

5.39

5.20

5.06

4.94

5.67

5.32

5.07

4.89

4.74

4.63

5.26
7.56

6.55

4.85

17
D

18

9.65

19

4.54 9.33

20

4.39

4.30

9.07

6.70

7.21

21

4.10 8.86

22

4.03

3.94

23

8.68

6.36

24

3.80

6.22
6.93
5.74
6.51
5.42

5.95
5.21
5.56
4.89

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

5.41
4.86
5.04
4.56

5.06
4.62
4.69
4.32

4.82
4.44
4.46
4.14

4.64
4.30
4.28
4.00

4.50
4.19
4.14
3.89

Biol.

303

25

8.53

6.23

5.29

3.78

3.93

3.79

3.71

3.60

27

3.68

3.59

28

8.29

6.01

29

3.51 8.18

30

3.52

3.43

8.10

5.85

4.94

4.43

4.10

3.87

3.70

3.56

3.46

5.78

4.87

4.37

4.04

3.81

3.64

3.51

3.40

5.93

5.01

4.50

4.01
4.17

4.10

3.89

4.25

4.34

4.03

3.69 8.40

4.58

4.67

4.20

26

5.09

5.18

4.44

40

6.11

4.77

3.84
3.94

3.77

3.63

3.37

60
90

8.02

120 3.31 7.95


3.35

3.26

7.88

5.66

3.21 7.82

5.72
4.76
5.61

4.82
4.26
4.72

4.31
3.94
4.22

3.99
3.71
3.90

3.76
3.54
3.67

3.59
3.41

3.45
3.30

3.50

3.36

3.26

3.17

7.77

5.57

4.68

4.18

3.85

3.63

3.46

3.32

3.22

5.53

4.64

4.14

3.82

3.59

3.42

3.29

3.18

5.49

4.60

4.11

3.78

3.56

3.39

3.26

3.15

3.36

3.23

3.13
7.72
3.09
7.68

3.06 7.64

5.45

4.57

4.07

3.75

3.53

3.12

3.03

7.60

5.42

4.54

4.04

3.73

3.50

3.33

3.20

3.09

5.39

4.51

4.02

3.70

3.47

3.30

3.17

3.07

5.18

4.31

3.83

3.51

3.29

3.12

2.99

2.89

4.98

4.13

3.65

3.34

3.12

2.95

2.82

2.72

3.00
7.56
2.98
7.31
2.80
7.08

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

304

2.63 6.93
2.61

2.52

6.85

4.79

4.85
3.95

4.01
3.48

3.53
3.17

3.23
2.96

3.01

2.84

2.72

2.79

2.66

2.56

2.47

Instituto Tecnolgico de Ensenada


Ral Jimnez Gonzlez

Biol.

305

Bibliografa
GUTIERREZ, P. H y DE LA VARA, S. R. 2008. Segunda edicin. Anlisis y
Diseo

de Experimentos. Mc Graw Hill.

MONTGOMERY, C.D.; G.C, RUNGER. 2010. Segunda edicin. Probabilidad y


Estadstica. LIMUSA WILEY
MONTGOMERY, C.D. Diseo y Anlisis de Experimentos. Segunda edicin.
LIMUSA WILEY
WALPOLE, R.; MAYERS, R.H.; MAYERS, S.L. 1998. Sexta edicin.
Probabilidad y
Estadstica Para Ingenieros. Pearson Education
ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS, T.A.2005. Octava edicin.
Estadstica para Administracin y Economa. MATH LEARNING
BERENSON, M.L.; LEVINE, D.M.; KREHBIEL, T.C. 2001. Segunda edicin.
Estadstica para Administracin. Prentice Hall.

Instituto Tecnolgico De Villa La Venta


Ing. Gabriel Gmez Martnez

Potrebbero piacerti anche