Sei sulla pagina 1di 79

http://dm.udc.es/asignaturas/estadistica2/estadistica_2.

htm

Juan Vilar
Catedrtico de Estadstica e I.O. de la UDC
Web personal:
http://dm.udc.es/profesores/juanvilar

E-mail:
eijvilar@udc.es

ndice General

Conceptos bsicos de Inferencia Estadstica

1 Conceptos bsicos de Inferencia Estadstica .


1.1 Objetivos de la Inferencia Estadstica.
1.2 Inferencia Estadstica. Conceptos bsicos.
1.3 Contraste o test de hiptesis. Definiciones.
1.3.1 Definiciones bsicas.
1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis.
1.3.3 Tipos de Error en un contraste de hiptesis.
1.3.4 Nivel crtico y regin crtica.
1.3.5 Potencia de un contraste.
1.3.6 Algunos contrastes paramtricos importantes.

Teora de Diseo de Experimentos

2 Principios bsicos del diseo de experimentos.


2.1 Introduccin.
2.2 Tipos de variabilidad.
2.3 Planificacin de un experimento.
2.4 Resumen de los principales conceptos.
2.5 Principios bsicos del diseo de experimentos.

2.6 Algunos diseos experimentales clsicos


2.6.1 Diseo completamente aleatorizados.
2.6.2 Diseo en bloques o con un factor bloque.
2.6.3 Diseos con dos o ms factores bloque.
2.6.4 Diseos con dos o ms factores.
2.6.5 Diseos factoriales a dos niveles.
3 Diseos con una fuente de variacin.
3.1 Introduccin.
3.2 Modelo matemtico del diseo completamente aleatorizado.
3.3 Estimacin de los parmetros.
3.3.1 Estimadores por mxima-verosimilitud.
3.3.2 Estimadores por mnimo-cuadrticos.
3.3.3 Estimacin puntual de la varianza.
3.4 Anlisis de la varianza de una va.
3.4.1 Idea general.
3.4.2 Descomposicin de la variabilidad.
3.5 Inferencia de los parmetros del modelo.
3.5.1 Intervalos de confianza de los parmetros.
3.5.2 Concepto de contraste.
3.5.3 Contrastes mltiples.
3.6 Anlisis de un caso de diseo con un factor fijo
3.7 Efectos aleatorios.
3.7.1 El modelo matemtico de un factor aleatorio.
3.7.2 Contraste de varianza nula de los efectos tratamiento.
3.7.3 Anlisis de un caso de diseo con un factor aleatorio.
4 Chequeo del modelo de diseo de experimentos con un factor.
4.1 Hiptesis bsicas del modelo.
4.2 Bondad del ajuste del modelo.
4.3 Normalidad de los errores.
4.3.1 Grficos de normalidad
4.3.2 Contrastes de bondad de ajuste
4.4 Homocedasticidad de los errores.
4.5 La familia de transformaciones de Box-Cox.
4.6 Homogeneidad de los errores. Datos atpicos.
4.7 Independencia de los errores.
4.7.1 Grficos para detectar dependencia.
4.7.2 Contrastes para detectar dependencias.
4.8 Contraste de Kruskal-Wallis. Alternativa no paramtrica al Anova.
5 Diseo de experimentos clsicos
5.1 Concepto de bloque.
5.2 Diseo en bloques completamente aleatorizados.

5.2.1 Modelo matemtico.


5.2.2 Estimacin de los parmetros.
5.2.3 Anlisis de la varianza.
5.2.4 Anlisis de residuos.
5.2.5 Anlisis de un caso
5.3 La interaccin entre factores.
5.4 Modelos de dos factores-tratamiento.
5.4.1 Modelo matemtico.
5.4.2 Estimacin de los parmetros.
5.4.3 Descomposicin de la variabilidad
5.4.4 Anlisis de un caso
5.5 Diseo factorial con tres factores.
5.6 Fracciones factoriales. El cuadrado latino.
5.6.1 El modelo de cuadrado latino.
5.6.2 Anlisis de un caso.

Teora de Regresin Lineal

6 El modelo de regresin lineal simple.


6.1 Introduccin a los modelos de regresin. Objetivos.
6.2 Clasificacin de los modelos de regresin.
6.3 El modelo de regresin lineal simple.
6.3.1 Formulacin matemtica del modelo.
6.3.2 Estimacin de los parmetros del modelo.
6.3.3 Propiedades de los estimadores.
6.4 Interpretacin geomtrica del modelo.
6.5 contrastes sobre os parmetros del modelo.
6.6 Tabla ANOVA. El contraste de regresin.
6.7 El contraste de linealidad.
6.8 Coeficiente de determinacin. Coeficiente de correlacin.
6.9 Prediccin en regresin lineal simple.
6.9.1 Estimacin de las medias condicionadas.
6.9.2 Prediccin de una observacin.
6.10 Modelo de regresin lineal con regresor estocstico.
6.11 Anlisis de un caso de un modelo de regresin lineal simple.

7 Chequeo del modelo de regresin lineal simple. Anlisis de residuos.

7.1 Problemas en el ajuste de un modelo de regresin lineal simple.


7.2 La hiptesis de linealidad. Transformaciones
7.3 Anlisisi de residuos.Grficos.
7.3.1 Residuos. Tipos
7.3.2.Grficos de residuos.
7.4 Observaciones influyentes
7.5 Las hiptesis bsicas del modelo
7.5.1 La hiptesis de normalidad.
7.5.2 La hiptesis de homocedasticidad

8 Modelo de regresin lineal mltiple.


8.1 Regresin Lineal General: el modelo matemtico
8.2 Estimacin de los parmetros del modelo.
8.3 Interpretacin geomtrica.
8.4 Propiedades de los estimadores.
8.4.1 Estimador de los coeficientes del modelo lineal
8.4.2 El estimador de la varianza.
8.4.3 Inferencia sobre los coeficientes del modelo
8.4.4 Teorema de Gauss-Markov.
8.5 El Anlisis de la Varianza.
8.5.1 Tabla ANOVA. El contraste conjunto de la F.
8.5.2 Contrastes individuales de la F.
8.6 Correlacin.
8.6.1 Coeficiente de correlacin mltiple.
8.6.2 Correlacin Parcial
8.7 Prediccin en el Modelo de Regresin Lineal Mltiple.
8.7.1 Estimacin de las medias condicionadas.
8.7.2 Prediccin de una observacin.
8.8 Anlisis de un caso de un modelo de regresin lineal mltiple.

9 Chequeo del modelo de regresin lineal mltiple.


9.1 Problemas en el ajuste de un modelo de regresin lineal mltiple.
9.2 Multicolinealidad.
9.3 Anlisis de residuos. Grficos.
9.4 Hiptesis bsicas del modelo
9.4.1 Hiptesis de normalidad.

9.4.2 Hiptesis de homocedasticidad.


9.4.3 Hiptesis de independencia.
9.5 Anlisis de influencia.
9.5.1 Influencia a priori. Valor de influencia.
9.5.2 Influencia a posteriori.
9.6 Error de especificacin.
9.7 Seleccin de variables regresoras.
9.8 Criterios para la eleccin de un modelo de regresin.
10 Otros modelos de regresin .
10.1 Estimacin por mnimos cuadrados generalizados.
10.2 Estimacin robusta.
10.3 Estimacin polinmica.
10.4 Regresin con variables regresoras cualitativas.
10.5 Regresin con variable respuesta binaria.
10.6 Regresin contrada (ridge regression)
10.7 Regresin no lineal.
2.1 Introduccin.

Los modelos de Diseo de experimentos son modelos estadsticos clsicos


cuyo objetivo es averiguar si unos determinados factores influyen en la
variable de inters y, si existe influencia de algn factor, cuantificarla.
Ejemplos donde habra que utilizar estos modelos son los siguientes:
En el rendimiento de un determinado tipo de mquinas (unidades producidas por
da) se desea estudiar la influencia del trabajador que la maneja y la marca de la
mquina.
Se quiere estudiar la influencia del tipo de pila elctrica y de la marca en la
duracin de las pilas.
Una compaa telefnica est interesada en conocer la influencia de varios
factores en la variable de inters la duracin de una llamada telefnica. Los
factores que se consideran son los siguientes: hora a la que se produce la llamada;
da de la semana en que se realiza la llamada; zona de la ciudad desde la que se
hace la llamada; sexo del que realiza la llamada; tipo de telfono (pblico o
privado) desde el que se realiza la llamada.
Una compaa de software est interesada en estudiar la variable porcentaje que
se comprime un fichero al utilizar un programa que comprime ficheros teniendo
en cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se
desean controlar diferentes factores: profesor que imparte la asignatura; mtodo
de enseanza; sexo del alumno.

La metodologa del diseo de experimentos se basa en la experimentacin. Es


conocido que si se repite un experimento, en condiciones indistinguibles, los

resultados presentan variabilidad que puede ser grande o pequea. Si la


experimentacin se realiza en un laboratorio donde la mayora de las causas
de variabilidad estn muy controladas, el error experimental ser pequeo y
habr poca variacin en los resultados del experimento. Pero si se
experimenta en procesos industriales, administrativos, ... la variabilidad es
grande en la mayora de los casos.
El objetivo del diseo de experimentos es estudiar si utilizar un determinado
tratamiento produce una mejora en el proceso o no. Para ello se debe
experimentar utilizando el tratamiento y no utilizndolo. Si la variabilidad
experimental es grande, slo se detectar la influencia del uso del
tratamiento cuando ste produzca grandes cambios en relacin con el error
de observacin.
La metodologa del Diseo de Experimentos estudia cmo variar las
condiciones habituales de realizacin de un proceso emprico para aumentar
la probabilidad de detectar cambios significativos en la respuesta, de esta
forma se obtiene un mayor conocimiento del comportamiento del proceso de
inters.
Para que la metodologa de diseo de experimentos sea eficaz es
fundamental que el experimento est bien diseado.
Un experimento se realiza por alguno de los siguientes motivos:
* Determinar las principales causas de variacin en la respuesta.
* Encontrar las condiciones experimentales con las que se consigue un
valor extremo en la variable de inters o respuesta.
* Comparar las respuestas en diferentes niveles de observacin de
variables controladas.
* Obtener un modelo estadstico-matemtico que permita hacer
predicciones de respuestas futuras.
La utilizacin de los modelos de diseo de experimentos se basa en la
experimentacin y en el anlisis de los resultados que se obtienen en un
experimento bien planificado. En muy pocas ocasiones es posible utilizar estos
mtodos a partir de datos disponibles o datos histricos, aunque tambin se
puede aprender de los estudios realizados a partir de datos recogidos por
observacin, de forma aleatoria y no planificada. En el anlisis estadstico de
datos histricos se pueden cometer diferentes errores, los ms comunes son
los siguientes:

Inconsistencia de los datos. Los procesos cambian con el tiempo, se


producen cambios en el personal (cambios de personas, mejoras del personal
por procesos de aprendizaje, motivacin, ...), cambios en las mquinas
(reposiciones, reparaciones, envejecimiento, ...). Estos cambios tienen
influencia en los datos recogidos, lo que hace que los datos histricos sean
poco fiables, sobre todo si se han recogido en un amplio espacio de tiempo.

Variables con fuerte correlacin. Puede ocurrir que en el proceso existan


dos o ms variables altamente correlacionadas que pueden llevar a
situaciones confusas. Por ejemplo, en el proceso hay dos variables X1 y X2
fuertemente correlacionadas que influyen en la respuesta, pero si en los datos
que se tiene aumenta al mismo tiempo el valor de las dos variables no es
posible distinguir si la influencia es debida a una u otra o a ambas variables
(confusin de los efectos). Otra situacin problemtica se presenta si solo se
dispone de datos de una variable (por ejemplo de X1 y no de X2), lo que puede
llevar a pensar que la variable influyente es la X1 cuando, en realidad, la
variable influyente es la X2 (variable oculta).

El rango de las variables controladas es limitado. Si el rango de una de las


variables importantes e influyentes en el proceso es pequeo, no se puede
saber su influencia fuera de ese rango y puede quedar oculta su relacin con
la variable de inters o lo cambios que se producen en la relacin fuera del
rango observado. Esto suele ocurrir cuando se utilizan los datos recogidos al
trabajar el proceso en condiciones normales y no se experimenta (cambiando
las condiciones de funcionamiento) para observar el comportamiento del
proceso en situaciones nuevas.
2.2 Tipos de variabilidad.

Uno de los principales objetivos de los modelos estadsticos y, en particular,


de los modelos de diseo de experimentos, es controlar la variabilidad de un
proceso estocstico que puede tener diferente origen. De hecho, los
resultados de cualquier experimento estn sometidos a tres tipos de
variabilidad cuyas caractersticas son las siguientes:

Variabilidad sistemtica y planificada.

Esta variabilidad viene originada por la posible dispersin de los


resultados debida a diferencias sistemticas entre las distintas
condiciones experimentales impuestas en el diseo por expreso deseo
del experimentador. Es el tipo de variabilidad que se intenta identificar
con el diseo estadstico.

Cuando este tipo de variabilidad est presente y tiene un tamao


importante, se espera que las respuestas tiendan a agruparse formando
grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y
cuantificada por el modelo.

Variabilidad tpica de la naturaleza del problema y del experimento.

Es la variabilidad debida al ruido aleatorio. Este trmino incluye, entre


otros, a la componente de variabilidad no planificada denominada
error de medida. Es una variabilidad impredecible e inevitable.
Esta variablidad es la causante de que si en un laboratorio se toman
medidas repetidas de un mismo objeto ocurra que, en muchos casos,
la segunda medida no sea igual a la primera y, ms an, no se puede
predecir sin error el valor de la tercera. Sin embargo, bajo el aparente
caos, existe un patrn regular de comportamiento en esas medidas:
todas ellas tendern a fluctuar en torno a un valor central y siguiendo
un modelo de probabilidad que ser importante estimar.
Esta variabilidad es inevitable pero, si el experimento ha sido bien
planificado, es posible estimar (medir) su valor, lo que es de gran
importancia para obtener conclusiones y poder hacer predicciones.
Es una variabilidad que va a estar siempre presente pero que es
tolerable.

Variabilidad sistemtica y no planificada.

Esta variabilidad produce una variacin sistemtica en los resultados y


es debida a causas desconocidas y no planificadas. En otras palabras,
los resultados estn siendo sesgados sistemticamente por causas
desconocidas. La presencia de esta variabilidad supone la principal
causa de conclusiones errneas y estudios incorrectos al ajustar un
modelo estadstico.
Como se estudiar posteriormente, existen dos estrategias bsicas para
tratar de evitar la presencia de este tipo de varibilidad: la
aleatorizacin y la tcnica de bloques.

Este tipo de variabilidad debe de intentar evitarse y su presencia lleva


a conclusiones errneas.
2.3 Planificacin de un experimento.

La experimentacin forma parte natural de la mayora de las investigaciones


cientficas e industriales, en muchas de las cuales, los resultados del proceso
de inters se ven afectados por la presencia de distintos factores, cuya
influencia puede estar oculta por la variabilidad de los resultados muestrales.
Es fundamental conocer los factores que influyen realmente y estimar esta
influencia. Para conseguir sto es necesario experimentar, variar las
condiciones que afectan a las unidades experimentales y observar la variable
respuesta. Del anlisis y estudio de la informacin recogida se obtienen las
conclusiones.
La forma tradicional que se utilizaba en la experimentacin, para el
estudio de estos problemas, se basaba en estudiar los factores uno a uno, sto
es, variar los niveles de un factor permaneciendo fijos los dems. Esta
metodologa presenta grandes inconvenientes:
* Es necesario un gran nmero de pruebas.
* Las conclusiones obtenidas en el estudio de cada factor tiene un campo
de validez muy restringido.
* No es posible estudiar la existencia de interaccin entre los factores.
* Es inviable, en muchos casos, por problemas de tiempo o costo.
Las tcnicas de diseo de experimentos se basan en estudiar
simultaneamente los efectos de todos los factores de inters, son ms
eficaces y proporcionan mejores resultados con un menor coste.
A continuacin se enumeran las etapas que deben seguirse para una
correcta planificacin de un diseo experimental, etapas que deben ser
ejecutadas de forma secuencial. Tambin se introducen algunos conceptos
bsicos en el estudio de los modelos de diseo de experimentos.
Las etapas a seguir en el desarrollo de un problema de diseo de
experimentos son las siguientes:
1. Definir los objetivos del experimento.
2. Identificar todas las posibles fuentes de variacin, incluyendo:

factores tratamiento y sus niveles,

unidades experimentales,
factores nuisance (molestos): factores bloque, factores ruido y
covariables.
3. Elegir una regla de asignacin de las unidades experimentales a las
condiciones de estudio (tratamientos).
4. Especificar las medidas con que se trabajar (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
5. Ejecutar un experimento piloto.
6. Especificar el modelo.
7. Esquematizar los pasos del anlisis.
8. Determinar el tamao muestral.
9. Revisar las decisiones anteriores. Modificarlas si se considera necesario.

Los pasos del listado anterior no son independientes y en un determinado


momento puede ser necesario volver atrs y modificar decisiones tomadas en
algn paso previo.
A continuacin se hace una breve descripcin de las decisiones que hay
que tomar en cada uno de los pasos enumerados. Slo despus de haber
tomado estas decisiones se proceder a realizar el experimento.
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que
debe dar respuesta el experimento. Es importante indicar solamente
cuestiones fundamentales ya que tratar de abordar problemas colaterales
pueden complicar innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser til esquematizar el tipo
de conclusiones que se espera obtener en el posterior anlisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van
ejecutando las etapas del diseo de experimentos.

2.- Identificar todas las posibles fuentes de variacin.

Una fuente de variacin es cualquier cosa que pueda generar


variabilidad en la respuesta. Es recomendable hacer una lista de todas las
posibles fuentes de variacin del problema, distinguiendo aquellas que, a
priori, generarn una mayor variabilidad. Se distinguen dos tipos:
- Factores tratamiento: son aquellas fuentes cuyo efecto sobre la
respuesta es de particular inters para el experimentador.
- Factores nuisance: son aquellas fuentes que no son de inters directo
pero que se contemplan en el diseo para reducir la variabilidad no
planificada.
A continuacin se precisan ms estos importantes conceptos.
(i) Factores y sus niveles.
Se denomina factor tratamiento a cualquier variable de inters para el
experimentador cuyo posible efecto sobre la respuesta se quiere estudiar.
Los niveles de un factor tratamiento son los tipos o grados especficos del
factor que se tendrn en cuenta en la realizacin del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los
siguientes:
proveedor (diferentes proveedores de una materia prima),
tipo de mquina (diferentes tipos o marcas de mquinas),
trabajador (los trabajadores encargados de hacer una tarea),
tipo de procesador (los procesadores de los que se quiere comparar su
velocidad de ejecucin),
un aditivo qumico (diferentes tipos de aditivos qumicos),
el sexo (hombre y mujer),
un mtodo de enseanza (un nmero determinado de mtodos de
enseanza cuyos resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
tamao de memoria (diferentes tamaos de memoria de ordenadores),

droga (distintas cantidades de la droga),


la temperatura (conjuntos de temperaturas seleccionadas en unos
rangos de inters).
Debe tenerse en cuenta que en el tratamiento matemtico de los modelos
de diseo de experimento los factores cuantitativos son tratados como
cualitativos y sus niveles son elegidos equiespaciados o se codifican. Por lo
general, un factor no suele tener ms de cuatro niveles.
Cuando en un experimento se trabaja con ms de un factor, se denomina:
Tratamiento a cada una de las combinaciones de niveles de los distintos
factores.
Observacin es una medida en las condiciones determinadas por uno de
los tratamientos.
Experimento factorial es el diseo de experimentos en que existen
observaciones de todos los posibles tratamientos.
(ii) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican
los distintos niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
en informtica, ordenadores, pginas web, buscadores de internet,
en agricultura, parcelas de tierra,
en medicina, individuos humanos u animales,
en industria, lotes de material, trabajadores, mquinas.
Cuando un experimento se ejecuta sobre un perodo de tiempo de modo
que las observaciones se recogen secuencialmente en instantes de tiempo
determinados, entonces los propios instantes de tiempo pueden considerarse
unidades experimentales.
Es muy importante que las unidades experimentales sean representativas
de la poblacin sobre la que se han fijado los objetivos del estudio. Por
ejemplo, si se utilizan los estudiantes universitarios de un pas como unidades

experimentales, las conclusiones del experimento no son extrapolables a toda


la poblacin adulta del pas.
(iii) Factores nuisance: bloques, factores ruido y covariables.
En cualquier experimento, adems de los factores tratamiento cuyo efecto
sobre la respuesta se quiere evaluar, tambin influyen otros factores, de
escaso inters en el estudio, pero cuya influencia sobre la respuesta puede
aumentar significativamente la variabilidad no planificada. Con el fin de
controlar esta influencia pueden incluirse en el diseo nuevos factores que,
atendiendo a su naturaleza, pueden ser de diversos tipos.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en
distintos niveles, de modo que es posible controlar su efecto a esos niveles.
Entonces la forma de actuar es mantener constante el nivel del factor para un
grupo de unidades experimentales, se cambia a otro nivel para otro grupo y
as sucesivamente. Estos factores se denominan factores de bloqueo
(factores-bloque) y las unidades experimentales evaluadas en un mismo nivel
del bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor
nuisance no es medible, a veces es posible agrupar las unidades
experimentales en bloques de unidades similares: parcelas de tierra contiguas
o perodos de tiempo prximos probablemente conduzcan a unidades
experimentales ms parecidas que parcelas o perodos distantes.
Desde un punto de vista matemtico el tratamiento que se hace de los
factores-bloque es el mismo que el de los factores-tratamiento en los que no
hay interaccin, pero su concepto dentro del modelo de diseo de
experimentos es diferente. Un factor-tratamiento es un factor en el que se
est interesado en conocer su influencia en la variable respuesta y un factorbloque es un factor en el que no se est interesado en conocer su influencia
pero se incorpora al diseo del experimento para disminuir la variabilidad
residuas del modelo.
Covariable. Si el factor nuisance es una propiedad cuantitativa de las
unidades experimentales que puede ser medida antes de realizar el
experimento (el tamao de un fichero informtico, la presin sangunea de un
paciente en un experimento mdico o la acidez de una parcela de tierra en un
experimento agrcola). El factor se denomina covariable y juega un papel
importante en el anlisis estadstico.
Ruido. Si el experimentador est interesado en la variabilidad de la
respuesta cuando se modifican las condiciones experimentales, entonces los
factores nuisance son incluidos deliberadamente en el experimento y no se
aisla su efecto por medio de bloques. Se habla entonces de factores ruido.

En resumen, las posibles fuentes de variacin de un experimento son:

Fuente

Debida a las condiciones de inters

Tipo

Planificada y sistemtica

(Factores tratamiento)

Debida al resto de condiciones controladas

Planificada y sistemtica

(Factores nuisance)

Debida a condiciones no controladas

No planificada, pero sistemtica?

(error de medida, material experimental, ... )

3.- Elegir una regla de asignacin de las unidades experimentales a las


condiciones de estudio (tratamientos).
La regla de asignacin o diseo experimental especifica que unidades
experimentales se observarn bajo cada tratamiento. Hay diferentes
posibilidades:
diseo factorial o no,
anidamiento,
asignacin al azar en determinados niveles de observacin,
el orden de asignacin, etc.
En la prctica, existen una serie de diseos estndar que se utilizan en la
mayora de los casos.

4.- Especificar las medidas que se realizarn (la respuesta), el


procedimiento experimental y anticiparse a las posibles dificultades.

Variable respuesta o variable de inters. Los datos que se recogen en un


experimento son medidas de una variable denominada variable respuesta o
variable de inters.
Es importante precisar de antemano cul es la variable respuesta y en qu
unidades se mide. Naturalmente, la respuesta est condicionada por los
objetivos del experimento. Por ejemplo, si se desea detectar una diferencia
de 0'05 gramos en la respuesta de dos tratamientos no es apropiado tomar
medidas con una precisin prxima al gramo.
A menudo aparecen dificultades imprevistas en la toma de datos. Es
conveniente anticiparse a estos imprevistos pensando detenidamente en los
problemas que se pueden presentar o ejecutando un pequeo experimento
piloto (etapa 5). Enumerar estos problemas permite en ocasiones descubrir
nuevas fuentes de variacin o simplificar el procedimiento experimental antes
de comenzar.
Tambin se debe especificar con claridad la forma en que se realizarn las
mediciones: instrumentos de medida, tiempo en el que se harn las
mediciones, etc.

5.- Ejecutar un experimento piloto.


Un experimento piloto es un experimento que utiliza un nmero pequeo
de observaciones. El objetivo de su ejecucin es ayudar a completar y
chequear la lista de acciones a realizar. Las ventajas que proporciona la
realizacin de un pequeo experimento piloto son las siguientes:
permite practicar la tcnica experimental elegida e identificar
problemas no esperados en el proceso de recogida de datos,
si el expeerimento piloto tiene un tamao suficientemente grande
puede ayudar a seleccionar un modelo adecuado al experimento principal,
los errores experimentales observados en el experimento piloto pueden
ayudar a calcular el nmero de observaciones que se precisan en el
experimento principal.

6.- Especificar el modelo.

El modelo matemtico especificado debe indicar la relacin que se supone


que existe entre la variable respuesta y las principales fuentes de variacin
identificadas en el paso 2. Es fundamental que el modelo elegido se ajuste a
la realidad con la mayor precisin posible.
El modelo ms habitual es el modelo lineal:

En este modelo la respuesta viene dada por una combinacin lineal de


trminos que representan las principales fuentes de variacin planificada ms
un trmino residual debido a las fuentes de variacin no planificada. Los
modelos que se estudian en este texto se ajustan a esta forma general. El
experimento piloto puede ayudar a comprobar si el modelo se ajusta
razonablemente bien a la realidad.
Los modelos de diseo de experimentos, segn sean los factores includos
en el mismo, se pueden clasificar en: modelo de efectos fijos, modelo de
efectos aleatorios y modelos mixtos. A continuacin se precisan estas
definiciones.
Factor de efectos fijos es un factor en el que los niveles han sido
seleccionados por el experimentador. Es apropiado cuando el inters se centra
en comparar el efecto sobre la respuesta de esos niveles especficos.
Ejemplo: un empresario est interesado en comparar el rendimiento de
tres mquinas del mismo tipo que tiene en su empresa.
Factor de efectos aleatorios es un factor del que slo se incluyen en el
experimento una muestra aleatoria simple de todos los posibles niveles del
mismo. Evidentemente se utilizan estos factores cuando tienen un nmero
muy grande de niveles y no es razonable o posible trabajar con todos ellos. En
este caso se est interesado en examinar la variabilidad de la respuesta
debida a la poblacin entera de niveles del factor.
Ejemplo: una cadena de hipermercados que tiene en plantilla 300
trabajadores de caja est interesada en estudiar la influencia del factor
trabajador en la variable tiempo en el cobro a un cliente.
Modelo de efectos fijos es un modelo en el que todos los factores son
factores de efectos fijos.

Modelo de efectos aleatorios es un modelo en el que todos los factores


son factores de efectos aleatorios.
Modelo mixto es un modelo en el que hay factores de efectos fijos y
factores de efectos aleatorios.

7.- Esquematizar los pasos del anlisis estadstico.


El anlisis estadstico a realizar depende de:
los objetivos indicados en el paso 1,
el diseo seleccionado en el paso 3,
el modelo asociado que se especific en el paso 5.
Se deben esquematizar los pasos del anlisis a realizar que deben incluir:
estimaciones que hay que calcular,
contrastes a realizar,
intervalos de confianza que se calcularn
diagnosis y crtica del grado de ajuste del modelo a la realidad.

8.- Determinar el tamao muestral.


Calcular el nmero de observaciones que se deben tomar para alcanzar los
objetivos del experimento.
Existen, dependiendo del modelo, algunas frmulas para determinar este
tamao. Todas ellas sin embargo requieren el conocimiento del tamao de la
variabilidad no planificada (no sistemtica y sistemtica, si es el caso) y
estimarlo a priori no es fcil, siendo aconsejable sobreestimarla.
Normalmente se estima a partir del experimento piloto y en base a
experiencias previas en trabajos con diseos experimentales semejantes.

9.- Revisar las decisiones anteriores. Modificar si es necesario.

De todas las etapas enumeradas, el proceso de recogida de datos suele ser


la tarea que mayor tiempo consume, pero es importante realizar una
planificacin previa, detallando los pasos anteriores, lo que garantizar que
los datos sean utilizados de la forma ms eficiente posible.
Es fundamental tener en cuenta que
Ningn mtodo de anlisis estadstico, por sofisticado que sea, permite
extraer conclusiones correctas en un diseo de experimentos mal
planificado.
Recprocamente, debe quedar claro que el anlisis estadstico es una etapa
ms que est completamente integrado en el proceso de planificacin.
El anlisis estadstico no es un segundo paso independiente de la tarea de
planificacin. Es necesario comprender la totalidad de objetivos propuestos
antes de comenzar con el anlisis. Si no se hace as, tratar que el experimento
responda a otras cuestiones a posteriori puede ser (lo ser casi siempre)
imposible.
Pero no slo los objetivos estn presentes al inicio del anlisis sino
tambin la tcnica experimental empleada. Una regla de oro en la
experimentacin y que debe utilizarse es la siguiente:
No invertir nunca todo el presupuesto en un primer conjunto de
experimentos y utilizar en su diseo toda la informacin previa disponible.
Finalmente indicar que todas las personas que trabajan en el experimento
se deben implicar en el mismo, esto es:
Toda persona implicada en la ejecucin del experimento y en la recoleccin
de los datos debe ser informada con precisin de la estrategia experimental
diseada.
2.4 Resumen de los pricipales conceptos.

En esta seccin se hace un resumen de la terminologa comn utilizada en la


teora de los modelos de diseo de experimentos:
Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo
sobre los que se experimenta.
Variable de inters o respuesta: es la variable que se desea estudiar y controlar
su variabilidad.
Factor: son las variables independientes que pueden influir en la variabilidad de la
variable de inters.

Factor tratamiento: es un factor del que interesa conocer su influencia en la


respuesta.
Factor bloque: es un factor en el que no se est interesado en conocer su
influencia en la respuesta pero se supone que sta existe y se quiere controlar
para disminuir la variabilidad residual.
Niveles: cada uno de los resultados de un factor. Segn sean elegidos por el
experimentador o elegidos al azar de una amplia poblacin se denominan factores
de efectos fijos o factores de efectos aleatorios.
Tratamiento: es una combinacin especfica de los niveles de los factores en
estudio. Son, por tanto, las condiciones experimentales que se desean comparar
en el experimento. En un diseo con un nico factor son los distintos niveles del
factor y en un diseo con varios factores son las distintas combinaciones de niveles
de los factores.
Observacin experimental: es cada medicin de la variable respuesta.
Tamao del Experimento: es el nmero total de observaciones recogidas en el
diseo.
Interaccin de factores: existe interaccin entre dos factores FI y FJ si el efecto
de algn nivel de FI cambia al cambiar de nivel en FJ. Esta definicin puede
hacerse de forma simtrica y se puede generalizar a interacciones de orden tres o
superior.
Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente,
son ortogonales si en cada nivel i de FI el nmero de observaciones de los J niveles
de FJ estn en las mismas proporciones. Esta propiedad permite separar los efectos
simples de los factores en estudio.
Diseo equilibrado o balanceado: es el diseo en el que todos los tratamientos
son asignados a un nmero igual de unidades experimentales.
2.5 Principios bsicos en el diseo de experimentos.

Al planificar un experimento hay tres tres principios bsicos que se deben


tener siempre en cuenta:
El principio de aleatorizacin.
El bloqueo.
La factorizacin del diseo.
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para
asignar los tratamientos a las unidades experimentales sin preocuparse de qu
tratamientos considerar. Por el contrario, la factorizacin del diseo define
una estrategia eficiente para elegir los tratamientos sin considerar en
absoluto como asignarlos despus a las unidades experimentales.

Aleatorizar
Aleatorizar todos los factores no controlados por el experimentador en el
diseo experimental y que puden influir en los resultados sern asignados al
azar a las unidades experimentales.
Ventajas de aleatorizar los factores no controlados:
Transforma la variabilidad sistemtica no planificada en variabilidad no
planificada o ruido aleatorio. Dicho de otra forma, aleatorizar previene contra
la introduccin de sesgos en el experimento.
Evita la dependencia entre observaciones al aleatorizar los instantes de
recogida muestral.
Valida muchos de los procedimientos estadsticos ms comunes.
Bloquear
Se deben dividir o particionar las unidades experimentales en grupos
llamados bloques de modo que las observaciones realizadas en cada bloque se
realicen bajo condiciones experimentales lo ms parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador
no est interesado en investigar las posibles diferencias de la respuesta entre
los niveles de los factores bloque.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las
unidades experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara
influencia en la respuesta pero en el que no se est interesado, es la
siguiente:
Convierte la variabilidad sistemtica no planificada en variabilidad
sistemtica planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las
estrategias de aleatorizar y de bloquear en un experimento.
Ejemplo 2.1.
Se desea investigar las posibles diferencias en la produccin de dos
mquinas, cada una de las cuales debe ser manejada por un operario.

En el planteamiento de este problema la variable respuesta es la


produccin de una mquina (en un da), el factor-tratamiento en el que se
est interesado es el tipo de mquina que tiene dos niveles y un factor
nuisance es el operario que maneja la mquina. En el diseo del
experimento para realizar el estudio se pueden utilizar dos estrategias para
controlar el factor operario que maneja la mquina.
Aleatorizar: se seleccionan al azar dos grupos de operarios y se asigna al
azar cada grupo de operarios a cada una de las dos mquinas. Finalmente se
evala la produccin de las mismas.
Bloquear: se introduce el factor-bloque operario. Se elige un nico
grupo de operarios y todos ellos utilizan las dos mquinas.
Qu consideraciones se deben tener en cuenta al utilizar estas dos
estrategias? Qu estrategia es mejor?
La factorizacin del diseo.
Un diseo factorial es una estrategia experimental que consiste en cruzar los
niveles de todos los factores tratamiento en todas las combinaciones
posibles.
Ventajas de utilizar los diseos factoriales:
Permiten detectar la existencia de efectos interaccin entre los
diferentes factores tratamiento.
Es una estrategia ms eficiente que la estrategia clsica de examinar la
influencia de un factor manteniendo constantes el resto de los factores.
2.6 Algunos diseos experimentales clsicos.

Un diseo experimental es una regla que determina la asignacin de las


unidades experimentales a los tratamientos. Aunque los experimentos difieren
unos de otros en muchos aspectos, existen diseos estndar que se utilizan
con mucha frecuencia. Algunos de los ms utilizados son los siguientes:
2.6.1 Diseo completamente aleatorizado.

El experimentador asigna las unidades experimentales a los tratamientos al


azar. La nica restriccin es el nmero de observaciones que se toman en
cada tratamiento. De hecho si ni es el nmero de observaciones en el i-simo
tratamiento, i = 1,...,I, entonces, los valores n1,n2,...,nI determinan por
completo las propiedades estadsticas del diseo. Naturalmente, este tipo de
diseo se utiliza en experimentos que no incluyen factores bloque.

El modelo matemtico de este diseo tiene la forma:

2.6.2 Diseo en bloques o con un factor bloque.

En este diseo el experimentador agrupa las unidades experimentales en


bloques, a continuacin determina la distribucin de los tratamientos en cada
bloque y, por ltimo, asigna al azar las unidades experimentales a los
tratamientos dentro de cada bloque.
En el anlisis estadstico de un diseo en bloques, stos se tratan como los
niveles de un nico factor de bloqueo, aunque en realidad puedan venir
definidos por la combinacin de niveles de ms de un factor nuisance.
El modelo matemtico de este diseo es:

El diseo en bloques ms simple es el denominado diseo en bloques


completos, en el que cada tratamiento se observa el mismo nmero de veces
en cada bloque.
El diseo en bloques completos con una nica observacin por cada
tratamiento se denomina diseo en bloques completamente aleatorizado o,
simplemente, diseo en bloques aleatorizado.
Cuando el tamao del bloque es inferior al nmero de tratamientos no es
posible observar la totalidad de tratamientos en cada bloque y se habla
entonces de diseo en bloques incompletos.
2.6.3 Diseos con dos o ms factores bloque.

En ocasiones hay dos (o ms) fuentes de variacin lo suficientemente


importantes como para ser designadas factores de bloqueo. En tal caso,
ambos factores bloque pueden ser cruzados o anidados.
Los factores bloque estn cruzados cuando existen unidades
experimentales en todas las combinaciones posibles de los niveles de los
factores bloques.
Diseo con factores bloque cruzados. Tambin denominado diseo filacolumna, se caracteriza porque existen unidades experimentales en todas las
celdas (intersecciones de fila y columna).
El modelo matemtico de este diseo es:

Los factores bloque estn anidados si cada nivel particular de uno de los
factores bloque ocurre en un nico nivel del otro factor bloque.
Diseo con factores bloque anidados o jerarquizados. Dos factores
bloque se dicen anidados cuando observaciones pertenecientes a dos niveles
distintos de un factor bloque estn automticamente en dos niveles distintos
del segundo factor bloque.
En la siguiente tabla puede observarse la diferencia entre ambos tipos de
bloqueo.

Bloques Cruzados

Bloques Anidados

Bloque 1

Bloq
ue 2

Bloque 1

Bloq
ue 2

Tabla 2.1: Plan esquemtico de experimentos con dos factores bloque

2.6.4 Diseos con dos o ms factores.

En algunas ocasiones se est interesado en estudiar la influencia de dos (o


ms) factores tratamiento, para ello se hace un diseo de filas por columnas.
En este modelo es importante estudiar la posible interaccin entre los dos
factores. Si en cada casilla se tiene una nica observacin no es posible
estudiar la interaccin entre los dos factores, para hacerlo hay que replicar el
modelo, esto es, obtener k observaciones en cada casilla, donde k es el
nmero de rplicas.
El modelo matemtico de este diseo es:
Respuesta igual a constante mas efecto factor fila mas efecto factor columna
mas efecto de interaccion mas errror
Generalizar los diseos completos a ms de dos factores es relativamente
sencillo desde un punto de vista matemtico, pero en su aspecto prctico
tiene el inconveniente de que al aumentar el nmero de factores aumenta
muy rpidamente el nmero de observaciones necesario para estimar el
modelo. En la prctica es muy raro utilizar diseos completos con ms de
factores.
Un camino alternativo es utilizar fracciones factoriales que son diseos en
los que se supone que muchas de las interacciones son nulas, esto permite
estudiar el efecto de un nmero elevado de factores con un nmero
relativamente pequeo de pruebas. Por ejemplo, el diseo en cuadrado
latino, en el que se supone que todas las interacciones son nulas, permite
estudiar tres factores de k niveles con solo k2 observaciones. Si se utilizase el
diseo equilibrado completo se necesitan k3 observaciones.
2.6.5 Diseos factoriales a dos niveles.

En el estudio sobre la mejora de procesos industriales (control de calidad) es


usual trabajar en problemas en los que hay muchos factores que pueden
influir en la variable de inters. La utilizacin de experimentos completos en
estos problemas tiene el gran inconveniente de necesitar un nmero elevado
de observaciones, adems puede ser una estrategia ineficaz porque, por lo
general, muchos de los factores en estudio no son influyentes y mucha
informacin recogida no es relevante. En este caso una estrategia mejor es
utilizar una tcnica secuencial donde se comienza por trabajar con unos pocos
factores y segn los resultados que se obtienen se eligen los factores a
estudiar en la segunda etapa.
Los diseos factoriales 2k son diseos en los que se trabaja con k factores,
todos ellos con dos niveles (se suelen denotar + y -). Estos diseos son

adecuados para tratar el tipo de problemas descritos porque permiten


trabajar con un nmero elevado de factores y son vlidos para estrategias
secuenciales.
Si k es grande, el nmero de observaciones que necesita un diseo
factorial 2k es muy grande (n = 2k). Por este motivo, las fracciones factoriales
2k-p son muy utilizadas, stas son diseos con k factores a dos niveles, que
mantienen la propiedad de ortogonalidad de los factores y donde se suponen
nulas las interacciones de orden alto (se confunden con los efectos simples)
por lo que para su estudio solo se necesitan 2k-p observaciones (cuanto mayor
sea p menor nmero de observaciones se necesita pero mayor confusin de
efectos se supone).
En los ltimos aos Taguchi ha propuesto la utilizacin de fracciones
factoriales con factores a tres niveles en problemas de control de calidad
industrial.
En el captulo 3 se expuso el diseo de experimentos ms sencillo, el modelo
completamente aleatorizado, que tiene un factor tratamiento. Con el fin de
reducir la variabilidad residual de este modelo se puede introducir en el
mismo un factor-bloque para obtener el modelo de diseo en bloques
completamente aleatorizados, primer modelo que se estudia en este captulo.
El siguiente modelo, un poco ms complejo, es el modelo con dos factores
tratamiento entre los que puede haber interaccin. El estudio de estos
modelos es fcilmente generalizable a modelos con ms factores tratamiento
y factores bloque. El ltimo modelo que se estudia en este captulo es el
diseo fraccional de cuadrado latino, que es un buen ejemplo de diseo
fraccional.

5.1 Concepto de bloque.


Al estudiar la influencia de un factor-tratamiento en una variable de inters
puede ser importante eliminar (controlar) estadsticamente la influencia de
un factor que puede influir en la variable respuesta. Para ello se utiliza el
concepto de bloque, que se basa en seleccionar niveles de esta variable y
aplicar en cada uno de ellos todos los niveles del factor principal, de esta
forma disminuye la variabilidad residual o no explicada.
Por tanto, un factor-bloque es un factor cuyo control puede reducir
significativamente la variabilidad no explicada y que no interacciona con los
factores principales.
El siguiente ejemplo ayuda a comprender estas ideas.
Ejemplo 5.1.

Una empresa fotogrfica tiene que realizar una compra de impresoras de


gran calidad que se van a utilizar en imprimir fotografas digitales. La
empresa tiene ofertas de I marcas de impresoras de similares caractersticas
y precio. Para la empresa fotogrfica es muy importante la velocidad de
impresin y por este motivo est interesada en saber si las I impresoras
ofertadas tienen la misma velocidad o si hay una que es ms rpida. Para
responder a esta pregunta decide hacer un experimento que se puede
plantear de dos formas:
[1] De los muchos ficheros de fotos digitales que tiene la empresa, elegir
al azar I muestras de J fotos e imprimir en cada una de las impresoras una de
las muestras, aleatorizando la asignacin de muestras que se deben imprimir
en cada impresora.
Esta estrategia es la del modelo de diseo de experimentos
completamente aleatorizado que es perfectamente vlido. En este ejemplo la
variable de inters es la velocidad de impresin y el factor-tratamiento el
tipo de impresora.
Un inconveniente que puede tener esta estrategia es que exista una fuerte
variabilidad en el tipo de fotos, esto es, que haya fotos que se impriman en
poco tiempo y otras no, independientemente de la impresora utilizada. En
este caso la variabilidad de la respuesta velocidad de impresin es debida
no solo al tipo de impresora sino tambin al tipo de fotos seleccionadas.
Si la variabilidad debida al tipo de fotos es muy grande y no se tiene en
cuenta, la variabilidad residual del modelo es grande y puede enmascarar la
significatividad del factor de inters, el tipo de impresora. Este problema
se puede reducir en parte si el tamao muestral es muy grande, aunque tiene
el inconveniente de tener un mayor coste.
[2] Una estrategia alternativa es elegir una nica muestra de J fotos e
imprimirlas en cada una de las I impresoras, de esta forma se controla la
variabilidad debida al tipo de fotos. Esta estrategia es fuertemente
recomendable si se supone que la variabilidad del tipo de fotos es alta.
Tngase en cuenta que el nmero de pruebas a realizar segn las dos
estrategias propuestas es el mismo: IJ.
La segunda propuesta conlleva el bloqueo de las unidades experimentales:
cada foto es un bloque.
En este ejemplo se est interesado en estudiar la influencia del factor
tratamiento tipo de impresora pero eliminando o controlando la posible

influencia factor bloque tipo de foto en la variable respuesta velocidad


de impresin.
Los resultados del experimento se recogen en una tabla como la siguiente

Bloq.1

Bloq.2

Bloq.J

Trat.1

y11

y12

y1J

Trat.2

y21

y22

y2J

Trat.I

yI1

yI2

yIJ

Del ejemplo anterior se deduce que

Bloquear un experimento consiste en distribuir las unidades experimentales


en grupos tales que unidades experimentales pertenecientes a un mismo
grupo deben ser similares y pueden ser analizadas en condiciones
experimentales semejantes, en tanto que unidades experimentales ubicadas
en grupos distintos darn lugar, probablemente, a respuestas diferentes an
cuando sean asignadas a un mismo tratamiento.
Cada uno de los conjuntos de unidades experimentales similares se denomina
bloque.

Del ejemplo anterior se deduce que:


"Bloquear un experimento consiste en distribuir las unidades
experimentales en subgrupos tales que unidades experimentales
pertenecientes a un mismo subgrupo deben ser similares y pueden ser
analizadas en condiciones experimentales semejantes, en tanto que unidades
experimentales ubicadas en subgrupos distintos darn lugar probablemente a

respuestas diferentes an cuando sean asignadas a un mismo tratamiento.


Cada uno de estos conjuntos de unidades experimentales similares se
denomina bloque."
Un diseo en bloques es apropiado cuando el objetivo del experimento es
comparar los efectos de diferentes tratamientos promediados sobre un rango
de condiciones experimentales distintas. Con los modelos de diseo de
experimentos en bloques se quiere conseguir dos cosas:

1. evitar que grandes diferencias entre las unidades experimentales


enmascaren diferencias reales entre los tratamientos,
2. medir los efectos de los tratamientos en condiciones experimentales
distintas.
Un ejemplo de utilizacin de un diseo con bloques es el denominado de
datos apareados para comparar dos tratamientos o medias de dos poblaciones
(expuesto en el captulo 1) cuando se aplican los dos tratamientos a los
mismos individuos, en este caso cada individuo es un bloque.

5.2 Diseo en bloques completamente aleatorizados.


El modelo de diseo de experimentos con bloques ms sencillo es el diseo de
bloques completamente aleatorizados, con este diseo se quiere estudiar la
influencia de un factor tratamiento (T ) con I niveles en una variable de
inters en presencia de una variable extraa, el factor bloque, B , que tiene
J bloques.
El motivo de la denominacin de este modelo es la siguiente: se ha
agrupan las unidades experimentales en J bloques, en funcin de B ,
aleatorizando la forma de asignar los tratamientos dentro de cada bloque y
es un diseo completo y equilibrado porque cada tratamiento se utiliza
exactamente una vez dentro de cada bloque.
En este modelo, un bloque es un grupo de I unidades experimentales tan
parecidas como sea posible con respecto a la variable B , asignndose
aleatoriamente cada tratamiento a una unidad dentro de cada bloque.

5.2.1 Modelo matemtico.


La formulacin matemtica del modelo de diseo en bloques completamente
aleatorizados con un factor principal (factor tratamiento), T , con I niveles y

un factor secundario (factor bloque), B , con J niveles o bloques es la


siguiente:
Para cada i = 1,...,I; j = 1,...,J,

(5.1)

siendo,
* Y el resultado del tratamiento i-simo, i = 1,2,...,I de T al bloque jsimo, j = 1,2,...,n .
ij

* es la media de toda la poblacin. Mide el nivel medio de todos los

resultados.
es el efecto del tratamiento i-simo de T , i = 1,2,...,I. Mide el
efecto incremental del tratamiento del nivel i de T sobre el efecto
global. Se verifica que i = 1I = 0,
*

es el efecto del bloque j-simo, j = 1,2,...,J, mide el efecto


incremental del tratamiento del factor secundario (bloque) sobre el
efecto global ( ). Se verifica que j = 1J = 0,
*

es el error experimental o perturbacin, son variables aleatorias


independientes idnticamente distribuidas (i.i.d.) con distribucin N
*

ij

El nmero de observaciones es: n = IJ,


El problema bsico que se plantea es contrastar la hiptesis nula de que el
factor-tratamiento no influye,
(5.2)
frente a la alternativa de que s existen diferencias entre los valores medios
de los distintos tratamientos.
En el estudio de este modelo debe de tenerse en cuenta que no existe
interaccin entre el factor-tratamiento y el factor-bloque y en el desarrollo el
problema puede hacerse un segundo contraste acerca de si el factor-bloque es
influyente o no. Este contraste es

(5.3)
frente a la alternativa de que s existen diferencias entre los valores medios
de los distintos tratamientos del segundo factor. Sin embargo en el modelo
tratamiento-bloque realizar este contraste carece de inters salvo para saber
si ha sido conveniente bloquear o no.
Por ello en la prctica:
Carece de inters plantearse la hiptesis nula de igualdad de los efectos
bloque. El nico objetivo puede ser el de concluir si bloquear el experimento
result o no beneficioso.
En efecto, si la suma de cuadrados medios atribuibles a los bloques es
considerablemente mayor que la suma de cuadrados medios residual, habr
resultado til bloquear en el sentido de que tal accin deriv en una
reduccin del tamao del error experimental. En otro caso, bloquear es
contraproducente.

5.2.2 Estimacin de los parmetros.


El nmero de parmetros que hay que estimar en modelo (5.1) es

utilizando n = IJ observaciones hay que estimar un nmero de parmetros

Se utiliza el mtodo de mnimos cuadrados que se basa en minimizar la suma


de los cuadrados de los residuos
(5.4)

se obtienen los siguientes estimadores:


(5.5)

(5.6)

(5.7)
Por tanto, la prediccin en la casilla

es
(5.8)

y los residuos son

La suma de los residuos en cada fila y cada columna es cero, por tanto,
hay I + J - 1 relaciones entre los IJ residuos y el nmero de grados de libertad
es

Razonando como en el modelo de diseo completamente aleatorizado se


obtiene que el estimador de la varianza es la varianza residual
(5.9)
Propiedades de los estimadores.

La distribucin de los estimadores anteriores es la siguiente,


(5.10)
(5.11)
(5.12)
(5.13)
Por tanto, los estimadores definidos son centrados y eficientes. Utilizando las
distribuciones anteriores (la t y la ) se pueden calcular intervalos de
confianza de los parmetros del modelo.
Para calcular intervalos de confianza acerca de las medias de los niveles,
las distribuciones de referencia son:
2

Para las medias de los niveles

del factor tratamiento T

(5.14)

Para las medias de los bloques

del factor bloque B


(5.15)

5.2.3 Anlisis de la varianza.


Utilizando

se puede hacer la siguiente descomposicin de las diferencias para cada i =


1,...,I;
j = 1,...,J,

(5.16)

elevando al cuadrado en (5.16) y teniendo en cuenta que los dobles


productos se anulan, la suma de cuadrados global se puede descomponer de la
forma:

esto es,
(5.13)
escrito de otra forma

de donde se deduce la siguiente tabla ANOVA

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO TRATAMIENTO-BLOQUE
Fuente de

Suma de

Variacin

Cuadrados

g.l.

scm

scmT =
scT =
Tratamientos
J

I1

scmT =

scB =
Bloques

J -1
I

scR =
Residual
i

(I
-1)
(J
-1)

scmR =

scG =
Global

Rechazar H0(1) :

= ... =

Rechazar H0(2) :

= ... =

scmG =

IJ 1

, segn p = P

, segn p = P

Tabla 5.1: Anlisis de la varianza para un diseo en bloques completamente


aleatorizados.
De esta tabla ANOVA se deducen dos contrastes:
Si H0(

es cierto, el factor-tratamiento no influye, se verifica que

(5.14)

se rechaza H0(

al nivel de significacin si

>F

Si H0(

es cierto, el factor-bloque no influye, se verifica que

(5.15)

se rechaza H0(

al nivel de significacin si

= (scmB / scmR) > F

Comentarios.

La eficacia de este diseo depende de los efectos de los bloques. Si stos


son pequeos, es ms eficaz el diseo completamente aleatorio ya que el
denominador en la comparacin de tratamientos tiene menos grados de
libertad. Sin embargo si los bloques influyen es mucho mejor y ms eficaz
este modelo, ya que disminuye la variabilidad no explicada. Por ello, es
mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques
no influyen, se pasa fcilmente al modelo de un solo factor sumando en la
tabla ANOVA la fila del factor bloque con la de la variabilidad residual.
Se define el Coeficiente de Determinacin como:

siendo R (T ) y R (T ) los coeficientes de determinacin parciales asociados al


factor-tratamiento y al factor-bloque, respectivamente. Representan el
tanto por uno de la variabilidad total explicada por los tratamientos y los
bloques.
2

El tratamiento estadstico expuesto para el modelo de diseo de


experimentos completamente aleatorizado con un factor tratamiento y un
factor bloque es exactamente igual que el diseo de experimentos con dos
factores tratamiento sin interaccin.
Si de la tabla ANOVA del modelo de diseo de experimentos completamente
aleatorizado se deduce que existen diferencias entre los tratamientos,
estas diferencias
se estiman por

Se pueden obtener intervalos de confianza de


distribucin

a partir de la

(5.16)
de forma anloga se puede hacer para las diferencias

La eficacia de este diseo depende de los efectos de los bloques. Si


stos son pequeos, es ms eficaz el diseo completamente aleatorio ya
que el denominador en la comparacin de tratamientos (ver (5. 13)) tiene
menos grados de libertad. Sin embargo si los bloques influyen es mucho
mejor y ms eficaz este modelo ya que disminuye la variabilidad no
explicada.
Por ello es mejor estudiar primero el modelo de bloques aleatorizados y,
si los bloques no influyen, se pasa fcilmente al modelo de un solo factor
sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad
residual. Aunque existe una discusin acerca de si se puede pasar de un
modelo a otro ya que una diferencia importante entre los dos modelos es
que en un diseo completamente aleatorizado, los tratamientos y,
equivalentemente, los niveles de los factores tratamiento son asignados
aleatoriamente a las unidades experimentales. Por el contrario, en un
diseo en bloques, aunque las observaciones son tambin tomadas sobre
todas las combinaciones de tratamientos y bloques, slo los niveles del
factor tratamiento son asignados aleatoriamente a las unidades
experimentales. Hay que tener en cuenta que la divisin de las unidades
experimentales para formar los bloques es determinista. Esto ha hecho que
exista una fuerte controversia acerca de si es apropiado o no contrastar la
igualdad de los efectos bloque. Al fin y al cabo, en el diseo que se est
analizando los bloques representan fuentes de variacin nuisance, esto
es, no existe inters alguno en la posible significacin del efecto bloque.
Ms an, es poco probable que sea factible utilizar los mismos bloques en
una hipottica rplica del experimento.
Por todo ello, en la prctica
Bloquear sin ser necesario conduce a pruebas de hiptesis menos
potentes y a intervalos de confianza ms amplios que aquellos que se
obtendran mediante un diseo completamente aleatorizado.
Si se tiene un diseo de experimentos con dos factores tratamiento (T
y T ) entre los que no existe interaccin, el tratamiento estadstico y
desarrollo que se estudia en esta seccin es vlido para este modelo. En
este caso el contraste de las dos hiptesis acerca de la influencia de los
efectos de los niveles de los dos factores T y T dados en (5.2 ) y (5.3 )
son de gran inters, contrastes que se resuelven a partir de la tabla ANOVA
utilizando (5.1 3) y (5.1 4). En cualquier caso, aunque el modelo de bloques
completamente aleatorizado y el modelo de dos factores sin interacin
tienen un desarrollo matemtico anlogo, su planteamiento y objetivos son
diferentes.

5.2.4 Anlisis de residuos.


Como en cualquier modelo estadstico hay que contrastar que se verifican las
hiptesis del modelo. Esto se hace, bsicamente, por medio del anlisis de los
residuos. Todo lo estudiado sobre este particular en el modelo de un solo
factor (diseo completamente aleatorizado) sigue siendo vlido para este
modelo. Se contrastarn las hiptesis de:
Normalidad de los residuos.
Homocedasticidad: la varianza en los diferentes niveles de cada uno de los

dos factores es constante.


Independencia de los residuos.
Homogeneidad de los datos, todos provienen de la misma distribucin y no

hay datos atpicos.


No existe interaccin entre los dos factores. El concepto de interaccin se
estudia con mayor detalle en la seccin siguiente. Intuitivamente y basndose en
el ejemplo 5.1. que no exista interaccin entre el factor tratamiento T y el
factor bloque B significa que la velocidad de impresin de una determinada
impresora es mayor (o menor) de la media global independientemente de la foto
que imprima (del bloque).

Si existe interaccin entre T y B , el modelo de bloques completamente


aleatorizado no es adecuado y hay que tratar el factor bloque como un
factor tratamiento (T ). Se tiene entonces un diseo de experimentos con
dos factores (tratamiento) y el modelo matemtico es
(5.20)
el parmetro ( )ij representa la interaccin del nivel i del factor T con el nivel
j del factor T . Este modelo se estudia en la seccin 4 de este captulo.

5.2.5 Anlisis de un caso.

Se desarrolla el problema presentado en el Ejemplo 5.1. cuyo enunciado ms


concreto es el siguiente,
Ejemplo 5.1.b.
Una empresa fotogrfica tiene que realizar una compra de impresoras de
gran calidad que se van a utilizar en imprimir fotografas digitales. La
empresa tiene ofertas de I = 5 marcas de impresoras de similares

caractersticas y precio. Para la empresa fotogrfica es muy importante la


velocidad de impresin y, por este motivo, est interesada en saber si las 5
impresoras ofertadas tienen la misma velocidad o hay una que es ms rpida.
Para responder a esta pregunta decide hacer un experimento que consiste en
elegir una nica muestra de J = 4 fotos e imprimirlas en las 5 impresoras.
Los resultados del experimento se recogen en la tabla adjunta

Foto A

Foto B

Foto C

Foto D

Impresora 1 89

88

97

94

Impresora 2 84

77

92

79

Impresora 3 81

87

87

85

Impresora 4 87

92

89

84

Impresora 5 79

81

80

88

Solucin.

Estimacin de los parmetros.


Se obtienen las siguientes estimaciones
Estimaciones

Foto A

Impresora 89
1

Foto B

88

Foto C

97

Foto D

94

92

Impresora 84
2

77

92

79

83

-3

Impresora 81
3

87

87

85

85

-1

Impresora 87
4

92

89

84

88

Impresora 79
5

81

80

88

82

-4

84

85

89

86

-2

-1

..

= 86

Las predicciones y residuos son :

Predicciones

F. A

F. B

F. C

F. D

I.1 90

91

95

92

I.2 81

82

86

83

I.3 83

84

88

85

I.4 86

87

91

88

I.5 80

81

85

82

Residuos

F. A

F. B

F. C

F. D

I.1

-1

-3

I.2

-5

-4

I.3

-2

-1

I.4

-2

-4

I.5

-1

-5

La varianza residual es

Intervalos de confianza.
Intervalos de confianza al 90% para los parmetros del modelo son:
Para

Para (tiempo medio global)

Para

I3

= +

Para

(el efecto de la impresora 3)

Para

31

(tiempo medio de imprimir de la impresora 3)

I3

I1

(diferencia entre la impresora 3 y la 1)

Trabajando al 90% se obtienen los siguientes grupos homogneos de


impresoras:
Imp. 5 - Imp. 2 - Imp. 3
Imp. 2 - Imp. 3 - Imp. 4
Imp. 4 - Imp. 1
Tabla ANOVA.

Fuentes de

Suma de

Grados de

variacin

cuadrados

libertad

scT

264

Varianzas

66'00

scB

70

23'33

scExplicada

334

47'71

scR

226

12

18'83

scG

560

19

29'47

A partir de esta tabla se obtienen los siguientes contrastes

H0

= ... =

= 0 (el tipo de impresora no influye)

p-valor= 0'0407. Se rechaza H0


para = 0'05, pero el p-valor ofrece
dudas acerca de la influencia del factor tipo de impresora.
H0

= ... =

= 0 (el tipo de foto no influye)

p-valor= 0'3387. Se acepta H0


para cualquier razonable y el factor
bloque tipo de foto no influye, por tanto, no convena bloquear.
Coeficientes de determinacin.
Los coeficientes de determinacin parciales son

el factor tipo de impresora explica el 47'14% de variabilidad.

el factor tipo de foto explica el 12'50% de variabilidad.


El coeficiente de determinacin total es la suma de los parciales,

el modelo explica el 59'64% de variabilidad.


Un modelo alternativo.
En conclusin, parece razonable aceptar la influencia del factortratamiento tipo de impresora y la no influencia del factor bloque tipo de
foto. Se puede pasar facilmente al modelo completamente aleatorizado, la
tabla ANOVA con un solo factor que se obtiene de la anterior sumando las
filas de scB y scR, obteniendo
Tabla ANOVA

Resultados con un solo factor

Fuentes de

Suma de

Grados de

Variacin

Cuadrados

libertad

scT

264

66'00

scR

296

15

19'73

scG

560

19

29'47

Ahora el contraste H0

= ... =

Varianzas

= 0 (el tipo de impresora no influye) es

p-valor= 0'038. Se rechaza H0


para > 0'038. Se tiene mayor seguridad
acerca de la influencia del factor tipo de impresora que en el modelo
anterior.

5.3 La interaccin entre factores.


Se considera un diseo completamente aleatorizado con dos factores
tratamiento T y T cuyos niveles se cruzan. El factor T tiene I niveles y el
factor T tiene J niveles. Por tanto hay un total de IJ tratamientos distintos
codificados por

Si para cada uno de los n = IJ tratamientos se tiene una observacin, el


modelo matemtico del diseo tiene la forma (dada en (5.20 ))

En este modelo el nmero de parmetros a estimar es

mayor que el nmero de observaciones y que el nmero de grados de libertad


de los residuos. Por tanto no es posible estimar el modelo. Para resolver este
problema hay las siguientes alternativas:

[1] Aumentar el nmero de observaciones, se replica el diseo K veces y se


tiene KIJ observaciones. El modelo con dos factores replicado se estudia en la
seccin siguiente.

[2] Disminuir el nmero de parmetros, suponiendo que algunas


interacciones son nulas o que son funciones de unos pocos parmetros. Por
ejemplo, suponer que las interacciones tienen una forma funcional
multiplicativa (hiptesis de Tuckey)

con esta hiptesis solo hay un parmetro adicional


respecto al
modelo sin interaccin. El nmero de parmetros del modelo es I + J +
1 < IJ = n.

[2] En la prctica, cuando se ajustan modelos complejos donde intervienen


muchos factores, se utiliza una combinacin de las dos estrategias anteriores.
Por ejemplo, se supone que las interacciones de orden superior a dos son
nulas y se replica el experimento.

Test de Tuckey.

Para contrastar que no existe interaccin entre el factor tratamiento y el


factor bloque en el diseo por bloques completamente aleatorizado se puede
utilizar el test de Tuckey que permite contrastar la hiptesis de que las
interacciones son de la forma
=
.. Esto es, se quiere contrastar
ij

Al ajustar el modelo (5.1 ) si

0 se verifica que

de esta expresin se deduce:


Si

son valores grandes y del mismo signo, los residuos son altos, y

las predicciones
media.

ij

= +

estn muy por arriba o por debajo de la

Si i y j son valores pequeos y/o de distinto signo, los residuos son


pequeos y las predicciones estn en torno a la media.
En base a sto
el contraste de Tuckey se basa en dibujar la grfica de los residuos eij frente
a las predicciones ij, si existe una interaccin de tipo multiplicativo la nube
de puntos tiene forma parablica.
El contraste de Tuckey tambin se puede hacer de forma analtica. Se
dibuja la nube de puntos de los residuos eij frente a la variable xij = i j, y se
ajusta una recta. Entonces contrastar la hiptesis H0 : = 0 es equivalente a
contrastar que el coeficiente de correlacin entre xij y eij es cero. Si no se
acepta H0 el estimador de es la pendiente de la recta ajustada.

En las Figura 5.1, 5.2. y 5.3. se presentan diferentes grficos de e frente a


, con diferentes posibilidades sobre la interaccion multiplicativa.
ij

ij

Figura 5.1. No hay indicios de que exista interaccin multiplicativa.

Figura 5.2. Existe interaccin entre los factores.

Figura 5.3. Existe interaccin y heterocedasticidad.

El significado de la interaccin

Considrese el modelo con dos factores tratamiento T y T con I y J


niveles, respectivamente. El diseo completo se ha replicado K veces, esto es,
para cada tratamiento (casilla) ij se tienen K observaciones. Se denota yijk a la
k-sima observacin del tratamiento ij, con k = 1,2,...,K. El tamao del
experimento es n = IJK, el modelo asociado es

Entonces la falta de interaccin entre los factores T y T se interpreta como


sigue:
Se dice que no existe interaccin entre los dos factores tratamiento T y T
cuando sus efectos sobre la respuesta son aditivos. En otros trminos, la
diferencia de las respuestas medias tericas en dos niveles cualesquiera de un
factor es constante en todos los niveles del otro factor y viceversa:

Un grfico ilustrativo de la posible existencia de interaccin es el


denominado grfico de interaccin. Para construir este grfico se marcan en el

eje de abscisas los niveles de uno de los dos factores tratamiento, por
ejemplo el A, y se dibuja la nube de puntos

uniendo a continuacin con segmentos las medias muestrales y con igual j.


ij.

Aunque los grficos de interaccin son muy intuitivos y tiles, pueden


conducir a interpretaciones peligrosas debido a que en ellos no se refleja el
tamao del error experimental. Esto puede llevar a deducir del grfico la
existencia de interaccin y, sin embargo, el error experimental ser lo
suficientemente grande como para que el anlisis de la varianza no detecte la
interaccin como significativa (y viceversa). Por tanto, se debe ser muy
prudente con las conclusiones que se derivan de un grfico de este tipo.
Frecuentemente el inters del diseo radica fundamentalmente en evaluar
la contribucin individual de cada factor tratamiento sobre la respuesta
observada. A los efectos marginales de cada factor se les denomina efectos
principales. Sin embargo, cuando el efecto interaccin entre ambos factores
es importante, puede ser imposible examinar por separado cada uno de los
efectos principales.
Ejemplo 5.2.
En base a las calificaciones en pruebas escritas se evalan los resultados
obtenidos con dos mtodos de enseanza distintos (mtodo 1 y mtodo 2) y
con tres profesores (profesores 1, 2 y 3). Las Figuras 5.4 y 5.5 muestran ocho
posibles grficos de interaccin reflejando otros tantos resultados posibles
para el experimento.
En las cuatro situaciones descritas en la Figura 5.4. la interaccin no
existe. Las lneas resultantes de unir las medias obtenidas con cada mtodo
son paralelas o coincidentes y, por ello, los diferencias (cuando existen) entre
los niveles de cada factor son estables a travs de los niveles del otro factor.

(a) Prof.: No, Mt.: No, Inter.: No

(b) Prof.: No, Mt.: Si, Inter.: No

(c) Prof.: Si, Mt.: No, Inter.: No

(d) Prof.: Si, Mt.: Si, Inter.: No

Figura 5.4.: Cuatro posibles configuraciones de los efectos sin presencia de


interaccin
En la Figura 5.5. en todos los grficos el efecto interaccin es significativo.
En el grfico (a) todos los profesores obtienen las calificaciones ms altas con

el mtodo de enseanza 1; ahora bien, las diferencias son muy grandes en el


caso del profesor 1 y muy pequeas con el profesor 3. Es claro que existen
diferencias entre los mtodos de enseanza pero, existen diferencias entre
los profesores? (obsrvese que los promedios muestrales de todos ellos son
idnticos). Por el contrario, en el grfico (c), est claro que existen
diferencias entre los profesores. Dos obtienen mejores puntuaciones con el
mtodo 1 y uno con el mtodo 2. Sin embargo, si se hubiesen ignorado los
mtodos, las diferencias no existiran pues las puntuaciones medias de los tres
son idnticas. Ms an, un ANOVA no detectera diferencias significativas.

(a) Prof.: No?, Mt.: Si, Inter.: Si

(b) Prof.: Si, Mt.: No?, Inter.: Si

(c) Prof.: No?, Mt.: No?, Inter.: Si

(d) Prof.: Si, Mt.: Si, Inter.: Si

Figura 5.5: Cuatro posibles configuraciones de los efectos con presencia de


interaccin
De este ejemplo se sigue la siguiente conclusin:
Si la interaccin es significativa, ser complejo examinar los efectos de cada
factor tratamiento por separado. Por ejemplo, la presencia de interaccin
significativa podra encubrir diferencias reales entre los niveles de algn
factor, de modo que no se detectasen diferencias significativas entre ellos en
el anlisis estadstico.

5.4 Modelos de dos factores-tratamiento.


Se continua trabajando con el diseo completamente aleatorizado con dos
factores tratamiento T y T con I y J niveles, respectivamente, y se supone
que las interacciones entre ambos factores son no nulas. Como se explic en
la seccin anterior para poder estimar este modelo es necesario replicar el
experimento. Si se replica K veces el experimento se tienen K unidades
experimentales en cada casilla (tratamiento) ij.
5.4.1 Modelo matemtico.
El modelo matemtico asociado al diseo de dos factores-tratamiento con
interaccin y replicado es el siguiente:
Para cada i = 1,...,I, j = 1,...,J, k = 1,...,K se tiene el siguiente modelo:

(5.22)

con

ijk

v.a. independientes con distribucin N

Donde,
es el resultado del tratamiento i-simo, i = 1,2,...,I del factor T y del
tratamiento j-simo, j = 1,2,...,n del factor T , en la replicacin t-sima, t =
Y

ijk

1,...,K.

es el efecto global que mide el nivel medio de todos los resultados,


es el efecto (positivo o negativo) sobre la respuesta debido a que se
observa el nivel i del factor T . Se verifica que i = 1I = 0,
i

es el efecto (positivo o negativo) sobre la respuesta debido a que se


observa el nivel j del factor T . Se verifica que j = 1J = 0,
j

representa la interaccin y es el efecto extra (positivo o negativo)


sobre la respuesta debido a que se observan conjuntamente los niveles i y j
de los factores T y T respectivamente. Mide la desviacin de las medias
de la hiptesis de aditividad de los efectos y viene definida por:
ij

Se verifica que
ijk

I
i=1

ij

J
j=1

ij

= 0, para i = 1,...,I; j = 1,...,J.

es el error experimental o perturbacin, son variables aleatorias

independientes idnticamente distribuidas (i.i.d.) con distribucin N


Por tanto, los parmetros de este modelo son

Parmetros

Nmero

I-1

J-1

ij

Total

IJ + 1

Siendo n = IJK el nmero de observaciones.


El modelo (5.22)de diseo de experimentos con dos factores tratamiento
con interacin se conoce como modelo completo de dos vas o modelo de
anlisis de la varianza de dos vas.
Si, ocasionalmente, experimentos similares previos o hechos cientficos
contrastados garantizan con una razonable seguridad que ambos factores no
interaccionan, el experimento se modeliza a travs de:

(5.23)
con

ijk

v.a. independientes con distribucin N

El modelo (5.23) es un submodelo del modelo completo de dos vas y se


denomina modelo de efectos principales de dos vas o modelo aditivo de dos vas
dado que el efecto sobre la respuesta del tratamiento ij se modeliza como la
suma de los efectos individuales de cada factor. Es importante

Usar el modelo de efectos principales slo cuando se tiene la certeza


de que no existe interaccin entre los factores.

Si no se tiene un conocimiento razonable acerca de la interaccin debe


seleccionarse un modelo completo. El motivo es que la inferencia sobre los
efectos principales cuando no se ha considerado interaccin errneamente
puede ser confusa ya que se est incrementando artificialmente el error
experimental.
La estrategia a seguir es:

1. Si se sospecha que hay interaccin, en primer lugar, se contrasta el efecto de


la interaccin en un modelo completo de dos vas.
2. Si no resulta significativa, se contina con el anlisis examinando los efectos
principales en el mismo modelo. No es conveniente cambiar al modelo de
efectos principales salvo que se est muy seguro de la no existencia de
interaccin.
3. Si resulta significativo el efecto interaccin, entonces los contrastes sobre los
efectos individuales no son vlidos. Si son significativos los contrastes sobre
los efectos individuales, los resultados pueden darse por vlidos. Pero si los
contrastes son no significativos, los resultados no tienen porque ser correctos.

Si el efecto interaccin es significativo, generalmente es preferible


pasar a un modelo de una va donde los niveles son todas las
combinaciones de niveles y examinar as sus posibles diferencias.
Otra posibilidad es examinar las diferencias entre niveles de un factor
manteniendo fijos los niveles del otro. En este caso las conclusiones son
correctas para la situacin concreta estudiada.

5.4.2 Estimacin de los parmetros.


Los parmetros del modelo se obtienen por mnimos cuadrados, tcnica que
se basa en minimizar la suma de los cuadrados de los residuos.
(5.24)
proporciona los siguientes estimadores:

donde es la media de las observaciones de la casilla ij. El resto de los


trminos tiene la interpretacin habitual.
La prediccin de la casilla ij es la media de los valores de la casilla, por
tanto:
ij.

(5.25)
Los residuos, diferencia entre lo observado y la prediccin,

Los residuos verifican la siguiente restriccin (la suma de los residuos en


cada casilla es cero)

por tanto, en cada casilla hay


residuos independientes y el nmero de
grados de libertad es:
IJ. Al igual que en los modelos estudiados
previamente se utiliza la varianza residual como estimador de la varianza.
Este estimador viene dado por
(5.26)

5.4.3 Descomposicin de la variabilidad


La suma de cuadrados global se puede descomponer de la forma:

esto es,

Escrito de otra forma:


de donde se deduce la siguiente tabla ANOVA
CUADRO DEL ANLISIS DE LA VARIANZA
MODELO COMPLETO DE DOS VAS
Fuente de

Suma de

g.l.

scm

Variacin

Cuadrados
scT =

Factor F.T

scmT =

I-1
JK

scT =

Factor F.T

IK

2
ij

scR =
i

2
ijk

scG =
Global
i

(scmT ) /(scmR)

=
(scmT

) /(scmR)

scmG =

ij

= 0 i,j

<

entonces

Rechazar H0(

Rechazar H0(
Si se rechaza H0(

scmR =

en base al p-valor p = P(
(

) / ((I-1)(J-1))

IJK
-1

Rechazar H0

Si se acepta H0

scm

IJ(
K1)

Residual

(scmT ) /(scmR)

(scT ) / (J-1)

(I
-1)
(J
(xc
-1)

Inter.
K

scmT

J1

2
j

sc

(scT ) / (I-1)

2
i

= ... =

, segn p = P(

, segn p = (

<

<P

entonces considerar el modelo de una va: Y

= ... =

ijt

ij

ijt

Tabla 5.2. Cuadro del anlisis de la varianza para un diseo completamente


aleatorizado y balanceado de dos factores de efectos fijos (modelo completo).
De este cuadro se deducen los siguientes contrastes:

Si la hiptesis nula H0
cierta, se verifica que

ij

= 0, i,j (la interaccin no influye) es

(5.27)

se rechaza H0

al nivel de significacin si

Si se acepta la hiptesis H0
de los dos factores.
Si la hiptesis nula H0(
cierta, se verifica que

>

,IJ

entonces puede contrastarse la influencia

= ... =

= 0, (el factor T no influye) es

(5.28)

se rechaza H0(

al nivel de significacin si

= ( (scmT ) /(scmR) ) >

,IJ

Si la hiptesis nula H0( ) :


cierta, se verifica que

= ... =

= 0, (el factor T no influye) es

(5.29)

se rechazaH0(

al nivel de significacin si

= ( (scmT ) /(scmR) ) >

La tabla ANOVA asociada al modelo de efectos principales de dos vas (sin


interaccin y con replicacin)

es la siguiente

,IJ

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO DE EFECTOS PRINCIPALES DE DOS VAS
g.l
.

Fuente de

Suma de

Variacin

Cuadrados

scm

scT =

Factor F.T

scmT =

I-1
JK

IK

Residual
j

e 2
ijk

scG =
Global
i

(scmT ) /(scmR)

(scT ) / (J-1)

(scmT ) /(scmR)

IJK
scmR =
-I
- J scR / ( IJK - I -J + 1 )
+1

scR =
i

scmT

J1

2
j

(scT ) / (I-1)

scT =

Factor F.T

scmG =

IJK
-1

Rechazar H0(

= ... =

, segn p = P(

<

Rechazar H0(

= ... =

, segn p = (

<

I-1,IJK-I-J+1

J-1,IJK-I-J+1

Tabla 5.3. Cuadro del anlisis de la varianza para un diseo completamente


aleatorizado y balanceado de dos factores de efectos fijos sin interaccin.
5.4.4 Anlisis de un caso.
En este apartado se desarrolla un problema de diseo de experimentos
completo de dos vas. El enunciado del problema es el siguiente:
Ejemplo 5.3.
En la tabla adjunta se presentan los tiempos, en minutos, de conexin
con una direccin de internet desde cuatro puntos geogrficos de una regin y
en tres horas determinadas. El experimento se repeta cuatro veces y era
diseado para estudiar la influencia del factor hora de conexin y el factor
lugar de la conexin en la variable de inters tiempo de conexin.

Analizar estos datos y estudiar la influencia de los dos factores.

Lugar A

Hora 1

Hora 2

Hora 3

Lugar B

Lugar C

Lugar D

0'31

0'45

0'82

1'10

0'43

0'45

0'45

0'71

0'46

0'43

0'88

0'72

0'63

0'76

0'66

0'62

0'36

0'29

0'92

0'61

0'44

0'35

0'56

1'02

0'40

0'23

0'49

1'24

0'31

0'40

0'71

0'38

0'22

0'21

0'30

0'37

0'23

0'25

0'30

0'36

0'18

0'23

0'38

0'29

0'24

0'22

0'31

0'33

Solucin.

Estimacin de los parmetros.


Se obtienen las siguientes tablas de medias y estimaciones

L-A

L-B

L-C

L-D

0'413

0'880

0'568

0'610

0'618

0'139

0'320

0'815

0'375

0'667

0'544

0'065

0'210

0'335

0'235

0'325

0'276

-0'203

. .
.j

0'314

0'677

0'393

0'534

-0'165

0'198

-0'086

0'055

H-1

1j

H-2

2j

H-3

3j

..

...

= 0'479

L-A

L-B

L-C

L-D

H-1

-0'040

0'064

0'036

-0'063

H-2

-0'059

0'073

-0'083

0'068

H-3

0'099

-0'139

0'045

-0'006

ij

De donde se deduce la siguiente tabla de residuos:

Residuos

Hora 1

Hora 2

Hora 3

Lugar A

Lugar B

Lugar C

Lugar D

-0'103

0'037

-0'060

0'220

-0'138

-0'118

-0'160

0'100

0'047

0'017

0'000

-0'160

0'062

0'192

0'050

0'010

0'040

-0'030

0'105

-0'205

0'065

-0'025

-0'107

-0'353

0'080

-0'090

-0'325

0'425

-0'065

0'025

0'043

-0'287

0'010

0'000

-0'035

0'035

-0'005

0'015

-0'025

0'035

-0'030

0'020

0'045

-0'045

0'005

-0'015

-0'015

0'005

Tabla ANOVA
Utilizando las estimaciones y residuos obtenidos se obtiene la siguiente
tabla ANOVA

Tabla ANOVA

Fuentes de

Suma de

Grados de

cuadrados

libertad

Factor hora

1'0330

0'5165

23'222

0'0000

Factor lugar

0'9212

0'3071

13'806

0'0000

Interaccin

0'2501

0'0417

1'874

0'1123

Variab. Exp.
Total

2'2043

11

Residual

0'8007

36

0.0222

= 0'149

Global

3'0050

47

0'0639

= 0'253

variacin

scm

p - valor

De esta tabla se deducen los siguientes contrastes:

[1] El contraste de la hiptesis: no existe interaccin entre los factores T y


T . Se realiza por el estadstico

es razonable aceptar la hiptesis de no influencia de la interaccin


entre lugar y hora.

[2] El contraste de la hiptesis: el factor hora


por el estadstico

no influye. Se realiza

se rechaza esta hiptesis de no influencia del factor hora.

[3] El contraste de la hiptesis: el factor lugar

no influye.

se rechaza esta hiptesis de no influencia del factor lugar.


En la Figura 5.6 se representa el grfico de interacciones que corrobora la no
existencia de interacciones.

Figura 5.6. Grfico de interacciones.


En la Figura 5.7. se representa el grfico de residuos frente a predicciones en el que
se observa heterocedasticidad.

Figura 5.7. Grfico de residuos frente a predicciones.


5.5

Diseo factorial con tres factores.

El modelo de diseo de experimentos con dos factores se puede generalizar a


tres o ms factores, aunque presenta el gran inconveniente de que para su
aplicacin es necesario un tamao muestral muy grande.
El modelo de diseo de experimentos completo con tres factores (T , T y
T ), interaccin y replicacin (K rplicas) tiene el siguiente modelo
matemtico:

En este modelo se tienen tres factores-tratamineto: el factor T (efecto )


con niveles i = 1,...,I, el factor T (efecto ) con niveles j = 1,...,J, y el
factor T (efecto ) con niveles r = 1,...,R. Cada tratamiento se ha replicado
K veces. Por tanto se tienen n = IJRK observaciones. El trmino
ijk es la
interaccin de tercer orden que, en la mayora de las situaciones, se suponen
nulas.
En este modelo se verifican las siguientes restricciones

El nmero de parmetros del modelo es

Parmetros

Nmero
1
I-1

J-1

R-1
ij

ir

jr

ijr
2

Total

1
IJR + 1

Los estimadores mximo-verosmiles de este modelo son los siguientes (se utiliza la
notacin habitual):

De la media global

de los efectos principales,

de las interacciones de segundo orden

de las interacciones de tercer orden

La descomposicin de la variabilidad se obtiene la siguiente tabla ANOVA


(Tabla 5.4.), a partir de la cual se pueden obtener contrastes como en la
seccin anterior.

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO COMPLETO DE TRES VAS

Fuente de
variacin

Factor T

Suma de cuadrados

scT = J RK

I
i=1

g.l.

2
i

I-1

Factor T

Factor T

Inter.

Inter.

Inter.

Inter.

Residual

Global

scT = IRK

J
j=1

2
j

scT = IJK

R
r=1

sc

= RK

sc

= JK

i=1

sc

= IK

j=1

sc

=K

I
i=1

I
i=1

j=1

scR =

I
i=1

j=1

scG =

I
i=1

j=1

R
r=1

R
r=1

R-1

j=1

J-1

(I - 1)(J - 1)

2
ij

(I - 1)(R - 1)

2
ir

jr

(J - 1)(R - 1)

R
r=1

ijr

R
r=1

t=1

R
r=1

t=1

eijrk2

eijrk2

(I - 1)(J - 1)(R 1)

IJR(K - 1)

IJRK - 1

Tabla 5.4. Cuadro del anlisis de la varianza para un diseo completo de tres
factores.
5.6

Fracciones factoriales. El cuadrado latino.

Los modelos de diseo de experimentos expuestos en las secciones previas son


diseos completos o equilibrados. En estos diseos se obtienen pruebas
cruzando los niveles de los factores de todas las formas posibles, por ello, en
estos diseos los factores son ortogonales.
El concepto de ortogonalidad de factores.
En un diseo de experimentos los factores T , con I niveles, y T , con J
niveles, son ortogonales si en las pruebas del diseo en cada uno de los

niveles i del factor T aparecen en idnticas proporciones los J niveles del


factor T .
La propiedad de ortogonalidad permite separar los efectos de cada uno de
los factores sobre la variable de inters.
Si los efectos simples de todos los factores estudiados en el diseo de
experimentos son ortogonales, la estimacin
del efecto del nivel i del
factor T se obtiene como la diferencia entre la media de los resultados
obtenidos cuando el factor T est al nivel i y la media general de todos los
resultados.

Las estimaciones as obtenidas para los efectos de un factor no estn


afectadas por los efectos de los otros factores, lo que permite separar los
efectos simples de todos los factores estudiados.
En los diseos equilibrados el nmero de pruebas que hay que realizar
crece muy rapidamente con el nmero de factores, an en el caso de que se
supongan nulas las interacciones y no sea necesario replicar el diseo. En
estas situaciones son de gran utilidad los diseos de experimentos
denominados fracciones factoriales, que permitan estudiar la influencia de
los factores sin necesidad de realizar todas las pruebas pero manteniendo la
propiedad de ortogonalidad de los efectos a estudiar. Como ejemplo de este
tipo de modelos se expone a continuacin la fraccin factorial
denominada cuadrado latino.

5.6.1 El modelo de cuadrado latino.


En un diseo de experimentos completo de tres factores, todos ellos con K
niveles, necesita K3 observaciones, nmero elevado si K es grande. Un diseo
ms eficaz que solo utiliza K2 observaciones para el mismo problema es el
cuadrado latino. Este modelo se basa en aprovechar la simetra del
experimento factorial seleccionando un conjunto de condiciones
experimentales con la condicin de que cada nivel de un factor aparezca una
vez con cada uno de los niveles de los otros factores. Por tanto, el diseo de
cuadrado latino se puede utilizar si se verifican las siguientes condiciones:
1. Es un diseo de experimentos con tres factores.
2. Los tres factores tienen el mismo nmero de niveles: K.
3. No hay interacciones entre los tres factores.

El diseo en cuadrado latino est especialmente indicado para estudiar un


factor-tratamiento con K niveles y con dos factores-bloque de K bloques cada
uno. Este diseo se basa en el concepto de cuadrado latino que es el siguiente
Un cuadrado latino K K es una disposicin de K letras en una matriz K K
de forma que todas las letras aparecen una vez en cada fila y una vez en
cada columna.
Por ejemplo, un cuadrado latino 3 3 es el siguiente
A

Tabla 5.5. Cuadrado latino 3 3.


Un cuadrado latino es un cuadrado latino estndar cuando las letras de la primera
fila y de la primera columna estn dispuestas en orden alfabtico.

Un cuadrado latino es un cuadrado latino cclico si las letras de cada fila


se generan cclicamente de la anterior segn el orden alfabtico.
El cuadrado latino 3 3 de la Tabla 5.5 es estndar y cclico.
Existe un nico cuadrado latino 3 3 estndar, sin embargo hay cuatro
cuadrados latinos 4 4 estndar que se presentan en la Tabla 5.6.
Cuadro 1

Cuadro 2

Cuadro 3

Cuadro 4

Tabla 5.6: Cuatro posibles cuadrados latinos 4 4 estndar.


Un diseo en cuadrado latino es un diseo de un factor tratamiento con K
niveles y K2 unidades experimentales agrupadas en K bloques fila y K bloques
columna, de forma que unidades experimentales de un mismo bloque fila son
semejantes, unidades experimentales de un mismo bloque columna son
semejantes y unidades experimentales de distintos bloques fila y distintos
bloques columna son sustancialmente diferentes.

Para cualquier nmero de tratamientos K existe siempre al menos un


diseo en cuadrado latino estndar cclico.
Obsrvese que si en un diseo en cuadrado latino se ignora el bloque
columna se tiene un diseo en bloques completamente aleatorizado (el
bloque fila es el factor bloque) y, anlogamente, si se ignora el bloque fila se
tiene un diseo en bloques completamente aleatorizado (el bloque columna
es el factor bloque). Adems se trata de un diseo equirreplicado: cada
tratamiento aparece un mismo nmero K de veces en el diseo.
Modelo matemtico.
Se tiene un diseo en cuadrado latino de dos factores bloque y un factor
tratamiento, el primer factor bloque se denota por B y se coloca en filas, el
segundo factor bloque se denota por B y se coloca en columnas, el factor
tratamiento se denota por T y sus niveles se colocan segn el cuadrado
latino. Por tanto, el cuadrado latino condiciona el nivel de T que se utiliza
en la casilla ij (bloque i de B y bloque j de B ) y este nivel no se elige.
La formulacin matemtica del modelo es la siguiente:
para cada i = 1,...,K, j = 1,...,K, (el ndice k
diseo en cuadrado latino) se tiene

lo impone el

donde,
* Y ij es el resultado del bloque i-simo, i = 1,...,K del factor bloque B y
del bloque j-simo, j = 1,...,J del factor-bloque B , y del nivel k-simo del
factor T . Se denota la k entre parntesis, para indicar que este ndice no se
elige sino que viene condicionado por el par ij.
* es el efecto global que mide el nivel medio de todos los resultados,
* i es el efecto (positivo o negativo) sobre la media global debido al
bloque i de B . Se verifica que i = 1I i = 0,

* j es el efecto (positivo o negativo) sobre la media global debido al


bloque j de B . Se verifica que j = 1J j = 0,
* k es el efecto (positivo o negativo) sobre la media global debido al nivel
k del factor F . Se verifica que k = 1K k = 0,
*

ij

es el error experimental, son variables aleatorias i.i.d. con

distribucin N

Estimacin de los parmetros.


La tcnica de mnimos cuadrados proporciona los siguientes estimadores:

Los residuos son

que verifican las siguientes restricciones

en total hay 3K - 2 restricciones, y los residuos tienen K2 - (3K - 2) =


grados de libertad.

Tabla ANOVA.
De la descomposicin de la variabilidad se obtiene la tabla ANOVA (Tabla
5.7.) de donde se deducen los siguientes contrastes:

[1] Si la hiptesis nula H0


: 1 = 2 = ... = K = 0, (el factor F no influye, el
ms importante porque es el factor-tratamiento en el que se est interesado)
es cierta, se verifica que
(1.36)

se rechaza H0

al nivel de significacin si

= scmT scmR >

[2] Aunque de menor inters tambin se pueden hacer contrastes acerca de la


influencia de los bloques fila y columna para saber si ha sido conveniente
bloquear o no.

Si la hiptesis nula H0 : 1 = 2 = ... =


influye) es cierta, se verifica que

= 0, (el bloque fila no

(1.37)
se rechaza H0

al nivel de significacin si

= scmB scmR >

[3] Si la hiptesis nula H0


: 1=
influye) es cierta, se verifica que

= ... =

= 0, (el factor columna no

(1.38)
se rechaza H0

al nivel de significacin si

= scmB scmR >

.
CUADRO DEL ANLISIS DE LA VARIANZA
MODELO CUADRADO LATINO
Fuente de

Suma de

Variacin

Cuadrados

g.l.

scm

Bloques

scmB =

scBF =

K-1

(B )
K

scmB =

scBC =

Bloques

(scmB ) / (scmR)

K-1
(B )

(scmB ) / (scmR)

scmT =

scTL =

Factor T

K-1

(T )

scmR =

scR =

(K-1)
(K-2)

Residual
i

(scmB ) / (scmR)

eij(k)2

scmG =

scG =
Global

K2 - 1
i

Rechazar H0(

Rechazar H0(
Rechazar H0(

:
)

= ... =

= ... =

= ... =

, segn p = P(

<

, segn p = P(

, segn p = P(

<

<

Tabla 5.6. Cuadro del anlisis de la varianza para un diseo de cuadrado


latino.
Extensiones de los modelos de diseos experimentales.
Siguiendo la metodologa expuesta en los diseos estudiados es
fcil generalizar el diseo de cuadrado latino y tienen inters los siguientes
modelos:

Cuadrado latino replicado. Si se replica el modelo del cuadrado latino, an


manteniendo las mismas condiciones de experimentacin, es posible que
exista cierta heterogeneidad entre las rplicas por lo que es conveniente

considerar las rplicas como bloques. El modelo matemtico de este diseo


es:
(k)r

donde r
es el efecto rplica que se estimar por la
diferencia entre la media de cada rplica completa y la media general.

Cuadrado greco-latino. Si se aumenta el nmero de factores-bloque, la


extensin del cuadrado latino es el greco-latino, que permite con K2
observaciones estudiar cuatro factores de K niveles sin interacciones (un
factor-tratamiento y tres factores bloque), si se utilizase el diseo completo
es necesario utilizar K4 observaciones. En el diseo en cuadrado greco-latino
se superponen dos cuadrados latinos, resultando el siguiente modelo
matemtico:

El inconveniente de este modelo es que su utilizacin es muy


restrictiva. Adems pueden no existir cuadrados latinos de
determinadas condiciones.
5.6.2 Anlisis de un caso

En este apartado se desarrolla un problema de diseo de experimentos de


cuadrado latino. El enunciado del problema es el siguiente:
Ejemplo 5.4.
Se quiere estudiar la posible influencia de los aditivos de combustible
(factor tratamiento, T ) en la reduccin de xidos de nitrgeno en las
emisiones de los automviles (variable respuesta) controlando la influencia
del conductor (factor-bloque B ) y del tipo de coche (factor-bloque, B
).
Se consideran cuatro conductores: C1, C2, C3, C4.
Cuatro tipos de coche: Seat, Ford, Opel, Renault.
Cuatro aditivos de combustible: A1, A2, A3, A4.
Los resultados del experimento diseado segn la tcnica del cuadrado
latino son los de la tabla adjunta, tambin se presenta el cuadrado latino
utilizado. Qu conclusiones se deducen del experimento?

Seat

Ford

Opel

Renault

C1

21 A1

26 A2

20 A4

25 A3

C2

23 A4

26 A3

20 A1

27 A2

C3

15 A2

13 A4

16 A3

16 A1

C4

17 A3

15 A1

20 A2

20 A4

C. Latino

Solucin.

Estimacin de los parmetros. Se obtienen los siguientes estimadores:


Estimaciones

.i

..k

23

19

-1

18

-2

24

20

22

15

-5

19

-1

21

18

-2

22

19

-1

.. =

= 20

Los residuos del modelo son:


Residuos

Seat

Ford

Opel

Renault

C1

1 A1

1 A2

-1 A4

-1 A3

C2

1 A4

1 A3

-1 A1

-1 A2

C3

-1 A2

-1 A4

1 A3

1 A1

C4

-1 A3

-1 A1

1 A2

1 A4

Tabla ANOVA. Utilizando las estimaciones y residuos obtenidos se obtiene la


siguiente tabla ANOVA

Tabla ANOVA

Fuentes de

Suma de

Grados de

variacin

cuadrados

libertad

Varianza

p - valor

Factor
conductor

216

72

27

0'0007

Factor coche

24

0'1117

Factor aditivo

40

13'33

0'0452

Variab.
Explicada

280

Residual

16

2'66

Global

296

15

19'73

De esta tabla se deducen los siguientes contrastes:

[1] El contraste de la hiptesis: el factor (aditivo) no influye. Se realiza


por el estadstico

se tienen dudas acerca de si aceptar o no esta hiptesis ya que su pvalor 0'05. Es el contraste ms interesante ya que se contrasta la
posible influencia del factor tratamiento en el que se est interesado.

[2] El contraste de la hiptesis: el factor

(conductor) no influye.

se rechaza esta hiptesis de no influencia del factor conductor.

[3] El contraste de la hiptesis: el factor

(coche) no influye.

se acepta, a un nivel inferior razonable (< 0'11) la no influencia del


factor coche.
Los coeficientes de determinacin de los tres factores son:

De los contrastes anteriores se deduce que ha sido conveniente bloquear


el tipo de conductor pero no conviene bloquear el tipo de coche. Se
puede eliminar el factor coche, basta con sumar la fila correspondiente al
factor coche con la fila de la variabilidad residual, aunque se pueden hacer
crticas al diseo resultante. Se obtiene la siguiente tabla ANOVA
Tabla ANOVA 2

Fuentes de

Suma de.

Grados

Variacin

Cuadrados

libertad

Varianza

p - valor

Factor
conductor

216

72'00

16'20

0'0006

Factor aditivo

40

13'33

3'00

0'0877

Variab. Exp.
Total

256

Residual

40

4'44

Global

296

15

19'73

Trabajando con un nivel de significacin de = 0'05 se acepta la no


influencia del factor tratamiento tipo de aditivo.

Potrebbero piacerti anche