Sei sulla pagina 1di 24

Introduccion al diseno de experimentos

Luis Cayuela Mayo de 2011

Area de Biodiversidad y Conservacin, Universidad Rey Juan Carlos, o Departamental 1 DI. 231, c/ Tulipn s/n. E-28933 Mstoles (Madrid), a o Espaa. E-mail: luis.cayuela@urjc.es. n

Introduccin al dise o de experimentos (versin 1.2) o n o


Publicado por: Luis Cayuela

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modicar esta obra con las siguientes condiciones: (1) que se reconozca la autor de la misma; a (2) que no se utilice con nes comerciales; y (3) que si se altera la obra original, el trabajo resultante sea distribuido bajo una licencia similar a sta. e

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.

Indice
1. Dise os de investigacin n o 1.1. El supuesto de independencia . . . . . . . . . . . . . . . . . . . . 1.2. Factores de confusin . . . . . . . . . . . . . . . . . . . . . . . . . o 1.3. Replicacin y aleatorizacin . . . . . . . . . . . . . . . . . . . . . o o 2. Dise o factorial o ANOVA n 2.1. Supuestos de los diseos factoriales . . . . . . . . . . . . . . . . . n 3. Otros dise os de experimentos n 3.1. Diseo por bloques aleatorizados . . . . . . . . . . . . . . . . . . n 3.2. Split-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. ANOVA de medidas repetidas . . . . . . . . . . . . . . . . . . . . 3.4. ANOVA anidado o jerarquizado . . . . . . . . . . . . . . . . . . . 3.4.1. Pseudorreplicacin . . . . . . . . . . . . . . . . . . . . . . o 4. Modelos mixtos 4.1. Efectos jos o aleatorios? . . . . . . . . . . . . . . . . . . . . . . 4.2. Modelos mixtos una alternativa para representar y analizar otros diseos de experimentos? . . . . . . . . . . . . . . . . . . . . . . n 5. Ejercicios 6. Referencias 4 4 5 5 7 7 9 9 11 13 16 16 19 21 21 23 24

Luis Cayuela

Introduccin al diseo de experimentos o n

1.

Dise os de investigacin n o

Una vez denido el tipo de estudio a realizar y establecer las hiptesis de o investigacin, el investigador debe concebir la manera prctica y concreta de o a responder a las preguntas de investigacin. Esto implica seleccionar o o desarrollar un diseo de investigacin y aplicarlo al contexto particular de su n o estudio. Diseo se reere al plan o estrategia concebida para responder a las n preguntas de investigacin. El diseo seala al investigador lo que debe hacer o n n para alcanzar sus objetivos de estudio, contestar las interrogantes que se ha planteado y analizar la certeza de las hiptesis formuladas en un contexto en o particular. Hay muchos tipos de diseos distintos: algunos son puramente n observaciones y otros manipulativos.

1.1.

El supuesto de independencia

La mayor de los anlisis estad a a sticos asumen que las rplicas son e independientes. Independencia en este contexto se reere al hecho de que las observaciones hechas en una determinada rplica no tienen una inuencia e sobre las observaciones hechas en otra rplica. Imginemos por ejemplo que e a estamos estudiando la respuesta de los colibr a la cantidad del nctar es e producido por las ores que stos polinizan. Para medir esta respuesta e establecemos dos parcelas adyacentes de 5 x 5 m. Una parcela es la control, mientras que la contigua es una parcela en dnde se ha extraido todo el nctar o e de las ores. Tu variable respuesta es el nmero de visitas de los colibr a las u es ores, y mides sta en las dos parcelas. En la parcela control estimas un e promedio de 10 visitas por hora, comparadas con slo 5 visitas por hora en la o parcela manipulada. Mientras que recoges los datos, observas que una vez que los colibr llegan a la parcela manipulada, se marchan inmediatamente, y los es mismos individuos visitan la parcela contigua (la control). Claramente, los dos grupos de observaciones no son independientes entre s Si la parcela control y . la manipulada estuvieran ms separadas entre s en el espacio, las estimas del a nmero de visitas promedio por hora podr haber sido distinta, y esto podr u a a incluso modicar los resultados de nuestro estudio. Cuando las dos parcelas estn prximas entre s la no independencia de las muestras aumenta la a o , diferencia entre ellas, lo que podr provocar, entre otras cosas, un p-valor ms a a bajo de forma espuria, y un error de tipo I (rechazo incorrecto de una hiptesis o nula cierta). En otros casos, sin embargo, la no independencia podr disminuir a las diferencias aparentes entre los tratamientos, contribuyendo al error de tipo II (aceptacin incorrecta de una hiptesis nula falsa). Por desgracia, la no o o independencia de las muestras aumenta o disminuye tanto el p-valor como el poder estad stico de maneras no previsibles. La mejor manera para salvaguardarnos de la no independencia de las rplicas e es asegurarnos de que las rplicas dentro y entre tratamientos estn separadas e a unas de otras en espacio y tiempo lo suciente como asegurarnos de que unas no tengan un efecto sobre las otras. Sin embargo, en el campo de la ecolog a, como en muchos otros campos, casi todo tiene un efecto sobre casi todo a mltiples escalas espacio-temporales, y es por tanto muy d u cil poder establecer una distancia o un espacio que garantice la no independencia de las 4

Luis Cayuela

Introduccin al diseo de experimentos o n

rplicas. Normalmente se recurre al sentido comn y al conocimiento biolgico e u o que tengamos de nuestro caso de estudio. Pero por qu no simplemente e maximizar la distancia en tiempo o en espacio entre las muestras? Por varias razones. Primero, tomar muestras muy separadas unas de otras aumenta la necesidad de recursos econmicos y humanos. Segundo, al separar mucho unas o muestras de otras podemos incorporar nuevas fuentes de variacin debido, por o ejemplo, a la aparicin de nuevos hbitats o ambientes. Queremos que nuestras o a rplicas estn lo sucientemente cerca como para tener un ambiente e e relativamente homogneo pero lo sucientemente apartadas como para e asegurar que la respuesta que estamos midiendo en cada una de ellas sea independiente del resto. A pesar de la gran importancia que tiene este aspecto en el diseo n experimental, muy raras veces es discutido en los art culos cient cos. En la seccin de Mtodos de un trabajo cient o e co es muy posible leer frases de este tipo: Medimos 100 plntulas seleccionadas de forma aleatoria en zonas a soleadas. Cada plntula estaba separada a una distancia m a nima de 50 cms de la plntula ms prxima. Cuando lo que realmente ha guiado el diseo a a o n experimental es el hecho de: (1) querer disponer de 100 rplicas en un espacio e limitado; y (2) no saber a ciencia cierta qu distancia de separacin entre e o plntulas es la que garantizar una total independencia en la variable a a respuesta. Los autores presuponen que como las plntulas de la especie a estudiada tienen un tamao muy pequeo, una distancia de 50 cms va a n n minimizar los efectos que tengan una sobre otra (ej. fenmenos de alelopat o a, competencia por recursos, facilitacin, etc.). o

1.2.

Factores de confusin o

Cuando en el diseo experimental se superponen varios factores de forma n simultnea, es muy dif explicar los efectos por separado de cada uno de a cil ellos sobre la variable respuesta. Volvamos al ejemplo de los colibr Tenemos es. ahora dos parcelas (una control y otra manipulada en dnde se ha extraido el o nctar de las ores) separadas la una de la otra a una distancia sucientemente e razonable como para asumir que no hay ningn tipo de dependencia entre u ellas. Sin embargo, sin darnos cuenta hemos situado la parcela control en una ladera muy soleada y la parcela manipulada en un valle fr El nmero de o. u visitas promedio en la parcela manipulada sigue siendo menor que en la control, pero ahora ya no sabemos si sto es debido al efecto del nctar o al e e hecho de que los colibr disminuyen su tasa de actividad a bajas es temperaturas. Por tanto no podemos discernir un efecto de otro sobre la variable respuesta. Podr amos incluso encontrar que un efecto anula al otro si, por ejemplo, hubiramos situado la parcela control en el valle fr y la parcela e o experimental en la ladera soleada.

1.3.

Replicacin y aleatorizacin o o

La incorporacin de replicacin y aleatorizacin de las rplicas dentro de o o o e nuestro diseo experimental puede ayudar a controlar en gran medida los n problemas de no independencia y la aparicin de factores de confusin. Por o o 5

Luis Cayuela

Introduccin al diseo de experimentos o n

replicacin, nos referimos aqu a la medicin de la variable respuesta en varias o o muestras dentro de cada nivel del tratamiento o grupo de comparacin. Por o aleatorizacin, nos estamos reriendo a la asignacin aleatoria de los o o tratamientos o la seleccin de muestras. o Volviendo al ejemplo anterior, si seguimos los principios de replicacin y o aleatorizacin, establecer o amos varias parcelas control y varias parcelas manipuladas en vez de una sla de cada (idealmente, un m o nimo de 10 por cada tratamiento). La localizacin de estas parcelas en el rea de estudio ser o a a al azar, y la asignacin del tratamiento (control o manipulacin) a cada o o parcela tambin ser al azar. e a Cmo disminuye la replicacin y la aleatorizacin el problema de los factores o o o de confusin? Tanto la ladera soleada como el valle fr as como otras o o, situaciones intermedias, tendr por azar una o varias parcelas de cada uno an de los tratamientos. Por tanto, el factor temperatura ya no se confundir con a el factor presencia de nctar en las ores, ya que todos los tratamientos de e nctar ocurren bajo distintos niveles de temperatura. Como un benecio e adicional de este diseo experimental, podr n amos comprobar de forma expl cita el efecto de la temperatura (como una covariable en el modelo) sobre el nmero de visitas de los colibr a las ores, e incluso la interaccin entre la u es o temperatura y la presencia de nctar. Por supuesto, si sabemos a priori que la e temperatura tiene un efecto sobre la actividad de los colibr podr es, amos haber optado por realizar un diseo experimental distinto (ej. estraticado por n zonas de temperatura) para comprobar espec camente esta hiptesis, pero o desconociendo la inuencia de ste u otros posibles factores de confusin, un e o diseo replicado y aleatorizado nos va a permitir minimizar los efectos n confundidos de nuestro tratamiento con otras variables no medidas en nuestro estudio. Es menos obvio como la replicacin y la aleatorizacin reducen el problema de o o no independencia de las muestras. Despus de todo, si las parcelas estn por e a azar muy cerca unas de otras, las visitas de los colibr a las ores de una es parcela podr no ser independientes de las visitas a las ores de otra parcela, an por mucha replicacin y aleatorizacin que hayamos hecho. Siempre que sea o o posible, hay que usar el sentido comn y el conocimiento del caso de estudio u para separar las rplicas por unas distancias m e nimas de cara a evitar la no independencia de las muestras. Sin embargo, si no conocemos todas las posibles fuerzas que pueden causar dependencia, una disposicin aleatoria de o las muestras ms all de unas distancias m a a nimas pre-establecidas, asegurar a que las distancias entre muestras sea variable. Algunas muestras estarn muy a prximas entre s y otras muy alejadas. El efecto de la dependencia ser por o a tanto fuerte en algunos pares de muestras, ms dbil en otros, y no existarn a e a en el resto. Tales efectos pueden cancelarse unos a otros y pueden reducir las probabilidades de que los resultados estn consistentemente sesgados por la no e independencia.

Luis Cayuela

Introduccin al diseo de experimentos o n

2.

Dise o factorial o ANOVA n

Si tu variable predictora es categrica y tu variable respuesta es continua, tu o diseo se denomina de tipo ANOVA (Analysis Of Variance). ANOVA n tambin se reere al anlisis estad e a stico de este tipo de diseos de n experimentos. En terminolog ANOVA, los tratamientos son las diferentes categor de las a as variables predictoras que se utilizan en el estudio. En un estudio experimental, los tratamientos representan las diferentes manipulaciones que se llevan a cabo (ej. extraccin del nctar de las ores y no extraccin o control). En un estudio o e o observacional, los tratamientos representan los diferentes grupos que se quieren comparar (ej. tipos de hbitat). Dentro de cada tratamiento, se realizan a mltiples observaciones, y cada una de estas observaciones es una rplica. u e

2.1.

Supuestos de los dise os factoriales n

e Independencia En los diseos ANOVA estndar, cada rplica debe de ser n a independiente del resto de rplicas dentro del mismo tratamiento y entre e tratamientos, esto es, no debe de tener un efecto claro sobre la respuesta observada en otras rplicas. Ms adelante veremos algunos diseos ANOVA e a n que permiten relajar este supuesto de independencia entre rplicas, como es el e diseo por bloques o el diseo de medidas repetidas. n n Cruzamiento Dentro del diseo ANOVA estndar, se puede distinguir entre n a diseos unifactoriales y diseos multifactoriales. Mientras que en los primeros n n los tratamientos representan variacin en una unica variable predictora o o factor, en los diseos multifactoriales los tratamientos representan una n combinacin de los niveles de dos o ms factores. El nmero de rplicas o a u e necesarias para llevar a cabo un anlisis multifactorial crece muy rpidamente a a a medida que incluimos nuevos factores en el diseo. Si por ejemplo queremos n ver el efecto de distintos niveles de nitrgeno (4 niveles) y fsforo (3 niveles) o o sobre el crecimiento de una determinada planta, necesitar amos 4 x 3 = 12 tratamientos distintos. Si queremos disponer de un nmero de rplicas m u e nimo adecuado para comprobar nuestras hiptesis (10 rplicas por tratamiento) o e necesitar amos al menos 12 x 10 = 120 rplicas. Si incluimos ahora un nuevo e factor, por ejemplo, riego o no riego (2 niveles), requerir amos al menos 240 rplicas para poder comprobar nuestras hiptesis. En los diseos ANOVA e o n multifactoriales estndar, se asume que los factores son cruzados, es decir, a que todos los niveles de un factor estn representados dentro de todos los a niveles del otro u otros factores. De esta manera es posible estimar si hay una interaccin entre dos o ms factores. Como veremos ms adelante, algunos o a a diseos ANOVA permiten incorporar factores que no son cruzados. A estos n diseos se les denomina normalmente diseos anidados o jerarquizados. n n Ejemplo 1 Se quiere ver cmo dos factores, luz y agua, afectan al o crecimiento de una planta. Cada uno de estos factores tiene dos niveles (alto, bajo). Un diseo factorial completo con dos factores se disear de tal manera n n a 7

Luis Cayuela

Introduccin al diseo de experimentos o n

que tuviramos varias muestras independientes (idealmente 10, aunque en la e gura slo se representan 5) en todas las combinaciones posibles de cada o uno de los dos niveles de luz y agua (tratamientos), como muestra la siguiente gura. La aleatorizacin se realizar espacialmente para la seleccin de las o a o plantas o la ubicacin de las parcelas de muestreo, pero tambin se realizar o e a en la asignacin de tratamientos a cada una de estas plantas o parcelas. o

Este diseo podr representarse de forma esquemtica de la siguiente forma: n a a

Luis Cayuela

Introduccin al diseo de experimentos o n

3.
3.1.

Otros dise os de experimentos n


Dise o por bloques aleatorizados n

Una forma ecaz de incorporar la heterogeneidad ambiental en nuestro experimento es modicar el diseo factorial y utilizar un diseo por bloques n n aleatorizados. En un sentido estricto, el diseo por bloques aleatorizados es un n diseo multifactorial, pero el segundo factor, al que se le denomina bloque, n est incluido slo para controlar la variacin atribuible al diseo experimental a o o n (como consecuencia de la agregacin de las muestras por bloques, violando por o tanto el supuesto de independencia) y no es de inters para el investigador. Un e bloque es un rea o periodo de tiempo delimitado dentro del cual las a condiciones ambientales son relativamente homogneas. Los bloques pueden e ser ubicados en el rea de estudio de forma aleatoria o sistemtica, pero a a deber de disponer se de tal forma que las condiciones ambientales sean ms an a similares dentro de los bloques que entre bloques. Una vez que se han establecido los bloques, las rplicas debern ser asignadas e a aleatoriamente a los tratamientos dentro de cada bloque, aunque en su forma ms pura este tipo de diseos impone una restriccin en la aleatorizacin: una a n o o unica rplica de cada uno de los tratamientos debe ser asignada a cada bloque. e Si todos los posibles tratamientos estn representados dentro de cada bloque el a diseo se denomina de bloques aleatorizados completos, pero si no todos n los tratamientos estn representados dentro de cada bloque el diseo se a n denominar de bloques aleatorizados incompletos (esto puede ocurrir con a ms frecuencia en estudios observacionales). a Los diseos por bloques aleatorizados pueden tener algunas desventajas. Una n es que si los bloques son muy pequeos, se puede introducir no independencia n de las rplicas por factores no controlados (ej. si el bloque est en una e a 9

Luis Cayuela

Introduccin al diseo de experimentos o n

pendiente las rplicas en la parte alta de la pendiente pueden tener una e respuesta homognea y diferencia con respecto a las rplicas situadas en la e e parte baja de la pendiente). Para solventar este problema se puede (y se debe) aleatorizar la ubicacin de las rplicas dentro de cada bloque. Otra gran o e desventaja del diseo por bloques aleatorizados es que se asume que no hay n interaccin entre los bloques y los tratamientos. El diseo por bloques tiene en o n cuenta diferencias aditivas en la variable respuesta y asume que la relacin o entre las respuestas a cada tratamiento no var entre un bloque y otro. Por a ejemplo, si estamos investigando el efecto de tres fertilizantes (A, B y C) sobre el crecimiento de una planta, y replicamos el experimento en cinco bloques distintos, debemos esperar que si la mayor produccin en el bloque I se observa o con los fertilizantes B > C > A, esta misma relacin se observar en el resto o a de bloques. Pero esto obviamente no tiene por qu ser as y en ocasiones e , puede ser que esta relacin cambie de unos bloques a otros (tendr o amos que averiguar por qu se produce esta interaccin entre el bloque y el factor). Por e o eso, algunos autores sugieren que el diseo tradicional por bloques n aleatorizados no debe realizarse si no se lleva a cabo una replicacin de los o distintos tratamientos dentro de cada bloque. A veces esta replicacin no es o posible. En estas situaciones, el diseo por bloques aleatorizados simple va por n lo menos a captar la componente aditiva de la variacin ambiental. o Ejemplo 2 Siguiendo con el ejemplo anterior, imaginemos ahora que las plantas que estamos cultivando en condiciones experimentales se encuentran repartidas en cuatro ncas. Dentro de cada nca hemos aleatorizado la ubicacin de las rplicas y la asignacin de los tratamientos a las rplicas. o e o e Podemos pensar que la situacin geogrca de cada una de las parcelas (clima o a general, naturaleza del sustrato en dnde hacemos crecer las plantas, etc.) o puede inuir sobre la variable respuesta. Como esta variable no es de inters e para el estudio pero queremos controlar como afecta a la variabilidad de la variable respuesta, la introducimos como un bloque en el anlisis. Este ser un a a diseo por bloques aleatorizados en dnde existir replicacin de los n o a o tratamientos dentro de cada bloque, por lo que se podr adems investigar si a a existe una interaccin entre el bloque y los factores principales. o

10

Luis Cayuela

Introduccin al diseo de experimentos o n

3.2.

Split-plot

Los split-plot son una extensin de los diseos por bloques aleatorizados. Los o n diseos de tipo split-plot se originaron en el campo de la agronom pero hoy n a, en d se encuentran con frecuencia en muchos otros mbitos. Como su nombre a a indica, las parcelas experimentales son divididas en varias subparcelas. La parcela es sometida a los distintos tratamientos de uno de los factores. Hasta aqu el diseo se corresponde perfectamente con el diseo por bloques , n n aleatorizados. Lo que distingue a un diseo de tipo split-plot de uno por n bloques aleatorizados es el hecho de que cada parcela o bloque es ahora sometido a los efectos de un segundo factor, permitiendo replicacin de estos o tratamientos entre las parcelas o bloques. Este tipo de diseos surgen como n consecuencia generalmente de restricciones impuestas en las condiciones de experimentacin, lo que impide una completa aleatorizacin del diseo. o o n Ejemplo 3 En el ejemplo anterior, imaginemos ahora que es muy caro llevar cisternas a cada una de las ncas para simular el riego. Por restricciones de experimentacin, decidimos someter a riego a todas las rplicas dentro de dos o e de las cuatro ncas, y dejar sin riego a todas las rplicas de las otras dos. El e factor luz ser aplicado de forma aleatoria dentro de cada nca (bloque). a Todos los tratamientos del factor luz se aplicar por tanto dentro de cada an bloque, pero los tratamientos del otro factor (agua) ser aplicados a bloques an completos.

11

Luis Cayuela

Introduccin al diseo de experimentos o n

Comparemos este diseo con el diseo de dos factores totalmente aleatorizado n n del Ejemplo 1. La principal diferencia es que, en el diseo de dos factores n totalmente aleatorizados, cada rplica recibe las aplicaciones de los e tratamientos resultantes de combinar los niveles de los dos factores de forma independendiente. En el diseo de tipo split-plot, uno de los tratamientos se n aplica a bloques enteros o parcelas, y el otro se aplica a las rplicas dentro de e cada bloque. Ejemplo 4 Queremos investigar el efecto de tres frecuencias de riego (diario, cada dos d cada tres d as, as) y cuatro variedades de semilla (A, B, C, D) sobre la produccin de alfalfa. Bajo un diseo totalmente aleatorizado o n tendr amos que seleccionar parcelas de cultivo independientes entre s y someterlas a todas las posibles combinaciones de los dos factores riego x variedad. Es decir que tendr amos que asignar parcelas a un m nimo de 3 x 4 = 12 grupos y, para tener rplicas dentro de cada grupo y poder ver el efecto e de la interaccin entre estos dos factores necesitar o amos al menos 24 parcelas de cultivo (aunque si nos atenemos al ideal de 10 rplicas por tratamiento, e necesitariamos al menos 120 rplicas). En experimentacin agr e o cola esto supone una limitante muy importante. Una opcin ser subdividir cada o a parcela de cultivo en doce subparcelas y aplicar en cada una de ellas una combinacin de los niveles de los dos factores investigados. De esta manera con o 6 parcelas tendr amos un total de 6 x 12 = 72 muestras, eso s no , independientes entre s Una manera de analizar estos datos ser por medio de . a un anova factorial completo con un bloque (parcela, con 6 niveles).

12

Luis Cayuela

Introduccin al diseo de experimentos o n

Ahora imaginemos que no podemos implementar distintos tipos de riego dentro de cada parcela. Una opcin ser subdividir cada parcela en cuatro o a subparcelas y aplicar en cada una de ellas una variedad de semilla. Y podr amos aplicar cada tipo de riego a dos parcelas distintas. Esto ser un a diseo de tipo split-plot. Tendr n amos ahora 6 x 4 = 24 muestras, no independientes entre s pero con un grado menor de independencia que en el , caso anterior ya que hay un factor, que es el riego, cuyo efecto se mide entre parcelas.

3.3.

ANOVA de medidas repetidas

En todos los diseos que hemos visto hasta el momento, la variable respuesta n es medida para cada rplica en un momento determinado al nal del e experimento. Un diseo de medidas repetidas se utiliza cuando se obtienen n mltiples observaciones de una misma rplica en distintos momentos o u e periodos de tiempo. El diseo de medidas repetidas puede concebirse como un n diseo por bloques aleatorizados, en dnde las rplicas ser los bloques y a n o e an cada rplica se le aplicar distintos tratamientos del factor principal en e an distintos momentos o periodos de tiempo. Los diseos de medidas repetidas se utilizan con mucha frecuencia en los n campos de la medicina y la psicolog en dnde observaciones repetidas son a, o 13

Luis Cayuela

Introduccin al diseo de experimentos o n

tomadas en los mismos sujetos experimentales variando los tratamientos aplicados a los mismos. En la terminolog de los diseos de medidas repetidas, a n los factores cuyos efectos se miden dentro de sujetos se denominan factores intra-sujetos, mientras que los factores cuyos efectos se miden entre sujetos se denominan factores inter-sujetos. En principio los diseos de medidas n repetidas requieren de la existencia de, al menos, un factor intra-sujetos, que ser equivalente al bloque en el diseo por bloques aleatorizados. Si adems de a n a un factor intra-sujetos tenemos un factor inter-sujetos tendriamos un diseo n equivalente al split-plot. Ejemplo 5 Imaginemos una investigacin diseada para conocer el efecto de o n cuatro tipos de dietas sobre el engorde de los cerdos. Podemos optar por seleccionar tantos grupos de sujetos como dietas disponibles (cuatro) y someter a cada grupo a un unico tipo de dieta. De esta manera tendremos un diseo con un factor (tipo de dieta, con cuatro niveles) y tantos grupos de n sujetos como niveles del factor (cuatro). Para analizar los datos de este diseo n podemos utilizar un ANOVA de un factor completamente aleatorizado.

En lugar de esto, podemos seleccionar un unico grupo de sujetos y someterles de manera secuencial (dejando un intervalo de tiempo entre la aplicacin de o una dieta y otra) a los cuatros tipos de dietas distintas. En este caso seguiremos teniendo un diseo de un factor (tipo de dieta, con cuatro niveles), n pero un slo grupo de sujetos que hacemos pasar por las cuatro condiciones o denidas por los niveles del factor (tendremos a todos los sujetos sometidos a todas las dietas). Es importante aleatorizar la aplicacin de los tratamientos o dentro de cada individuo (rplica) al igual que hac e amos con las rplicas dentro e de cada bloque en el diseo por bloques aleatorizados. Para analizar los datos n de este diseo podemos utilizar un ANOVA de medidas repetidas. n

14

Luis Cayuela

Introduccin al diseo de experimentos o n

Ejemplo 6 Se quiere ver el efecto de 3 tratamientos de depuracin de aguas o residuales distintos sobre la produccin de vertidos contaminantes al cauce de o un r Se prueban los tres tratamientos de manera consecutiva en 12 fbricas o. a distintas y despus de implementar cada uno de los tratamientos de miden la e produccin de vertidos contaminantes. o Ejemplo 7 Se est investigando el efecto de distintos tipos de sustrato a (granito, cemento, pizarra) sobre el reclutamiento de percebes en granjas de produccin acu o cola. Un diseo de un factor totalmente aleatorizado implicar n a seleccionar distintas rplicas sobre los tres tratamientos (sustratos). Como se e trata de un experimento manipulativo, colocamos en distintos puntos de la costa 10 estructuras cuadradas de cada tipo de sustrato. Pasados varios meses medimos el reclutamiento de percebes. Imaginemos que ahora decidimos realizar mediciones cada 12 meses durante 3 aos (3 mediciones). Podr n amos incorporar el ao como un factor intra-sujetos, por lo que tendr n amos el equivalente a un split-plot pero en dnde el bloque ser la rplica (estructura o a e cuadrada muestreada) y stas experimentar los distintos niveles del factor e an tiempo (diseo de medidas repetidas)1 . n
1 Si observramos que el reclutamiento de percebes sigue una tendencia (positiva o negativa) a lineal con el tiempo, tambin podr e amos incluir el ao como una variable continua (covariable) n e incorporar un factor aleatorio (muestra) para especicar que la variabilidad se produce dentro de cada rplica. e

15

Luis Cayuela

Introduccin al diseo de experimentos o n

Ventajas e inconvenientes del ANOVA de medidas repetidas Los diseos de medidas repetidas ofrecen varias ventajas. La primera es la n eciencia. Se requieren menos rplicas para comprobar los efectos del factor e que un diseo totalmente aleatorizado. Adems, los diseos de medidas n a n repetidas permiten controlar la variabilidad debida a las diferencias que pueden existir de forma natural entre las rplicas o sujetos experimentales. e Cuando las rplicas representan individuos (plantas, animales, o humanos), e esto permite controlar de manera eciente las diferencias entre individuos debidas al tamao, edad, o a su historia de vida, todas las cuales pueden tener n un efecto importante sobre la variable respuesta. Los principales inconvenientes que podemos encontrar en un diseo de medidas n repetidas son el efecto de arrastre (carry-over eects) y el efecto de aprendizaje por la prctica. El primero se produce cuando se administra un a nuevo tratamiento antes de que haya terminado el efecto de otro tratamiento previamente administrado. El segundo ocurre cuando las respuestas de los sujetos a un tratamiento mejoran como consecuencia de los tratamientos previamente administrados bien sea como consecuencia del aprendizaje o como consecuencia de respuestas acumulativas. Por ello es conveniente aleatorizar los tratamientos dentro de cada sujeto, como en el Ejemplo 5. El diseo de medidas repetidas (y tambin el diseo por bloques aleatorizados) n e n hace un supuesto especial: el supuesto de circularidad o esfericidad para el factor intra-sujetos (en el caso de bloques aleatorizados, para el bloque). La circularidad en este contexto signica que la varianza de las diferencias entre cada dos tratamientos dentro de cada rplica es la misma. Si se produce e cualquiera de los dos efectos descritos anteriormente o si existe alguna correlacin temporal entre las observaciones hechas dentro de cada individuo, o se incumplir este supuesto, y se aumentar el error de Tipo I para los test F, a a por lo que habr ms probabilidades de rechazar incorrectamente la hiptesis a a o nula cuando no deber amos rechazarla. De hecho, en los diseos de medidas n repetidas, se incumple este supuesto muy frecuentemente.

3.4.

ANOVA anidado o jerarquizado

Hasta ahora todos los diseos de experimentos que hemos visto son cruzados. n Los diseos cruzados son aquellos en donde existen todas las combinaciones n posibles de los niveles de dos o ms factores (ver Ejemplo 1). A veces puede a ocurrir que tengamos algunos niveles de un factor combinados con unos niveles determinados de otro factor, sin que exista una representacin de todas las o posibles combinaciones de los niveles de los factores. Esto puede ocurrir cuando perdemos algunas rplicas del experimento, pero sobre todo ocurre e cuando tenemos remuestreos dentro de cada rplica, algo que se conoce en la e literatura cient ca con el nombre de pseudorreplicacin. o 3.4.1. Pseudorreplicacin o

La pseudorreplicacin ocurre cuando analizas los datos como si tuvieras ms o a grados de libertad de los que realmente tienes. Hay dos tipos de

16

Luis Cayuela

Introduccin al diseo de experimentos o n

pseudorreplicacin: (1) temporal, que implica re-muestreos de los mismos o individuos2 ; y (2) espacial, que implica que las muestras han sido tomadas en puntos prximos entre s La pseudorreplicacin supone un problema grave o . o porque uno de los supuestos ms importantes de la mayor de los anlisis a a a estad sticos es la independencia de los errores. La pseudorreplicacin temporal o tendr errores no independientes porque las peculiaridades de los individuos a remuestreados quedarn reejadas en todas las medidas tomadas sobre ellos a (es decir, las muestras procedentes de los mismos individuos estarn a correlacionadas unas con otras). Las muestras tomadas en puntos prximos o entre s tendrn errores no independientes porque las peculiaridades de la a localidad sern comunes a todas las muestras (por ejemplo, si varias muestras a proceden de una zona con suelos muy frtiles, los valores de crecimiento en e plantas sern todos muy altos y parecidos entre s a ). La pseudorreplicacin es, por lo general, bastante fcil de distinguir. La o a pregunta que hay que hacerse es la siguiente: Cuntos grados de libertad para a los errores tiene el experimento realmente? Si un experimento de campo parece tener muchos grados de libertad, es posible que est pseudorreplicado. e Tomemos un ejemplo procedente del control de plagas de insectos en plantas. Tenemos 20 parcelas, 10 fumigadas y 10 no fumigadas. Dentro de cada parcela hay 50 plantas. Cada planta es medida 5 veces para asegurar que la medicin o est bien hecha. Este experimento genera 20 x 50 x 5 = 5000 valores. Hay dos a tratamientos (fumigado, no fumigado), as que debe de haber un grado de libertad para el factor y 4998 grados de libertad para el trmino error. e Contemos ahora las rplicas (es decir, muestras independientes que e experimentan el mismo nivel o combinaciones de los niveles de los factores) que hay en este experimento. Los remuestreos hechos sobre las mismas plantas (las cinco muestras por planta) no son rplicas. Las 50 plantas individuales e medidas dentro de cada parcela tmpoco son rplicas ya que es muy probable a e que las condiciones de cada parcela sean unicas y afecten por igual a cada grupo de 50 plantas muestreadas dentro de ellas independientemente de la aplicacin o no de la fumigacin. Hay 10 parcelas fumigadas y 10 no fumigadas o o y cada parcela va a proporcionar un unico valor no independiente de la variable respuesta (por ejemplo, la proporcin del rea de las hojas comida por o a los insectos). Por tanto, habr 9 grados de libertad dentro de cada nivel del a factor, y 9 x 2=18 grados de libertad para el trmino error en el experimento e en su conjunto. No es dif encontrar ejemplos de pseudorreplicacin cil o parecidos a ste en la literatura cient e ca. El problema es que, si no se identica correctamente la existencia de pseudorreplicacin, podemos acabar o sacando conclusiones equ vocas sobre la signicacin de los resultados (con o 4998 grados de libertad para el trmino error, es casi imposible no detectar e alguna diferencia estad sticamente signicativa). Hay varias cosas que se pueden hacer cuando tus datos estn a pseudorreplicados:
Promediar la pseudorreplicacin y llevar a cabo tu anlisis estad o a stico

con las medias;


existe pseudorreplicacin los individuos remuestreados representan un unico nivo el del factor. No confundir por tanto con los diseos de medidas repetidas, en dnde cada n o individuo experimenta distintos niveles del factor.
2 Cuando

17

Luis Cayuela

Introduccin al diseo de experimentos o n

Hacer un anlisis separado para cada periodo de tiempo en el caso de la a

pseudorreplicacin temporal; o
Utilizar un anlisis de series temporales o modelos mixtos. a

Ejemplo 8 Se toman tres muestras de agua de tres pozos distintos. Con cada muestra se hacen dos determinaciones del contenido de uoratos en el agua (miligramos/litro de agua). Se quiere ver si hay diferencias en los contenidos de uorato entre los tres pozos. - Factor 1 = localidad (A, B, C). - Factor 2 (anidado en F1) = muestra (1, .., 9).

Ejemplo 9 Se quiere estudiar el efecto de una droga en hombres y mujeres. Se toman 8 individuos (4 hombres y 4 mujeres). A 2 hombres y a 2 mujeres se les suministra la droga, y al resto se les da un placebo. Se toma a cada individuo tres muestras de sangre y se mide la concentracin de la droga en o sangre. - Factor 1 = droga (control, droga) - Factor 2 = sexo (hombre, mujer) Estos dos factores son cruzados, porque tenemos una representacin de todos o los niveles del factor 2 (sexo) en todos los niveles del factor 1 (droga). Si slo o hubiramos tomado una muestra de cada individuo, tendr e amos muestras independientes entre s y por tanto un diseo ANOVA de dos factores n completamente aleatorizado. Pero... tenemos tres muestras de cada individuo Cada individuo debe ser tratado, por tanto, como un factor anidado dentro de cada una de las combinaciones de los niveles cruzados.

18

Luis Cayuela

Introduccin al diseo de experimentos o n

Ejemplo 10 Se quiere ver el efecto de la luz articial sobre la produccin de o distintas especies de cereal. Se toman 4 invernaderos: 2 con luz natural, y 2 con luz articial. En cada uno de los 4 invernaderos se plantan las mismas 3 especies de cereal. En cada invernadero se toman 5 muestras de cada especie y se calcula la productividad (kg/ha). - Factor 1 = luz (2 niveles). - Factor 2 (anidado en F1) = invernadero (cuatro niveles). - Factor 3 = especie (tres niveles).

4.

Modelos mixtos

Son una expansin de los modelos lineales generales que permite la inclusin o o de variabilidad correlacionada y no constante. Los modelos mixtos proporcionan, por tanto, la exibilidad necesaria para modelar no slo las o 19

Luis Cayuela

Introduccin al diseo de experimentos o n

medias, sino tambin las varianzas y covarianzas de los datos. Los modelos e mixtos no estn relacionados con el diseo de experimentos pero s nos va a a n permitir analizar diseos de experimentos que incumplan el supuesto de n independencia, como los diseos por bloques aleatorizados, los diseos de tipo n n split-plot, los diseos de medidas repetidas o los diseos anidados. Los modelos n n mixtos son llamados as porque incluyen dos tipos de factores: 1. Factores jos. Son todos aquellos factores cuyos niveles han sido denidos a priori. Las conclusiones que saquemos de nuestro estudio no pueden, por tanto, extrapolarse a otros niveles del factor que no hayan o sido incluidos en el modelo. Afectan slo a la media de y. 2. Factores aleatorios. Son todos aquellos factores cuyos niveles representan una muestra aleatoria de todos los posibles niveles del factor. Las conclusiones que saquemos de nuestro estudio se reeren a todos los posibles niveles del factor, aunque no estn recogidos de forma expl e cita en el experimento. Afectan slo a la varianza de y. o A veces una variable explicativa representa una agrupacin en el espacio o o tiempo. Este tipo de diseos contradice los supuestos bsicos de los modelos n a estad sticos estndar: la independencia de los errores. Los modelos mixtos a tienen en cuenta esta no-independencia de los errores al modelar la estructura de la covarianza introducida por el agrupamiento de los datos. Una de las grandes ventajas de los modelos mixtos es que economizan grados de libertad t picamente utilizados por los niveles del factor. En vez de estimar una media para cada uno de los niveles del factor, el modelo de efectos aleatorios estima la distribucin de las medias (normalmente como la desviacin estndar de las o o a diferencias de las medias de cada uno de los niveles del factor alrededor de la gran media). Los modelos mixtos son particularmente utiles en los casos en dnde hay pseudorreplicacin temporal (medidas repetidas o diseos anidados) o o n o espacial (diseos anidados, por bloques aleatorizados o experimentos de tipo n split-plot). En denitiva, los modelos mixtos nos van a permitir, por un lado, no desperdiciar grados de libertad en la estimacin de los parmetros de cada o a uno de los niveles del factor de agrupacin y, por otro, hacer uso de todas las o mediciones que hemos realizado. Un efecto aleatorio deber ser considerado como que proviene de una a poblacin de posibles efectos: la existencia de esta poblacin de posibles o o efectos es un supuesto extra que debemos de considerar en el caso de los modelos mixtos. As pues es ms propio hablar de prediccin de efectos a o aleatorios que de estimacin de efectos aleatorios. Estimamos los efectos jos a o partir de los datos, pero hacemos predicciones sobre la poblacin de la cual o proceden nuestros efectos aleatorios. Los efectos jos son constantes desconocidas que estimamos a partir de los datos. Los efectos aleatorios gobiernan la estructura de varianza-covarianza de la variable respuesta. Los efectos jos son a menudo tratamientos experimentales que fueron aplicados bajo nuestra direccin, y los efectos aleatorios son variables que se distinguen o por el hecho de que no nos interesan desde el punto de vista de los parmetros a sino de la varianza que explican. Otra diferencia importante entre efectos jos y aleatorios es que los efectos jos tienen niveles del factor informativos, mientras que los efectos aleatorios 20

Luis Cayuela

Introduccin al diseo de experimentos o n

tienen niveles del factor que no son informativos. La diferencia se ve mejor con un ejemplo. En los mam feros la variable categrica sexo tiene dos niveles: o macho y hembra. Para cualquier individuo que encuentres, el saber que es, por ejemplo, hembra, implica una gran cantidad de informacin sobre el individuo, o y esta informacin se desprende de la experiencia recogida de muchos otros o individuos hembra. Una hembra tendr una serie de atributos (asociados con a el hecho de ser hembra) sin importar la poblacin a la que pertenezca el o individuo en cuestin. Tomemos ahora una variable categrica como genotipo. o o Si tenemos dos genotipos en una poblacin podr o amos etiquetarlos A y B. Si tomamos dos genotipos de otra poblacin diferente podr o amos etiquetarlos igualmente A y B. En este caso, la etiqueta A no recoge ninguna informacin o de referencia sobre el genotipo en cuestin, salvo que es probable que sea o diferente al genotipo B. En el caso del sexo, el nivel del factor (macho o hembra) es informativo. Sexo es por tanto un factor jo. En el caso del genotipo, el nivel del factor (A o B) no es informativo: genotipo es, por tanto, un factor aleatorio. Los efectos aleatorios tienen niveles del factor que son extraidos de una poblacin mayor (potencialmente muy grande) en los cuales o los individuos pueden diferir en su respuesta de muchas maneras, pero en dnde nosotros no sabemos exactamente cmo o por qu dieren. o o e

4.1.

Efectos jos o aleatorios?

A veces puede ser dif decidir si una variable explicativa categrica tiene un cil o efecto jo (sobre la media de y) o un efecto aleatorio (sobre la varianza de y). A continuacin se dan algunas claves que nos pueden ayudar a decidir sto: o e
Estoy interesado en el tama o del efecto? Si la respuesta es s entonces n ,

factor jo.
Es razonable asumir que los niveles del factor provienen de una

poblacin de niveles? Si la respuesta es s entonces factor aleatorio. o ,


Hay sucientes niveles del factor a partir de los cuales estimar la

varianza de los efectos de la poblacin? Si la respuesta es no, entonces o factor jo. Zuur et al. (2007) estiman que al menos son necesarios 5 niveles del factor para poder considerar un factor como aleatorio, aunque es preferible que haya ms de 10 niveles para sto. En cualquier caso si a e slo hay 2 o 3 niveles siempre se ha de tratar un factor como jo. o
Son los niveles del factor informativos? Si la respuesta es s entonces ,

factor jo.
Son los niveles del factor simplemente etiquetas numricas? Si la e

respuesta es s entonces generalmente factor aleatorio. ,

4.2.

Modelos mixtos una alternativa para representar y analizar otros dise os de experimentos? n

Los modelos mixtos ofrecen una alternativa (pero no la unica) para la representacin y anlisis de los diseos de experimentos ms all de los diseos o a n a a n 21

Luis Cayuela

Introduccin al diseo de experimentos o n

factoriales completamente aleatorizados, es decir, para todos los otros diseos n vistos en este curso, incluyendo el diseo por bloques aleatorizados, los n split-plot, los diseos de medidas repetidas y los diseos anidados o n n jerarquizados. Cualquier factor que represente una agrupacin no o independiente de las rplicas (como los diseos por bloques aleatorizados o los e n diseos de tipo split-plot) o cuya respuesta se mida dentro de los sujetos (como n en el caso de los diseos de medidas repetidas o los diseos anidados) pueden n n ser analizados considerando la existencia de un factor de agrupacin cuyos o efectos son aleatorios. Si el diseo es por bloques aleatorizados con un unico factor el planteamiento n para analizar los datos con modelos mixtos ser el siguiente: a y X1 + random(Bloque) Si el diseo es de tipo split-plot, con un factor aleatorizado entre bloques y otro n aleatorizado dentro de bloques (Ejemplo 3), el planteamiento ser este otro: a y X1 X2 + random(Bloque) Si el diseo es de medidas repetidas con un unico factor que opera n intra-sujetos (Ejemplos 5 y 6) tendr amos un modelo terico de este tipo: o y X1 + random(Individuo) Si adems de tener un factor intra-sujetos tenemos un factor inter-sujetos a (Ejemplo 7), el modelo ser este otro: a y X1 X2 + random(Individuo) Si tenemos un diseo anidado en dnde queremos probar el efecto de un factor n o sobre la variable respuesta, pero tomamos varias muestras de una misma rplica (Ejemplo 8), entonces tendr e amos un modelo de este tipo: y X1 + random(Rplica) e Finalmente, si tenemos un diseo anidado con dos factores cruzados y varias n muestras de las rplicas (Ejemplo 9), tendriamos lo siguiente: e y X1 X2 + random(Rplica) e En dnde Bloque, Individuo o Rplica ser factores ya existentes o que o e an tendr amos que crear con tantos niveles como bloques, individuos o rplicas e haya. En la siguiente sesin se ver cmo analizar este tipo de diseos o a o n utilizando modelos mixtos en R.

22

Luis Cayuela

Introduccin al diseo de experimentos o n

5.

Ejercicios

1. Se quiere ver cmo el efecto de la exposicin (solana, umbr rambla) y o o a, la localidad (Trbena, Crevillente) afectan al tamao de las hojas (en a n cm2 ) de encina. Para ello se disea un experimento en dnde se n o seleccionan aleatoriamente 24 individuos en tres zonas de solana, umbr a y rambla respectivamente dentro de cada una de las dos localidades de estudio. A cada individuo se le miden 20 hojas para evitar datos que pudieran ser at picos. Cmo es la naturaleza de cada uno de los o factores? 2. En un experimento agr cola se quiere investigar cmo la produccin de o o un determinado cultivo depende de tres variables: irrigacin (con dos o niveles: regado o no); densidad de siembra (con tres niveles: baja, media y alta); y fertilizacin (con tres niveles: baja, media y alta). El diseo o n experimental se plantea de la siguiente manera: se eligen cuatro parcelas agr colas independientes entre s Dichas parcelas son subidividas en dos . y a cada una de ellas se le aplica aleatoriamente uno de los dos tratamientos de irrigacin. Cada una de estas subparcelas es a su vez o dividida en tres partes y se aplica a cada una de ellas de manera aleatoria uno de los tres niveles de densidad de siembra. Por ultimo, a cada una de estas subparcelas ms pequeas se las divide en tres y se a n aplica a cada una de ellas uno de los tres niveles de fertilizacin. o Cuntos factores hay y cul es la naturaleza de cada uno de ellos? a a 3. En un experimento se quiere ver cmo el tipo de hbitat (bosque, o a matorral, pastizal) y distintos escenarios de cambio climtico (control, a aumento de la lluvia, disminucin de la lluvia) pueden afectar diferentes o respuestas en varias especies t picamente mediterrneas. Para ello se a selecciona una zona de bosque, una de matorral y una de pastizal, todas prximas entre s En cada una de ellas se instalan 8 parcelas de 2 x 2 m. o . Cada parcela es subdividida en 9 subparcelas y se simulan en tres de cada 9 uno de los tres escenarios de cambio climtico. Se plantan semillas a de las plantas objeto de estudio y se miden las respuestas al cabo de un tiempo (porcentaje de germinacin, crecimiento, produccin de biomasa o o leosa, etc). Cuntos factores tenemos en este estudio y cmo son? n a o 4. En un estudio se investiga la inuencia de dos factores: herbivor (con a tres niveles: un control y dos niveles de intensidad) y lluvia (con tres niveles: un control y dos niveles de riego durante los meses de verano), sobre la cobertura de plantas herbceas perennes en una dehesa a mediterrnea. Para ello se dispone de 9 parcelas de 2 x 2 m en dos a bloques. Cada una de las parcelas de cada bloque es sometida a un nivel del tratamiento resultante de combinar los factores herbivor y lluvia. El a muestreo de cobertura se realiza en 6 cuadrats de 25 x 25 cm dentro de cada parcela. Adems, se repite el muestreo durante 6 aos consecutivos, a n para captar la variabilidad inter-anual propia de los sistemas mediterrneos, si bien se quiere captar la tendencia general y no la a respuesta espec ca de las plantas en cada uno de los aos del estudio. n Cuntos factores hay y cul es la naturaleza de cada uno de ellos? a a

23

Luis Cayuela

Introduccin al diseo de experimentos o n

6.

Referencias
Gotelli, N.J., Ellison, A.M. (2004). A primer of ecological statistics.

Sinauer Associates, Inc. Publishers, Sunderland, Massachusetts, USA.


Zuur, A.F., Ieno, E.N. & Smith, G.M. (2007). Analysing ecological data.

Springer, New York.


Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. & Smith, G.M.

(2009). Mixed eects models and extensions in ecology with R. Springer, New York.
Crawley, M.J. (2007). The R Book. Wiley.

24

Potrebbero piacerti anche