Sei sulla pagina 1di 153

ANLISIS DE ENSAYOS AGRCOLAS MULTI-AMBIENTALES

Ejemplos con Info-Gen

Mnica Balzarini Cecilia Bruno Alejandra Arroyo

Estadstica y Biometra. Facultad de Ciencias Agropecuarias. Universidad Nacional de Crdoba

Prefacio
La utilizacin cuidadosa de procedimientos de anlisis de datos agronmicos y ambientales es una condicin inherente al desarrollo actual y futuro de investigaciones orientadas a mejorar los cultivos en forma econmica y ambientalmente sustentable. La eficiencia en la generacin de tecnologas de cultivo y en el proceso de adaptacin de stas a las reas de produccin depende del entendimiento de las respuestas de las plantas a los diversos ambientes. Los ensayos multi-ambientales, donde un conjunto de tratamientos (por ejemplo, variedades) se evala en mltiples ambientes, son cruciales para desarrollar el conocimiento cientfico necesario. En particular, los ensayos muti-ambientales de comparacin de rendimientos, son frecuentes en investigaciones agrcolas ya que constituyen una de las principales estrategias para la obtencin de mejores genotipos vegetales y para la identificacin de ambientes donde stos pueden expresarse de manera diferencial. Los ensayos multi-ambientales representan una de las herramientas de investigacin ms potentes para incrementar la productividad y rentabilidad de los cultivos. Ms all de los aportes de centros internacionales a la mejora de cultivos, muchos programas nacionales de mejoramiento y de investigacin agrcola (de gestin pblica y privada) mantienen un rol fundamental en su regin, particularmente en lo concerniente a la explotacin de la adaptacin especfica y a las caractersticas de estabilidad de rendimiento desarrollando alto nivel de conocimiento del germoplasma local, las prcticas de manejo y sus interacciones con los ambientes de la regin. Una pltora de ensayos multi-ambientales comparativos de rendimiento se conducen peridicamente, en cada regin del rea de cultivo de una especie, debido a la omnipresencia de la interaccin genotipoambiente, i.e. respuestas genotpicas diferenciales en diferentes ambientes. Estos ensayos permiten identificar adaptaciones de germoplasma tanto en sentido amplio (a travs de los ambientes) como especfico (para cada ambiente o grupos de ambientes particulares). Conceptos importantes tales como adaptacin especfica,
i

estabilidad, ecotipos, ideotipos y subregiones o mega-ambientes se pueden analizar a partir de la interaccin genotipoambiente. Los ensayos multi-ambientales, no son slo diseados para evaluar genotipos, el inters puede radicar en la comparacin de sistemas de cultivos u otros tratamientos, pero el anlisis de los patrones de interaccin con el ambiente es siempre necesario. Cuando la interaccin es significativa se deben utilizar estrategias de anlisis apropiadas, ya que la comparacin de medias de tratamientos que no considera la variabilidad debida a la interaccin con el ambiente puede ser errnea. Los estudios de interaccin tratamientoambiente, as como la exploracin de los patrones de interaccin a partir de covariables del cultivo y/o los ambientes, proveen valiosa informacin para optimizar la respuesta de los cultivos en los ambientes de inters. Las bases de datos relacionadas a ensayos multi-ambientales son costosas de obtener; la eficiencia en el uso de los recursos destinados a esta tarea puede incrementarse considerablemente a partir de la utilizacin de nuevos mtodos y modelos de anlisis de datos capaces de convertirlos en informacin significativa. En esta publicacin presentamos, a travs de ejemplos, herramientas estadsticas para explorar bases de datos de ensayos multi-ambientales. Los ejemplos se realizan a partir de datos gentilmente puestos a disposicin por investigadores en agricultura. Esperamos que sta publicacin sea de utilidad para mejorar la productividad agrcola en beneficio de la sociedad y el medioambiente y para promover un enfoque interdisciplinario en el diseo y anlisis de ensayos multi-ambientales.

ii

Organizacin del Texto


La primera parte est destinada a una revisin de ideas y principios estadsticos, para establecer el lenguaje tcnico que se utilizar ms adelante en la modelacin de casos experimentales reales. En la Parte II se presentan conceptos relacionados a experimentos agrcolas que involucran mltiples ambientes, en especial aquellos comparativos de rendimiento y orientados a la bsqueda de germoplasma diferencial. La Parte III presenta una coleccin de ejemplos de anlisis realizados sobre ensayos multi-ambiantales mediante la aplicacin de modelos de Anlisis de la Varianza (ANAVA), de Regresin Lineal y mtodos estadsticos multivariados. Los mtodos presentados aqu no son exhaustivos, existen numerosas estrategias analticas que podran ser implementadas en este tipo de ensayos, pero hemos decidido comenzar por publicar stas esperando que a partir de su aplicacin surjan nuevas preguntas y se genere un medio propicio para explorar los desafos y oportunidades de la modelacin estadstica en esta rea. El texto ha sido desarrollado proveyendo los comandos necesarios para utilizar estas herramientas analticas en el software Info-Gen (Balzarini y Di Rienzo, 2004), un programa amigable y porttil para el anlisis de datos genticos, desarrollado por investigadores de la Ctedra de Estadstica y Biometra de la Facultad de Ciencias Agropecuarias, Universidad Nacional de Crdoba, con subsidio de la Agencia Nacional de Ciencia y Tecnologa de la Repblica Argentina y la Agencia Crdoba Ciencia. Una copia del CD del software InfoGen acompaa esta publicacin; las instrucciones para la instalacin se encuentran en el mismo CD.

iii

CONTENIDOS
PARTE I.................................................................................................................................................................1 MODELOS CIENTFICOS...................................................................................................................................1 MODELO MATEMTICO .......................................................................................................................................1 MODELO ESTADSTICO........................................................................................................................................2 TRMINOS ASOCIADOS A MODELOS ESTADSTICOS............................................................................................4 INFERENCIA ESTADSTICA ...................................................................................................................................6 PARTE II ...............................................................................................................................................................9 ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA...............................................................................9 INTRODUCCIN ................................................................................................................................................ 11 ENSAYOS COMPARATIVOS MULTI-AMBIENTALES ............................................................................................. 13 GENOTIPO (G) ................................................................................................................................................. 14 AMBIENTE (E) .................................................................................................................................................. 14 INTERACCIN GENOTIPOAMBIENTE (GE)...................................................................................................... 14 ADAPTABILIDAD................................................................................................................................................ 16 MEGA-AMBIENTES............................................................................................................................................ 17 ECOTIPOS E IDEOTIPOS ................................................................................................................................... 18 ESTABILIDAD .................................................................................................................................................... 18 CONFIABILIDAD DEL RENDIMIENTO ................................................................................................................... 21 MODELOS PARA ANLISIS EN ENSAYOS COMPARATIVOS DE RENDIMIENTO ..................................................... 21 ENSAYOS EN LAS PRIMERAS ETAPAS DE EVALUACIN .................................................................................... 25 ENSAYOS EN ETAPAS AVANZADAS DE EVALUACIN ........................................................................................ 26 PARTE III ........................................................................................................................................................... 31 MODELOS Y MTODOS DE ANLISIS EN ENSAYOS MULTI-AMIBIENTALES.................................. 31 ANLISIS DE LA VARIANZA (ANAVA) ............................................................................................................... 33 ANLISIS DE COMPONENTES PRINCIPALES (ACP)........................................................................................... 41 ESTUDIO DE INTERACCIN CON MODELOS DE ANAVA Y ACP......................................................................... 47 Modelo AMMI y Biplots para AMMI(2) y AMMI(1).................................................................................. 49 Modelo SREG y Biplot GGE.................................................................................................................... 55 Modelo GREG y Biplot GEE.................................................................................................................... 61 ACP en el Estudio de Correlaciones Gentica y Ambientalmente Determinadas .............................. 65 ANLISIS DE REGRESIN ................................................................................................................................. 71 ANLISIS DE CORRELACIN LINEAL ................................................................................................................. 87 ANLISIS DE SENDERO (PATH ANALYSIS) ........................................................................................................ 91 REGRESIN POR MNIMOS CUADRADOS PARCIALES ....................................................................................... 95 ANLISIS DE CONGLOMERADOS..................................................................................................................... 103 RBOL DE CLASIFICACIN ............................................................................................................................. 113 ANLISIS DISCRIMINANTE LINEAL ................................................................................................................... 117

ANEXO DESCRIPCIN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS................... 123 Base de Datos: Ideotipos de Maz......................................................................................................... 125 Base de Datos: Factores Limitantes. Soja............................................................................................ 127 Base de Datos: Seleccin de genotipos. Garbanzo ............................................................................ 129 Base de Datos: Ensayos Comparativos de Rendimiento de Poroto.................................................. 131 Base de Datos: Calidad de soja ............................................................................................................ 133 Base de Datos: Calidad de man........................................................................................................... 135 Base de Datos: Ensayos Comparativos de Rendimiento de Man..................................................... 137 BIBLIOGRAFA CITADA .................................................................................................................................... 139

vi

PARTE I MODELOS CIENTFICOS

Modelo Matemtico
En investigaciones cientficas se reconocen distintos niveles, uno

observacional-descriptivo, otro cuantitativo donde se ponen nmeros a las obervaciones y otro ms avanzado que podramos llamar nivel predictivo, donde existe conocimiento como para pronosticar eventos futuros. No es posible saltar de la descripcin a la prediccin sin pasar por la etapa de cuantificacin Las bases de datos agrcolas, con observaciones repetidas en el tiempo y/o en el espacio, se tornan cada vez ms ricas (ms variables). La importancia de tener un modelo cuantitativo que ajuste los datos es poder predecir. A medida que nuestro entendimiento de los mecanismos ecolgicos, qumicos, biolgicos y econmicos de los procesos se incrementa existe mayor inters y necesidad en la modelacin de la dinmica que se observa o que se pone en accin mediante la experimentacin. Qu es un modelo cientfico? Un modelo es un instrumento o herramienta para estudiar el fenmeno de inters. Es una abstraccin de la realidad, una simplificacin del proceso bajo estudio realizada para poner de manifiesto aspectos relevantes en la bsqueda de respuestas a preguntas concretas. El modelo es usado para coordinar el conocimiento en un todo coherente, para representar los datos en una estructura slida que los sintetice y que permita visualizar los mecanismos que hay por detrs de stos. La Matemtica es el sistema lgico ms poderoso y universal, por ello no es sorprendente que la mayora de los modelos cientficos sean desarrollados como abstracciones matemticas del fenmeno observado y cuantificado. Los modelos matemticos proveen una estructura lgica y concisa para estudiar sistemas complejos (descubrir patrones, tendencias, relaciones), comunicar hallazgos, realizar predicciones y desarrollar nuevos conocimientos y tecnologas.

No existen modelos buenos, pero existen modelos que son tiles. No hay un modelo que tenga de todo, cada modelo permite abordar algn punto de vista, proporcionado una visin complementaria a la parte experimental. La modelacin cientfica es un proceso iterativo y fundamentalmente interdisciplinario. En esta seccin describiremos algunos aspectos tericos relacionados con la modelacin estadstica, para luego aplicar estas ideas en la bsqueda de modelos para responder preguntas de inters desde ensayos multi-ambientales usando Info-Gen como soporte computacional.

Modelo Estadstico
Un modelo puramente matemtico es un dispositivo mecanstico

(=determinstico) tal que para un conjunto de inputs se predice el output con absoluta certeza (Schabenberger y Pierce, 2002). Un modelo matemtico no deja nada liberado al azar. En particular en Bio-Ciencias, debido a la variabilidad innata de los datos empricos usados para desarrollar y validar el modelo, muchas veces es imposible predecir su output con exactitud. La variabilidad en el output puede provenir de fuentes de variacin sistemticas o aleatorias asociados a los inputs, pero an cuando stas sean reconocidas a priori e incorporadas en el modelo, existe mayor o menor extensin de variabilidad residual debida a: 1) errores de medicin, 2) errores de muestreo (asociados con el mecanismo de observacin) y/o 3) errores experimentales provenientes de heterogeneidades en el material experimental y/o en la aplicacin de tratamientos (variacin biolgica y tecnolgica). El diseo de experimentos con repeticiones es recomendado ya que la replicacin de los tratamientos o condiciones experimentales de inters garantiza que la variacin debida al error experimental pueda ser estimada. La replicacin, en combinacin con la aleatorizacin, permitir obtener estimaciones libres de sesgo.
2

Schabenberger y Pierce (2002) comentan que la inclusin de elementos estocsticos (aleatorios) en un modelo matemtico conduce a modelos ms parsimoniosos y a menudo a abstracciones ms seguras que muchos modelos determinsticos complejos. El modelo estadstico (modelo que incorpora la aleatoriedad) es presentado como un caso especial del modelo estocstico. El modelo estadstico contiene componenetes determinsticas y aleatorias (como los modelos estocsticos) pero asociadas a constantes desconocidas (parmetros) que deben ser estimadas a partir de los datos empricos. Por el contrario, en los modelos estocsticos todos los parmetros son conocidos. Por ejemplo, si modelamos la relacin entre el rendimiento (g/m2) y niveles de fertilizacin nitrogenada (kg/ha) con una funcin polinmica, un modelo matemtico describira la variable output o respuesta (es decir, el rendimiento) como funcin polinmica del nivel de fertilizacin (variable input o explicativa). As la i-sima observacin podra representarse a travs de una polinomial de segundo orden, i.e. Yi =0 +1Xi1+ 2 Xi2 . El modelo estocstico agregara a esta ecuacin un trmino de error aleatorio con alguna distribucin de probabilidad conocida y de media cero. Si los parmetros involucrados en el modelo (por ejemplo los y la varianza de los errores) son desconocidas y deben ser estimados a partir de los datos, diremos que el modelo Yi =0 +1Xi1+ 2 Xi2 + i es un modelo estadstico. Al agregar una desviacin aleatoria, el modelo explcitamente establece que la respuesta tambin es aleatoria, es decir que no puede predecirse con exactitud: La expresin del modelo matemtico (i.e. 0 +1Xi1+ 2 Xi2 ) es el valor esperado o promedio de la variable respuesta en el modelo estadstico. En general buscamos modelos estadsticos parsimoniosos, i.e. no necesitamos ajustar perfectamente cada dato, sino los valores esperados de una respuesta de inters bajo ciertas condiciones (no se espera que el modelo sea correcto para una observacin particular, sino que sea correcto en promedio). Usualmente se
3

necesita realizar omisiones de ciertos datos y suposiciones para abstraer el fenmeno y conseguir un modelo til para el valor esperado o promedio. El modelo estadstico, en general, describe la variabilidad de una o ms variables respuesta, descomponiendo esa variabilidad en fuentes de variacin conocida y desconocida. La calidad de un modelo no es necesariamente funcin de su complejidad o de su tamao, sino que est determinada por su utilidad en un estudio particular o experimento para responder a las preguntas de inters (Schabenberger y Pierce, 2002).

Trminos Asociados a Modelos Estadsticos


Un modelo estadstico tradicionalmente usado en ensayos multi-ambientales es el modelo de anlisis de la varianza (ANAVA) que se basa en la particin de la variabilidad total de la variable respuesta (Y) en una componente de la variabilidad debida a la influencia de factores de clasificacin conocidos, ms otro componente aleatorio asociado a la variabilidad residual o experimental. Otro modelo frecuente es el de regresin lineal (RL) donde la variabilidad en Y se expresa como la suma de la variabilidad debida a una relacin lineal entre Y y una o ms covariables o variables regresoras ms la variabilidad residual. Ambos modelos son lineales en los parmetros del valor esperado para Y. Segn la naturaleza (constante o aleatoria) de los efectos de los factores de clasificacin y/o covariables sobre Y, los modelos se clasifican como modelos de efectos fijos o modelos de efectos aleatorios o modelos mixtos (modelos que incluyen tanto efectos fijos como aleatorios distintos al trmino de error). Para realizar inferencias a partir de modelos de efectos fijos slo hay que especificar supuestos distribucionales o probabilsticas sobre los trminos asociados a la variacin no explicada (trminos de error). Cuando se trabaja con variables Y continuas como el rinde, generalmente se supone que los errores se distribuyen independientemente como variables aleatorias normales de media cero y varianza constante.

Estos supuestos se sustentan en un esquema de muestreo ideal y en un buen diseo experimental. No siempre se cumplen, por lo que se han desarrollado procesos de estimacin asociados a modelos no lineales para datos no normales, varianzas heterogneas y datos no independientes. Casanoves (2004, 2005b) ilustra aplicaciones de la teora de modelos mixtos para modelar falta de independencia y heterogeneidad de varianzas en modelos lineales para ensayos multi-ambientales. En esta edicin del libro, al usar modelos lineales de ANAVA y RL supondremos que se cumplen los supuestos usuales del muestreo ideal. Como se dijera anteriormente las variables input de estos modelos pueden ser variables de clasificacin (es decir variables que generan categorizaciones o clases de datos) o covariables (variables continuas que podran variar concomitantemente con la variable respuesta). Consideremos un ejemplo para usar los trminos introducidos. Supongamos un ensayo multi-ambiental donde 10 genotipos son sembrados en cada uno de 5 ambientes en un diseo en bloques completos al azar (DBCA) con 3 repeticiones por ambiente. Las clasificaciones de los datos relevados (Rinde) que identifican la fuente de cada dato son llamados factores. Cada clase individual de un factor representa un nivel. Aqu los factores son: Genotipo, Ambiente y Bloque. El factor Genotipo tiene 10 niveles, Ambiente 5 y Bloque 3. As hay 150 casos o filas (1053) en la matriz de datos. Si en cada unidad experimental (UE) o parcela se releva el rendimiento pero tambin la humedad del grano a cosecha, podramos considerar a la humedad como una covariables ya que sta es una variable cuantitativa que vara de parcela a parcela y que posiblemente sus variaciones o expliquen variaciones en el rendimiento. Adems del impacto de factores principales sobre la variabilidad de Y, frecuentemente es necesario estudiar la influencia de la variabilidad inducida por la interaccin de mltiples factores a la variabilidad de la respuesta. Nuevos factores pueden ser compuestos en trminos de los factores principales
5

(Genotipo, Ambiente, Bloque) y de propiedades particulares respecto del fenmeno estudiado. Si A y B son factores principales el factor compuesto A*B se denomina interaccin AB o A cruzado con B cuando cada nivel del factor A se combina con cada nivel del factor B para dar la nueva clase del factor AB. El factor compuesto B>A se denomina anidamiento de A en B cuando todas la unidades experimentales con el mismo valor de A tienen necesariamente el mismo valor de B, y por tanto cualquier variabilidad entre las clases de B contribuyen a la variabilidad entre las clases de A. Si A est anidado en B, los valores de los niveles de A correspondientes a una clase de B pueden diferir de los valores de los niveles de A en otra clases de B. En el ejemplo planteado, el factor Bloque se encuentra anidado en el factor Ambiente. Si bien los valores de los niveles del factor Bloque son 1, 2 y 3 (porque hay tres repeticiones) para todo nivel del factor Ambiente (es decir en todos los ambientes los bloques se numeran como 1, 2 y 3), el 1 para el factor Bloque del Ambiente 1 no tiene nada que ver con el 1 que corresponde al factor Bloque en el Ambiente 2. Postulado el modelo, es necesario estimar sus parmetros. El mtodo ms usado en la estimacin para modelos de efectos fijos es el mtodo de mnimos cuadrados, mediante el cual se realiza una bsqueda de valores para los parmetros de manera tal que las diferencias cuadrticas entre cada dato observado y el valor predicho segn el modelo sea mnima.

Inferencia Estadstica
La inferencia en un modelo estadstico implica no slo la estimacin de los parmetros del modelo sino tambin la determinacin de la precisin de las estimaciones (o errores estndares). Las estimaciones de los parmetros y sus errores estndares son utilizados para contrastar hiptesis referidas a los parmetros desconocidos del modelo. Las pruebas F constituyen la base del contraste de hiptesis. La hiptesis nula, comnmente evaluada para un parmetro del modelo, es aquella que postula que el parmetro es cero.
6

Cuando la hiptesis se rechaza se concluye que el input asociado a ese parmetro es influyente o importante en la explicacin de la variabilidad de Y. El software estadstico expresa los resultados de cada contraste de hiptesis en funcin de valores p o p-values. Los valores p son probabilidades calculadas bajo el supuesto de que la hiptesis nula es verdadera. Ellos miden la probabilidad de observar un resultado experimental al menos tan extremo como el observado en nuestro experimento cuando la hiptesis nula es verdadera. Por ello se rechaza la hiptesis nula (hiptesis que niega la existencia de influencia o que postula la nulidad del parmetro) siempre que el valor p sea pequeo. Como pequeo se debe entender menor o igual al nivel de significacin () definido a priori para el contraste, generalmente, =0.05. Si se rechaza la hiptesis nula y se concluye que existe un efecto significativo (repetible) del input sobre el output.

PARTE II ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA

Introduccin
En marzo de 2000, el premio Nobel Norman Borlaug (Borlaug, 2000) remarc que las investigaciones en agricultura deben orientarse al desarrollo y aplicacin de tecnologas que incrementen, en forma econmica y ambientalmente sustentable, los rendimientos de granos en un 75% en los prximos 25 aos. En respuesta a esta problemtica se desarrollan investigaciones agrcolas que involucran numerosas dimensiones de anlisis; de particular importancia resulta la bsqueda de germoplasma diferencial y de tcnicas de manejo que permitan un mejor uso y conservacin de los recursos involucrados. El aumento sostenido de la produccin agropecuaria est orientando a las investigaciones en agricultura hacia una diversidad de objetivos, que se relacionan tanto a la produccin econmica como a la mayor calidad y tambin hacia la capacidad de adaptacin de las plantas a condiciones ambientales especficas. El mejoramiento de germoplasma diversificado, adaptado especficamente, constituye un importante elemento de polticas de desarrollo hacia una agricultura sustentable. La obtencin de germoplasma de alta calidad, no slo ofrece bio-seguridad, sino que tambin permite generar nichos especiales de mercado. El conocimiento de relaciones entre variables de cantidad y calidad de produccin y su ambiente de cultivo es clave para desarrollar tecnologas de produccin segura y de alto impacto. Es necesario maximizar el potencial agrcola de sistemas de cultivos especficos y minimizar la ocurrencia de eventos desfavorables. La mayora de los caracteres de cultivo de importancia econmica corresponden a caractersticas complejas o polignicas y son tanto gentica como ambientalmente determinados (Dayde, 2000; Casini et al., 2002; Casini et al., 2003, Dardanelli et al., 2005). Dado que las regiones de produccin de los principales cultivos cubren extensas reas ecolgicas con amplio rango longitudinal y latitudinal, se observan importantes variaciones de condiciones climticas (en especial
11

precipitaciones, radiacin y temperatura) y de suelo; stas en interaccin con aquellas debidas a la mejora continua del germoplasma vegetal y de las tecnologas de produccin, provocan respuestas altamente variables. La interaccin genotipoambiente, ofrece posibilidades, especialmente en la seleccin y adopcin de genotipos que muestren interaccin positiva con una localidad y sus condiciones ambientales prevalecientes (exploracin de adaptacin especfica) o de genotipos con baja frecuencia de rendimientos pobres o fracaso del cultivo (exploracin de estabilidad de rendimientos) (Kang, 1990). La presencia de interaccin entre genotipos y ambiente puede ser utilizada para la generacin de nichos ptimos para la obtencin de productos agroalimentarios diferenciales. Su presencia debe ser contemplada en el anlisis de resultados experimentales, desde la generacin de diseos o planes experimentales hasta en el anlisis y elaboracin de recomendaciones. Las decisiones concernientes con las estrategias de mejoramiento del germoplasma y del cultivo de variedades vegetales deben ser basadas sobre un conocimiento cientfico del material vegetal y sus relaciones con los ambientes de cultivo. Por ello existe una inversin sustancial por parte de numerosas organizaciones en la implementacin de ensayos multi-ambientales. Aspectos claves para el anlisis de datos de ensayos multiambientales no slo se relacionan con las suposiciones que se deben realizar respecto a los efectos principales de tratamientos, ambientes e interacciones sino tambin con los supuestos asociados con las componentes de error derivadas de las parcelas y el arreglo experimental que se utiliza a campo para conducir cada ensayo individual. Es importante recordar que los experimentos que involucran repeticiones permiten mejor control y estimacin del error experimental. Sin embargo, aumentar la repeticin espacial y temporal de los ensayos (obteniendo en mejor muestreo de la variacin ambiental) es ms conveniente que aumentar el nmero de rplicas en cada ensayo cuando se trata de experimentos multi-ambientales (Bradley et al., 1988). Si bien los diseos experimentales realizados planificadamente para evaluar genotipos y/o
12

sistemas de cultivos en mltiples ambientes suelen tener un diseo balanceado y con repeticiones dentro de cada ambiente, su elevado costo muchas veces limita el plan experimental a nivel multi-ambiental y a menudo las conclusiones deben extraerse de bases de datos con discontinuidad en el tiempo, con alta dinmica de tratamientos entre ambientes y por tanto altamente desbalanceadas. Interpretar la gran cantidad de datos que se recolectan en ensayos multiambientales ha generado importantes desafos metodolgicos-analticos. Nuevas aproximaciones para el anlisis de datos relacionados a la variacin genotpica o entre tratamientos, ambiental y la interaccin tratamientoambiente han probado ser de utilidad. Pero, dada la multidimensionalidad del problema, el enfoque seguido en la aplicacin de estos mtodos y modelos debe necesariamente ser interdisciplinar. La interaccin entre biometristas con ecofisilogos, mejoradores vegetales, agrometeorlogos, qumicos, fitopatlogos y biotecnlogos, entre otros, es crucial para favorecer la generacin de informacin necesaria para un accionar apropiadamente planificado.

Ensayos Comparativos Multi-ambientales


Los ensayos multi-ambientales son comunes en la evaluacin de germoplasma vegetal. Al realizar los ensayos en distintos ambientes se aumenta el espacio de inferencia y la potencia para explorar la interaccin de los genotipos con los ambientes. Los ensayos comparativos de rendimiento (ECR) multi-ambientales, constituyen una coleccin de ensayos comparativos de rendimiento a travs de los ambientes. Los ECR multi-ambientales se caracterizan por involucrar mltiples ambientes (localidades y/o aos) en los que se evalan varios genotipos, dentro de cada ambiente se sigue un diseo experimental particular, como por ejemplo, un diseo en bloques completamente aleatorizados (con bloques completos o incompletos). Antes de iniciar una discusin sobre el anlisis de estos ensayos es importante dejar establecido ciertos trminos y

13

abreviaciones que sern usadas, en concordancia con aquellas de la bibliografa internacional.

Genotipo (G)
Se refiere a un cultivar (i.e., ya sea con material genticamente homogneo, tales como lneas puras y clones o heterogneos tales como poblaciones de polinizacin abierta) ms que al genoma del individuo.

Ambiente (E)
Se relaciona al conjunto de climas, suelos, factores biticos (plagas y enfermedades) y condiciones de manejo en un ensayo individual llevado a cabo en una localidad dada en un ao particular (en el caso de cultivos anuales) o en varios aos (en el caso de cultivos perennes). En ensayos repetidos en el tiempo un ambiente se define a partir de la combinacin de los factores localidad y ao (para anuales) o de la combinacin de los factores localidad y ciclo de cultivo (para perennes) (Annicchiarico, 2002).

Interaccin GenotipoAmbiente (GE)


La interaccin GE no es directamente observable en ensayos multiambientales, si no que es un concepto usado para contemplar la inconsistencia de diferencias entre los desempeos de los genotipos a travs de los ambientes. Los estudios de interaccin permiten clarificar el entendimiento de adaptaciones en sentido amplio y en sentido estricto (o especficas de ambiente) (Kang et al., 2004). El fin ltimo es clasificar genotipos en relacin a los ambientes. Algunas veces el inters principal se centra en los ambientes, pero el procedimiento de anlisis no es muy diferente al usado cuando la finalidad est focalizada en los genotipos, ya que ambos son necesarios para que la interaccin exista. Las causas de la ocurrencia de la interaccin GE son muy discutidas (Kang, 1998). Una interaccin de magnitud importante puede provenir de una alta
14

variacin entre los genotipos para caracteres morfofiosiolgicos de resistencia (o de escape) a uno ms tipos de stress, o de una alta variacin entre ambientes para la incidencia del mismo o mismos tipos de stress (como los determinados por clima, suelo, factores biticos y de manejo). La estructura gentica del material vegetal puede tambin tener relacin con la magnitud de la interaccin GE. Los tipos de variedades caracterizados por pocos niveles de heterogeneidad (lneas puras, clones, hbridos simples) o heterocigosis (lneas puras) tienden a interactuar con el ambiente ms que los tipos de variedades con comportamiento opuesto (poblaciones de polinizacin abierta, mezclas de lneas puras) porque son menos ricos en genes de adaptabilidad y su estructura gentica los hace ms susceptibles a las variaciones en las condiciones ambientales (Annicchiarico, 2002). La interaccin GE, puede dividirse en dos categoras: 1) interaccin GE con cambio de rango (COI), tambin conocida como interaccin crossover (Cornelius et al., 1996) e interaccin GE sin cambio de rango (NONCOI) o interaccin noncrossover (Figura 1).

35 30 25

35 30 25

rendimiento

20 15 10 5 0 1 2

rendimiento

20 15 10 5 0 1 2

ambiente
genotipo 1 genotipo 2

ambiente
genotipo 1 genotipo 2

15

35 30 25

35 30 25

rendimiento

rendimiento

20 15 10 5 0 1 2

20 15 10 5 0 1 2

ambiente
genotipo 1 genotipo 2

ambiente
genotipo 1 genotipo 2

Figura 1. Interaccin Genotipo-Ambientes.

En el cuadro superior izquierdo de la Figura 1 se presenta una situacin con interaccin GE, hay cambio de rango y las varianzas de los ambientes son similares. En el cuadro superior derecho los genotipos interaccionan con los ambientes pero no hay cambio de rango, las varianzas de los ambientes son diferentes. En el cuadro inferior izquierdo hay interaccin GE sin cambio de rango y las varianzas de los genotipos en los ambientes son distintas. En el cuadro inferior derecho se representan dos genotipos cuya produccin aumenta proporcionalmente con los ambientes, no hay interaccin GE y no hay cambio de rango.

Adaptabilidad
Se refiere a la habilidad del genotipo de tener buen desempeo (por ej. altos rendimientos) con respecto a determinadas condiciones ambientales. La informacin provista por los ensayos multi-ambientales permite evaluar adaptabilidad e identificar el tipo y tamao de la interaccin GE esperada en una regin dada para definir, si es necesario, una estrategia de cultivo exitosa con respecto a los efectos de interaccin. Los efectos de interaccin que son de importancia prctica pueden ser maximizados para el desarrollo de germoplasma especficamente adaptado o minimizados para el desarrollo de
16

material ampliamente adaptado. Cuando el tamao de los efectos de interaccin entre genotipos y localidades (interaccin GE repetible) es pequeo comparado con otras fuentes de variacin en la respuesta, particularmente con la variacin genotpica, se reduce la posibilidad de mejoramiento para adaptacin especfica. Los patrones de adaptacin con respecto a localidades individuales son de limitado inters per se, ya que la muestra de sitios o localidades con la que comnmente se trabaja es muy pequea comparada con el nmero de localidades de la regin en estudio. El mejoramiento gentico especfico, debiera ser dirigido hacia reas o subregiones y en general no es de inters ahondar en los efectos de interaccin positiva de genotipos con localidades particulares. Las estrategias de adaptacin amplia surgen cuando hay baja interaccin entre genotipos y localidades o bien aunque la varianza de interaccin sea grande, no existen ventajas claras de una crianza especfica.

Mega-ambientes
Los sitios que son similares en trminos de respuesta genotpica suelen ser agrupados por diferentes mtodos, y cada grupo puede identificar un rea de cultivo que es relativamente uniforme porque los efectos de la interaccin GL son limitados o despreciables. Tales reas (posibilidad del objeto de mejoramiento especfico) han sido definidas por diferentes autores como subregiones, subzonas, subreas, macro-ambientes o mega-ambientes (CIMMYT, 1989; Yan y Hunt, 2002). La identificacin de mega-ambientes se asocia con la exploracin de los patrones de la interaccin GE repetibles a travs de los aos, e incluso ms all de su connotacin en mejoramiento gentico pueden ser utilizadas desde un punto de vista productivo ya que permiten sealar nichos ambientales propicios para una mayor productividad tanto en cantidad como en calidad. Las subregiones pueden tambin ser definidas para la recomendacin de variedades. Cada subregin entonces coincide con un dominio de recomendacin, agrupando aquellos sitios con el o los genotipos de mejor comportamiento (Gauch y Zobel, 1997). La definicin de subregiones no
17

es geogrficamente exacta. La identificacin de subregiones, an cuando no se pretende mejorar para reas especficas, podra ayudar a localizar sitios de prueba cruciales para seleccin de germoplasma. Las subregiones que son demasiado pequeas para tener inters prctico a veces suelen ser fusionadas con algunas ms grandes.

Ecotipos e Ideotipos
Un ecotipo se asocia con la ocurrencia de adaptacin especfica de individuos o poblaciones de una misma especie a ciertas reas y condiciones ambientales. El ecotipo puede incluir varios genotipos. El concepto de ideotipo vegetal, que constituye una construccin artificial de una planta modelo (aquella que rene atributos deseados) ha sido desarrollado en diferentes especies para incrementar rendimientos bajo condiciones de cultivo favorables. Un ideotipo vegetal es un modelo para el genotipo ideal para una subregin.

Estabilidad
La expresin estabilidad de rendimientos alta se refiere a la habilidad de los genotipos de comportarse consistentemente, ya sea con altos o bajos niveles de rendimiento, a travs de un amplio rango de ambientes. Las medidas de estabilidad pueden ser relativas a diferentes conceptos, estabilidad bajo el concepto esttico (Tipo 1) o bajo el concepto dinmico (Tipo 2) (Becker y Len, 1998; Lin et al., 1986). Desde el concepto esttico, un genotipo se considera estable si posee un desempeo sin cambios ante variaciones de las condiciones ambientales. El trmino sensibilidad ambiental tambin ha sido utilizado en este sentido, donde una gran sensibilidad corresponde a baja estabilidad (Dyke et al., 1995). As, los genotipos estables son aquellos que se comportan similarmente en todos los ambientes en que son probados. Se podra decir que la varianza del rendimiento a travs de los ambientes tiende a cero.

18

Contrariamente, desde el concepto dinmico, un genotipo se considera estable si tiene una respuesta predecible a las variaciones ambientales. Para el caso en que el rendimiento es el carcter en estudio, se espera que un genotipo estable rinda lo estimado o predicho por las condiciones ambientales. Becker (1981) llam a este tipo de estabilidad el concepto agronmico y lo distingui del concepto biolgico, el cual es equivalente al concepto esttico. Lin et al. (1986), publican un resumen de ecuaciones para nueve estadsticos de estabilidad basados ya sea en la desviacin respecto a un efecto de genotipo promedio usando sumas de cuadrados (Grupo A), basados en el trmino de interaccin GE usando sumas de cuadrados (Grupo B), basados la desviacin respecto a un efecto de genotipo promedio o en el trmino de interaccin GE pero usando coeficientes de regresin (Grupo C) y basados la desviacin respecto a un efecto de genotipo promedio o en el trmino de interaccin GE pero usando desviaciones de regresin (Grupo D). La clasificacin dada por Lin et al. (1986) representa tres tipos diferentes de conceptos de estabilidad. Para la estabilidad tipo I, un genotipo es considerado estable si su varianza entre los ambientes es pequea. Este tipo de estabilidad sera anlogo al concepto de homeostasis que Becker (1981) llam estabilidad biolgica. Desde un punto de vista agronmico genotipos con una buena estabilidad tipo I pueden no ser preferidos por presentar bajos rendimientos en ambientes que son altamente productivos para otros cultivares. Obviamente, una respuesta fenotpica de alto rendimiento acompaada de alta estabilidad tipo I es deseable, pero esto puede ser muy difcil de alcanzar en la prctica, razn por la cual frecuentemente se hace necesario evaluar los genotipos desde conceptualizaciones diferentes a la de estabilidad tipo I. La utilidad de la estabilidad tipo I depende del rango de variacin de las condiciones ambientales que se incorporan en un ensayo. Si se trata de experimentos multiambientales, con ambientes muy distintos, los estadsticos de estabilidad de tipo I pueden no ser tan tiles como en ensayos donde se comparan varios genotipos dentro de una regin o a travs de ambientes no muy diferentes.

19

La estabilidad tipo II considera un genotipo estable si su respuesta al ambiente es paralela a la respuesta promedio de todos los genotipos en el ensayo. Este tipo de estabilidad sera anlogo al concepto agronmico dado por Becker (1981). La estabilidad tipo II tiene el inconveniente de tomar valores relativos a los genotipos presentes en el ensayo. Esto dificulta la comparacin de genotipos provenientes de ensayos diferentes, o de genotipos que ao a ao se van incorporando. La seleccin de los genotipos que intervienen en el ensayo debe ser hecha muy cuidadosamente y en funcin del nivel de inferencia que se quiera alcanzar con los resultados. Por ltimo, el concepto de estabilidad tipo III identifica a un genotipo como estable si muestra un cuadrado medio residual pequeo cuando se regresa su respuesta fenotpica sobre ndices ambientales. Breese (1969), sugiri que el trmino estabilidad debiera ser reservado para medir irregularidades no predecibles en la respuesta a los ambientes. As, si al regresar genotipos con ambientes, la variabilidad de la respuesta es subdividida en una parte predecible (debida a la regresin) y en otra no predecible (desvos de la regresin), esta ltima podra servir como medida de estabilidad. El problema es que para regresar la respuesta del genotipo con el ambiente, se construyen ndices ambientales a partir de los promedios de rendimiento de los genotipos presentes en el ensayo, luego el modelo de anlisis es descriptivo y no predictivo. Lin y Binns (1991) definieron el concepto Tipo 4 de estabilidad que est estrictamente relacionado al concepto esttico. La estabilidad Tipo 4 relaciona la consistencia de rendimiento exclusivamente en el tiempo, i.e. a travs de los aos (o ciclos de cultivo) dentro de las localidades, mientras que la estabilidad de Tipo 1 relaciona la consistencia tanto en el tiempo como en el espacio, i.e. a travs de los ambientes pertenecientes al mismo o a diferentes sitios. Desde el punto de vista de los productores, la localidad es un factor constante no variable - y la consistencia del rendimiento a travs del tiempo es el nico componente relevante de la estabilidad de rendimiento de los genotipos. Por
20

esto es tambin importante evaluar la estabilidad del rendimiento con respecto a los efectos de la interaccin genotipo-ao dentro de las localidades. En realidad, la consistencia del rendimiento en el espacio tambin merece consideracin en presencia de interaccin genotipo-localidad significativa, ya que un genotipo seleccionado o recomendado debera ser estable tanto a travs de los aos como a travs de las localidades en su rea de adaptacin o recomendacin (Piepho, 1998). Mejorar por alta estabilidad de rendimiento puede considerarse un objetivo til cuando la variacin en la interaccin GE es grande.

Confiabilidad del Rendimiento


El inters prctico de combinar niveles altos de rendimiento promedio y de estabilidad de rendimiento ha llevado a desarrollar el concepto confiabilidad de rendimiento (Eskridge, 1990; Kang y Pham, 1991; Evans, 1993). Un genotipo seguro (confiable) est caracterizado por rendimientos consistentemente altos a travs de los ambientes. El uso de ndices de confiabilidad de rendimiento facilita la seleccin o recomendacin de genotipos; el rendimiento promedio y los caracteres de estabilidad de rendimiento son combinados dentro de una nica medida. La evaluacin de la estabilidad del rendimiento requiere numerosos ambientes de prueba (por lo menos ocho) para garantizar confiabilidad (Kang, 1998; Piepho, 1998).

Modelos para Anlisis en Ensayos Comparativos de Rendimiento


Un modelo estadstico simple para un ensayo comparativo de rendimiento multiambiental conducido segn un diseo en bloques completos al azar dentro de cada ambiente para comparar g genotipos es:
yijk = + Gi + E j + B(E)k(j) + GE(ij) + ijk

donde yijk es la respuesta (rendimiento) del genotipo i, en el ambiente j; es la


21

media general; Gi es el efecto (que puede ser considerado como aleatorio o fijo) del genotipo i con i=1,...,g; Ej es el efecto fijo del ambiente j con j=1,,t; B(E)k(j) es el efecto de bloque k dentro del ambiente j; GE(ij) es el efecto aleatorio de la interaccin del genotipo i con el ambiente j; y ijk es el trmino de error aleatorio asociado a la observacin yijk. Cuando se analizan caracteres continuos como el rendimiento, los trminos de error generalmente se suponen distribuidos normalmente con media cero pero la varianza de los errores puede ser constante o no. En numerosas ocasiones resulta apropiado considerar que la variacin residual es heterocedstica (i.e. no constante) a travs de las localidades, ya que ensayos conducidos en diferentes localidades suelen tener, por mltiples razones, diferente precisin. Los ambientes son primariamente definidos segn las localidades intervinientes en el ensayo, pero stos son repetidos a travs de varias campaas agrcolas o aos, y por tanto cada combinacin del factor localidad y el factor campaa puede ser entendida como un nuevo ambiente. Un alternativa de anlisis para estos ensayos repetidos temporalmente es modelar la respuestas de inters para cada ao en forma separada y luego evaluar la consistencia de los patrones de efectos de genotipo y/o interaccin observados a travs de los anlisis por campaa. Si las localidades son las mismas a travs de las campaas se podr observar la persistencia de los agrupamientos de localidades en el tiempo. An cuando exista interaccin con cambio de rango, si la misma refleja cambios de rankings entre cultivares que pertenecen a una misma subregin, se suele inferir la existencia de mega-ambientes. En general las tablas de datos de ECR conducidos en un mismo ao o campaa agrcola son completas. El modelo bsico para datos de ECR provenientes de una misma campaa agrcola es el modelo de ANAVA a dos vas de clasificacin presentado anteriormente donde las localidades constituyen los ambientes. El trmino de interaccin GEij, interaccin del i-simo genotipo en el j-simo ambiente, es estimado desde la tablas de medias de genotipo en cada ambiente como el residuo del modelo

22

aditivo, y ij y i . y . j + y .. . El trmino de error del modelo de medias a travs de los bloques, asociado al i-simo genotipo en el j-simo ambiente es el promedio de los errores asociados a cada genotipo en cada ambiente, ij . Bajo las suposiciones de varianzas residuales constantes, el error estndar para la comparacin de medias de genotipos es igual para todas las comparaciones de a pares entre los genotipos. El modelo se usa para obtener las contribuciones aditivas de genotipo, ambiente e interaccin GE sobre las respuestas. Si la interaccin GE resulta significativa, los ranking de genotipos usando las medias a travs de los ambientes no son recomendados, sino que convienen las comparaciones de genotipo dentro de cada ambiente. El modelo anterior involucra (g-1)(e-1) parmetros de interaccin GE, con e=nmero de ambientes, los cuales no proveen mucha informacin sobre los patrones de la interaccin. Posteriormente se presentarn otros modelos basados en la re-expresin de cada trmino de interaccin en funcin de componentes principales de variacin. Estos modelos permiten explorar ms parsimoniosamente los patrones de interaccin. Cuando los ECR multiambientales se llevan a cabo por ms de una campaa agrcola, el efecto de la campaa puede ser incorporado al modelo:
yijkl = + L j + B(L)
k(j)

+ Cl + Gi + GL(ij) + GC(il) + GLC(ijl) + ijkl

donde yijkl es la respuesta (rendimiento) del genotipo i, en la localidad j, bloque k en la campaa l; es la media general; Lj es el efecto de la localidad j con j=1,,s; B(L)k(j) es el efecto del bloque k dentro de la localidad j con k=1,...,n; Cl es el efecto de la campaa l con l=1,,a; Gi es el efecto del genotipo i con i=1,...,g; GL(ij) es el efecto de la interaccin del genotipo i con la localidad j; GC(il) es el efecto de la interaccin del genotipo i con la campaa l; GLC(ijl) es el efecto de la interaccin del genotipo i, la localidad j y la campaa l y ijkl es el trmino de error aleatorio asociado a la observacin yijkl. Este modelo es til para estimar la contribucin relativa de los trminos GC, GL y GCL en la interaccin GE, as como la contribucin de la variabilidad debida a genotipo, ambiente y
23

GE sobre el total de (G+E+GE), donde E representa el efecto del ambiente definido por la combinacin de los niveles de los factores localidad (L) y Campaa (C). Las decisiones respecto a la estabilidad de rendimiento dependen esencialmente de las relaciones entre estos componentes de varianza, las cuales pueden ser estimadas nicamente si los ensayos son repetidos en el tiempo. En particular los componentes de la interaccin GC y GCL, o la componente de la interaccin GC dentro de localidades son relevantes para decisiones en el contexto de una estrategia de adaptacin amplia. El mejoramiento en estabilidad de rendimiento se justifica cuando todos los componentes de varianza relevantes de los efectos GE son relativamente ms grandes que los componentes de la varianza genotpica. Generalmente, en etapas tempranas de la investigacin existe un gran nmero de genotipos experimentales con pocos antecedentes de evaluacin que pueden ser considerados como una coleccin aleatoria del material gentico de inters e interesa la adaptacin general de los mismos a un amplio rango de ambientes. El establecimiento de una estrategia de adaptacin utiliza la respuesta del conjunto de genotipos para obtener indicadores y generar predictores relativos al futuro del material de mejoramiento que puede ser producido desde la base gentica de la que los genotipos evaluados, se considera, conforman una muestra representativa. Por el contrario, en etapas avanzadas de evaluacin, usualmente se trabaja con pocos genotipos altamente selectos y se requieren inferencias expresas sobre ellos (recomendacin de cultivares) y de existir una importante interaccin podra ser posible elaborar estrategias de cultivo para reas determinadas de la regin objetivo. En general, el mejoramiento para adaptacin especfica tiende a implicar grandes ganancias genticas en comparacin con el aumento de costos relativos de una estrategia de adaptacin general. Las ganancias genticas son derivadas de la exploracin de los efectos de interaccin entre genotipos y localidades va caracteres de adaptacin tiles (Bindinger et al.,
24

1996), tanto como del aumento de la heredabilidad del rendimiento como una consecuencia del decrecimiento de la interaccin GE (Kang, 1998).

Ensayos en las Primeras Etapas de Evaluacin


El uso de ensayos multi-ambientales en etapas tempranas de investigacin, se justifica en el propsito de ampliar el espacio de inferencia. Los efectos de genotipos pueden ser considerados como aleatorios y el anlisis de datos experimentales se centrar en el estudio de la variabilidad entre genotipos y en la eleccin del material que deber continuar en evaluacin. El anlisis no se centra en la diferencia entre ambientes por lo que la comparacin de medias de ambiente no es de inters. Los efectos de ambiente slo se incorporan para descontar posibles diferencias promedios entre ambientes y para considerar que el desempeo de un genotipo podra cambiar a travs de los ambientes, pero en esta etapa no se trabaja pensando en adaptacin especfica. El inters principal es poder evaluar el desempeo de los genotipos experimentales sobre una base ms amplia de ambientes. Los objetivos clsicos del anlisis para datos de ECR multi-ambientales en etapas tempranas son: 1) estimar las componentes de varianza o contribucin a la variacin total de los efectos de genotipo, ambiente y su interaccin; 2) estimar si la respuesta que se est analizando puede ser heredada, i.e. determinar la heredabilidad del carcter basada en la relacin entre la componente de varianza genotpica y la varianza fenotpica (varianza debida a la interaccin ms varianza residual) y 3) identificar los materiales superiores con el propsito de elegir un subconjunto del conjunto de genotipos evaluados para continuar en futuros ECR. Si bien pareciera ideal no descartar ningn material, la eleccin de un subconjunto para continuar en evaluacin es logsticamente necesaria debido a que cada ao se incorporan nuevos genotipos y no pueden seguir todos en evaluacin. El BLUP (del ingls, Best Linear Unbiased Predictor) es el mejor predictor insesgado de los efectos del modelo cuando stos se consideran aleatorios (Robinson, 1991). Los BLUPs de efectos de genotipo son especialmente
25

recomendados para ser usados como predictores del desempeo futuro de cada genotipo ya que ponderan el rendimiento observado en el genotipo por la heredabilidad del carcter y contemplan el desbalance de informacin que puede existir entre los genotipos que se estn comparando (Balzarini, 2000; Casanoves y Balzarini, 2003). El uso del BLUP de genotipos permite ponderar las predicciones sobre genotipos en relacin a la estructura de covarianzas genticas subyacentes. Si se tiene informacin de pedigree o molecular que permita establecer relaciones genticas (covarianzas) entre las lneas comparadas, stas pueden ser incorporadas en la expresin del predictor, incrementando la informacin disponible desde cada evaluacin (Bernardo, 1999).

Ensayos en Etapas Avanzadas de Evaluacin


Los ECR se conducen en distintos sitios durante una serie de aos para obtener informacin que sustente la recomendacin de cultivares superiores. La informacin obtenida desde ensayos mutli-ambientales es explorada para predecir respuestas de rendimiento en aos venideros y, ms comnmente en nuevas localidades. Los ensayos multiambientales en esta etapa generalmente contienen un nmero reducido de genotipos mejorados (altamente seleccionados) y uno o ms cultivares comerciales usados como testigos (Balzarini, 2001). El objetivo es comparar rendimientos promedios y estabilidad de los rendimientos de los genotipos sobre varios ambientes y promedios de rendimientos en ambientes especficos. Si bien se pretende identificar cultivares superiores para un determinada regin objetivo, estos ensayos tambin suelen ser usados con otros propsitos, por ej., para evaluar si la regin para la cual se esta produciendo material puede ser subdividida en diferentes mega-ambientes cuando la extensin de la interaccin GE es considerablemente alta. Un megaambiente usualmente representa un rea relativamente amplia, no necesariamente continua, con condiciones similares de stress bitico y abitico, requerimiento de sistemas de cultivo, preferencias del consumidor y de volmenes de produccin (Braun et al., 1996). Gauch y Zobel (1996,1997)
26

definieron un mega-ambiente como una fraccin del rea de cultivo de una especie que muestra condiciones ambientales homogneas y que causa que ciertos genotipos se desempeen similarmente. Usando una base de datos de ECR de maz Gauch y Zobel (1997) presentaron la metodologa www o which wins where para identificar mega-ambientes, sta constituye una aproximacin multivariada al estudio de interaccin GE. An cuando las medidas de rendimiento resultan de la suma de efectos de genotipos (G), ambientes (E) y de efectos de interaccin (GE), solamente G y GE parecieran relevantes para recomendacin de cultivares. Yan y Hunt (2002) presentaron la tcnica GGE biplot indicada para la identificacin de megaambientes. La tcnica es derivada de la descomposicin por valor singular (SVD) de la matriz de residuos de un modelo que ajusta los datos slo por los efectos de ambientes, as el patrn de los residuos es usado para explorar simultneamente patrones de variacin en la suma G+GE. Los biplots (Gabriel, 1971) son grficos de dispersin construidos a partir de ejes artificialmente creados (denominados componentes principales o CP) para mostrar los patrones ms relevantes o de menor ruido de una matriz de datos permitiendo visualizar en una misma grfica tanto las filas de la matriz (casos) como las columnas (variables). Estos de se obtienen a partir de la SVD de la matriz de inters. En los GGE biplots la SVD se aplica sobre una matriz conteniendo variaciones debidas a G+GE, esto posibilita visualizar puntos que representan los filas (genotipos) y otros que representan las columnas (ambientes) de la matriz de datos con variaciones debidas a G+GE. Cuando la CP1, Componente Principal de mayor variacin, se correlaciona altamente con las medias de genotipo, se interpreta que las diferencias entre genotipos observados a lo largo de este eje representan respuestas proporcionales de los cultivares a travs de los ambientes. Los cultivares con altos valores de CP1 sern, en todos los ambientes, ms rendidores que los cultivares con bajos valores de la CP1. En estos casos la CP2 generalmente muestra variaciones debidas a GE, es decir
27

respuestas no proporcionales de los genotipos a travs de los ambientes, las cuales son responsables de cambios de orden o ranking de los cultivares a travs de los ambientes (interaccin crossover). As, genotipos con valores altos de CP1 se asocian a una respuesta promedio mayor y a ambientes con altos valores de CP1 y valores de CP2 cercanos a cero facilitan la identificacin de tales genotipos. Las interpretaciones a realizar para este tipo de grficos depende de cada matriz de datos particular, es decir de cunta variacin debida a los efectos G y GE se encuentran representadas por cada eje y por ello no slo es necesario indagar sobre los porcentajes explicados por cada eje, sino tambin por el tipo de variacin contenida en cada uno de ellos. Predecesores de estos biplots son los biplots construidos a partir de un modelo AMMI (del ingls, additive main effects and multiplicative interaction) (Gauch, 1988). El grfico biplot asociado a un modelo AMMI, se obtiene a partir de la descomposicin por valor singular de la matriz de residuos de un modelo que ajusta los datos no slo por los efectos de ambientes sino tambin por los efectos de genotipo. As el patrn de los residuos es usado para explorar patrones puramente atribuibles a los efectos GE. Analizar las correlaciones entre genotipos y ambientes responsables de la interaccin GE es siempre informativo, sin embargo es importante realizar esta interpretacin junto a los niveles promedios de rendimiento. Por ello, los ejes de representacin de ambientes y genotipos obtenidos a partir de un modelo AMMI, usualmente se presentan en combinacin con las medias de los genotipos, evaluando as simultneamente produccin y estabilidad de produccin. Cuando existe informacin adicional sobre variables ambientales (datos climticos, de suelo, etc.) y/o sobre caractersticas de los genotipos o de manejo del cultivo distinta a aquella considerada como variable de respuesta, es posible introducir estos datos en el modelo como covariables. La informacin adicional en cuanto a factores climticos, de suelo, biticos o de manejo de cultivo de las localidades y los caracteres morfofisiolgicos de los genotipos pueden ser
28

pruebas extremadamente valiosas para proporcionar causas de la ocurrencia de interacciones GE, proporcionar promedios para la caracterizacin de las subregiones y extender los resultados a nuevos sitios. Tambin son tiles para aumentar el conjunto de modelos posiblemente adoptados para el anlisis de adaptacin y para identificar caracteres adaptativos y evaluar su potencial como criterio de seleccin indirecto. Adems, la comparacin entre datos climticos de los aos probados con los datos de los sitios a largo plazo puede ayudar a verificar si ocurri algn ao con caractersticas muy inusuales para mejorar la inferencia.

29

PARTE III MODELOS Y MTODOS DE ANLISIS EN ENSAYOS MULTI-AMIBIENTALES

Anlisis de la Varianza (ANAVA)


Descripcin
En experimentos con fines comparativos, usualmente se realiza la aplicacin de varios tratamientos a un conjunto de unidades experimentales para valorar y comparar las respuestas obtenidas bajo cada tratamiento o grupo. Se entiende por tratamientos a la/s acciones que se aplican sobre las unidades experimentales y que son objeto de comparacin. Los tratamientos pueden ser representados por los niveles de un factor o por la combinacin de los niveles de dos o ms factores (estructura factorial de tratamientos), por ejemplo, lo factores pueden ser localidades, fechas de siembra, hbridos, campaas, etc.; a su vez, cada factor puede tener dos o ms niveles. Por ejemplo, el factor localidad puede tener dos niveles digamos Pergamino (P) y Crdoba (C), el factor hbrido tambin dos niveles digamos el hbrido 1 (H1) y el hbrido 2 (H2). La combinacin de los niveles de los factores forman los tratamientos, es decir, si los dos hbridos fueron evaluados en Pergamino y en Crdoba, tendremos cuatro tratamientos: PH1, CH1, PH2, CH2. Para reducir el error o variabilidad entre unidades experimentales que reciben el mismo tratamiento, con el propsito de incrementar precisin y sensibilidad al momento de la inferencia, es importante planificar la experiencia siguiendo los principios del Diseo de Experimentos (Kuehl, 2001). El diseo experimental es una estrategia de combinacin de la estructura de tratamientos (factores de inters) con la estructura de unidades experimentales (parcelas, individuos, macetas, etc.) de manera tal que las alteraciones en las respuestas, al menos en algn subgrupo de unidades experimentales, puedan ser atribuidas solamente a la accin de los tratamientos excepto por variaciones aleatorias. El modelo de anlisis de varianza depende del diseo de experimentos que se halla implementado.

33

La diferencia entre el valor observado y el valor ajustado por el modelo se denomina residuo. Ellos son utilizados como herramienta de diagnstico del modelo y para explorar patrones de interaccin con el ambiente en ensayos multi-ambientales muchas veces se ajusta un modelo o se aplica algn mtodo de anlisis sobre los residuos para analizar la tendencia de la variabilidad contenido en los mismos.

Objetivo
Comparar las respuestas promedio de dos o ms tratamientos.

Datos
Para realizar un ANAVA la base de datos debe contener una columna por cada factor de clasificacin y una columna con los valores de la variable respuesta, en las filas se consignan las repeticiones.

Ejemplo
Base de datos Ideotipos de Maz (Anexo). Anlisis de la varianza para evaluar el rendimiento en funcin de ocho hbridos y siete ambientes. Los ambientes surgieron como la combinacin de las localidades y la presencia o ausencia de fertilizacin nitrogenada en tres bloques o repeticiones (cada hbrido fue repetido en cada ambiente). Debido a la combinacin de la estructura de tratamientos y de las unidades experimentales, se ajust un modelo de ANAVA para un diseo factorial con las repeticiones anidadas dentro del factor ambiente, ya que los bloques dentro de un ambiente son diferentes a los bloques dentro de otro ambiente. Modelo: Rinde=+Hbrido+Ambiente+Ambiente>rep+Hbrido*Ambiente+ donde, Rinde es la variable respuesta, es la media general del Rinde, Hbrido es el efecto debido al hbrido, Ambiente es el efecto debido al ambiente, Ambiente>rep es el efecto de las repeticiones dentro de cada ambiente, Hbrido*Ambiente es el efecto de la interaccin entre los efectos de genotipo y
34

ambiente y es un trmino de error aleatorio.


Cuadro 1. Modelo factorial con repeticiones anidadas en ambientes. Men Estadsticas Comando Anlisis de la varianza Ventana Selector de Variables Variables dependientes Rinde Variables de clasificacin Hibrido Ambiente rep Ventana Anlisis de Varianza Solapa Modelo (Tipear Modelo) Ambiente\Ambiente>rep Hibrido Ambiente>rep Hibrido*Ambiente

La sentencia Ambiente\Ambiente>rep indica que para evaluar el efecto de Ambiente debe utilizarse como trmino de error (expresin Ambiente>rep que sigue a \) es decir la variacin entre repeticin dentro de un ambiente (Ambiente>rep) es la variacin de referencia para comparar la variacin debida a los Ambientes. La sentencia Hibrido*Ambiente permite evaluar la interaccin, i.e., evaluar si las diferencias entre hbridos son las mismas en cada ambiente.
Cuadro 2. Resultado del modelo factorial con repeticiones anidadas en ambientes.
Anlisis de la varianza Variable Rinde N 168 R R Aj 0,90 0,83 CV 9,44 F 12,82 13,34 6,86 8,37 1,16 p-valor (Error) <0,0001 <0,0001 (Ambiente>rep) <0,0001 <0,0001 0,2760

Cuadro de Anlisis de la Varianza (SC tipo I) F.V. SC gl CM Modelo 13291130,77 69 192625,08 Ambiente 10076605,28 6 1679434,21 Hibrido 722276,54 7 103182,36 Ambiente>rep 1762279,96 14 125877,14 Hibrido*Ambiente 729968,99 42 17380,21 Error 1472991,50 98 15030,53 Total 14764122,28 167

35

Interpretacin
La significancia del trmino de interaccin, debe interpretarse antes de evaluar la significancia de los efectos principales de cada factor. Para este ejemplo, no hay interaccin estadsticamente significativa entre ambientes e hbridos, indicando que las diferencias en el rendimiento promedio entre los hbridos evaluados se mantuvieron a travs de los diferentes ambientes. Adems, se detectaron diferencias estadsticamente significativas entre los ambientes (p<0.0001) y entre los hbridos (p<0.0001). Para detectar las diferencias (estadsticamente significativas) entre pares de ambientes y de hbridos a nivel del Rinde promedio, se realizaron pruebas de comparacin mltiple a posteriori repitiendo el procedimiento del Cuadro 3 se accedi a la solapa Comparaciones para pedir la prueba LSD de Fisher. Se sigui el mismo procedimiento seleccionando la opcin de comparaciones mltiples DGC, en una segunda implementacin del anlisis para poner de manifiesto algunas diferencias entre estas dos tcnicas de comparaciones mltiples.
Cuadro 3. Comparaciones Mltiples de a pares

36

El programa ordena automticamente las medias de cada nivel en orden ascendente, colocando letras diferentes a los niveles del factor en estudio que muestran diferencias estadsticamente significativas para el nivel de significacin () fijado por el experimentador (en este caso =0.05). Con la prueba LSD de Fisher, tanto para las medias de ambientes como para las de hbridos, hay superposicin de letras diferentes, dificultando su interpretacin, sin embargo la prueba LSD permite concluir que los ambientes que presentaron un mayor rendimiento promedio se asocian en general con las localidades que recibieron fertilizacin nitrogenada (BN, ON, CN y PN) y que el hbrido 2 presenta menor rendimiento promedio que los hbridos 5, 3 y 8 que son de alto Rinde pero que no difieren en promedio de lo hbridos 4 y 7. Usando DGC tambin se puede concluir que las localidades que recibieron fertilizacin nitrogenada se asociaron con los mayores rindes y que se diferencian del resto de las localidades. Entre las localidades que no recibieron fertilizacin nitrogenada (P, O y C), P fue la que present menor rendimiento promedio. En la comparacin de los hbridos, surge que el 2 es el de menor rendimiento medio, hay un grupo de hbridos con rendimiento promedio intermedio (1, 6 y 7) y un grupo de alto rendimiento medio (3, 4, 5 y 8). La prueba DGC constituye un mtodo particionante (sin solapamiento de letras entre las medias) que es recomendable para comparar muchas medias, digamos 5 o ms (Di Rienzo et al., 2001).

37

Cuadro 4. Resultado de comparaciones mltiples de a pares con la prueba de LSD Fisher


Test:LSD Fisher Alfa:=0,05 DMS:=219,66800 Error: 125877,1402 gl: 14 Ambiente Medias n P 860,48 24 A O 1076,43 24 A B C 1210,05 24 B C BN 1396,84 24 C D ON 1421,89 24 C D CN 1513,49 24 D PN 1614,33 24 D Letras distintas indican diferencias significativas(p<= 0,05) Test:LSD Fisher Alfa:=0,05 DMS:=75,08208 Error: 15030,5256 gl: 98 Hibrido Medias n 2 1163,28 21 A 6 1252,99 21 B 1 1263,30 21 B C 7 1304,21 21 B C D 4 1328,98 21 C D 8 1343,75 21 D 3 1360,20 21 D 5 1375,87 21 D Letras distintas indican diferencias significativas(p<= 0,05)

Cuadro 5. Resultado de comparaciones mltiples de a pares con la prueba de DGC


Test:DGC Alfa:=0,05 PCALT:=210,0225 Error: 125877,1402 gl: 14 Ambiente Medias n P 860,48 24 A O 1076,43 24 B C 1210,05 24 B BN 1396,84 24 C ON 1421,89 24 C CN 1513,49 24 C PN 1614,33 24 C Letras distintas indican diferencias significativas(p<= 0,05) Test:DGC Alfa:=0,05 PCALT:=77,5846 Error: 15030,5256 gl: 98 Hibrido Medias n 2 1163,28 21 A 6 1252,99 21 B 1 1263,30 21 B 7 1304,21 21 B 4 1328,98 21 C 8 1343,75 21 C 3 1360,20 21 C 5 1375,87 21 C Letras distintas indican diferencias significativas(p<= 0,05)

La manera resumida y clara de presentar los resultados de este anlisis es a travs de grficos. En la Fig. 2 se presentan los valores de rendimiento
38

para cada ambiente (media EE) (izquierda) y para cada hbrido (media EE) (derecha). Adems se presentan las letras resultantes de la prueba de comparaciones mltiples DGC.

1650

c c

1500

c
1400

1470

c b b b

Rinde (g/m2)

Rinde (g/m2)

1290

1300

a
1200

1110

930

1100

750 P O C BN ON CN PN

1000 2 6 1 7 4 8 3 5

Ambiente

Hibrido

Figura 2. Rendimiento promedio y error estndar para cada ambiente (izquierda) y para cada hbrido (derecha). Letras distintas indican diferencias estadsticamente significativas (p<0.05), prueba de comparaciones mltiples DCG.

39

Anlisis de Componentes Principales (ACP)


Descripcin
El ACP es una forma de combinar linealmente las variables para encontrar ndices (componentes principales, CP) con mxima varianza. Cada combinacin de variables define una componente y los valores (coeficientes con los que se pondera cada variable) usados para construir cada combinacin son tales que no solo maximizan la varianza de las componentes sino que tambin garantizan la falta de correlacin entre ellas (i.e. cada CP aporta nueva informacin para el entendimiento de los patrones de variabilidad). Los tipos de variables usadas deben ser cuantitativas. Los pesos con los que se pondera cada variable en la combinacin lineal constituyen los autovalores obtenidos a partir de la descomposicin por valor singular (SVD) de la matriz de varianzas y covarianzas entre variables (Balzarini, 2003). Los autovalores asociados a cada autovector representan las varianzas de cada componente principal. En algunas situaciones (por ejemplo cuando existen datos inconmensurables) la SVD se aplica sobre la matriz de correlaciones entre variables que se corresponde con la matriz de varianzas y covarianzas de los datos previamente estandarizados. Los grficos Biplot (Gabriel, 1971) usualmente acompaan los resultados del ACP, ya que a travs de stos se grafican en un plano ptimo para el estudio de variabilidad las observaciones y las variables de manera simultnea. El plano conformado usando como ejes a las dos primeras componentes (CP1 y CP2), es el plano que explica mayor porcentaje de variabilidad total.

Objetivo
Explicar la variabilidad de los casos en estudio con respecto a todas las variables intervinientes.

41

Datos
Para realizar un Anlisis de Componentes Principales se puede partir desde bases de datos donde las filas representan los casos en estudio y las columnas las distintas variables medidas sobre cada caso (formato A). Tambin puede realizarse desde bases de datos donde las filas sean los caracteres medidos (variables) y las columnas los casos (formato B). El ACP puede realizarse sobre datos estandarizados o no. Se recomienda estandarizar los datos cuando las variables no son conmensurables (medidas en diferentes escalas) y/o tienen varianzas de magnitudes muy distinta.

Cmo interpretar un Biplot?


Para interpretar un Biplot obtenido a partir de un ACP clsico (no corregido por el efecto de filas ni columnas, tambin denominado ACP no centrado) se recomienda seguir los siguientes pasos: 1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el Biplot conformado por las CP1 y CP2 no explica ms del 60% de la variabilidad total, juzgar la necesidad de explorar los patrones de variabilidad en un segundo Biplot conformado por las CP1 y CP3. Si son necesarios muchos Biplot para explicar un porcentaje razonable de la variabilidad total, digamos mayor a 60-70%, habr indicios de que el ACP no es suficiente para representar confiablemente las relaciones entre los casos y las variables (Arroyo et al., 2005). 2. Concentrarse en la CP1, que por construccin, siempre explicar el mayor porcentaje de variabilidad total. 2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que representan los casos. Identificar los de mayor inercia, i.e. los puntos que se encuentran a mayor distancia del cero, ya sea que se alejan hacia la derecha o hacia la izquierda.

42

Interpretar similaridades/disimilaridades entre casos en funcin de las distancias entre proyecciones sobre la CP1. 2.2. Analizar las proyecciones de los puntos que representan las variables sobre la CP1. Identificar las variables de mayor inercia. Interpretar correlaciones entre variables segn los ngulos de los vectores que los representan. ngulos agudos indican correlaciones positivas, ngulos obtusos corresponden a correlaciones negativas y ngulos rectos indican que no hay correlacin entre las variables. Nota: La longitud de los vectores correspondientes a las variables no son de inters cuando los datos han sido previamente estandarizados. Si no se estandarizan los datos, las longitudes de los vectores son proporcionales a las varianzas de las variables. 2.3. Interpretar correlaciones entre casos y variables en funcin de la orientacin, pero no de la cercana entre puntos, i.e. las variables orientadas hacia la derecha tendrn altos valores en los casos orientados en la misma direccin y las variables orientadas hacia la izquierda tendrn altos valores en los casos orientados hacia la izquierda. 3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un procedimiento anlogo al realizado para la CP1 pero teniendo en cuenta que las variables en esta dimensin son de menor importancia que los realizados sobre la CP1 segn indican los porcentajes de variabilidad total explicados por cada CP.

Ejemplo
Archivo Ideotipos de Maz (Anexo). El objetivo del anlisis es estudiar las correlaciones entre las variables Rinde, PG, NG, EIRFL, EIRfinLL, IVH1-3, IVH4-8, IVH7-9 y EUN y describir la variabilidad entre los casos que han sido definidos por la combinacin de ambiente y genotipo. Se aplic un ACP sobre la

43

base de datos conformada por los casos (filas) y variables (columna).


Cuadro 6. Anlisis de Componentes Principales. Men Estadsticas Comando Anlisis Multivariado Opcin Componentes Principales Ventana Selector de variables Variables Rinde PG NG EI_F EI_Fll IV1-3 IV4-6 IV7-9 EUN Criterio de clasificacin Ambiente Hbrido

Cuadro 7. Anlisis de Componentes Principales con Info-Gen.

44

4 PN:8 PN:6 2 Rinde PN:5 NG EI_F PN:4 IV7-9 PN:2 PN:3 PN:1 IV1-3 IV4-6 O:6 PG BN:4 CN:7 BN:2 BN:5 C:7 ON:5 C:5 EUN BN:6 O:3 O:8 P:7 P:3 P:5 P:1 P:4 P:8 P:6

CP 2 (20.5%)

EI_Fll 0 CN:5 BN:8 CN:8

O:4 O:1

-2

BN:7

-4 -4 -2 0 2 4

CP 1 (43.3%)

Figura 3. Biplot segn el plano conformado por las dos primeras componentes principales (CP1 y CP2). Los puntos representan los casos (combinacin de hbridos-ambientes) y los vectores las variables. Se han identificado los casos marginales o aquellos con mayor inercia sobre cada eje.

Interpretacin
El 63.8% de la variabilidad total en el conjunto de casos es explicado por el primer plano factorial (CP1 y CP2). A nivel de la CP1, que es la componente que explica por s sola el 43,3% de la variabilidad total, los casos correspondientes a situaciones donde se aplic fertilizacin nitrogenada (BN, PN, CN y ON) se separan de los casos sin nitrgeno. Con el trmino separar se desea indicar que al realizar las proyecciones de los casos sobre la CP1, los valores correspondientes a BN, PN, CN y ON quedan con signos negativos, mientras que las proyecciones de O y P poseen valores de signos positivos (Figura 3).

45

Los casos con mayor inercia, i.e., los casos cuyas proyecciones se encuentran ms distantes del cero, son los casos ms representativos de la variabilidad total. Por ejemplo, se manifiestan mayores diferencias entre P respecto de BN y CN. Las variables con mayor inercia hacia la derecha son IV4-6 e IV1-3 y hacia la izquierda Rinde, EI_Fll y PG. Dado que el ngulo entre IV4-6 e IV1-3 es agudo y muy cerrado, suponemos que estas variables estn positiva y altamente correlacionadas, mientras que no se correlacionan con EUN, ya que los vectores que las representan forman un ngulo recto, y se encuentran correlacionadas negativamente con Rinde y PG (ngulo obtuso). Por otro lado, el Rinde, PG, NG, EI_F y EI_Fll fueron las variables que presentaron valores ms altos en los casos posicionados sobre la izquierda del Biplot (fertilizados), mientras que IVH1-3, IVH4-8, IVH7-9 y EUN presentaron los valores ms altos en los casos posicionados a la derecha del Biplot (casos sin fertilizacin nitrogenada). La CP2 permite diferenciar localidades dentro de los casos donde se aplic fertilizacin nitrogenada, ya que PN se separa de BN. Los casos correspondientes a CN presentan proyecciones sobre la CP2 cercanas al cero, indicando que estos casos poseen poca inercia. A nivel de la CP2, las variables con mayor inercia son EUN e IV7-9 siendo las responsables de la variacin observada en esta componente. Estas son interpretaciones puramente estadsticas, tienen por objeto recomendar un procedimiento de lectura de los Biplt. Para que esta tcnica de visualizacin de variaciones y asociaciones tenga impacto en la bsqueda de conocimiento es necesario interpretar los resultados en el contexto y conocimiento a priori del problema agronmico.

46

Estudio de Interaccin con modelos de ANAVA y ACP


Modelos de ANAVA que incluyen componentes principales
La interaccin GE o TratamientoAmbiente tambin puede analizarse mediante modelos lineales y bilineales (Gollob, 1968), que separan la porcin de interaccin dada por la heterogeneidad de las regresiones de genotipos sobre las medias ambientales de la debida a error. Los modelos lineales-bilineales representan la versin multivariada de los procedimientos con interaccin multiplicativa (Cornelius et al., 1992 y 1993; Crossa y Cornelius, 1993, 1997 y 2002, Crossa et al., 1993 y 1995). El nombre lineal-bilineal se debe a que el modelo para la respuesta del genotipo i en el ambiente j comprende una parte sistemtica que involucra los efectos aditivos principales de genotipo y ambiente (componentes lineales) como as tambin uno o ms trminos multiplicativos para explicar patrones en el trmino de interaccin GE (componentes bilineales). Comnmente la parte aleatoria del modelo involucra al trmino de error y a la varianza residual del trmino de interaccin, i.e. la parte de la interaccin GE no explicada por el modelo multiplicativo. La ecuacin de un modelo lineal-bilineal para la respuesta de un genotipo en un ambiente dado puede expresarse como:
y ij = + Gi + A j + n ninj + ij + ij
n =1 r

donde Gi es el efecto del genotipo i, Aj es el efecto del ambiente j,


n =1

n ni

nj es la sumatoria de trminos multiplicativos que modela la

interaccin GE, compuesta por el parmetro de interaccin del j-simo ambiente, denotado por nj , del i-simo genotipo para la misma componente o eje, denotado por ni y el autovalor (medida de variacin) asociado al eje y denotado por n. El parmetro ij representa la porcin del ij-simo trmino de interaccin GE no explicado por el modelo
47

multiplicativo y ij es el trmino de error aleatorio. El trmino ni puede ser interpretado como sensibilidad genotpica a los factores ambientales latentes, los cuales son representados por nj en el j-simo ambiente. La estimacin de los parmetros de interaccin GE en un modelo linealbilineal de efectos fijos y para tablas de datos balanceadas se hace por medio de la descomposicin por valor singular (SVD) de una matriz Z, que contiene los residuos del modelo aditivo luego de ajustar por mnimos cuadrados el modelo de efectos principales que contiene los efectos que se quieren descontar. El cociente entre la suma de los n primeros valores singulares y la suma de todos los valores singulares representa la proporcin de la variabilidad total en Z explicada por las n primeras componentes (CP1 a la CPn). Las componentes obtenidas a partir de los autovectores de la SVD de Z son ordenadas de mayor a menor en funcin a los autovalores asociados. La SVD de Z, provee los autovectores que contienen los scores de genotipos y ambientes respectivamente. Generalmente los dos primeros trminos multiplicativos son suficientes para explicar los patrones de interaccin; la variabilidad remanente se interpreta como ruido. Para la interpretacin de los patrones e interaccin GE, los scores de genotipos y ambientes del trmino de interaccin de un modelo lineal-bilineal son generalmente visualizados por medio de grficos biplot (Gabriel, 1971) para identificar los genotipos y ambientes ms importantes para explicar los patrones de variacin contenidos en los residuos que se analizan.

48

Modelo AMMI y Biplots para AMMI(2) y AMMI(1) Descripcin


Los primeros modelos lineales-bilineales usados en ensayos agrcolas multiambientales fueron llamados modelos de efectos aditivos e interaccin multiplicativa o modelos AMMI (del ingls, Additive Main effects and Multiplicative Interaction) por Zobel et al. (1988) y Gauch (1988). Cuando se usa anlisis de componentes principales, los genotipos con valores cercanos a cero en la CP1 son interpretados como adaptados a los ambientes de prueba o de menor contribucin en la interaccin GE. Los modelos AMMI, suelen denominarse del nmero como de AMMI(1),

AMMI(2),...,AMMI(n)

dependiendo

componentes

principales usadas para modelar la interaccin. Existen pruebas estadsticas que pueden implementarse para la seleccin del mejor modelo (Macchiavelli y Beaver, 1999). Una manera de seleccionar el modelo (es decir, seleccionar el nmero de CPs que se usarn), que puede no ser la ms eficiente pero s la ms sencilla y rpida, es observando el porcentaje de variacin en la tabla de residuos explicada por cada componente. Se debiera seleccionar un nmero de componentes tal que se explique un alto porcentaje de la variacin de inters (en este caso la variacin debida a la interaccin). El porcentaje acumulado de variacin explicada por las componentes seleccionadas debiera ser similar al porcentaje de variacin explicada por la interaccin respecto al error que acus la tabla de ANAVA de un modelo completo, i.e un modelo conteniendo los trminos de genotipo, ambiente, interaccin y error. Para explorar la interaccin a partir de un modelo AMMI es necesario primero ajustar un modelo de Anlisis de la Varianza con efectos de genotipo y de ambiente (sin la interaccin). Luego realizar un Anlisis de

49

Componentes Principales sobre los residuos de ese modelo aditivo. De esta manera el residuo obtenido para cada observacin (o el promedio de los residuos para las repeticiones de una combinacin genotipoambiente) contiene adems de una medida del error experimental el efecto de la interaccin GE. El ACP es aplicado sobre esta matriz de residuos para rescatar las principales componentes de variacin que se espera se relacionen con algn patrn sistemtico debido a la interaccin y separar aquellas componentes asociadas a alguna seal de las ltimas que muy probablemente se asocien a la variacin debido al ruido o error aleatorio. Ambos anlisis son aplicados automticamente cuando se solicita un anlisis de interaccin en Info-Gen y se especifica correctamente los trminos del modelo de ANAVA a ajustar en la primera etapa.

Objetivo
Estudiar la interaccin GE, es decir identificar comportamientos diferenciales (alejados de los esperados bajo un modelo aditivo) de los genotipos a travs de los distintos ambientes.

Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo AMMI debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.

50

Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo). Anlisis de Interaccin Genotipo*Ambiente, modelo AMMI.
Cuadro 8. Modelo AMMI usando Info-Gen. Men Mejoramiento Comando Anlisis de Interaccin Ventana Selector de Variables Variable dependiente Rinde Criterio de Clasificacin Lneas Ambientes

Cuadro 9. Anlisis de la interaccin Genotipo Ambiente

51

Cuadro 10. Grficos Biplot asociado al modelo AMMI(2) (arriba) y AMMI(1) (abajo)

2.30

IO0

1.22

12 13 9 VJ SM IE0 11 SC 7 29 28 IE1

19 16

22

CP 2 (17.8%)

15 0.15 14 5 1 10 -0.93 6

30 21 18 17 26 IO1

2 8

MG

25 24 3 20 4

27 IE2

23

-2.00 -2.00

-1.00

0.00

1.00

2.00

CP 1 (55.3%)

0.50 IE0 SC 0.25 L6 L12 0.00 L11 L4 L8 L1 VJ L15

MG

SM L7

L14

Scores CP1

L3 L13 L18

L25 L28 L20 L22

L24

L29

L23 IE1

L26

IO0 L30

-0.25

IO1 -0.50 1.0 1.2 1.4 1.6 1.8

IE2

2.0

Rinde medio

52

Interpretacin
En estos datos el rendimiento promedio mostr un amplio rango, de 0.4 a ms de 3 ton.ha-1, con las lneas determinadas siendo en general de menor rinde que las indeterminadas. Del ANAVA completo se deduce que la varianza debida a la interaccin GE tiene una magnitud de aproximadamente el 50% de aquella debida al error. Las dos primeras componentes principales explican el 73.1% de la variabilidad en la tabla de residuos y por tanto se puede suponer que ellas son suficientes para explicar los patrones debidos a la interaccin; se decidi trabajar con un modelo AMMI(2). Tambin se graficaron las lneas de regresin para ambos tipos de genotipos (determinados y no determinados) construidas a partir de la relacin entre las respuestas centradas (yij.- y) versus los efectos de ambiente (y.j.- y) para cada genotipo (anlisis no mostrado). Se observ que estas rectas de regresin presentaban pendientes diferentes; este es un buen indicador de la existencia de efectos multiplicativos que pueden ser explicados a travs del modelo AMMI. Al menos parte de la interaccin debe ser explicada por el hbito de crecimiento debido al cruce observado de las rectas de regresin. Este tipo de anlisis suele ser til antes de proceder a analizar el biplot relacionado al modelo AMMI. Se presentaron dos biplots, uno construido a partir de las dos primeras componentes principales y otro construido a partir de la CP1 y los rendimientos medios (por lnea y por ambiente), algunas veces este ltimo grfico es referido como AMMI(1). La primera componente principal (CP1), claramente indica que el aspecto ms importante de la interaccin GE puede ser explicado por el hbito de crecimiento: esencialmente, todos los genotipos con crecimiento indeterminado (numerados del 16 al 30) tienen scores o valores positivos de la CP1, mientras que la mayora de los genotipos con crecimiento determinado tienen scores negativos. Debido a los efectos multiplicativos usados en el modelo, un ambiente dado va a manifestar efectos opuestos para lneas determinadas respecto a los manifestados para lneas indeterminadas. Los ambientes IE1, IE2, IO0 y IO1
53

(todas fechas de plantacin en Puerto Rico, excepto enero 1990) tendieron a asociarse o mostrar correlacin positiva con lneas indeterminadas, mientras que los ambientes IE0, MG, SC, SM y VJ parecieran estar positivamente correlacionados con lneas de hbito de crecimiento determinado. La CP2 diferencia lneas en funcin de la correlacin de los trminos de interaccin con el ambiente IO0. Los ambientes IO1 y MG son extremos en el rango de variacin de la CP1 y por tanto concluimos que ellos contribuyen ms en explicar los patrones de interaccin GE, es decir los cambios ms importantes en las diferencias entre genotipos son observados en estos ambientes. El biplot del AMMI(1) sugiere que los genotipos L24 y L29 exhiben un comportamiento ms predecible (mayor estabilidad) entre aquellos genotipos de alto rendimiento. Ellos son buenos candidatos, entre las lneas indeterminadas, para los ambientes IE1, IE2, IO0 y IO1. El genotipo L3 mostr el mismo comportamiento entre las lneas determinadas. El genotipo L14 es tambin una lnea de alto rendimiento entre las determinadas y a la vez un importante contribuyente a la interaccin GE.

54

Modelo SREG y Biplot GGE Descripcin


Los modelos de regresin por sitio (SREG, Cornelius et al., 1996; Crossa y Cornelius, 1997 y 2002) son modelos lineales-bilineales que remueven el efecto de sitio y slo expresan a la respuesta en funcin de G+GE. Son aconsejables cuando los sitios (o ambientes) constituyen la fuente de variacin ms importante en relacin a la contribucin de los genotipos y la interaccin GE sobre la variabilidad total, situaciones stas muy comunes en la prctica. Para visualizar los patrones de interaccin con remocin de los efectos de ambiente (datos centrados por sitio), Yan et al. (2000) proponen los grficos GGE biplots. A partir de estos grficos se puede investigar la diferenciacin de mega-ambientes entre los ambientes en estudio y seleccionar cultivares superiores en un megaambiente dado. El modelo para construir un GGE biplot con las 2 primeras CP, a partir de la SVD de datos centrados por efecto de ambientes (Yan y Hunt, 2002) es:
y ij y j = 1 i 1 j 1 + 2 i 2 j 2 + ij

donde y ij es el rendimiento medio del genotipo i en el ambiente j, y j es la media de los genotipos en el ambiente j, 1 y 2 son los autovalores para la CP1 y CP2 respectivamente, i 1 y i 2 son los scores del genotipo i en la CP1 y CP2 respectivamente, j 1 y j 2 son los scores del ambiente j en la CP1 y CP2 respectivamente y ij es el trmino residual asociado a la observacin promedio del genotipo i en el ambiente j centrado por el efecto del ambiente j. El modelo es escalado para asegurar que la CP1 y la CP2 tengan las mismas unidades. El mtodo de escalamiento consiste en tomar la raz cuadrada de la variable en su escala original
1/ 1/ 1/ 1/ y ij y j = 1 2 i 11 2 j 1 + 2 2 i 2 2 2 j 2 + ij .

55

El GGE biplot basado en las dos primeras componentes es construido


1/ 1/ graficando 11/ 2i 1 y 11/ 2 j 1 versus 2 2i 2 y 2 2 j 2 .

Yan et al. (2000) sealan que usualmente la CP1 representa respuestas de los cultivares que son proporcionales a travs de los ambientes las cuales se asocian con la interaccin GE sin cambio de rango, mientras que la CP2 representa respuesta de los cultivares no proporcionales a travs de los ambientes, es decir aquellas responsables de la interaccin GE con cambio de rango. Si existe una alta correlacin entre las medias de los genotipos y la CP1 podra interpretarse el GGE biplot de acuerdo a las sugerencias dada por Yan et al (2000), es decir los cultivares con scores CP1 altos se interpretan como aquellos que tienden a tener mayores rendimientos y los ambientes con CP1 altos y CP2 cercanos a cero con los ambientes que facilitan la identificacin de dichos cultivares. Para explorar la interaccin a partir de un modelo SREG es necesario primero ajustar un modelo de Anlisis de la Varianza con efectos de ambiente (sin efectos de genotipo ni interaccin). Luego realizar un Anlisis de Componentes Principales sobre los residuos del modelo ajustado. De esta manera el residuo obtenido para cada observacin (o el promedio de los residuos para las repeticiones de una combinacin genotipo-ambiente) contiene adems de una medida del error experimental el efecto de genotipo (G) y el de la interaccin GE. El ACP es aplicado sobre esta matriz de residuos para rescatar las principales componentes de variacin que se espera se relacionen con algn patrn sistemtico debido a la suma G+GE y separar aquellas componentes asociadas que no muestran patrn sino ruido. Ambos anlisis son aplicados automticamente cuando se solicita un anlisis de interaccin en Info-Gen y se especifica correctamente los trminos del modelo de ANAVA a ajustar en la primera etapa.

56

Objetivo
Identificar mega-ambientes y genotipos ganadores en cada megaambiente.

Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo SREG debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.

Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Man (Anexo). Modelo GGE.
Cuadro 11. Modelo GGE Men Mejoramiento Comando Anlisis de interaccin Ventana Selector de variables Variable dependiente Rendim Criterio de Clasificacin Genotipo Sitio Bloque Ventana Siguiente (Borrar Genotipo manualmente)

57

Cuadro 12. Anlisis de la Interaccin Genotipo Ambiente para un modelo GGE

2 Sitio 2

Sitio 3 mf484

Tegua

Sitio 1 Florman mf480

CP 2 (16.7%)

mf487 mf485 mf489 mf447 manf393 mf478

mf457

-1

-2 -2 -1 0 1 2

CP 1 (76.2%)

Figura 4. GGE biplot para la identificacin de los mejores genotipos en cada sitio. Puntos oscuros representan genotipos y puntos claros sitios.

58

Interpretacin
Para la identificacin de los mejores genotipos en cada ambiente, la propuesta de Yan y Hunt (2002) de interpretacin de los GGE biplot especifica que en primer lugar se debe graficar un polgono envolvente de identificadores de genotipo, este es automticamente obtenido en Info-Gen (Figura 4). En la base de datos analizada, los extremos que definen el envolvente estn dados por los genotipos mf480, mf457, mf489, mf485, mf484, Tegua y Florman. Estos son genotipos de comportamiento extremo, i.e. los de mejor o peor rendimiento en algunos ambientes. A continuacin, para cada uno de los lados del polgono (hay tantos lados como genotipos extremos haya) se trazan lneas rectas que pasan por el origen y son perpendiculares a cada uno de los lados del polgono (o a sus proyecciones). De esta forma, el biplot queda dividido en cuadrantes, generalmente cada uno conteniendo un genotipo en el vrtice. Los genotipos que quedan en el vrtice son los que ms rinden en los ambientes que quedan encerrados en el cuadrante. Se observa que en el cuadrante que tiene como vrtices a los genotipos mf480 y mf457 se encuentra el Sitio 1. Estos genotipos son los de mayor rinde en ese sitio. Luego les sigue en rendimiento el genotipo mf478. El cuadrante cuyo vrtice esta determinado por el genotipo Tegua, involucra al Sitio 2. Al genotipo Tegua le sigue en rendimiento el genotipo Florman, aunque por su cercana en el biplot estos tienen rendimientos muy parecidos en ese sitio. El siguiente cuadrante queda determinado por la proyeccin de la lnea que une a los genotipos mf484 y Tegua y por la proyeccin perpendicular hacia el origen de la lnea que une mf489 y mf457. En este cuadrante el marcador del genotipo mf485 es el vrtice del sector que contiene al Sitio 3 y a los genotipos mf485, mf484m, mf489, mf487 y mf447 en orden de mayor a menor rendimiento dentro de ese sitio. Todos los sitios que quedan en un mismo cuadrante pueden ser considerados como pertenecientes a un mega-ambiente. Aqu, la componente de interaccin GE fue mayor que la componente de G, quedan todos los sitios en distintos cuadrantes, sugiriendo la presencia de tres mega-ambientes diferentes.

59

60

Modelo GREG y Biplot GEE Descripcin


Los modelos de regresin por genotipo son modelos lineales-bilineales que remueven el efecto de genotipo y expresan a la respuesta en funcin de E+GE. Son aconsejables cuando los genotipos constituyen una fuente de variacin importante y es de inters identificar ambientes que contribuyen a la interaccin GE. Para visualizar los patrones de interaccin con remocin de los efectos de genotipo (datos centrados por genotipo), se utilizan grficos denominados GEE biplots. Estos son obtenidos de manera anloga a la explicada para los GGE biplot.

Objetivo
Identificar ambientes que contribuyen a la interaccin y los ambientes ganadores dentro de mega-ambientes favorables para determinados grupos de genotipos.

Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo GREG debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.

61

Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo). Modelo GEE.
Cuadro 13. Modelo GEE usando Info-Gen Men Mejoramiento Comando Anlisis de interaccin Ventana Selector de variables Variable dependiente Rinde Criterio de Clasificacin Lneas Ambiente Ventana Siguiente (Borrar Ambiente manualmente)

Cuadro 14. Anlisis de la Interaccin Genotipo Ambiente para un modelo GEE

62

Cuadro 15. Grfico GEE Biplot

3.2 14 1.6 MG SM 0.0 VJ SC IE0 -1.6 4 15 6 5 1 2 10 8 11 24 7 3

12 29 25 13 22

IO0

CP 2 (21.3%)

IE1 19 IE2 28 16 21 20 17 30 27 26 18 23

-3.2 -3.2 -1.6 0.0 1.6

IO1 3.2

CP 1 (53.7%)

Interpretacin
Para la identificacin de los mejores ambientes desde los GEE biplot en primer lugar se debe graficar un polgono envolvente de identificadores de ambientes, este es automticamente obtenido en Info-Gen. En la base de datos analizada, los extremos que definen el envolvente estn dados por los ambientes IO0, IO1, IE0 y MG. Estos son ambientes de comportamiento extremo, i.e. los de mejor o peor rendimiento para algunos genotipos. A continuacin, para cada uno de los lados del polgono (hay tantos lados como genotipos extremos haya) se trazan lneas rectas que pasan por el origen y son perpendiculares a cada uno de los lados del polgono (o a sus proyecciones). De esta manera se formaron cuatro cuadrantes. Los ambientes que quedan en el vrtice son los que ms rinden entre los que quedan encerrados en el cuadrante. El cuadrante cuyo vrtice es IE0 y que adems contiene a los ambientes VJ y SC no contiene ningn genotipo sugiriendo que estos ambientes son los de rendimientos ms pobres en todos las lneas evaluadas. El ambiente MG es vrtice del cuadrante que contiene a las lneas principalmente de crecimiento indeterminado. El
63

tercer cuadrante tiene como vrtice IO0 y adems contiene a los ambientes IE1 e IE2 y a la mayora de las lneas de crecimiento determinado pero tambin lneas de crecimiento indeterminado. Estos ambientes presentaron altos rendimientos para lneas de los dos tipos de crecimiento. Ambientes como IE0 son desfavorables para rinde.

64

ACP en el Estudio de Correlaciones Gentica y Ambientalmente Determinadas Objetivo


Estudiar correlaciones entre variables determinadas desde la gentica de los materiales o desde los ambientes en que stos se evalan.

Datos
Para estudiar correlaciones genticamente determinadas se parte de una base de datos que contenga las medias de cada variable (columnas) por genotipo (filas). A partir de sta base de datos se debe obtener una nueva tabla de tres columnas. Una de las columnas contendr el nombre de los genotipos, otra el nombre de las variables evaluadas y la tercera contendr el valor promedio de cada uno de los caracteres para cada genotipo. A partir de sta nueva configuracin de la base de datos se realiza un Anlisis de la Varianza del valor promedio de cada variable y que slo ajuste por la variacin debida a la variable, es decir que se tiene como nico factor de clasificacin a la variable con tantos niveles como variables se hayan medido en el ensayo. Los residuos estimados a partir del modelo ajustado contendrn la variacin debida al genotipo ms la interaccin genotipo*variable. Con los residuos as estimados se realiza un ACP acompaado de su grfico Biplot. Para estudiar correlaciones ambientalmente determinadas se procede de idntica manera slo que se parte de una base de datos que contiene las medias de cada variable por ambiente. Dado que las variables pueden ser no conmensurables y/o tener varianzas muy distintas se recomienda estandarizar previo a cualquiera de estos dos anlisis.

65

Ejemplo Para estudiar correlacin genticamente determinada


Base de datos Ideotipos de Maz (Anexo). Correlacin genticamente determinada

Cuadro 16. Paso 1 para estudiar Correlacin Genticamente Determinadas con Info-Gen Men Datos Comando Transformar Ventana Selector de variables Variables Rinde PG NG MS2-1 IC IV7-9 EI_F EI_Fll EUN Opcin Estandarizar

66

Cuadro 17. Paso 2 para estudiar Correlacin Genticamente Determinadas con Info-Gen Men Estadsticas Comando Medidas Resumen Ventana Selector de variables Variables EST_Rinde EST_PG EST_NG EST_MS2-1 EST_IC EST_IV1-9 EST_EI_F, EST_EI_Fll, EST_EUN Criterio de clasificacin Hbrido Opcin Medias Cuadro 18. Paso 3. Ir a Men Resultados, Comando Exportar Resultados como Tabla

Nota: Si los nombres de las variables estn separados por espacios utilizar el comando Separador de Campos>Tabulador del Men Resultados

67

Cuadro 19. Paso 4. Sobre la Nueva Tabla confeccionada en el Paso 3 Men Aplicaciones Comando Interaccin Genotipo-Ambiente Borrar (Hbrido de Especificacin del modelo manualmente) Cuadro 20. Grfico Biplot de correlacin entre variables genticamente determinada.

1.5

NG

1.0 Rinde 0.5 6 8 0.0 EI_F 2 IV7-9 -1.0 EI_Fll 4 1 7 PG MS2-1 3 EUN 5 IC

CP 2 (18.5%)

-0.5

-1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

CP 1 (66.0%)

Interpretacin
Las dos primeras CP explican el 84.5 % de la variabilidad total entre genotipos. Los hbridos 5 y 7 son diferentes de los hbridos 2 y 6 segn la CP1 y en cuanto a los caracteres evaluados (Cuadro 20). Los caracteres que marcan la mayor diferenciacin gentica a nivel de la CP1 es IV7-9 que est asociada a los genotipos 2 y 6 (izquierda del grfico) y los caracteres IC, PG y EUN que se correlacionan positivamente a los genotipos 5 y 7 (derecha del grfico). La CP2 separa principalmente al carcter NG. El rendimiento muestra correlacin positiva genticamente determinada con IC, PG y EUN. La correlacin entre las variables IV7-9 y EI_F se encuentra genticamente determinada; cuando estas variables asumen valores mayores hay menores valores de IC, PG y EUN.

68

Ejemplo Para estudiar correlacin ambientalmente determinada


Base de datos Ideotipos de Maz (Anexo). Correlacin ambientalmente determinada. Se procede de la misma forma que para el anlisis anterior pero las medias deben calculares por Ambiente (i.e. una media para cada ambiente).
Cuadro 21. Grfico Biplot de correlaciones ambientalmente determinadas

3.5

EI_F

2.3 PN MS2-1 NG PG O -1.2 ON EUN -2.3 IC EI_Fll BN Rinde

1.2

CP 2 (21.6%)

C IV7-9

CN

0.0

-3.5 -3.5 -2.3 -1.2 0.0 1.2 2.3 3.5

CP 1 (64.3%)

Interpretacin
Las dos primeras CP explican casi el 86% de la variabilidad total entre ambientes (Cuadro 21). La CP1 separa los ambientes con nitrgeno (BN, PN, CN y ON) de los que no recibieron fertilizacin nitrogenada (C, O y P). Los primeros se correlacionan positivamente a las variables Rinde, PG, NG, EI_F, EI_Fll, IC y MS2-1 mientras que los ambientes pobres en nitrgeno presentan mayor EUN. A nivel de la CP2 se separan dentro de los ambientes nitrogenados PN y CN de ON y BN las primeras se asocian a la EI_F mientras que las segundas se asocian a EI_Fll e IC. El ambiente provoca correlaciones altas entre Rinde, NG, PG y MS2-1 como as tambin entre EI_Fll e IC.

69

70

Anlisis de Regresin
Descripcin
En el anlisis de regresin lineal se estudia cmo los cambios en la/s variable/s input afectan a la variable respuesta (output), mediante el ajuste de un modelo para la relacin funcional entre ellas, suponiendo que esta es lineal. Genricamente, la relacin entre las variables se modela estadsticamente de la forma Yi = 0 + 1 X1 + 2 X 2 + ... + i , donde Yi es la i-sima observacin, X1, X2, son las variables regresoras, 1, 2 son los parmetros que dan los pesos de cada variable regresora respectivamente tambin llamados coeficientes de regresin y que sern estimados a partir de los datos y i es el trmino de error aleatorio asociado al i-simo dato. Asumiendo que el modelo es correcto, la funcin de regresin estimada es usada para hacer inferencias y predicciones. Antes de ello es importante examinar la adecuacin del modelo, es decir si se cumplen los supuestos del modelo sobre los errores (normalidad, independencia y homogeneidad de varianza). Toda la informacin muestral sobre falta de ajuste est contenida en los residuos. Cada residuo es un estimador del error, que se espera se distribuya como una variable aleatoria con media cero. Los residuos pueden tener varianzas desiguales y correlaciones distintas de cero. Dado que un dato puede asociarse a un residuo grande (outlier) pero no ser influyente (no cambia fuertemente el modelo) suele ser preferible realizar grficos diagnstico basados en residuos estudentizados, que son los residuos corregidos por una medida de influencia de la observacin sobre el ajuste. Los residuos estudentizados debieran seguir un patrn similar al de variables aleatorias independientes con distribucin normal de media cero y varianza constante. Valores de residuos estudentizados entre -2 y 2 indican que no existen datos aberrantes, mientras que datos con valores de residuos estudentizados
71

mayores a 2 o menores a -2 son considerados outliers o valores atpicos. Los grficos de residuos ms usados para diagnstico son: Residuos (o residuos Estudentizados) versus predichos: Incumplimiento de supuestos del modelo se reflejan en dependencias de los residuos sobre los valores predichos que se manifiestan en la existencia de un patrn (falta de aleatoriedad) en este grfico. QQ-plots e histogramas de residuos (o residuos Estudentizados): Permiten verificar si los errores se distribuyen normalmente y detectar la presencia de observaciones inusuales que podran requerir especial atencin en el anlisis. Cuando el tamao de la muestra es grande, los alejamientos de la normalidad tienen poco peso en la inferencia. Para determinar qu proporcin de la variabilidad en Y es explicada por las regresoras introducidas en el modelo se usa el coeficiente de determinacin (R2). En regresin mltiple, la existencia de multicolinealidad (i.e. correlacin fuerte entre variables regresoras) conduce a estimaciones de coeficientes de regresin poco estables (cambian mucho al agregar o quitar variables regresoras). La contribucin de cada regresora puede resultar confusa si existe multicolinealidad y en estos casos los errores estndar de los estimadores suelen ser muy grandes. La multicolinealidad puede tratarse mediante el agregado de puntos adicionales que la destruyan, el uso de combinaciones lineales de las variables que sean ortogonales y/o la eliminacin de variables redundantes. La tcnica de centrar las regresoras tambin suele aplicarse para disminuir la correlacin entre regresoras.

Objetivo
Explicar la variacin en la variable output como funcin lineal de la o las variables regresoras.

72

Datos
Para realizar un anlisis de regresin simple se debe disponer de una variable dependiente o output (variable Y) y una variable regresora, explicatoria o predictora (variable X). Si existe ms de una variable predictora se realizar un anlisis de regresin mltiple.

Ejemplo Regresin lineal simple


Base de datos Factores limitantes Soja (Anexo). El objetivo de este anlisis es estudiar si existe relacin lineal significativa entre el rendimiento y la precipitacin acumulada durante algn perodo del cultivo: desde emergencia hasta floracin (Pr1), desde floracin hasta inicio de llenado de grano (Pr2) y desde inicio de llenado de grano hasta madurez fisiolgica (Pr3). Adems para estudiar la relacin de la precipitacin acumulada durante todo el perodo reproductivo y el rendimiento, se cre una nueva variable que mide la precipitacin acumulada durante todo el perodo reproductivo, desde floracin hasta madurez fisiolgica (Pr2 + Pr3), mediante el comando Transformar del men Datos utilizando la opcin Suma. Mediante grficos de dispersin se explor la relacin funcional que presentan las observaciones de la variable dependiente (Rendimiento) vs cada una de variables de precipitacin (regresoras).
Cuadro 22. Grfico de dispersin con Info-Gen Men Grficos Comando Diagrama de dispersin Ventana Selector de Variables Eje Y Rend Eje X Pr1

Se repite el procedimiento para cada par de variables de inters

73

En la Figura 5 se muestran los diagramas de dispersin entre cada una de las variables relacionadas a la precipitacin y el rendimiento. No se observa relacin lineal aparente entre Pr1, Pr2 o Pr3 y el rendimiento, mientras que para la suma de precipitaciones (Pr2+Pr3) se observa una tendencia cuadrtica. Esta tendencia es difcil de explicar desde un punto de vista agronmico ya que en general, si hay ms agua se espera ms rinde. No obstante si se analiza la relacin para casos donde la suma no supera los 180 mm la relacin pareciera ser lineal. Ser entonces de inters, en este problema, modelar la relacin antes y despus del valor de la precipitacin donde se produce un cambio en la tendencia. Si bien existen procedimientos estadsticos para la bsqueda de los valores en X donde se produce un cambio en la relacin mostrados, basados en criterios agronmicos y segn el diagrama de dispersin, seleccionamos el valor de 180 mm como punto crtico para el cambio de modelo. Para realizar las regresiones por separado se clasific a la variable Suma[Pr2+Pr3] en 2 grupos (hasta 180 mm y mayores a 180 mm) mediante el comando Categorizar del Men Datos.

540

540

A
466
466

Rendimiento (g/m2)

Rendimiento (g/m2)

392

392

318

318

244

244

170 40 140 240 340 440

170 0 63 125 188 250

Pr1 (mm)

Pr2 (mm)

74

540

540

C
466
466

Rendimiento (g/m2)

Rendimiento (g/m2)

392

392

318

318

244

244

170 0 110 220 330 440

170 40 170 300 430 560

Pr3 (mm)

Suma[Pr2+Pr3] (mm)

Figura 5. Diagramas de dispersin Rendimiento vs A: Precipitacin acumulada desde emergencia hasta floracin (Pr1); B: Precipitacin acumulada desde floracin hasta inicio de llenado de grano (Pr2); C: Precipitacin acumulada desde inicio de llenado de grano hasta madurez fisiolgica (Pr3) y D: Precipitacin acumulada desde floracin hasta madurez fisiolgica (Suma[Pr2+Pr3]), en este ltimo diagrama la lnea de corte vertical indica el valor 180 mm.

Se realiz un anlisis de regresin lineal simple del rendimiento en funcin de las precipitaciones del perodo reproductivo (Suma[Pr2+Pr3]) para cada grupo: Hasta 180 mm y Mayor a 180 mm.
Cuadro 23. Regresin Lineal Simple con Info-Gen Men Estadsticas Comando Regresin Lineal Ventana Selector de Variables Variable dependiente Rend Regresoras Suma[Pr2+Pr3] En este ejemplo debi utilizarse adems: Solapa Particiones Particionar por CATSuma[Pr2+Pr3]

En la casilla Regresoras pueden ir ms de una variable.

75

Cuadro 24. Resultados de Anlisis de regresin Lineal Simple


Anlisis de regresin lineal CATSuma Variable Hasta 180 Rend N R 29 0. 71 RAj 0.70 ECMP 2657.63

Coeficientes de regresin y estadsticos asociados Coef const Suma Est. 51.51 2.09 EE 33.96 0.25 LI(95%) LS(95%) T p-valor CpMallows -18.18 121.20 1.52 0.1410 1.57 2.61 8.21 <0.0001 66.02

Interpretacin
Los resultados de la regresin lineal para Suma[Pr2+Pr3] 180 mm se presenta en el Cuadro 24. Se observa que la pendiente de la recta (2,09) es estadsticamente distinta de cero (p<0.0001) por lo que existe relacin lineal positiva entre el rendimiento y las precipitaciones acumuladas durante la etapa reproductiva, es decir que mientras mayor sea la precipitacin acumulada en la etapa reproductiva (hasta 180 mm) mayor ser el rendimiento esperado. La ordenada al origen (const) no es estadsticamente distinta de cero, si bien podra ajustarse una recta que pase por el origen, en general se recomienda dejar el trmino constante en el modelo aunque sea no significativo. En el diagrama de dispersin de residuos estudentizados vs predichos (Figura 6 derecha) se observan tres puntos que podran ser considerados outliers debido a que presentan residuos estudentizados mayores a 2. Analizando la base de datos se descubre que esos casos corresponden a las tres repeticiones de un cultivar (DM 4800 RR) en una campaa (03_04) y en una localidad (Totoras). Decidimos no incluirlo en la modelacin ya que los valores de precipitacin registrados para esa localidad son ms bajos de lo esperado. Sacando dichos casos, el ajuste del modelo mejora (ver error cuadrtico medio de prediccin, ECMP) (Cuadro 24). La raz cuadrada de error cuadrtico medio de prediccin es un indicador del error de prediccin que debe esperarse cuando se use el modelo en un sentido predictivo, es decir para pronosticar el valor de Y para nuevos valores de la/s variables regresoras. En este ejemplo el error de prediccin nos dice en cuanto nos podemos equivocar al predecir el
76

rendimiento mediante este modelo. El primer ajuste realizado (sin sacar los casos 110, 111 y 112) tiene un error de prediccin (EP) de 51.55 g/m2, mientras que el segundo ajuste (sin los casos 110, 111 y 112) tiene un EP de 32.07 g/m2.
540
3

Res. estudentizados_Rend

2 1 0 -1 -2 -3 170

Rendimiento (g/m2)

440

110 111 112

340

240

140 60

90

120

150

180

235

300

365

430

Suma[Pr2+Pr3] (mm)

Predichos

Figura 6. Diagrama de dispersin con el ajuste y las bandas de confianza de la regresin lineal simple del rendimiento en funcin de los valores de Suma[Pr2+Pr3] 180 mm (izquierda). Diagrama de dispersin de los residuos estudentizados vs valores predichos por el modelo ajustado (derecha).

Cuadro 25. Resultados de anlisis de regresin lineal simple (sin los casos 110, 111 y 112) para los casos donde Suma[Pr2+Pr3] es hasta 180 mm y para casos con Suma[Pr2+Pr3] mayor a 180 mm
Anlisis de regresin lineal CATSuma Variable N Hasta 180 Rend R R Aj ECMP 26 0.76 0.75 1028.60

Coeficientes de regresin y estadsticos asociados Coef const Suma Est. EE 108.60 22.77 1.54 0.18 LI(95%) LS(95%) T p-valor CpMallows 61.61 155.59 4.77 0.0001 1.17 1.91 8.64 <0.0001 72.63

CATSuma Variable Mayor 180 Rend

N 124

R R Aj ECMP 0.08 0.08 4379.05

Coeficientes de regresin y estadsticos asociados Coef const Suma Est. 411.80 -0.24 EE LI(95%) LS(95%) T 23.40 365.49 458.12 17.60 0.07 -0.38 -0.10 -3.34 p-valor CpMallows <0.0001 0.0011 12.10

El modelo ajustado para relacin entre rendimiento y precipitacin acumulada en el segundo y tercer perodo, cuando esta es menor a 180 mm es

77

y = 108.6 + 1.54 Suma[Pr 2 + Pr 3]


1028.6 ).

(R2=0.76,

Error

de

prediccin

El modelo ajustado por la regresin realizada con los valores de Suma[Pr2+Pr3] mayores a 180 mm sugiere que la pendiente es estadsticamente distinta de cero (p=0.0011), pero pero que la relacin es negativa, nuevamente si bien este modelo puede ajustar los datos carece de sentido agronmico por lo que debiera buscarse otras variables para predecir rendimiento cuando Suma[Pr2+Pr3] es mayor a 180 mm.

Regresin Lineal Mltiple


Base de datos Factores limitantes Soja (Anexo). El objetivo del anlisis es explicar la variabilidad del rendimiento en funcin de variables climtica y de suelo para todos los casos y luego separan los casos segn la Suma[Pr2+Pr3] sean 180 mm y mayor a 180 mm. De las 4 variables climticas de inters (Pr, Ra, Tm y Fot) se tienen 3 mediciones a travs del ciclo del cultivo, este hecho ocasiona correlacin entre las variables predictoras y podra hacer que la regresin mltiple no sea muy confiable por multicolinealidad. Las tres medidas de Pr ya las hemos resumido anteriormente, en la variable Suma[Pr2+Pr3] y por lo tanto vamos a usar Suma[Pr2+Pr3] en lugar de las tres variables relacionadas a Pr que figuran en la base de datos. Para seleccionar de las otras variables regresoras un subconjunto sin problemas de alta correlacin realizamos previamente un anlisis de correlacin lineal entre variables usando el coeficiente de correlacin de Pearson (Cuadro 26). En la triangular inferior de esta matriz se presentan los coeficientes de correlacin y en la parte superior los valores p asociados a la hiptesis nula de falta de correlacin. Se trabaja con un nivel de significacin del 5% para interpretar las significancias de las correlaciones.

78

Cuadro 26. Anlisis de correlacin lineal con Info-Gen Men Estadsticas Comando Anlisis de Correlacin Opcin Coeficientes de Correlacin Variables Y

Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3

En el Cuadro 27 se muestran los coeficientes de correlacin obtenidos y la significancia de la prueba de hiptesis de no correlacin. En general, se observa que las variables Fot1, Fot2, Fot3, Tm1, Tm2 y Tm3 estn correlacionadas entre ellas y con Ra1, Ra2 y Ra3 y que stas ltimas tambin se correlacionan entre ellas, por lo que se decidi elegir slo una de las radiaciones. Se seleccion Ra3 debido a que se hipotetiza que la radiacin acumulada durante la etapa de llenado de grano podra ser ms explicativa que radiaciones en otras etapas.
Cuadro 27. Resultados del Anlisis de Correlacin para las variables climticas
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 1.000 2.5E-07 1.2E-08 0.017 3.5E-05 0.111 0.331 0.000 2.5E-12 -0.402 1.000 0.000 0.000 0.265 2.9E-07 4.0E-12 0.000 0.000 -0.440 0.558 1.000 0.000 0.165 0.042 4.5E-12 0.000 0.000 0.193 -0.586 -0.602 1.000 0.136 0.002 1.1E-07 0.000 0.000 -0.328 -0.091 0.113 -0.121 1.000 0.013 1.3E-07 0.080 0.118 0.129 0.401 -0.164 -0.244 -0.201 1.000 0.019 0.006 1.4E-05 -0.079 -0.523 -0.522 0.413 0.411 -0.189 1.000 5.1E-06 1.4E-10 -0.589 0.729 0.646 -0.792 0.142 0.221 -0.359 1.000 0.000 -0.527 0.706 0.606 -0.793 0.127 0.344 -0.489 0.954 1.000

79

Para el caso de las variables de suelo tambin se calcularon las correlaciones (Cuadro 28) entre las variables y se decidi seleccionar AUI, MO y %Md para comenzar a probar ajustes de modelos de regresin mltiple.
Cuadro 28. Resultados del Anlisis de Correlacin para las variables de suelo
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades AUI MO PrB2t %Md %pi Chid AUI MO PrB2t 1.000 0.441 0.001 -0.063 1.000 0.132 0.276 -0.122 1.000 -0.198 -0.323 0.135 -0.057 -0.164 0.166 0.163 0.457 0.036 %Md %pi Chid 0.014 0.481 0.044 4.6E-05 0.043 2.9E-09 0.096 0.040 0.662 1.000 0.000 0.000 0.675 1.000 0.000 -0.597 -0.719 1.000

Al realizar la regresin mltiple y analizar los residuos estudentizados vs predichos se encontr que los casos 110, 111 y 112 presentan residuos altos residuos altos, como en el caso de la regresin lineal simple, por lo cual se volvi a ajustar el modelo de Regresin Mltiple sin estos casos.
Cuadro 29. Anlisis de Regresin Lineal Mltiple con Info-Gen Men Estadsticas Comando Regresin Lineal Ventana Anlisis de Regresin Lineal Variable dependiente Rend Regresoras Suma[Pr2+Pr3], Ra3 AUI MO %Md Solapa Seleccin de modelo Opcin Eliminacin backward

La opcin Eliminacin backward es un mtodo de seleccin de modelo. Se parte con el modelo completo y se van eliminando de a una las variables poco explicativas hasta obtener un modelos de mejor ajuste.

80

Los resultados sugieren un modelo para el ajuste (Cuadro 30) pero este presenta nuevamente un problema desde el punto de vista agronmico, debido a que el coeficiente estimado para la variable Suma[Pr2+Pr3] es negativo (0.11), un comportamiento anlogo se observa con la variable AUI.
Cuadro 30. Resultados de la regresin mltiple del rendimiento como variable dependiente y 5 regresoras (Suma[Pr2+Pr3], Ra3, AUI, %Md y MO)
Anlisis de regresin lineal Variable Rend N 150 R R Aj 0.49 0.48 ECMP 2602.42

Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 6 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T const 196.14 45.91 105.39 286.89 4.27 Ra3 0.24 0.04 0.17 0.32 6.40 AUI -0.25 0.10 -0.45 -0.05 -2.47 MO 43.35 10.07 23.44 63.26 4.30 %Md -1.50 0.26 -2.02 -0.98 -5.69 Suma -0.11 0.04 -0.19 -0.03 -2.84 Error cuadrtico medio: 2386.124834 p-valor CpMallows <0.0001 <0.0001 45.70 0.0145 11.09 <0.0001 23.40 <0.0001 37.19 0.0052 13.00

Como se mostr en el anlisis de regresin simple existe un punto (180 mm) en los valores de Suma[Pr2+Pr3] a partir del cual se produce un cambio en la relacin entre las precipitaciones y el rendimiento, por lo que se propone realizar la regresin mltiple particionada segn los valores de Suma[Pr2+Pr3] sean hasta 180 mm o mayores a 180 mm. Los resultados de la regresin mltiple para el grupo de casos con valores de Suma[Pr2+Pr3] 180 mm sugieren, luego de la seleccin de modelos, un modelo que explica la variabilidad del rendimiento como funcin de una ordenada al origen (const=172.32) y de dos regresoras, %Md y Suma[Pr2+Pr3] con valores de coeficientes -0.89 y 1.29 respectivamente. El error de prediccin del modelo es 31.5 g/m2 (Cuadro 31).

81

Cuadro 31. Resultados de la Regresin Mltiple del rendimiento con 5 variables para los casos con Suma[Pr2+Pr3]180mm
Anlisis de regresin lineal CATSuma Hasta 180 Variable Rend N R 26 0.80 R Aj 0.78 ECMP 993.76

Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 3 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) const 172.43 37.38 95.11 249.75 %Md -0.89 0.43 -1.77 -4.7E-03 Suma 1.29 0.21 0.87 1.71 Error cuadrtico medio: 744.811436 T 4.61 -2.08 6.28 p-valor CpMallows 0.0001 0.0489 6.19 <0.0001 39.89

Para el conjunto de datos con Suma[Pr2+Pr3]>180 mm no se introdujo en el modelo AUI ni Suma[Pr2+Pr3] debido a las anomalas detectadas anteriormente. Los resultados sugieren que para valores de Suma[Pr2+Pr3] mayores a 180 mm la variabilidad del rendimiento puede ser aceptablemente explicada por Ra3, MO y %Md, con un error de prediccin 54.6 g/m2 (Cuadro 32).

Cuadro 32. . Resultados de la regresin mltiple del rendimiento con 3 variables para los casos con Suma[Pr2+Pr3]>180mm
CATSuma Variable N Mayor 180 Rend R 124 R Aj ECMP 0.42 0.40 2984.72

Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 4, variables en el modelo 4 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 67.09 39.56 -11.23 145.40 1.70 0.0925 Ra3 0.25 0.04 0.16 0.33 5.72 <0.0001 35.49 MO 50.12 11.90 26.55 73.68 4.21 <0.0001 20.59 %Md -1.38 0.31 -2.00 -0.76 -4.39 <0.0001 22.11 Error cuadrtico medio: 2745.576428

82

Uso de regresin en el anlisis de estabilidad


Para el anlisis de estabilidad, es comn el uso de modelos de regresin o de anlisis de varianza y regresin para descomponer la interaccin GE en un conjunto de trminos multiplicativos y de desviaciones desde ellos. Las aproximaciones univariadas para el estudio de interaccin modelan la interaccin GE como una funcin lineal de efectos de ambiente aditivos, i.e. GEij=Ej+dij, donde dij es la desviacin de la regresin y (1+) es el coeficiente de regresin lineal de la respuesta del i-simo genotipo sobre la media de los ambientes. Al ajustar el modelo aditivo se obtienen las estimaciones de los trminos de interaccin GE y luego se regresionan esos valores sobre los efectos ambientales, i.e. y . j y.. . La interaccin GE es expresada como heterogeneidad de pendientes y la estabilidad ptima es representada por alta respuesta media, moderada a alta respuesta a los ambientes favorables y bajas desviaciones de regresin. Casanoves, (1996) resume los estadsticos ms frecuentemente utilizados para la cuantificacin de la estabilidad de acuerdo con el concepto de estabilidad esttica y estabilidad dinmica (Becker y Leon, 1988) y en funcin de su base estructural (Lin et al., 1986) (Cuadro 33)

83

Cuadro 33.Medidas de estabilidad y su clasificacin. Grupo A Concepto Estabilidad Esttico tipo 1 A Esttico tipo 1 Estadstico para medir Estabilidad Varianza ambiental Autores Roemer (1917) Francis y Kannenberg (1978)

S2 = j

1 g (Yij Y. j )2 a 1 i =1

Coeficiente de variacin ambiental

CV j =

S2 j Y. j

100

Dinmico tipo 2

Componente de varianza promedio g g SCGA j = (Yij Yi . Y. j + Y.. )2 + 2(g 1)(a 1) 2(g 1)(a 1) i =1 donde SCGA =

(Y
i =1 j =1

ij

Yi . Y. j + Y.. )2

Plaisted Peterson (1959)

Dinmico tipo 2

( j )

Componente de varianza de la interaccin genotipoambiente g g SCGA = (Yij Yi . Y. j + Y.. )2 + (g 1)(a 1) 2(g 1)(g 2)(a 1) i =1 Ecovalencia

Plaisted (1960)

Dinmico B tipo 2 Dinmico B tipo 2

W j2 = (Yij Yi . Y. j + Y.. )2
i =1

Wricke (1962)

Varianza de estabilidad g g SCGA 2 = (Yij Yi . Y. j + Y.. )2 (g 1)(g 2)(a 1) j ( g 2)(a 1) i =1 Coeficiente de regresin de valores observados sobre ndices ambientales

Shukla (1972a)

Dinmico C tipo 2

j =

(Y
i =1

ij

Y. j )(Yi . Y.. )

(Yi . Y.. )2

Finlay Wilkinson (1963)

Dinmico CyB tipo 2 Dinmico D tipo 3

Estabilidad genotpica

D 2 = (Yij Y. j bminYi . + bminY.. )2 j


i =1

Hanson (1970)

Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados sobre ndices ambientales

j2 =

g 1 g (Yij Y. j )2 j2 (Yi . Y.. )2 (a 2) i =1 i =1

Eberhart Rusell (1966)

84

Cuadro 34. (continuacin): Medidas de estabilidad y su clasificacin. Grupo Concepto Estabilidad Dinmico D tipo 3 Dinmico D tipo 3 Dinmico Estadstico para medir Estabilidad (*) Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados ajustados por ambiente sobre ndice ambiental. Autores

j2 =

g 1 g (Yij Yi . Y. j + Y.. )2 j2 (Yi . Y.. )2 (a 2) i =1 i =1

Perkins Jinks (1968) Pinthus (1973)

Coeficiente de determinacin

r j2 = 1

2 dj 2 yj

Media del valor absoluto de la diferencia entre rangos del genotipo i-simo sobre todos los ambientes

S (1) = j
Dinmico (Esttico desde el punto de vista de los rangos)

2 | rij ri j | a(a 1) i =i +1
a

Nassar Hhn (1987)

Varianza comn de los rangos del genotipo i-simo entre los ambientes

S (2) = j

1 a (rij r. j )2 (a 1) i =1

Nassar Hhn (1987)

(*) Yij es la respuesta del genotipo i en el ambiente j; Y. j es el promedio sobre genotipos; Yi . es el promedio sobre ambientes; Y.. es el promedio general; bmin es el mnimo coeficiente de regresin de Finlay y Wilkinson para genotipo; rij es el rango del genotipo i en el ambiente j

85

86

Anlisis de Correlacin Lineal


Descripcin
El objetivo del anlisis de correlacin lineal es conocer la relacin funcional entre dos variables numricas i.e. estudiar si estn linealmente asociadas en el sentido que al aumentar el valor observado en una de las variables, aumenta o disminuye linealmente el valor observado en la otra variable. La medida de dicha asociacin se puede realizar a travs del coeficiente de correlacin de Pearson. El coeficiente de correlacin de Pearson (r) es una medida de la magnitud de la asociacin lineal entre dos variables numricas. sta medida no depende de las unidades de medida de las variables originales sino de la variacin conjunta (covarianza) entre las dos variables y de las varianzas de cada una de ellas. La expresin del coeficiente de correlacin de Pearson para las variables X e Y es:
n ( xi X )( y i Y ) /(n 1) i =1 n n 2 2 ( xi X ) /(n 1) ( y i Y ) /(n 1) i =1 i =l

rxy =

Sxy
2 2 Sx Sy

donde rxy es el Coeficiente de Correlacin de Pearson, Sxy es la covarianza entre X e Y,


2 Sx

es la varianza de X,
X

2 Sy

es la varianza de Y, xi

son los valores observados de la variable X,

es el valor medio de la
Y

variable X, yi son los valores observados de la variable Y y de la variable Y y n es el nmero de observaciones.

es el medio

El coeficiente de correlacin de Pearson puede tomar valores dentro del intervalo [-1, 1]. Valores cercanos a 1 indican alta correlacin lineal positiva y valores de r cercanos a -1 indican alta correlacin lineal negativa. Si el coeficiente se aproxima a cero indica que no hay correlacin lineal entre variables. Para probar si un coeficiente de

87

correlacin es estadsticamente distinto de cero se realiza una prueba de hiptesis.

Objetivo
Conocer el grado de asociacin que hay entre dos o ms variables y obtener una medida de la magnitud (y direccin) de la asociacin o covariacin de cada par de variables.

Datos
La base de datos debe tener dos o ms variables numricas observadas sobre cada uno de los casos (genotipo, hbridos, etc.). Cada columna de la base de datos contendr la variable observada.

Ejemplo
Archivo Ideotipos de Maz (Anexo). Anlisis de Correlacin entre variables ecofisiolgicas
Cuadro 35. Anlisis de Correlacin Men Estadsticas Comando Anlisis de Correlacin Opcin Coeficientes de correlacin Selector de variables Variables Y Rinde PG, NG EI_F EI_Fll IV1-3 IV4-6 IV7-9

En el Cuadro 36 se presenta la matriz de correlaciones entre todos los caracteres (triangular inferior) y los valores de p para la prueba de hiptesis de

88

correlacin nula (triangular superior), obtenidos a partir del coeficiente de correlacin de Pearson.
Cuadro 36. Resultados del anlisis de correlacin entre variables ecofisiolgicas. Matriz con los coeficientes de correlacin (triangular inferior) y valor p para la prueba de hiptesis de correlacin nula (triangular superior) entre nueve caracteres.
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades Rinde Rinde 1.00 PG 0.67 NG 0.79 EI_F 0.41 EI_Fll 0.58 IV1-3 -0.23 IV4-6 -0.34 IV7-9 -0.07 PG 0.00 1.00 0.08 0.25 0.44 -0.19 -0.31 -0.27 NG 0.00 0.32 1.00 0.31 0.44 -0.19 -0.23 0.12 EI_F EI_Fll IV1-3 IV4-6 IV7-9 3.9E-08 0.00 2.2E-03 7.8E-06 0.38 9.0E-04 1.7E-09 0.01 5.1E-05 3.6E-04 3.4E-05 1.8E-09 0.01 2.5E-03 0.12 1.00 0.15 0.05 0.02 0.42 0.11 1.00 1.9E-05 3.3E-07 0.12 -0.15 -0.32 1.00 0.00 0.00 -0.18 -0.38 0.90 1.00 0.00 -0.06 -0.12 0.58 0.68 1.00

Interpretacin
El rendimiento presenta correlacin lineal positiva significativa (r>0) con las variables PG (r=0.7, p<0.0001), NG (r=0.79, p<0.0001), EI_F (r=0.41, p<0.0001), EI_Fll (r=0.58, p<0.0001) y negativamente con IV1-3 ((r=-0.23, p<0.0022), IV4-6 (r=-0.34, p<0.0001) y no est correlacionado significativamente con IV7-9 (r=-0.07, p=0.38). El PG y NG no estn correlacionadas linealmente (r=0.08, p=0.32). En general se observa correlacin estadsticamente significativa (distinta de cero) entre los pares de variables eco-fisiolgicas incluidas en el anlisis. Las variables de insercin de hojas verticales (IV1-3, IV4-6, IV7-9) presentan correlacin negativa con las variables de eficiencia de intercepcin de la radiacin (EI_F y EI_Fll), con los componentes del rendimiento (PG y NG) y con el rendimiento (Rinde).

89

90

Anlisis de Sendero
Descripcin
En el anlisis de sendero (Path Analysis) se pretende construir modelos de causa-efecto entre las variables a travs de la diseccin de la correlacin entre dos variables como la suma de dos tipos de efectos, estos son efectos directos de una variable sobre otra (senderos simples) y efectos indirectos de una variable sobre otra va una o ms variables exgenos (senderos compuestos). Si se considera una nueva variable en el sistema anterior, digamos la variable U, y suponemos que existe un sistema con relaciones lineales Y = 0 + 1 X + 2U + que pueden ser representadas por ese modelo, el anlisis de sendero nos brindar informacin sobre los efectos directos de X y U sobre Y (senderos simples en el diagrama del sistema) y adems efectos indirectos de X sobre Y a travs de U y de U sobre Y a travs de X. El efecto indirecto de una variable X sobre Y va otra variable U se define como py ,x rx ,u , donde los coeficientes py ,x corresponden a los coeficientes estandarizados de la regresin mltiple de Y sobre X y U y rx ,u es el coeficiente de correlacin simple entre X y U. El anlisis de sendero de este sistema involucrando dos variables causales realiza la siguiente diseccin de la correlacin entre Y y X y entre Y y U:
ry ,x = py ,x + py ,u rx ,u ry ,u = py ,x rx ,u + py ,u

Dada una muestra, es posible obtener valores para todos los coeficientes de correlacin involucrado en este sistema de ecuaciones, las incgnitas son siempre igual al nmero de ecuaciones y corresponden a los estimadores de los efectos directos del sistema poblacional. Luego, otra forma de estimar los coeficientes de sendero (path coefficients) es a travs de la resolucin de este sistema de ecuaciones.
91

Objetivo
Estudiar un sistema de correlacin entre variables donde existe una variable output teniendo en cuenta efectos directos e indirectos de las variables input.

Datos
Para realizar un estudio de correlacin a travs de un anlisis de senderos las variables que se quieren correlacionar deben conformar las columnas de la base de datos. Se supone independencia entre casos u observaciones.

Ejemplo
Archivo Ideotipos de Maiz (Anexo). Anlisis de Sendero
Cuadro 37. Anlisis de sendero Men Estadsticas Comando Anlisis de correlacin Opcin Anlisis de sendero (path analysis) Selector de variables Dependiente Rinde Independientes PG NG EI_F EI_Fin ll EUN

92

Cuadro 38. Resultados del Anlisis de sendero


Coeficientes de Sendero (Path Analysis) Variable dependiente: Rinde; n=168 Efecto Va Coeficientes p-valor PG Directa 0.62 PG NG 0.06 PG EI_F 0.01 PG EI_Fll -0.01 PG EUN -2.2E-03 r total 0.67 <0.0001 NG Directa NG PG NG EI_F NG EI_Fll NG EUN r total EI_F Directa EI_F PG EI_F NG EI_F EI_Fll EI_F EUN r total EI_Fll Directa EI_Fll PG EI_Fll NG EI_Fll EI_F EI_Fll EUN r total EUN Directa EUN PG EUN NG EUN EI_F EUN EI_Fll r total 0.74 0.05 0.01 -0.01 -2.7E-03 0.79 <0.0001 0.03 0.16 0.23 -3.1E-03 -4.7E-03 0.41 <0.0001 -0.03 0.28 0.33 2.8E-03 -1.6E-03 0.58

<0.0001

0.02 -0.08 -0.11 -0.01 2.4E-03 -0.17 0.0262

Interpretacin
El rendimiento se correlaciona de manera estadsticamente significativa con las 5 variables independientes incluidas en el anlisis r total, p<0.05). El coeficiente de correlacin general entre Rinde y PG es 0.67, la correlacin directa es 0.62 y el resto es correlacin indirecta i.e. correlacin va las otras variables. Esto indica que la correlacin observada entre Rinde y PG es sobretodo correlacin directa del PG sobre el Rinde. El mismo resultado se observa con NG, la mayor parte de la correlacin se debe al efecto directo de NG sobre Rinde. Mientras que tanto para las eficiencias en la intercepcin de la radiacin (EI_F y EI_Fll) como para la eficiencia de uso del nitrgeno (EUN) la correlacin directa con el
93

rendimiento es muy baja pero como las correlaciones indirectas va NG y PG son relativamente altas se explica la correlacin con el rendimiento. La EUN se relaciona negativamente con el Rinde (r=-0.17) y el camino de dicha correlacin sobretodo es va NG (Cuadro 38).

94

Regresin por Mnimos Cuadrados Parciales


Descripcin
PLS (del ingls, Partial Least Squares) es un mtodo estadstico multivariado relativamente nuevo para el anlisis de ensayos multiambientales. Es una tcnica que generaliza y combina el ACP y el anlisis de Regresin Lineal. Es particularmente til cuando se desea predecir un conjunto de variables dependientes (Y) desde un conjunto (relativamente grande y posiblemente correlacionadas) de variables predictoras (X). El objetivo del mtodo PLS es describir Y a partir de X y su estructura de variacin comn. Cuando hay ms observaciones que variables predoctoras y no existe problema de multicolinealidad, la prediccin de Y en funcin de X puede realizarse eficientemente con un anlisis de regresin lineal mltiple. PLS se usa cuando existe correlacin entre las variables predictoras y/o existen ms predictoras que observaciones. El problema de la estimacin en estos casos podra resolverse combinando linealmente las predictoras con un ACP y luego regresionando Y con un nmero reducido de CP. Pero hay que recordar que las CP explican variacin en X y nada nos dicen sobre la relacin de Y con X. Por el contrario la tcnica PLS busca una solucin ptima o de compromiso entre el objetivo de explicar la mxima variacin en X y encontrar las correlaciones de stas con Y. La tcnica se basa en un re-arreglo de la SVD de la matriz de correlacin entre dos bloques (o matrices) de variables. As, se la SVD se interpreta en relacin a los scores de pares de variables latentes (VL), un elemento del par para cada bloque, tales que los coeficientes de cualquiera de ellas son proporcionales a las capacidad predictiva de la variable correspondiente de un bloque sobre la otra VL.

95

Si llamamos X e Y a los dos bloques de variables y suponemos que el nmero de variables en X es m (X1, X2, ...,Xm) y el nmero de variables en Y es n (Y1, Y2, ...,Yn), es posible construir una matriz R de correlacin tal que su elemento Rij sea la correlacin entre Xi e Yj. Esta matriz no tiene unos en la diagonal y usualmente no es cuadrada. La idea en PLS es obtener un vector de m coeficientes Ai, uno para cada variable en X y un vector de n coeficientes Bj, uno para cada variable en Y, tal que el producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime bien a la matriz R en el sentido mnimo cuadrtico (i.e., minimizando la suma de los trminos (Rij-Ai*Bj)2). Podramos decir que estos coeficientes permiten combinar las variables de cada bloque para explicar la variabilidad debida a la relacin o correlacin entre ambos bloques. En particular en ensayos multi-ambientales, PLS puede ser usado para explicar a partir de un conjunto (relativamente grande y posiblemente correlacionado) de variables relacionadas a los genotipos o a los ambientes, las variaciones debidas a la interaccin genotipo-ambiente. Los resultados de PLS, son presentados a travs de un tri-plot. Nos referimos a tri-plot cuando se dispone de un grfico biplot sobre el que adems se grafican covariables para explicar la asociacin entre los marcadores filas y columnas representados en el biplot.

Objetivos
Descubrir y reportar la naturaleza de la relaciones de variables predictoras con una o varias variables respuesta (i.e., un bloque de variables respuestas).

Datos
Se necesitan I observaciones o casos descriptos por m variables dependientes (bloque de variables Y) y adems n predictores colectados sobre estos I casos en una matriz de datos In (bloque de variables X).
96

La tabla de datos en Info-Gen deber contener I casos y al menos (m+n) columnas

Ejemplo
Base de datos Factores limitantes Soja (Anexo). PLS para explicar la interaccin GE (en la Campaa 01_02) en funcin de las siguientes covariables ambientales: Ra3, %MD, %pi, PrB2t y MO. En esta campaa intervinieron 3 genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades (Cavanagh, Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gmez). Para realizar el PLS entre Y (matriz que contiene trminos de interaccin entre 7 localidades y 3 genotipos) y la matriz X (conteniendo las covariables ambientales antes descriptas), se ejecutaron los siguientes pasos: 1) Obtencin de las matrices Y y X. 2) Implementacin de la rutina SVD para PLS de los datos en X e Y estandarizados. Para obtener X, simplemente se solicit, mediante el men Medidas Resumen, las medias de las covariables por localidad. La tabla de datos resultantes (Cuadro 39) constituye una matriz de covariables de dimensin 75 ya que las 5 covariables ambientales varan con las localidades. Si se desea correlacionar la interaccin GE con covariables genotpicas, la matriz X se construye a partir de las medias de covariables genotpicas por genotipo (matriz de dimensin 3m).
Cuadro 39. Medias de covariables por ambiente (matriz X)
Estadstica descriptiva Localidad Resumen Ra3 Bouquet C.Gmez Cavanagh Maizales Oliveros Rueda Totoras Media Media Media Media Media Media Media %Md MO %pi PrB2t 28.00 14.67 20.00 25.00 31.33 28.67 33.33

493.03 17.00 488.83 0.00

2.87 52.50 3.13 21.67 3.65 37.07 3.07 88.50 2.54 59.07 2.85 35.33 3.55 19.00

548.13 22.00 469.80 31.00 452.43 19.00 368.03 540.47 3.57 0.00

97

Para obtener Y se us el men Anlisis de Interaccin para ajustar un modelo AMMI(2). Como el experimento tiene repeticiones dispuestas segn un diseo completamente aleatorizado, es importante aclarar cul es la variable que contiene el dato de la repeticin, pero no usar esta variable como factor en el modelo (el factor repeticin slo se pone en el modelo si el diseo experimental es en bloques). En el Cuadro 40 se muestran los resultados del ajuste del AMMI para este diseo. Se seleccionaron las localidades como tratamientos ya que slo de sta forma Info-Gen produce una tabla de residuos de dimensin 73 (en caso contrario los residuos son los mismos pero organizados en un tabla 37. Este tipo de matriz Y sera necesaria si se desea predecir la interaccin a partir de covariables genotpicas).
Cuadro 40. Obtencin de matriz Y
Anlisis de la Interaccin Genotipo Ambiente Matriz de residuos analizada por SVD A5520RG A6040RG DM4800RR Bouquet C.Gmez Cavanagh Maizales Oliveros Rueda Totoras Autovalores Lambda Valor 1 276.64 2 184.83 3 0.00 Proporcin 0.60 0.40 0.00 Prop Acum 0.60 1.00 1.00 13.10 -23.86 -2.07 4.06 10.76 -1.99 1.71 -12.85 19.37 -16.70 -1.00

8.56 -10.28 4.93 -21.68 -0.81 3.99 7.92 2.31 17.51 -2.99

Finalmente ambas matrices se usaron para construir una Tabla Nueva como se muestra en el Cuadro 40. En el Cuadro 41 se muestran los comandos para la implementacin de la rutina SVD para PLS y la obtencin del tri-plot (Figura 7) ejecutados sobre esta nueva tabla.

98

Cuadro 41. Tabla de datos necesaria para implantar la tcnica PLS con el propsito de correlacionar una matriz (73) de trminos de interaccin con otra matriz (75) de covariables ambientales.

Localidad A5520RG A6040RG DM4800RR Ra3 %Md MO %pi PrB2t Bouquet 13.10 -23.86 10.76 493.03 17.00 2.87 52.50 28.00 C.Gmez -2.07 4.06 -1.99 488.83 0.00 3.13 21.67 14.67 Cavanagh 8.56 -10.28 1.71 548.13 22.00 3.65 37.07 20.00 Maizales 4.93 7.92 -12.85 469.80 31.00 3.07 88.50 25.00 Oliveros -21.68 2.31 19.37 452.43 19.00 2.54 59.07 31.33 Rueda -0.81 17.51 -16.70 368.03 3.57 2.85 35.33 28.67 Totoras 3.99 -2.99 -1.00 540.47 0.00 3.55 19.00 33.33

Cuadro 42. Anlisis PLS (las columnas de Y deben ir como variables dependientes, mientras que las filas como clasificatorias; las columnas de X como predictoras) Men Estadsticas Comando Anlisis Multivariado Opcin PLS Selector de variables

Variables dependientes
A5520RG A6040RG DM4800RR

Clasificatoria
Localidad Variables predictoras Ra3 %Md MO %pi PrB2t

99

Cuadro 43. PLS y triplot

2.2 DM4800RR 1.1 Oliveros Ra3 PrB2t Bouquet Maizales %Md %pi

Dim: 2

0.0

Totoras Cavanagh A5520RG

-1.1 MO

C.Gmez A6040RG

Rueda

-2.2 -2.2

-1.1

0.0

1.1

2.2

Dim: 1

Figura 7. Tri-plot de la correlacin entre una matriz de interaccin entre 3 genotipos y 7 ambientes versus una matriz de 5 covariables ambientales.

Interpretacin
La interaccin GE se explica en su totalidad a partir de las dos primeras CP, segn lo muestran los autovalores del Cuadro 40. Los scores de genotipos y ambientes para el estudio de interaccin se presentan en la salida, ellos sirven para asociar genotipos con ambientes, pero no para explicar esta asociacin con variables en X, las nuevas variables latentes obtenidas a partir de la tcnica PLS se muestran en la ventana resultados (no presentada aqu). Al correlacionar la matriz de residuos del modelo AMMI(2) con las covariables
100

ambientales, las covariables de mayor inercia sobre el eje 1 del tri-plot resultaron ser Ra3 y MO. Luego las interacciones detectadas en este conjunto de datos, desde el punto de vista ambiental, son principalmente atribuidas a estas dos variables. Valores de Ra3, relativamente altos se registraron en Cavanagh y en Totoras, stos podran explicar el desempeo mejor que tuvo el genotipo A5520RG respecto a los otros en esas localidades. La MO tambin fue relativamente alta en Cavanagh y Totoras y muy baja en Oliveros (correlacin negativa entre el marcador de MO y el de la localidad Oliveros). Las caractersticas de suelo distintas de la MO, no resultaron importantes para explicar las interacciones en esta campaa. El cultivar A6040RG se desempe, relativos a los otros dos cultivares, mejor en Rueda y en Oliveros; la interaccin con Rueda se correlaciona negativamente con Ra3. La segunda dimensin del tri-plot se asocia con las adaptaciones mejores de DM4800 en Oliveros que presenta un menor contenido de MO que los otros sitios.

101

102

Anlisis de Conglomerados
Descripcin
El anlisis de conglomerados es una combinacin de tcnicas o algoritmos matemticos que tienen por objeto la bsqueda de grupos similares, ya sean stos, grupos de genotipos, de ambientes o de los caracteres medidos. En el anlisis de conglomerados no se conoce a priori el grupo de pertenencia de las entidades a agrupar. Cuando se realizan agrupamientos de casos se busca clasificar a los objetos en grupos lo ms homogneos posible en base a todas las variables involucradas. En el anlisis de conglomerados para agrupar casos, si se utiliza una matriz de datos nm (casosvariables), se calcula primero una matriz de distancias (nn) que contiene las interdistancias entre todos los pares de casos y luego sobre esa matriz se aplica un procedimiento de conglomeracin o agrupamiento. Cuando se agrupan variables se busca clasificar a las mismas en funcin de su perfil a travs de todos los casos, luego el algoritmo de conglomeracin trabajar sobre una matriz de interdistancias mm. Para realizar un anlisis de conglomerado, es necesario seleccionar una medida de distancia o proximidad entre los objetos a agrupar y un criterio o algoritmo de agrupamiento (este puede ser jerrquico o no jerrquico). Hay numerosos algoritmos disponibles, entre los jerrquicos, el ms usado es el conocido como UPGMA o encadenamiento promedio que define la distancia entre dos grupos o conglomerados como el promedio de todas las distancias de a pares entre elementos de un grupo y elementos del otro grupo. Entre los no jerrquicos, el ms conocido es el algorimo K-means (Balzarini, 2003). Los resultados del agrupamiento jerrquico se visualizan en un dendrograma. correlacin El dendrograma las resultante en el puede presentarse y las acompaado del coeficiente de correlacin cofentico que mide la entre interdistancias dendrograma interdistancias en la matriz de distancia sobre la que se aplic el
103

procedimiento. Los distintos algoritmos de conglomeracin jerrquica, por ejemplo, el mtodo del vecino ms cercano, el mtodo del vecino ms lejano, el mtodo de encadenamiento promedio o UPGMA y el mtodo de Ward, podran producir agrupamientos diferentes sobre un mismo conjunto de datos. En estos casos, el coeficiente de correlacin cofentica podra utilizarse como criterio de seleccin del algoritmo, i.e. aquel algoritmo con el mayor coeficiente de correlacin cofentica. Respecto a medidas de distancias, es importante seleccionar una que se adecue al tipo de datos (cuantitativo o categoras). Definiremos la distancia entre un objeto denominado i y otro objeto denominado j como dij. Las expresiones dij deben cumplir propiedades para ser consideradas como medidas de distancia entre el par de objetos (i,j), stas son: (i) dij > 0 si ij, (ii) dij = 0 y (iii) dij = dij. Adems, existen propiedades que de cumplirse permiten identificar las distancias como ultra-mtricas. Las distancias ultra-mtricas cumplen las 3 propiedades mencionadas anteriormente y adems la desigualdad triangular, i.e.,
dij d ik + d jk . Estas son recomendadas cuando el objetivo del estudio es

obtener una ordenacin de las observaciones. La distancia ms comn cuando se trabaja con datos cuantitativos viene dada por
d ij =d((i1, i2 ,...,im ),((j1, j2 ,...,jm ))=((i1 -j1 )2 +(i2 -j2 )2 +...+(im -jm )2 )1/2 .

A esta distancia se le llama

distancia Eucldea. Cuando las variables poseen naturaleza binaria, como puede ser el caso de presencia/ausencia de determinadas caractersticas, la distancias eucldea puede no ser apropiada. Al comparar dos objetos, para cada variable binaria, existen cuatro eventos disjuntos posibles: 1) en los dos objetos se observa la presencia de la caracterstica deseada, denotado como evento (1,1); 2) ninguno de los objetos presenta la caracterstica deseada, evento denotado como (0,0); 3) el primer objeto presenta la caracterstica, evento denotado como (1,0) y 4) el primero no presenta la caracterstica pero el segundo si, denotado como evento (0,1), La frecuencia con que ocurre cada uno de estos eventos cuando se comparan dos objetos caracterizados por mltiples
104

variables binarias se denominarn a, b, c, y d segn correspondan a los eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Cuadro 44).
Cuadro 44. Frecuencias de eventos cuando se comparan dos objetos mediante variables binarias.
Muestra 2 Muestra 1 Caracterstica Presente (1) Caracterstica Ausente (0)

Caracterstica Presente (1)

Caracterstica Ausente (0)

a c

b d

Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

Las frecuencia de desacuerdos representados por los eventos (1,0) y (0,1), de co-presencia (1,1) y de co-ausencia (0,0) contienen toda la informacin relevante para la construccin de ndices de similitud entre dos objetos, i.e. los ndices pueden ser expresados como funcin de dichos recuentos. Pueden construirse, distintos ndices de similitud o asociacin variando la importancia relativa (mediante ponderacin) que se le asigna a cada uno de los cuatro eventos antes mencionados. Un ndice de similitud muy utilizado en el caso de variables binarias es el ndice de Jaccard ( a ( a + b + c ) ) que no tienen en cuenta el evento de ausencia simultanea. Este debiera usarse cuando por la naturaleza del problema, se supone que dos objetos son ms parecidos entres s por presencia de una caracterstica que por ausencia. Desde cada ndice de similitud, es posible obtener una medida de distancia. La transformacin
d ij = 1 S ij

, aplicada sobre matrices de similitud

definidas o semidefinidas positivas, asegura la obtencin de una mtrica y por lo tanto es recomendada. Existe un coeficiente de similaridad que permite el tratamiento de diferentes tipos de variables simultaneamente, i.e., variables continuas y discretas como por ejemplo las variables binarias. Fue propuesto por Gower (Gower, 1985) para agrupar objetos caracterizados por distintos tipos de variables:

105

Sij =

W
c =1 p K =1

ijc

Sijc
ijc

donde: Sij = similaridad entre el i-simo y j-simo objeto m = nmero de variables o caractersticas observadas Wijc = ponderacin para la c-sima variable entre el i-simo y j-simo objeto Si la c-sima variable es de tipo binaria o cualitativa, la similitud entre el objeto i y el objeto j para la variable c (Sijc) vale 0 si los datos entre el isimo (xi) y el j-simo objeto son diferentes y vale 1 si son iguales. Para el caso de una variable cuantitativa la similaridad est dada por:
Sijc = 1 xic x jc rc

donde rc es el rango de la variable c.

Objetivo
Formar grupos tal que los elementos de un grupo sean ms parecidos entre s que con los elementos de otro grupo.

Datos
Para realizar un anlisis de conglomerados como mtodo de clasificacin se puede partir desde matrices de datos con los formatos A y B descriptos anteriormente o directamente desde matrices de distancia.

106

Ejemplo
Base de datos Seleccin de genotipos. Garbanzos (Anexo). Anlisis de conglomerados para agrupar genotipos en funcin de las distancias entre ellos obtenidas a partir de todas las variables cuantitativas medidas (i.e., no se incluyeron las variables dicotmicas relacionadas a la incidencia de patologas).
Cuadro 45. Anlisis de conglomerados.
Men Estadsticas Comando Anlisis multivariado Opcin Anlisis de conglomerados Ventana Selector de Variables Variables tamao nmero largo ancho espesor altura INS NBA SBA PSEr larpedu larpedi larest anchoest nfolo larfol anchofol larsem anchsem espsem probu Criterios de clasificacin (opcional) genotipo Ventana Anlisis de conglomerados Solapa Jerrquicos (seleccionar mtodo y distancia)

107

Se construy una matriz de distancia entre genotipos usando la distancia Euclidea (Cuadro 47). Se utiliz el algoritmo encadenamiento promedio (UPGMA) de conglomeracin jerrquica. En la Figura 8 se muestra el dendrograma resultante de comparar la matriz de interdistancias entre genotipos de garbanzo y el algorimto UPGMA.

Cuadro 46. Mtodos y mtricas para el anlisis de conglomerados

108

Cuadro 47. Matriz de distancias eucldeas entre 14 genotipos de garbanzo.


Anlisis de conglomerados Euclidea
41 67 70 75 156 202 240 336 337 507 517 521 522 555 41 67 70 75 156 202 240 336 337 507 517 521 522 555 0,00 6,24 0,00 6,59 4,16 0,00 5,86 5,32 4,60 0,00 6,84 5,32 3,87 5,85 0,00 6,72 5,21 3,75 5,83 3,55 0,00 5,55 4,87 4,26 5,22 4,75 5,54 0,00 4,62 4,45 4,09 5,09 4,36 3,65 4,68 0,00 7,05 4,67 5,23 7,85 6,81 5,90 5,78 5,41 0,00 5,18 6,18 5,84 4,47 5,39 6,03 3,97 5,05 7,90 0,00 4,69 5,40 5,68 4,92 5,67 5,62 5,01 3,43 6,25 4,19 0,00 5,08 4,89 5,02 5,04 4,46 5,08 4,50 3,34 6,10 3,95 2,12 0,00 5,06 4,45 4,62 4,90 4,05 3,73 4,88 3,36 6,24 4,15 3,84 3,39 0,00 13,84 11,94 10,17 13,10 11,46 10,53 10,98 12,42 10,63 12,97 14,03 13,50 12,44 0,00

555 337 67 75 521 517 522 336 507 240 202 156 70 41 0,00 3,34 6,68 10,02 13,36

Distancia

Figura 8. Dendrograma resultante del anlisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclideas.

Interpretacin
Al analizar los dendrogramas, una pregunta muy frecuente es dnde realizar el corte sobre el eje de las abscisas (distancias) para definir el nmero de grupos o conglomerados que subyacen en la base de datos. Existen diferentes criterios de corte, uno frecuentemente utilizado es tomar la distancia que se encuentra a la mitad del rango total de los valores de distancia, en este ejemplo, el 50% de la distancia seria 6,68. Utilizando este criterio de corte el dendrograma
109

indica que el genotipo 555 es muy distinto al resto de los genotipos. Si usamos un criterio de corte del 25% de la distancia (3,34), los genotipos 521 y 517 conformaran un grupo y el resto de los genotipos seran todos diferentes. Debido a la experiencia del mejorador, en este ejemplo se fij como criterio de corte la distancia 5, encontrando que los genotipos 555, 75 y 41 permanecieron separados, mientras que los genotipos 337 y 67 formaron un grupo y los restantes genotipos otro grupo. Muchas veces el nmero de grupos formado depende del conocimiento del problema y de la conveniencia en los anlisis posteriores que pueden realizarse con estos grupos. Para la seleccin del algoritmo ms apropiado para estos datos se realizaron anlisis de conglomerados con los mtodos de encadenamiento completo, encadenamiento promedio (UPGMA) y Ward. En el Cuadro 48 se presentan los coeficientes de correlacin cofenticos obtenidos con los distintos mtodos de conglomeracin sobre la misma matriz de distancias Eucldeas. El algoritmo UPGMA produjo conglomerados ms afines a la estructura subyacente, ya que la correlacin cofentica usando este mtodo de agrupamiento (0.958) fue mayor que la encontrada usando otras tcnicas.
Cuadro 48. Coeficientes de correlacin cofentica obtenidos mediante cuatro algoritmos de conglomeracin sobre una misma matriz de distancias Eucldeas. Mtodo de conglomeracin Encadenamiento Completo (Complete linkage) Promedio (Average linkage) Mtodo de Ward Coeficiente de Correlacin Cofentico 0.936 0.958 0.907

A ttulo ilustrativo tambin se aplic un anlisis de conglomerados (UPGMA) sobre dos matrices de distancia diferentes teniendo en cuenta adems de las variables cuantitativas, las tres variables relacionadas a incidencia de patologas. Para la construccin de una matriz de distancia, se us el ndice de similitud de Gower y la transformacin 1-Sij para obtener distancias a partir de las similitudes. La otra matriz de distancia fue calculada a partir de la mtrica Eucldea. De los coeficientes de correlacin cofentico respectivos se concluye
110

que para este problema, el algortmo UPGMA aplicado sobre la matriz de distnacias Eucldeas reproduce bien la estructura de interdistancias de los genotipos. La pequea diferencia entre ambas matrices de distancias podras deberse al hecho de que la mayora de las variables en este ejemplo son cuantitativas (Figura 9).

555 75 521 517 522 336 507 240 156 202 70 337 67 41 0,00 3,33 6,65 9,98 13,31

555 507 240 75 521 517 336 522 156 202 70 337 67 41 0,00 0,20 0,41 0,61 0,82

Figura 9. Dendrograma resultante del anlisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Eucldeas (izquierda) y sobre la matriz de distancia construida a partir del ndice de similitud de Gower (derecha). Los datos incluyen 21 variables cuantitativas ms tres variables binarias relacionadas a la incidencia de patologas.

111

112

rbol de Clasificacin
Descripcin
Se denominan modelos de rbol porque el mtodo original de presentar los resultados es en forma de rbol binario. Un rbol de clasificacin es un conjunto de reglas determinadas por un procedimiento de ajuste por particiones binarias recursivas, donde un conjunto de datos es sucesivamente particionado. Esta tcnica est relacionada con tcnicas de anlisis de conglomerados divisivos. Inicialmente todos los objetos son considerados como pertenecientes al mismo grupo. El grupo se separa en dos subgrupos a partir de una de las variables regresoras de manera tal que la heterogeneidad, a nivel de la variable dependiente, sea mnima dentro de cada grupo formado. En la construccin de rboles de clasificacin, la medida de heterogeneidad recomendada es la deviance que depende de la heterogeneidad de clases en los grupos formados (i.e. proporcin de elementos de uno y otro grupo dentro del nodo). Los dos grupos (nodos) formados se separaran nuevamente si: (1) hay suficiente heterogeneidad dentro de ellos para producir una nueva particin de observaciones y/o (2) el tamao del nodo (i.e. cantidad de elementos en el grupo) es superior al mnimo establecido para continuar el algoritmo. El proceso se detiene cuando no se cumple una de estas condiciones. En cada instancia de separacin el algoritmo analiza todas las variables regresoras y selecciona, para realizar la particin, aquella que permite conformar grupos ms homogneos dentro y ms heterogneos entre ellos.

Objetivo
Conocer cules son las variables que permiten separar los grupos ms eficientemente y proveer valores umbrales de estas variables que permiten saber si una observacin pertenece a uno u otro nodo.

113

Datos
Se trabaja sobre una matriz n(m+1) de datos, cada uno de los n objetos u casos es caracterizado a travs de m variables cuantitativas. Una columna adicional es usada para indicar el grupo de pertenencia de los objetos (variable dependiente clasificatoria), el cual debe ser conocido a priori. El nmero de elementos por grupo debiera ser mayor al nmero de variables que se consideran en el anlisis.

Ejemplo
Base de datos Calidad de Soja (Anexo). rboles de clasificacin para investigar cul o cules variables climticas permiten separar mejor los ambientes que producen granos de soja con mayor contenido de protenas de aquellos con menor contenido. La identificacin de variables podra ser usado en una futura comparacin para predecir si debe esperarse alto o bajo contenido de protenas en un nuevo ambiente. Se trabaj con una matriz de dimensin 26(30+1), es decir 26 ambientes y 30 variables. Los ambientes fueron clasificados a priori segn la concentracin de protena estuviera por encima o debajo de la mediana. Se pretende identificar cul o cules son las variables climticas con mayor capacidad para clasificar a los ambientes en estos dos grupos. Las columnas de la matriz contienen informacin de variables climticas que podran predecir la calidad del grano antes de la cosecha (bh, tmed, tmax, tmin y rad). El nmero de variables usadas fue 15, ya que para cada variable climtica se utilizaron tres valores mensuales (diciembre, enero y febrero). En la Figura 10 se presenta el rbol de clasificacin obtenido.

114

Cuadro 49. rboles de clasificacin. Men Estadsticas Comando Anlisis multivariado Opcin rboles de clasificacin Ventana Selector de Variables Variable dependiente dependiente Regresoras bh dic bh ene bh feb tmax dic tmin dic rad dic Cuadro 50. Ventana rboles de clasificacin/regresin

Interpretacin
Se observa que de todas las variables climticas utilizadas para este anlisis, la temperatura media de febrero (tmed feb) y el balance hdrico de diciembre (bh dic) son las de mayor potencialidad para diferenciar entre los grupos que se encuentran por encima de la mediana en concentracin de protenas. Valores de tmed feb mayores a 25.3C caracterizan a los ambientes con contenido de protenas mayores a la mediana (del total de ambientes que pertenecan al grupo de contenido de protenas mayores a la mediana, el 100% posea una tme feb>25.3C). La prxima variable usada para identificar ambientes es el
115

balance hdrico de diciembre (bh dic), valores de esta variable menores o iguales a -75.8 mm permite diferenciar entre ambientes con mayor contenido de protena (4/5 20%).
Cuadro 51. Variables y valores umbral de un rbol de clasificacin para predecir la calidad del grano de soja antes de cosecha
rboles de clasificacin/regresin H= Deviance (suma (ni*ln(pi))
Nodo Raz 1 1.1 1.2 1.2.1 1.2.1.1 1.2.1.1.1 1.2.1.1.2 1.2.1.2 1.2.2 2 Formacin tmed feb(<=25,3) bh dic(<=-75,8) bh dic(>-75,8) rad ene(<=25,4) rad dic(<=20,3) bh ene(<=-79,1) bh ene(>-79,1) rad dic(>20,3) rad ene(>25,4) tmed feb(>25,3) Prediccin n mayor menor p(mayor) p(menor) 26 13 13 0,50 0,50 29,77 menor 22 9 13 0,41 0,59 5,00 mayor 5 4 1 0,80 0,20 20,60 menor 17 5 12 0,29 0,71 15,01 menor 15 3 12 0,20 0,80 8,32 mayor 6 3 3 0,50 0,50 0,00 mayor 1 1 0 1,00 0,00 6,73 menor 5 2 3 0,40 0,60 0,00 menor 9 0 9 0,00 1,00 0,00 mayor 2 2 0 1,00 0,00 0,00 mayor 4 4 0 1,00 0,00 H

80%) de los ambientes con menor contenido de protena (1/5

(n=26)

tmed feb(<=25,3; n=22) tmed feb(>25,3; n=4)

bh dic(>-75,8; n=17) bh dic(<=-75,8; n=5)

rad ene(<=25,4; n=15) rad ene(>25,4; n=2) rad dic(<=20,3; n=6) rad dic(>20,3; n=9)

bh ene(<=-79,1; n=1)

bh ene(>-79,1; n=5)

Figura 10. rbol de clasificacin para identificar a travs de variables climticas registradas, antes de la cosecha, ambientes asociados a granos de soja con concentracin de protenas mayor a la mediana.

116

Anlisis Discriminante Lineal


Descripcin
Una funcin discriminante lineal es una combinacin lineal de variables que maximiza la diferencia entre grupos definidos a priori del anlisis. Si g denota el nmero de grupos, es posible construir g-1 funciones discriminantes. La proporcin de variabilidad entre grupos asociada a cada funcin (cuantificada mediante el autovalor asociado a los pesos usados en la construccin de las funciones) permite decidir el nmero de funciones discriminantes lineales que deben examinarse para explicar suficientemente la variabilidad entre grupos. Los valores, denominados pesos estandarizados por los que se pondera la participacin de cada variable en la funcin, permiten identificar las variables con mayor potencialidad para explicar las diferencias entre grupos. Estos pesos se obtienen de la SVD de una matriz conformada a partir de la relacin de la variabilidad entre grupos con la variabilidad dentro de grupos. La o las funciones encontradas pueden ser usadas de forma predictiva para clasificar a un nuevo objeto como miembro de uno u otro grupo de los definidos a priori. Una regla de asignacin comn es asignar el nuevo objeto al grupo con centroide (media de la funcin discriminante en el grupo) ms cercano al valor obtenido al evaluar la funcin discriminante con los datos del nuevo objeto. La tasa de error aparente es la estimacin de la probabilidad de una mala clasificacin, obtenida al clasificar los objetos en los grupos utilizando la funcin discriminante construida. Las tasas de error aparente tienden a subestimar el error, son tiles cuando se disponen de grandes tamao de muestra en cada poblacin. Los resultados del anlisis discriminante lineal, cuando existen 3 o ms grupos. Al menos pueden representarse en un grfico Biplot, para
117

mostrar en un mismo espacio (aquel generado por los dos primeros ejes cannicos o funciones discriminantes) tanto a los objetos como a las variables.

Objetivo
Encontrar una o ms funciones, denominadas funciones discriminantes o ejes cannicos, que combinen linealmente los datos de caractersticas continuas ponderando cada uno de ellos por pesos tales que las diferencias entre grupos sean mximas a nivel de esta o estas funciones. Usar dichas funciones para identificar variables con buena capacidad de discriminacin de grupos y/o clasificar nuevos objetos en los grupos disponibles.

Datos
Se trabaja sobre una matriz n(m+1) de datos, cada uno de los n casos es caracterizado a travs de m variables cuantitativas. Una columna adicional es usada para indicar el grupo de pertenencia de los casos, el cual debe ser conocido a priori. El nmero de elementos por grupo debiera ser mayor al nmero de variables que se consideran en el anlisis.

Ejemplo
Base de datos Calidad de Man (Anexo). Anlisis discriminante para separar tres zonas productoras de man a travs de variables indicadoras de la calidad del grano, como Acidez, porcentaje de materia grasa (MG), ndice de Iodo (IY) y relacin de oleico/linoleico (O/L). Se trabaj con una matriz de dimensin 130(4+1), donde 130 es el nmero de muestras provenientes de alguno de los siguientes tres ambientes: Salta, Centro y Senz Pea. El tamao muestral fue suficiente para realizar este anlisis (i.e. el nmero de elementos por grupo fue mayor al nmero de variables que se consideran en el anlisis). La zona Central estuvo representada por 43 observaciones, la zona Senz Pea por 45
118

observaciones y la zona Salta por 42. Las columnas de la matriz poseen informacin de las m=4 variables que definen la calidad de aceite.
Cuadro 52. Anlisis discriminante.

Men Estadsticas Comando Anlisis multivariado Opcin Anlisis discriminante


Ventana Selector de Variables

Variables Acidez O/L MG IY Criterios de agrupamiento Zonas


Ventana Anlisis de conglomerados Solapa Jerrquicos (seleccionar mtodo y distancia)

Cuadro 53. Ventana de Anlisis discriminante lineal.

119

Cuadro 54. Resultado del Anlisis discriminante lineal.


Anlisis discriminante lineal Prueba de Homogeneidad de Matrices de Covarianzas Grupos N Estadstico gl p-valor 3 130 112,29 20 <0,0001 Autovalores de Inv(E)H Autovalores % % acumulado 33,44 99,21 99,21 0,27 0,79 100,00 Funciones discriminantes cannicas 1 2 Constante 1,77 -7,55 Acidez 10,50 -1,41 O/L 2,83 4,55 IY -0,02 -0,01 MG -0,03 0,02 Funciones discriminantes - datos estandarizadas con la varianzas comunes 1 2 Acidez 0,56 -0,07 O/L 0,50 0,80 IY -1,04 -0,29 MG -0,56 0,51 Centroides en el espacio discriminante Grupo Eje 1 Eje 2 Centro -1,78 -0,71 Saenz Pea -5,71 0,48 Salta 7,94 0,21 Tabla de clasificacin cruzada Grupo Centro Saenz Pea Centro 42 1 Saenz Pea 1 44 Salta 0 0 Total 43 45 Salta 0 0 42 42 Total 43 45 42 130 Error(%) 2,33 2,22 0,00 1,54

Interpretacin
La primera funcin discriminante (FLD) que permite separar la Zona manicera de Salta de la zona Centro y Senz Pea es:
FLD=1.77+10.50*Acidez+2.83* O/L-0.02* IY-0.03* MG

Los pesos estandarizados (Cuadro 55) son utilizados para identificar la o las variables de mayor peso en la discriminacin entre ambos grupos.

120

Cuadro 55. Pesos asignados a 4 variables de calidad en man en la construccin de una FLD para separar las zonas maniceras en funcin de la calidad del grano de man.

Variable Acidez O/L IY MG


1

Pesos1 0.56 0.50 -1.04 -0.56

Pesos estandarizados por la matriz de covarianzas dentro de zona.

Las caractersticas de mayor peso en la diferenciacin entre zonas es el porcentaje de Iodo (IY), este tiene peso negativo, luego se separan valores mayores en la zona de menor promedio para la FLD. El centroide para la zona Centro es de 1.78, para Sanz Pea -5.71 y para Salta de 7.94. La tasa de error aparente (tasa de mala clasificacin) de la funcin es 1.54%. Luego supongamos que tenemos una muestra nueva, es decir un aislamiento que no particip en el anlisis, por lo cual no sabemos a cual de estas zonas tendra ms chance de pertenecer y que los valores de las caractersticas qumicas del grano para esta nueva muestra son 0.56 para Acidez, 1.95 para la relacin O/L, 115 para porcentaje de Iodo (IY) y 46 para porcentaje de MG. El valor de la funcin para esa muestra ser 9.09 y como este es ms prximo a la Zona de Salta que resto se podra concluir que la muestra desconocida tiene ms chance de pertenecer a la Zona manicera de Salta. En este ejemplo, la primera FDL explica un 99.21% de la variabilidad entre grupos (segn muestran los autovalores asociados a cada funcin) y por tanto no tendra sentido examinar la segunda FDL. En la Figura 11 (izquierda) se presenta el grfico de dispersin de las muestras en el espacio discriminante, donde se visualiza que a nivel del Eje Cannico 1 hay una diferencia importante de las muestras procedentes de distintos ambientes, sobre todo de aquella proveniente de Salta. En la Figura 11 (derecha) se presenta un biplot sobre el espacio discriminante donde adems de la variabilidad entre observaciones es posible distinguir tambin las variables con mayor potencial para la clasificacin de observaciones en estas zonas.

121

2,95

Saenz Pea Centro Salta

1,51

Eje Cannico 2

0,07

-1,37

-2,81 -9,38

-4,41

0,56

5,53

10,51

Eje Cannico 1

10,51 Saenz Pea Centro Salta 6,84 MG

O/L

Eje Cannico 2

3,17

-0,51 Acidez IY -4,18 -13,78 -7,71 -1,64 4,43 10,50

Eje Cannico 1

Figura 11. Dispersin de muestras en funcin de dos ejes cannicos que combinan informacin sobre cuatro caractersticas qumicas del grano de man (izquierda) y biplot sobre el espacio discriminante (derecha).

122

ANEXO DESCRIPCIN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS

Base de Datos: Ideotipos de Maz


La base de datos Ideotipos de Maz se gener en el marco de un proyecto de investigacin denominado Identificacin de caracteres ecofisiolgicos asociados a mayor eficiencia en el uso de nitrgeno y en la captacin de energa en maz El objetivo del proyecto fue caracterizar la variabilidad existente en hbridos comerciales respecto a atributos ecofisiolgicos asociados a la eficiencia de uso de N y de la radiacin y su incidencia relativa en la expresin final de tales eficiencias. Las principales instituciones participantes y los representantes de cada una fueron:
Institucin participante E.E.A. Pergamino (Unidad Sede del Proyecto) E.E.A. Oliveros E.E.A. Balcarce E.E.A. Manfredi Investigador responsable Alfredo Cirilo Hugo Pedrol Fernando Andrade Julio Dardanelli Marcelo Cantarero Sergio Luque

En la campaa 2003/2004 se implantaron experimentos en diferentes ambientes de la regin pampeana argentina (Balcarce, Pergamino, Oliveros y Crdoba), con ocho hbridos comerciales de maz provenientes de los criaderos Syngenta Agro S.A., Dow Agrosciences S.A., Nidera Semillas S.A. y Monsanto Argentina S.A.: Dow-Mass462MG, Dow-Mass563MG, Nidera-AX882MG, Nidera-AX890MG, Monsanto-DK682MG, Monsanto-DK752MG, SyngentaNK830MG y Syngenta-NK900MG. Todos los genotipos incluyeron la transformacin transgnica para tolerancia a dao por Diatraea sacchararis. Los hbridos fueron sometidos a dos niveles de oferta nitrogenada edfica (baja=0 kg.ha-1 de fertilizante; alta=250 kg.ha-1 de fertilizante), en condiciones de alta densidad (aprox. 8 pl.m-2), y sin limitaciones hdricas ni de otros nutrientes como P y S. El diseo utilizado fue de parcelas divididas con tres repeticiones en cada localidad. Durante el ciclo del cultivo se determin la fenologa, la biomasa area particionada, el rea foliar, la intercepcin de radiacin fotosintticamente activa, la orientacin espacial de las hojas en el plano vertical y horizontal y la senescencia foliar post-F. En F se determin el
125

contenido de N en lminas y resto de biomasa area, y en madurez en los mismos componentes ms el grano, para determinar la acumulacin y particin de nitrgeno. Se determino el rendimiento en grano y sus componentes. A continuacin se presenta la lista de variables y la abreviatura incluida en el archivo que contiene los datos (Ideotipos de Maz.idb).
2

Variable

Rendimiento (g/m ) Peso de granos (mg) Numero de granos por m2 Materia seca area en F (g m-2) Materia seca area en MF (g m-2) Materia seca area entre F y MF (g m-2) Peso seco de hojas en F (g m-2) Peso seco de hojas en MF (g m-2) ndice de cosecha Absorcin de nitrgeno de E a F (g m-2) Absorcin de nitrgeno desde F a MF (g m-2) rea foliar en F Nitrgeno foliar especifico en F Insercin horizontal entre surco Insercin vertical promedio hojas 1-3 Insercin vertical promedio hojas 4-6 Insercin vertical promedio hojas 7-9 Eficiencia intercepcin de la radiacin en F Eficiencia intercepcin de la radiacin en Fll Numero de hojas verdes en MF PAR interceptado acumulado desde E a F (mj/M2) PAR interceptado acumulado desde F a MF (mj/M2) Eficiencia en el uso de la radiacin desde E a F (g/mj) Eficiencia en el uso de la radiacin de E a F (g/mj) Eficiencia en el uso del Nitrgeno
E= Emergencia F= Floracin MF= Madurez Fisiolgica Fll= Fin de llenado del grano

Abreviatura Rinde PG NG MS1 MS2 MS2-1 PSH1 PSH_MF IC AbsN1 AbsN2 AF_F NFE_F IH_es IV1-3 IV4-6 IV7-9 EI_F EI_Fll #HV_MF IPAR1 IPAR2 RUE1 RUE2 EUN

126

Base de Datos: Factores Limitantes. Soja


La base de datos Factores limitantes. Soja fue generada en el marco de un proyecto de investigacin denominado Factores limitantes del rendimiento y determinantes de su variabilidad en el cultivo de soja en sistemas de siembra directa. El proyecto surgi con la finalidad de fue incrementar y/o estabilizar los rendimientos de soja, en lotes bajo siembra directa y reducir la variabilidad espacial y temporal de los mismos. Las instituciones participantes e investigadores responsables fueron:
Institucin Investigador responsable Marcelo BODRERO Jos ANDRIANI Silvina BACIGALUPPO Guillermo GERSTER Juan Martn ENRRICO Cristina GONZALEZ Diego SANTOS Ricardo MELCHIORI Hugo PELTZER Julio DARDANELLI Alvaro QUIJANO Ricardo MARTIGNONE

EEA OLIVEROS

EEA Paran INTA EEA Manfredi INTA FCA

El ensayo se llev a cabo durante tres campaas (01_02, 02_03, 03_04) en 16 localidades (A. Seco, ArmstrongA, Bouquet, C.Gmez, Carcaraa, Casilda, Cavanagh, EEAOliveros, Las Rosas, Maizales, Oliveros, OliverosB, Rueda, Totoras, TotorasA y TotorasB). Se probaron tres cultivares de soja A5520RG, A6040RG y DM4800RR. Las variables utilizadas en los ejemplos y las abreviaturas incluidas en el archivo Factores Limitantes. Soja.idb se presentan a continuacin:
Variables Rendimiento Nmero de granos Peso de grano Precipitacin acumulada de E a R1 (mm) Precipitacin acumulada de R1 a R5 (mm) Precipitacin acumulada de R5 a R5 (mm) Radiacin acumulada de E a R1 Radiacin acumulada de R1 a R5 Abreviatura Rend NG PG Pr1 Pr2 Pr3 Ra1 Ra2
127

Radiacin acumulada de R5 a R7 Temperatura media de E a R1 (C) Temperatura media de R1 a R5 (C) Temperatura media de R5 a R7 (C) Fotoperodo de E a R1 (hs) Fotoperodo de R1 a R5 (hs) Fotoperodo de R5 a R7 (hs) Agua til inicial (mm) Contenido de materia Orgnica (%) Profundidad del horizonte B textural (cm) M delta (%) Pisos de arado (%) Conductividad hidrulica (cm/seg)
Estados fenolgicos E= Emergencia R1= Floracin R5= Comienzo de llenado de granos R7= Madurez Fisiolgica

Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 AUI MO PrB2t %Md %pi Chid

128

Base de Datos: Seleccin de genotipos. Garbanzo


Carreras (1999) public que se han obtenido lneas de garbanzo que han demostrado buena capacidad productiva y marcada semejanza fenotpica durante la crianza. En su origen compartieron sus progenitores (madre y padre), por ello poseen un estrecho parentesco y altos niveles de homocigosis. El potencial gentico de las mismas les confiere la posibilidad de ser futuras creaciones fitogenticas, por lo cual resulta relevante su diferenciacin genotpica. Para diferenciar un genotipo de otro se utilizan descriptores, caracteres cualitativos y/o cuantitativos. La base de datos facilitada por la Ing. Agr. (MSc) J. Carreras (FCA-UNC) contiene 25 descriptores relacionados con la planta, inflorescencias, fruto, semillas y otros, sobre 12 lneas puras selectas emparentadas y dos testigos. Las semillas empleadas correspondientes a las 12 lneas en seleccin avanzada forman parte del Proyecto Contribucin al Mejoramiento de Garbanzo, con sede en la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Crdoba, fueron identificadas como: 41, 67, 70, 75, 202, 240, 336, 337, 507, 517, 521, 522. Los testigos utilizados fueron el cultivar Chaaritos S-156 y la lnea pura Chaaritos M-6, ambos fueron identificados como 156 y 555 respectivamente. Los descriptores evaluados y sus abreviaciones utilizadas se detallan a continuacin: Variables 1. Caracteres Vegetativos de la planta Altura de planta a cosecha (cm) Altura de insercin de la primera vaina (cm) Nmero de ramificaciones totales Nmero de foliolos por hoja Largo y ancho de foliolos (cm) Largo del Pedicelo Abreviatura altura INS nmero nfolo Larfol anchofol larpedi

129

2. Caracteres de inflorescencia Largo y ancho de estandarte (cm) Largo de pednculo (cm) Nmero de vainas Nmero de semillas por vainas Largo, ancho, espesor y tamao de vainas (cm) 3. Caracteres de la semilla Nmero de semillas Peso de semillas Largo, ancho y espesor de semillas (cm) 4. Otros Incidencia patgeno A Incidencia patgeno B Incidencia patgeno c Contenido de protenas larest anchoest larpedu NBA SBA Largo Ancho Espesor Tamao NSE PSE Larsem Anchosem espsem InsPA InsPB InsPC probru

Las unidades experimentales fueron parcelas de cuatro surcos de cuatro metros de longitud y setenta centmetros de espaciamiento entre surcos, con una densidad de siembra de diez semillas por metro lineal, uniformemente distribuidas. Los ensayos fueron llevados a cabo bajo un diseo en bloques completos al azar, con cuatro repeticiones para los ambientes uno y dos y con tres repeticiones para el ambiente tres.

130

Base de Datos: Ensayos Comparativos de Rendimiento de Poroto


Los datos de rendimiento de poroto rojo moteado (Phaseolus vulgaris L.) provienen de varios ensayos conducido en Repblica Dominicana y Puerto Rico. En los ensayos de Poroto rojo moteado se probaron 30 lneas diferentes: 15 con hbito de crecimiento determinado (nmero de lneas 1-15) y 15 con hbito de crecimiento indeterminado (nmero de lneas 16 al 30) evaluadas en 9 ambientes. Los ambientes se formaron a partir de la combinacin de localidades y fechas de siembra.
Pas Repblica Dominicana Repblica Dominicana Repblica Dominicana Repblica Dominicana Puerto Rico Puerto Rico Puerto Rico Puerto Rico Puerto Rico Localidad San Cristobal Vallejuelo Manoguayabo San Juan de la Maguana Isabela Isabela Isabela Isabela Isabela Fecha de siembra Diciembre 1990 Septiembre 1991 Diciembre 1991 Diciembre 1991 Enero 1990 Octubre 1990 Enero 1991 Octubre 1991 Enero 1992 Nombre SC VJ MG SM IE0 IO0 IE1 IO1 IE2

131

132

Base de Datos: Calidad de soja


La base de datos Calidad de soja fue generada en el marco de un proyecto de investigacin denominado Caracterizacin del germoplasma argentino de soja de alta calidad nutricional a travs de nuevas tecnologas. Con el objetivo de caracterizar la calidad del grano de soja argentino a travs de la evaluacin de la diversidad gentica del germoplasma, la variabilidad de sus cualidades qumicas y sanitarias y la interaccin de los genotipos con los ambientes que definen la regin agro-ecolgica argentina. Las instituciones participantes y los investigadores responsables fueron:
Institucin participante Comisin de Investigaciones Cientficas, Bs As EEA INTA Manfredi EEA INTA Marcos Jurez Investigador responsable Dra. Silvia RESNIK Dra Mara Jos Martinez Ing. Agr. (M. Sc.) Hctor Baigorri Ing. Quim. Martha Cuniberti

Se midi el contenido de protena (%) de granos de soja de 26 procedencias. De cada ambientese obtuvieron registros mensuales, desde diciembre a mayo, de 4 variables climticas: temperatura media (tmed), temperatura mxima (tmax), temperatura mnima (tmin), radiacin (rad) y se estim el balance hdrico (bh) a partir de la diferencia entre la precipitacin acumulada mensual y la evapotranspiracin acumulada mensual.

133

134

Base de Datos: Calidad de man


Se evalu la calidad del grano de man procedente de tres zonas productoras de man de Argentina. Se recolectaron 43 muestras de Senz Pea, 45 de Salta y 42 de la zona Centro. Como variables indicadoras de la calidad del grano se midi Acidez, relacin Oleico/Linoleico (O/L), ndice de Yodo (IY) y porcentaje de Materia Grasa (MG).

135

136

Base de Datos: Ensayos Comparativos de Rendimiento de Man


La fuente de informacin utilizada (cedida gentilmente por el Ing. Agr. (MSc) J. Baldessari), comprende los ensayos comparativos de rendimiento regionales de man de INTA realizados durante 1996/97. Los ensayos se realizaron en 8 localidades, algunas de las cuales por su proximidad y similitud edficaclimtica fueron consideradas como un mismo sitio (Cuadro 56). Fueron evaluados 11 genotipos, 3 de ciclo corto y 8 de ciclo largo (Cuadro 57). En todos los sitios, el diseo experimental usado fue en bloques completos al azar con cuatro repeticiones. Las parcelas experimentales fueron de dos surcos de 10 m de longitud, distanciados 70 cm uno de otro. Para la siembra se utilizaron 15 semillas por metro lineal de surco en promedio. Cada parcela se cosech en su totalidad en forma manual. Los valores de rendimiento analizados corresponden a kilogramos de grano por parcela a humedad constante (8%).
Cuadro 56. Sitios intervinientes en el perodo 1996/97 en los ECR de cultivares del Programa de Mejoramiento de Man de la EEA-Manfredi, INTA.

Sitios Sitio 1 Sitio 2 Sitio 3

Localidades Gral Deheza Gral Cabrera Manfredi El sur San Ambrosio Las Vertientes Reduccin las acequias

Cuadro 57. Genotipos presentes en los ECR de cultivares del Programa de Mejoramiento de Man de la EEA-Manfredi, INTA en la campaa agrcola 1996/97.

Genotipo Manf393 Mf447 Mf480 Florman Mf457 Mf484 Mf485 Mf486 Mf487 Mf489 Tegua

Ciclo 1 Corto Corto Corto Largo Largo Largo Largo Largo Largo Largo Largo

Parentesco Robut 33-1 / NC Ac 2698 Florman / Manfredi Virginia 5 CS 9 / ICGS 5 Seleccin de Florunner Florman / Tachimasari Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Seleccin de Florunner
137

138

Bibliografa Citada
Annicchiarico, P. 2002. Genotype x environment interaction. Challenges and opportunities for plant breeding and cultivar recommndations. Food and Agriculture Organization of the United Nations. ISBN 92-5-104870-3 Arroyo,A., Balzarini,M., Bruno,C., Di Rienzo,J., 2005. rboles de expansin mnimos: ayudas para una mejor interpretacin de ordenaciones en bancos de germoplasma. Interciencia, ISSN 0378-1844 Vol 30 N 9: 550-554. Balzarini M. 2000. Biometrical Models for Predicting Future Performance in Plant Breeding. Thesis Ph.D. Louisiana State University, Baton Rouge, LA, USA, 268 pp. Balzarini M., S.B. Milligan, M.S. Kang. 2001.Best linear unbiased prediction: A mixed model approach in multi-environment trials. In M.S. Kang (ed.) Crop Improvement: Challenges in the 21st Century. pp.102-113. Food Products Press, Binghamton, NY. Balzarini, M. 2003. Introduccin al Anlisis Multivariado. Notas de clases. Maestra en Estadstica Aplicada de la Universidad Nacional de Crdoba. 130 pp Balzarini, M. y Di Rienzo, J. 2004. Info-Gen: Software para anlisis estadstico de datos genticos. Universidad Nacional de Crdoba. Crdoba. Argentina. Becker H.C. 1981. Correlations among some statistical measures of phenotypic stability. Euphytica 30: 835-840. Becker, H. y Len, J. 1998. Stability analysis in plant breeding. Plan Breed 101:1-23. Bernardo R. 1999. Best linear unbiased predictor analysis. En: The genetics and explication of heterosis in Crops. American Society of Agronomy, Crop Science Society of America, Soil Science Society of America, Madison, Wisconsin, pp. 269276. Bindinger, F., Hammer, G. and Muchow, R. 1996. The physiological basis of genotype by environment interaction in crop adaptation. En: M. Cooper & G. L. Hammer, eds. Plant adaptation and crop improvement, p.329-347. Wallingford, UK, CABI. Borlaug, N. E. 2000. Text of speech: http://usinfo.state.gov/topical/global/biotech Bradley, J., Knittle, K. and Troyer, A. 1988. Statisical methods in seed corn product selection. J. Prod. Agric. 1:34-38. Braun, H., Pfeiffer, W. and Pollmer, W. 1996. CIMMYTs approach to breeding for wide adaptation. Euphytica, 92:175:183. Casanoves F. 1996. Interaccin Genotipo-ambiente. Evaluacin simultanea de modelos usados para la evaluacin de genotipos. Tesis de Maestra. Facultad de Agronoma, UBA. 120 pp. Casanoves, F.y Balzarini, M. 2002. Predictores lineales insesgados (BLUP) en ensayos comparativos de rendimiento. Journal or Basic &Applied Genetics 14 (3) pp:55-62. Casanoves F. 2004. Anlisis de ensayos comparativos de rendimiento en mejoramiento vegetal en el marco de los modelos lineales mixtos. Tesis de Doctorado. Facultad de Agronoma, UNC. 144 pp. Casanoves, F., J. Baldessari, and M. Balzarini. Evaluation of multi-environmental trials of peanut (Arachis hypogaea L.) cultivars. 2005a. Crop Sci. 45:18-26. Casanoves F, Macchiavelli R, and Balzarini M. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. 2005b. Crop Sci., 45: 1927-1933
139

Casini C., Dardanelli J., Martinez M., Balzarini, M., Borgogno C., and Nasetta M. 2003. Oil quality and sugar content of peanut (Arachis hypogaea) grown in Argentina. Their relationship with climatic variables and seed yield. Journal of Agricultural and Food Chemistry, American Chemical Society. 51(21) 6309-6313. ISSN. 0021-8561 Casini C., Martnez M.J., Dardanelli, J., Borgogno C., Balzarini M., Nassetta M., Silva C. y Avalis D. 2002. Relacion entre algunos componentes qumicos que caracterizan al man argentino con variables climticas y de cultivo. IDIA XXI, 2 (3) Pp. 168-171 CIMMYT. 1989. Towars the 21st century: CIMMYTs strategy. El Batan, Mexico, CIMMYT. Cornelius, P.L. 1993. Statistical test and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci., 33: 1186-1193. Cornelius, P.L., Seyedsadr, M.S. y Crossa, J.L. 1992. Using the shifted multiplicative model to search for separability in crop cultivar trials. Theor. Appl. Genet., 84: 161172. Cornelius, P.L.Crossa, J. y Seyedsadr, MS. 1996. Statistical test and estimators of multiplicative models for genotype-by-environment interaction. In M.S. Kang y H.G. Gauch, eds. Genotypr-by-environment interaction, p 199-234.Boca Raton, FL, CRC Press. Crossa, J. Cornelius, P.L. y Yan W. 2002. Biplots of Linear-Bilinear Models for Studying Crossover Genotype _ Environment Interaction. Crop Sci. 42:619633. Crossa, J. Cornelius, P.L., Sayre, K. y Ortiz-Monasterio, R.J. 1995. A shifted multiplicative model fision method for grouping environments without cultivar rank change. Crop Sci., 35: 54-62. Crossa, J. Cornelius,P.L. Seyedsadr, M.S. y Byre, P. 1993. A shifted multiplicative model cluster anlisis for grouping environments without cultivar rank change. Theor. Appl. Genet., 85:577-586. Crossa, J. y Cornelius, P.L. 1997. Sites regresion and shifted multiplicative model clustering of cultivar trials sites Ander heterogenety of variantes. Crop Sci., 37: 406415. Dardanelli, J., Balzarini, M, Martnez, M., Cuniberti, M., Resnik, S., Ramunda, F., Herrero, R and Hector Baigorri. Mega-environments for Soybean Seed Oil and Protein Concentrations and Maturity Groups effects in the Argentinean Crop Region. Crop Sci. In press. Dayde J., Lacombe S. 2000. Variation of isoflavone content and composition in soybean seeds and related products. Proceedings of the Third International Soybean Processing and Utilization Conference, Tukuba, Ibaraki, Japan, 55-58. Di Rienzo, J.A.; Guzmn A.W.; Casanoves F. 2001. A Multiple Comparisons Method based on the Distribution of the Root Node Distance of a Binary Tree. Journal of Agricultural, Bioogical, and Environment Statistics, 7 (1): 146-159. Dyke, G., Lana, P. and Jenkyn, J. 1995. Sensitivity (stability) analysis of multiple variety trials, wirh special reference to data expressed as proportions or percentages. Exp. Agric., 31:75:87. Eskridge, K. 1990. Selection of stable cultivars using a segety-first rule. Crop Sci., 30:369-374. Evans, L. 1993. Crop evolution, adaptation, and yield. New York, Cambridge Univ. Press. Gabriel, k. R. 1971. Biplot display of multivariate matrices with application to principal
140

components analysis. Biometrika, 58:453-467. Gauch H.G. Jr. 1988. Model selection and validation for yield trials with interaction. Biometrics 44: 705-715. Gauch, H. G. and Zobel, R. W. 1996. AMMI analysis of yield trials. In M.S. Kang & H.G. Gauch, eds. Genotype-by-environments interaction. p. 85-122. Boca Raton, FL, CRC Press. Gauch, H. G. and Zobel, R. W. 1997. Identifying mega-environments and targeting genotypes. Crop Sci., 37:311-326 Gollob, H.F. 1968. A statistical model with combines features of factor analytic and anlisis of variante technique. Psychometrika, 33: 73-115. Gower, J.C. 1985. Measures of similarity, dissimilarity and distance, p. 397-405. In Kotz, S. and Jonhson N. Ed. Encyclopedia of stastistical science. Vol. 5. Wiley, New York. Kang M.S. 1990. Understanding and utilization of genotype-by-environment interaction in plant breeding. En. Genotype-by-environment interaction in plant breeding. Kang, M.S (ed.) pp.52-68. Kang, M.S. 1998. Using genotype-by-environment interaction for crop cultivar development. Advances in Agronomy 62: 199-252. Kang, M.S. 2002. Genotype-environment interaction: Progress and prospects. Kang M.S. (ed.) CABI Publishing, New York Kang. M. S. y Pham, H. N. 1991. Simultaneous selection for high yielding and stable crop genotypes. Agron. J., 83:161-165. Kang M, Balzarini M and J. Guerra. 2004. Genotype-by-Environment interaction. In A. Saxton (ed.) Genetic Analysis of Complex Traits Using SAS. pp 69-94. BBU Press. SAS Institute, Cary NC. ISSN 1-59047-507-0. Kuehl, Robert O. 2001. Diseo de Experimentos. Principios estadsticos de diseo y anlisis de investigacin. 2 edicin. 666 pp. Thomson Learning. Mxico. Lin, C.S. and Binns, M.R. 1991. Genetic properties of four types of stability parameter. Theor. Appl. Genet., 82:505-509. Lin, C.S. Binns M.R. and Lefkovitch L.P. 1986. Stability analysis: Where do we stand?. Crop Sci., 26: 894-900. Macchiavelli R. and Beaver J. 1999. Analysis of genotype-by-environment interaction with AMMI models using SAS Proc Mixed. Applied Statistics in Agriculture 11: 171183. Piepho H.P. 1998. Methods for comparing the yield stability of croppping systems A review. J. Agron. Crop Sci., 180:193-213. Robinson G.K. 1991. That BLUP is a good thing: The estimation of random effects. Statistical Sciences. 6: 15-21. Schabenberger, O. y Pierce, F. 2002. Contemporary statistical models for the plant and soil sciences. p. 738. Taylor & Francis. CRC Press. Yan W. y Hunt L. A.2002. Biplot Analysis of Diallel Data. Crop Sci. 42:2130. Yan W., Hunt L. A., Sheng Q. and Szlavnics Z. 2000. Cultivar evaluation and megaenvironment investigation based on GGE Biplot. Crop Sci. 40: 597-605. Zobel, R.W., Wright, M.J. y Gauch, H.G. 1988. Statistical analysis of a yield trial. Agron. J., 80: 388-393.

141

Potrebbero piacerti anche