Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Prefacio
La utilizacin cuidadosa de procedimientos de anlisis de datos agronmicos y ambientales es una condicin inherente al desarrollo actual y futuro de investigaciones orientadas a mejorar los cultivos en forma econmica y ambientalmente sustentable. La eficiencia en la generacin de tecnologas de cultivo y en el proceso de adaptacin de stas a las reas de produccin depende del entendimiento de las respuestas de las plantas a los diversos ambientes. Los ensayos multi-ambientales, donde un conjunto de tratamientos (por ejemplo, variedades) se evala en mltiples ambientes, son cruciales para desarrollar el conocimiento cientfico necesario. En particular, los ensayos muti-ambientales de comparacin de rendimientos, son frecuentes en investigaciones agrcolas ya que constituyen una de las principales estrategias para la obtencin de mejores genotipos vegetales y para la identificacin de ambientes donde stos pueden expresarse de manera diferencial. Los ensayos multi-ambientales representan una de las herramientas de investigacin ms potentes para incrementar la productividad y rentabilidad de los cultivos. Ms all de los aportes de centros internacionales a la mejora de cultivos, muchos programas nacionales de mejoramiento y de investigacin agrcola (de gestin pblica y privada) mantienen un rol fundamental en su regin, particularmente en lo concerniente a la explotacin de la adaptacin especfica y a las caractersticas de estabilidad de rendimiento desarrollando alto nivel de conocimiento del germoplasma local, las prcticas de manejo y sus interacciones con los ambientes de la regin. Una pltora de ensayos multi-ambientales comparativos de rendimiento se conducen peridicamente, en cada regin del rea de cultivo de una especie, debido a la omnipresencia de la interaccin genotipoambiente, i.e. respuestas genotpicas diferenciales en diferentes ambientes. Estos ensayos permiten identificar adaptaciones de germoplasma tanto en sentido amplio (a travs de los ambientes) como especfico (para cada ambiente o grupos de ambientes particulares). Conceptos importantes tales como adaptacin especfica,
i
estabilidad, ecotipos, ideotipos y subregiones o mega-ambientes se pueden analizar a partir de la interaccin genotipoambiente. Los ensayos multi-ambientales, no son slo diseados para evaluar genotipos, el inters puede radicar en la comparacin de sistemas de cultivos u otros tratamientos, pero el anlisis de los patrones de interaccin con el ambiente es siempre necesario. Cuando la interaccin es significativa se deben utilizar estrategias de anlisis apropiadas, ya que la comparacin de medias de tratamientos que no considera la variabilidad debida a la interaccin con el ambiente puede ser errnea. Los estudios de interaccin tratamientoambiente, as como la exploracin de los patrones de interaccin a partir de covariables del cultivo y/o los ambientes, proveen valiosa informacin para optimizar la respuesta de los cultivos en los ambientes de inters. Las bases de datos relacionadas a ensayos multi-ambientales son costosas de obtener; la eficiencia en el uso de los recursos destinados a esta tarea puede incrementarse considerablemente a partir de la utilizacin de nuevos mtodos y modelos de anlisis de datos capaces de convertirlos en informacin significativa. En esta publicacin presentamos, a travs de ejemplos, herramientas estadsticas para explorar bases de datos de ensayos multi-ambientales. Los ejemplos se realizan a partir de datos gentilmente puestos a disposicin por investigadores en agricultura. Esperamos que sta publicacin sea de utilidad para mejorar la productividad agrcola en beneficio de la sociedad y el medioambiente y para promover un enfoque interdisciplinario en el diseo y anlisis de ensayos multi-ambientales.
ii
iii
CONTENIDOS
PARTE I.................................................................................................................................................................1 MODELOS CIENTFICOS...................................................................................................................................1 MODELO MATEMTICO .......................................................................................................................................1 MODELO ESTADSTICO........................................................................................................................................2 TRMINOS ASOCIADOS A MODELOS ESTADSTICOS............................................................................................4 INFERENCIA ESTADSTICA ...................................................................................................................................6 PARTE II ...............................................................................................................................................................9 ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA...............................................................................9 INTRODUCCIN ................................................................................................................................................ 11 ENSAYOS COMPARATIVOS MULTI-AMBIENTALES ............................................................................................. 13 GENOTIPO (G) ................................................................................................................................................. 14 AMBIENTE (E) .................................................................................................................................................. 14 INTERACCIN GENOTIPOAMBIENTE (GE)...................................................................................................... 14 ADAPTABILIDAD................................................................................................................................................ 16 MEGA-AMBIENTES............................................................................................................................................ 17 ECOTIPOS E IDEOTIPOS ................................................................................................................................... 18 ESTABILIDAD .................................................................................................................................................... 18 CONFIABILIDAD DEL RENDIMIENTO ................................................................................................................... 21 MODELOS PARA ANLISIS EN ENSAYOS COMPARATIVOS DE RENDIMIENTO ..................................................... 21 ENSAYOS EN LAS PRIMERAS ETAPAS DE EVALUACIN .................................................................................... 25 ENSAYOS EN ETAPAS AVANZADAS DE EVALUACIN ........................................................................................ 26 PARTE III ........................................................................................................................................................... 31 MODELOS Y MTODOS DE ANLISIS EN ENSAYOS MULTI-AMIBIENTALES.................................. 31 ANLISIS DE LA VARIANZA (ANAVA) ............................................................................................................... 33 ANLISIS DE COMPONENTES PRINCIPALES (ACP)........................................................................................... 41 ESTUDIO DE INTERACCIN CON MODELOS DE ANAVA Y ACP......................................................................... 47 Modelo AMMI y Biplots para AMMI(2) y AMMI(1).................................................................................. 49 Modelo SREG y Biplot GGE.................................................................................................................... 55 Modelo GREG y Biplot GEE.................................................................................................................... 61 ACP en el Estudio de Correlaciones Gentica y Ambientalmente Determinadas .............................. 65 ANLISIS DE REGRESIN ................................................................................................................................. 71 ANLISIS DE CORRELACIN LINEAL ................................................................................................................. 87 ANLISIS DE SENDERO (PATH ANALYSIS) ........................................................................................................ 91 REGRESIN POR MNIMOS CUADRADOS PARCIALES ....................................................................................... 95 ANLISIS DE CONGLOMERADOS..................................................................................................................... 103 RBOL DE CLASIFICACIN ............................................................................................................................. 113 ANLISIS DISCRIMINANTE LINEAL ................................................................................................................... 117
ANEXO DESCRIPCIN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS................... 123 Base de Datos: Ideotipos de Maz......................................................................................................... 125 Base de Datos: Factores Limitantes. Soja............................................................................................ 127 Base de Datos: Seleccin de genotipos. Garbanzo ............................................................................ 129 Base de Datos: Ensayos Comparativos de Rendimiento de Poroto.................................................. 131 Base de Datos: Calidad de soja ............................................................................................................ 133 Base de Datos: Calidad de man........................................................................................................... 135 Base de Datos: Ensayos Comparativos de Rendimiento de Man..................................................... 137 BIBLIOGRAFA CITADA .................................................................................................................................... 139
vi
Modelo Matemtico
En investigaciones cientficas se reconocen distintos niveles, uno
observacional-descriptivo, otro cuantitativo donde se ponen nmeros a las obervaciones y otro ms avanzado que podramos llamar nivel predictivo, donde existe conocimiento como para pronosticar eventos futuros. No es posible saltar de la descripcin a la prediccin sin pasar por la etapa de cuantificacin Las bases de datos agrcolas, con observaciones repetidas en el tiempo y/o en el espacio, se tornan cada vez ms ricas (ms variables). La importancia de tener un modelo cuantitativo que ajuste los datos es poder predecir. A medida que nuestro entendimiento de los mecanismos ecolgicos, qumicos, biolgicos y econmicos de los procesos se incrementa existe mayor inters y necesidad en la modelacin de la dinmica que se observa o que se pone en accin mediante la experimentacin. Qu es un modelo cientfico? Un modelo es un instrumento o herramienta para estudiar el fenmeno de inters. Es una abstraccin de la realidad, una simplificacin del proceso bajo estudio realizada para poner de manifiesto aspectos relevantes en la bsqueda de respuestas a preguntas concretas. El modelo es usado para coordinar el conocimiento en un todo coherente, para representar los datos en una estructura slida que los sintetice y que permita visualizar los mecanismos que hay por detrs de stos. La Matemtica es el sistema lgico ms poderoso y universal, por ello no es sorprendente que la mayora de los modelos cientficos sean desarrollados como abstracciones matemticas del fenmeno observado y cuantificado. Los modelos matemticos proveen una estructura lgica y concisa para estudiar sistemas complejos (descubrir patrones, tendencias, relaciones), comunicar hallazgos, realizar predicciones y desarrollar nuevos conocimientos y tecnologas.
No existen modelos buenos, pero existen modelos que son tiles. No hay un modelo que tenga de todo, cada modelo permite abordar algn punto de vista, proporcionado una visin complementaria a la parte experimental. La modelacin cientfica es un proceso iterativo y fundamentalmente interdisciplinario. En esta seccin describiremos algunos aspectos tericos relacionados con la modelacin estadstica, para luego aplicar estas ideas en la bsqueda de modelos para responder preguntas de inters desde ensayos multi-ambientales usando Info-Gen como soporte computacional.
Modelo Estadstico
Un modelo puramente matemtico es un dispositivo mecanstico
(=determinstico) tal que para un conjunto de inputs se predice el output con absoluta certeza (Schabenberger y Pierce, 2002). Un modelo matemtico no deja nada liberado al azar. En particular en Bio-Ciencias, debido a la variabilidad innata de los datos empricos usados para desarrollar y validar el modelo, muchas veces es imposible predecir su output con exactitud. La variabilidad en el output puede provenir de fuentes de variacin sistemticas o aleatorias asociados a los inputs, pero an cuando stas sean reconocidas a priori e incorporadas en el modelo, existe mayor o menor extensin de variabilidad residual debida a: 1) errores de medicin, 2) errores de muestreo (asociados con el mecanismo de observacin) y/o 3) errores experimentales provenientes de heterogeneidades en el material experimental y/o en la aplicacin de tratamientos (variacin biolgica y tecnolgica). El diseo de experimentos con repeticiones es recomendado ya que la replicacin de los tratamientos o condiciones experimentales de inters garantiza que la variacin debida al error experimental pueda ser estimada. La replicacin, en combinacin con la aleatorizacin, permitir obtener estimaciones libres de sesgo.
2
Schabenberger y Pierce (2002) comentan que la inclusin de elementos estocsticos (aleatorios) en un modelo matemtico conduce a modelos ms parsimoniosos y a menudo a abstracciones ms seguras que muchos modelos determinsticos complejos. El modelo estadstico (modelo que incorpora la aleatoriedad) es presentado como un caso especial del modelo estocstico. El modelo estadstico contiene componenetes determinsticas y aleatorias (como los modelos estocsticos) pero asociadas a constantes desconocidas (parmetros) que deben ser estimadas a partir de los datos empricos. Por el contrario, en los modelos estocsticos todos los parmetros son conocidos. Por ejemplo, si modelamos la relacin entre el rendimiento (g/m2) y niveles de fertilizacin nitrogenada (kg/ha) con una funcin polinmica, un modelo matemtico describira la variable output o respuesta (es decir, el rendimiento) como funcin polinmica del nivel de fertilizacin (variable input o explicativa). As la i-sima observacin podra representarse a travs de una polinomial de segundo orden, i.e. Yi =0 +1Xi1+ 2 Xi2 . El modelo estocstico agregara a esta ecuacin un trmino de error aleatorio con alguna distribucin de probabilidad conocida y de media cero. Si los parmetros involucrados en el modelo (por ejemplo los y la varianza de los errores) son desconocidas y deben ser estimados a partir de los datos, diremos que el modelo Yi =0 +1Xi1+ 2 Xi2 + i es un modelo estadstico. Al agregar una desviacin aleatoria, el modelo explcitamente establece que la respuesta tambin es aleatoria, es decir que no puede predecirse con exactitud: La expresin del modelo matemtico (i.e. 0 +1Xi1+ 2 Xi2 ) es el valor esperado o promedio de la variable respuesta en el modelo estadstico. En general buscamos modelos estadsticos parsimoniosos, i.e. no necesitamos ajustar perfectamente cada dato, sino los valores esperados de una respuesta de inters bajo ciertas condiciones (no se espera que el modelo sea correcto para una observacin particular, sino que sea correcto en promedio). Usualmente se
3
necesita realizar omisiones de ciertos datos y suposiciones para abstraer el fenmeno y conseguir un modelo til para el valor esperado o promedio. El modelo estadstico, en general, describe la variabilidad de una o ms variables respuesta, descomponiendo esa variabilidad en fuentes de variacin conocida y desconocida. La calidad de un modelo no es necesariamente funcin de su complejidad o de su tamao, sino que est determinada por su utilidad en un estudio particular o experimento para responder a las preguntas de inters (Schabenberger y Pierce, 2002).
Estos supuestos se sustentan en un esquema de muestreo ideal y en un buen diseo experimental. No siempre se cumplen, por lo que se han desarrollado procesos de estimacin asociados a modelos no lineales para datos no normales, varianzas heterogneas y datos no independientes. Casanoves (2004, 2005b) ilustra aplicaciones de la teora de modelos mixtos para modelar falta de independencia y heterogeneidad de varianzas en modelos lineales para ensayos multi-ambientales. En esta edicin del libro, al usar modelos lineales de ANAVA y RL supondremos que se cumplen los supuestos usuales del muestreo ideal. Como se dijera anteriormente las variables input de estos modelos pueden ser variables de clasificacin (es decir variables que generan categorizaciones o clases de datos) o covariables (variables continuas que podran variar concomitantemente con la variable respuesta). Consideremos un ejemplo para usar los trminos introducidos. Supongamos un ensayo multi-ambiental donde 10 genotipos son sembrados en cada uno de 5 ambientes en un diseo en bloques completos al azar (DBCA) con 3 repeticiones por ambiente. Las clasificaciones de los datos relevados (Rinde) que identifican la fuente de cada dato son llamados factores. Cada clase individual de un factor representa un nivel. Aqu los factores son: Genotipo, Ambiente y Bloque. El factor Genotipo tiene 10 niveles, Ambiente 5 y Bloque 3. As hay 150 casos o filas (1053) en la matriz de datos. Si en cada unidad experimental (UE) o parcela se releva el rendimiento pero tambin la humedad del grano a cosecha, podramos considerar a la humedad como una covariables ya que sta es una variable cuantitativa que vara de parcela a parcela y que posiblemente sus variaciones o expliquen variaciones en el rendimiento. Adems del impacto de factores principales sobre la variabilidad de Y, frecuentemente es necesario estudiar la influencia de la variabilidad inducida por la interaccin de mltiples factores a la variabilidad de la respuesta. Nuevos factores pueden ser compuestos en trminos de los factores principales
5
(Genotipo, Ambiente, Bloque) y de propiedades particulares respecto del fenmeno estudiado. Si A y B son factores principales el factor compuesto A*B se denomina interaccin AB o A cruzado con B cuando cada nivel del factor A se combina con cada nivel del factor B para dar la nueva clase del factor AB. El factor compuesto B>A se denomina anidamiento de A en B cuando todas la unidades experimentales con el mismo valor de A tienen necesariamente el mismo valor de B, y por tanto cualquier variabilidad entre las clases de B contribuyen a la variabilidad entre las clases de A. Si A est anidado en B, los valores de los niveles de A correspondientes a una clase de B pueden diferir de los valores de los niveles de A en otra clases de B. En el ejemplo planteado, el factor Bloque se encuentra anidado en el factor Ambiente. Si bien los valores de los niveles del factor Bloque son 1, 2 y 3 (porque hay tres repeticiones) para todo nivel del factor Ambiente (es decir en todos los ambientes los bloques se numeran como 1, 2 y 3), el 1 para el factor Bloque del Ambiente 1 no tiene nada que ver con el 1 que corresponde al factor Bloque en el Ambiente 2. Postulado el modelo, es necesario estimar sus parmetros. El mtodo ms usado en la estimacin para modelos de efectos fijos es el mtodo de mnimos cuadrados, mediante el cual se realiza una bsqueda de valores para los parmetros de manera tal que las diferencias cuadrticas entre cada dato observado y el valor predicho segn el modelo sea mnima.
Inferencia Estadstica
La inferencia en un modelo estadstico implica no slo la estimacin de los parmetros del modelo sino tambin la determinacin de la precisin de las estimaciones (o errores estndares). Las estimaciones de los parmetros y sus errores estndares son utilizados para contrastar hiptesis referidas a los parmetros desconocidos del modelo. Las pruebas F constituyen la base del contraste de hiptesis. La hiptesis nula, comnmente evaluada para un parmetro del modelo, es aquella que postula que el parmetro es cero.
6
Cuando la hiptesis se rechaza se concluye que el input asociado a ese parmetro es influyente o importante en la explicacin de la variabilidad de Y. El software estadstico expresa los resultados de cada contraste de hiptesis en funcin de valores p o p-values. Los valores p son probabilidades calculadas bajo el supuesto de que la hiptesis nula es verdadera. Ellos miden la probabilidad de observar un resultado experimental al menos tan extremo como el observado en nuestro experimento cuando la hiptesis nula es verdadera. Por ello se rechaza la hiptesis nula (hiptesis que niega la existencia de influencia o que postula la nulidad del parmetro) siempre que el valor p sea pequeo. Como pequeo se debe entender menor o igual al nivel de significacin () definido a priori para el contraste, generalmente, =0.05. Si se rechaza la hiptesis nula y se concluye que existe un efecto significativo (repetible) del input sobre el output.
Introduccin
En marzo de 2000, el premio Nobel Norman Borlaug (Borlaug, 2000) remarc que las investigaciones en agricultura deben orientarse al desarrollo y aplicacin de tecnologas que incrementen, en forma econmica y ambientalmente sustentable, los rendimientos de granos en un 75% en los prximos 25 aos. En respuesta a esta problemtica se desarrollan investigaciones agrcolas que involucran numerosas dimensiones de anlisis; de particular importancia resulta la bsqueda de germoplasma diferencial y de tcnicas de manejo que permitan un mejor uso y conservacin de los recursos involucrados. El aumento sostenido de la produccin agropecuaria est orientando a las investigaciones en agricultura hacia una diversidad de objetivos, que se relacionan tanto a la produccin econmica como a la mayor calidad y tambin hacia la capacidad de adaptacin de las plantas a condiciones ambientales especficas. El mejoramiento de germoplasma diversificado, adaptado especficamente, constituye un importante elemento de polticas de desarrollo hacia una agricultura sustentable. La obtencin de germoplasma de alta calidad, no slo ofrece bio-seguridad, sino que tambin permite generar nichos especiales de mercado. El conocimiento de relaciones entre variables de cantidad y calidad de produccin y su ambiente de cultivo es clave para desarrollar tecnologas de produccin segura y de alto impacto. Es necesario maximizar el potencial agrcola de sistemas de cultivos especficos y minimizar la ocurrencia de eventos desfavorables. La mayora de los caracteres de cultivo de importancia econmica corresponden a caractersticas complejas o polignicas y son tanto gentica como ambientalmente determinados (Dayde, 2000; Casini et al., 2002; Casini et al., 2003, Dardanelli et al., 2005). Dado que las regiones de produccin de los principales cultivos cubren extensas reas ecolgicas con amplio rango longitudinal y latitudinal, se observan importantes variaciones de condiciones climticas (en especial
11
precipitaciones, radiacin y temperatura) y de suelo; stas en interaccin con aquellas debidas a la mejora continua del germoplasma vegetal y de las tecnologas de produccin, provocan respuestas altamente variables. La interaccin genotipoambiente, ofrece posibilidades, especialmente en la seleccin y adopcin de genotipos que muestren interaccin positiva con una localidad y sus condiciones ambientales prevalecientes (exploracin de adaptacin especfica) o de genotipos con baja frecuencia de rendimientos pobres o fracaso del cultivo (exploracin de estabilidad de rendimientos) (Kang, 1990). La presencia de interaccin entre genotipos y ambiente puede ser utilizada para la generacin de nichos ptimos para la obtencin de productos agroalimentarios diferenciales. Su presencia debe ser contemplada en el anlisis de resultados experimentales, desde la generacin de diseos o planes experimentales hasta en el anlisis y elaboracin de recomendaciones. Las decisiones concernientes con las estrategias de mejoramiento del germoplasma y del cultivo de variedades vegetales deben ser basadas sobre un conocimiento cientfico del material vegetal y sus relaciones con los ambientes de cultivo. Por ello existe una inversin sustancial por parte de numerosas organizaciones en la implementacin de ensayos multi-ambientales. Aspectos claves para el anlisis de datos de ensayos multiambientales no slo se relacionan con las suposiciones que se deben realizar respecto a los efectos principales de tratamientos, ambientes e interacciones sino tambin con los supuestos asociados con las componentes de error derivadas de las parcelas y el arreglo experimental que se utiliza a campo para conducir cada ensayo individual. Es importante recordar que los experimentos que involucran repeticiones permiten mejor control y estimacin del error experimental. Sin embargo, aumentar la repeticin espacial y temporal de los ensayos (obteniendo en mejor muestreo de la variacin ambiental) es ms conveniente que aumentar el nmero de rplicas en cada ensayo cuando se trata de experimentos multi-ambientales (Bradley et al., 1988). Si bien los diseos experimentales realizados planificadamente para evaluar genotipos y/o
12
sistemas de cultivos en mltiples ambientes suelen tener un diseo balanceado y con repeticiones dentro de cada ambiente, su elevado costo muchas veces limita el plan experimental a nivel multi-ambiental y a menudo las conclusiones deben extraerse de bases de datos con discontinuidad en el tiempo, con alta dinmica de tratamientos entre ambientes y por tanto altamente desbalanceadas. Interpretar la gran cantidad de datos que se recolectan en ensayos multiambientales ha generado importantes desafos metodolgicos-analticos. Nuevas aproximaciones para el anlisis de datos relacionados a la variacin genotpica o entre tratamientos, ambiental y la interaccin tratamientoambiente han probado ser de utilidad. Pero, dada la multidimensionalidad del problema, el enfoque seguido en la aplicacin de estos mtodos y modelos debe necesariamente ser interdisciplinar. La interaccin entre biometristas con ecofisilogos, mejoradores vegetales, agrometeorlogos, qumicos, fitopatlogos y biotecnlogos, entre otros, es crucial para favorecer la generacin de informacin necesaria para un accionar apropiadamente planificado.
13
Genotipo (G)
Se refiere a un cultivar (i.e., ya sea con material genticamente homogneo, tales como lneas puras y clones o heterogneos tales como poblaciones de polinizacin abierta) ms que al genoma del individuo.
Ambiente (E)
Se relaciona al conjunto de climas, suelos, factores biticos (plagas y enfermedades) y condiciones de manejo en un ensayo individual llevado a cabo en una localidad dada en un ao particular (en el caso de cultivos anuales) o en varios aos (en el caso de cultivos perennes). En ensayos repetidos en el tiempo un ambiente se define a partir de la combinacin de los factores localidad y ao (para anuales) o de la combinacin de los factores localidad y ciclo de cultivo (para perennes) (Annicchiarico, 2002).
variacin entre los genotipos para caracteres morfofiosiolgicos de resistencia (o de escape) a uno ms tipos de stress, o de una alta variacin entre ambientes para la incidencia del mismo o mismos tipos de stress (como los determinados por clima, suelo, factores biticos y de manejo). La estructura gentica del material vegetal puede tambin tener relacin con la magnitud de la interaccin GE. Los tipos de variedades caracterizados por pocos niveles de heterogeneidad (lneas puras, clones, hbridos simples) o heterocigosis (lneas puras) tienden a interactuar con el ambiente ms que los tipos de variedades con comportamiento opuesto (poblaciones de polinizacin abierta, mezclas de lneas puras) porque son menos ricos en genes de adaptabilidad y su estructura gentica los hace ms susceptibles a las variaciones en las condiciones ambientales (Annicchiarico, 2002). La interaccin GE, puede dividirse en dos categoras: 1) interaccin GE con cambio de rango (COI), tambin conocida como interaccin crossover (Cornelius et al., 1996) e interaccin GE sin cambio de rango (NONCOI) o interaccin noncrossover (Figura 1).
35 30 25
35 30 25
rendimiento
20 15 10 5 0 1 2
rendimiento
20 15 10 5 0 1 2
ambiente
genotipo 1 genotipo 2
ambiente
genotipo 1 genotipo 2
15
35 30 25
35 30 25
rendimiento
rendimiento
20 15 10 5 0 1 2
20 15 10 5 0 1 2
ambiente
genotipo 1 genotipo 2
ambiente
genotipo 1 genotipo 2
En el cuadro superior izquierdo de la Figura 1 se presenta una situacin con interaccin GE, hay cambio de rango y las varianzas de los ambientes son similares. En el cuadro superior derecho los genotipos interaccionan con los ambientes pero no hay cambio de rango, las varianzas de los ambientes son diferentes. En el cuadro inferior izquierdo hay interaccin GE sin cambio de rango y las varianzas de los genotipos en los ambientes son distintas. En el cuadro inferior derecho se representan dos genotipos cuya produccin aumenta proporcionalmente con los ambientes, no hay interaccin GE y no hay cambio de rango.
Adaptabilidad
Se refiere a la habilidad del genotipo de tener buen desempeo (por ej. altos rendimientos) con respecto a determinadas condiciones ambientales. La informacin provista por los ensayos multi-ambientales permite evaluar adaptabilidad e identificar el tipo y tamao de la interaccin GE esperada en una regin dada para definir, si es necesario, una estrategia de cultivo exitosa con respecto a los efectos de interaccin. Los efectos de interaccin que son de importancia prctica pueden ser maximizados para el desarrollo de germoplasma especficamente adaptado o minimizados para el desarrollo de
16
material ampliamente adaptado. Cuando el tamao de los efectos de interaccin entre genotipos y localidades (interaccin GE repetible) es pequeo comparado con otras fuentes de variacin en la respuesta, particularmente con la variacin genotpica, se reduce la posibilidad de mejoramiento para adaptacin especfica. Los patrones de adaptacin con respecto a localidades individuales son de limitado inters per se, ya que la muestra de sitios o localidades con la que comnmente se trabaja es muy pequea comparada con el nmero de localidades de la regin en estudio. El mejoramiento gentico especfico, debiera ser dirigido hacia reas o subregiones y en general no es de inters ahondar en los efectos de interaccin positiva de genotipos con localidades particulares. Las estrategias de adaptacin amplia surgen cuando hay baja interaccin entre genotipos y localidades o bien aunque la varianza de interaccin sea grande, no existen ventajas claras de una crianza especfica.
Mega-ambientes
Los sitios que son similares en trminos de respuesta genotpica suelen ser agrupados por diferentes mtodos, y cada grupo puede identificar un rea de cultivo que es relativamente uniforme porque los efectos de la interaccin GL son limitados o despreciables. Tales reas (posibilidad del objeto de mejoramiento especfico) han sido definidas por diferentes autores como subregiones, subzonas, subreas, macro-ambientes o mega-ambientes (CIMMYT, 1989; Yan y Hunt, 2002). La identificacin de mega-ambientes se asocia con la exploracin de los patrones de la interaccin GE repetibles a travs de los aos, e incluso ms all de su connotacin en mejoramiento gentico pueden ser utilizadas desde un punto de vista productivo ya que permiten sealar nichos ambientales propicios para una mayor productividad tanto en cantidad como en calidad. Las subregiones pueden tambin ser definidas para la recomendacin de variedades. Cada subregin entonces coincide con un dominio de recomendacin, agrupando aquellos sitios con el o los genotipos de mejor comportamiento (Gauch y Zobel, 1997). La definicin de subregiones no
17
es geogrficamente exacta. La identificacin de subregiones, an cuando no se pretende mejorar para reas especficas, podra ayudar a localizar sitios de prueba cruciales para seleccin de germoplasma. Las subregiones que son demasiado pequeas para tener inters prctico a veces suelen ser fusionadas con algunas ms grandes.
Ecotipos e Ideotipos
Un ecotipo se asocia con la ocurrencia de adaptacin especfica de individuos o poblaciones de una misma especie a ciertas reas y condiciones ambientales. El ecotipo puede incluir varios genotipos. El concepto de ideotipo vegetal, que constituye una construccin artificial de una planta modelo (aquella que rene atributos deseados) ha sido desarrollado en diferentes especies para incrementar rendimientos bajo condiciones de cultivo favorables. Un ideotipo vegetal es un modelo para el genotipo ideal para una subregin.
Estabilidad
La expresin estabilidad de rendimientos alta se refiere a la habilidad de los genotipos de comportarse consistentemente, ya sea con altos o bajos niveles de rendimiento, a travs de un amplio rango de ambientes. Las medidas de estabilidad pueden ser relativas a diferentes conceptos, estabilidad bajo el concepto esttico (Tipo 1) o bajo el concepto dinmico (Tipo 2) (Becker y Len, 1998; Lin et al., 1986). Desde el concepto esttico, un genotipo se considera estable si posee un desempeo sin cambios ante variaciones de las condiciones ambientales. El trmino sensibilidad ambiental tambin ha sido utilizado en este sentido, donde una gran sensibilidad corresponde a baja estabilidad (Dyke et al., 1995). As, los genotipos estables son aquellos que se comportan similarmente en todos los ambientes en que son probados. Se podra decir que la varianza del rendimiento a travs de los ambientes tiende a cero.
18
Contrariamente, desde el concepto dinmico, un genotipo se considera estable si tiene una respuesta predecible a las variaciones ambientales. Para el caso en que el rendimiento es el carcter en estudio, se espera que un genotipo estable rinda lo estimado o predicho por las condiciones ambientales. Becker (1981) llam a este tipo de estabilidad el concepto agronmico y lo distingui del concepto biolgico, el cual es equivalente al concepto esttico. Lin et al. (1986), publican un resumen de ecuaciones para nueve estadsticos de estabilidad basados ya sea en la desviacin respecto a un efecto de genotipo promedio usando sumas de cuadrados (Grupo A), basados en el trmino de interaccin GE usando sumas de cuadrados (Grupo B), basados la desviacin respecto a un efecto de genotipo promedio o en el trmino de interaccin GE pero usando coeficientes de regresin (Grupo C) y basados la desviacin respecto a un efecto de genotipo promedio o en el trmino de interaccin GE pero usando desviaciones de regresin (Grupo D). La clasificacin dada por Lin et al. (1986) representa tres tipos diferentes de conceptos de estabilidad. Para la estabilidad tipo I, un genotipo es considerado estable si su varianza entre los ambientes es pequea. Este tipo de estabilidad sera anlogo al concepto de homeostasis que Becker (1981) llam estabilidad biolgica. Desde un punto de vista agronmico genotipos con una buena estabilidad tipo I pueden no ser preferidos por presentar bajos rendimientos en ambientes que son altamente productivos para otros cultivares. Obviamente, una respuesta fenotpica de alto rendimiento acompaada de alta estabilidad tipo I es deseable, pero esto puede ser muy difcil de alcanzar en la prctica, razn por la cual frecuentemente se hace necesario evaluar los genotipos desde conceptualizaciones diferentes a la de estabilidad tipo I. La utilidad de la estabilidad tipo I depende del rango de variacin de las condiciones ambientales que se incorporan en un ensayo. Si se trata de experimentos multiambientales, con ambientes muy distintos, los estadsticos de estabilidad de tipo I pueden no ser tan tiles como en ensayos donde se comparan varios genotipos dentro de una regin o a travs de ambientes no muy diferentes.
19
La estabilidad tipo II considera un genotipo estable si su respuesta al ambiente es paralela a la respuesta promedio de todos los genotipos en el ensayo. Este tipo de estabilidad sera anlogo al concepto agronmico dado por Becker (1981). La estabilidad tipo II tiene el inconveniente de tomar valores relativos a los genotipos presentes en el ensayo. Esto dificulta la comparacin de genotipos provenientes de ensayos diferentes, o de genotipos que ao a ao se van incorporando. La seleccin de los genotipos que intervienen en el ensayo debe ser hecha muy cuidadosamente y en funcin del nivel de inferencia que se quiera alcanzar con los resultados. Por ltimo, el concepto de estabilidad tipo III identifica a un genotipo como estable si muestra un cuadrado medio residual pequeo cuando se regresa su respuesta fenotpica sobre ndices ambientales. Breese (1969), sugiri que el trmino estabilidad debiera ser reservado para medir irregularidades no predecibles en la respuesta a los ambientes. As, si al regresar genotipos con ambientes, la variabilidad de la respuesta es subdividida en una parte predecible (debida a la regresin) y en otra no predecible (desvos de la regresin), esta ltima podra servir como medida de estabilidad. El problema es que para regresar la respuesta del genotipo con el ambiente, se construyen ndices ambientales a partir de los promedios de rendimiento de los genotipos presentes en el ensayo, luego el modelo de anlisis es descriptivo y no predictivo. Lin y Binns (1991) definieron el concepto Tipo 4 de estabilidad que est estrictamente relacionado al concepto esttico. La estabilidad Tipo 4 relaciona la consistencia de rendimiento exclusivamente en el tiempo, i.e. a travs de los aos (o ciclos de cultivo) dentro de las localidades, mientras que la estabilidad de Tipo 1 relaciona la consistencia tanto en el tiempo como en el espacio, i.e. a travs de los ambientes pertenecientes al mismo o a diferentes sitios. Desde el punto de vista de los productores, la localidad es un factor constante no variable - y la consistencia del rendimiento a travs del tiempo es el nico componente relevante de la estabilidad de rendimiento de los genotipos. Por
20
esto es tambin importante evaluar la estabilidad del rendimiento con respecto a los efectos de la interaccin genotipo-ao dentro de las localidades. En realidad, la consistencia del rendimiento en el espacio tambin merece consideracin en presencia de interaccin genotipo-localidad significativa, ya que un genotipo seleccionado o recomendado debera ser estable tanto a travs de los aos como a travs de las localidades en su rea de adaptacin o recomendacin (Piepho, 1998). Mejorar por alta estabilidad de rendimiento puede considerarse un objetivo til cuando la variacin en la interaccin GE es grande.
media general; Gi es el efecto (que puede ser considerado como aleatorio o fijo) del genotipo i con i=1,...,g; Ej es el efecto fijo del ambiente j con j=1,,t; B(E)k(j) es el efecto de bloque k dentro del ambiente j; GE(ij) es el efecto aleatorio de la interaccin del genotipo i con el ambiente j; y ijk es el trmino de error aleatorio asociado a la observacin yijk. Cuando se analizan caracteres continuos como el rendimiento, los trminos de error generalmente se suponen distribuidos normalmente con media cero pero la varianza de los errores puede ser constante o no. En numerosas ocasiones resulta apropiado considerar que la variacin residual es heterocedstica (i.e. no constante) a travs de las localidades, ya que ensayos conducidos en diferentes localidades suelen tener, por mltiples razones, diferente precisin. Los ambientes son primariamente definidos segn las localidades intervinientes en el ensayo, pero stos son repetidos a travs de varias campaas agrcolas o aos, y por tanto cada combinacin del factor localidad y el factor campaa puede ser entendida como un nuevo ambiente. Un alternativa de anlisis para estos ensayos repetidos temporalmente es modelar la respuestas de inters para cada ao en forma separada y luego evaluar la consistencia de los patrones de efectos de genotipo y/o interaccin observados a travs de los anlisis por campaa. Si las localidades son las mismas a travs de las campaas se podr observar la persistencia de los agrupamientos de localidades en el tiempo. An cuando exista interaccin con cambio de rango, si la misma refleja cambios de rankings entre cultivares que pertenecen a una misma subregin, se suele inferir la existencia de mega-ambientes. En general las tablas de datos de ECR conducidos en un mismo ao o campaa agrcola son completas. El modelo bsico para datos de ECR provenientes de una misma campaa agrcola es el modelo de ANAVA a dos vas de clasificacin presentado anteriormente donde las localidades constituyen los ambientes. El trmino de interaccin GEij, interaccin del i-simo genotipo en el j-simo ambiente, es estimado desde la tablas de medias de genotipo en cada ambiente como el residuo del modelo
22
aditivo, y ij y i . y . j + y .. . El trmino de error del modelo de medias a travs de los bloques, asociado al i-simo genotipo en el j-simo ambiente es el promedio de los errores asociados a cada genotipo en cada ambiente, ij . Bajo las suposiciones de varianzas residuales constantes, el error estndar para la comparacin de medias de genotipos es igual para todas las comparaciones de a pares entre los genotipos. El modelo se usa para obtener las contribuciones aditivas de genotipo, ambiente e interaccin GE sobre las respuestas. Si la interaccin GE resulta significativa, los ranking de genotipos usando las medias a travs de los ambientes no son recomendados, sino que convienen las comparaciones de genotipo dentro de cada ambiente. El modelo anterior involucra (g-1)(e-1) parmetros de interaccin GE, con e=nmero de ambientes, los cuales no proveen mucha informacin sobre los patrones de la interaccin. Posteriormente se presentarn otros modelos basados en la re-expresin de cada trmino de interaccin en funcin de componentes principales de variacin. Estos modelos permiten explorar ms parsimoniosamente los patrones de interaccin. Cuando los ECR multiambientales se llevan a cabo por ms de una campaa agrcola, el efecto de la campaa puede ser incorporado al modelo:
yijkl = + L j + B(L)
k(j)
donde yijkl es la respuesta (rendimiento) del genotipo i, en la localidad j, bloque k en la campaa l; es la media general; Lj es el efecto de la localidad j con j=1,,s; B(L)k(j) es el efecto del bloque k dentro de la localidad j con k=1,...,n; Cl es el efecto de la campaa l con l=1,,a; Gi es el efecto del genotipo i con i=1,...,g; GL(ij) es el efecto de la interaccin del genotipo i con la localidad j; GC(il) es el efecto de la interaccin del genotipo i con la campaa l; GLC(ijl) es el efecto de la interaccin del genotipo i, la localidad j y la campaa l y ijkl es el trmino de error aleatorio asociado a la observacin yijkl. Este modelo es til para estimar la contribucin relativa de los trminos GC, GL y GCL en la interaccin GE, as como la contribucin de la variabilidad debida a genotipo, ambiente y
23
GE sobre el total de (G+E+GE), donde E representa el efecto del ambiente definido por la combinacin de los niveles de los factores localidad (L) y Campaa (C). Las decisiones respecto a la estabilidad de rendimiento dependen esencialmente de las relaciones entre estos componentes de varianza, las cuales pueden ser estimadas nicamente si los ensayos son repetidos en el tiempo. En particular los componentes de la interaccin GC y GCL, o la componente de la interaccin GC dentro de localidades son relevantes para decisiones en el contexto de una estrategia de adaptacin amplia. El mejoramiento en estabilidad de rendimiento se justifica cuando todos los componentes de varianza relevantes de los efectos GE son relativamente ms grandes que los componentes de la varianza genotpica. Generalmente, en etapas tempranas de la investigacin existe un gran nmero de genotipos experimentales con pocos antecedentes de evaluacin que pueden ser considerados como una coleccin aleatoria del material gentico de inters e interesa la adaptacin general de los mismos a un amplio rango de ambientes. El establecimiento de una estrategia de adaptacin utiliza la respuesta del conjunto de genotipos para obtener indicadores y generar predictores relativos al futuro del material de mejoramiento que puede ser producido desde la base gentica de la que los genotipos evaluados, se considera, conforman una muestra representativa. Por el contrario, en etapas avanzadas de evaluacin, usualmente se trabaja con pocos genotipos altamente selectos y se requieren inferencias expresas sobre ellos (recomendacin de cultivares) y de existir una importante interaccin podra ser posible elaborar estrategias de cultivo para reas determinadas de la regin objetivo. En general, el mejoramiento para adaptacin especfica tiende a implicar grandes ganancias genticas en comparacin con el aumento de costos relativos de una estrategia de adaptacin general. Las ganancias genticas son derivadas de la exploracin de los efectos de interaccin entre genotipos y localidades va caracteres de adaptacin tiles (Bindinger et al.,
24
1996), tanto como del aumento de la heredabilidad del rendimiento como una consecuencia del decrecimiento de la interaccin GE (Kang, 1998).
recomendados para ser usados como predictores del desempeo futuro de cada genotipo ya que ponderan el rendimiento observado en el genotipo por la heredabilidad del carcter y contemplan el desbalance de informacin que puede existir entre los genotipos que se estn comparando (Balzarini, 2000; Casanoves y Balzarini, 2003). El uso del BLUP de genotipos permite ponderar las predicciones sobre genotipos en relacin a la estructura de covarianzas genticas subyacentes. Si se tiene informacin de pedigree o molecular que permita establecer relaciones genticas (covarianzas) entre las lneas comparadas, stas pueden ser incorporadas en la expresin del predictor, incrementando la informacin disponible desde cada evaluacin (Bernardo, 1999).
definieron un mega-ambiente como una fraccin del rea de cultivo de una especie que muestra condiciones ambientales homogneas y que causa que ciertos genotipos se desempeen similarmente. Usando una base de datos de ECR de maz Gauch y Zobel (1997) presentaron la metodologa www o which wins where para identificar mega-ambientes, sta constituye una aproximacin multivariada al estudio de interaccin GE. An cuando las medidas de rendimiento resultan de la suma de efectos de genotipos (G), ambientes (E) y de efectos de interaccin (GE), solamente G y GE parecieran relevantes para recomendacin de cultivares. Yan y Hunt (2002) presentaron la tcnica GGE biplot indicada para la identificacin de megaambientes. La tcnica es derivada de la descomposicin por valor singular (SVD) de la matriz de residuos de un modelo que ajusta los datos slo por los efectos de ambientes, as el patrn de los residuos es usado para explorar simultneamente patrones de variacin en la suma G+GE. Los biplots (Gabriel, 1971) son grficos de dispersin construidos a partir de ejes artificialmente creados (denominados componentes principales o CP) para mostrar los patrones ms relevantes o de menor ruido de una matriz de datos permitiendo visualizar en una misma grfica tanto las filas de la matriz (casos) como las columnas (variables). Estos de se obtienen a partir de la SVD de la matriz de inters. En los GGE biplots la SVD se aplica sobre una matriz conteniendo variaciones debidas a G+GE, esto posibilita visualizar puntos que representan los filas (genotipos) y otros que representan las columnas (ambientes) de la matriz de datos con variaciones debidas a G+GE. Cuando la CP1, Componente Principal de mayor variacin, se correlaciona altamente con las medias de genotipo, se interpreta que las diferencias entre genotipos observados a lo largo de este eje representan respuestas proporcionales de los cultivares a travs de los ambientes. Los cultivares con altos valores de CP1 sern, en todos los ambientes, ms rendidores que los cultivares con bajos valores de la CP1. En estos casos la CP2 generalmente muestra variaciones debidas a GE, es decir
27
respuestas no proporcionales de los genotipos a travs de los ambientes, las cuales son responsables de cambios de orden o ranking de los cultivares a travs de los ambientes (interaccin crossover). As, genotipos con valores altos de CP1 se asocian a una respuesta promedio mayor y a ambientes con altos valores de CP1 y valores de CP2 cercanos a cero facilitan la identificacin de tales genotipos. Las interpretaciones a realizar para este tipo de grficos depende de cada matriz de datos particular, es decir de cunta variacin debida a los efectos G y GE se encuentran representadas por cada eje y por ello no slo es necesario indagar sobre los porcentajes explicados por cada eje, sino tambin por el tipo de variacin contenida en cada uno de ellos. Predecesores de estos biplots son los biplots construidos a partir de un modelo AMMI (del ingls, additive main effects and multiplicative interaction) (Gauch, 1988). El grfico biplot asociado a un modelo AMMI, se obtiene a partir de la descomposicin por valor singular de la matriz de residuos de un modelo que ajusta los datos no slo por los efectos de ambientes sino tambin por los efectos de genotipo. As el patrn de los residuos es usado para explorar patrones puramente atribuibles a los efectos GE. Analizar las correlaciones entre genotipos y ambientes responsables de la interaccin GE es siempre informativo, sin embargo es importante realizar esta interpretacin junto a los niveles promedios de rendimiento. Por ello, los ejes de representacin de ambientes y genotipos obtenidos a partir de un modelo AMMI, usualmente se presentan en combinacin con las medias de los genotipos, evaluando as simultneamente produccin y estabilidad de produccin. Cuando existe informacin adicional sobre variables ambientales (datos climticos, de suelo, etc.) y/o sobre caractersticas de los genotipos o de manejo del cultivo distinta a aquella considerada como variable de respuesta, es posible introducir estos datos en el modelo como covariables. La informacin adicional en cuanto a factores climticos, de suelo, biticos o de manejo de cultivo de las localidades y los caracteres morfofisiolgicos de los genotipos pueden ser
28
pruebas extremadamente valiosas para proporcionar causas de la ocurrencia de interacciones GE, proporcionar promedios para la caracterizacin de las subregiones y extender los resultados a nuevos sitios. Tambin son tiles para aumentar el conjunto de modelos posiblemente adoptados para el anlisis de adaptacin y para identificar caracteres adaptativos y evaluar su potencial como criterio de seleccin indirecto. Adems, la comparacin entre datos climticos de los aos probados con los datos de los sitios a largo plazo puede ayudar a verificar si ocurri algn ao con caractersticas muy inusuales para mejorar la inferencia.
29
33
La diferencia entre el valor observado y el valor ajustado por el modelo se denomina residuo. Ellos son utilizados como herramienta de diagnstico del modelo y para explorar patrones de interaccin con el ambiente en ensayos multi-ambientales muchas veces se ajusta un modelo o se aplica algn mtodo de anlisis sobre los residuos para analizar la tendencia de la variabilidad contenido en los mismos.
Objetivo
Comparar las respuestas promedio de dos o ms tratamientos.
Datos
Para realizar un ANAVA la base de datos debe contener una columna por cada factor de clasificacin y una columna con los valores de la variable respuesta, en las filas se consignan las repeticiones.
Ejemplo
Base de datos Ideotipos de Maz (Anexo). Anlisis de la varianza para evaluar el rendimiento en funcin de ocho hbridos y siete ambientes. Los ambientes surgieron como la combinacin de las localidades y la presencia o ausencia de fertilizacin nitrogenada en tres bloques o repeticiones (cada hbrido fue repetido en cada ambiente). Debido a la combinacin de la estructura de tratamientos y de las unidades experimentales, se ajust un modelo de ANAVA para un diseo factorial con las repeticiones anidadas dentro del factor ambiente, ya que los bloques dentro de un ambiente son diferentes a los bloques dentro de otro ambiente. Modelo: Rinde=+Hbrido+Ambiente+Ambiente>rep+Hbrido*Ambiente+ donde, Rinde es la variable respuesta, es la media general del Rinde, Hbrido es el efecto debido al hbrido, Ambiente es el efecto debido al ambiente, Ambiente>rep es el efecto de las repeticiones dentro de cada ambiente, Hbrido*Ambiente es el efecto de la interaccin entre los efectos de genotipo y
34
La sentencia Ambiente\Ambiente>rep indica que para evaluar el efecto de Ambiente debe utilizarse como trmino de error (expresin Ambiente>rep que sigue a \) es decir la variacin entre repeticin dentro de un ambiente (Ambiente>rep) es la variacin de referencia para comparar la variacin debida a los Ambientes. La sentencia Hibrido*Ambiente permite evaluar la interaccin, i.e., evaluar si las diferencias entre hbridos son las mismas en cada ambiente.
Cuadro 2. Resultado del modelo factorial con repeticiones anidadas en ambientes.
Anlisis de la varianza Variable Rinde N 168 R R Aj 0,90 0,83 CV 9,44 F 12,82 13,34 6,86 8,37 1,16 p-valor (Error) <0,0001 <0,0001 (Ambiente>rep) <0,0001 <0,0001 0,2760
Cuadro de Anlisis de la Varianza (SC tipo I) F.V. SC gl CM Modelo 13291130,77 69 192625,08 Ambiente 10076605,28 6 1679434,21 Hibrido 722276,54 7 103182,36 Ambiente>rep 1762279,96 14 125877,14 Hibrido*Ambiente 729968,99 42 17380,21 Error 1472991,50 98 15030,53 Total 14764122,28 167
35
Interpretacin
La significancia del trmino de interaccin, debe interpretarse antes de evaluar la significancia de los efectos principales de cada factor. Para este ejemplo, no hay interaccin estadsticamente significativa entre ambientes e hbridos, indicando que las diferencias en el rendimiento promedio entre los hbridos evaluados se mantuvieron a travs de los diferentes ambientes. Adems, se detectaron diferencias estadsticamente significativas entre los ambientes (p<0.0001) y entre los hbridos (p<0.0001). Para detectar las diferencias (estadsticamente significativas) entre pares de ambientes y de hbridos a nivel del Rinde promedio, se realizaron pruebas de comparacin mltiple a posteriori repitiendo el procedimiento del Cuadro 3 se accedi a la solapa Comparaciones para pedir la prueba LSD de Fisher. Se sigui el mismo procedimiento seleccionando la opcin de comparaciones mltiples DGC, en una segunda implementacin del anlisis para poner de manifiesto algunas diferencias entre estas dos tcnicas de comparaciones mltiples.
Cuadro 3. Comparaciones Mltiples de a pares
36
El programa ordena automticamente las medias de cada nivel en orden ascendente, colocando letras diferentes a los niveles del factor en estudio que muestran diferencias estadsticamente significativas para el nivel de significacin () fijado por el experimentador (en este caso =0.05). Con la prueba LSD de Fisher, tanto para las medias de ambientes como para las de hbridos, hay superposicin de letras diferentes, dificultando su interpretacin, sin embargo la prueba LSD permite concluir que los ambientes que presentaron un mayor rendimiento promedio se asocian en general con las localidades que recibieron fertilizacin nitrogenada (BN, ON, CN y PN) y que el hbrido 2 presenta menor rendimiento promedio que los hbridos 5, 3 y 8 que son de alto Rinde pero que no difieren en promedio de lo hbridos 4 y 7. Usando DGC tambin se puede concluir que las localidades que recibieron fertilizacin nitrogenada se asociaron con los mayores rindes y que se diferencian del resto de las localidades. Entre las localidades que no recibieron fertilizacin nitrogenada (P, O y C), P fue la que present menor rendimiento promedio. En la comparacin de los hbridos, surge que el 2 es el de menor rendimiento medio, hay un grupo de hbridos con rendimiento promedio intermedio (1, 6 y 7) y un grupo de alto rendimiento medio (3, 4, 5 y 8). La prueba DGC constituye un mtodo particionante (sin solapamiento de letras entre las medias) que es recomendable para comparar muchas medias, digamos 5 o ms (Di Rienzo et al., 2001).
37
La manera resumida y clara de presentar los resultados de este anlisis es a travs de grficos. En la Fig. 2 se presentan los valores de rendimiento
38
para cada ambiente (media EE) (izquierda) y para cada hbrido (media EE) (derecha). Adems se presentan las letras resultantes de la prueba de comparaciones mltiples DGC.
1650
c c
1500
c
1400
1470
c b b b
Rinde (g/m2)
Rinde (g/m2)
1290
1300
a
1200
1110
930
1100
750 P O C BN ON CN PN
1000 2 6 1 7 4 8 3 5
Ambiente
Hibrido
Figura 2. Rendimiento promedio y error estndar para cada ambiente (izquierda) y para cada hbrido (derecha). Letras distintas indican diferencias estadsticamente significativas (p<0.05), prueba de comparaciones mltiples DCG.
39
Objetivo
Explicar la variabilidad de los casos en estudio con respecto a todas las variables intervinientes.
41
Datos
Para realizar un Anlisis de Componentes Principales se puede partir desde bases de datos donde las filas representan los casos en estudio y las columnas las distintas variables medidas sobre cada caso (formato A). Tambin puede realizarse desde bases de datos donde las filas sean los caracteres medidos (variables) y las columnas los casos (formato B). El ACP puede realizarse sobre datos estandarizados o no. Se recomienda estandarizar los datos cuando las variables no son conmensurables (medidas en diferentes escalas) y/o tienen varianzas de magnitudes muy distinta.
42
Interpretar similaridades/disimilaridades entre casos en funcin de las distancias entre proyecciones sobre la CP1. 2.2. Analizar las proyecciones de los puntos que representan las variables sobre la CP1. Identificar las variables de mayor inercia. Interpretar correlaciones entre variables segn los ngulos de los vectores que los representan. ngulos agudos indican correlaciones positivas, ngulos obtusos corresponden a correlaciones negativas y ngulos rectos indican que no hay correlacin entre las variables. Nota: La longitud de los vectores correspondientes a las variables no son de inters cuando los datos han sido previamente estandarizados. Si no se estandarizan los datos, las longitudes de los vectores son proporcionales a las varianzas de las variables. 2.3. Interpretar correlaciones entre casos y variables en funcin de la orientacin, pero no de la cercana entre puntos, i.e. las variables orientadas hacia la derecha tendrn altos valores en los casos orientados en la misma direccin y las variables orientadas hacia la izquierda tendrn altos valores en los casos orientados hacia la izquierda. 3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un procedimiento anlogo al realizado para la CP1 pero teniendo en cuenta que las variables en esta dimensin son de menor importancia que los realizados sobre la CP1 segn indican los porcentajes de variabilidad total explicados por cada CP.
Ejemplo
Archivo Ideotipos de Maz (Anexo). El objetivo del anlisis es estudiar las correlaciones entre las variables Rinde, PG, NG, EIRFL, EIRfinLL, IVH1-3, IVH4-8, IVH7-9 y EUN y describir la variabilidad entre los casos que han sido definidos por la combinacin de ambiente y genotipo. Se aplic un ACP sobre la
43
44
4 PN:8 PN:6 2 Rinde PN:5 NG EI_F PN:4 IV7-9 PN:2 PN:3 PN:1 IV1-3 IV4-6 O:6 PG BN:4 CN:7 BN:2 BN:5 C:7 ON:5 C:5 EUN BN:6 O:3 O:8 P:7 P:3 P:5 P:1 P:4 P:8 P:6
CP 2 (20.5%)
O:4 O:1
-2
BN:7
-4 -4 -2 0 2 4
CP 1 (43.3%)
Figura 3. Biplot segn el plano conformado por las dos primeras componentes principales (CP1 y CP2). Los puntos representan los casos (combinacin de hbridos-ambientes) y los vectores las variables. Se han identificado los casos marginales o aquellos con mayor inercia sobre cada eje.
Interpretacin
El 63.8% de la variabilidad total en el conjunto de casos es explicado por el primer plano factorial (CP1 y CP2). A nivel de la CP1, que es la componente que explica por s sola el 43,3% de la variabilidad total, los casos correspondientes a situaciones donde se aplic fertilizacin nitrogenada (BN, PN, CN y ON) se separan de los casos sin nitrgeno. Con el trmino separar se desea indicar que al realizar las proyecciones de los casos sobre la CP1, los valores correspondientes a BN, PN, CN y ON quedan con signos negativos, mientras que las proyecciones de O y P poseen valores de signos positivos (Figura 3).
45
Los casos con mayor inercia, i.e., los casos cuyas proyecciones se encuentran ms distantes del cero, son los casos ms representativos de la variabilidad total. Por ejemplo, se manifiestan mayores diferencias entre P respecto de BN y CN. Las variables con mayor inercia hacia la derecha son IV4-6 e IV1-3 y hacia la izquierda Rinde, EI_Fll y PG. Dado que el ngulo entre IV4-6 e IV1-3 es agudo y muy cerrado, suponemos que estas variables estn positiva y altamente correlacionadas, mientras que no se correlacionan con EUN, ya que los vectores que las representan forman un ngulo recto, y se encuentran correlacionadas negativamente con Rinde y PG (ngulo obtuso). Por otro lado, el Rinde, PG, NG, EI_F y EI_Fll fueron las variables que presentaron valores ms altos en los casos posicionados sobre la izquierda del Biplot (fertilizados), mientras que IVH1-3, IVH4-8, IVH7-9 y EUN presentaron los valores ms altos en los casos posicionados a la derecha del Biplot (casos sin fertilizacin nitrogenada). La CP2 permite diferenciar localidades dentro de los casos donde se aplic fertilizacin nitrogenada, ya que PN se separa de BN. Los casos correspondientes a CN presentan proyecciones sobre la CP2 cercanas al cero, indicando que estos casos poseen poca inercia. A nivel de la CP2, las variables con mayor inercia son EUN e IV7-9 siendo las responsables de la variacin observada en esta componente. Estas son interpretaciones puramente estadsticas, tienen por objeto recomendar un procedimiento de lectura de los Biplt. Para que esta tcnica de visualizacin de variaciones y asociaciones tenga impacto en la bsqueda de conocimiento es necesario interpretar los resultados en el contexto y conocimiento a priori del problema agronmico.
46
n =1
n ni
interaccin GE, compuesta por el parmetro de interaccin del j-simo ambiente, denotado por nj , del i-simo genotipo para la misma componente o eje, denotado por ni y el autovalor (medida de variacin) asociado al eje y denotado por n. El parmetro ij representa la porcin del ij-simo trmino de interaccin GE no explicado por el modelo
47
multiplicativo y ij es el trmino de error aleatorio. El trmino ni puede ser interpretado como sensibilidad genotpica a los factores ambientales latentes, los cuales son representados por nj en el j-simo ambiente. La estimacin de los parmetros de interaccin GE en un modelo linealbilineal de efectos fijos y para tablas de datos balanceadas se hace por medio de la descomposicin por valor singular (SVD) de una matriz Z, que contiene los residuos del modelo aditivo luego de ajustar por mnimos cuadrados el modelo de efectos principales que contiene los efectos que se quieren descontar. El cociente entre la suma de los n primeros valores singulares y la suma de todos los valores singulares representa la proporcin de la variabilidad total en Z explicada por las n primeras componentes (CP1 a la CPn). Las componentes obtenidas a partir de los autovectores de la SVD de Z son ordenadas de mayor a menor en funcin a los autovalores asociados. La SVD de Z, provee los autovectores que contienen los scores de genotipos y ambientes respectivamente. Generalmente los dos primeros trminos multiplicativos son suficientes para explicar los patrones de interaccin; la variabilidad remanente se interpreta como ruido. Para la interpretacin de los patrones e interaccin GE, los scores de genotipos y ambientes del trmino de interaccin de un modelo lineal-bilineal son generalmente visualizados por medio de grficos biplot (Gabriel, 1971) para identificar los genotipos y ambientes ms importantes para explicar los patrones de variacin contenidos en los residuos que se analizan.
48
AMMI(2),...,AMMI(n)
dependiendo
componentes
principales usadas para modelar la interaccin. Existen pruebas estadsticas que pueden implementarse para la seleccin del mejor modelo (Macchiavelli y Beaver, 1999). Una manera de seleccionar el modelo (es decir, seleccionar el nmero de CPs que se usarn), que puede no ser la ms eficiente pero s la ms sencilla y rpida, es observando el porcentaje de variacin en la tabla de residuos explicada por cada componente. Se debiera seleccionar un nmero de componentes tal que se explique un alto porcentaje de la variacin de inters (en este caso la variacin debida a la interaccin). El porcentaje acumulado de variacin explicada por las componentes seleccionadas debiera ser similar al porcentaje de variacin explicada por la interaccin respecto al error que acus la tabla de ANAVA de un modelo completo, i.e un modelo conteniendo los trminos de genotipo, ambiente, interaccin y error. Para explorar la interaccin a partir de un modelo AMMI es necesario primero ajustar un modelo de Anlisis de la Varianza con efectos de genotipo y de ambiente (sin la interaccin). Luego realizar un Anlisis de
49
Componentes Principales sobre los residuos de ese modelo aditivo. De esta manera el residuo obtenido para cada observacin (o el promedio de los residuos para las repeticiones de una combinacin genotipoambiente) contiene adems de una medida del error experimental el efecto de la interaccin GE. El ACP es aplicado sobre esta matriz de residuos para rescatar las principales componentes de variacin que se espera se relacionen con algn patrn sistemtico debido a la interaccin y separar aquellas componentes asociadas a alguna seal de las ltimas que muy probablemente se asocien a la variacin debido al ruido o error aleatorio. Ambos anlisis son aplicados automticamente cuando se solicita un anlisis de interaccin en Info-Gen y se especifica correctamente los trminos del modelo de ANAVA a ajustar en la primera etapa.
Objetivo
Estudiar la interaccin GE, es decir identificar comportamientos diferenciales (alejados de los esperados bajo un modelo aditivo) de los genotipos a travs de los distintos ambientes.
Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo AMMI debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.
50
Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo). Anlisis de Interaccin Genotipo*Ambiente, modelo AMMI.
Cuadro 8. Modelo AMMI usando Info-Gen. Men Mejoramiento Comando Anlisis de Interaccin Ventana Selector de Variables Variable dependiente Rinde Criterio de Clasificacin Lneas Ambientes
51
Cuadro 10. Grficos Biplot asociado al modelo AMMI(2) (arriba) y AMMI(1) (abajo)
2.30
IO0
1.22
12 13 9 VJ SM IE0 11 SC 7 29 28 IE1
19 16
22
CP 2 (17.8%)
15 0.15 14 5 1 10 -0.93 6
30 21 18 17 26 IO1
2 8
MG
25 24 3 20 4
27 IE2
23
-2.00 -2.00
-1.00
0.00
1.00
2.00
CP 1 (55.3%)
MG
SM L7
L14
Scores CP1
L3 L13 L18
L24
L29
L23 IE1
L26
IO0 L30
-0.25
IE2
2.0
Rinde medio
52
Interpretacin
En estos datos el rendimiento promedio mostr un amplio rango, de 0.4 a ms de 3 ton.ha-1, con las lneas determinadas siendo en general de menor rinde que las indeterminadas. Del ANAVA completo se deduce que la varianza debida a la interaccin GE tiene una magnitud de aproximadamente el 50% de aquella debida al error. Las dos primeras componentes principales explican el 73.1% de la variabilidad en la tabla de residuos y por tanto se puede suponer que ellas son suficientes para explicar los patrones debidos a la interaccin; se decidi trabajar con un modelo AMMI(2). Tambin se graficaron las lneas de regresin para ambos tipos de genotipos (determinados y no determinados) construidas a partir de la relacin entre las respuestas centradas (yij.- y) versus los efectos de ambiente (y.j.- y) para cada genotipo (anlisis no mostrado). Se observ que estas rectas de regresin presentaban pendientes diferentes; este es un buen indicador de la existencia de efectos multiplicativos que pueden ser explicados a travs del modelo AMMI. Al menos parte de la interaccin debe ser explicada por el hbito de crecimiento debido al cruce observado de las rectas de regresin. Este tipo de anlisis suele ser til antes de proceder a analizar el biplot relacionado al modelo AMMI. Se presentaron dos biplots, uno construido a partir de las dos primeras componentes principales y otro construido a partir de la CP1 y los rendimientos medios (por lnea y por ambiente), algunas veces este ltimo grfico es referido como AMMI(1). La primera componente principal (CP1), claramente indica que el aspecto ms importante de la interaccin GE puede ser explicado por el hbito de crecimiento: esencialmente, todos los genotipos con crecimiento indeterminado (numerados del 16 al 30) tienen scores o valores positivos de la CP1, mientras que la mayora de los genotipos con crecimiento determinado tienen scores negativos. Debido a los efectos multiplicativos usados en el modelo, un ambiente dado va a manifestar efectos opuestos para lneas determinadas respecto a los manifestados para lneas indeterminadas. Los ambientes IE1, IE2, IO0 y IO1
53
(todas fechas de plantacin en Puerto Rico, excepto enero 1990) tendieron a asociarse o mostrar correlacin positiva con lneas indeterminadas, mientras que los ambientes IE0, MG, SC, SM y VJ parecieran estar positivamente correlacionados con lneas de hbito de crecimiento determinado. La CP2 diferencia lneas en funcin de la correlacin de los trminos de interaccin con el ambiente IO0. Los ambientes IO1 y MG son extremos en el rango de variacin de la CP1 y por tanto concluimos que ellos contribuyen ms en explicar los patrones de interaccin GE, es decir los cambios ms importantes en las diferencias entre genotipos son observados en estos ambientes. El biplot del AMMI(1) sugiere que los genotipos L24 y L29 exhiben un comportamiento ms predecible (mayor estabilidad) entre aquellos genotipos de alto rendimiento. Ellos son buenos candidatos, entre las lneas indeterminadas, para los ambientes IE1, IE2, IO0 y IO1. El genotipo L3 mostr el mismo comportamiento entre las lneas determinadas. El genotipo L14 es tambin una lnea de alto rendimiento entre las determinadas y a la vez un importante contribuyente a la interaccin GE.
54
donde y ij es el rendimiento medio del genotipo i en el ambiente j, y j es la media de los genotipos en el ambiente j, 1 y 2 son los autovalores para la CP1 y CP2 respectivamente, i 1 y i 2 son los scores del genotipo i en la CP1 y CP2 respectivamente, j 1 y j 2 son los scores del ambiente j en la CP1 y CP2 respectivamente y ij es el trmino residual asociado a la observacin promedio del genotipo i en el ambiente j centrado por el efecto del ambiente j. El modelo es escalado para asegurar que la CP1 y la CP2 tengan las mismas unidades. El mtodo de escalamiento consiste en tomar la raz cuadrada de la variable en su escala original
1/ 1/ 1/ 1/ y ij y j = 1 2 i 11 2 j 1 + 2 2 i 2 2 2 j 2 + ij .
55
Yan et al. (2000) sealan que usualmente la CP1 representa respuestas de los cultivares que son proporcionales a travs de los ambientes las cuales se asocian con la interaccin GE sin cambio de rango, mientras que la CP2 representa respuesta de los cultivares no proporcionales a travs de los ambientes, es decir aquellas responsables de la interaccin GE con cambio de rango. Si existe una alta correlacin entre las medias de los genotipos y la CP1 podra interpretarse el GGE biplot de acuerdo a las sugerencias dada por Yan et al (2000), es decir los cultivares con scores CP1 altos se interpretan como aquellos que tienden a tener mayores rendimientos y los ambientes con CP1 altos y CP2 cercanos a cero con los ambientes que facilitan la identificacin de dichos cultivares. Para explorar la interaccin a partir de un modelo SREG es necesario primero ajustar un modelo de Anlisis de la Varianza con efectos de ambiente (sin efectos de genotipo ni interaccin). Luego realizar un Anlisis de Componentes Principales sobre los residuos del modelo ajustado. De esta manera el residuo obtenido para cada observacin (o el promedio de los residuos para las repeticiones de una combinacin genotipo-ambiente) contiene adems de una medida del error experimental el efecto de genotipo (G) y el de la interaccin GE. El ACP es aplicado sobre esta matriz de residuos para rescatar las principales componentes de variacin que se espera se relacionen con algn patrn sistemtico debido a la suma G+GE y separar aquellas componentes asociadas que no muestran patrn sino ruido. Ambos anlisis son aplicados automticamente cuando se solicita un anlisis de interaccin en Info-Gen y se especifica correctamente los trminos del modelo de ANAVA a ajustar en la primera etapa.
56
Objetivo
Identificar mega-ambientes y genotipos ganadores en cada megaambiente.
Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo SREG debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.
Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Man (Anexo). Modelo GGE.
Cuadro 11. Modelo GGE Men Mejoramiento Comando Anlisis de interaccin Ventana Selector de variables Variable dependiente Rendim Criterio de Clasificacin Genotipo Sitio Bloque Ventana Siguiente (Borrar Genotipo manualmente)
57
2 Sitio 2
Sitio 3 mf484
Tegua
CP 2 (16.7%)
mf457
-1
-2 -2 -1 0 1 2
CP 1 (76.2%)
Figura 4. GGE biplot para la identificacin de los mejores genotipos en cada sitio. Puntos oscuros representan genotipos y puntos claros sitios.
58
Interpretacin
Para la identificacin de los mejores genotipos en cada ambiente, la propuesta de Yan y Hunt (2002) de interpretacin de los GGE biplot especifica que en primer lugar se debe graficar un polgono envolvente de identificadores de genotipo, este es automticamente obtenido en Info-Gen (Figura 4). En la base de datos analizada, los extremos que definen el envolvente estn dados por los genotipos mf480, mf457, mf489, mf485, mf484, Tegua y Florman. Estos son genotipos de comportamiento extremo, i.e. los de mejor o peor rendimiento en algunos ambientes. A continuacin, para cada uno de los lados del polgono (hay tantos lados como genotipos extremos haya) se trazan lneas rectas que pasan por el origen y son perpendiculares a cada uno de los lados del polgono (o a sus proyecciones). De esta forma, el biplot queda dividido en cuadrantes, generalmente cada uno conteniendo un genotipo en el vrtice. Los genotipos que quedan en el vrtice son los que ms rinden en los ambientes que quedan encerrados en el cuadrante. Se observa que en el cuadrante que tiene como vrtices a los genotipos mf480 y mf457 se encuentra el Sitio 1. Estos genotipos son los de mayor rinde en ese sitio. Luego les sigue en rendimiento el genotipo mf478. El cuadrante cuyo vrtice esta determinado por el genotipo Tegua, involucra al Sitio 2. Al genotipo Tegua le sigue en rendimiento el genotipo Florman, aunque por su cercana en el biplot estos tienen rendimientos muy parecidos en ese sitio. El siguiente cuadrante queda determinado por la proyeccin de la lnea que une a los genotipos mf484 y Tegua y por la proyeccin perpendicular hacia el origen de la lnea que une mf489 y mf457. En este cuadrante el marcador del genotipo mf485 es el vrtice del sector que contiene al Sitio 3 y a los genotipos mf485, mf484m, mf489, mf487 y mf447 en orden de mayor a menor rendimiento dentro de ese sitio. Todos los sitios que quedan en un mismo cuadrante pueden ser considerados como pertenecientes a un mega-ambiente. Aqu, la componente de interaccin GE fue mayor que la componente de G, quedan todos los sitios en distintos cuadrantes, sugiriendo la presencia de tres mega-ambientes diferentes.
59
60
Objetivo
Identificar ambientes que contribuyen a la interaccin y los ambientes ganadores dentro de mega-ambientes favorables para determinados grupos de genotipos.
Datos
La base de datos para realizar un estudio de patrones de interaccin GE mediante un modelo GREG debe contener una columna que identifique genotipos, otra ambientes y otra que contenga los valores de la variable respuesta.
61
Ejemplo
Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo). Modelo GEE.
Cuadro 13. Modelo GEE usando Info-Gen Men Mejoramiento Comando Anlisis de interaccin Ventana Selector de variables Variable dependiente Rinde Criterio de Clasificacin Lneas Ambiente Ventana Siguiente (Borrar Ambiente manualmente)
62
12 29 25 13 22
IO0
CP 2 (21.3%)
IE1 19 IE2 28 16 21 20 17 30 27 26 18 23
IO1 3.2
CP 1 (53.7%)
Interpretacin
Para la identificacin de los mejores ambientes desde los GEE biplot en primer lugar se debe graficar un polgono envolvente de identificadores de ambientes, este es automticamente obtenido en Info-Gen. En la base de datos analizada, los extremos que definen el envolvente estn dados por los ambientes IO0, IO1, IE0 y MG. Estos son ambientes de comportamiento extremo, i.e. los de mejor o peor rendimiento para algunos genotipos. A continuacin, para cada uno de los lados del polgono (hay tantos lados como genotipos extremos haya) se trazan lneas rectas que pasan por el origen y son perpendiculares a cada uno de los lados del polgono (o a sus proyecciones). De esta manera se formaron cuatro cuadrantes. Los ambientes que quedan en el vrtice son los que ms rinden entre los que quedan encerrados en el cuadrante. El cuadrante cuyo vrtice es IE0 y que adems contiene a los ambientes VJ y SC no contiene ningn genotipo sugiriendo que estos ambientes son los de rendimientos ms pobres en todos las lneas evaluadas. El ambiente MG es vrtice del cuadrante que contiene a las lneas principalmente de crecimiento indeterminado. El
63
tercer cuadrante tiene como vrtice IO0 y adems contiene a los ambientes IE1 e IE2 y a la mayora de las lneas de crecimiento determinado pero tambin lneas de crecimiento indeterminado. Estos ambientes presentaron altos rendimientos para lneas de los dos tipos de crecimiento. Ambientes como IE0 son desfavorables para rinde.
64
Datos
Para estudiar correlaciones genticamente determinadas se parte de una base de datos que contenga las medias de cada variable (columnas) por genotipo (filas). A partir de sta base de datos se debe obtener una nueva tabla de tres columnas. Una de las columnas contendr el nombre de los genotipos, otra el nombre de las variables evaluadas y la tercera contendr el valor promedio de cada uno de los caracteres para cada genotipo. A partir de sta nueva configuracin de la base de datos se realiza un Anlisis de la Varianza del valor promedio de cada variable y que slo ajuste por la variacin debida a la variable, es decir que se tiene como nico factor de clasificacin a la variable con tantos niveles como variables se hayan medido en el ensayo. Los residuos estimados a partir del modelo ajustado contendrn la variacin debida al genotipo ms la interaccin genotipo*variable. Con los residuos as estimados se realiza un ACP acompaado de su grfico Biplot. Para estudiar correlaciones ambientalmente determinadas se procede de idntica manera slo que se parte de una base de datos que contiene las medias de cada variable por ambiente. Dado que las variables pueden ser no conmensurables y/o tener varianzas muy distintas se recomienda estandarizar previo a cualquiera de estos dos anlisis.
65
Cuadro 16. Paso 1 para estudiar Correlacin Genticamente Determinadas con Info-Gen Men Datos Comando Transformar Ventana Selector de variables Variables Rinde PG NG MS2-1 IC IV7-9 EI_F EI_Fll EUN Opcin Estandarizar
66
Cuadro 17. Paso 2 para estudiar Correlacin Genticamente Determinadas con Info-Gen Men Estadsticas Comando Medidas Resumen Ventana Selector de variables Variables EST_Rinde EST_PG EST_NG EST_MS2-1 EST_IC EST_IV1-9 EST_EI_F, EST_EI_Fll, EST_EUN Criterio de clasificacin Hbrido Opcin Medias Cuadro 18. Paso 3. Ir a Men Resultados, Comando Exportar Resultados como Tabla
Nota: Si los nombres de las variables estn separados por espacios utilizar el comando Separador de Campos>Tabulador del Men Resultados
67
Cuadro 19. Paso 4. Sobre la Nueva Tabla confeccionada en el Paso 3 Men Aplicaciones Comando Interaccin Genotipo-Ambiente Borrar (Hbrido de Especificacin del modelo manualmente) Cuadro 20. Grfico Biplot de correlacin entre variables genticamente determinada.
1.5
NG
1.0 Rinde 0.5 6 8 0.0 EI_F 2 IV7-9 -1.0 EI_Fll 4 1 7 PG MS2-1 3 EUN 5 IC
CP 2 (18.5%)
-0.5
CP 1 (66.0%)
Interpretacin
Las dos primeras CP explican el 84.5 % de la variabilidad total entre genotipos. Los hbridos 5 y 7 son diferentes de los hbridos 2 y 6 segn la CP1 y en cuanto a los caracteres evaluados (Cuadro 20). Los caracteres que marcan la mayor diferenciacin gentica a nivel de la CP1 es IV7-9 que est asociada a los genotipos 2 y 6 (izquierda del grfico) y los caracteres IC, PG y EUN que se correlacionan positivamente a los genotipos 5 y 7 (derecha del grfico). La CP2 separa principalmente al carcter NG. El rendimiento muestra correlacin positiva genticamente determinada con IC, PG y EUN. La correlacin entre las variables IV7-9 y EI_F se encuentra genticamente determinada; cuando estas variables asumen valores mayores hay menores valores de IC, PG y EUN.
68
3.5
EI_F
1.2
CP 2 (21.6%)
C IV7-9
CN
0.0
CP 1 (64.3%)
Interpretacin
Las dos primeras CP explican casi el 86% de la variabilidad total entre ambientes (Cuadro 21). La CP1 separa los ambientes con nitrgeno (BN, PN, CN y ON) de los que no recibieron fertilizacin nitrogenada (C, O y P). Los primeros se correlacionan positivamente a las variables Rinde, PG, NG, EI_F, EI_Fll, IC y MS2-1 mientras que los ambientes pobres en nitrgeno presentan mayor EUN. A nivel de la CP2 se separan dentro de los ambientes nitrogenados PN y CN de ON y BN las primeras se asocian a la EI_F mientras que las segundas se asocian a EI_Fll e IC. El ambiente provoca correlaciones altas entre Rinde, NG, PG y MS2-1 como as tambin entre EI_Fll e IC.
69
70
Anlisis de Regresin
Descripcin
En el anlisis de regresin lineal se estudia cmo los cambios en la/s variable/s input afectan a la variable respuesta (output), mediante el ajuste de un modelo para la relacin funcional entre ellas, suponiendo que esta es lineal. Genricamente, la relacin entre las variables se modela estadsticamente de la forma Yi = 0 + 1 X1 + 2 X 2 + ... + i , donde Yi es la i-sima observacin, X1, X2, son las variables regresoras, 1, 2 son los parmetros que dan los pesos de cada variable regresora respectivamente tambin llamados coeficientes de regresin y que sern estimados a partir de los datos y i es el trmino de error aleatorio asociado al i-simo dato. Asumiendo que el modelo es correcto, la funcin de regresin estimada es usada para hacer inferencias y predicciones. Antes de ello es importante examinar la adecuacin del modelo, es decir si se cumplen los supuestos del modelo sobre los errores (normalidad, independencia y homogeneidad de varianza). Toda la informacin muestral sobre falta de ajuste est contenida en los residuos. Cada residuo es un estimador del error, que se espera se distribuya como una variable aleatoria con media cero. Los residuos pueden tener varianzas desiguales y correlaciones distintas de cero. Dado que un dato puede asociarse a un residuo grande (outlier) pero no ser influyente (no cambia fuertemente el modelo) suele ser preferible realizar grficos diagnstico basados en residuos estudentizados, que son los residuos corregidos por una medida de influencia de la observacin sobre el ajuste. Los residuos estudentizados debieran seguir un patrn similar al de variables aleatorias independientes con distribucin normal de media cero y varianza constante. Valores de residuos estudentizados entre -2 y 2 indican que no existen datos aberrantes, mientras que datos con valores de residuos estudentizados
71
mayores a 2 o menores a -2 son considerados outliers o valores atpicos. Los grficos de residuos ms usados para diagnstico son: Residuos (o residuos Estudentizados) versus predichos: Incumplimiento de supuestos del modelo se reflejan en dependencias de los residuos sobre los valores predichos que se manifiestan en la existencia de un patrn (falta de aleatoriedad) en este grfico. QQ-plots e histogramas de residuos (o residuos Estudentizados): Permiten verificar si los errores se distribuyen normalmente y detectar la presencia de observaciones inusuales que podran requerir especial atencin en el anlisis. Cuando el tamao de la muestra es grande, los alejamientos de la normalidad tienen poco peso en la inferencia. Para determinar qu proporcin de la variabilidad en Y es explicada por las regresoras introducidas en el modelo se usa el coeficiente de determinacin (R2). En regresin mltiple, la existencia de multicolinealidad (i.e. correlacin fuerte entre variables regresoras) conduce a estimaciones de coeficientes de regresin poco estables (cambian mucho al agregar o quitar variables regresoras). La contribucin de cada regresora puede resultar confusa si existe multicolinealidad y en estos casos los errores estndar de los estimadores suelen ser muy grandes. La multicolinealidad puede tratarse mediante el agregado de puntos adicionales que la destruyan, el uso de combinaciones lineales de las variables que sean ortogonales y/o la eliminacin de variables redundantes. La tcnica de centrar las regresoras tambin suele aplicarse para disminuir la correlacin entre regresoras.
Objetivo
Explicar la variacin en la variable output como funcin lineal de la o las variables regresoras.
72
Datos
Para realizar un anlisis de regresin simple se debe disponer de una variable dependiente o output (variable Y) y una variable regresora, explicatoria o predictora (variable X). Si existe ms de una variable predictora se realizar un anlisis de regresin mltiple.
73
En la Figura 5 se muestran los diagramas de dispersin entre cada una de las variables relacionadas a la precipitacin y el rendimiento. No se observa relacin lineal aparente entre Pr1, Pr2 o Pr3 y el rendimiento, mientras que para la suma de precipitaciones (Pr2+Pr3) se observa una tendencia cuadrtica. Esta tendencia es difcil de explicar desde un punto de vista agronmico ya que en general, si hay ms agua se espera ms rinde. No obstante si se analiza la relacin para casos donde la suma no supera los 180 mm la relacin pareciera ser lineal. Ser entonces de inters, en este problema, modelar la relacin antes y despus del valor de la precipitacin donde se produce un cambio en la tendencia. Si bien existen procedimientos estadsticos para la bsqueda de los valores en X donde se produce un cambio en la relacin mostrados, basados en criterios agronmicos y segn el diagrama de dispersin, seleccionamos el valor de 180 mm como punto crtico para el cambio de modelo. Para realizar las regresiones por separado se clasific a la variable Suma[Pr2+Pr3] en 2 grupos (hasta 180 mm y mayores a 180 mm) mediante el comando Categorizar del Men Datos.
540
540
A
466
466
Rendimiento (g/m2)
Rendimiento (g/m2)
392
392
318
318
244
244
Pr1 (mm)
Pr2 (mm)
74
540
540
C
466
466
Rendimiento (g/m2)
Rendimiento (g/m2)
392
392
318
318
244
244
Pr3 (mm)
Suma[Pr2+Pr3] (mm)
Figura 5. Diagramas de dispersin Rendimiento vs A: Precipitacin acumulada desde emergencia hasta floracin (Pr1); B: Precipitacin acumulada desde floracin hasta inicio de llenado de grano (Pr2); C: Precipitacin acumulada desde inicio de llenado de grano hasta madurez fisiolgica (Pr3) y D: Precipitacin acumulada desde floracin hasta madurez fisiolgica (Suma[Pr2+Pr3]), en este ltimo diagrama la lnea de corte vertical indica el valor 180 mm.
Se realiz un anlisis de regresin lineal simple del rendimiento en funcin de las precipitaciones del perodo reproductivo (Suma[Pr2+Pr3]) para cada grupo: Hasta 180 mm y Mayor a 180 mm.
Cuadro 23. Regresin Lineal Simple con Info-Gen Men Estadsticas Comando Regresin Lineal Ventana Selector de Variables Variable dependiente Rend Regresoras Suma[Pr2+Pr3] En este ejemplo debi utilizarse adems: Solapa Particiones Particionar por CATSuma[Pr2+Pr3]
75
Coeficientes de regresin y estadsticos asociados Coef const Suma Est. 51.51 2.09 EE 33.96 0.25 LI(95%) LS(95%) T p-valor CpMallows -18.18 121.20 1.52 0.1410 1.57 2.61 8.21 <0.0001 66.02
Interpretacin
Los resultados de la regresin lineal para Suma[Pr2+Pr3] 180 mm se presenta en el Cuadro 24. Se observa que la pendiente de la recta (2,09) es estadsticamente distinta de cero (p<0.0001) por lo que existe relacin lineal positiva entre el rendimiento y las precipitaciones acumuladas durante la etapa reproductiva, es decir que mientras mayor sea la precipitacin acumulada en la etapa reproductiva (hasta 180 mm) mayor ser el rendimiento esperado. La ordenada al origen (const) no es estadsticamente distinta de cero, si bien podra ajustarse una recta que pase por el origen, en general se recomienda dejar el trmino constante en el modelo aunque sea no significativo. En el diagrama de dispersin de residuos estudentizados vs predichos (Figura 6 derecha) se observan tres puntos que podran ser considerados outliers debido a que presentan residuos estudentizados mayores a 2. Analizando la base de datos se descubre que esos casos corresponden a las tres repeticiones de un cultivar (DM 4800 RR) en una campaa (03_04) y en una localidad (Totoras). Decidimos no incluirlo en la modelacin ya que los valores de precipitacin registrados para esa localidad son ms bajos de lo esperado. Sacando dichos casos, el ajuste del modelo mejora (ver error cuadrtico medio de prediccin, ECMP) (Cuadro 24). La raz cuadrada de error cuadrtico medio de prediccin es un indicador del error de prediccin que debe esperarse cuando se use el modelo en un sentido predictivo, es decir para pronosticar el valor de Y para nuevos valores de la/s variables regresoras. En este ejemplo el error de prediccin nos dice en cuanto nos podemos equivocar al predecir el
76
rendimiento mediante este modelo. El primer ajuste realizado (sin sacar los casos 110, 111 y 112) tiene un error de prediccin (EP) de 51.55 g/m2, mientras que el segundo ajuste (sin los casos 110, 111 y 112) tiene un EP de 32.07 g/m2.
540
3
Res. estudentizados_Rend
2 1 0 -1 -2 -3 170
Rendimiento (g/m2)
440
340
240
140 60
90
120
150
180
235
300
365
430
Suma[Pr2+Pr3] (mm)
Predichos
Figura 6. Diagrama de dispersin con el ajuste y las bandas de confianza de la regresin lineal simple del rendimiento en funcin de los valores de Suma[Pr2+Pr3] 180 mm (izquierda). Diagrama de dispersin de los residuos estudentizados vs valores predichos por el modelo ajustado (derecha).
Cuadro 25. Resultados de anlisis de regresin lineal simple (sin los casos 110, 111 y 112) para los casos donde Suma[Pr2+Pr3] es hasta 180 mm y para casos con Suma[Pr2+Pr3] mayor a 180 mm
Anlisis de regresin lineal CATSuma Variable N Hasta 180 Rend R R Aj ECMP 26 0.76 0.75 1028.60
Coeficientes de regresin y estadsticos asociados Coef const Suma Est. EE 108.60 22.77 1.54 0.18 LI(95%) LS(95%) T p-valor CpMallows 61.61 155.59 4.77 0.0001 1.17 1.91 8.64 <0.0001 72.63
N 124
Coeficientes de regresin y estadsticos asociados Coef const Suma Est. 411.80 -0.24 EE LI(95%) LS(95%) T 23.40 365.49 458.12 17.60 0.07 -0.38 -0.10 -3.34 p-valor CpMallows <0.0001 0.0011 12.10
El modelo ajustado para relacin entre rendimiento y precipitacin acumulada en el segundo y tercer perodo, cuando esta es menor a 180 mm es
77
(R2=0.76,
Error
de
prediccin
El modelo ajustado por la regresin realizada con los valores de Suma[Pr2+Pr3] mayores a 180 mm sugiere que la pendiente es estadsticamente distinta de cero (p=0.0011), pero pero que la relacin es negativa, nuevamente si bien este modelo puede ajustar los datos carece de sentido agronmico por lo que debiera buscarse otras variables para predecir rendimiento cuando Suma[Pr2+Pr3] es mayor a 180 mm.
78
Cuadro 26. Anlisis de correlacin lineal con Info-Gen Men Estadsticas Comando Anlisis de Correlacin Opcin Coeficientes de Correlacin Variables Y
En el Cuadro 27 se muestran los coeficientes de correlacin obtenidos y la significancia de la prueba de hiptesis de no correlacin. En general, se observa que las variables Fot1, Fot2, Fot3, Tm1, Tm2 y Tm3 estn correlacionadas entre ellas y con Ra1, Ra2 y Ra3 y que stas ltimas tambin se correlacionan entre ellas, por lo que se decidi elegir slo una de las radiaciones. Se seleccion Ra3 debido a que se hipotetiza que la radiacin acumulada durante la etapa de llenado de grano podra ser ms explicativa que radiaciones en otras etapas.
Cuadro 27. Resultados del Anlisis de Correlacin para las variables climticas
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 1.000 2.5E-07 1.2E-08 0.017 3.5E-05 0.111 0.331 0.000 2.5E-12 -0.402 1.000 0.000 0.000 0.265 2.9E-07 4.0E-12 0.000 0.000 -0.440 0.558 1.000 0.000 0.165 0.042 4.5E-12 0.000 0.000 0.193 -0.586 -0.602 1.000 0.136 0.002 1.1E-07 0.000 0.000 -0.328 -0.091 0.113 -0.121 1.000 0.013 1.3E-07 0.080 0.118 0.129 0.401 -0.164 -0.244 -0.201 1.000 0.019 0.006 1.4E-05 -0.079 -0.523 -0.522 0.413 0.411 -0.189 1.000 5.1E-06 1.4E-10 -0.589 0.729 0.646 -0.792 0.142 0.221 -0.359 1.000 0.000 -0.527 0.706 0.606 -0.793 0.127 0.344 -0.489 0.954 1.000
79
Para el caso de las variables de suelo tambin se calcularon las correlaciones (Cuadro 28) entre las variables y se decidi seleccionar AUI, MO y %Md para comenzar a probar ajustes de modelos de regresin mltiple.
Cuadro 28. Resultados del Anlisis de Correlacin para las variables de suelo
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades AUI MO PrB2t %Md %pi Chid AUI MO PrB2t 1.000 0.441 0.001 -0.063 1.000 0.132 0.276 -0.122 1.000 -0.198 -0.323 0.135 -0.057 -0.164 0.166 0.163 0.457 0.036 %Md %pi Chid 0.014 0.481 0.044 4.6E-05 0.043 2.9E-09 0.096 0.040 0.662 1.000 0.000 0.000 0.675 1.000 0.000 -0.597 -0.719 1.000
Al realizar la regresin mltiple y analizar los residuos estudentizados vs predichos se encontr que los casos 110, 111 y 112 presentan residuos altos residuos altos, como en el caso de la regresin lineal simple, por lo cual se volvi a ajustar el modelo de Regresin Mltiple sin estos casos.
Cuadro 29. Anlisis de Regresin Lineal Mltiple con Info-Gen Men Estadsticas Comando Regresin Lineal Ventana Anlisis de Regresin Lineal Variable dependiente Rend Regresoras Suma[Pr2+Pr3], Ra3 AUI MO %Md Solapa Seleccin de modelo Opcin Eliminacin backward
La opcin Eliminacin backward es un mtodo de seleccin de modelo. Se parte con el modelo completo y se van eliminando de a una las variables poco explicativas hasta obtener un modelos de mejor ajuste.
80
Los resultados sugieren un modelo para el ajuste (Cuadro 30) pero este presenta nuevamente un problema desde el punto de vista agronmico, debido a que el coeficiente estimado para la variable Suma[Pr2+Pr3] es negativo (0.11), un comportamiento anlogo se observa con la variable AUI.
Cuadro 30. Resultados de la regresin mltiple del rendimiento como variable dependiente y 5 regresoras (Suma[Pr2+Pr3], Ra3, AUI, %Md y MO)
Anlisis de regresin lineal Variable Rend N 150 R R Aj 0.49 0.48 ECMP 2602.42
Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 6 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T const 196.14 45.91 105.39 286.89 4.27 Ra3 0.24 0.04 0.17 0.32 6.40 AUI -0.25 0.10 -0.45 -0.05 -2.47 MO 43.35 10.07 23.44 63.26 4.30 %Md -1.50 0.26 -2.02 -0.98 -5.69 Suma -0.11 0.04 -0.19 -0.03 -2.84 Error cuadrtico medio: 2386.124834 p-valor CpMallows <0.0001 <0.0001 45.70 0.0145 11.09 <0.0001 23.40 <0.0001 37.19 0.0052 13.00
Como se mostr en el anlisis de regresin simple existe un punto (180 mm) en los valores de Suma[Pr2+Pr3] a partir del cual se produce un cambio en la relacin entre las precipitaciones y el rendimiento, por lo que se propone realizar la regresin mltiple particionada segn los valores de Suma[Pr2+Pr3] sean hasta 180 mm o mayores a 180 mm. Los resultados de la regresin mltiple para el grupo de casos con valores de Suma[Pr2+Pr3] 180 mm sugieren, luego de la seleccin de modelos, un modelo que explica la variabilidad del rendimiento como funcin de una ordenada al origen (const=172.32) y de dos regresoras, %Md y Suma[Pr2+Pr3] con valores de coeficientes -0.89 y 1.29 respectivamente. El error de prediccin del modelo es 31.5 g/m2 (Cuadro 31).
81
Cuadro 31. Resultados de la Regresin Mltiple del rendimiento con 5 variables para los casos con Suma[Pr2+Pr3]180mm
Anlisis de regresin lineal CATSuma Hasta 180 Variable Rend N R 26 0.80 R Aj 0.78 ECMP 993.76
Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 3 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) const 172.43 37.38 95.11 249.75 %Md -0.89 0.43 -1.77 -4.7E-03 Suma 1.29 0.21 0.87 1.71 Error cuadrtico medio: 744.811436 T 4.61 -2.08 6.28 p-valor CpMallows 0.0001 0.0489 6.19 <0.0001 39.89
Para el conjunto de datos con Suma[Pr2+Pr3]>180 mm no se introdujo en el modelo AUI ni Suma[Pr2+Pr3] debido a las anomalas detectadas anteriormente. Los resultados sugieren que para valores de Suma[Pr2+Pr3] mayores a 180 mm la variabilidad del rendimiento puede ser aceptablemente explicada por Ra3, MO y %Md, con un error de prediccin 54.6 g/m2 (Cuadro 32).
Cuadro 32. . Resultados de la regresin mltiple del rendimiento con 3 variables para los casos con Suma[Pr2+Pr3]>180mm
CATSuma Variable N Mayor 180 Rend R 124 R Aj ECMP 0.42 0.40 2984.72
Eliminacin backward. Mximo p-valor para retener regresoras: 0.15 Variables totales: 4, variables en el modelo 4 Coeficientes de regresin y estadsticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 67.09 39.56 -11.23 145.40 1.70 0.0925 Ra3 0.25 0.04 0.16 0.33 5.72 <0.0001 35.49 MO 50.12 11.90 26.55 73.68 4.21 <0.0001 20.59 %Md -1.38 0.31 -2.00 -0.76 -4.39 <0.0001 22.11 Error cuadrtico medio: 2745.576428
82
83
Cuadro 33.Medidas de estabilidad y su clasificacin. Grupo A Concepto Estabilidad Esttico tipo 1 A Esttico tipo 1 Estadstico para medir Estabilidad Varianza ambiental Autores Roemer (1917) Francis y Kannenberg (1978)
S2 = j
1 g (Yij Y. j )2 a 1 i =1
CV j =
S2 j Y. j
100
Dinmico tipo 2
Componente de varianza promedio g g SCGA j = (Yij Yi . Y. j + Y.. )2 + 2(g 1)(a 1) 2(g 1)(a 1) i =1 donde SCGA =
(Y
i =1 j =1
ij
Yi . Y. j + Y.. )2
Dinmico tipo 2
( j )
Componente de varianza de la interaccin genotipoambiente g g SCGA = (Yij Yi . Y. j + Y.. )2 + (g 1)(a 1) 2(g 1)(g 2)(a 1) i =1 Ecovalencia
Plaisted (1960)
W j2 = (Yij Yi . Y. j + Y.. )2
i =1
Wricke (1962)
Varianza de estabilidad g g SCGA 2 = (Yij Yi . Y. j + Y.. )2 (g 1)(g 2)(a 1) j ( g 2)(a 1) i =1 Coeficiente de regresin de valores observados sobre ndices ambientales
Shukla (1972a)
Dinmico C tipo 2
j =
(Y
i =1
ij
Y. j )(Yi . Y.. )
(Yi . Y.. )2
Estabilidad genotpica
Hanson (1970)
Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados sobre ndices ambientales
j2 =
84
Cuadro 34. (continuacin): Medidas de estabilidad y su clasificacin. Grupo Concepto Estabilidad Dinmico D tipo 3 Dinmico D tipo 3 Dinmico Estadstico para medir Estabilidad (*) Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados ajustados por ambiente sobre ndice ambiental. Autores
j2 =
Coeficiente de determinacin
r j2 = 1
2 dj 2 yj
Media del valor absoluto de la diferencia entre rangos del genotipo i-simo sobre todos los ambientes
S (1) = j
Dinmico (Esttico desde el punto de vista de los rangos)
2 | rij ri j | a(a 1) i =i +1
a
Varianza comn de los rangos del genotipo i-simo entre los ambientes
S (2) = j
1 a (rij r. j )2 (a 1) i =1
(*) Yij es la respuesta del genotipo i en el ambiente j; Y. j es el promedio sobre genotipos; Yi . es el promedio sobre ambientes; Y.. es el promedio general; bmin es el mnimo coeficiente de regresin de Finlay y Wilkinson para genotipo; rij es el rango del genotipo i en el ambiente j
85
86
rxy =
Sxy
2 2 Sx Sy
es la varianza de X,
X
2 Sy
es la varianza de Y, xi
es el valor medio de la
Y
es el medio
El coeficiente de correlacin de Pearson puede tomar valores dentro del intervalo [-1, 1]. Valores cercanos a 1 indican alta correlacin lineal positiva y valores de r cercanos a -1 indican alta correlacin lineal negativa. Si el coeficiente se aproxima a cero indica que no hay correlacin lineal entre variables. Para probar si un coeficiente de
87
Objetivo
Conocer el grado de asociacin que hay entre dos o ms variables y obtener una medida de la magnitud (y direccin) de la asociacin o covariacin de cada par de variables.
Datos
La base de datos debe tener dos o ms variables numricas observadas sobre cada uno de los casos (genotipo, hbridos, etc.). Cada columna de la base de datos contendr la variable observada.
Ejemplo
Archivo Ideotipos de Maz (Anexo). Anlisis de Correlacin entre variables ecofisiolgicas
Cuadro 35. Anlisis de Correlacin Men Estadsticas Comando Anlisis de Correlacin Opcin Coeficientes de correlacin Selector de variables Variables Y Rinde PG, NG EI_F EI_Fll IV1-3 IV4-6 IV7-9
En el Cuadro 36 se presenta la matriz de correlaciones entre todos los caracteres (triangular inferior) y los valores de p para la prueba de hiptesis de
88
correlacin nula (triangular superior), obtenidos a partir del coeficiente de correlacin de Pearson.
Cuadro 36. Resultados del anlisis de correlacin entre variables ecofisiolgicas. Matriz con los coeficientes de correlacin (triangular inferior) y valor p para la prueba de hiptesis de correlacin nula (triangular superior) entre nueve caracteres.
Coeficientes de correlacin Correlacion de Pearson: coeficientes\probabilidades Rinde Rinde 1.00 PG 0.67 NG 0.79 EI_F 0.41 EI_Fll 0.58 IV1-3 -0.23 IV4-6 -0.34 IV7-9 -0.07 PG 0.00 1.00 0.08 0.25 0.44 -0.19 -0.31 -0.27 NG 0.00 0.32 1.00 0.31 0.44 -0.19 -0.23 0.12 EI_F EI_Fll IV1-3 IV4-6 IV7-9 3.9E-08 0.00 2.2E-03 7.8E-06 0.38 9.0E-04 1.7E-09 0.01 5.1E-05 3.6E-04 3.4E-05 1.8E-09 0.01 2.5E-03 0.12 1.00 0.15 0.05 0.02 0.42 0.11 1.00 1.9E-05 3.3E-07 0.12 -0.15 -0.32 1.00 0.00 0.00 -0.18 -0.38 0.90 1.00 0.00 -0.06 -0.12 0.58 0.68 1.00
Interpretacin
El rendimiento presenta correlacin lineal positiva significativa (r>0) con las variables PG (r=0.7, p<0.0001), NG (r=0.79, p<0.0001), EI_F (r=0.41, p<0.0001), EI_Fll (r=0.58, p<0.0001) y negativamente con IV1-3 ((r=-0.23, p<0.0022), IV4-6 (r=-0.34, p<0.0001) y no est correlacionado significativamente con IV7-9 (r=-0.07, p=0.38). El PG y NG no estn correlacionadas linealmente (r=0.08, p=0.32). En general se observa correlacin estadsticamente significativa (distinta de cero) entre los pares de variables eco-fisiolgicas incluidas en el anlisis. Las variables de insercin de hojas verticales (IV1-3, IV4-6, IV7-9) presentan correlacin negativa con las variables de eficiencia de intercepcin de la radiacin (EI_F y EI_Fll), con los componentes del rendimiento (PG y NG) y con el rendimiento (Rinde).
89
90
Anlisis de Sendero
Descripcin
En el anlisis de sendero (Path Analysis) se pretende construir modelos de causa-efecto entre las variables a travs de la diseccin de la correlacin entre dos variables como la suma de dos tipos de efectos, estos son efectos directos de una variable sobre otra (senderos simples) y efectos indirectos de una variable sobre otra va una o ms variables exgenos (senderos compuestos). Si se considera una nueva variable en el sistema anterior, digamos la variable U, y suponemos que existe un sistema con relaciones lineales Y = 0 + 1 X + 2U + que pueden ser representadas por ese modelo, el anlisis de sendero nos brindar informacin sobre los efectos directos de X y U sobre Y (senderos simples en el diagrama del sistema) y adems efectos indirectos de X sobre Y a travs de U y de U sobre Y a travs de X. El efecto indirecto de una variable X sobre Y va otra variable U se define como py ,x rx ,u , donde los coeficientes py ,x corresponden a los coeficientes estandarizados de la regresin mltiple de Y sobre X y U y rx ,u es el coeficiente de correlacin simple entre X y U. El anlisis de sendero de este sistema involucrando dos variables causales realiza la siguiente diseccin de la correlacin entre Y y X y entre Y y U:
ry ,x = py ,x + py ,u rx ,u ry ,u = py ,x rx ,u + py ,u
Dada una muestra, es posible obtener valores para todos los coeficientes de correlacin involucrado en este sistema de ecuaciones, las incgnitas son siempre igual al nmero de ecuaciones y corresponden a los estimadores de los efectos directos del sistema poblacional. Luego, otra forma de estimar los coeficientes de sendero (path coefficients) es a travs de la resolucin de este sistema de ecuaciones.
91
Objetivo
Estudiar un sistema de correlacin entre variables donde existe una variable output teniendo en cuenta efectos directos e indirectos de las variables input.
Datos
Para realizar un estudio de correlacin a travs de un anlisis de senderos las variables que se quieren correlacionar deben conformar las columnas de la base de datos. Se supone independencia entre casos u observaciones.
Ejemplo
Archivo Ideotipos de Maiz (Anexo). Anlisis de Sendero
Cuadro 37. Anlisis de sendero Men Estadsticas Comando Anlisis de correlacin Opcin Anlisis de sendero (path analysis) Selector de variables Dependiente Rinde Independientes PG NG EI_F EI_Fin ll EUN
92
<0.0001
Interpretacin
El rendimiento se correlaciona de manera estadsticamente significativa con las 5 variables independientes incluidas en el anlisis r total, p<0.05). El coeficiente de correlacin general entre Rinde y PG es 0.67, la correlacin directa es 0.62 y el resto es correlacin indirecta i.e. correlacin va las otras variables. Esto indica que la correlacin observada entre Rinde y PG es sobretodo correlacin directa del PG sobre el Rinde. El mismo resultado se observa con NG, la mayor parte de la correlacin se debe al efecto directo de NG sobre Rinde. Mientras que tanto para las eficiencias en la intercepcin de la radiacin (EI_F y EI_Fll) como para la eficiencia de uso del nitrgeno (EUN) la correlacin directa con el
93
rendimiento es muy baja pero como las correlaciones indirectas va NG y PG son relativamente altas se explica la correlacin con el rendimiento. La EUN se relaciona negativamente con el Rinde (r=-0.17) y el camino de dicha correlacin sobretodo es va NG (Cuadro 38).
94
95
Si llamamos X e Y a los dos bloques de variables y suponemos que el nmero de variables en X es m (X1, X2, ...,Xm) y el nmero de variables en Y es n (Y1, Y2, ...,Yn), es posible construir una matriz R de correlacin tal que su elemento Rij sea la correlacin entre Xi e Yj. Esta matriz no tiene unos en la diagonal y usualmente no es cuadrada. La idea en PLS es obtener un vector de m coeficientes Ai, uno para cada variable en X y un vector de n coeficientes Bj, uno para cada variable en Y, tal que el producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime bien a la matriz R en el sentido mnimo cuadrtico (i.e., minimizando la suma de los trminos (Rij-Ai*Bj)2). Podramos decir que estos coeficientes permiten combinar las variables de cada bloque para explicar la variabilidad debida a la relacin o correlacin entre ambos bloques. En particular en ensayos multi-ambientales, PLS puede ser usado para explicar a partir de un conjunto (relativamente grande y posiblemente correlacionado) de variables relacionadas a los genotipos o a los ambientes, las variaciones debidas a la interaccin genotipo-ambiente. Los resultados de PLS, son presentados a travs de un tri-plot. Nos referimos a tri-plot cuando se dispone de un grfico biplot sobre el que adems se grafican covariables para explicar la asociacin entre los marcadores filas y columnas representados en el biplot.
Objetivos
Descubrir y reportar la naturaleza de la relaciones de variables predictoras con una o varias variables respuesta (i.e., un bloque de variables respuestas).
Datos
Se necesitan I observaciones o casos descriptos por m variables dependientes (bloque de variables Y) y adems n predictores colectados sobre estos I casos en una matriz de datos In (bloque de variables X).
96
Ejemplo
Base de datos Factores limitantes Soja (Anexo). PLS para explicar la interaccin GE (en la Campaa 01_02) en funcin de las siguientes covariables ambientales: Ra3, %MD, %pi, PrB2t y MO. En esta campaa intervinieron 3 genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades (Cavanagh, Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gmez). Para realizar el PLS entre Y (matriz que contiene trminos de interaccin entre 7 localidades y 3 genotipos) y la matriz X (conteniendo las covariables ambientales antes descriptas), se ejecutaron los siguientes pasos: 1) Obtencin de las matrices Y y X. 2) Implementacin de la rutina SVD para PLS de los datos en X e Y estandarizados. Para obtener X, simplemente se solicit, mediante el men Medidas Resumen, las medias de las covariables por localidad. La tabla de datos resultantes (Cuadro 39) constituye una matriz de covariables de dimensin 75 ya que las 5 covariables ambientales varan con las localidades. Si se desea correlacionar la interaccin GE con covariables genotpicas, la matriz X se construye a partir de las medias de covariables genotpicas por genotipo (matriz de dimensin 3m).
Cuadro 39. Medias de covariables por ambiente (matriz X)
Estadstica descriptiva Localidad Resumen Ra3 Bouquet C.Gmez Cavanagh Maizales Oliveros Rueda Totoras Media Media Media Media Media Media Media %Md MO %pi PrB2t 28.00 14.67 20.00 25.00 31.33 28.67 33.33
2.87 52.50 3.13 21.67 3.65 37.07 3.07 88.50 2.54 59.07 2.85 35.33 3.55 19.00
548.13 22.00 469.80 31.00 452.43 19.00 368.03 540.47 3.57 0.00
97
Para obtener Y se us el men Anlisis de Interaccin para ajustar un modelo AMMI(2). Como el experimento tiene repeticiones dispuestas segn un diseo completamente aleatorizado, es importante aclarar cul es la variable que contiene el dato de la repeticin, pero no usar esta variable como factor en el modelo (el factor repeticin slo se pone en el modelo si el diseo experimental es en bloques). En el Cuadro 40 se muestran los resultados del ajuste del AMMI para este diseo. Se seleccionaron las localidades como tratamientos ya que slo de sta forma Info-Gen produce una tabla de residuos de dimensin 73 (en caso contrario los residuos son los mismos pero organizados en un tabla 37. Este tipo de matriz Y sera necesaria si se desea predecir la interaccin a partir de covariables genotpicas).
Cuadro 40. Obtencin de matriz Y
Anlisis de la Interaccin Genotipo Ambiente Matriz de residuos analizada por SVD A5520RG A6040RG DM4800RR Bouquet C.Gmez Cavanagh Maizales Oliveros Rueda Totoras Autovalores Lambda Valor 1 276.64 2 184.83 3 0.00 Proporcin 0.60 0.40 0.00 Prop Acum 0.60 1.00 1.00 13.10 -23.86 -2.07 4.06 10.76 -1.99 1.71 -12.85 19.37 -16.70 -1.00
8.56 -10.28 4.93 -21.68 -0.81 3.99 7.92 2.31 17.51 -2.99
Finalmente ambas matrices se usaron para construir una Tabla Nueva como se muestra en el Cuadro 40. En el Cuadro 41 se muestran los comandos para la implementacin de la rutina SVD para PLS y la obtencin del tri-plot (Figura 7) ejecutados sobre esta nueva tabla.
98
Cuadro 41. Tabla de datos necesaria para implantar la tcnica PLS con el propsito de correlacionar una matriz (73) de trminos de interaccin con otra matriz (75) de covariables ambientales.
Localidad A5520RG A6040RG DM4800RR Ra3 %Md MO %pi PrB2t Bouquet 13.10 -23.86 10.76 493.03 17.00 2.87 52.50 28.00 C.Gmez -2.07 4.06 -1.99 488.83 0.00 3.13 21.67 14.67 Cavanagh 8.56 -10.28 1.71 548.13 22.00 3.65 37.07 20.00 Maizales 4.93 7.92 -12.85 469.80 31.00 3.07 88.50 25.00 Oliveros -21.68 2.31 19.37 452.43 19.00 2.54 59.07 31.33 Rueda -0.81 17.51 -16.70 368.03 3.57 2.85 35.33 28.67 Totoras 3.99 -2.99 -1.00 540.47 0.00 3.55 19.00 33.33
Cuadro 42. Anlisis PLS (las columnas de Y deben ir como variables dependientes, mientras que las filas como clasificatorias; las columnas de X como predictoras) Men Estadsticas Comando Anlisis Multivariado Opcin PLS Selector de variables
Variables dependientes
A5520RG A6040RG DM4800RR
Clasificatoria
Localidad Variables predictoras Ra3 %Md MO %pi PrB2t
99
2.2 DM4800RR 1.1 Oliveros Ra3 PrB2t Bouquet Maizales %Md %pi
Dim: 2
0.0
-1.1 MO
C.Gmez A6040RG
Rueda
-2.2 -2.2
-1.1
0.0
1.1
2.2
Dim: 1
Figura 7. Tri-plot de la correlacin entre una matriz de interaccin entre 3 genotipos y 7 ambientes versus una matriz de 5 covariables ambientales.
Interpretacin
La interaccin GE se explica en su totalidad a partir de las dos primeras CP, segn lo muestran los autovalores del Cuadro 40. Los scores de genotipos y ambientes para el estudio de interaccin se presentan en la salida, ellos sirven para asociar genotipos con ambientes, pero no para explicar esta asociacin con variables en X, las nuevas variables latentes obtenidas a partir de la tcnica PLS se muestran en la ventana resultados (no presentada aqu). Al correlacionar la matriz de residuos del modelo AMMI(2) con las covariables
100
ambientales, las covariables de mayor inercia sobre el eje 1 del tri-plot resultaron ser Ra3 y MO. Luego las interacciones detectadas en este conjunto de datos, desde el punto de vista ambiental, son principalmente atribuidas a estas dos variables. Valores de Ra3, relativamente altos se registraron en Cavanagh y en Totoras, stos podran explicar el desempeo mejor que tuvo el genotipo A5520RG respecto a los otros en esas localidades. La MO tambin fue relativamente alta en Cavanagh y Totoras y muy baja en Oliveros (correlacin negativa entre el marcador de MO y el de la localidad Oliveros). Las caractersticas de suelo distintas de la MO, no resultaron importantes para explicar las interacciones en esta campaa. El cultivar A6040RG se desempe, relativos a los otros dos cultivares, mejor en Rueda y en Oliveros; la interaccin con Rueda se correlaciona negativamente con Ra3. La segunda dimensin del tri-plot se asocia con las adaptaciones mejores de DM4800 en Oliveros que presenta un menor contenido de MO que los otros sitios.
101
102
Anlisis de Conglomerados
Descripcin
El anlisis de conglomerados es una combinacin de tcnicas o algoritmos matemticos que tienen por objeto la bsqueda de grupos similares, ya sean stos, grupos de genotipos, de ambientes o de los caracteres medidos. En el anlisis de conglomerados no se conoce a priori el grupo de pertenencia de las entidades a agrupar. Cuando se realizan agrupamientos de casos se busca clasificar a los objetos en grupos lo ms homogneos posible en base a todas las variables involucradas. En el anlisis de conglomerados para agrupar casos, si se utiliza una matriz de datos nm (casosvariables), se calcula primero una matriz de distancias (nn) que contiene las interdistancias entre todos los pares de casos y luego sobre esa matriz se aplica un procedimiento de conglomeracin o agrupamiento. Cuando se agrupan variables se busca clasificar a las mismas en funcin de su perfil a travs de todos los casos, luego el algoritmo de conglomeracin trabajar sobre una matriz de interdistancias mm. Para realizar un anlisis de conglomerado, es necesario seleccionar una medida de distancia o proximidad entre los objetos a agrupar y un criterio o algoritmo de agrupamiento (este puede ser jerrquico o no jerrquico). Hay numerosos algoritmos disponibles, entre los jerrquicos, el ms usado es el conocido como UPGMA o encadenamiento promedio que define la distancia entre dos grupos o conglomerados como el promedio de todas las distancias de a pares entre elementos de un grupo y elementos del otro grupo. Entre los no jerrquicos, el ms conocido es el algorimo K-means (Balzarini, 2003). Los resultados del agrupamiento jerrquico se visualizan en un dendrograma. correlacin El dendrograma las resultante en el puede presentarse y las acompaado del coeficiente de correlacin cofentico que mide la entre interdistancias dendrograma interdistancias en la matriz de distancia sobre la que se aplic el
103
procedimiento. Los distintos algoritmos de conglomeracin jerrquica, por ejemplo, el mtodo del vecino ms cercano, el mtodo del vecino ms lejano, el mtodo de encadenamiento promedio o UPGMA y el mtodo de Ward, podran producir agrupamientos diferentes sobre un mismo conjunto de datos. En estos casos, el coeficiente de correlacin cofentica podra utilizarse como criterio de seleccin del algoritmo, i.e. aquel algoritmo con el mayor coeficiente de correlacin cofentica. Respecto a medidas de distancias, es importante seleccionar una que se adecue al tipo de datos (cuantitativo o categoras). Definiremos la distancia entre un objeto denominado i y otro objeto denominado j como dij. Las expresiones dij deben cumplir propiedades para ser consideradas como medidas de distancia entre el par de objetos (i,j), stas son: (i) dij > 0 si ij, (ii) dij = 0 y (iii) dij = dij. Adems, existen propiedades que de cumplirse permiten identificar las distancias como ultra-mtricas. Las distancias ultra-mtricas cumplen las 3 propiedades mencionadas anteriormente y adems la desigualdad triangular, i.e.,
dij d ik + d jk . Estas son recomendadas cuando el objetivo del estudio es
obtener una ordenacin de las observaciones. La distancia ms comn cuando se trabaja con datos cuantitativos viene dada por
d ij =d((i1, i2 ,...,im ),((j1, j2 ,...,jm ))=((i1 -j1 )2 +(i2 -j2 )2 +...+(im -jm )2 )1/2 .
distancia Eucldea. Cuando las variables poseen naturaleza binaria, como puede ser el caso de presencia/ausencia de determinadas caractersticas, la distancias eucldea puede no ser apropiada. Al comparar dos objetos, para cada variable binaria, existen cuatro eventos disjuntos posibles: 1) en los dos objetos se observa la presencia de la caracterstica deseada, denotado como evento (1,1); 2) ninguno de los objetos presenta la caracterstica deseada, evento denotado como (0,0); 3) el primer objeto presenta la caracterstica, evento denotado como (1,0) y 4) el primero no presenta la caracterstica pero el segundo si, denotado como evento (0,1), La frecuencia con que ocurre cada uno de estos eventos cuando se comparan dos objetos caracterizados por mltiples
104
variables binarias se denominarn a, b, c, y d segn correspondan a los eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Cuadro 44).
Cuadro 44. Frecuencias de eventos cuando se comparan dos objetos mediante variables binarias.
Muestra 2 Muestra 1 Caracterstica Presente (1) Caracterstica Ausente (0)
a c
b d
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.
Las frecuencia de desacuerdos representados por los eventos (1,0) y (0,1), de co-presencia (1,1) y de co-ausencia (0,0) contienen toda la informacin relevante para la construccin de ndices de similitud entre dos objetos, i.e. los ndices pueden ser expresados como funcin de dichos recuentos. Pueden construirse, distintos ndices de similitud o asociacin variando la importancia relativa (mediante ponderacin) que se le asigna a cada uno de los cuatro eventos antes mencionados. Un ndice de similitud muy utilizado en el caso de variables binarias es el ndice de Jaccard ( a ( a + b + c ) ) que no tienen en cuenta el evento de ausencia simultanea. Este debiera usarse cuando por la naturaleza del problema, se supone que dos objetos son ms parecidos entres s por presencia de una caracterstica que por ausencia. Desde cada ndice de similitud, es posible obtener una medida de distancia. La transformacin
d ij = 1 S ij
definidas o semidefinidas positivas, asegura la obtencin de una mtrica y por lo tanto es recomendada. Existe un coeficiente de similaridad que permite el tratamiento de diferentes tipos de variables simultaneamente, i.e., variables continuas y discretas como por ejemplo las variables binarias. Fue propuesto por Gower (Gower, 1985) para agrupar objetos caracterizados por distintos tipos de variables:
105
Sij =
W
c =1 p K =1
ijc
Sijc
ijc
donde: Sij = similaridad entre el i-simo y j-simo objeto m = nmero de variables o caractersticas observadas Wijc = ponderacin para la c-sima variable entre el i-simo y j-simo objeto Si la c-sima variable es de tipo binaria o cualitativa, la similitud entre el objeto i y el objeto j para la variable c (Sijc) vale 0 si los datos entre el isimo (xi) y el j-simo objeto son diferentes y vale 1 si son iguales. Para el caso de una variable cuantitativa la similaridad est dada por:
Sijc = 1 xic x jc rc
Objetivo
Formar grupos tal que los elementos de un grupo sean ms parecidos entre s que con los elementos de otro grupo.
Datos
Para realizar un anlisis de conglomerados como mtodo de clasificacin se puede partir desde matrices de datos con los formatos A y B descriptos anteriormente o directamente desde matrices de distancia.
106
Ejemplo
Base de datos Seleccin de genotipos. Garbanzos (Anexo). Anlisis de conglomerados para agrupar genotipos en funcin de las distancias entre ellos obtenidas a partir de todas las variables cuantitativas medidas (i.e., no se incluyeron las variables dicotmicas relacionadas a la incidencia de patologas).
Cuadro 45. Anlisis de conglomerados.
Men Estadsticas Comando Anlisis multivariado Opcin Anlisis de conglomerados Ventana Selector de Variables Variables tamao nmero largo ancho espesor altura INS NBA SBA PSEr larpedu larpedi larest anchoest nfolo larfol anchofol larsem anchsem espsem probu Criterios de clasificacin (opcional) genotipo Ventana Anlisis de conglomerados Solapa Jerrquicos (seleccionar mtodo y distancia)
107
Se construy una matriz de distancia entre genotipos usando la distancia Euclidea (Cuadro 47). Se utiliz el algoritmo encadenamiento promedio (UPGMA) de conglomeracin jerrquica. En la Figura 8 se muestra el dendrograma resultante de comparar la matriz de interdistancias entre genotipos de garbanzo y el algorimto UPGMA.
108
555 337 67 75 521 517 522 336 507 240 202 156 70 41 0,00 3,34 6,68 10,02 13,36
Distancia
Figura 8. Dendrograma resultante del anlisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclideas.
Interpretacin
Al analizar los dendrogramas, una pregunta muy frecuente es dnde realizar el corte sobre el eje de las abscisas (distancias) para definir el nmero de grupos o conglomerados que subyacen en la base de datos. Existen diferentes criterios de corte, uno frecuentemente utilizado es tomar la distancia que se encuentra a la mitad del rango total de los valores de distancia, en este ejemplo, el 50% de la distancia seria 6,68. Utilizando este criterio de corte el dendrograma
109
indica que el genotipo 555 es muy distinto al resto de los genotipos. Si usamos un criterio de corte del 25% de la distancia (3,34), los genotipos 521 y 517 conformaran un grupo y el resto de los genotipos seran todos diferentes. Debido a la experiencia del mejorador, en este ejemplo se fij como criterio de corte la distancia 5, encontrando que los genotipos 555, 75 y 41 permanecieron separados, mientras que los genotipos 337 y 67 formaron un grupo y los restantes genotipos otro grupo. Muchas veces el nmero de grupos formado depende del conocimiento del problema y de la conveniencia en los anlisis posteriores que pueden realizarse con estos grupos. Para la seleccin del algoritmo ms apropiado para estos datos se realizaron anlisis de conglomerados con los mtodos de encadenamiento completo, encadenamiento promedio (UPGMA) y Ward. En el Cuadro 48 se presentan los coeficientes de correlacin cofenticos obtenidos con los distintos mtodos de conglomeracin sobre la misma matriz de distancias Eucldeas. El algoritmo UPGMA produjo conglomerados ms afines a la estructura subyacente, ya que la correlacin cofentica usando este mtodo de agrupamiento (0.958) fue mayor que la encontrada usando otras tcnicas.
Cuadro 48. Coeficientes de correlacin cofentica obtenidos mediante cuatro algoritmos de conglomeracin sobre una misma matriz de distancias Eucldeas. Mtodo de conglomeracin Encadenamiento Completo (Complete linkage) Promedio (Average linkage) Mtodo de Ward Coeficiente de Correlacin Cofentico 0.936 0.958 0.907
A ttulo ilustrativo tambin se aplic un anlisis de conglomerados (UPGMA) sobre dos matrices de distancia diferentes teniendo en cuenta adems de las variables cuantitativas, las tres variables relacionadas a incidencia de patologas. Para la construccin de una matriz de distancia, se us el ndice de similitud de Gower y la transformacin 1-Sij para obtener distancias a partir de las similitudes. La otra matriz de distancia fue calculada a partir de la mtrica Eucldea. De los coeficientes de correlacin cofentico respectivos se concluye
110
que para este problema, el algortmo UPGMA aplicado sobre la matriz de distnacias Eucldeas reproduce bien la estructura de interdistancias de los genotipos. La pequea diferencia entre ambas matrices de distancias podras deberse al hecho de que la mayora de las variables en este ejemplo son cuantitativas (Figura 9).
555 75 521 517 522 336 507 240 156 202 70 337 67 41 0,00 3,33 6,65 9,98 13,31
555 507 240 75 521 517 336 522 156 202 70 337 67 41 0,00 0,20 0,41 0,61 0,82
Figura 9. Dendrograma resultante del anlisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Eucldeas (izquierda) y sobre la matriz de distancia construida a partir del ndice de similitud de Gower (derecha). Los datos incluyen 21 variables cuantitativas ms tres variables binarias relacionadas a la incidencia de patologas.
111
112
rbol de Clasificacin
Descripcin
Se denominan modelos de rbol porque el mtodo original de presentar los resultados es en forma de rbol binario. Un rbol de clasificacin es un conjunto de reglas determinadas por un procedimiento de ajuste por particiones binarias recursivas, donde un conjunto de datos es sucesivamente particionado. Esta tcnica est relacionada con tcnicas de anlisis de conglomerados divisivos. Inicialmente todos los objetos son considerados como pertenecientes al mismo grupo. El grupo se separa en dos subgrupos a partir de una de las variables regresoras de manera tal que la heterogeneidad, a nivel de la variable dependiente, sea mnima dentro de cada grupo formado. En la construccin de rboles de clasificacin, la medida de heterogeneidad recomendada es la deviance que depende de la heterogeneidad de clases en los grupos formados (i.e. proporcin de elementos de uno y otro grupo dentro del nodo). Los dos grupos (nodos) formados se separaran nuevamente si: (1) hay suficiente heterogeneidad dentro de ellos para producir una nueva particin de observaciones y/o (2) el tamao del nodo (i.e. cantidad de elementos en el grupo) es superior al mnimo establecido para continuar el algoritmo. El proceso se detiene cuando no se cumple una de estas condiciones. En cada instancia de separacin el algoritmo analiza todas las variables regresoras y selecciona, para realizar la particin, aquella que permite conformar grupos ms homogneos dentro y ms heterogneos entre ellos.
Objetivo
Conocer cules son las variables que permiten separar los grupos ms eficientemente y proveer valores umbrales de estas variables que permiten saber si una observacin pertenece a uno u otro nodo.
113
Datos
Se trabaja sobre una matriz n(m+1) de datos, cada uno de los n objetos u casos es caracterizado a travs de m variables cuantitativas. Una columna adicional es usada para indicar el grupo de pertenencia de los objetos (variable dependiente clasificatoria), el cual debe ser conocido a priori. El nmero de elementos por grupo debiera ser mayor al nmero de variables que se consideran en el anlisis.
Ejemplo
Base de datos Calidad de Soja (Anexo). rboles de clasificacin para investigar cul o cules variables climticas permiten separar mejor los ambientes que producen granos de soja con mayor contenido de protenas de aquellos con menor contenido. La identificacin de variables podra ser usado en una futura comparacin para predecir si debe esperarse alto o bajo contenido de protenas en un nuevo ambiente. Se trabaj con una matriz de dimensin 26(30+1), es decir 26 ambientes y 30 variables. Los ambientes fueron clasificados a priori segn la concentracin de protena estuviera por encima o debajo de la mediana. Se pretende identificar cul o cules son las variables climticas con mayor capacidad para clasificar a los ambientes en estos dos grupos. Las columnas de la matriz contienen informacin de variables climticas que podran predecir la calidad del grano antes de la cosecha (bh, tmed, tmax, tmin y rad). El nmero de variables usadas fue 15, ya que para cada variable climtica se utilizaron tres valores mensuales (diciembre, enero y febrero). En la Figura 10 se presenta el rbol de clasificacin obtenido.
114
Cuadro 49. rboles de clasificacin. Men Estadsticas Comando Anlisis multivariado Opcin rboles de clasificacin Ventana Selector de Variables Variable dependiente dependiente Regresoras bh dic bh ene bh feb tmax dic tmin dic rad dic Cuadro 50. Ventana rboles de clasificacin/regresin
Interpretacin
Se observa que de todas las variables climticas utilizadas para este anlisis, la temperatura media de febrero (tmed feb) y el balance hdrico de diciembre (bh dic) son las de mayor potencialidad para diferenciar entre los grupos que se encuentran por encima de la mediana en concentracin de protenas. Valores de tmed feb mayores a 25.3C caracterizan a los ambientes con contenido de protenas mayores a la mediana (del total de ambientes que pertenecan al grupo de contenido de protenas mayores a la mediana, el 100% posea una tme feb>25.3C). La prxima variable usada para identificar ambientes es el
115
balance hdrico de diciembre (bh dic), valores de esta variable menores o iguales a -75.8 mm permite diferenciar entre ambientes con mayor contenido de protena (4/5 20%).
Cuadro 51. Variables y valores umbral de un rbol de clasificacin para predecir la calidad del grano de soja antes de cosecha
rboles de clasificacin/regresin H= Deviance (suma (ni*ln(pi))
Nodo Raz 1 1.1 1.2 1.2.1 1.2.1.1 1.2.1.1.1 1.2.1.1.2 1.2.1.2 1.2.2 2 Formacin tmed feb(<=25,3) bh dic(<=-75,8) bh dic(>-75,8) rad ene(<=25,4) rad dic(<=20,3) bh ene(<=-79,1) bh ene(>-79,1) rad dic(>20,3) rad ene(>25,4) tmed feb(>25,3) Prediccin n mayor menor p(mayor) p(menor) 26 13 13 0,50 0,50 29,77 menor 22 9 13 0,41 0,59 5,00 mayor 5 4 1 0,80 0,20 20,60 menor 17 5 12 0,29 0,71 15,01 menor 15 3 12 0,20 0,80 8,32 mayor 6 3 3 0,50 0,50 0,00 mayor 1 1 0 1,00 0,00 6,73 menor 5 2 3 0,40 0,60 0,00 menor 9 0 9 0,00 1,00 0,00 mayor 2 2 0 1,00 0,00 0,00 mayor 4 4 0 1,00 0,00 H
(n=26)
rad ene(<=25,4; n=15) rad ene(>25,4; n=2) rad dic(<=20,3; n=6) rad dic(>20,3; n=9)
bh ene(<=-79,1; n=1)
bh ene(>-79,1; n=5)
Figura 10. rbol de clasificacin para identificar a travs de variables climticas registradas, antes de la cosecha, ambientes asociados a granos de soja con concentracin de protenas mayor a la mediana.
116
mostrar en un mismo espacio (aquel generado por los dos primeros ejes cannicos o funciones discriminantes) tanto a los objetos como a las variables.
Objetivo
Encontrar una o ms funciones, denominadas funciones discriminantes o ejes cannicos, que combinen linealmente los datos de caractersticas continuas ponderando cada uno de ellos por pesos tales que las diferencias entre grupos sean mximas a nivel de esta o estas funciones. Usar dichas funciones para identificar variables con buena capacidad de discriminacin de grupos y/o clasificar nuevos objetos en los grupos disponibles.
Datos
Se trabaja sobre una matriz n(m+1) de datos, cada uno de los n casos es caracterizado a travs de m variables cuantitativas. Una columna adicional es usada para indicar el grupo de pertenencia de los casos, el cual debe ser conocido a priori. El nmero de elementos por grupo debiera ser mayor al nmero de variables que se consideran en el anlisis.
Ejemplo
Base de datos Calidad de Man (Anexo). Anlisis discriminante para separar tres zonas productoras de man a travs de variables indicadoras de la calidad del grano, como Acidez, porcentaje de materia grasa (MG), ndice de Iodo (IY) y relacin de oleico/linoleico (O/L). Se trabaj con una matriz de dimensin 130(4+1), donde 130 es el nmero de muestras provenientes de alguno de los siguientes tres ambientes: Salta, Centro y Senz Pea. El tamao muestral fue suficiente para realizar este anlisis (i.e. el nmero de elementos por grupo fue mayor al nmero de variables que se consideran en el anlisis). La zona Central estuvo representada por 43 observaciones, la zona Senz Pea por 45
118
observaciones y la zona Salta por 42. Las columnas de la matriz poseen informacin de las m=4 variables que definen la calidad de aceite.
Cuadro 52. Anlisis discriminante.
119
Interpretacin
La primera funcin discriminante (FLD) que permite separar la Zona manicera de Salta de la zona Centro y Senz Pea es:
FLD=1.77+10.50*Acidez+2.83* O/L-0.02* IY-0.03* MG
Los pesos estandarizados (Cuadro 55) son utilizados para identificar la o las variables de mayor peso en la discriminacin entre ambos grupos.
120
Cuadro 55. Pesos asignados a 4 variables de calidad en man en la construccin de una FLD para separar las zonas maniceras en funcin de la calidad del grano de man.
Las caractersticas de mayor peso en la diferenciacin entre zonas es el porcentaje de Iodo (IY), este tiene peso negativo, luego se separan valores mayores en la zona de menor promedio para la FLD. El centroide para la zona Centro es de 1.78, para Sanz Pea -5.71 y para Salta de 7.94. La tasa de error aparente (tasa de mala clasificacin) de la funcin es 1.54%. Luego supongamos que tenemos una muestra nueva, es decir un aislamiento que no particip en el anlisis, por lo cual no sabemos a cual de estas zonas tendra ms chance de pertenecer y que los valores de las caractersticas qumicas del grano para esta nueva muestra son 0.56 para Acidez, 1.95 para la relacin O/L, 115 para porcentaje de Iodo (IY) y 46 para porcentaje de MG. El valor de la funcin para esa muestra ser 9.09 y como este es ms prximo a la Zona de Salta que resto se podra concluir que la muestra desconocida tiene ms chance de pertenecer a la Zona manicera de Salta. En este ejemplo, la primera FDL explica un 99.21% de la variabilidad entre grupos (segn muestran los autovalores asociados a cada funcin) y por tanto no tendra sentido examinar la segunda FDL. En la Figura 11 (izquierda) se presenta el grfico de dispersin de las muestras en el espacio discriminante, donde se visualiza que a nivel del Eje Cannico 1 hay una diferencia importante de las muestras procedentes de distintos ambientes, sobre todo de aquella proveniente de Salta. En la Figura 11 (derecha) se presenta un biplot sobre el espacio discriminante donde adems de la variabilidad entre observaciones es posible distinguir tambin las variables con mayor potencial para la clasificacin de observaciones en estas zonas.
121
2,95
1,51
Eje Cannico 2
0,07
-1,37
-2,81 -9,38
-4,41
0,56
5,53
10,51
Eje Cannico 1
O/L
Eje Cannico 2
3,17
Eje Cannico 1
Figura 11. Dispersin de muestras en funcin de dos ejes cannicos que combinan informacin sobre cuatro caractersticas qumicas del grano de man (izquierda) y biplot sobre el espacio discriminante (derecha).
122
En la campaa 2003/2004 se implantaron experimentos en diferentes ambientes de la regin pampeana argentina (Balcarce, Pergamino, Oliveros y Crdoba), con ocho hbridos comerciales de maz provenientes de los criaderos Syngenta Agro S.A., Dow Agrosciences S.A., Nidera Semillas S.A. y Monsanto Argentina S.A.: Dow-Mass462MG, Dow-Mass563MG, Nidera-AX882MG, Nidera-AX890MG, Monsanto-DK682MG, Monsanto-DK752MG, SyngentaNK830MG y Syngenta-NK900MG. Todos los genotipos incluyeron la transformacin transgnica para tolerancia a dao por Diatraea sacchararis. Los hbridos fueron sometidos a dos niveles de oferta nitrogenada edfica (baja=0 kg.ha-1 de fertilizante; alta=250 kg.ha-1 de fertilizante), en condiciones de alta densidad (aprox. 8 pl.m-2), y sin limitaciones hdricas ni de otros nutrientes como P y S. El diseo utilizado fue de parcelas divididas con tres repeticiones en cada localidad. Durante el ciclo del cultivo se determin la fenologa, la biomasa area particionada, el rea foliar, la intercepcin de radiacin fotosintticamente activa, la orientacin espacial de las hojas en el plano vertical y horizontal y la senescencia foliar post-F. En F se determin el
125
contenido de N en lminas y resto de biomasa area, y en madurez en los mismos componentes ms el grano, para determinar la acumulacin y particin de nitrgeno. Se determino el rendimiento en grano y sus componentes. A continuacin se presenta la lista de variables y la abreviatura incluida en el archivo que contiene los datos (Ideotipos de Maz.idb).
2
Variable
Rendimiento (g/m ) Peso de granos (mg) Numero de granos por m2 Materia seca area en F (g m-2) Materia seca area en MF (g m-2) Materia seca area entre F y MF (g m-2) Peso seco de hojas en F (g m-2) Peso seco de hojas en MF (g m-2) ndice de cosecha Absorcin de nitrgeno de E a F (g m-2) Absorcin de nitrgeno desde F a MF (g m-2) rea foliar en F Nitrgeno foliar especifico en F Insercin horizontal entre surco Insercin vertical promedio hojas 1-3 Insercin vertical promedio hojas 4-6 Insercin vertical promedio hojas 7-9 Eficiencia intercepcin de la radiacin en F Eficiencia intercepcin de la radiacin en Fll Numero de hojas verdes en MF PAR interceptado acumulado desde E a F (mj/M2) PAR interceptado acumulado desde F a MF (mj/M2) Eficiencia en el uso de la radiacin desde E a F (g/mj) Eficiencia en el uso de la radiacin de E a F (g/mj) Eficiencia en el uso del Nitrgeno
E= Emergencia F= Floracin MF= Madurez Fisiolgica Fll= Fin de llenado del grano
Abreviatura Rinde PG NG MS1 MS2 MS2-1 PSH1 PSH_MF IC AbsN1 AbsN2 AF_F NFE_F IH_es IV1-3 IV4-6 IV7-9 EI_F EI_Fll #HV_MF IPAR1 IPAR2 RUE1 RUE2 EUN
126
EEA OLIVEROS
El ensayo se llev a cabo durante tres campaas (01_02, 02_03, 03_04) en 16 localidades (A. Seco, ArmstrongA, Bouquet, C.Gmez, Carcaraa, Casilda, Cavanagh, EEAOliveros, Las Rosas, Maizales, Oliveros, OliverosB, Rueda, Totoras, TotorasA y TotorasB). Se probaron tres cultivares de soja A5520RG, A6040RG y DM4800RR. Las variables utilizadas en los ejemplos y las abreviaturas incluidas en el archivo Factores Limitantes. Soja.idb se presentan a continuacin:
Variables Rendimiento Nmero de granos Peso de grano Precipitacin acumulada de E a R1 (mm) Precipitacin acumulada de R1 a R5 (mm) Precipitacin acumulada de R5 a R5 (mm) Radiacin acumulada de E a R1 Radiacin acumulada de R1 a R5 Abreviatura Rend NG PG Pr1 Pr2 Pr3 Ra1 Ra2
127
Radiacin acumulada de R5 a R7 Temperatura media de E a R1 (C) Temperatura media de R1 a R5 (C) Temperatura media de R5 a R7 (C) Fotoperodo de E a R1 (hs) Fotoperodo de R1 a R5 (hs) Fotoperodo de R5 a R7 (hs) Agua til inicial (mm) Contenido de materia Orgnica (%) Profundidad del horizonte B textural (cm) M delta (%) Pisos de arado (%) Conductividad hidrulica (cm/seg)
Estados fenolgicos E= Emergencia R1= Floracin R5= Comienzo de llenado de granos R7= Madurez Fisiolgica
Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 AUI MO PrB2t %Md %pi Chid
128
129
2. Caracteres de inflorescencia Largo y ancho de estandarte (cm) Largo de pednculo (cm) Nmero de vainas Nmero de semillas por vainas Largo, ancho, espesor y tamao de vainas (cm) 3. Caracteres de la semilla Nmero de semillas Peso de semillas Largo, ancho y espesor de semillas (cm) 4. Otros Incidencia patgeno A Incidencia patgeno B Incidencia patgeno c Contenido de protenas larest anchoest larpedu NBA SBA Largo Ancho Espesor Tamao NSE PSE Larsem Anchosem espsem InsPA InsPB InsPC probru
Las unidades experimentales fueron parcelas de cuatro surcos de cuatro metros de longitud y setenta centmetros de espaciamiento entre surcos, con una densidad de siembra de diez semillas por metro lineal, uniformemente distribuidas. Los ensayos fueron llevados a cabo bajo un diseo en bloques completos al azar, con cuatro repeticiones para los ambientes uno y dos y con tres repeticiones para el ambiente tres.
130
131
132
Se midi el contenido de protena (%) de granos de soja de 26 procedencias. De cada ambientese obtuvieron registros mensuales, desde diciembre a mayo, de 4 variables climticas: temperatura media (tmed), temperatura mxima (tmax), temperatura mnima (tmin), radiacin (rad) y se estim el balance hdrico (bh) a partir de la diferencia entre la precipitacin acumulada mensual y la evapotranspiracin acumulada mensual.
133
134
135
136
Localidades Gral Deheza Gral Cabrera Manfredi El sur San Ambrosio Las Vertientes Reduccin las acequias
Cuadro 57. Genotipos presentes en los ECR de cultivares del Programa de Mejoramiento de Man de la EEA-Manfredi, INTA en la campaa agrcola 1996/97.
Genotipo Manf393 Mf447 Mf480 Florman Mf457 Mf484 Mf485 Mf486 Mf487 Mf489 Tegua
Ciclo 1 Corto Corto Corto Largo Largo Largo Largo Largo Largo Largo Largo
Parentesco Robut 33-1 / NC Ac 2698 Florman / Manfredi Virginia 5 CS 9 / ICGS 5 Seleccin de Florunner Florman / Tachimasari Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Florman / Marc 1 Seleccin de Florunner
137
138
Bibliografa Citada
Annicchiarico, P. 2002. Genotype x environment interaction. Challenges and opportunities for plant breeding and cultivar recommndations. Food and Agriculture Organization of the United Nations. ISBN 92-5-104870-3 Arroyo,A., Balzarini,M., Bruno,C., Di Rienzo,J., 2005. rboles de expansin mnimos: ayudas para una mejor interpretacin de ordenaciones en bancos de germoplasma. Interciencia, ISSN 0378-1844 Vol 30 N 9: 550-554. Balzarini M. 2000. Biometrical Models for Predicting Future Performance in Plant Breeding. Thesis Ph.D. Louisiana State University, Baton Rouge, LA, USA, 268 pp. Balzarini M., S.B. Milligan, M.S. Kang. 2001.Best linear unbiased prediction: A mixed model approach in multi-environment trials. In M.S. Kang (ed.) Crop Improvement: Challenges in the 21st Century. pp.102-113. Food Products Press, Binghamton, NY. Balzarini, M. 2003. Introduccin al Anlisis Multivariado. Notas de clases. Maestra en Estadstica Aplicada de la Universidad Nacional de Crdoba. 130 pp Balzarini, M. y Di Rienzo, J. 2004. Info-Gen: Software para anlisis estadstico de datos genticos. Universidad Nacional de Crdoba. Crdoba. Argentina. Becker H.C. 1981. Correlations among some statistical measures of phenotypic stability. Euphytica 30: 835-840. Becker, H. y Len, J. 1998. Stability analysis in plant breeding. Plan Breed 101:1-23. Bernardo R. 1999. Best linear unbiased predictor analysis. En: The genetics and explication of heterosis in Crops. American Society of Agronomy, Crop Science Society of America, Soil Science Society of America, Madison, Wisconsin, pp. 269276. Bindinger, F., Hammer, G. and Muchow, R. 1996. The physiological basis of genotype by environment interaction in crop adaptation. En: M. Cooper & G. L. Hammer, eds. Plant adaptation and crop improvement, p.329-347. Wallingford, UK, CABI. Borlaug, N. E. 2000. Text of speech: http://usinfo.state.gov/topical/global/biotech Bradley, J., Knittle, K. and Troyer, A. 1988. Statisical methods in seed corn product selection. J. Prod. Agric. 1:34-38. Braun, H., Pfeiffer, W. and Pollmer, W. 1996. CIMMYTs approach to breeding for wide adaptation. Euphytica, 92:175:183. Casanoves F. 1996. Interaccin Genotipo-ambiente. Evaluacin simultanea de modelos usados para la evaluacin de genotipos. Tesis de Maestra. Facultad de Agronoma, UBA. 120 pp. Casanoves, F.y Balzarini, M. 2002. Predictores lineales insesgados (BLUP) en ensayos comparativos de rendimiento. Journal or Basic &Applied Genetics 14 (3) pp:55-62. Casanoves F. 2004. Anlisis de ensayos comparativos de rendimiento en mejoramiento vegetal en el marco de los modelos lineales mixtos. Tesis de Doctorado. Facultad de Agronoma, UNC. 144 pp. Casanoves, F., J. Baldessari, and M. Balzarini. Evaluation of multi-environmental trials of peanut (Arachis hypogaea L.) cultivars. 2005a. Crop Sci. 45:18-26. Casanoves F, Macchiavelli R, and Balzarini M. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. 2005b. Crop Sci., 45: 1927-1933
139
Casini C., Dardanelli J., Martinez M., Balzarini, M., Borgogno C., and Nasetta M. 2003. Oil quality and sugar content of peanut (Arachis hypogaea) grown in Argentina. Their relationship with climatic variables and seed yield. Journal of Agricultural and Food Chemistry, American Chemical Society. 51(21) 6309-6313. ISSN. 0021-8561 Casini C., Martnez M.J., Dardanelli, J., Borgogno C., Balzarini M., Nassetta M., Silva C. y Avalis D. 2002. Relacion entre algunos componentes qumicos que caracterizan al man argentino con variables climticas y de cultivo. IDIA XXI, 2 (3) Pp. 168-171 CIMMYT. 1989. Towars the 21st century: CIMMYTs strategy. El Batan, Mexico, CIMMYT. Cornelius, P.L. 1993. Statistical test and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci., 33: 1186-1193. Cornelius, P.L., Seyedsadr, M.S. y Crossa, J.L. 1992. Using the shifted multiplicative model to search for separability in crop cultivar trials. Theor. Appl. Genet., 84: 161172. Cornelius, P.L.Crossa, J. y Seyedsadr, MS. 1996. Statistical test and estimators of multiplicative models for genotype-by-environment interaction. In M.S. Kang y H.G. Gauch, eds. Genotypr-by-environment interaction, p 199-234.Boca Raton, FL, CRC Press. Crossa, J. Cornelius, P.L. y Yan W. 2002. Biplots of Linear-Bilinear Models for Studying Crossover Genotype _ Environment Interaction. Crop Sci. 42:619633. Crossa, J. Cornelius, P.L., Sayre, K. y Ortiz-Monasterio, R.J. 1995. A shifted multiplicative model fision method for grouping environments without cultivar rank change. Crop Sci., 35: 54-62. Crossa, J. Cornelius,P.L. Seyedsadr, M.S. y Byre, P. 1993. A shifted multiplicative model cluster anlisis for grouping environments without cultivar rank change. Theor. Appl. Genet., 85:577-586. Crossa, J. y Cornelius, P.L. 1997. Sites regresion and shifted multiplicative model clustering of cultivar trials sites Ander heterogenety of variantes. Crop Sci., 37: 406415. Dardanelli, J., Balzarini, M, Martnez, M., Cuniberti, M., Resnik, S., Ramunda, F., Herrero, R and Hector Baigorri. Mega-environments for Soybean Seed Oil and Protein Concentrations and Maturity Groups effects in the Argentinean Crop Region. Crop Sci. In press. Dayde J., Lacombe S. 2000. Variation of isoflavone content and composition in soybean seeds and related products. Proceedings of the Third International Soybean Processing and Utilization Conference, Tukuba, Ibaraki, Japan, 55-58. Di Rienzo, J.A.; Guzmn A.W.; Casanoves F. 2001. A Multiple Comparisons Method based on the Distribution of the Root Node Distance of a Binary Tree. Journal of Agricultural, Bioogical, and Environment Statistics, 7 (1): 146-159. Dyke, G., Lana, P. and Jenkyn, J. 1995. Sensitivity (stability) analysis of multiple variety trials, wirh special reference to data expressed as proportions or percentages. Exp. Agric., 31:75:87. Eskridge, K. 1990. Selection of stable cultivars using a segety-first rule. Crop Sci., 30:369-374. Evans, L. 1993. Crop evolution, adaptation, and yield. New York, Cambridge Univ. Press. Gabriel, k. R. 1971. Biplot display of multivariate matrices with application to principal
140
components analysis. Biometrika, 58:453-467. Gauch H.G. Jr. 1988. Model selection and validation for yield trials with interaction. Biometrics 44: 705-715. Gauch, H. G. and Zobel, R. W. 1996. AMMI analysis of yield trials. In M.S. Kang & H.G. Gauch, eds. Genotype-by-environments interaction. p. 85-122. Boca Raton, FL, CRC Press. Gauch, H. G. and Zobel, R. W. 1997. Identifying mega-environments and targeting genotypes. Crop Sci., 37:311-326 Gollob, H.F. 1968. A statistical model with combines features of factor analytic and anlisis of variante technique. Psychometrika, 33: 73-115. Gower, J.C. 1985. Measures of similarity, dissimilarity and distance, p. 397-405. In Kotz, S. and Jonhson N. Ed. Encyclopedia of stastistical science. Vol. 5. Wiley, New York. Kang M.S. 1990. Understanding and utilization of genotype-by-environment interaction in plant breeding. En. Genotype-by-environment interaction in plant breeding. Kang, M.S (ed.) pp.52-68. Kang, M.S. 1998. Using genotype-by-environment interaction for crop cultivar development. Advances in Agronomy 62: 199-252. Kang, M.S. 2002. Genotype-environment interaction: Progress and prospects. Kang M.S. (ed.) CABI Publishing, New York Kang. M. S. y Pham, H. N. 1991. Simultaneous selection for high yielding and stable crop genotypes. Agron. J., 83:161-165. Kang M, Balzarini M and J. Guerra. 2004. Genotype-by-Environment interaction. In A. Saxton (ed.) Genetic Analysis of Complex Traits Using SAS. pp 69-94. BBU Press. SAS Institute, Cary NC. ISSN 1-59047-507-0. Kuehl, Robert O. 2001. Diseo de Experimentos. Principios estadsticos de diseo y anlisis de investigacin. 2 edicin. 666 pp. Thomson Learning. Mxico. Lin, C.S. and Binns, M.R. 1991. Genetic properties of four types of stability parameter. Theor. Appl. Genet., 82:505-509. Lin, C.S. Binns M.R. and Lefkovitch L.P. 1986. Stability analysis: Where do we stand?. Crop Sci., 26: 894-900. Macchiavelli R. and Beaver J. 1999. Analysis of genotype-by-environment interaction with AMMI models using SAS Proc Mixed. Applied Statistics in Agriculture 11: 171183. Piepho H.P. 1998. Methods for comparing the yield stability of croppping systems A review. J. Agron. Crop Sci., 180:193-213. Robinson G.K. 1991. That BLUP is a good thing: The estimation of random effects. Statistical Sciences. 6: 15-21. Schabenberger, O. y Pierce, F. 2002. Contemporary statistical models for the plant and soil sciences. p. 738. Taylor & Francis. CRC Press. Yan W. y Hunt L. A.2002. Biplot Analysis of Diallel Data. Crop Sci. 42:2130. Yan W., Hunt L. A., Sheng Q. and Szlavnics Z. 2000. Cultivar evaluation and megaenvironment investigation based on GGE Biplot. Crop Sci. 40: 597-605. Zobel, R.W., Wright, M.J. y Gauch, H.G. 1988. Statistical analysis of a yield trial. Agron. J., 80: 388-393.
141