Sei sulla pagina 1di 7

DISEO EXPERIMENTAL Y MTODOS ESTADSTICOS

Entregable 2. OSCAR ARANGO BEDOYA Utilizar la librera permanente de SAS creada en el entregable anterior para analizar la variable intramfat (grasa intramuscular): 1. Comparar los siguientes diseos: Anlisis completamente al azar, bloques al azar y bloques con interaccin. En cada uno de ellos analizar la significacin del modelo y de cada uno de los factores (raza, ao), la R2, el RMSE. 20 puntos. Puesto que la variable intramfat no tena una distribucin normal, se cambi por la variable adg. Para esta variable se realiz el anlisis de normalidad para cada una de las 7 razas utilizando el PROC UNIVARIATE, obteniendo que la distribucin de las razas 2 y 3 no era normal, quizs debido a la presencia de outliers. Bajo esta situacin se tendra la opcin de hacer algn ajuste de normalidad para las razas 2 y 3 transformndolas o eliminando los outliers, pero dado que se trata de una base de datos que no se conoce y que el tiempo disponible es reducido, se decidi realizar es estudio excluyendo dichas razas. Anlisis completamente al azar Se utiliz el PROC GLM para realizar el anlisis, el programa simplificado es el siguiente:
PROC GLM; CLASS breed; MODEL adg = breed; MEANS breed/Tukey; RUN; QUIT;

Los resultados que arroja SAS se presentan en el siguiente cuadro


The GLM Procedure Dependent Variable: adg Source Model Error Corrected Total DF 4 345 349 R-Square 0.349055 Source breed DF 4 adg Sum of Squares 13.14007474 24.50465241 37.64472714 Coeff Var 18.46750 Mean Square 3.28501868 0.07102798 F Value 46.25 Pr > F <.0001

Root MSE 0.266511 Mean Square 3.28501868

adg Mean 1.443133 F Value 46.25 Pr > F <.0001

Type I SS 13.14007474

Como se puede observar, el p-valor para el modelo es < 0,0001, lo que indica que es altamente significativo, o sea que se rechazara la hiptesis nula de la no influencia de los factores incluidos en el modelo, en otras palabras, que el factor raza tiene un efecto

significativo sobre la ganancia de peso diaria. El R2 obtenido es bajo (R2 = 0,349), lo que significa que el modelo solo explica un 34,9% de la variacin de la variable independiente (ganancia de peso diaria). La raz cuadrada del cuadrado medio del error (RMSE) que representa la variabilidad dentro de los grupos, en este caso es de 0,2665. En la segunda parte de la tabla se observa que la raza (el nico factor incluido en el modelo) tiene un p-valor < 0,0001, o sea que es altamente significativo, en otras palabras, que existen diferencias significativas en la ganancia de peso diaria segn las razas. Modelo de bloques al azar La programacin de SAS y la salida que arroja el programa se muestran a continuacin:
PROC GLM; CLASS breed year; MODEL adg = breed year; RANDOM year / test; RUN;
The GLM Procedure Dependent Variable: adg Source Model Error Corrected Total R-Square 0.350969 Source breed year DF 4 1 adg DF 5 344 349 Sum of Squares 13.21212940 24.43259774 37.64472714 Coeff Var 18.46712 Mean Square 2.64242588 0.07102499 F Value 37.20 Pr > F <.0001

Root MSE 0.266505

adg Mean 1.443133 F Value 46.25 1.01 Pr > F <.0001 0.3145

Type I SS 13.14007474 0.07205466

Mean Square 3.28501868 0.07205466

Se observa que tanto el modelo como el factor raza son significativos (p-valor < 0,0001), pero el factor de bloqueo (ao) no lo es (p-valor = 0,3145). El R2 aument muy levemente, en este caso el modelo explica un 35,1% de la variacin en la variable adg y el RMSE es prcticamente el mismo que en el caso anterior. Esto significa que introducir el ao como factor de bloqueo no representa una mejora apreciable en el modelo. Diseo de bloques con interaccin En este diseo se trata de observar el efecto de la interaccin entre el factor raza y el factor ao sobre la variable de respuesta. El programa SAS utilizado y su respectiva salida son:
PROC GLM; CLASS breed year; MODEL adg = breed year breed*year; RANDOM year breed*year / test; RUN;

Source Model Error Corrected Total

DF 9 340 349 R-Square 0.426355

Sum of Squares 16.05001154 21.59471560 37.64472714 Coeff Var 17.46336 Type I SS 13.14007474 0.07205466 2.83788214

Mean Square 1.78333462 0.06351387

F Value 28.08

Pr > F <.0001

Root MSE 0.252020 Mean Mean Square 3.28501868 0.07205466 0.70947054

adg Mean 1.443133 F Value 51.72 1.13 11.17 Pr > F <.0001 0.2876 <.0001

Source breed year breed*year

DF 4 1 4

Se obtuvo que el modelo, la raza y la interaccin entre la raza y el ao son altamente significativos (p-valor < 0,0001), pero el factor ao no lo es (p-valor = 0,2876). La R2 obtenida es mejor porque aument a 0,426355, el valor para RMSE tambin es mejor en este caso porque disminuy a 0,252020. 2. Analizar las condiciones de aplicabilidad en cada uno de los modelos. 10 puntos. Diseo completamente al azar Es un modelo de diseo experimental que se utiliza cuando el objetivo es comparar dos o ms tratamientos con el fin de elegir la mejor alternativa de las varias que existen, o por lo menos para tener una mejor comprensin del comportamiento de la variable de inters en cada uno de los distintos tratamientos. En este caso se est comparando la ganancia de peso diaria entre diferentes razas, donde la raza es el nico factor que est influyendo sobre la variable de respuesta. El diseo completamente al azar es el ms simple de todos los diseos que se utilizan para comparar dos o ms tratamientos dado que solo se consideran dos fuentes de variabilidad: los tratamientos y el error aleatorio. Pero puede haber situaciones donde este diseo no es adecuado por haber fuentes importantes de variabilidad (factores de bloque) que llevan a obtener resultados no confiables de los tratamientos y objetos del estudio. En el caso que se est analizando existe el riesgo de que el factor ao pueda tener un efecto significativo sobre la variable de respuesta y al no incluirlo en el diseo las conclusiones podran ser errneas. Al aplicar este diseo dado que solo hay dos fuentes de variacin otorgamos el mximo nmero de grados de libertad para el error, con lo cual el cuadrado medio del error se hace ms pequeo y el valor F del modelo ms grande. Diseo de bloques al azar Este diseo es aplicable en casos en los que la nica fuente de variabilidad son los tratamientos pero donde se concoce de antemano que existen otras fuentes de variacin, que no constituyen el objetivo de la investigacin, pero que deberan ser controladas porque pueden influir sobre la variable de respuesta. En este caso se trata de disminuir el error aadiendo un bloque que sera el factor ao como efecto aleatorio.

El nmero de grados de libertad del modelo se increment y el del error se redujo, pero la reduccin obtenida en el error fue muy pequea, por tanto, al final se obtuvo un valor F para el modelo inferior al obtenido con el modelo de diseo completamente al azar. Diseo de bloques con interaccin Se tiene la situacin anterior, pero adems de introducir el factor de bloqueo (ao) tambin interesa conocer si existe algn tipo de interaccin entre los factores (raza y ao). A pesar de que se obtuvo que la interaccin es significativa, la misma sera difcil de explicar debido a que el factor ao no tiene influencia significativa sobre la variable de respuesta. El nmero de grados de libertad se increment de 4 en el primer modelo a 9 en ste y la reduccin obtenida en el error es muy pequea, de tal manera que en este caso introducir la interaccin no conduce a encontrar un mejor modelo. 3. Elegir de forma justificada el modelo ms apropiado de anlisis. 10 puntos. Como se ha comentado en el punto anterior, al introducir en el modelo el factor ao y la interaccin raza-ao la suma de cuadrados del error se reduce muy poco y se estn aumentando los grados de libertad del modelo, con lo cual el cuadrado medio del error tambin disminuye. El modelo est perdiendo potencia y no se est logrando casi nada al aadir los factores ao y la interaccin, dado que el factor ao no result significativo. La explicacin del porque la interaccin raza-ao si fue significativa podra radicar en el hecho de que el factor raza tiene una significancia muy alta. En razn a lo anterior y dado que los modelos entre ms sencillos son mejores y ms fciles de explicar, el modelo ms apropiado para el anlisis es el modelo de diseo completamente al azar. 4. Comparar las medias relativas a razas. Justificar la eleccin del mtodo de comparacin (comparaciones a posteriori, contrastes ortogonales, LSmeans). 20 puntos. Se ha elegido LSmeans como mtodo de comparacin porque en este caso el nmero de observaciones de la variable de respuesta adg es diferente para cada raza, es decir, que el diseo es desbalanceado y queremos comparar todas las medias de todas las razas entre si para ver entre cuales existen diferencias significativas. Puesto que se escogi el modelo de diseo completamente al azar, LSMEANS en el programa:
OPTION NODATE; DATA ENTREG2; SET SASUSER.DEME; IF adg=. then delete; IF breed = 2 or breed = 3 THEN delete; PROC SORT; BY breed; PROC GLM; CLASS breed; MODEL adg = breed; LSMEANS breed/pdiff stderr; RUN;

se introduce

The GLM Procedure Least Squares Means Standard Error 0.03185413 0.03140859 0.03162901 0.03208412 0.03231918 LSMEAN Number 1 2 3 4 5

breed 1 4 5 6 7

adg LSMEAN 1.41028571 1.62861111 1.64367377 1.11008520 1.40911765

Pr > |t| <.0001 <.0001 <.0001 <.0001 <.0001

Least Squares Means for effect breed Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: adg i/j 1 2 3 4 5 1 <.0001 <.0001 <.0001 0.9795 2 <.0001 0.7356 <.0001 <.0001 3 <.0001 0.7356 <.0001 <.0001 4 <.0001 <.0001 <.0001 <.0001 5 0.9795 <.0001 <.0001 <.0001

El resultado de LSmeans muestra que existen diferencias significativas entre las medias de las muestras (1 y 2), (1 y 3) y (1 y 4); (2 y 4) y (2 y 5); (3 y 4) y (3 y 5); (4 y 5). 5. Calcular la potencia del modelo de anlisis elegido y el tamao muestral que hubiera sido suficiente dadas las diferencias observadas. 10 puntos Se calcul la potencia para el modelo elegido, utilizando la siguiente programacin en SAS:
DATA poder; alpha=0.05; df1=4; df2=345; ssb=13.14007474; msw=0.07102798; lambda=ssb/msw; Fcrit=FINV(1-alpha,df1,df2); power=1-CDF('F',Fcrit,df1,df2,lambda); PROC PRINT; RUN;
Obs 1 alpha 0.05 df1 4 df2 345 ssb 13.1401 msw 0.071028 lambda 184.999 Fcrit 2.39783 power 1

La potencia es igual a 1.0, lo que significa que el modelo es muy potente para detectar las diferencias observadas entre las medias de adg de las distintas razas. Para el tamao de muestra se us el siguiente programa:
DATA Tmuestra; DO n=2 TO 50; alpha =0.05; t=5; df1=t-1; df2=t*n-t;

ssb=13.14007474; msw=0.07102798; lambda=ssb/msw; Fcrit=FINV(1-alpha,df1,df2); power=1-CDF('F',Fcrit,df1,df2,lambda); OUTPUT; END; PROC PRINT; RUN;
Obs 1 2 3 4 5 n 2 3 4 5 6 alpha 0.05 0.05 0.05 0.05 0.05 t 5 5 5 5 5 df1 4 4 4 4 4 df2 5 10 15 20 25 ssb 13.1401 13.1401 13.1401 13.1401 13.1401 msw 0.071028 0.071028 0.071028 0.071028 0.071028 lambda 184.999 184.999 184.999 184.999 184.999 Fcrit 5.19217 3.47805 3.05557 2.86608 2.75871 power 1.00000 1.00000 1.00000 1.00000 1.00000

La salida de SAS muestra que un tamao de muestra igual a 2 es suficiente para detectar las diferencias entre las muestras con una potencia igual a 1. 6. Razona si estara justificado un anlisis anidado, donde el ao estuviera jerarquizado a raza. Cmo debera plantearse? Qu modificaciones habra que hacer en la base de datos? 10 puntos. Un diseo anidado podra haberse planteado si la base de datos hubiera sido del siguiente tipo:
Ao Ao 1 Raza 1 X X X X Ganancia de peso diaria Raza 2 Raza 3 Raza 4 X X X X X X X X X X X X Raza 5 X X X X

Ao 2

Es decir, el caso en el que no se hubiera tenido la informacin completa de adg para cada raza en los aos 1 y 2 sino que para algunas razas se hubieran tenido datos en el ao 1 y para otras razas datos en el ao 2. En tal situacin el modelo del diseo anidado sera de la siguiente forma:

Yij= + i + () ij + ij
Como el ao no es un factor de inters, ste de definira como aleatorio. Para aplicar el diseo anidado se tendra entonces que omitir parte de la informacin disponible en la base de datos, lo cual no es justificable. 7. El desarrollo fisiolgico del animal en el momento del sacrificio (indicado por la edad de sacrificio, ageslg) podra estar influyendo en el contenido de grasa del msculo analizado? Contrasta esta hiptesis. 10 puntos.

Puesto que la variable intramfat se cambi por la variable agd, se analiz la relacin de sta ltima con la variable ageslg, para lo cual se introdujo la variable ageslg en el modelo:
PROC GLM DATA = ENTREG2; CLASS breed; MODEL adg = ageslg breed/NOINT SOLUTION SS1; LSMEANS breed/pdiff stderr; RUN;
Source Model Error Uncorrected Total R-Square 0.391046 Source ageslg breed DF 6 331 337 Squares 709.6635901 22.3021169 731.9657071 Mean Square 118.2772650 0.0673780 F Value 1755.43 Pr > F <.0001

Coeff Var 18.07069 DF 1 5

Root MSE 0.259573

adg Mean 1.436429 F Value 9940.94 118.33 Pr > F <.0001 <.0001

Type I SS 669.8006608 39.8629294

Mean Square 669.8006608 7.9725859

Least Squares Means for effect breed Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: adg i/j 1 2 3 4 5 1 0.0004 0.0018 <.0001 0.4583 2 0.0004 0.7486 <.0001 <.0001 3 0.0018 0.7486 <.0001 0.0003 4 <.0001 <.0001 <.0001 <.0001 5 0.4583 <.0001 0.0003 <.0001

Se obtuvo como resultado que tanto el modelo como las variables ageslg y breed son altamente significativas. Al introducir la variable ageslg en el modelo se obtiene un R2 de 0,39, mejor que el que se obtuvo con el modelo con breed como nico factor. El cuadrado medio del modelo tambin muestra un aumento importante mientras que el del error se reduce muy poco. El cuadrado medio del factor ageslg es mucho mayor que el del factor breed, lo que significa que influye ms sobre la variable de respuesta. De lo anterior se concluye que para obtener resultados ms reales se debe realizar el ajuste que permita comparar los pesos al momento del sacrificio a una misma edad para todas las razas. La tabla de comparacin de medias para este ltimo modelo muestra que hay menos diferencias significativas comparado con el modelo sin la variable agesld. Las principales diferencias se presentan entre la raza nmero 6 (4 en la codificacin de SAS) y las dems razas.

Potrebbero piacerti anche