Sei sulla pagina 1di 16

ANLISIS DE VARIANZA DE DOS FACTORES

Formatted: Centered

PRESENTADO POR LIDA BURBANO CORTEZ ANDREINA CRESTO BELTRAN ANDREA PLAZA SANCHEZ KAREN MENDEZ RUIZ KATERINE PACHECO JULIO

PRESENTADO A OSWALDO BLANQUISETT

FUNDACION UNIVERSITARIO TECNOLOGICO COMFENALCO ADMINISTRACIN DE EMPRESAS CARTAGENA 2008

ANLISIS DE VARIANZA DE DOS FACTORES Conceptos 1. Anlisis de la varianza El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H 0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor crtico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a prximos a 0 es aproximadamente igual a a m. Una primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/ m, aunque resulta un mtodo muy conservador. Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivariante.

Formatted: Justified

2. Bases del anlisis de la varianza Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica poblacin normal. A partir de ellas existen dos maneras
2

Formatted: Justified

1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del

error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas 2 y la media de k estimadores centrados es tambin un estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los trminos independientes de la suma de cuadrados. 2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es tambin un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras provengan de la misma poblacin. La distribucin muestral del cociente de dos estimaciones independientes de la varianza de una poblacin normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hiptesis usando esa distribucin. Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma poblacin. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un nico contraste se contrasta la igualdad de k medias. Existe una tercera manera de estimar la varianza de la poblacin, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una nica muestra, su varianza muestral tambin es un estimador centrado de 2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.

Los resultados de un anova se suelen representar en una tabla como la siguiente:

Fuente de variacin G.L. Entre grupos k-1 Tratamientos Dentro (n-1)k Error Total kn-1

SS SSA SSE SST

MS SSA /(k-1) SSE /k(n-1)

F MSA /MSE

Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

F se usa para realizar el contraste de la hiptesis de medias iguales. La regin crtica para dicho contraste es F > F -1,(n-1)k)

Algunas propiedades Es fcil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados: SST = SSA + SSE El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos, sin embargo es recomendable iguales tamaos por dos motivos: 1) La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el tamao es igual.

2) Igual tamao minimiza la probabilidad de error tipo II.

Ejemplo 1 Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco

a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son: Grupo 3 163 170 158 162 170

1 180 173 175 182 181 La tabla de anova es: Fuente de variacin Tratamiento Error Total

2 172 158 167 160 175

4 158 146 160 171 155

5 147 152 143 155 160

GL 4 20 24

SS 2010,64 894,4 2905,04

MS 502,66 44,72

F 11,24

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes. La tabla de anova es

que incluye tambin el valor p asociado al contraste. Anlisis de la varianza de dos factores Es un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes de variacin. En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensin arterial, se podra plantear que, quizs, la evolucin de la misma fuera diferente para los hombres y las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en cada muestra no fuera el mismo, podra ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolucin segn el sexo. En un anova de dos vas se
Formatted: Justified

clasifica a los individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observacin individual se representa como:

El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemtico de este anlisis es: modelo I modelo II modelo mixto
i o Ai el efecto del nivel i del 1 factor, j o Bj el efecto del nivel j del 2 factor y las desviaciones aleatorias alrededor de ijk las medias, que tambin se asume que estn normalmente distribuidas, son 2 .

A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo aade la de aditividad de los efectos de los factores. A los trminos ( )ij, (AB)ij, (B)ij se les denomina interaccin entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la pldora.

Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de resultados posibles se esquematizan en la figura

En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fcilmente observables. Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin. Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnfero y los hombres antes con el placebo. La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn por separado, por lo que, si en un determinado estudio se encuentra interaccin entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biologa se le denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser hombre lo potencia (segn el sexo que se tome como referencia). Identidad de la suma de cuadrados La suma de cuadrados total en un anova de 2 vas, es:

(donde para representar las medias se ha usado la convencin habitual de poner un punto (.) en el lugar del subndice con respecto al que se ha sumado) 2 que dividida por sus grados de libertad, abn en el supuesto de que las ab muestras provengan de una nica poblacin. Se puede demostrar que

que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos sumandos reciben respectivamente el nombre de suma de cuadrados del 1 factor (tiene a -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1 factor), del 2 factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 2 factor), de la interaccin (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a la interaccin) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos alrededor de las medias de cada muestra). Los resultados de un anlisis de la varianza de dos factores se suelen representar en una tabla como la siguiente: Fuente de variacin GL SS MS
Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

1 factor 2 factor Interaccin Error Total

a-1 b-1 (a - 1)(b - 1) ab(n - 1) abn - 1

SSA SSB SSAB SSE SST

SSA/(a - 1) SSB/(b - 1) SSAB/[(a - 1)(b - 1)] SSE/[ab(n - 1)]

Los grados de libertad tambin son aditivos. En ocasiones se aade una primera lnea llamada de tratamiento o de subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interaccin, que corresponderan a la suma de cuadrados y grados de libertad del tratamiento de un anlisis de una va en que las ab muestras se considerarn como muestras de una clasificacin nica.

Para plantear los contrastes de hiptesis hay que calcular los valores esperados de los distintos cuadrados medios. Contrates de hiptesis en un anlisis de la varianza de dos factores Del mismo modo que se hizo en el anova de una va, para plantear los contrastes de hiptesis habr que calcular los valores esperados de los distintos cuadrados medios. Los resultados son: Modelo I MS MSA Valor esperado
Formatted: Justified

MSB

Formatted: Justified

MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hiptesis: i) no existe interaccin ( MSAB/MSE)

Formatted: Justified

Formatted: Justified Formatted: Justified

ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)

iii) no existe efecto del segundo factor ( MSB/MSE)

Si se rechaza la primera hiptesis de no interaccin, no tiene sentido contrastar las siguientes. En este caso lo que est indicado es realizar un anlisis de una

va entre las ab combinaciones de tratamientos para encontrar la mejor combinacin de los mismos.

Contraste de hiptesis en un anova de 2 vas Modelo II MS MSA MSB MSAB MSE Valor esperado

Formatted: Justified

Formatted: Justified

Formatted: Justified

Formatted: Justified

Formatted: Justified Formatted: Justified

donde son, respectivamente las componentes aadidas por el primer factor, por el segundo y por la interaccin, que tienen la misma forma que los del modelo I, sin ms que cambiar i y j por Ai y Bj, respectivamente. La interaccin se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hiptesis nula se contrastaran cada uno de los factores con MSA/MSAB y MSB/MSAB. En un modelo II, como no se est interesado en estimar los efectos de los factores sino slo la existencia de la componente aadida, s tiene sentido contrastar la existencia de la misma para cada factor incluso aunque exista interaccin. Aqu el problema se plantea cuando no se puede rechazar la hiptesis nula y se concluye que no existe interaccin: entonces tanto MSE como MSAB 2 , entonces cul se elige para contrastar la componente aadida de los factores?. En principio, parece razonable escoger su media (la media de varios estimadores centrados es tambin un estimador centrado y ms eficiente), sin embargo si se elige MSAB se independiza el contraste para los factores de un posible error tipo II en el contraste para la interaccin. Hay autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede asegurar baja la probabilidad para el error tipo II. La media de los cuadrados

medios se calcula dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad.

Ejemplo A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes adecuados. Fuente de variacin 1 factor 2 factor Interaccin Error Total G.L. 4 3 12 100 119 SS 315,8 823,5 328,9 2308,0 3776,2 MS 78,95 274,5 27,41 23,08

Formatted: Justified

Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

Se empezara contrastando la existencia de interaccin: f = 27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al nivel de significacin del 95%, rechazar la hiptesis nula y se concluye que no existe interaccin. Si usamos MSAB para contrastar los factores: 1 factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hiptesis nula y se concluye la no existencia de componente aadida por este factor. 2 factor: f = 274,5/27,41 = 10,015 como F 0,05(3,12) = 3,49 se rechaza la hiptesis nula y se acepta la existencia de componente aadida por este factor. El resultado del anlisis es: no existe componente aadida por la interaccin, tampoco por el 1 factor y s existe componente aadida por el 2. La estimacin de esta componente es: como a partir de los grados de libertad de la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimacin de es 274,5 - 27,41 = 247,09; por lo tanto representa un 35,7% de componente aadida por el segundo factor. que

Si se hubiera optado por promediar, los cuadrados medios promediados son (328,9+2308,0)/(12+100)= 23,54 con 112 grados de libertad y hubiera resultado significativo tambin el 1 factor.

Contrastes de hiptesis en un anova de dos vas Modelo mixto Supngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo que no supone ninguna perdida de generalidad, ya que el orden de los factores es arbitrario. MS MSA MSB MSAB MSE Se contrastan la interaccin y el factor aleatorio con el trmino de error, si la interaccin fuera significativa no tiene sentido contrastar el efecto fijo y si no lo fuera, el efecto fijo se contrasta con el trmino de interaccin o con el promedio de interaccin y error. Ejemplo Se quiere probar la eficacia de un somnfero estudiando posibles diferencias de la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el somnfero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse. Los resultados son: Placebo 30 50 45 47 38 Somnfero 35 32 30 25 30 Valor esperado
Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

Formatted: Justified Formatted: Justified

Hombre

Formatted: Justified Formatted: Justified Formatted: Justified

50 35 46 25 32

42 30 15 18 23

Formatted: Justified Formatted: Justified

Mujer

Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene dos niveles: placebo y somnfero. El segundo factor es el sexo tambin con 2 niveles: hombres y mujeres. El tamao de las muestras es n=5. La tabla de anova es: Fuente variacin Somnfero Sexo Interaccin Error Total deGL 1 1 1 16 19 SS 696,2 105,8 0,2 1197,6 1999,8 MS 696,2 105,8 0,2 74,85
Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified Formatted: Justified

Se empieza contrastando la interaccin: f = 0,2/74,85 = 0,0026 que como es menor que F0,05(1,16)=4,49 no se rechaza la hiptesis nula de que no existe interaccin. A continuacin se contrastan los factores: para el somnfero f = 696,2/74,85 = 9,3 que es mayor que 4,49 por lo tanto existe efecto del somnfero y para el sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias entre los sexos. La estimacin del efecto del somnfero ser la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez que se ha visto que no tiene efecto. Tamaos muestrales desiguales en un anova de dos factores Aunque los paquetes estadsticos suelen hacer el anova de dos factores, tanto en el caso de tamaos muestrales iguales como desiguales, conviene resaltar que el anlisis es bastante ms complicado en el caso de tamaos desiguales. La complicacin se debe a que con tamaos desiguales hay que ponderar las sumas de cuadrados de los factores con los tamaos muestrales y no resultan ortogonales (su suma no es la suma de cuadrados total) lo que complica no slo los clculos sino tambin los contrastes de hiptesis. Por esto, cuando se disea un anlisis factorial de la varianza se recomienda disearlo con tamaos iguales. Hay ocasiones en que, sin embargo, por la

dificultad de obtener los datos o por prdida de alguno de ellos es inevitable recurrir al anlisis con tamaos desiguales. Algunos autores recomiendan, incluso, renunciar a alguno de los datos para conseguir que todas las muestras tengan el mismo tamao. Evidentemente esta solucin es delicada pues podra afectar a la aleatoriedad de las muestras.

Casos particulares: Anova de dos factores sin repeticin En ciertos estudios en que los datos son difciles de obtener o presentan muy poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin repeticin, es decir, en el que en cada muestra slo hay una observacin ( n=1). Hay que tener en cuenta que, como era de esperar con este diseo, no se puede calcular SSE. El trmino de interaccin recibe el nombre de residuo y que, como no se puede calcular MSE, no se puede contrastar la hiptesis de existencia de interaccin. Esto ltimo implica tambin que: a) en un modelo I, para poder contrastar las hiptesis de existencia de efectos de los factores no debe haber interaccin (si hubiera interaccin no tenemos trmino adecuado para realizar el contraste). b) en un modelo mixto existe el mismo problema para el factor fijo. Bloques completos aleatorios Otro diseo muy frecuente de anova es el denominado de bloques completos aleatorios diseado inicialmente para experimentos agrcolas pero actualmente muy extendido en otros campos. Puede considerarse como un caso particular de un anova de dos factores sin repeticin o como una extensin al caso de k muestras de la comparacin de medias de dos muestras emparejadas. Se trata de comparar k muestras emparejadas con respecto a otra variable cuyos efectos se quieren eliminar. Por ejemplo, en un ensayo clnico para comparar los efectos de dos analgsicos y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le suministrara un tratamiento distinto, habra una gran variacin individual en las respuestas, debido a que no todas las cefaleas son de la misma intensidad y no todos los individuos tienen la misma percepcin del dolor, que dificultara el hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se aplican los tres tratamientos a los mismos individuos en diferentes episodios de cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se elimina la variacin individual.

Formatted: Justified

En este diseo a los datos de cada individuo se les denomina bloque y los datos se representan en una tabla de doble entrada anloga a la del anova de clasificacin nica en la que las a columnas son los tratamientos y las b filas los bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las hiptesis que se pueden plantear son: (igualdad de medias de tratamientos) y tambin, aunque generalmente tiene menos inters: (igualdad de medias de bloques) A pesar del parecido con la clasificacin nica, el diseo es diferente: all las columnas eran muestras independientes y aqu no. Realmente es un diseo de dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos aleatorios: los bloques, y sin repeticin: para cada bloque y tratamiento slo hay una muestra. El modelo aqu es: donde i es el efecto del tratamiento i y Bj el del bloque j. No hay trmino de interaccin ya que, al no poder contrastar su existencia no tiene inters. Al ser un modelo mixto exige la asuncin de no existencia de interaccin y los contrastes se hacen usando el trmino MSE como divisor.

ANALISIS DE VARIANZA CON DATOS REALES El Grupo investigador desea establece el numero de veces y lugares en los cuales las personas compra su ropa formal e informal

Formatted: Justified

Existen tres Zonaz 1. Zona Centro 2. Zona Mercado 3. Centro Comercial la Castellana

Los datos arrojados fueron los siguientes (EJERCIO EN EXCEL)

Potrebbero piacerti anche