Sei sulla pagina 1di 5

ANLISIS DE LA VARIANZA

El anlisis de la varianza o ANOVA (Analysis of variance) es una tcnica para comparar


dos o ms medias, el cul intenta eliminar los inconvenientes de contrastar ms de dos
medias utilizando repetidamente el contraste basado en la t de Student.
La dificultad mayor de seguir este ltimo procedimiento radica en que al realizar
simultnea e independientemente varios contrastes de hiptesis, la probabilidad de
encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t
supera el nivel crtico, si la hiptesis nula es cierta hay una probabilidad de errar en cada
una de las pruebas. Si se realizan m contrastes independientes, la probabilidad de que si la
hiptesis nula es cierta, ningn estadstico supere el valor crtico es (1 )m, por lo tanto, la
probabilidad de que alguno lo supere es 1 (1 )m, que para valores de prximos a 0 es
aproximadamente igual a m. Una primera solucin, denominada mtodo de Bonferroni,
consiste en bajar el valor de , usando en su lugar /m, aunque resulta un mtodo muy
conservador.
Consideremos K poblaciones normales con medias 1, 2, ..., K.
Se desea contrastar las hiptesis:
H0: 1 = 2 =... = K
H1: al menos un par de medias son diferentes
De cada poblacin tenemos una muestra de n1, n2, ..., nK observaciones independientes y
obtenidas de forma aleatoria. Si designamos de forma general cada observacin como yij, el
subndice i indica el grupo al que pertenece, j es el nmero de la observacin dentro de ese
grupo. Por ejemplo:
y35 corresponde al valor observado en el quinto sujeto del tercer grupo;
en el grupo 2 tenemos las observaciones y21, y22, ... hasta y2n .
2

Si se renen todas las observaciones N = n1 + n2 + ... + nK, se puede obtener la media


global, que se denomina y y se calcula como:
ni

y
y=

i =1 j=1

ij

Tambin puede calcularse la media dentro de cada uno de los K grupos. La media para el
grupo i se designa como yi y se calcula como:
ni

y
yi =

j =1

ij

ni

Es obvio que la diferencia entre cada observacin yij y la media global y se puede
descomponer de la siguiente forma:

yij y = (yij yi ) + ( yi y )

Es decir, que la diferencia entre el valor observado y la media global es igual a la suma de
la diferencia de la observacin con la media de su grupo y de la diferencia de la media del
grupo con la media global.
Se puede comprobar que si cada trmino de esa expresin se eleva al cuadrado y se suma
para todas las observaciones, se mantiene la igualdad:

( y
i

y) 2 = ( yij yi )2 + ( yi y) 2

ij

y) = ( yij y i ) + n i ( y i y) 2

( y
i

ij

Cada uno de los trminos es una suma de desviaciones cuadrticas, que denominaremos de
forma abreviada como suma de cuadrados (SC). La primera SC del lado de la derecha
corresponde a las desviaciones de cada observacin respecto de la media de su propio
grupo, por lo que se la conoce como "dentro de grupos" o "intra grupos" (en ingls within),
tambin se le conoce como suma de cuadrados del error. El segundo sumando de la
derecha corresponde a las desviaciones de la media de cada grupo respecto de la media
global, por lo que cuantifica las diferencias medias entre los grupos, y se conoce como
suma de cuadrados "entre grupos" (en ingls between):
SCTotal = SCDentro grupo+ SCEntre grupos
Si H0 es cierta, entonces el valor de SCE ser pequeo, por lo que SCD se acercar a SCTotal.
Se define el cuadrado medio dentro de grupos (CMD), como el cociente entre la suma de
cuadrados dentro de grupos (SCD) y los grados de libertad, o sea:

CM D =

SC D
NK

y se puede comprobar que CMD es una media ponderada de las varianzas muestrales de
cada grupo, o sea:
(n1 1)S12 + (n 2 1)S22 + ... + (n K 1)S2K (n1 1)S12 + ... + (n K 1)S2K
=
(n1 1) + (n 2 1) + ... + (n K 1)
NK
2
que constituye una estimacin de la varianza comn .
CM D =

De manera similar se define el cuadrado medio entre grupos (CME), como el cociente
entre la suma de cuadrados entre grupos (SCE) y los grados de libertad, o sea:
CM E =

SC E
K 1

Si la media de todos los grupos es la misma, CME tambin es una estimacin de la varianza
comn 2. Ahora bien, si las medias de los grupos son diferentes, CME no slo contiene el
valor de la varianza 2, sino que adems estar aumentada segn las variaciones entre las
medias de los tratamientos, y ser tanto mayor cuanto mayor sean estas diferencias.
Para contrastar las hiptesis se construye el siguiente estadgrafo:

CM E
CM D
Si la hiptesis nula es cierta, tanto el numerador como el denominador del cociente son
estimaciones vlidas de la varianza comn de las poblaciones que se estudian. Este cociente
se ajusta a la distribucin F. Si la hiptesis nula es falsa el numerador del cociente (CME)
en realidad es una estimacin inflada de 2; el denominador sigue siendo una estimacin
vlida. Bajo estas condiciones, el valor F ser muy grande, y se puede concluir que la
hiptesis nula es falsa.
Fobs =

Los resultados de un ANOVA se suelen organizar en una tabla como la siguiente:


Fuente de variacin
Entre grupos
(Tratamientos)
Dentro grupos
(Error)
Total

Suma de
Cuadrados

g.l

SCE

K1

SCD

NK

SCT

N1

Cuadrado
Medio
CME
= SCE/(K-1)

Fobs
CM E
CM D

CMD
= SCD/(N-K)

Para las hiptesis:


H0: 1 = 2 =... = K
H1: al menos un par de medias son diferentes
la regin de rechazo es: Fobs > F (K1, NK)
El rechazo de H0 indica que existen diferencias entre algunas medias, para identificar las
poblaciones en las que difieren las medias se realizan pruebas a posteriori (post hoc). Hay
varias pruebas a posteriori, basadas en distintos estadgrafos, as, encontramos la de Tukey,
Scheffe, Duncan, etc.

Ejemplo:
Una analista de una cadena de supermercados quiere saber si tres tiendas tienen el
mismo promedio en dlares por cada venta que realiza. Se elige una muestra
aleatoria de seis ventas en cada tienda. La tabla siguiente presenta los datos
recolectados de esta muestra. Con un nivel de significacin de 0,01 diga si existen
diferencias significativas entre los promedios de las ventas en las 3 tiendas.

Tienda 1 Tienda 2
12,05
15,17
23,94
18,52
14,63
19,57
25,78
21,40
17,52
13,59
18,45
20,57
18,73
18,14

1
2
3
4
5
6
Media

Tienda 3
9,48
6,92
10,47
7,63
11,90
5,92
8,72

Media global = 15,20


N = n1 + n2 + n3 = 6 + 6 + 6 = 18
K=3
La hiptesis nula que se quiere probar es que todas las poblaciones de las que se
obtuvieron los datos muestrales tienen la misma media. La hiptesis alternativa es
que las poblaciones no tienen la misma media (o sea, que al menos en dos
poblaciones difieren las medias). Las medias muestrales de las 2 primeras tiendas
sugieren que la hiptesis nula es cierta, ya que son muy cercanas. La tercera media
muestral, es apreciablemente ms pequea que las otras dos. Pero, se debe esta
diferencia a la aleatoriedad del muestreo o al hecho de que las poblaciones tienen
medias distintas? Esta es la pregunta que vamos a responder con el procedimiento
de ANOVA.
Las hiptesis seran:
H0: 1 = 2 = 3
H1: al menos un par de medias son diferentes
Clculos:
3

Para hallar SCD=

ni

( y
i =1 j =1

ij

yi ) 2 se procede de la siguiente forma:

Tienda 1: (i=1)
6

( y
j =1

1j

y1 ) 2 =

= (12,0518,73)2+(23,9418,73)2+(14,6318,73)2+(25,7818,73)2+(17,5218,73)2+(18,4518,73)2
= 139,82

Tienda 2: (i=2)
6

(y
j =1

2j

y2 ) 2 =

= (15,1718,14)2+(18,5218,14)2+(19,5718,14)2+(21,4018,14)2+(13,5918,14)2+(20,5718,14)2
= 48,25

Tienda 3: (i=3)
6

(y
j =1

3j

y3 ) 2 =

= (9,488,72)2 +(6,928,72)2+(10,478,72)2 +(7,638,72)2 +(11,908,72)2 +(5,928,72)2

= 26,02

Entonces la suma de cuadrados dentro es:


3

ni

SCD= ( yij yi ) 2 = 139,82 + 48,25 + 26,02 = 214,09


i =1 j =1

Por otra parte la suma de cuadrados entre es:


3

SCE= ni ( yi y ) 2
i =1

SCE = 6(18,7315,20)2+6(18,1415,20)2+6(8,7215,20)2 = 378,38


La tabla ANOVA para este ejemplo ser.
Fuente de variacin
Entre grupos
(Tratamientos)
Dentro grupos
(Error)
Total

Suma de
Cuadrados

g.l

Cuadrado
Medio

Fobs

378,38

189,19

13,26

214,09

15

14,27

592,47

17

Como se puede ver en la tabla de ANOVA, la estimacin entre de 2, produce un


valor de 189,19, mientras que la estimacin dentro es de 14,27. El cociente F
indica que la estimacin entre es 13,26 veces mayor que el valor de la estimacin
dentro. Se debe esta diferencia al error de muestreo, o se debe a que la hiptesis
nula es falsa? Para contestar a esta pregunta se consulta la tabla F y se determina un
valor crtico.
El numerador del Fobs, tiene 2 grados de libertad y el denominador tiene 15 grados
de libertad. De la tabla F el percentil 0,99 es 6,36 para estos grados de libertad. El
valor F calculado de 13,26 es mayor que el percentil, lo que significa que se tiene
suficiente evidencia muestral para rechazar la hiptesis nula de medias
poblacionales iguales.

Potrebbero piacerti anche