Sei sulla pagina 1di 67

Análisis de la Varianza

(ANOVA simple)
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.

Ejemplos: Tiempo de cura / medicamento utilizado


Rendimiento de cosechas / fertilizante
Renta familiar / hábito de lectura
Número de préstamos / ubicación

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables


cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).

Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo


Número de préstamos / sexo, nivel de estudios, afición al cine
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.

Y: variable respuesta (numérica)


ANOVA simple F: factor (cualitativa)

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables


cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).

Y: variable respuesta (numérica)


F1, F2,…, Fn : factores (cualitativas)
ANOVA
multifactorial
Y: variable respuesta (numérica)
1. ANOVA simple: idea
F: factor (cualitativa)
¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay
diferencias significativas en el valor de Y, según que F tome
uno u otro valor? ¿Influye F en el valor de Y? ¿Hay diferencias en los valores
de Y, entre los distintos grupos determinados por F?

Y Medias en
cada nivel
de factor
µ2

µ1
µ3

F
1 2 3

Niveles de factor
Y: variable respuesta (numérica)
F: factor (cualitativa)
Si el valor de F no guarda relación con el de Y… ¿Cómo deberían ser
µ1, µ2, µ3?

Media global

µ2

µ
µ1
µ3

F
1 2 3
H0: µ1= µ2= µ3
H1: alguna µi es distinta

H0 equivalente a: Y, F son independientes; Y, F no guardan


relación; F no influye en el valor de Y; no hay diferencias
significativas en Y según distintos valores de F, etc.

Rechazar H0 equivale a encontrar


dependencia entre F e Y.
¿Cómo contrastar
H0: µ1= µ2= … = µn
H1: alguna µi es
distinta ?

Mala idea: varios contrastes Buena idea: descomposición


H0: µi=µk de la variabilidad
H1: µi≠µk

Error de tipo I se acumula,


la confianza “total” es Pizarra
demasiado baja
Yik
Residuo del
Y dato Yik:
Yik-µi
Media global

µ2
µ
µ1
µ3

F
1 2 3

Yik: el primer subíndice (i) indica el valor del nivel del factor; el
segundo (k), el orden que ocupa el dato dentro de los perte-
necientes a ese nivel del factor.
TABLA DE ANOVA:

Fuente de Suma de Grados de Varianzas ó Cociente-F


variación cuadrados libertad cuadrados
medios

Entre- 
 i  
y  y 2
I-1 se2  VE / I  1 sˆe2 / sˆR2
grupos(VE) i, j

Intra-gruposó
 y ij  yi  
2
N-I sR2  VNE / N  I
residual ó no i, j
explicada
(VNE)

 y ij  y 
2
Total (VT)
N-1
i, j

sˆe2 / sˆR2  FI 1, N 1 Raíz cuadrada de


se2: error experimental
TABLA DE ANOVA:
SCE: suma de cuadr. explicada o entre-grupos

Análisis de la Varianza
------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P
------------------------------------------------------------------------
Entre grupos 1,05061E9 3 3,50202E8 1,21 0
Intra grupos 2,69068E10 93 2,8932E8
------------------------------------------------------------------------
Total (Corr.) 2,79574E10 96

SCR: suma de cuadr. residual o intra-grupos


SCT: suma de cuadr. totales

SCE
 100  VARIABILID AD EXPLICADA
SCT
H0: µ1= µ2= … = µn
H1: alguna µi es distinta ?

Rechazamos si p-valor < nivel de significación

Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña


(es decir, rechazamos cuando la variabilidad explicada es grande)

Statgraphics
Resumen:

Concepto Valor Estim.


Media total μ y
Media de cada nivel μi yi 
(grupo)
Efecto de cada nivel αi=μi-μ yi  y
(grupo)
Residuo εij = yii-μi yij  yi
Concepto

 y  y 
Variabilidad total I ni
2
ij
(VT ó SCT) i 1 j 1

 y ij  yi  
ni
Variab. Residual I
2

(VR ó VNE ó SCR) i 1 j 1

I ni
Variab. Explicada  
 i 

2
y y
(VE ó SCE) i 1 j 1

Error experimental (σ) VNE


̂ 
NI
Coef. Det. R2 (VE/VT) x 100
2. El modelo de ANOVA simple

Descripción del modelo: PIZARRA

Requisitos del modelo:

1.- Normalidad en cada nivel de factor.


2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.

H0: σ1= σ2= … = σn


H1: alguna σi es distinta
Requisitos del modelo:

1.- Normalidad en cada nivel de factor.


2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.

Se traducen en que los residuos son


aleatorios, y siguen una normal N(0,σ)

Error experimental
¿Qué hacer si alguna hipótesis falla?

- Si falla la homocedasticidad, siempre que no haya


grandes diferencias entre el número de observaciones
en los distintos grupos (niveles de factor), el ANOVA
sigue siendo fiable.

- El contraste de ANOVA es robusto frente a la violación


del supuesto de normalidad. El no-cumplimiento de
esta hipótesis sí puede afectar a la estimación del
error experimental.

- Transformaciones de los datos…


¿Qué hacer si alguna hipótesis falla?

- El verdadero problema es la independencia de las


observaciones. La violación de este supuesto sí pone
en duda las conclusiones del ANOVA; suele ser debido
a:
1.- errores en el muestreo (efecto aprendizaje,
descuidos, falta de aleatorización, etc.)

2.- existencia de otros factores que también


influyen en la variable respuesta, y no han
sido tomados en consideración (necesidad
de aplicar no un ANOVA con un factor, sino
un ANOVA multifactorial)
De hecho, la independencia de las observaciones
debería quedar garantizada por el modo en que
se ha diseñado el estudio:

(1) Modelo correcto: evidencia razonable de que


hay un único factor que pueda tener influencia
sobre Y.

(2) Una correcta recogida de los datos: Principio de


aleatorización. “Todos los factores no controlados
por el experimentador y que puedan influir en los
resultados, deben asignarse al azar a las obser-
vaciones” (D.Peña).
IMPORTANTE: si se rechaza la hipótesis nula, en
el contraste de ANOVA, eso significa que no todas las
medias son iguales. Sin embargo, puede que algunas
sí que sean iguales.

Para decidir qué grupos tienen medias similares,


descomponemos los niveles del factor en grupos
homogéneos.

Statgraphics
3. Contraste de Kruskal-Wallis

- Método no-paramétrico

- Util si fallan los requisitos del ANOVA (aunque inferior


a ANOVA).

- Realiza un contraste sobre las medianas

H0: M1= M2=…= Mn


H1: alguna Mi es distinta.

- Utiliza la noción de rango. La idea es ordenar de menor a


mayor todos los datos (sin atender al nivel del factor del que
provienen), asignar rangos, y comparar después los rangos
medios correspondientes a los distintos niveles del factor.
ANOVA
• Dos Variables:
– Categórica (los grupos)
– Cuantitativa (lo medido)
• ¿Los promedios de la variable cuantitativa
varían entre los grupos (categorías)?
• Nota: si se trata solamente de dos grupos se hace test – t no pareado. Anova, para
más de dos grupos.
ANOVA
1. Muestras provienen de población con
distribución normal y con similares DS
(para hablar de similitud de DS siga la regla 2:1).

2. La varianza de cada grupo es un


estimativo de la varianza de la población.
3. La varianza mezclada (pooled) de los
grupos puede utilizarse para calcular IC
de la diferencia de pares de promedios.
Anova
• Cuando tenemos más de dos
grupos.
• Hipótesis nula:

xa  xb  xc ...
• Calcular valor de F (de Fisher).
• Distribución de F tiene sesgo
cuando se acepta hipótesis nula.
Que hace el ANOVA?
En su forma más simple ANOVA:
H0: Los promedios de todos los grupos son
iguales.

Ha: No todos los promedios son iguales


• No dice cómo o cuáles son diferentes.
• Puede continuar con “múltiples comparaciones”

.
Ejemplos de utilización de ANOVA en odontología

1. Cinco tratamientos diferentes para


pacientes con herpes recurrente
2. Variación de ángulo goníaco en pctes
con ADM clase I, II, III
3. Resistencia al desgaste de tres resinas
diferentes
4. Grosor de la capa híbrida utilizando tres
adhesivos diferentes
Test de ANOVA, se asume que:
• Cada muestra debe ser independiente de
las otras.
• Cada muestra debe haber sido
seleccionada al azar de la pob de donde
proviene.
• Las pob de donde provienen las muestras debe
tener dist normal.
• Las varianzas de cada pob deben ser iguales,
aunque los promedios sean diferentes, es decir
cuando los tratamientos tengan efecto.

Nota: si esto no se cumple, deberá ocupar otro


test, generalmente test de Kruskal-Wallis.
Cómo seleccionar muestra al azar?

• Asignando con la moneda (cara / sello)


(fácil solamente para dos grupos).
• Tablas de números aleatorios (ver libros
de bioestadística)
• Generar números aleatorios (función
random o aleatorio.entre en excel), u otro
software.
Anotación en ANOVA
• N: número de individuos en total
ANOVA – ANALISIS DE VARIANZA DE UNA VIA

Datos: 5 tratamientos con antivirales en 6 pctes (replicas)


(P) (2) (3) (4) (5)
5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6

f = 6, k = 5, N = 30
5 trat para infección herpética (valores indican días de
duración de las lesiones)

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6
5 trat para infección herpética (valores indican días de
duración de las lesiones)

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6

X 45 30 26 31 37
5 trat para infección herpética (valores indican días de
duración de las lesiones)

2
X
(P) (2) (3) (4) (5)
25 16 36 49 81
64 36 16 16 9
49 36 16 36 25
49 9 25 36 49
100 25 16 9 49

X 64 36 9 25 36
X
2
351 158 118 171 249
Suma total de cuadrados

Suma total de los cuadrados (SSC):

TSS   X 
2X
2 Factor
de corrección (CF):
n (x)2/n

TSS = (351+158+118+171+249) – (45+3026+31+37)2 /30


= 1047 – 28561/30
= 1047 – 952,03 Factor de corrección

TSS = 94,97
Suma total de los cuadrados

• Está basada en la suma de los cuadrados de


las diferencias de cada una de las
observaciones del promedio general. Se
divide en:
– Suma de Cuadrados Entre los grupos basado en
la suma de los cuadrados de la diferencia entre el
promedio de cada grupo y el promedio general
(SSB)

– Suma de Cuadrados Dentro de los grupos:


calculado como la suma de los cuadrados para la
diferencia entre cada observación y el promedio
de su grupo (SSw)
SSB
• Variabilidad entre los grupos: Variabilidad
de los promedios de los diferentes grupos
alrededor del gran promedio (calculado sin
tomar en cuenta la estructura del grupo)
SSw
• Variabilidad dentro del grupo: También
llamada variación NO explicada o residual
y se refiere a la variación al azar entre los
individuos dentro de cada grupo.
Cuadrados dentro de los grupos
(Error)
Suma de cuadrados dentro de los grupos (Within Sum of Squareds)
(Donde k: número de grupos; f: número de individuos en cada grupo)

 X
2

SSW   X  
2  k 
 n 
 f 
SSW = 1047 – ( 452/6 +302/6 +262/6 +312/6 + 372/6 )
= 1047 – 988,51
SSW = 58,49
SUMA DE CUADRADOS ENTRE LOS GRUPOS
Between sum of squares

Suma de cuadrados entre los grupos (between)

 Xk 2

SS B      CF
 n 
 f 
SSB = ( 452/6 +302/6 +262/6 +312/6 + 372/6 ) – 952,03
SSB = 988,51 – 952,03
SSB = 36,48
Cuadrados medios
• Cada suma de cuadrados se convierte en una
varianza estimada (Cuadrados Medios)
dividiendo por sus grados de libertad.
• GL entre los grupos: k – 1
• Dentro de los grupos: (n1 – 1 + n2 – 1 + n3 – 1)
De la hipótesis nula:

• Todos los grupos tienen el mismo


GAUSS

promedio y la misma varianza, por lo


tanto la relación de las varianzas sería 1.
• Mediante el valor de F comparamos las
varianzas y obtenemos la relación de
ellas
Tabla de ANOVA
Construcción de la tabla de Análisis de Varianza:

Fuente de SC gl MS F
Variación

Between 36,48 4 9,12 3,897


Within 58,49 25 2,339

Total 94,97 29

4; 25= 2,75 Por lo tanto existen dif. signif. (P<0,05)


F
0 , 05
Fcrítico
depende de
los gl de
CMentre y
CM dentro, y
elegir el
valor de 
Por lo tanto
P<0,05
P>0,01

0,05>P>0,01
Valores de F críticos según tabla
Valor de F obtenido = 3,897

4; 25
F
0 , 05 = 2,75

4; 25
F 0, 025
= 3,35

4; 25
F 0 , 01
= 4,18

Por lo tanto: 0,05> P > 0,01


Valor de F

varianza de la población estimada


de la medias de las muestras
F
varianza de la población estimada como
promedio de varianzas de las muestras
GRADOS DE LIBERTAD EN TABLA DE ANOVA

Entre los grupos (between) (k-1):


n(úmero de grupos) – 1: (5 - 1) = 4

Dentro de los grupos (within)


k(n-1): 5(6-1) = 25

Total = n – 1; 30 - 1 = 29
VALOR DE F

Si F es un número grande,
2
S between la variabilidad entre las
F 2 medias de las muestras
S within es mayor que la
esperada a la
variabilidad dentro de
las muestras, y rechaza
la hipótesis nula de que
todas las muestras son
de la misma población.
Least Squares Means
Factor Level LS Mean Standard N
Error
Medicamento Placebo 7.500 0.624 6.000

Medicamento a 5.000 0.624 6.000

Medicamento b 4.333 0.624 6.000

Medicamento c 5.167 0.624 6.000

Medicamento d 6.167 0.624 6.000

Analysis of Variance
Source Type III df Mean F-ratio p-value
SS Squares
Medicame 36.467 4 9.117 3.896 0.014
nto
Error 58.500 25 2.340
Gráficos para ANOVA
• Promedios y DS de cada grupo.
• Cajas.
• Puntos.
Tests para comparar medias

• Scheffé
– Si tamaño de los grupos es diferente
– Interesa además contrastes (Ej: grupo 1 y 2 vs 3)
• Tukey
– Si tamaño de los grupos es igual
– Interés prinicipal es comparar solo promedios de
grupos
• Bonferroni
– No se había previsto comparar grupos

Utilizar solamente si resultado en ANOVA es p<0,05


Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
1 1
(k  1) F0.05 *    * MSE
 n1 n2 
k = número de promedios.
F3,8;0.05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
[(k-1)F0,05]1/2 [(1/n1 + 1/n2)*MSE]1/2
k = número de promedios.
F3,8;0,05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Cálculo de Scheffé
1/ 2
 1 1  
k  1( F  4 , 25 1 / 2
0 , 05    * MSE 
 n1 n2  
1/ 2
 1 1  
4 * 2,75    * 2,339
1/ 2

 6 6  
(3,316)(0,8829)  2,928

Existe diferencia entre dos grupos, si la diferencia de


sus promedios supera a 2,928
5 trat para infección herpética (valores indican días de
duración de las lesiones), última fila sus promedios

(P) (2) (3) (4) (5)


5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6
x 7,50 5,00 4,33 5,17 6,17
Promedios de cada grupo y sus diferencias

1. Entre Placebo y grupo (3) = 7,50 – 4,33 = 3,17


Valor supera al valor del test de Scheffé (2,928), por lo tanto
existen diferencias significativas entre esos dos grupos
2. Entre placebo y grupo (2) = 7,50 – 5,0 = 2,50
Valor del test de Scheffé es superior, por lo tanto NO existen
diferencias significatvas entre Placebo y grupo 2.

NO DEBE HACER MÁS COMPARACIONES…YA QUE TODAS


LAS OTRAS DIFERENCIAS SON MENORES A VALOR DE
SCHEFFÉ.
Promedios ordenados de mayor a menor (línea marca entre
qué grupos NO existe diferencias significativas):

(P) (5) (4) (2) (3)


7,50 6,17 5,17 5,00 4,33
Realización de Anova con software estadístico

• Dependiente: variable que desea examinar,


debe ser continua (por ejemplo: edad,
recuento de linfocitos, hematócrito, etc. D N !)
• Factor: una o más variables categóricas que
tienen agrupados datos en más de dos
grupos (variables de agrupar, ej.: NSE, Clase
esq (I, II y III), etc.)
• Identificar si desea comparación entre
grupos(Tukey, Scheffé, etc.)
Least Squares Means
Factor Level LS Mean Standard N
Error
Medicamento Placebo 7.500 0.624 6.000

Medicamento a 5.000 0.624 6.000

Medicamento b 4.333 0.624 6.000

Medicamento c 5.167 0.624 6.000

Medicamento d 6.167 0.624 6.000

Analysis of Variance
Source Type III SS df Mean F-ratio p-value
Squares
Medicamento 36.467 4 9.117 3.896 0.014
Error 58.500 25 2.340
Scheffe Test
Medicamento(i) Medicamento(j) Difference p-value 95.0% Confidence Interval

Lower Upper

Placebo a 2.500 0.125 -0.434 5.434

Placebo b 3.167 0.029 0.233 6.100

Placebo c 2.333 0.172 -0.600 5.267

Placebo d 1.333 0.687 -1.600 4.267

a b 0.667 0.965 -2.267 3.600

a c -0.167 1.000 -3.100 2.767

a d -1.167 0.781 -4.100 1.767

b c -0.833 0.923 -3.767 2.100

b d -1.833 0.389 -4.767 1.100

c d -1.000 0.862 -3.934 1.934


Tukey o Scheffé
• Tukey. Uses the Studentized range
statistic to make all pairwise comparisons.
This is the default.
• Scheffé. The significance level of
Scheffé’s test is designed to allow all
possible linear combinations of group
means to be tested, not just pairwise
comparisons available in this feature. The
result is that Scheffé’s test is more
conservative than other tests.
Tipos de Anova
• Con un factor
• Con dos factores:
– tres grupos (A, B, C)
– género (M, F)
– Interacción
• Con más de dos factores (NSE, género,
religión)
• De medidas repetidas (activ EMG)
Anova de dos vías
Categorical values encountered during processing are:
GRUPO$ (3 levels)
A, B, C
METODO$ (2 levels)
I, II

Dep Var: LIPIDOS N: 18 Multiple R: 0.998 Squared multiple R: 0.996

Analysis of Variance

Source Sum-of-Squares df Mean-Square F-ratio P

GRUPO$ 109.644 2 54.822 1372.854 0.000


METODO$ 0.027 1 0.027 0.670 0.429
GRUPO$*METODO$ 0.047 2 0.024 0.591 0.569

Error 0.479 12 0.040

-------------------------------------------------------------------------------
Ventajas de utilizar computador en estadística
(Altman, 1999)

• Precisión y rapidez
• Versatilidad (gran cantidad de tests disponibles)
• Gráficos
• Flexibilidad
• Nuevas variables
• Volumen de datos
• Transferencia de datos
Estrategia para análisis de datos
• Recolección de datos (form codificados)
• Entrada de datos (Excel)
• Chequear datos (min, max, x, ds)
• Graficar antes de analizar
• Análisis de datos
• Chequear resultados
• Interpretar
Análisis de Varianza (ANOVA)
• Realizar el estudio de uno o más factores sobre
la media (o la varainza) de una variable medida.
• Idea básica
descomponer la variabilidad total en las partes
asociadas a cada factor, más una residual (no
justificables por los factores estudiados).
Variabilidad
Variabilidad debida residual
Variabilidad
= a diferencias entre + (diferencias dentro
total
tratamientos de cada
tratamiento)
• La variabilidad se calcula a través de la suma de
cuadrados (SC = (xij – m)2, donde m es (según
el caso)
– o bien la media general (con xij sobre todos los
• Los cuadrados medios (CM)
CM = SC / grados de libertad
– Los cuadrados medios son parecidos a las
correspondientes varianzas.
• Para comparar el efecto de la presencia
de un factor se comparan los cuadrados
medios:
F=CMtratamiento / CMresidual
– Para hacer esto se usa el test de Fisher.
ANOVA – Ejemplo:
• Media general Factor estudiado
m = 40.53
• Media por tratamiento: A B C
mA = 37, mB = 41.3, mC = 43.3 23 35 50
• SCtotal=(xiT – 40.53)2 i,T. 28 36 43
29 Grados de libertad
• SCtratamientos =N(mT – m)2 21 29 36
N = nº datos por tratamiento. 27 40 34
2 grados de libertad. Resultados
95 43 45
• SCresidual=Ti (xiT – mT)2 obtenidos
27 grados de libertad 41 49 52
SCtotal = SCtratamiento + SCresudual 37 51 52
• CMtratamiento=SCtratamiento/gtratamien
to 30 28 43
• CMresidual=SCresidual/gresidual
32 50 44
• F=CMtratamiento / CMresidual=
0.532 36 52 34
• Calcular F2,27 (5%) = 3.35 > Media 37 41.3 43.3
0.532

Potrebbero piacerti anche