Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Anlisis de Varianza
Pruebas con 2 muestras
Una sola va (ANOVA)
Diferencia de medias,
Muestras independientes Prueba F
Diferencia de medias,
Muestras relacionadas
Prueba
Diferencia de
Tukey-Kramer
proporciones
Razn de Varianzas
Pruebas con 2 muestras
Diferencia de Diferencia de
medias,
Diferencia de Razn de
medias, proporciones varianzas
muestras muestras
independientes relacionadas
Ejemplos:
Media 1 vs. Misma poblacin Proporcin 1 vs. Varianza 1 vs.
Mean 2 antes y despus Proporcin 2 Varianza 2
de un tratamiento
independientes
Diferencia entre 2 medias
X1 X2
1 and 2 desconocidos,
no se asumen iguales
Muestras Independientes
Diferencia de Medias,
Muestras
independientes *
1 y 2 conocidos Use el estadstico de prueba Z
Diferencia de medias,
muestras
Suposiciones:
independientes
Las muestras son elegidas
de manera aleatoria e
1 y 2 conocidos * independiente.
varianzas desiguales
n1 n2
1 y 2 conocidas
(continuacin)
Diferencia de medias,
muestras El estadstico de prueba para:
independientes
1 2 es:
1 y 2 conocidos * Z
X 1
X 2 1 2
2 2
1 y 2 desconocidos, 2
varianzas iguales
1
n1 n2
1 y 2 desconocidas,
varianzas desiguales
Pruebas de hiptesis para la diferencia
de dos medias poblacionales
Diferencia de 2 medias, Muestras independientes
a a a/2 a/2
*
1 y 2 conocidos 2 2
2
X1 X2 Z 1
1 y 2 desconocidos, n1 n2
varianzas iguales
1 y 2 desconocidas,
varianzas desiguales
1 y 2 desconocidas,
Varianzas asumidas iguales
El estadstico de prueba es
1 y 2 desconocidos, una t con (n1 + n2 2) grados
varianzas desiguales de libertad
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.
1 y 2 desconocidas,
Varianzas asumidas iguales
(continuacin)
Diferencia de medias,
muestras
independientes
n1 1S
2
n2 1S2
2
1 y 2 desconocidos,
varianzas iguales
* S 2
p 1
(n1 1) (n2 1)
1 y 2 desconocidos,
varianzas desiguales
1 y 2 desconocidas,
Varianzas asumidas iguales
(continuacin)
t
X X
1 2 1 2
1 y 2 conocidos
1 1
S
2
1 y 2 desconocidos,
varianzas iguales
* p
n1 n2
Donde t tiene (n1 + n2 2) grados de
libertad y:
1 y 2 desconocidos,
varianzas desiguales S 2
n1 1S1 n2 1S2
2 2
(n1 1) (n2 1)
p
Intervalo de confianza,
1 y 2 desconocidas
Diferencia de medias,
muestras El intervalo de confianza para
independientes 1 2 es:
1 y 2 conocidos
X1
X 2 t n1 n2 -2
1 1
S
2
p
n1 n2
1 y 2 desconocidos,
varianzas iguales
*
Donde:
1 y 2 desconocidos, n
S2 1
1 S1
2
n 2 1 S 2
2
varianzas desiguales p
(n1 1) (n2 1)
Ejemplo de prueba t
con varianza conjunta
Un analista finaciero de una agencia de corredores de bolsa
desea ver si existe diferencia en los rendimientos de unas
acciones para los ndices de las bolsas NYSE y NASDAQ?
y para ello reune los siguientes datos:
NYSE NASDAQ
Nmero 21 25
Media muestral 3.27 2.53
Desv Std muestral 1.30 1.16
t
X X
1 2
1 2 3.27 2.53 0 2.040
1 1 1 1
S
2
1.5021
21 25
p
n1 n2
n
S2 1
1S1
2
n 2 1S 2
2
21 11.30 2
25 11.16 2
1.5021
(n1 1) (n2 1) (21- 1) (25 1)
p
Solucin
H0: 1 - 2 = 0 es decir (1 = 2) Rechace H0 Rechace H0
H1: 1 - 2 0 es decir (1 2)
.025 .025
a = 0.05
Grados de libertad = 21 + 25 - 2 = 44 -2.0154 0 2.0154 t
Valor crtico: t = 2.0154
2.040
Estadstico de prueba: Decisin:
3.27 2.53 Rechace H0 a un a = 0.05
t 2.040
1 1
1.5021 Conclusin:
21 25 Hay evidencia de una
diferencia en las medias
1 y 2 Desconocidas,
Se asumen diferentes
Diferencia de medias,
muestras
independientes El estadstico de prueba para
1 2 es:
X X
1 y 2 conocidos
t
1 2 1 2
1 y 2 desconocidos, 2 2
S S
varianzas iguales 1 2
n1 n2
1 y 2 desconocidos,
varianzas desiguales *
Poblaciones relacionadas
Diferencia de medias para poblaciones Relacionadas
Muestras apareadas o relacionadas
Muestras
Mediciones repetidas (antes/despus)
relacionadas
Use la diferencia para valores apareados:
Di = X1i - X2i
datos apareados es D : D i 1
n
Se supone conocida la
desviacin estndar poblacional
de las diferencias Di, D
n
La desv. Std muestral
es: i
(D D ) 2
SD i1
n 1
Diferencia de medias, D desconocida
(continuacin)
Use la prueba t para datos apareados, el estadstico de
prueba para D es ahora un estadstico t, con n-1 grados de
Muestras libertad:
apareadas
D D
t
SD
n
n
Donde t tiene n - 1 i
(D D ) 2
(D D)
i
2
donde SD i1
n 1
Pruebas de hiptesis para la diferencia
de medias, D desconocida
Muestras apareadas
Prueba cola inferior: Prueba cola superior: Prueba 2 colas:
a a a/2 a/2
-21 n 1
5.67
Prueba t datos apareados: solucin
La estimacin puntual
para la diferencia es:
p1 p2
Diferencia de 2 proporciones
Para empezar debemos asumir que la
hiptesis nula es cierta, asumimos que
Proporciones
1 = 2 y que la estimacin conjunta
poblacionales
muestral es:
La estimacin conjunta para la
proporcn total es:
X1 X2
p
n1 n2
donde X1 y X2 son los nmeros de las
muestras 1 y 2 con la caracterstica de
inters
Diferencia de 2 proporciones
(continuacin)
Z
p1 p2 1 2
1 1
p (1 p)
n1 n2
X1 X2 X X
donde p , p1 1 , p2 2
n1 n2 n1 n2
Intervalo de confianza para la
diferencia de 2 proporciones
p1(1 p1 ) p 2 (1 p 2 )
p1 p2 Z
n1 n2
Pruebas de hiptesis para la
diferencia de 2 proporciones
Proporciones poblacionales
a a a/2 a/2
.50 .62 0 1.31
1 1 Decisin: No rechazar H0
.549 (1 .549)
72 50 Conclusin: No hay
evidencia significativa de
Valor crtico = 1.96 una diferencia entre las
para a = .05 proporciones de hombres
y mujeres que votarn SI.
Prueba de hiptesis para la razn de
dos varianzas
Pruebas para
2 varianzas
*
H0: 12 = 22
poblacionales Prueba de 2
H1: 12 22 colas
H0: 12 22 Prueba de
H1: 12 > 22 cola superior
Prueba de hiptesis para la razn de
dos varianzas (continued)
Pruebas para
El estadstico de prueba F es:
2 varianzas
poblacionales 2
S
F 1
Estadstico
de prueba F
* S 2
2
S 22 = Varianza de la muestra 2
n2 - 1 = grados de libertad del denominador
La Distribucin F
0 F
Rechace H0 No rechace H0 Rechace H0
FL FU
Para encontrar los valores crticos de F:
1
1. Encuentre FU de la 2. Encuentre FL usando la FL
frmula: FU*
tabla F para n1 1 gl en el
numerador y n2 1 gl en
Donde FU* est en la tabla F con
el denominador
n2 1 gl en el numerador y n1 1
gl en el denominador (es decir,
invierta los gl de FU)
Ejemplo de prueba F
0 F
Rechace H0 No rechace H0 Rechace H0
F = 1.256 no cae en la regin FU=2.33
FL=0.43
de rechazo, por lo que no
rechazamos H0
Conclusin: No hay suficiente evidencia de
una diferencia en las varianzas a un nivel de
a = .05
Pruebas con 2 muestras en Excel
Para muestras independientes:
Prueba Z muestras independientes varianzas conocidas:
Herramientas | Anlisis de datos | Prueba Z: promedios con 2 muestras
Prueba t de varianza conjunta:
Herramientas | Anlisis de datos | Prueba t: 2 muestras varianzas iguales
Prueba t varianzas diferentes:
Herramientas | Anlisis de datos | Prueba t: 2 muestras varianzas diferentes
Para varianzas:
Prueba F para 2 varianzas:
Herramientas | Anlisis de datos | Prueba F: varianzas para 2 muestras
Anlisis de Varianza en una sola va
Prueba F Prueba
Intervalos de confianza
Consideraciones generales de la
ANOVA
Los investigadores controlan una o mas variables
independientes
Variables llamadas factores (o tratamientos)
Cada factor contiene 2 o ms niveles (o grupos o
categoras/clasificaciones)
Observe los efectos sobre la variable dependiente
La respuesta a los diferentes niveles de la variable
independente
Diseo de Experimento: El plan usado para recolectar
los datos.
Anlisis de Varianza en una sola va
Suposiciones
Poblaciones normalmente distribuidas
Las poblaciones tienen varianzas iguales
Muestras seleccionadas de forma aleatoria e
independiente
Hiptesis de ANOVA una va
H 0 : 1 2 3 k
Todas las medias poblacionales son iguales
Es decir, el tratamiento no tiene efectos (no hay
diferencias entre los grupos de las medias)
1 2 3
ANOVA una va
(continuacin)
H 0 : 1 2 3 k
H1 : Al menos una j es diferente
Si al menos una media es diferente:
Se rechaza la hiptesis nula
(Existe un efecto debido al tratamiento)
1 2 3 1 2 3
Descomposicin de la Variacin en
la ANOVA
SSTotal ( X ij X ) 2
j 1 i 1
Donde:
SSTotal = Suma de cuadrados totales
k = nmero de grupos (niveles o tratamientos)
nj = nmero de observaciones en el grupo j
Xij = isima observacin del grupo j
X = Media Total (media de todos los datos)
Variacin Total
(continuacin)
SST
Variacin debida a las
CMT
diferencias entre grupos
k 1
Cuadrado medio tratamientos=
SST/grados de libertad
i j
Variacin entre grupos
(continuacin)
SST n1 ( x1 x ) n2 ( x2 x ) ... nk ( xk x )
2 2 2
Response, X
X3
X2 X
X1
SSE ( X ij X j ) 2
j 1 i 1
Donde:
SSE = Suma de cuadrados del error
k = nmero de grupos
nj = tamao de muestra del grupo j
Xj = media muestral del grupo j
Xij = isima observacin del grupo j
Variacin dentro de los grupos
(continuacin)
k nj
SSE ( X ij X j ) 2
j 1 i 1
SSE
Se encuentra la variacin dentro
CME
de cada grupo y luego se suman
esas variaciones. nk
Cuadrado medio del error
= SSE/grados de libertad
j
Variacin del error
(continuacin)
Response ,
X
X3
X2
X1
SST
CMT
k 1
SSE
CME
nk
SSTotal
CMTotal
n 1
Tabla ANOVA una va
Cuadrados
Fuente de Suma de Grados de medios F
variacin cuadrados libertad (Varianzas) calculada
SST CMT
Tratamientos SST k-1 CMT =
k - 1 F = CME
SSE
Error SSE n-k CME =
n-k
SSTotal =
Total n-1
SST+SSE
k = nmero de grupos
n = suma de los tamaos de muestra de todos los grupos
ANOVA una va
Estadstico de prueba F
H0: 1= 2 = = c
H1: Al menos 1 grupo tiene media diferente
Estadstico
CMT
de prueba F
CME
CMT es el cuadrado medio de los tratamientos
CME es el cuadrado medio del error
Grados de libertad
gl1 = k 1 (k = nmero de grupos)
gl2 = n k (n = suma de los tamaos de muestra de todos
los grupos)
Interpretacin del estadstico F
en la ANOVA de una va
El estadstico F es la divisin (razn) de la
varianza estimada entre los grupos y la
varianza estimada dentro de los grupos
La razn debe ser siempre positiva
gl1 = k -1 sern generalmente pequeos
gl2 = n - k sern generalmente grandes
Regla de decisin:
Rechace H0 si a = .05
F > FU,
0 No rechazar H Rechazar H0
0
FU
Ejemplo de prueba F
de ANOVA una va
Usted desea saber si los Club 1 Club 2 Club 3
campos de golf de 3 clubes 254 234 200
tienen distancias diferentes. 263 218 222
Se seleccionan aleatoriamente 241 235 197
5 mediciones tomadas por una 237 227 206
mquina que se maneja 251 216 204
automticamente para cada
club. Para un nivel de
significancia de 0.05 existen
diferencias en las distancias
promedios de los campos de
golf de los 3 clubes?
Ejemplo de ANOVA una va:
Diagrama de dispersin
Distancias
Club 1 Club 2 Club 3 270
254 234 200 260
263 218 222 250 X1
241 235 197 240
237 227 206
251 216 204 230
X
220
X2
210
x1 249.2 x 2 226.0 x 3 205.8
X3
200
x 227.0 190
1 2 3
Club
Ejemplo de ANOVA una va
Clculos
Club 1 Club 2 Club 3 X1 = 249.2 n1 = 5
254 234 200 X2 = 226.0 n2 = 5
263 218 222
X3 = 205.8 n3 = 5
241 235 197
237 227 206 n = 15
X = 227.0
251 216 204 k=3
SST = 5 (249.2 227)2 + 5 (226 227)2 + 5 (205.8 227)2 = 4716.4
SSE = (254 249.2)2 + (263 249.2)2 ++ (204 205.8)2 = 1119.6
Valor Decisin:
crtico:
Rechace H0 a un a = 0.05
FU = 3.89
a = .05 Conclusin:
Hay evidencia de que
0 No rechace H Rechace H0 al menos un j difiere
0
F = 25.275
FU = 3.89 de los otros
ANOVA una va
Salidas en Excel
EXCEL: herramientas | anlisis de datos | ANOVA: un factor
SUMMARY
Groups Count Sum Average Variance
Club 1 5 1246 249.2 108.2
Club 2 5 1130 226 77.5
Club 3 5 1029 205.8 94.2
ANOVA
Source of
SS df MS F P-value F crit
Variation
Between
4716.4 2 2358.2 25.275 4.99E-05 3.89
Groups
Within
1119.6 12 93.3
Groups
Total 5836.0 14
Procedimiento de Tukey-Kramer
Se utiliza cuando al menos una media de un grupo
es estadsticamente diferente
Por ejemplo: 1 = 2 3
Se hace despus de rechazar la hiptesis nula de la
ANOVA
Permite comparar las medias de los grupos en
parejas
Compara el valor absoluto de las diferencias de las
medias con el rango crtico
1= 2 3 x
Rango Crtico deTukey-Kramer
MSW 1 1
Rango Crtico Q U
2 n j n j'
donde:
QU = Valor de la Distribucin del Rango Q de Student
con c y n - c grados de libertad para un nivel deseado de a
(ver tabla E.8 del apndice)
MSW = Cuadrado medio dentro de grupos
nj y nj = Tamaos de muestra de los grupos j y j
Ejemplo del Procedimiento de
Tukey-Kramer
1. Calcule los valores absolutos de las
Club 1 Club 2 Club 3 diferencias de las medias:
254 234 200
263 218 222 x1 x 2 249.2 226.0 23.2
241 235 197 x1 x 3 249.2 205.8 43.4
237 227 206
251 216 204 x 2 x 3 226.0 205.8 20.2
QU 3.77
Ejemplo del Procedimiento de
Tukey-Kramer
(continuacin)
3. Calcule el rango crtico:
MSW 1 1 93.3 1 1
Rango Crtico Q U 3.77 16.285
2 n j n j' 2 5 5
4. Compare:
5. Todos los valores absolutos de las
diferencias de las medias son x1 x 2 23.2
mayores que el rango crtico. Por lo
tanto hay una diferencia significativa x1 x 3 43.4
entre cada par de medias a un nivel
de significancia del 5%. Es decir, con un x 2 x 3 20.2
95% de confianza podemos concluir que las
distancias promedio para el club 1 son
mayores que las del club 2 y el 3, y que las
del club 2 son mayores que las del club 3.