Sei sulla pagina 1di 99

Estadstica Inferencial

Hctor Varela V.

Poblacin: Coleccin completa de valoraciones de una


caracterstica de inters en un conjunto de individuos o elementos.
Muestra aleatoria simple: Subconjunto de una poblacin
seleccionado al azar.
Poblacin
completa
Muestra
(subconjunto)

Objetivo: Realizar inferencias con respecto a la poblacin


basndose en la informacin contenida en una muestra.
Hctor Varela V.

Parmetros poblacionales

Media :

Varianza :

Desv. Est. :

Proporcin :

Hctor Varela V.

Un estimador de un parmetro poblacional es una


funcin de los datos que conforman una muestra
aleatoria simple.
Propiedades deseables en un estimador
Insesgado (sin sesgo).
De varianza mnima.
Consistente (a medida que aumenta el tamao de muestra el estimador
se aproxima cada vez ms al parmetro).

Si el estimador es insesgado entonces existe exactitud


en la estimacin.
Si la varianza del estimador es pequea entonces existe
precisin en la estimacin.
Hctor Varela V.

Estimadores puntuales
Muestra aleatoria simple

x1 , x2 ,..., xn

= X

2 = S 2 =

n
2
(x X )
i
i =1
n 1

= S = S 2
Las estadsticas de muestras se aproximan a los parmetros
poblacionales
Hctor Varela V.

Poblacin v/s Muestra


POBLACION

MUESTRA

F re q u e n c y

10

0
80

Hctor Varela V.

85

90

S X2

SX

95

Estimacin puntual de la proporcin poblacional

x1 , x2 ,, xn

m.a.s.

C
Datos dicotmicos

1
xi =
0

i-simo elemento satisface caracterstica C


Si no

n
xi
p = i =1 =
n
Hctor Varela V.

p Pr ob(C )

N de datos en la muestra que satisface C

n
7

Considerar una poblacin de tamao N = 6


Elemento
A
B
C
D
E
F

18
=
= 3
6

Hctor Varela V.

Caracterstica X
1
2
3
3
4
5

5
=
3
2

Muestras de Tamao 2
Muestra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Hctor Varela V.

elementos
AB
AC
AD
AE
AF
BC
BD
BE
BF
CD
CE
CF
DE
DF
EF

suma

Xi

1+2= 3
1+3= 4
1+3= 4
1+4= 5
1+5= 6
2+3= 5
2+3= 5
2+4= 6
2+5= 7
3+3= 6
3+4= 7
3+5= 8
3+4= 7
3+5= 8
4+5= 9

1,5
2,0
2,0
2,5
3,0
2,5
2,5
3,0
3,5
3,0
3,5
4,0
3,5
4,0
4,5

Distribucin de los promedios muestrales de tamao 2


Histogram of C1

k : N de muestras
de tamao 2

3,0

Frequency

2,5
2,0

N
=
k =
15
n

1,5
1,0
0,5
0,0

1,5

2,0

2,5

3,0
C1

=
Promedio de los promedios

3,5

=
X

4,0

4,5

X=
i

Promedio es un estimador
insesgado de

45
= 3
15

2
2
X

i
2
X
= =
=
Varianza de los promedios
X
k
3

Hctor Varela V.

10

Muestras de Tamao 4
Muestra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Hctor Varela V.

elementos

suma

Xi

ABCD
ABCE
ABCF
ABDE
ABDF
ABEF
ACDE
ACDF
ACEF
ADEF
BCDE
BCDF
BCEF
BDEF
CDEF

1+2+3+3= 9
1+2+3+4= 10
1+2+3+5= 11
1+2+3+4= 10
1+2+3+5= 11
1+2+4+5= 12
1+3+3+4= 11
1+3+3+5= 12
1+3+4+5= 13
1+3+4+5= 13
2+3+3+4= 12
2+3+3+5= 13
2+3+4+5= 14
2+3+4+5= 14
3+3+4+5= 15

2,25
2,50
2,75
2,50
2,75
3,00
2,75
3,00
3,25
3,25
3,00
3,25
3,50
3,50
3,75

11

Distribucin de los promedios muestrales de tamao 4


Histogram
3,0

Frequency

2,5

k : N de muestras
de tamao 4
= 15

2,0
1,5
1,0
0,5
0,0

2,25

2,50

2,75

3,00
C2

3,25

3,50

3,75

=
Promedio de los promedios

Promedios de
las Muestras

=
X

=
Varianza de los promedios

Hctor Varela V.

X=

2
=
X

45
= 3
15
k X2 1
=
k
6

2
i

12

La Distribucin de la Media Muestral


La distribucin de la media muestral de un conjunto de n datos que se
toman de una poblacin con media y desviacin estndar tendr:

1.
2.

Una media igual a la media de la poblacin.


Una varianza ms pequea que la de la poblacin

x =

x
n

3. Est distribuida normalmente cuando la poblacin paterna est


distribuida normalmente. O estar distribuida normalmente para
muestras de tamao 30 o ms cuando la poblacin paterna no
est distribuida normalmente.

Hctor Varela V.

13

Intervalos de confianza
Porqu preocuparse de los intervalos de confianza?
Las estadsticas muestrales tales como el promedio y la desviacin
estndar son solamente estimaciones de y poblacional y estn
basados solamente en una muestra.
Puesto que, en estas estimaciones existe variabilidad de muestra a
muestra, se puede cuantificar la incerteza usando Intervalos de
Confianza basados en estadsticas muestrales.
Los Intervalos de Confianza reflejan la variacin de muestra a
muestra de nuestros puntos de estimacin.
Si por ejemplo, se calculan Intervalos de Confianza (IC) del 95%,
stos se interpretan como tal;
Aproximadamente 95 de 100 IC (intervalos de confianza)
contendrn el parmetro de la poblacin, o
Se est 95% cierto que el parmetro de la poblacin est
contenido en el intervalo.

Hctor Varela V.

14

Intervalos de confianza para la media


1

Media poblacional

Lmite de confianza inferior

Hctor Varela V.

Lmite de confianza superior

15

Intervalos de confianza para la media


Basados en una muestra de tamao n

Pr( X - t/2, n-1

s
s
X + t/2, n-1
) = 1
n
n
t ( n 1)
1

t 2 ,( n 1)

Hctor Varela V.

t 2 ,( n 1)

16

Estadsticas > Estadstica Bsica > Resumen Grfico


Rechazo.MTW

Hctor Varela V.

17

En un intervalo de confianza para la media poblacional de la


forma

X - t/2, n-1

s
s
X + t/2, n-1
n
n

s
= Error estndar (SE)
n
t/2, n-1

X - t /2, n-1
Hctor Varela V.

s
n

s
= Error de estimacin
n

s
n

X + t /2, n -1
18

Determinacin del tamao de muestra

El tamao de muestra necesario para estimar la media


poblacional con un error de estimacin no superior a d0 y
una confianza de (1 )%. Est dado por

z(1 2 )
S 2
n =
d0

Hctor Varela V.

19

En el caso de los tiempos de limpieza de bordes, el error de estimacin en


el intervalo para el tiempo medio est dado por

d = 4.9828 4.7508 = 0.232

Cul debe ser el tamao de muestra para estimar el tiempo


medio de limpieza de bordes con un 95% de confianza y un error
de estimacin no superior a d0 = 0. 1?

Hctor Varela V.

20

Estadsticas > Potencia y tamao de muestra


> z de 1 muestra

Tamao Potencia
de la
del Potencia
Diferencia muestra objetivo
real
0,1
334
0,5 0,500757
Hctor Varela V.

21

Intervalos de confianza para la desviacin estndar

( n 1) S

Pr(

2
X

2
( n 1,1 2)

0.12
0.1

(n 1) S

2
X

2
( n 1, 2)

) =1

2
( n1)

0.08
0.06
0.04
0.02

0
0

Hctor Varela V.

(2n1, 52)

10

215
( n 1,1 2)

20

25

30

22

Estadsticas > Estadstica Bsica > Resumen Grfico

Hctor Varela V.

23

Tamao de muestra para la media


Poblaciones finitas

Ahora bien, suponga que la poblacin est dividida en una


coleccin finita de items (unidades muestrales), todos con la
misma probabilidad de ser seleccionadas. Si la
caracterstica de inters X , se mide en estas unidades,
debe tenerse en cuenta el tamao poblacional para
recalcular el tamao muestral.

Hctor Varela V.

24

n=

( )
z(1

d0

n
Si
> 0.05
N

N : Tamao poblacional

Entonces se debe recalcular el tamao


muestral, que estar dado por n0 donde

n0 =

n
Si
0.05
N
Hctor Varela V.

n
n
1+
N

El tamao de muestra ser el


previamente

calculado

25

Ejemplo
Un rea de suelo en estudio, est dividida en 130 cuadrantes
1

2
5

3
6
12

4
7
13

8
14
21

9
15
22
31

10
16
23
32
43

11
17
24
33
44

18
25
34
45
56

19
26
35
46
57

20
27
36
47
58
68

28
37
48
59
69
78

Un estudio piloto sobre concentracin


de un qumico en el suelo, en 15
cuadrantes elegidos al azar proporcion
una desviacin estndar de 12.3
Hctor Varela V.

29
38
49
60
70
79
87

30
39
50
61
71
80
88
95

40
51
62
72
81
89
96
102
108

41
52
63
73
82
90
97
103
109
113
117
121 122
125 126 127
129 130

42
53
64
74
83
91
98
104
110
114
118
123
128

54
65
75
84
92
99
105
111
115
119
124

55
66
76
85
93
100
106
112
116
120

26

67
77
86
94
101
107

Cuntos cuadrantes deberan ser elegidos para estimar la


concentracin media, con un error de estimacin no superior a
2.5 y con una confianza del 95%?
Sample Target
Difference Size
Power
2,5
93
0,5

Actual Power
0,500095

n = 93

n
93
= = 0, 7154 > 0, 05
N 130
El tamao de muestra est dado por

n
93
n0
=
=
= 54, 21 55cuadrantes
n 1, 7154
1+
N
Hctor Varela V.

27

Pruebas de Hiptesis
Un problema de estimacin incluye un parmetro poblacional , para
el cual no se tiene una nocin preconcebida de su valor
En tales casos, con base en una muestra aleatoria simple se obtiene
una aproximacin (estimacin) a este valor (puntualmente y por
intervalos de confianza)
Ahora bien, si se tiene una conjetura de su valor, significa que se est
estableciendo una hiptesis respecto del parmetro
Es decir, se est proponiendo una teora respecto del valor (o los valores)
del parmetro
Esta teora debe ser contrastada con la realidad mediante una muestra
aleatoria simple de la poblacin
Hctor Varela V.

28

Pruebas de Hiptesis
Las pruebas de hiptesis se realizan en todos los mbitos en los cuales
puede contrastarse la teora con la realidad
Probar una hiptesis implica tomar una decisin al comparar la muestra
observada respecto de la conjetura para el parmetro poblacional
(realidad)
Una prueba estadstica consiste en verificar una hiptesis respecto de
uno o ms valores de los parmetros
Es decir, probar su validez indicando (antes de tomar la muestra) qu
grado de evidencia es necesario para no rechazar la conjetura

Hctor Varela V.

29

Cundo es necesario hacer pruebas de hiptesis?


Cuando se desea analizar entradas para determinar si afectan a una
salida dada
Salidas

Entrada A
Entrada B

Proceso

Productos o servicios

Entrada C

Cuando se desea validar una mejora antes de aplicarla


Cuando se tienen dos o ms procesos diferentes y se desea averiguar si
producen resultados diferentes entre s
Se requiere validar las conclusiones obtenidas grficamente, para gestin
a posteriori

Bsicamente, son necesarias en cualquier oportunidad que se


desea tomar decisiones a partir de una muestra. Con criterios
objetivos ms que subjetivo (intuiciones)
Hctor Varela V.

30

Hiptesis
En toda prueba estadstica participan dos hiptesis o teoras
La hiptesis propuesta por el observador y una negacin de esta
hiptesis
La primera, se denomina hiptesis alternativa o hiptesis de
investigacin, denotada por HA
La segunda, se denomina hiptesis nula y se denota por H0
El propsito del test de hiptesis es demostrar el fundamento de la
hiptesis alternativa, si tal fundamento se justifica
O decidir si los datos tienden a refutar la hiptesis nula

Hctor Varela V.

31

Lineamientos para hacer un test de hiptesis


1. Si se pone a prueba una hiptesis sobre el valor de un parmetro
, la declaracin de igualdad siempre se incluye en H0
2. Lo que se detecte o sustente es la hiptesis alternativa
3. La hiptesis de investigacin es HA, de modo que se espera que
los datos lleven a rechazar H0 y en consecuencia aceptar HA
Elementos esenciales de un test de hiptesis
La hiptesis nula H0
La hiptesis alternativa HA
El estadstico de la prueba de H0
La regin de rechazo de H0
Hctor Varela V.

32

Planteamiento de hiptesis
Hiptesis nulas

H 0 : 0 (conocido)

H 0 : 1 2

Hiptesis alternativas

H 0 : 0 (bilateral )

H 0 : 1 2 (bilateral )

H 0 : 0 (unilateral )

H 0 : 1 2 (unilateral )

H 0 : 0 (unilateral )

H 0 : 1 2 (unilateral )

Comparar con un estndar

Hctor Varela V.

Comparar dos poblaciones

33

Errores en pruebas de hiptesis


Los tests de hiptesis estn basados en los datos muestrales (pruebas)
para obtener una conclusin sobre los parmetros poblacionales
verdaderos (estados de naturaleza)
Por lo tanto, en los tests de hiptesis existen riesgos de llegar a conclusiones
errneas

Riesgo 1: Rechazar H0, siendo cierta

P=
(Re chazar H 0 / H 0 verdadera ) error de tipo I
se debe establecer antes de capturar los datos

Riesgo 2: No rechazar H0, siendo falsa

P=
( No rechazar H 0 / H 0 falsa ) error de tipo II

Hctor Varela V.

34

Muestra / Pruebas
(Decisin)

VERDAD
Poblacin / Realidad

NO RECHAZAR Ho

Ho
VERDADERA

Decisin
correcta

Ho
FALSA

Error tipo II

Hctor Varela V.

Riesgo del consumidor

RECHAZAR Ho
Error tipo I

Riesgo del productor

Decisin
correcta

35

El error de tipo I; define un lmite de decisin c (valor crtico)


para rechazar H0

depende de y de los valores que realmente tienen los parmetros


Hctor Varela V.

36

El error de tipo I (), se denomina nivel de significacin

El valor crtico (lmite de decisin) define una regin de rechazo de la


hiptesis nula
En el caso del grfico, se rechazar H0 con nivel de significacin ,
si el estadstico de prueba de H0 es mayor o igual al valor c
No olvidar que y por lo tanto el valor c se determinan antes de tener
los datos, lo que evita el manipular los resultados para adaptarlos a
necesidades particulares
Hctor Varela V.

37

Potencia de la prueba de hiptesis


La potencia del test es la probabilidad de rechazar correctamente
la hiptesis nula, es decir es

1
El error de tipo II y la potencia del test dependen de la hiptesis
alternativa
Por lo tanto, de la magnitud de la diferencia entre el valor del parmetro
en la hiptesis nula y el valor del parmetro en la hiptesis alternativa

Hctor Varela V.

38

Matriz de cuatro bloques


Cules son las pocas X vitales que deben pasar a la etapa Mejorar?
Qu entradas (las x) son estadsticamente significativas y deberan
mejorarse?
Qu entradas (las x) son prcticamente significativas y contribuirn al
beneficio ($)?
Salidas Y

Entradas X
Hctor Varela V.

Continuas

Cualitativas/
Categorizadas

Continuas

Regresin Lineal
Regresin no
lineal

Regresin
Logstica

Cualitativas/
Categorizadas

Comparaciones
de medias,
medianas,
varianzas, DOE

Comparaciones
de proporciones.
Pruebas chicuadrado
39

Test de hiptesis sobre la media poblacional


Hiptesis

Hip. nula

H 0 : 0

Hip. Alt

H A : 0

Hip. Alt1

H A : 0

Hip. Alt 2

H A : 0

Comparar la media poblacional con un estndar


Test - t de una muestra

Hctor Varela V.

40

Test - t de una muestra


Supuestos
1. Muestra aleatoria simple
2. Datos con distribucin normal

x1 , x2 ,, xn m.a.s. de la poblacin

Estadstico de prueba de H0

( X 0 ) n
t( n1)
t0
S
Hctor Varela V.

41

Test - t de una muestra

H 0 : 0 vs H A : 0
t ( n 1)
1
2

t( n1;1 2)

t( n1;1 2)

Rechazar H0 si

t0

( X 0 ) n
t( n1;1 2)
S

Rechazar H0 si

O si,

t0

( X 0 ) n
t( n1;1 2)
S

p valor
p=
valor Pr ob(t( n 1) t0 ) + Pr ob(t( n 1) t0 )

Hctor Varela V.

42

Test - t de una muestra

H 0 : 0 vs H A : 0
t ( n 1)

t( n1;1 )
Rechazar H0 si
Rechazar H0 si

t0

( X 0 ) n
t( n1;1 )
S

p valor
p valor
= Pr ob(t( n 1) t0 )

Hctor Varela V.

43

Test - t de una muestra

H 0 : 0 vs H A : 0
t ( n 1)

t( n1;1 )
Rechazar H0 si

t0

( X 0 ) n
t( n1;1 2)
S

Rechazar H0 si

p valor
p=
valor Pr ob(t( n 1) t0 )

Hctor Varela V.

44

EJEMPLO
Se enviaron a 14 laboratorios soluciones estandarizadas que se
prepararon con un contenido de oxgeno disuelto de 1.2 mg/L. Se
solicit a los laboratorios que midieran la concentracin de oxgeno
disuelto usando el mtodo de titulacin de Winkler. Las
concentraciones reportadas por los laboratorios en mg/L estn en el
archivo OD.MTW.
En promedio miden los laboratorios 1.2 mg/L, o existe algn sesgo?.

H 0 : = 1.2
v/s

H A : 1.2
Hctor Varela V.

45

Los datos satisfacen los supuestos de m.a.s. de una distribucin normal

Estadsticas > Estadstica Bsica > t de 1 Muestra

OD.MTW

Seleccionar la
hiptesis alternativa
Hctor Varela V.

46

T=

x 0
s/ n

1,2
= 1,39643
0,30538
14

Prueba de mu = 1,2 vs. no = 1,2

Variable
OD

Error
estndar
de la
N
Media Desv.Est. media
14
1,3643 0,2453 0,0656

IC de 95%
(1,2227. 1,5059)

T
2,51

P
0,026

Es improbable que la diferencia


entre las concentraciones promedio
y el estndar sea por casualidad.
Se rechaza la hiptesis nula
Es decir, el estimador de la concentracin media es mayor (dif. > 0) que el
estndar de 1,2 por una cantidad que no puede atribuirse al error experimental.
Por lo tanto existe error de sesgo para explicar tal diferencia.
Hctor Varela V.

47

Caso de muestras pareadas (dependientes)


Test t - pareado

En general el test t-pareado para comparar A y B se utiliza


cuando los resultados se producen en pares que no son
independientes. De modo, que el anlisis se basa en el
promedio de las diferencias obtenidas en cada par.

El test-t pareado es el utilizado para verificar si el promedio de las


diferencias entre las concentraciones es diferente de cero.

Hctor Varela V.

48

Pruebas de hiptesis sobre la media de las diferencias con observaciones


pareadas es idntica a la prueba respecto de una media poblacional, en
donde los valores de xi se reemplazan por diferencias di de dos
observaciones pareadas.

=
H 0 : d 0=
d Media de las diferencias
H A : d 0

pareadas en la poblacin

H A : d > 0
H A : d < 0
Hctor Varela V.

49

( xi , yi )

Muestra de pares;

i = 1,2,, n

Estadstico de prueba de H0

t0 =

t0 ~ t-student (n - 1)

Sd
n

di ( xi yi )

=i 1 =i 1
=
d =
,
n
n

Hctor Varela V.

2
d

d
(
)
i

=i 1
=
Sd

n 1

50

Estudio Interlaboratorio
El archivo T-pareado.MTW contiene mediciones de oxgeno
disuelto obtenidas en 14 laboratorios. Cada laboratorio realiz
las mediciones usando el mtodo Winkler (titulacin) y el mtodo
electrodo. predicen diferentes concentraciones de oxgeno
disuelto los dos mtodos?

H 0 : d = 0 vs H A : d 0
d= media de las diferencias de los mtodos Winkler y electrodo

Hctor Varela V.

51

Los datos satisfacen los supuestos de m.a.s. de una distribucin normal

Estadsticas > Estadstica Bsica > t pareada

Hctor Varela V.

52

T pareada para Winkler - Electrodo

Winkler
Electrodo
Diferencia

N
14
14
14

Media
1,3929
1,7214
-0,329

Error
estndar
de la
Desv.Est. media
0,3050 0,0815
0,3068 0,0820
0,494
0,132

IC de 95% para la diferencia media:: (-0,614. -0,044)


Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -2,49 Valor P = 0,027

Se rechaza H0 y se concluye que los mtodos proporcionan resultados


diferentes. El mtodo electrodo entrega valores mayores que el mtodo
Winkler

Hctor Varela V.

53

Homogeneidad de Varianzas
Para comparar medias de dos poblaciones, se debe verificar
que las varianzas poblacionales son iguales

Hiptesis

H0 : = 2
2
1

H A : 1 2
2

H A : 1 > 2
2

H A : 1 < 2
2

Hctor Varela V.

Estadstico de prueba de H0

S12
F0 = 2
S2

54

Ejemplo

Se registran los tiempos de llenado (en


segundos) para dos tipos diferentes de
baldes. Pruebe la hiptesis de que las
varianzas de estas muestras son iguales

H 0 : A2 = B2
H 0 : A2 B2

Hctor Varela V.

Balde A

Balde B

T Llenado

T Llenado

22
25
24
29
27
23
22
23
21
20
22
23
19
24
20

29
21
21
26
19
23
11
24
28
20
21
30
17
17
23
55

Baldes.MTW

Estadsticas > Estadstica Bsica > t de 2 muestras


Minitab calcula dos p-value:
Test F o Test de Bartletts para datos con
distribucin normal.
Test de Levene para cualquier set de datos continuos
Si se puede considerar datos normales usar
Test - F (2 varianzas)
Chequear normalidad para los tiempos de llenado de los baldes
balde A p-value = 0.434; balde B p-value = 0.788

Los dos sets de datos satisfacen el supuesto de m.a.s.


Hctor Varela V.

56

Estadsticas > Estadstica Bsica > 2 varianzas


datos en
columnas
diferentes

Hctor Varela V.

57

Estadsticas
Variable N Desv.Est. Varianza
Balde A 15
2,658
7,067
Balde B 15
5,057 25,571
Relacin de deviaciones estndar = 0,526
Relacin de varianzas = 0,276

Intervalos de confianza de 95%


IC para
Distribucin
relacin de
de los datos
Desv.Est.
Normal
(0,305. 0,907)
Continuo
(0,241. 1,058)

IC para
relacin de
varianza
(0,093. 0,823)
(0,058. 1,119)

Pruebas

Mtodo
Prueba F (normal)
Prueba de Levene (cualquiera continua)
Hctor Varela V.

GL1 GL2
14
14
1 28

Estadstica
de prueba
0,28
3,67

Valor P
0,022
0,066
58

Test de hiptesis sobre la diferencia de dos


medias poblacionales 1 2
Hiptesis

Hip. nula

H 0 : 1 2

H 0 : 1 2 0

Hip. Alt

H A : 1 2

H A : 1 2 0

Hip. Alt1

H A : 1 2

H A : 1 2 0

Hip. Alt 2

H A : 1 2

H A : 1 2 0

Supuestos
Muestras aleatorias independientes
Distribuidas aproximadamente normales
Con varianzas iguales
Hctor Varela V.

59

Estadstico de prueba de H0

x1 , x2 , , xn m.a.s. de N ( 1 , )
2

y1 , y2 , , ym m.a.s. de N ( 2 , 2 )
Independientes

t0

Hctor Varela V.

X Y
(n 1) S (m 1) S
nm2
2
X

2
Y

1 1

n m

t( nm2)

60

Ejemplo

Una empresa de camiones desea


probar la eficiencia de dos marcas
de diesel. Se realizaron 15 pruebas
con cada marca de diesel, y se
registraron los kilmetros por litro.
Hay alguna diferencia entre las
marcas?

H 0 : 1 2 0

H A : 1 2 0

Diesel.MTW

Hctor Varela V.

Marca A Marca B
4,2
4,4
3,1
3,2
4,8
4,9
5,9
5,9
5,8
5,8
6,4
6,5
2,2
2,2
4,3
4,5
5,7
5,7
3,3
3,6
3,8
3,8
2,7
2,8
2,5
2,6
3,5
3,4
3,7
3,8
61

Chequear Supuestos

Tests de normalidad:
Marca A: p-value = 0.456
Marca B: p-value = 0.586
Suponer que los datos son normales

Test para igualdad de varianzas


Usar test - F
P-value = 0.974
Suponer igualdad de varianzas

Hctor Varela V.

62

Estadsticas > Estadstica Bsica > t de 2 muestras

Para varianzas iguales

Hiptesis alternativa

Hctor Varela V.

63

T de dos muestras para Marca A vs. Marca B

N
Marca A 15
Marca B 15

Error
estndar
de la
Media Desv.Est.
media
4,13
1,33
0,34
4,21
1,32
0,34

Diferencia = mu (Marca A) - mu (Marca B)


Estimado de la diferencia: -0,080
IC de 95% para la diferencia: (-1,073. 0,913)
Prueba T de diferencia = 0 (vs. no =): Valor T = -0,17 Valor P = 0,870 GL = 28
Ambos utilizan Desv.Est. agrupada = 1,3274

No se rechaza H0 no existe evidencia de diferencias en las marcas de


diesel
Hctor Varela V.

64

Comparacin de medias, cuando las


varianzas son desiguales
H0 : 1 = 2
2

Si se rechaza la hiptesis

H 0 : 1 2 0

El estadstico de prueba de la hiptesis

t
'
0

X Y
S X2

SY2

Tiene una distribucin t student aproximada, con grados de


libertad no necesariamente enteros

Hctor Varela V.

65

Ejemplo
Para el caso de los tiempos de llenados de baldes, se encontr que
existe evidencia de varianzas diferentes. Y se desea comparar los
tiempos medios de llenado en cada balde
Baldes.MTW

Estadsticas > Estadstica Bsica > t de 2 muestras

Para varianzas
desiguales

Hctor Varela V.

66

T de dos muestras para Marca A vs. Marca B

N
Marca A 15
Marca B 15

Media
4,13
4,21

Error
estndar
de la
Desv.Est. media
1,33
0,34
1,32
0,34

Diferencia = mu (Marca A) - mu (Marca B)


Estimado de la diferencia: -0,080
IC de 95% para la diferencia: (-1,075. 0,915)
Prueba T de diferencia = 0 (vs. no =): Valor T = -0,17 Valor P = 0,870 GL = 27
Los grados de libertad no necesariamente corresponden a un entero. Cuando no
lo es se aproxima al nmero entero inmediato inferior, con el fin de ser
conservador. A modo de ejemplo
El punto t (10; 0.05) =1.812 es menor que t (11; 0.05) =1.796
Rechazar con una t con 10 g.l., implica rechazar con una t con 11 g.l. Pero no
necesariamente es as en el sentido inverso
Hctor Varela V.

67

ANALISIS DE VARIANZA
El anlisis de varianza es til cuando se desea comparar las
medias de un solo factor en dos o ms niveles

Existe alguna diferencia


entre las medias de respuesta
en los niveles A, B y C ?

Hctor Varela V.

Qu pasa si la varianza de la
respuesta aumenta? Existe una
diferencia entonces?

68

Anlisis de varianza

Hiptesis

H 0 : 1 = 2 = ...... =
HA: Alguna diferencia existe entre las medias poblacionales

El Anlisis de varianza prueba la hiptesis nula H0


Supuestos
Muestras aleatorias independientes
Residuos con distribucin normal
Varianzas iguales

Hctor Varela V.

69

Toma de muestras

y
y

11

21

,y
,y

12

22

, ...... , y

1n
1

, ...... , y

2 n2

m.a.s. de N ( , 2 )
1

m.a.s. de N ( , 2 )
2

k1

,y

k2

, ...... , y

knk

m.a.s. de N ( , 2 )
k

Independientes

Hctor Varela V.

70

Clculos previos

k ni
Y.. = yij ,
i =1 j =1

Y=

k ni
yij
i =1 j =1

Hctor Varela V.

Yi. =

Y..
= ,
n

ni
yij ,
j =1

Yi =

ni
yij
j =1

ni

k
= ni
i =1

Yi.
=
ni

71

Descomposicin de la variacin total:

Variacin
Total

STC

Suma Total
de Cuadrados

Variaciones
entre grupos

SCE

Suma de Cuadrados
entre grupos

Variaciones dentro de
grupos o debida al
ruido experimental

SCD
Suma de Cuadrados
dentro de grupos
o
Suma de Cuadrados
del Error

Hctor Varela V.

72

Cuando H0 es verdadero, se obtienen 2 estimaciones de la


varianza 2 de la poblacin
CME: Cuadrado medio debido a los grupos (Factor)
- La varianza entre las medias de los factores
CMD: Cuadrado medio debido al error aleatorio.
- Varianza dentro de cada nivel del factor
CME / CMD tiene una distribucin F con (k 1) grados
de libertad en el numerador y (n k) grados de libertad
en el denominador
Hctor Varela V.

73

Tabla ANOVA
Fuente de Variacin

S. C.

Grados de
libertad

Cuadrados
Medios

F Obs.

Factor
(entre grupos)

SCE

k-1

CME

CME/CMD

Valor-p

Error
(dentro de grupos)

SCD

n-k

CMD

Total

STC

n-1

k:
n:
F:
P:

Hctor Varela V.

N de grupos.
N total de observaciones
Estadstico de prueba de H0
valor-p

74

Homogeneidad de Varianzas
Muchos test estadsticos para diferencia entre medias
asumen que las varianzas son iguales.
Se debe verificar si las varianzas son iguales.

El test de homogeneidad de varianzas compara las


varianzas de dos o ms muestras.
H 0 : 12 = 22 = = k2
Test de Cochran,

Hctor Varela V.

Test de Bartlett

75

Ejemplo
Se recolectaron muestras de agua en cuatro lugares distintos de un ro para
determinar si la cantidad de oxgeno disuelto, esto es, una medida de la
contaminacin del agua, vara de un lugar a otro. Los lugares 1 y 2 se escogieron
antes de pasar por una planta industrial, uno cerca de la orilla y el otro a mitad
del ro, el lugar 3 se tom adyacente a la descarga de agua industrial de la planta
y el lugar 4 se tom ro abajo a mitad del ro. Se seleccionaron cinco muestras de
agua en cada lugar, pero se perdi una muestra del lugar 4 en el laboratorio. Los
datos se presentan en la siguiente tabla (a mayor contaminacin menor es la
lectura de oxgeno disuelto).

Lugar
1
2
3
4
Hctor Varela V.

Contenido de oxgeno
disuelto
5.9
6.3
4.8
6.0

6.1
6.6
4.3
6.2

6.3
6.4
5.0
6.1

5.9
6.5
4.7
5.8

5.8
6.4
5.1
76

i : Contenido medio de oxgeno disuelto en lugar i


2
i

Varianza del contenido de oxgeno disuelto en lugar i

Se desea probar la hiptesis nula

H 0 : 1 = 2 = 3 = 4
v/s

H A : Alguna diferencia existe

Hctor Varela V.

77

Los datos pueden almacenarse en forma apilada o


en mltiples columnas
Oxig_Disuelto
5,9
6,1
6,3
5,9
5,8
6,3
6,6
6,4
6,5
6,4
4,8
4,3
5
4,7
5,1
6
6,2
6,1
5,8

Lugar
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4

Oxig_Disuelto_1 Oxig_Disuelto_2 Oxig_Disuelto_3 Oxig_Disuelto_4


5,9
6,3
4,8
6
6,1
6,6
4,3
6,2
6,3
6,4
5
6,1
5,9
6,5
4,7
5,8
6,4
5,1
5,8

Datos en mltiples columnas

Oxgeno Disuelto.MTW

Datos apilados
Hctor Varela V.

78

Verificacin de varianza constante

H 0 : 12 = 22 = 32 = 42
Estadsticas > Anova > Prueba de varianzas iguales

Hctor Varela V.

79

Intervalos de confianza de Bonferroni de 95% para deviaciones estndar


Lugar
1
2
3
4

N
5
5
5
4

Inferior
0,078302
0,060191
0,164417
0,084143

Desv.Est.
0,148324
0,114018
0,311448
0,170783

Superior
0,61536
0,47303
1,29212
1,02416

Prueba de Bartlett (distribucin normal)


Estadstica de prueba = 4,20. valor p = 0,241

Prueba de Levene (cualquier distribucin continua)


Estadstica de prueba = 1,18. valor p = 0,350

Hctor Varela V.

80

Comparacin de medias
Los comandos para el anlisis de varianza con Minitab dependen de la
disposicin de los datos en la planilla
Datos en una columna y el factor en otra.

Estadsticas > ANOVA > Un solo factor

Hctor Varela V.

81

H 0 : =
=
=
4
1
2
3
Fuente GL
SC
CM
F
P
Lugar
3 7,8361 2,6120 63,66 0,000
Error
15 0,6155 0,0410
Total
18 8,4516

Nivel
1
2
3
4

N
5
5
5
4

Media
6,0800
6,4400
4,7800
6,0250

Desv.Est.
0,1483
0,1140
0,3114
0,1708

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
----+---------+---------+---------+----(--*---)
(--*---)
(---*--)
(--*---)
----+---------+---------+---------+----4,80
5,40
6,00
6,60

Desv.Est. agrupada = 0,2026


Hctor Varela V.

82

Comparaciones de medias por pares

Hctor Varela V.

83

Agrupar informacin utilizando el mtodo de Tukey


Lugar
2
1
4
3

N
5
5
4
5

Media Agrupacin
6,4400 A
6,0800 A B
6,0250
B
4,7800
C

Las medias que no comparten una letra son significativamente diferentes.


Intervalos de confianza simultneos de Tukey del 95%
Todas las comparaciones de dos a dos entre los niveles de Lugar
Nivel de confianza individual = 98,87%

Lugar = 1 restado de:


Lugar Inferior Centro
2
-0,0096 0,3600
3
-1,6696 -1,3000
4
-0,4470 -0,0550
Hctor Varela V.

Superior -------+---------+---------+---------+-0,7296
(--*--)
-0,9304 (--*--)
0,3370
(---*--)
-------+---------+---------+---------+--1,2
0,0
1,2
2,4

84

Lugar = 2 restado de:


Lugar
3
4

Inferior
-2,0296
-0,8070

Centro
-1,6600
-0,4150

Superior -------+---------+---------+---------+--1,2904 (--*--)


-0,0230
(---*--)
-------+---------+---------+---------+--1,2
0,0
1,2
2,4

Lugar = 3 restado de:


Lugar Inferior Centro Superior -------+---------+---------+---------+-4
0,8530 1,2450 1,6370
(--*---)
-------+---------+---------+---------+--1,2
0,0
1,2
2,4

Hctor Varela V.

85

Chequear residuos

Re siduo= Yij Yi

Hctor Varela V.

86

Prueba de normalidad de los residuos


Estadsticas > Estadstica bsica > Prueba de normalidad > Ingresar
columna de residuos

Hctor Varela V.

87

Hctor Varela V.

88

Estadsticas no paramtrica
Los tests de hiptesis desarrollados hasta aqu deben
satisfacer supuestos. Ahora bien, si alguno de los
supuestos no se satisface se debe acudir a los test no
paramtricos o de libre distribucin
Los tests no paramtricos son aplicables a pruebas de
hiptesis cuando las distribuciones son no normales

Hctor Varela V.

89

Test de Mann - Whitney


Comparacin de las medianas de dos poblaciones
independientes

H 0 : Mediana 1 = Mediana 2

x1, x2 ,, xn m.a.s. de poblacin 1


y1, y2 ,, ym m.a.s. de poblacin 2
Independientes
Hctor Varela V.

90

Se ordena la muestra conjunta en magnitud no


decreciente y se asignan rangos de 1 a (n+m)

R1i : Rango del i - simo dato ordenado de la muestra 1


R2i : Rango del i - simo dato ordenado de la muestra 2
Muestra 1: 2.5, 1.8, 1.9, 2.6, 3.9

(n = 5)

Muestra 2: 3.4, 2.7, 1.5, 3.6, 2.1, 3.7

(m = 6)

Muestra conjunta ordenada:


2

1.5 1.8 1.9 2.1 2.5 2.6 2.7 3.4 3.6 3.7 3.9
Rangos
Hctor Varela V.

9 10

11
91

Para observaciones iguales se promedian los rangos

Estadstico de prueba de H0

n
= R1i
i =1

(Wilcoxon)

n ( n + 1)
U =W
2

Uso de
software
estadstico
Hctor Varela V.

(Mann - Whitney)

Se rechaza H0 si p value
No se rechaza H0 p value >
92

Ejemplo
El archivo Stock.MTW registra datos de concentraciones segn
dos tipos de stock. El cobre toral (Cut) no satisface los supuestos
de normalidad para comparar las concentraciones medias por el
test-t para muestras independientes

H 0 : Mediana CuStockA Mediana CuStockB


H A : Mediana CuStockA Mediana CuStockB
Observar en el archivo que las concentraciones estn apiladas, las
que debern desapilarse para poder desarrollar el test no-paramtrico
de Mann-Whitney

Hctor Varela V.

93

Para desapilar en Minitab

Datos > Desapilar columnas

Stock.MTW

Columnas
no apiladas

Hctor Varela V.

94

Estadsticas > No parametricos > Mann-Whitney

Prueba de Mann-Whitney e IC: Cut_B. Cut_C


N Mediana
Cut_B 79
0,4300
Cut_C 101
0,4900

La estimacin del punto para ETA1- ETA2 es - 0,0400


95,0 El porcentaje IC para ETA1-ETA2 es (-0,1000; 0,0200)
W = 6684,5
Prueba de ETA1 = ETA2 vs. ETA1 no es = ETA2 es significativa en 0,1806
La prueba es significativa en 0,1805 (ajustado por empates)

No diferencia significativa
Hctor Varela V.

95

Test de Kruskal - Wallis


Comparar dos o ms medianas

H 0 : Med 1 = Med 2 = = Med k


y 11 , y 12 , ...... , y 1n

m.a.s. de Poblacin 1

y 21 , y 22 , ...... , y 2 n m.a.s. de Poblacin 2


2

y k1 , y k 2 , ...... , y kn m.a.s. de Poblacin k


k

Hctor Varela V.

96

Se ordena la muestra conjunta y se asignan rangos de 1 a n


n =

ni

i =1

Ri = Suma de los rangos de la muestra (i sima )


Estadstico de prueba de H0

2
k
R
12
i 3( n + 1)
K=

n( n + 1)
n
i =1 i

Hctor Varela V.

2
( k 1)

97

Ejemplo
El archivo Rechazo.MTW registra datos de tiempos de reproceso de
ctodos. Los tiempos de instalacin de sellos no satisfacen los
supuestos estndares para comparar tiempos medios por turnos
mediante anlisis de varianza

Por el mtodo de Kruskal_Wallis se pueden comparar las medianas.


Tambin se pueden comparar con el mtodo de la Mediana de Mood

H 0 : MedianaTurno1 MedianaTurno 2 MedianaTurno 3

H A : A lg una diferencia existe


Para usar la prueba de Kruskal-Wallis en Minitab, los datos se deben
tener apilados en una columna y el factor en otra

Hctor Varela V.

98

Estadsticas > No paramtricos > Kruskal-Wallis


Rechazo.MTW

Prueba de Kruskal-Wallis: Instal_sellos vs. Turno


Prueba de Kruskal-Wallis en Instal_sellos

Turno
1
2
3
General

N
16
24
24
64

Mediana
0,3550
0,3500
0,4750

Clasificacin
del promedio
28,4
26,0
41,8
32,5

Z
-1,02
-2,16
3,08

H = 9,63 GL = 2 P = 0,008
H = 9,69 GL = 2 P = 0,008 (ajustados para los vnculos)

Hctor Varela V.

diferencias significativas

99

Potrebbero piacerti anche