Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduccin a la Inferencia
Estadstica
Inferencia Estadstica
El objetivo de la Inferencia Estadstica es deducir conclusiones vlidas respecto
a una poblacin, a partir del anlisis de una muestra aleatoria de dicha poblacin.
conclusiones vlidas
con un margen de error reducido y conocido.
poblacin
conjunto e individuos que poseen una caracterstica de inters objeto de estudio.
muestra aleatoria
cada individuo en la poblacin tiene igual probabilidad de ser incluido en la
muestra y los individuos se seleccionan de forma independiente.
13/05/12
Definiciones Bsicas
Variable aleatoria (v.a.): caracterstica objeto de estudio que puede tener un valor
diferente para diferentes individuos.
Tipos de variables aleatorias: cualitativas o de atributo, cuasi-cuantitativas u ordinales,
cuantitativas discretas, cuantitativas continuas.
Distribucin de probabilidad: ley, conocida o desconocida, que define la frecuencia con
que aparecen los diferentes valores de la variable aleatoria.
Funcin de probabilidad: para v.a. no continuas, funcin que a cada posible valor de la
v.a. le asocia la probabilidad con la que aparece.
Funcin densidad de probabilidad: para v.a. continuas, funcin que a cada valor de la
v.a. le asocia una medida relativa de lo frecuentes que son los valores de su entorno.
Funcin de distribucin: para v.a. cuantitativas, funcin que a cada nmero le asigna la
frecuencia con la que la v.a. ofrece valores iguales o inferiores a dicho nmero.
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de
una poblacin.
Estadstico: funcin definida sobre los valores numricos de caractersticas medibles de
una muestra.
13/05/12
S2
2
como: S =
(X
! X ) + ( X 2 ! X ) +!+ ( X N ! X )
N !1
! !2$
X ~ N # ;
&
" N%
X!
~ N ( 0; 1)
! N
13/05/12
X ~ N X = ; X =
~ N (0; 1)
X
S
~ t N 1
13/05/12
E (t N ) = 0
V (t N ) =
t=1
t=5
N(0;1)
N
N 2
12
Por simetra: t N ;1 = t N ;
t N ;
t N ;
t 2; 0, 4 = 0,289
=DISTR.T.INV(0,40*2;2)
=DISTR.T.INV(0,10*2;3)
=DISTR.T(2,015;5;1)
100
110
120
0.25402
0.25396
0.25391
0.25335
0.67695
0.67673
0.67654
0.67449
1.29007
1.28930
1.28865
1.28155
1.66023
1.65882
1.65765
1.64485
1.98397
1.98177
1.97993
1.95996
0,1
0
t3;0,1 = P90
13/05/12
Distribucin Muestral
Poblacin
Variable X
Muestra 1
Muestra 2
Muestra k
X1
X2
Xk
Distribucin de la
media muestral
13/05/12
( ) ( )
( )
( )
Estimadores Sesgados
13/05/12
V(*) = 3
V(*) = 6
V(*) = 9
( )
[(
= E [(
= E [(
) ] = E [( E ( )+ E ( ) ) ]
E ( )) + (E ( ) ) + 2( E ( ))(E ( ) )]
E ( )) ]+ E [(E ( ) ) ]+ 2 E [ E ( ) (E ( )) + E ( )]
= Var ( ) + (Sesgo( )) + 2[(E ( )) E ( ) (E ( )) + E ( )]
ECM * = E *
( )
( ) (
( ))
13/05/12
( )
( ) (
( ))
V(*) = 1, Sesgo (*) = 1 V(*) = 2, Sesgo (*) = 0 V(*) = 4, Sesgo (*) = 0 V(*) = 4, Sesgo (*) = 2
ECM (*) = 2
ECM (*) = 2
ECM (*) = 4
ECM (*) = 8
"
Distribucin de ! 2
!"1
Un estimador se dice Consistente cuando su Error Cuadrtico Medio tiende a cero, cuando
el tamao de la muestra tiende a infinito.
13/05/12
t n 1
t n 1; 2
t n 1; 2
0
Intervalo de Confianza
Contraste de Hiptesis
X
P tn 1; 2
tn1; 2 = 1
H0: = 0
X 0
T=
Si H 0 T ~ tn1
S
n
H1: 0
S n
P X tn 1; 2 S n X + tn1; 2 S n = 1
p-value es la probabilidad de obtener un
valor de T tan alejado de 0 ms que el
IC = X tn 1; 2 S n
que hemos obtenido, si H0 fuera cierta.
( )
10
13/05/12
p-value
t n 1; 2
X 1 , X 2 , , X n
IC ( ) = X tn 1; 2 S
e = t n 1; 2
X t n 1; 2
S
n
S
n
X + t n 1; 2
S
n
Nos planteamos la hiptesis nula H0: = 0, que slo rechazaremos cuando la distancia
entre la media muestral y 0 sea demasiado grande (significativa).
La distancia se considera demasiado grande cuando 0 est fuera del intervalo de
confianza, cuya anchura regulamos mediante la significacin .
mide lo exigentes que somos a la hora de aceptar H0. Con = 0,05 es ms fcil rechazar
H0 que con = 0,01, ya que mayores valores de corresponden intervalos ms estrechos.
El p-value es el valor que debera tener para que el intervalo capture a 0 justo en uno de
sus extremos.
Si 0 est fuera, p-value < , hay que ensanchar el intervalo para capturar 0 en el borde.
Si 0 est dentro, p-value > , hay que estrechar el intervalo para capturar 0 en el borde.
11
13/05/12
Aceptar H0
Rechazar H0
H0 cierta
H0 Falsa
Correcto
Error tipo II
Error tipo I
Correcto
Riesgo 1 especie
Riesgo 2 especie
12
13/05/12
P X z 2
X + z 2
= 1
N
N
P X z 2
X + z 2
= 1
N
N
~ N (0; 1)
X
P z 2
z 2 = 1
IC ( ) = X z 2
, X + z 2
= X z 2
N
N
N
X
S
~ t N 1
X
P t N 1, 2
t N 1, 2 = 1
S
S
S
P X t N 1, 2
X + t N 1, 2
= 1
N
N
S
S
P X t N 1, 2
X + t N 1, 2
= 1
N
N
S
S
S
IC ( ) = X t N 1, 2
, X + t N 1, 2
= X t N 1, 2
N
N
N
13
13/05/12
0,75
100
Ejemplo
Para una cierta poblacin se asume que el peso de los recin nacidos verifica un
modelo normal con media desconocida y desviacin tpica desconocida.
Se ha tomado una muestra de 100 recin nacidos y se ha encontrado una media
muestral de 3 Kg y una desviacin tpica muestral de 0,5 Kg.
IC 0,05 ( ) = 3 t 99; 0,025
0,5
100
0,2
= 1,8 2,04 0,0359 = [1,73; 1,87]
31
Que no contiene el valor 2,5, por lo que concluimos, con una confianza del 95%,
que la sepsis neonatal afecta al valor de la IL de los recin nacidos.
14
13/05/12
S
N
2
N = (z0,005 10 1) = (2,58 10 1) 664
Por lo tanto, si queremos que el error de estimacin sea menor o igual a 1 cm, con
una confianza del 99%, debemos tomar una muestra de al menos 664 individuos.
15
13/05/12
p =
X
p(1 p )
~ N = p; 2 =
n
n
p p
p(1 p )
n
~ N = 0; 2 = 1
p (1 p )
IC ( p) p z 2
; p + z 2
n
P z 2
z 2 = 1
p(1 p )
p p
p (1 p )
= p z 2
n
p (1 p )
n
Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se
realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35% que
votarn a favor y 65% que votarn en contra (suponemos que no hay indecisos
para simplificar el problema a una variable dicotmica). Con un nivel de
significacin del 5 %, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
IC ( p) = p z 2
p (1 p )
n
0,35 0,65
= 0,35 1,96 0,0477 = 0,35 0,0935
100
16
13/05/12
p (1 p )
n
p (1 p )
n
n = p (1 p )
d
Al elegir n an no conocemos la
estimacin de p, por lo que lo usual es
ponernos en el peor de los casos: p = 0,5.
1 z 2
n =
4 d
n =
4 d
2,17
n = 0,25 0,015 = 0,25
11.774
0,01
0,01
Por lo tanto, si queremos que el error de estimacin sea menor o igual al 1%, con
una confianza del 97%, debemos tomar una muestra de al menos 11.774
individuos.
17
13/05/12
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
Ejemplo
Se cree que la osteoporosis est relacionada con el sexo. Para ello se elige una
muestra de 100 hombres de ms de 50 aos y una muestra de 200 mujeres en las
mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algn grado de
osteoporosis. Qu podemos concluir con una confianza del 95 %?
10
= 0,1
0,09 0,16
100
+
IC5% ( p1 p2 ) = (0,1 0,2) 1,96
40
100 200
p 2 =
= 0,2
200
Podemos afirmar, con una confianza del 95%, que existe una diferencia
significativa en la incidencia de osteoporosis entre hombres y mujeres, siendo
mayor dicha incidencia entre las mujeres.
N1 , S12
(N1 1)S12 + (N 2 1)S22
2
S
=
p
N1 + N 2 2
N 2 , S 22
IC (1 2 ) = X 1 X 2 t N1 + N 2 2; 2 S p
1
1
+
N1 N 2
18
13/05/12
Fumadoras
S p2 =
N1 = 35
X 1 = 3,6 Kg
S1 = 0,5Kg
N 2 = 27 X 2 = 3,2 Kg S 2 = 0,8Kg
34 0,52 + 26 0,82
= 0,419
60
IC (1 2 ) = X 1 X 2 t N1 + N 2 2; 2 S p
S p = 0,419 = 0,647
1
1
+
N1 N 2
1
1
1
1
+
= 0,4 2,0 0,647
+
35 27
35 27
IC5% (1 2 ) = 0,4 0,332 = [0,068; 0,732]
Concluimos que, con una confianza del 95%, podemos rechazar la igualdad de
medias, ya que: 0 [0,068; 0,732]
19
13/05/12
IC ( Y ) = Y t n 1, 2
Y=X1 -X2
1,3
2,5
5,4
-0,2
2,2
3,5
1,7
3,1
Y = 2,4
IC 5% (Y ) = 2,4 2,3646
1,6561
SY = 1,6561
SY
n
t 7;0,025 = 2,3646
( )
( )
E N2 = N
V N2 = 2 N
(N 1) S 2
~ 2N 1
20
13/05/12
P 2N > 2N ; =
10
15
k=2
k=5
20
25
30
k=10
2N ;
( )
( )
=PRUEBA.CHI.INV(0.05;15)=24,9958
=PRUEBA.CHI.INV(0.95;15)=7,2609
S2
2
2
=DISTR.CHI(7,6;19)=0,99026
21
13/05/12
(N 1) S 2
~ 2N 1
S2
P 2N 1,1 2 (N 1) 2 2N 1, 2 = 1
(N 1)S 2
(N 1)S 2 = 1
P 2
2 2
N 1,1 2
N 1, 2
(N 1)S 2 (N 1)S 2
IC 2 = 2
, 2
N 1, 2 N 1,1 2
( )
(N 1) , S (N 1)
IC ( ) = S 2
2N 1,1 2
N 1, 2
(N 1) , S (N 1)
IC ( ) = S 2
2N 1,1 2
N 1, 2
24
24
24
24
, 10
IC0,05 ( ) = 10 2
, 10 2
= 10
= [7,81; 13,91]
39
,
36
12
,40
24, 0 , 025
24, 0 , 975
( )
22
13/05/12
n1,1
n1, 2
n1, j
n1, J
n1+
X 1, 2
n2,1
n2, 2
n2, j
n2, J
n2+
X 1, i
ni ,1
ni , 2
ni , j
ni , J
ni +
nI ,1
nI , 2
nI , j
nI , J
nI +
n+1
n+ 2
n+ j
n+ J
X 1, I
n n
eij = n ij =
d =
(n
eij )
Tamao muestral
ij
eij
i, j
d =
(n
ij
eij 0,5
H 0 d ~ (2I 1)( J 1)
eij
i, j
Si
No
Si
No
173(144,18)
160(188,82)
599(627,82)
851(822,18) 1450
Total
772
d=
1011
Total
333
1783
333 772
= 144,18
1783
e1, 2 = 333 144,18 = 188,82
e1,1 =
I =2
J =2
144,18
188,82
(I 1)(J 1) = 1
627,82
822,18
= 12,49
Al ser 12,49 > 3,84, hemos encontrado una evidencia lo suficientemente fuerte
para rechazar la independencia, al nivel de significatividad = 0,05.
EXCEL: p-value = DISTR.CHI(12,49;1) = 0,0004
23
13/05/12
Estudios
Primarios
Secundarios
Superiores
5 (8,75) 44 (46)
15 (17,50) 100 (92)
15 (8,75) 40 (46)
Total
184
35
2
d=
(5 8,75)
8,75
(44 46)
46
23(15,75) 3 (4,5)
30(31,50) 5 (9,0)
10 (15,75) 10 (4,5)
18
63
Total
75
150
75
300
++
(10 4,5)
4,5
= 22,57
Al ser 22,57 > 12,59, hemos encontrado una evidencia lo suficientemente fuerte
para rechazar la independencia, al nivel de significatividad = 0,05.
EXCEL: p-value = DISTR.CHI(22,57;1) = 0,00095
24