Introduccion A La Inferencia Estadistica

13/05/12
Introduccin a la Inferencia
Estadstica
Francisco Javier Arteaga Moreno
Inferencia Estadstica
El objetivo de la Inferencia Estadstica es deducir conclusiones vlidas respecto
a una poblacin, a partir del anlisis de una muestra aleatoria de dicha poblacin.
conclusiones vlidas
con un margen de error reducido y conocido.
poblacin
conjunto e individuos que poseen una caracterstica de inters objeto de estudio.
muestra aleatoria
cada individuo en la poblacin tiene igual probabilidad de ser incluido en la
muestra y los individuos se seleccionan de forma independiente.
13/05/12
Definiciones Bsicas
Variable aleatoria (v.a.): caracterstica objeto de estudio que puede tener un valor
diferente para diferentes individuos.
Tipos de variables aleatorias: cualitativas o de atributo, cuasi-cuantitativas u ordinales,
cuantitativas discretas, cuantitativas continuas.
Distribucin de probabilidad: ley, conocida o desconocida, que define la frecuencia con
que aparecen los diferentes valores de la variable aleatoria.
Funcin de probabilidad: para v.a. no continuas, funcin que a cada posible valor de la
v.a. le asocia la probabilidad con la que aparece.
Funcin densidad de probabilidad: para v.a. continuas, funcin que a cada valor de la
v.a. le asocia una medida relativa de lo frecuentes que son los valores de su entorno.
Funcin de distribucin: para v.a. cuantitativas, funcin que a cada nmero le asigna la
frecuencia con la que la v.a. ofrece valores iguales o inferiores a dicho nmero.
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de
una poblacin.
Estadstico: funcin definida sobre los valores numricos de caractersticas medibles de
una muestra.
Definiciones Bsicas. Distribucin muestral

Hemos dicho que un estadstico es una funcin definida sobre los valores numricos de
caractersticas medibles de una muestra, por lo que para diferentes muestras tendremos
diferentes valores del estadstico.
Pensemos, por ejemplo, en la media muestral, es decir, la media aritmtica de los n valores
de una muestra aleatoria X1, X2, , Xn. Es claro que diferentes muestras darn lugar a
diferentes valores de la media muestral.
Segn lo anterior, un estadstico es una variable aleatoria y, como tal, tendr una
distribucin de probabilidad, que nos informa acerca de la frecuencia con la que aparecen
los diferentes valores del estadstico. La distribucin de probabilidad de un estadstico se
denomina distribucin muestral, y a la desviacin tpica de un estimador se la denomina
error estndar.
Volviendo al ejemplo anterior, el teorema del lmite central nos dice que, para tamaos
muestrales lo suficientemente elevados, la media muestral es aproximadamente normal,
con la misma media que la variable original y con una varianza igual a la de la variable
original, dividida por n.
Dada X una v.a., con media y varianza 2, la media muestral X = ( X 1 + X 2 + + X n ) n
con n lo suficientemente elevada, verifica, aproximadamente: X ~ N ;

n
13/05/12
Muestreo de poblaciones normales

Distribucin de los estadsticos muestrales
Dada la v.a. X con media y varianza 2, extraemos una muestra: X1, X2, , XN,
la media de la media muestral coincide con la media poblacional y la
varianza de la media muestral es igual a la varianza poblacional, dividida
por el tamao muestral:
V (X) ! 2
E (X) = E (X) =
V (X) =
=
N
N
Definimos ahora la varianza muestral
S2
2
como: S =
(X
! X ) + ( X 2 ! X ) +!+ ( X N ! X )
N !1
Se puede demostrar que la media de la varianza muestral, segn la acabamos

de definir, coincide con la varianza poblacional:
E (S 2 ) = ! 2
Esto justifica definir S2 dividiendo por N1 en lugar de por N.

La expresin de la varianza muestral es bastante complicada. El resultado ms
importante es que tiende a cero cuando N tiende a infinito.

Distribucin de los estadsticos muestrales
Los resultados anteriores son generales, en el sentido de que son vlidos
independientemente de la distribucin de la poblacin muestreada.
Cuando la poblacin muestreada es normal es posible establecer resultados
adicionales de gran importancia dentro de la Inferencia Estadstica.
En primer lugar se tiene que la media muestral es Normal, independientemente
del tamao muestral, con lo que, si X ~ N(; 2) se verifica:
! !2$
X ~ N # ;
&
" N%
X!
~ N ( 0; 1)
! N
Otro resultado importante es que en poblaciones normales la media muestral y

la varianza muestral son independientes.
13/05/12

Uso de la distribucin normal estndar en inferencia
Por comodidad se define z como el valor para el cual la distribucin normal
estndar deja una probabilidad a la derecha igual a .
Es fcil comprobar que z coincide
con el percentil 100(1).
Por ejemplo, z0,05 = P95 = 1,644854
Adems se comprueba que, por
simetra, z1 = z.
Los valores ms utilizados son:

z0,05 = P95 = 1,644854
z0,025 = P97,5 = 1,959964
z0,005 = P99,5 = 2,575829

La distribucin t
Si extraemos una muestra de tamao N
de una variable X~N(; ), sabemos
que la media muestral verifica:
De lo anterior se deduce que:

X ~ N X = ; X =
~ N (0; 1)
Si sustituimos el valor de la desviacin tpica en la frmula anterior, por su

aproximacin S, la expresin resultante ser aproximadamente normal estndar, y
su parecido ser tanto mayor cuanto mayor sea N.
A esta nueva distribucin, parecida a la normal estndar, le llamamos distribucin
t de student con N 1 grados de libertad:
X
S
~ t N 1
13/05/12

La distribucin t
En la siguiente grfica se aprecia el
parecido entre la distribucin t y la
normal estndar y que dicho parecido
crece con los grados de libertad.
La media de la distribucin tN es igual a
0 y su varianza tiende a 1 si N
E (t N ) = 0
V (t N ) =
t=1
t=5
N(0;1)
N
N 2
Se define tN; como el valor que

verifica:
P ( t N > t N ;! ) = !
12
Por simetra: t N ;1 = t N ;
t N ;
t N ;

Uso de la tabla de la distribucin t
En la siguiente figura se muestra un fragmento de la tabla de la distribucin t:
g.l.
0.4
0.25
0.1
0.05
0.025
En esta tabla se muestra, para diferentes
1
0.32492 1.00000 3.07768 6.31375 12.70620
2
0.28868 0.81650 1.88562 2.91999 4.30265
grados de libertad (g.l. en la columna de la
3
0.27667 0.76489 1.63774 2.35336 3.18245
4
0.27072 0.74070 1.53321 2.13185 2.77645
izquierda), el valor que deja a la derecha
5
0.26718 0.72669 1.47588 2.01505 2.57058
una probabilidad determinada (la que
90
0.25410 0.67723 1.29103 1.66196 1.98667
aparece en la fila superior de la tabla).
Dada una probabilidad , tN; coincide con
el percentil P100(1) de la distribucin tN.
t 2; 0, 4 = 0,289
=DISTR.T.INV(0,40*2;2)
t3; 0,1 = 1,638
=DISTR.T.INV(0,10*2;3)
P(t5 > 2,015) = 0,05
=DISTR.T(2,015;5;1)
100
110
120
0.25402
0.25396
0.25391
0.25335
0.67695
0.67673
0.67654
0.67449
1.29007
1.28930
1.28865
1.28155
1.66023
1.65882
1.65765
1.64485
1.98397
1.98177
1.97993
1.95996
Distribucin normal estndar

t3
0,1
0
t3;0,1 = P90
13/05/12
Distribucin Muestral
Poblacin
Variable X
Muestra 1
Muestra 2
Muestra k
X1
X2
Xk
Distribucin de la
media muestral
Estimacin Puntual. Estimador

Dado un parmetro , correspondiente a la distribucin de una variable aleatoria, de la
que tomamos una muestra, un estimador * es un estadstico que se supone una buena
aproximacin al parmetro .
Por ejemplo, dada una variable normal con media desconocida, la media muestral es un
estimador de .
Los parmetros que con mayor frecuencia se desea estimar son:
La media de una poblacin
La varianza 2 (o la desviacin tpica ) de una poblacin.
La proporcin p de individuos en una poblacin que verifican alguna propiedad.
La diferencia entre las medias de dos poblaciones 12.
La diferencia entre proporciones de dos poblaciones p1p2.
Un mismo parmetro puede estimarse con diferentes estadsticos, por ejemplo, para estimar
la media de una poblacin, adems de la media muestral se puede emplear la mediana
muestral o el promedio de las observaciones mayor y menor de la muestra.
13/05/12
Estimacin Puntual. Estimador

Un estimador es un estadstico y, por lo tanto, una variable aleatoria con su
distribucin de probabilidad propia, que depender de la distribucin de la
poblacin de origen, del tamao de la muestra y de la expresin matemtica a
partir de la que se calcula.
Del estimador se espera que est prximo , en algn sentido, al verdadero valor
desconocido del parmetro que se desea estimar.
Al poder emplear diferentes estimadores para un mismo parmetro, tiene sentido
preguntarnos:
Cul es el mejor estimador entre varios?

Qu propiedades definen la calidad de un estimador?
Nos centraremos en tres propiedades fundamentales:
El sesgo, la varianza y el error cuadrtico medio.
Estimacin Puntual. Propiedades de los estimadores

Sesgo (error sistemtico, falta de validez)
Una propiedad de un estimador, en relacin al parmetro que se desea estimar, es el sesgo,
que se define como: Sesgo * = E * , donde E * es la media o valor esperado de la
distribucin del estadstico .
( ) ( )
( )
( )
Un estimador es insesgado cuando su sesgo es nulo: E * = .

Un estimador se dice asintticamente insesgado si su sesgo tiende a cero cuando el
tamao de la muestra tiende a infinito.
La media muestral y la varianza muestral (dividiendo por n-1) son estimadores insesgados
de la media y la varianza poblacionales.
Estimador Insesgado
Estimadores Sesgados
13/05/12

Varianza (error aleatorio, falta de precisin)
El que un estimador sea insesgado no es concluyente, ya que puede haber un estimador
sesgado que resulte preferible al primero, cuando su varianza sea lo suficientemente menor
para, en promedio, ofrecer valores ms prximos al valor del parmetro estimado.
Si para un parmetro disponemos de varios estimadores, un principio lgico de
estimacin es seleccionar el estimador de mnima varianza. Si se consideran todos los
estimadores insesgados de , el que tiene la menor varianza recibe el nombre de estimador
insesgado de varianza mnima (EIVM).
En el siguiente ejemplo se muestran cuatro estimadores insesgados, con varianza creciente:
V(*) = 1
V(*) = 3
V(*) = 6
V(*) = 9

Combinando el Sesgo y la Varianza: el Error Cuadrtico Medio (ECM)
El error de estimacin, e = * - , es una variable aleatoria, por depender del estadstico *,
cuyo valor no podemos conocer con precisin, debido a que el valor del parmetro es
desconocido.
Una medida razonable de la calidad de un estimador es la media del cuadrado del error de
estimacin o Error Cuadrtico Medio, es decir: ECM(*) = E[(*- )2].
( )
[(
= E [(
= E [(
) ] = E [( E ( )+ E ( ) ) ]
E ( )) + (E ( ) ) + 2( E ( ))(E ( ) )]
E ( )) ]+ E [(E ( ) ) ]+ 2 E [ E ( ) (E ( )) + E ( )]
= Var ( ) + (Sesgo( )) + 2[(E ( )) E ( ) (E ( )) + E ( )]
ECM * = E *
( )
( ) (
( ))
ECM * = Var * + Sesgo *
El Error Cuadrtico Medio de un estimador es igual a la suma de

su varianza y el cuadrado de su sesgo.
13/05/12
Estimacin Puntual. Error Cuadrtico Medio

Combinando el Sesgo y la Varianza: el Error Cuadrtico Medio (ECM)
El Error Cuadrtico Medio combina las dos componentes del error de estimacin:
( )
( ) (
( ))
ECM * = Var * + Sesgo *

Componente Aleatoria
Componente Sistemtica
V(*) = 1, Sesgo (*) = 1 V(*) = 2, Sesgo (*) = 0 V(*) = 4, Sesgo (*) = 0 V(*) = 4, Sesgo (*) = 2
ECM (*) = 2
ECM (*) = 2
ECM (*) = 4
ECM (*) = 8
Estimacin Puntual. Error Cuadrtico Medio

En la siguiente figura se comparan
dos estimadores insesgados con
diferente varianza.
"
Distribucin de ! 1
En la siguiente figura se compara un

estimador insesgado con otro
sesgado, pero con menor varianza.
!"2
"
Distribucin de ! 2
!"1
En este caso es preferible *1 por

tener menor varianza.
En este caso es preferible *2, pese a

ser sesgado, ya que su varianza es
mucho menor y, en promedio, nos va
a proporcionar estimaciones ms
prximas al valor del parmetro.
Un estimador se dice Consistente cuando su Error Cuadrtico Medio tiende a cero, cuando
el tamao de la muestra tiende a infinito.
13/05/12
Relacionando la media muestral con la media poblacional

La base de la Inferencia Estadstica es el conocimiento de las relaciones que ligan la
distribucin de diferentes estadsticos muestrales con la distribucin de la poblacin y, en
particular, con los parmetros de dicha distribucin (como la media , la desviacin tpica
, la proporcin poblacional, ).
Media muestral
Por ejemplo, si consideramos la variable X~N(; ), de
X + X 2 ++ X n
la que extraemos una muestra, X1, X2, , Xn, la media
X= 1
muestral verifica lo siguiente: X ~ N ; n
n
X
Si tipificamos:
~ N (0; 1)
n
Desviacin tpica muestral
La expresin anterior tiene el handicap de que en
n
general no conocemos el valor de , aunque la podemos
(X i X )2
sustituir por la desviacin tpica muestral, S, que es un

i =1
S=
estimador insesgado de , obteniendo:
n 1
X
T=
S n
T es un estadstico, y su distribucin de probabilidad se
Distribucin t de Student
parecer a la normal estndar, siendo mayor el parecido
X
cuanto mayor sea el tamao muestral n. A la
T
=
~ tn1
distribucin de T, obtenida a partir de una muestra de n
S n
elementos, le llamamos t con n-1 grados de libertad.
Intervalos de Confianza y Contraste de hiptesis

Hemos visto que la distribucin t es til para relacionar la media muestral con la media
poblacional, en poblaciones normales:
X
X
X ~ N (; )
X 1 , X 2 , , X n
T=
~ tn1
S
S n
t n 1
t n 1; 2
t n 1; 2
0
Intervalo de Confianza
Contraste de Hiptesis
X
P tn 1; 2
tn1; 2 = 1
H0: = 0
X 0
T=
Si H 0 T ~ tn1
S
n
H1: 0
S n
P X tn 1; 2 S n X + tn1; 2 S n = 1
p-value es la probabilidad de obtener un
valor de T tan alejado de 0 ms que el
IC = X tn 1; 2 S n
que hemos obtenido, si H0 fuera cierta.
( )
10
13/05/12
El concepto de p-value en Contraste de Hiptesis

H0: = 0
En la diapositiva anterior planteamos el contraste de hiptesis:
H1: 0
X 0
concluimos que, si H0 cierta, el estadstico: T =
verificara una distribucin tn-1.
S n
El valor obtenido para T, a partir de la muestra, siempre es una evidencia en contra de la
hiptesis nula, ya que al ser la media muestral diferente de 0, T ser diferente de 0.
La cuestin de inters es si el valor de T est relativamente cerca de 0, o si est tan lejos de
0 como para hacernos dudar de H0, y esto lo medimos viendo cmo de improbable es
obtener un resultado tanto o ms extremo que nuestro T, si la H0 fuera cierta.
El p-value es la probabilidad de obtener un valor para T tanto o ms extremo que el que
hemos obtenido, si la hiptesis nula fuera cierta.
El p-value se interpreta como una medida de la compatibilidad entre la muestra y H0.
Hay que decidir entre aceptar o rechazar H0, y lo hacemos estableciendo un valor mnimo
para el p-value, al que llamamos significatividad y denotamos . Usualmente = 0,05.
Si p-value < rechazamos H0, en otro caso aceptamos H0.
p-value
La seleccin de implica un valor crtico para T.

EXCEL: p-value = 2*DISTR.T.CD(T;n-1)
t n 1; 2
El concepto de p-value en Intervalos de Confianza

X ~ N (; )
X 1 , X 2 , , X n
IC ( ) = X tn 1; 2 S
e = t n 1; 2
X t n 1; 2
S
n
S
n
X + t n 1; 2
S
n
Nos planteamos la hiptesis nula H0: = 0, que slo rechazaremos cuando la distancia
entre la media muestral y 0 sea demasiado grande (significativa).
La distancia se considera demasiado grande cuando 0 est fuera del intervalo de
confianza, cuya anchura regulamos mediante la significacin .
mide lo exigentes que somos a la hora de aceptar H0. Con = 0,05 es ms fcil rechazar
H0 que con = 0,01, ya que mayores valores de corresponden intervalos ms estrechos.
El p-value es el valor que debera tener para que el intervalo capture a 0 justo en uno de
sus extremos.
Si 0 est fuera, p-value < , hay que ensanchar el intervalo para capturar 0 en el borde.
Si 0 est dentro, p-value > , hay que estrechar el intervalo para capturar 0 en el borde.
11
13/05/12
Errores en el Contraste de Hiptesis

Al hacer un contraste de hiptesis tenemos que elegir entre aceptar o rechazar H0, la cual
puede ser cierta o falsa:
Aceptar H0
Rechazar H0
H0 cierta
H0 Falsa
Correcto
Error tipo II
Error tipo I
Correcto
Error tipo I = P(Rechazar H 0 | H 0 cierta ) =
Riesgo 1 especie
Error tipo II = P(Aceptar H 0 | H 0 falsa ) =
Riesgo 2 especie
No podemos fijar y simultneamente, ya que al disminuir uno el otro aumenta. Lo

usual es fijar (generalmente = 5%) y controlar mediante el tamao muestral.
Al complementario de (es decir, a 1-) le llamamos potencia del test.
H0 es una hiptesis definida, un valor especfico de un parmetro, mientras que H1 es una
hiptesis indefinida, un intervalo de valores para un parmetro, por lo que 1- tomar un
valor diferente para cada posible valor del parmetro: funcin de potencia.
La potencia de un test nos mide lo capaz que es el mismo de detectar desviaciones en el
valor del parmetro.
Estimacin por intervalos

Dada una v.a. para la que tenemos definido un parmetro estadstico cuyo valor
desconocemos, extraemos una muestra de la v.a. a partir de la cual podemos
calcular un intervalo [a,b] que llamaremos intervalo de confianza de significacin
(equivalentemente de nivel de confianza 1), siempre que se verifique:
P( [a,b]) 1
Cuando, a partir de una muestra aleatoria, hemos construido el intervalo de
confianza IC = [a,b], no tiene sentido decir que IC con probabilidad 1, ya
que, dada una muestra, slo puede ocurrir que el verdadero valor del parmetro
est o no est dentro del intervalo. Sin embargo por comodidad a veces se utiliza
esa expresin, donde lo que queremos con esa frase es expresar la idea de que
de haber tomado un gran nmero de muestras del mismo tamao, en un 100
(1)% de las ocasiones el intervalo de confianza correspondiente contendr el
verdadero valor del parmetro .
12
13/05/12
Intervalos de confianza para la distribucin normal

X ~ N(; 2) X1, X2, , XN m.a. X
Intervalo para , con conocida
2
X ~ N ;
N
P X z 2
X + z 2
= 1
N
N
P X z 2
X + z 2
= 1
N
N
~ N (0; 1)
X
P z 2
z 2 = 1
IC ( ) = X z 2
, X + z 2
= X z 2
N
N
N

X ~ N(; 2) X1, X2, , XN m.a. X, S
Intervalo para , con desconocida
X
S
~ t N 1
X
P t N 1, 2
t N 1, 2 = 1
S
S
S
P X t N 1, 2
X + t N 1, 2
= 1
N
N
S
S
P X t N 1, 2
X + t N 1, 2
= 1
N
N
S
S
S
IC ( ) = X t N 1, 2
, X + t N 1, 2
= X t N 1, 2
N
N
N
13
13/05/12

Ejemplo
Para una cierta poblacin se asume que el peso de los recin nacidos verifica un
modelo normal con media desconocida y desviacin tpica = 0,75 Kg.
Se ha tomado una muestra de 100 recin nacidos y se ha encontrado una media
muestral de 3 Kg y una desviacin tpica muestral de 0,5 Kg.
IC 0,05 ( ) = 3 z 0,025
0,75
100
= 3 1,96 0,075 = [2,853; 3,147]
Ejemplo
Para una cierta poblacin se asume que el peso de los recin nacidos verifica un
modelo normal con media desconocida y desviacin tpica desconocida.
Se ha tomado una muestra de 100 recin nacidos y se ha encontrado una media
muestral de 3 Kg y una desviacin tpica muestral de 0,5 Kg.
IC 0,05 ( ) = 3 t 99; 0,025
0,5
100
= 3 1,98 0,05 = [2,901; 3,099]

Ejemplo
La variable IL se presenta en los nios recin nacidos con una distribucin
normal de media 2,5. En un grupo de 31 nios con sepsis neonatal se encuentra
que la media muestral de IL es de 1,8 y la desviacin tpica muestral resulta igual
a 0,2. Comente si la presencia de sepsis neonatal afecta el valor de IL.
Calculamos el intervalo de confianza al 95% para la media de IL correspondiente
a los nios con sepsis neonatal, resultando:
IC0,05 ( ) = 1,8 t30;0,025
0,2
= 1,8 2,04 0,0359 = [1,73; 1,87]
31
Que no contiene el valor 2,5, por lo que concluimos, con una confianza del 95%,
que la sepsis neonatal afecta al valor de la IL de los recin nacidos.
14
13/05/12
Tamao muestral para IC()

Dada una poblacin normal hemos obtenido una muestra de tamao N, a partir de
la cual construimos un intervalo de confianza para la media, con significacin .
IC ( ) = X t N 1, 2
S
N
A la cantidad que se suma y resta a la media muestral le llamamos precisin del

intervalo y la denotaremos d: d = t N 1, 2 S N
Si N es lo suficientemente grande la distribucin t puede aproximarse como una
distribucin normal estndar: t N 1, 2 z 2
De lo anterior se deduce que la precisin se puede escribir, aproximadamente:
d = z 2 S
En esta expresin podemos despejar N, como el tamao muestral mnimo

necesario para obtener una precisin d con una confianza 1.
N = (z 2 S d )
Tamao muestral para IC()

Ejemplo
Para cierto estudio se tom una muestra de tamao N = 25 de una poblacin

normal, obteniendo una media muestral de 170 cm y una desviacin tpica
muestral de 10 cm.
Calcula el tamao muestral que debamos haber exigido para conseguir un
intervalo de confianza para la media de la poblacin con un nivel de significacin
= 0,01 (99% de confianza) y con una precisin d = 1cm.
N = (z 2 S d )
2
N = (z0,005 10 1) = (2,58 10 1) 664
Por lo tanto, si queremos que el error de estimacin sea menor o igual a 1 cm, con
una confianza del 99%, debemos tomar una muestra de al menos 664 individuos.
15
13/05/12
Intervalos de confianza para una proporcin IC(p)
Supongamos que tomamos una muestra aleatoria de tamao n de una poblacin

grande (posiblemente infinita) y que X de las n observaciones cumplen cierta
propiedad de inters. Entonces p = X n es un estimador puntual de la verdadera
proporcin de individuos de la poblacin que verifican la propiedad estudiada.
Observamos que X es una variable binomial con parmetros n y p, con lo que, si
np 5 y n(1p) 5, entonces X es, aproximadamente, X ~ N ( = np; 2 = np(1 p ))
p =
X
p(1 p )
~ N = p; 2 =
n
n
p p
p(1 p )
n
~ N = 0; 2 = 1
p (1 p )
IC ( p) p z 2
; p + z 2
n
P z 2
z 2 = 1
p(1 p )
p p
p (1 p )
= p z 2
n
p (1 p )
n
Intervalos de confianza para una proporcin IC(p)
Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se
realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35% que
votarn a favor y 65% que votarn en contra (suponemos que no hay indecisos
para simplificar el problema a una variable dicotmica). Con un nivel de
significacin del 5 %, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
IC ( p) = p z 2
IC5% ( p) = 0,35 z0,025
p (1 p )
n
0,35 0,65
= 0,35 1,96 0,0477 = 0,35 0,0935
100
IC5% ( p) = [25,65%; 44,38%]
16
13/05/12
Tamao muestral para IC(p)

En la expresin para el intervalo de confianza para una proporcin, dada una
significacin y un tamao muestral n.
IC ( p) = p z 2
p (1 p )
n
A la cantidad que se suma y resta a la proporcin estimada le llamamos precisin

del intervalo y la denotaremos d:
d = z 2
p (1 p )
n
En esta expresin podemos despejar n, como el tamao muestral mnimo

necesario para obtener una precisin d con una confianza 1.
z 2
n = p (1 p )
d
Al elegir n an no conocemos la
estimacin de p, por lo que lo usual es
ponernos en el peor de los casos: p = 0,5.
1 z 2
n =
4 d
Tamao muestral para IC(p)

Ejemplo
En el ejemplo anterior se tom una muestra de tamao n = 100 votantes, de los

cuales el 35% votarn a favor de una reforma. Con esta muestra calculamos un
intervalo de confianza para la proporcin de votantes a favor: IC5%(p) = [25,65;
44,38], es decir, con una precisin d = 9,35%.
Calcula el tamao muestral que debamos haber exigido para conseguir un
intervalo de confianza para la proporcin de votantes a favor con un nivel de
significacin = 0,03 (97% de confianza) y con una precisin d = 1%.
1 z 2
n =
4 d
2,17
n = 0,25 0,015 = 0,25
11.774
0,01
0,01
Por lo tanto, si queremos que el error de estimacin sea menor o igual al 1%, con
una confianza del 97%, debemos tomar una muestra de al menos 11.774
individuos.
17
13/05/12
IC para una diferencia de proporciones IC(p1p2)
A partir de lo visto hasta ahora la notacin empleada aqu es autoexplicativa.

IC ( p1 p2 ) = ( p1 p 2 ) z 2
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
Ejemplo
Se cree que la osteoporosis est relacionada con el sexo. Para ello se elige una
muestra de 100 hombres de ms de 50 aos y una muestra de 200 mujeres en las
mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algn grado de
osteoporosis. Qu podemos concluir con una confianza del 95 %?
10
= 0,1
0,09 0,16
100
+
IC5% ( p1 p2 ) = (0,1 0,2) 1,96
40
100 200
p 2 =
= 0,2
200
IC5% ( p1 p2 ) = 0,1 0,08 = [ 0,18; 0,02]

p 1 =
Podemos afirmar, con una confianza del 95%, que existe una diferencia
significativa en la incidencia de osteoporosis entre hombres y mujeres, siendo
mayor dicha incidencia entre las mujeres.
Comparacin de dos medias con varianzas iguales

X1 ~ N(1; 12) X11, X12, , X1N1 m.a. X 1, S 2
1
X2 ~ N(2; 22) X21, X22, , X2N2 m.a. X 2 , S 22

Intervalo para 12, con 2 = 12 = 22
Al asumir la identidad de las varianzas calculamos una estimacin de la varianza
que combina las estimaciones obtenidas en ambas muestras y la denotamos Sp2.
N1 , S12
(N1 1)S12 + (N 2 1)S22
2
S
=
p
N1 + N 2 2
N 2 , S 22
IC (1 2 ) = X 1 X 2 t N1 + N 2 2; 2 S p
1
1
+
N1 N 2
18
13/05/12
Comparacin de dos medias con varianzas iguales

Ejemplo. Para estudiar la posible influencia del tabaco con el peso de los nios al
nacer se consideran dos grupos de mujeres embarazadas (unas que fuman y otras
que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:
No Fumadoras
Fumadoras
S p2 =
N1 = 35
X 1 = 3,6 Kg
S1 = 0,5Kg
N 2 = 27 X 2 = 3,2 Kg S 2 = 0,8Kg
(N1 1)S12 + (N 2 1)S22

N1 + N 2 2
Asumimos varianzas iguales.
34 0,52 + 26 0,82
= 0,419
60
IC (1 2 ) = X 1 X 2 t N1 + N 2 2; 2 S p
S p = 0,419 = 0,647
1
1
+
N1 N 2
1
1
1
1
+
= 0,4 2,0 0,647
+
35 27
35 27
IC5% (1 2 ) = 0,4 0,332 = [0,068; 0,732]
IC5% (1 2 ) = (3,6 3,2) t60;0,025 0,647
Concluimos que, con una confianza del 95%, podemos rechazar la igualdad de
medias, ya que: 0 [0,068; 0,732]
Comparacin de dos medias con datos pareados

Sean las poblaciones normales X1~N(1, 2), X2~N(2, 2) con la misma varianza.
Tomamos una muestra de tamao n de cada poblacin:
{x1,1, x1,2, , x1,n} y {x2,1, x2,2, , x2,n}
Tales que las observaciones estn relacionadas por pares (ruedas del mismo
coche, personas de iguales caractersticas, un mismo proceso realizado de dos
formas diferentes), de manera que el par i-simo estar formado por las
observaciones x1,i, y x2,i.
Para contrastar la posible igualdad de las medias 1 y 2
X1
X2
construimos Y = X1X2 y tenemos la muestra {y1, y2, , yn},
x1,1
x2,1
cuyos valores son yi = x1,i x2,i, Y es una variable cuya
x1,2
x2,2
normalidad habra que comprobar y con parmetros:
Y = 1 2
Y2 = 2 2 (1 )
x1,i
x2,i
con es el coeficiente de correlacin entre X1 y X2. Si las dos
medidas que comparamos son anlogas, ser positivo y
x1,n
x2,n
grande (prximo a 1) y la variabilidad de las desviaciones as
calculadas ser menor que con muestras independientes.
19
13/05/12
Comparacin de dos medias con datos pareados

Al haber construido Y = X1X2, la igualdad de medias
equivaldra a Y = 0, lo cual puede ser contrastado
mediante un intervalo de confianza IC(Y).
IC ( Y ) = Y t n 1, 2
Ejemplo. Para una m.a. de 8 alumnos de 1 de medicina

se ha medido el nmero medio semanal de horas que pasa
conectado al servidor durante las semanas del primer
cuatrimestre (variable X1) y durante las semanas del
segundo cuatrimestre (variable X2).
Para ver si pasan el mismo tiempo conectados en ambos
cuatrimestres construimos Y = X1X2 y calculamos IC5% (Y )
Y=X1 -X2
1,3
2,5
5,4
-0,2
2,2
3,5
1,7
3,1
Y = 2,4
IC 5% (Y ) = 2,4 2,3646
1,6561
SY = 1,6561
SY
n
Horas semanales promedio

Primer
Segundo
Alumno cuatrimestre cuatrimestre
1
7,6
6,3
2
5,1
2,6
3
12,9
7,5
4
7,0
7,2
5
6,0
3,8
6
8,6
5,1
7
7,9
6,2
8
7,9
4,8
= 2,4 1,38 = [1,02; 3,78]
Concluimos que, con una confianza del 95%,

pasan ms tiempo conectados el 1er cuatrimestre
t 7;0,025 = 2,3646
Muestreo de poblaciones normales: Distribucin Chi-2

Si X1, X2, , XN son variables aleatorias independientes, con Xi~N( = 0; = 1),
se dice que la variable resultante de sumar sus cuadrados es Chi cuadrado con N
grados de libertad y se escribe X 12 + X 22 + + X K2 ~ K2
La media de una variable Chi-2 coincide con los grados de libertad mientras que
la varianza es igual al doble de los grados de libertad.
( )
( )
E N2 = N
V N2 = 2 N
El principal resultado en relacin a la distribucin Chi-2 es que si S2 es la

varianza muestral de una muestra de tamao N obtenida de una poblacin normal
cuya varianza poblacional es 2, entonces se verifica la siguiente relacin:
2
(N 1) S 2
~ 2N 1
La distribucin Chi-2 ser til para realizar inferencias acerca de la varianza de

poblaciones normales.
20
13/05/12
Muestreo de poblaciones normales: Distribucin Chi-2

En la siguiente figura se muestra el
aspecto de la f.d.p. Chi-2 para
distintos valores N.
Para cada entre 0 y 1 se define N ;

como el valor percentil 100(1) de la
2
distribucin N , es decir:
P 2N > 2N ; =
10
15
k=2
k=5
20
25
30
k=10
2N ;
Uso de la tabla Chi-2

Disponemos de tablas Chi-2 para diferentes grados de libertad y diferentes
2
valores de . En la tabla podemos encontrar N ; , es decir, el valor de la variable
chi-2 con N grados de libertad que deja a la derecha una probabilidad .
Por la definicin, P ( 2N ) = 2N ; 1
Ejemplo: Calcula los percentiles 5 y 95 de la distribucin chi-2 con 15 grados de
libertad.
2
2
2
2
( )
P5 15 = 15; 0,95 = 7,26
( )
=PRUEBA.CHI.INV(0.05;15)=24,9958
=PRUEBA.CHI.INV(0.95;15)=7,2609
P95 15 = 15; 0,05 = 25
Ejemplo: Cul es la probabilidad de obtener una varianza muestral mayor que 2

al extraer una muestra con N = 20 de una poblacin normal de 2 = 5?
S2
2
2
P S 2 > 2 = P (N 1) 2 > (N 1) 2 = P 192 > 19 = P 192 > 7,6 0,99
=DISTR.CHI(7,6;19)=0,99026
21
13/05/12
Intervalos de confianza para la varianza

X ~ N(; 2) X1, X2, , XN m.a. S
2
(N 1) S 2
~ 2N 1
S2
P 2N 1,1 2 (N 1) 2 2N 1, 2 = 1
(N 1)S 2
(N 1)S 2 = 1
P 2
2 2

N 1,1 2
N 1, 2
(N 1)S 2 (N 1)S 2
IC 2 = 2
, 2
N 1, 2 N 1,1 2
( )
(N 1) , S (N 1)
IC ( ) = S 2
2N 1,1 2
N 1, 2
Intervalos de confianza para la varianza

Ejemplo
Se estudia la altura de los individuos de cierta poblacin, obtenindose, para una
muestra de 25 individuos, una media muestral de 170 cm y una desviacin tpica
muestral de 10 cm.
Calculamos el intervalo de confianza con significacin = 0,05 (confianza del
95%) para la varianza poblacional 2.
(N 1) , S (N 1)
IC ( ) = S 2
2N 1,1 2
N 1, 2
24
24
24
24
, 10
IC0,05 ( ) = 10 2
, 10 2
= 10
= [7,81; 13,91]
39
,
36
12
,40

24, 0 , 025
24, 0 , 975
( )
IC0,05 2 = [61,0; 193,5]
22
13/05/12
Inferencias para tablas de doble entrada generales

Sean X1 y X2 dos variables cualitativas con I y J niveles, respectivamente; de
manera que hay IJ combinaciones posibles, registradas en una tabla IJ de
manera que el valor de cada casilla representa la frecuencia de la combinacin
correspondiente.
La frecuencia de la combinacin de la casilla (i, j) se representa por nij, siendo su
probabilidad ij que, en caso de independencia, ser ij = i++j, siendo i+ y +j,
las probabilidades univariantes respectivas.
n n
n n
ij = i + + j = pi + p+ j = i + + j = i + 2+ j
X 2,1 X 2, 2
X 2, j
X 2, J
X 1,1
n1,1
n1, 2
n1, j
n1, J
n1+
X 1, 2
n2,1
n2, 2
n2, j
n2, J
n2+
X 1, i
ni ,1
ni , 2
ni , j
ni , J
ni +
nI ,1
nI , 2
nI , j
nI , J
nI +
n+1
n+ 2
n+ j
n+ J
X 1, I
n n
La frecuencia esperada de la casilla (i, j),

bajo la hiptesis nula de independencia, es:
ni + n+ j
eij = n ij =
Correccin de continuidad (Yates):
d =
(n
(Total Fila )(Total Columna )
eij )
Tamao muestral
ij
eij
i, j
d =
(n
ij
eij 0,5
H 0 d ~ (2I 1)( J 1)
eij
i, j

Ejemplo
Tratamos de relacionar el haber prestado servicio en Vietnam con padecer
trastornos del sueo, a partir de una encuesta:
Vietnam
Trastorno
Si
No
Si
No
173(144,18)
160(188,82)
599(627,82)
851(822,18) 1450
Total
772
d=
1011
Total
333
1783
333 772
= 144,18
1783
e1, 2 = 333 144,18 = 188,82
e1,1 =
e2,1 = 772 144,18 = 627,82

e2,1 = 1011 188,82 = 822,18
(173 144,18)2 + (160 188,82)2 + (599 627,82)2 + (851 822,18)2
I =2
J =2
144,18
188,82
(I 1)(J 1) = 1
627,82
822,18
= 12,49
12, 0,05 = 3,84
Al ser 12,49 > 3,84, hemos encontrado una evidencia lo suficientemente fuerte
para rechazar la independencia, al nivel de significatividad = 0,05.
EXCEL: p-value = DISTR.CHI(12,49;1) = 0,0004
23
13/05/12

Ejemplo
Encuesta a 300 adultos acerca de preferencia por poltica relacionada con fumar
en pblico, relacionada con nivel de estudios.
Poltica preferida
Sin
Restr.
Estudios
Primarios
Secundarios
Superiores
5 (8,75) 44 (46)
15 (17,50) 100 (92)
15 (8,75) 40 (46)
Total
184
35
2
d=
Slo en Prohibido Sin

reas restr.
total
opinin
(5 8,75)
8,75
(44 46)
46
23(15,75) 3 (4,5)
30(31,50) 5 (9,0)
10 (15,75) 10 (4,5)
18
63
Total
75
150
75
300
++
(10 4,5)
4,5
= 22,57
62, 0,05 = 12,59
Al ser 22,57 > 12,59, hemos encontrado una evidencia lo suficientemente fuerte
para rechazar la independencia, al nivel de significatividad = 0,05.
EXCEL: p-value = DISTR.CHI(22,57;1) = 0,00095
24

Introduccion A La Inferencia Estadistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Introduccion A La Inferencia Estadistica

Caricato da

Copyright:

Formati disponibili

13/05/12

Francisco Javier Arteaga Moreno

Definiciones Bsicas. Distribucin muestral

con n lo suficientemente elevada, verifica, aproximadamente: X ~ N ;

Muestreo de poblaciones normales

Se puede demostrar que la media de la varianza muestral, segn la acabamos

Esto justifica definir S2 dividiendo por N1 en lugar de por N.

Muestreo de poblaciones normales

Otro resultado importante es que en poblaciones normales la media muestral y

Muestreo de poblaciones normales

Los valores ms utilizados son:

Muestreo de poblaciones normales

Si sustituimos el valor de la desviacin tpica en la frmula anterior, por su

Muestreo de poblaciones normales

Se define tN; como el valor que

Muestreo de poblaciones normales

t3; 0,1 = 1,638

P(t5 > 2,015) = 0,05

Distribucin normal estndar

Estimacin Puntual. Estimador

Estimacin Puntual. Estimador

Cul es el mejor estimador entre varios?

Estimacin Puntual. Propiedades de los estimadores

Un estimador es insesgado cuando su sesgo es nulo: E * = .

Estimacin Puntual. Propiedades de los estimadores

Estimacin Puntual. Propiedades de los estimadores

ECM * = Var * + Sesgo *

El Error Cuadrtico Medio de un estimador es igual a la suma de

Estimacin Puntual. Error Cuadrtico Medio

ECM * = Var * + Sesgo *

Estimacin Puntual. Error Cuadrtico Medio

En la siguiente figura se compara un

En este caso es preferible *1 por

En este caso es preferible *2, pese a

Relacionando la media muestral con la media poblacional

sustituir por la desviacin tpica muestral, S, que es un

Intervalos de Confianza y Contraste de hiptesis

El concepto de p-value en Contraste de Hiptesis

La seleccin de implica un valor crtico para T.

El concepto de p-value en Intervalos de Confianza

Errores en el Contraste de Hiptesis

Error tipo I = P(Rechazar H 0 | H 0 cierta ) =

Error tipo II = P(Aceptar H 0 | H 0 falsa ) =

No podemos fijar y simultneamente, ya que al disminuir uno el otro aumenta. Lo

Estimacin por intervalos

Intervalos de confianza para la distribucin normal

Intervalos de confianza para la distribucin normal

Intervalos de confianza para la distribucin normal

= 3 1,96 0,075 = [2,853; 3,147]

= 3 1,98 0,05 = [2,901; 3,099]

Intervalos de confianza para la distribucin normal

Tamao muestral para IC()

A la cantidad que se suma y resta a la media muestral le llamamos precisin del

En esta expresin podemos despejar N, como el tamao muestral mnimo

Tamao muestral para IC()

Para cierto estudio se tom una muestra de tamao N = 25 de una poblacin

Intervalos de confianza para una proporcin IC(p)

Supongamos que tomamos una muestra aleatoria de tamao n de una poblacin

Intervalos de confianza para una proporcin IC(p)

IC5% ( p) = 0,35 z0,025

IC5% ( p) = [25,65%; 44,38%]

Tamao muestral para IC(p)

A la cantidad que se suma y resta a la proporcin estimada le llamamos precisin