Apuntes de Estadística

INFERENCIA ESTADSTICA
El proceso de inferencia estadstica se cumple a travs de 2

subprocesos de gran importancia, los cuales son:
1) Estimacin de parmetros
2) Pruebas de Hiptesis sobre parmetros
1) Estimacin de parmetros
Como sabemos, es la media de todos los valores posibles de una
variable Yi, la cual slo es posible estimar si se conocieran los valores de
toda la poblacin, sin embargo, como no es posible, se recurren a
mtodos estadsticos para calcular los estimadores a travs de una
muestra
aleatoria.
Estos
estimadores
servirn
para
inferir
las
propiedades de la poblacin a la que pertenece esa muestra.

Muestra aleatoria. Es aquella en la que todos los elementos de
la poblacin tienen la misma probabilidad de ser incluidos en la muestra.
As, los valores de estos estimadores, tienden a aparecer de
acuerdo a ciertas distribuciones llamadas Distribuciones derivadas del
muestreo.
El
proceso
de
estimacin
consiste
en
estimadores de los parmetros que nos interesan.

Existen dos tipos de estimacin:
a) Estimacin puntual
b) Estimacin por intervalo
definir
los
mejores
a) Estimacin puntual. Consiste en calcular un valor estimado

del parmetro con base en los datos de la muestra que
llamaremos estimador. Dar una idea muy vaga del verdadero
valor del parmetro puesto que no podemos conocer el grado
de incertidumbre de la estimacin.
Ejemplo:
La produccin promedio de leche del estado de Mxico es de 10
litros diarios (estimacin de un punto de la lnea real).
b) Estimacin por intervalo. Consiste en establecer un intervalo
de valores, dentro del cual se conoce la probabilidad de que
est el parmetro (o sea un intervalo de confianza).
Ejemplo:
La produccin promedio de leche en el estado de Mxico, flucta
de 5 a 15 litros diarios con una medida de seguridad de 95%.
5 y 15 = 10 + 5
Mejores estimadores. Es comn que para un mismo parmetro
existan varios estimadores, por ejemplo, para existen estimadores
como X , Me, etc., sin embargo, no todos ellos poseen caractersticas
que los hagan deseables.
Las propiedades deseables de los estimadores son:
i)
Insesgamiento
ii)
Mnima varianza
iii)
Consistencia
Insesgamiento. Un estimador de un parmetro es insesgado

si E( ) = , esto es, si el promedio de todos los estimadores calculados
en todas las posibles muestras es el valor parametral.
Si un estimador es sesgado, entonces
Sesgo = - E( )
Mnima varianza Si 1 y 2 son dos estimadores diferentes (pero

ambos insesgados) de , con varianzas
12
22
respectivamente y si
2 2
1
entonces debemos preferir 1 , ya que tiene mnima varianza.

Consistencia. Sea un estimador de calculado a partir de una
muestra aleatoria de tamao n. Si a medida que n tiende a N (N =
nmero de elementos de la poblacin), la probabilidad de que
tenga
un valor cercano a se aproxima a 1, entonces es un estimador

consistente de .
Existen mtodos de estimacin que proporcionan estimadores con
una o ms caractersticas deseables, ellos son:
i)
Mtodo de momentos
ii)
Mtodo de mxima verosimilitud
iii)
Mtodo de mnima ji-cuadrada
iv)
Mtodo de mnimos cuadrados
i) El mtodo de mnimos cuadrados consiste en tomar como

estimadores de los parmetros, aquellos valores que minimizan la suma
de cuadrados de los errores, es decir:
h
e12
i 1
= mnimo = (Yi - )2
DISTRIBUCIONES DERIVADAS DEL MUESTREO

Como las muestras no incluyen a toda la poblacin, se tendrn
variaciones de muestra a muestra, que se reflejarn en variaciones de
los valores de los estimadores de un parmetro, derivados de cada
muestra. Como estas variaciones son aleatorias, entonces los posibles
valores del estimador, se distribuirn de acuerdo a las Distribuciones
derivadas del muestreo.
Ejemplo:
Valor de
Frecuenci
X
1.0
1.5
a
1
2
2.0
2.5
3.0
4
5
3.5
4.0
4.5
3
2
X i fi
fi
f 1
75
3
25
fi
25
1.041
24
5.0
Entonces tenemos que los estimadores son valores variables, su

valor cambia de muestra a muestra, dependiendo de las observaciones
que se hallen en la muestra. Por lo tanto, un estimador es una variable y
por lo tanto debe tener una distribucin con sus respectivos parmetros.
Distribucin de la media muestral
Sabemos que
X 1 X 2 ... X n
n
, entonces
E( X 1)+ E( X 2) + . . . + E( X
E( X ) =
n)
N
Var( X )
=
Var( X 1) + var( X 2) + . . . var(

X n)
n2
++....+
=
n
n
2
Entonces X N(,2/n)
TEOREMA CENTRAL DEL LIMITE
En un muestreo aleatorio de una poblacin arbitraria con media
y varianza 2,, si n es grande, la distribucin de X es aproximadamente
normal con media y varianza 2/n; en otras palabras
X N(,2/n)
Resumiendo tenemos:
X
/ n N(0,1)
i) X ? (,2) ===>
X
/ n N(0,1) cuando n
(es
grande)
Este
teorema
es
de
gran
importancia,
ya
que
ilustra
la
importancia de la densidad normal de probabilidades, pues muchas

variables con densidades indeterminadas pueden ser llevadas a la
normal, simplemente obteniendo promedios de grupos de valores
grandes.
Ejemplo:
El porcentaje de protena (X) en una variedad de soya tiene una
media de 23 con una desviacin estandar de 2; se realizan 10
determinaciones independientes del contenido de protena en dicha
variedad. Cul es la probabilidad de que X sea mayor de 24?
X (23,4) y se tienen X1, X2,. X10 determinaciones n = 10
P X 24 P
/ n
10
P Z 2 P Z 1.598
2 / 10
24 23
= 1 - PZ < - 1.598 = 0.0571

Suponga que el peso neto por lata de una marca de sopa tiene una
media de 565 g con una desviacin estndar de 15 g. Suponga
distribucin normal de los pesos.
Si se toma una muestra de 9 latas y se registra el peso
a) Cul es la probabilidad de que la media muestral este entre 555 y

575?
X1, . . . ., X9 es una muestra aleatoria N(565, 225)
575 565
555 565
Z
P 2 Z 2
15 / 9
15 / 9
P 555 X 575 P
0.9772 0.0228 0.9545
225
N 565,
9

b) De qu tamao tendra que ser la muestra para que la probabilidad

calculada sea de 0.9906?
P 555 < X < 575 = 0.9906, adems tenemos
225
N 565,
n

Entonces
10 n
575 565
10 n
555 565
Z
P
Z
P a Z a
15
15
15 / n
15 / n
= P Z < c - P Z < c = 0.9906

= Z < c
=
1 0.9906
2
= 0.0047
y buscando en tablas tenemos que c = 2.6, entonces:
10 n
P -2.6 < Z < 2.6 y 15 = 2.6, entonces n = 15.21 16
INTERVALOS DE CONFIANZA
a) Intervalo de confianza para de una distribucin normal
cuando es conocida
Un intervalo de confianza es un estimador para un determinado
parmetro por intervalo, donde se trata de encontrar un segmento a, b
en el cual el parmetro est contenido con cierta probabilidad, esto es:
P a < < b = 100 (1 - ) %
donde
es
la
probabilidad
de
equivocarse (0.05, 0.01)
P X Z 2 / n X Z 2 / n 1001
Z/2 es un valor de la distribucin normal estndar.

Ejemplo:
Los datos que a continuacin se dan son los pesos en gramos del
contenido de 16 cajas de alimento balanceado que se selecciona de un
proceso de llenado con el propsito de verificar el peso promedio X .
506
508
499
503
504
510
497
512
514
505
493
496
506
502
509
496
Si el peso de cada caja es una variable aleatoria normal con una

desviacin estndar poblacional (=5), obtenga los intervalos de
confianza al 90, 95 y 99% para la media del llenado de este proceso.
Como X = 503.75
= 0.1, entonces
5
5
P X Z 0.1 / 2
X Z 0.1 / 2
(1 0.1)100 90%
16
16
P 503.75 Z 0.05 503.75 Z 0.05

4
5
90%
4
5
5
P 503.75 1.6448 503.75 1.6448 90%

4
4
P 501.694 <
lmite inferior
< 505.806 = 90%

lmite superior
Interpretacin:
De 100 cajas que se llenan, en el 90% de los casos cae en

intervalo y el resto (10%) no cae.
Para
= 0.05 tenemos
5
5
P 503.75 Z 0.05 503.75 Z 0.05

95%
4
4
2
2
5
5
P 503.75 Z 0.025 503.75 Z 0.25 95%

4
4
5
5
P 503.75 (1.96) 503.75 (1.96) 95%

4
4
P 501.3 506.2 95%

y para = 0.01
5
P 503.75 Z 0.01 503.75 Z 0.01
4
2
2
5
99%
4
2.5758
b) Intervalo de confianza para de una distribucin normal

cuando es desconocida
Si es desconocida, calculamos el I.C. de mediante
P X tn 1, / 2 S / n X t n 1, / 2 S/ n 1001
t/2 es un valor tal que P t <- tn-1, /2 o
P t > tn-1, /2
Ejemplo:
Calcular el intervalo de confianza para el problema anterior
considerando que es desconocida.
S = 6.2021
= 0.10
/2 = 0.05
6.2021
6.2021
P 503.75 t15,0.05
503.7 t15,0.05
90%
4
4
= n-1=15
6.2021
6.2021
P 503.75 1.7531
503.75 1.7531
90%
4
4
P 501.0317 506.4682 90%
t/2 es un valor tal que P t <- t(/2,) o P t > t(/2,)

= es el nivel de error de la prueba
= n-1
t(/2,15) = t(0.05,15) = 1.7531
Trabajo para =0.05
500.45 < < 507.05 = 95%
Problema:
Los siguientes datos son determinaciones del contenido de calcio
en la sangre de 20 conejos adultos sanos.
10.46
10.20
12.46
10.21
11.39
10.77
9.49
10.08
11.37
9.67
11.68
11.28
11.39
10.63
9.74
9.46
9.72
10.42
7.99
9.56
Suponga que los datos provienen de una distribucin normal.

Calcule un intervalo al 90% de confiabilidad sobre la media verdadera o
poblacional ().
P X t / 2,n 1 S/ n X t ( / 2,n1 ) S/ n 100(1 )%
n = 20
= 0.1
= n-1 = 19
t(/2, 19) = t(0.05, 19) = 1.7291
X = 10.4 S = 1.016
1.016
1.016
P 10.4 1.7291 x
10.4 1.7291 x
90%
20
20
P 10 < < 10.8 = 90%
Programa SAS
data a;
input x @@;
cards;
10.46 10.77 11.68
10.20
9.49 11.28
12.46 10.08 11.39
10.21 11.37 10.63
11.39
9.67
9.74
proc means mean std
proc means mean std
proc means mean std
run;
9.46
9.72
10.42
7.99
9.56
clm alpha=0.1;
clm alpha=0.05;
clm alpha=0.01;
PRUEBA DE HIPOTESIS ESTADISTICA

Hiptesis: En general se entiende como un supuesto sobre un
determinado fenmeno o hecho que puede ser cierto o no.
Hiptesis estadstica: Es aquella que se propone sobre
algn
(os)
parmetro
probabilidades.
Ejemplo:
> 0
<3
10
Juegos de hipotesis para
(s)
de
cualquier
distribucin
de
1) Ho : = 0 vs Ha: 0 (dos colas)

2) Ho : < 0 vs Ha: > 0 (cola derecha)
3) Ho : > 0 vs Ha: < 0 (cola izquierda)
donde 0 es una constante elegida por el investigador.

Prueba de Hiptesis estadstica. Siempre involucra dos partes,
la primera es la hiptesis nula (Ho), generalmente esta es la que el
investigador quiere que no suceda y Ha que es el complemento de la
nula.
En todos los juegos de hiptesis siempre se tiene lo siguiente:
Rechazar Ho
Situacin real (desconocida)

Ho correcta
Ho falsa
ERROR (llamado error Decisin correcta
No rechazar Ho
tipo I
Decisin correcta
ERROR (llamado error tipo

II
Esto es, en una prueba de hiptesis pueden cometerse dos tipos

de error. El llamado error tipo I consiste en rechazar una hiptesis nula
que es cierta y el error tipo II consiste en no rechazar una hiptesis nula
que es falsa. Las probabilidades de los errores respectivos se denotan
por y .
= P error tipo I = P rechazar Ho cuando es cierta
= P error tipo II = P No rechazar Ho cuando es falsa
En una prueba de hiptesis, el valor mximo de probabilidad de
error tipo I es llamado el nivel de significancia de la prueba. Se llama
tambin ocasionalmente el tamao de la prueba. Generalmente este

nivel es fijado por el investigador.
Prueba de Hiptesis para la media () de poblaciones con

distribucin normal.
a) Una poblacin
a.1) Una poblacin suponiendo 2 conocida
a.2) Una poblacin suponiendo 2 desconocida
b) La
media
de
desconocida pero
dos
poblaciones
normales
con
varianza
12 12 2
(homogeneidad de varianzas).
Generalmente para probar cualquier prueba de hiptesis se

adoptan los siguientes pasos:
1.
Plantear el juego de hiptesis (procurando que Ho quede en lo

que queremos)
2.
Elegir el nivel de significancia ( = 0.05, = 0.01, etc.).
3.
Calcular el valor de tablas (valor crtico) (tablas normal, t)
4.
Calcular el estadstico de prueba a partir de la informacin

muestral
5.
Tomar una decisin contrastando el estadstico de prueba con la

del valor crtico
6.
Concluir en el contexto del problema

Prueba de hiptesis sobre la media de una poblacin
normal con 2 conocida
1) Plantear Ho:
1) Ho : = 0 vs
2) Ho : < 0 vs
3) Ho : > 0 vs
Ha: 0 (dos colas)

Ha: > 0 (cola derecha)
Ha: < 0 (cola izquierda)
2. Elegir
3) Valores de Z/2
para el juego
para el juego 2 y 3
4) Estadstico de prueba
Zc
X X n
/ n
5) Tomar una decisin

a) Para el juego 1
Rechazar Ho si Zc > Z/2
a) Para el juego 2
Rechazar Ho si Zc > Z
b) Para el juego 3
Rechazar Ho si Zc < - Z
o Zc < - Z/2
Ejemplo:
A
continuacin
se
presentan
los
datos
obtenidos
por
un
investigador en un experimento sobre el efecto de un determinado

micronutriente (Zn) sobre el rendimiento de frijol. Suponga que los
rendimientos tienen distribucin normal con 2 = 0.4 ton2.
Datos
1.5
2.0
2.5
1.8
1.9
X = 1.94
Nuestra hiptesis postulada es:

1) Ho : < 1 ton vs Ha: > 1 ton
2) = 0.1
= 0.4
3) Z0.1 = 1.285
1.94 1 5 3.33
0.63
4) Zc =
5) Como Zc = 3.33 > Z = 1.285 entonces se

rechaza Ho.
6) Con una confiabilidad del 90%, los datos

del experimento muestran evidencia de
que la aplicacin de Zn en frijol produce
rendimientos
superiores
ton/ha
(P<0.1)
Prueba de hiptesis sobre la media de una poblacin normal

con 2 desconocida
Juegos
de
hiptesis
1) Ho : = 0
vs
Ha: 0 (dos colas)
2) Ho : < 0
vs
Ha: > 0 (cola derecha)
3) Ho : > 0
vs
Ha: < 0 (cola izquierda)
Estadstica de prueba
tc
X X n
S
S/ n
Donde como sabemos S = desviacin estndar de la muestra y se

estima mediante S.
Regla de decisin
Para el juego 1. Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
Para el juego 2. Rechazar Ho si tc > t(,n-1)
Para el juego 3. Rechazar Ho si tc < -t(,n-1)
Ejemplo:
Un metalurgista hizo 4 determinaciones del punto de fusin del
manganeso, estas fueron: 1269, 1 271, 1263 y 1265. Es importante
probar el hecho de que el fabricante del manganeso indicaba que el
punto de fusin es 1260. La prueba de hiptesis es entonces:
Ho: = 1260
Ha: 1260
vs
= 0.05
X = 1267
S=3.65148
tc
X
S/ n
1267 1260
3.65148
3.834
t(/2, n-1) = t(0.025,3)= 3.1824 (tablas de t)
Conclusion
Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
3.834 > 3.1824
Se encontr que el punto de fusin del manganeso es diferente de
1260c (P<0.05).
Cambiando =0.01
Ho: = 1260
Ha: 1260
vs
= 0.01
/2=0.005
X = 1267
S=3.65148
T Calculada:
tc
X
S/ n
X
S
1267 1260
3.65148
3.834
T Tablas:
t(/2, n-1) = t(0.005,3)= 5.84 (tablas de t)
Conclusion
Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
3.834 < 5.84
Se encontr que el punto de fusin del manganeso es de 1260c
(P>0.01).
Ejemplo:
Los propagandistas de cierta marca de cigarrillos sostienen que el
contenido promedio de nicotina de sus productos es menor de 0.7 mg
por cigarrillo. Suponiendo una distribucin normal para el contenido de
nicotina, su aseveracin es que < 0.7. Queremos entonces probar:
Ho: > 0.7
vs Ha: < 0.7
La hiptesis se probar con un nivel de significancia de = 0.01,

ya que si se rechaza Ho deberemos autorizar que en la publicidad
aparezca la afirmacin de la empresa, y slo estamos dispuestos a
hacerlo si la evidencia en contra de Ho es sustancial. Para realizar la
prueba determinamos el contenido de 30 cigarros con los siguientes
resultados:
0.72 0.76 0.68 0.69 0.73 0.59 0.70 0.71 0.62 0.68
0.75 0.73 0.62 0.64 0.76 0.74 0.60 0.61 0.61 0.60
0.69 0.70 0.78 0.81 0.64 0.63 0.65 0.79 0.77 0.76
encontrndose los siguientes estimadores:
X = 0.6920:
S = 0.0653
De acuerdo a lo anterior tenemos que:
= 0.01, = n-1 = 29 y con esto t(0.01,29) = 2.462. Como es una

prueba de la cola izquierda entonces:
- t(0.01,29) = -2.462
Y el valor de tC es
tc
30 0.6920 0.7
0.671
0.0653
Para la hiptesis planteada tenemos:

Rechazar Ho si tc < - t(,n-1) y como tc = -0.671 > -2.462 entonces
no rechazamos Ho.
El nivel observado de significancia de la muestra es:

= P(t(29) < -0.671) = p (t(29) > 0.671) = 0.2538 = 25.38%
Lo cual quiere decir que para rechazar Ho con la muestra anterior,

tendramos que estar dispuestos a tolerar una probabilidad de Error Tipo
I de al menos 25.38%.
DATA A;
INPUT NIC @@;
CARDS;
0.72 0.76 0.68
0.75 0.73 0.62
0.69 0.70 0.78
PROC MEANS;
RUN;
0.69
0.64
0.81
0.73
0.76
0.64
0.59
0.74
0.63
0.70
0.60
0.65
0.71
0.61
0.79
0.62
0.61
0.77
0.68
0.60
0.76
Prueba de hiptesis sobre la varianza 2 de una distribucin

normal.
Para la varianza se tienen los siguientes juegos de hiptesis:
1) Ho : 2 =
Juegos
de
hiptesis
2) Ho : 2 <
3) Ho :
02
02
>
vs
Ha: 2
02
(dos colas)
vs
Ha: 2 >
02
(cola derecha)
02
vs
Ha: <
2
02
(cola izquierda)
La estadstica natural de prueba de estas hiptesis est basada en

la varianza muestral S2, como a continuacin se da
X c2
n 1 S2
2
0
y donde las reglas de decisin son:

Para el juego 1.
c2 (2 / 2,n 1)
Rechazar Ho si
__________________________
o si
c2 (2 / 2,n 1)
c2 (2,n 1)
Para el juego 2.
Rechazar Ho si
Para el juego 3.
c2 (21 ,n 1)
Rechazar Ho si
__________________________
MUESTRAS ALEATORIAS
__________________________
Prueba de hiptesis sobre las medias (1 y 2) de distribuciones

normales (1,
12
22
12
) y (2,
22
). Supuesto
12
22
son desconocidas pero
= 2.
1) Ho : 1 = 2
vs
Ha: 1 2 (dos colas)
2) Ho : 1 > 2
vs
Ha: 1 < 2 (cola izquierda)
3) Ho : 1 < 2
vs
Ha: 1 > 2 (cola derecha)
Pasos:
1. Elegir la hiptesis a probar.
2. Elegir
3. Estadstica a prueba
tc
X1 X 2
1
1
Sp
n1 n 2
S p2
n1 1 S12 (n2 1) S22
S p S p2
n1 n 2 2
=desv.
Estndar
ponde-rada de
S X2
*Encontrar frmula general.
Las reglas de decisin son:
S X1
Para el juego 1.Rechazar Ho si tc > t(/2,n1 + n2-2)
o si tc < -t(/2,n1 + n2
2)
Para el juego 2.
Rechazar Ho si tc > t(, n1+ n2-2)
Para el juego 3.
Rechazar Ho si tc < -t(,n1 + n2-2)
Ejemplo:
Mediante 2 procesos se manufactur cable de alambre; se desea
determinar si los procesos tienen diferentes efectos en la resistencia y
en la
ruptura
del cable. Se efectuaron pruebas
de laboratorio
sometiendo al cable a tensin y se registr la carga requerida para

romper el cable, obtenindose los datos de la siguiente tabla:
Valores crticos de la carga (codificados)
PROCESO 1
9
4
10
7
9
10
n1 = 6
HIPOTESIS:
Ho: 1 = 2
vs
Ha: 1 2
= 0.05
X1 = 8.17 S1 =5.366
X 2 = 11.28 S 2 =5.238
S p2
Sp =
; n1 = 6,
; n2 = 7
6 1 (5.366) (7 1) (5.238) 5.29

672
5.29 =2.3
PROCESO 2
14
9
13
12
13
8
10
n2 = 7
t Calculada
tc
8.17 11.28
2.43
1 1
2.3
6 7
t Tablas
t(/2, n1+ n2 -2) = t(0.025,11) = 2.201 =-2.01
Conclusion
Rechazar Ho si tc > t(/2,n1 + n2-2) o si tc < -t(/2,n1 + n2 2).
-2.43>-2.01
Se encontr que los procesos de manufactura de alambre son diferentes
(P<0.05).
Cual es ms resistente?
En este caso es aquella cuya media muestral es mayor.
Respuesta: Proceso 2; X 2 =
11.28
Ejercicio: Prueba de hipotesis.

Ho: 1 > 2
vs
Ha: 1 < 2
DATA A;
INPUT PROCESO RESIST @@;
CARDS;
1 9 1 4 1 10 1 7 1 9 1 10 2 14 2 9 2 13 2 12 2 13 2 8 2 10
PROC MEANS MEAN VAR;BY PROCESO;
PROC TTEST; VAR RESIST;
RUN:
ANALISIS DE COVARIANZA
MUESTRA APAREADA. Se dice que se tiene una muestra
apareada cuando se toman mediciones de dos variables a un solo
individuo que a su vez conforma una muestra aleatoria.
Cuando se tienen muestras apareadas, las inferencias sobre los

tratamientos se llevan a cabo usando las diferencias D i = Xi Yi. Las
estadsticas necesarias son:
1 n
D1 ;
n i 1
2
SD
1 n
D1 D 2
N 1 i 1
En estos casos se pueden plantear pruebas de hiptesis de la

siguiente forma:
1. Ho: x - y = k vs
Ha: D k
Diferencias de las medias = D 0
2. Ho: D < k = k
vs
Ha: D > k
3. Ho: D > k = k
vs
Ha: D < k
Donde k es una constante elegida por el investigador, siendo comn que

k tome el valor de cero.
Ahora, si se supone que las D 1 son una muestra aleatoria de
2
N D , D
/n,
entonces se tiene que
2
D N D , D / n ,
Por lo tanto una prueba adecuada es una prueba de t usando la

estadstica:
tc
n D k
SD
Las reglas de decisin son:

Para el juego 1. Rechazar Ho si tc > t(/2,n-1) o si tc < -t(/2,n-1)
Para el juego 2. Rechazar Ho si tc > t(, n-1)

Para el juego 3. Rechazar Ho si tc < -t(,n-1)
En la siguiente tabla se presentan las pulsaciones por minuto de
atletas antes y despus de una sesin de entrenamiento.
x = pulsaciones despus
y = pulsaciones antes
Ho: D = 0
tc
x
157
158
163
160
161
126
114
148
150
124
y
67
61
89
74
69
78
60
78
72
68
Ha: D 0;
vs
Dx-y
90
97
74
86
92
48
54
70
78
56
D x 74.5
SD = 17.26
= 0.01
74.5 10
13.64
17.26
como tc > t(/2, 9) se rechaza Ho con = 0.01
t(/2, 9) = 3.2498
Conclusin en el Contexto.
Se encontr que el nmero de pulsaciones por minuto en los atletas es
diferente antes y despus de un entrenamiento (P<0.01).
REGRESION LINEAL SIMPLE
Recta Y = 0 + 1 X
MODELO DE LINEA RECTA
Y
Efecto
(peso)
X
Causa
(alimento)
Existen relaciones de
causalidad
Porque al incrementar el alimento del animal, se incrementar su

peso.
Cuando se tiene una relacin de causalidad es posible determinar
el grado de asociacin entre las variables (coeficientes de correlacin).
Generalmente el investigador requiere mayor informacin y es necesario
postular modelos (matemticos y estadsticos) con el fin de tener
condensada la relacin de X y Y en una sola ecuacin (recta).
MODELO DE REGRESION LINEAL SIMPLE
Yi = 0 + 1 Xi + i
Donde:
Yi = Es la variable respuesta
0 = La ordenada al origen
1 = Pendiente
Xi = Variable explicatoria
i = error aleatorio. Tiene un N(0, 2)
Supuestos:
4. Que exista relacin de causalidad
5. La variable X es una variable fija (el investigador la puede
manipular)
6. El modelo terico de los datos tiene la forma de una lnea recta
7. Los errores i tienen distribucin normal con media cero y
varianza 2
8. Que existe homogeneidad de varianzas
9. Que exista independencia de los errores
Nota: El tomar muestras aleatorias nos permite tener independencia de
los errores.
La recta que minimiza las distancias es la mejor recta.
2
2
di2 Yi Yi Yi 0 1Xi
i 1
Minimizando L tenemos:
dL
d 0
dL
d 1
Yi 0 1Xi 2 Y X
i 0 1
2
d 0
Yi 0 1Xi 2 Y X
i 0 1
2
d 1
Igualando a cero
2 Yi 0 1X
=0
2 X i Yi 0 1X
=0
Con los que nos queda finalmente
Xi Yi nX Y
Xi2 nX 2
0 Y 1X
0 y 1
0
Son los estimadores

cuadrados ordinarios
Estima a 0
Estima a 1
de
mnimos
Ejemplo:
Efecto de la edad en la presin sangunea.
Se seleccionaron mujeres de alrededor de los 40 aos de edad
para estudiar la relacin de la presin sistlica de la sangre con la edad.
X = edad
42
Y = Presin en
mmHg
130
XY = 100990
1 = 0.7451
46
115
X = 66.2
42
71
80
74
70
80
148
160
156
162
151
156
Y = 149.8
X2 = 46270
rxy = 0.4805
85
72
162
158
= 100.4694
X i Yi n X Y
2
i
nX 2
0 Y 1 X
= 100.4694 + 0.7451 Xi
Finalmente se tiene el siguiente modelo: Y
Conclusin: Se encontr que cada que se aumenta un ao en la edad de
una mujer (de alrededor de 40 aos) la presin sistlica se incrementa
en 0.7451 mmHg.
Nota:
10. La regresin sirve para hacer predicciones, conociendo X y Y
11. Se utiliza en: clculo de dosis ptimas, curvas de respuestas,
superficies de respuestas, etc.
12. Interpolaciones.
0 = La ordenada al origen generalmente no tiene una interpretacin en
el contexto del problema, porque es imposible que exista una

persona de 0 aos y tenga una presin de 100.4694.
Tiene
interpretacin cuando existen datos alrededor del cero.

En nuestro problema 0 solo se considera como un factor de ajuste.
1 = La pendiente se dice que es el cambio en promedio observado en Y

cuando incrementamos X en una unidad. En el contexto del
problema se observ un incremento de 0.7451 mmHg en promedio

por cada ao.
rXY = El coeficiente de determinacin se define como el coeficiente de
correlacin elevado al cuadrado y es una forma de medir el ajuste
de la lnea a los datos.
Toma valores -1 < rXY < 1 0 <
2
rXY
<1
Y cuando es 1 tenemos un ajuste perfecto y cuando es cero no

existe ajuste.
Un
2
rXY
= 0.60 puede considerarse aceptable en modelos que
involucren seres vivos.

Ejemplo 2:
Considere la variable Y absorcin intestinal de vitamina B 12 para
vacas que ingirieron diferentes cantidades de B12 (X).
X = cantidad
ingerida (g)
0
0
0
0.3
0.3
0.3
0.7
0.7
0.7
Y = absorcin intestinal (%)

1.91
1.86
1.95
1.64
1.51
1.59
1.35
1.32
1.24
1.3
1.3
1.3
.76
.81
.78
1.7
1.7
1.7
.48
.50
.45
Finalmente tenemos
XiYi = 9.645
X = 0.8
Y = 1.21
Xi2
1
= 15.48
Xi Yi nX Y
X i Yi nX 2
1 = -0.8290
1X

0 Y
1.21 (-0.829 x 0.8) =

1.8732
= 1.8732 0.8290 Xi
Y
2.0
absorcin
intestinal
1.0
0.33
0.7
Cantidad de vitamina
1.3
B12
1.7
ingeri
da
0 = Cuando no se aplica vitamina B en las vacas existe una absorcin

12
de 1.87% en el intestino.
1 = Por cada microgramo que se administre a las vacas existe una

disminucin en promedio de 0.829% en la ingestin de vitamina B 12 en
el intestino.
2
rxy
= 0.992 por lo tanto el ajuste es muy bueno.
PRUEBA DE HIPTESIS SOBRE 1 (pendiente)

Ho: 1 = 1*
vs
Ha: 1 1*
Ho: 1 > 1*
vs
Ha: 1 < 0*
Ho: 1 < 0*
vs
Ha: 1 > 0*
ESTADISTICO DE PRUEBA
S 1
*
to 1 1
S 1
Yi2 nY 2 1 XY nXY
n2
XY 2 nX 2
Valor de tablas
t(/2,n-2)
(dos colas)
t(,n-2)
(una cola)
1* = cualquier constante.
ULTIMA TAREA
1.
Diga cules son las caractersticas que debe reunir un

estimador.
2.
Explique con sus palabras el teorema central del lmite y

mencione sus propiedades.
3. Suponga que el peso neto por cerdo de una piara tiene una media de
70 kg y una desviacin estndar de 20 kg. Se toma una muestra de 20
cerdos y su peso respectivo. Cul es la probabilidad de que la media
muestral se encuentre entre 60 y 80 kg? Suponga distribucin normal
de los pesos.
a) De qu tamao tendra que ser la muestra para que la probabilidad
calculada sea de 0.90
4.
Realice los siguientes intervalos de confianza al 90, 95 y

99%, suponiendo que = 4, X = 20
Realice adems los intervalos sealados pero si sabemos que S = 3.1
y el tamao de la muestra es 30.
5. Defina lo siguiente:
a) Hiptesis estadstica
b) Nivel de significancia
c) Error tipo I y Error tipo II
6. Una empresa produce un nuevo bactericida comercial, que contiene
un componente especfico de 200 ppm ()
Un laboratorio le propone un nuevo producto cuyo componente
especfico contiene mayor concentracin en ppm y a la empresa le
interesara el producto, si tuviera al menos 300 ppm.
Se realiza un muestreo del nuevo producto con 25 observaciones y
se sabe que = 20 y se supone que es la misma para el nuevo
producto.
Del muestreo se encontr que X = 200, adems deseamos

trabajar con = 0.05.
Tiene el nuevo producto mayor concentracin en ppm (mayor o igual a
300?
7. Se aplica una dieta tradicional, la cual incrementa el peso de ovinos
en 8 kg/mes. Se ensaya otra dieta nueva en 25 animales y se
registran la media ( X =7) de incremento de peso y una S = 5. Puede
decirse que la nueva dieta genera menos incremento de peso?
8. Ponga dos ejemplos donde aplique el concepto de muestras aleatorias
y pruebe las hiptesis correspondientes con = 0.05
9. Realice lo mismo que lo anterior pero con muestras apareadas.
10. Se extrae sangre de 10 bovinos de la granja y se les determina el
contenido de bacterias mediante los mtodos X y Y. Se desea saber si
existe diferencia estadsticamente significativa entre mtodos al
5%=0.05.
Datos:
X
Y
45
34
36
45
34
30
23
10
22
23
33
21
56
18
44
21
33
67
44
23
11. Suponga que se mide el promedio de consumo de alimento

balanceado y el incremento de peso promedio de un grupo de
animales. Los datos son:
Consumo
Incremento
Peso
12
2.4
14
3.0
10
5.9
11
3.9
20
6.6
8
2.5
7
4.3
Encontrar la ecuacin de regresin lineal simple que mejor se ajuste a
los datos.
Bibliografa:
Chao L.L. 1975. Estadstica para las ciencias administrativas. 2
Edicin. McGraw-Hill. Mxico.
Infante G.S. y Zrate De L.G. Mtodos estadsticos.
Prez V.
Apuntes de Introduccin a la Estadstica.

Apuntes de Estadística

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apuntes de Estadística

Caricato da

Copyright:

Formati disponibili

INFERENCIA ESTADSTICA

El proceso de inferencia estadstica se cumple a travs de 2

propiedades de la poblacin a la que pertenece esa muestra.

estimadores de los parmetros que nos interesan.

a) Estimacin puntual. Consiste en calcular un valor estimado

Insesgamiento. Un estimador de un parmetro es insesgado

Mnima varianza Si 1 y 2 son dos estimadores diferentes (pero

entonces debemos preferir 1 , ya que tiene mnima varianza.

un valor cercano a se aproxima a 1, entonces es un estimador

Mtodo de mxima verosimilitud

Mtodo de mnima ji-cuadrada

Mtodo de mnimos cuadrados

i) El mtodo de mnimos cuadrados consiste en tomar como

DISTRIBUCIONES DERIVADAS DEL MUESTREO

Entonces tenemos que los estimadores son valores variables, su

Var( X 1) + var( X 2) + . . . var(

importancia de la densidad normal de probabilidades, pues muchas

= 1 - PZ < - 1.598 = 0.0571

a) Cul es la probabilidad de que la media muestral este entre 555 y

0.9772 0.0228 0.9545

b) De qu tamao tendra que ser la muestra para que la probabilidad

P 555 < X < 575 = 0.9906, adems tenemos

= P Z < c - P Z < c = 0.9906

y buscando en tablas tenemos que c = 2.6, entonces:

equivocarse (0.05, 0.01)

Z/2 es un valor de la distribucin normal estndar.

Si el peso de cada caja es una variable aleatoria normal con una

P 503.75 Z 0.05 503.75 Z 0.05

P 503.75 1.6448 503.75 1.6448 90%

< 505.806 = 90%

De 100 cajas que se llenan, en el 90% de los casos cae en

P 503.75 Z 0.05 503.75 Z 0.05

P 503.75 Z 0.025 503.75 Z 0.25 95%

P 503.75 (1.96) 503.75 (1.96) 95%

P 501.3 506.2 95%

b) Intervalo de confianza para de una distribucin normal

t/2 es un valor tal que P t <- tn-1, /2 o

P 501.0317 506.4682 90%

t/2 es un valor tal que P t <- t(/2,) o P t > t(/2,)

Suponga que los datos provienen de una distribucin normal.

P X t / 2,n 1 S/ n X t ( / 2,n1 ) S/ n 100(1 )%

t(/2, 19) = t(0.05, 19) = 1.7291

P 10 < < 10.8 = 90%

PRUEBA DE HIPOTESIS ESTADISTICA

1) Ho : = 0 vs Ha: 0 (dos colas)

donde 0 es una constante elegida por el investigador.

Situacin real (desconocida)

ERROR (llamado error tipo

Esto es, en una prueba de hiptesis pueden cometerse dos tipos

tambin ocasionalmente el tamao de la prueba. Generalmente este

Prueba de Hiptesis para la media () de poblaciones con

Generalmente para probar cualquier prueba de hiptesis se

Plantear el juego de hiptesis (procurando que Ho quede en lo

Elegir el nivel de significancia ( = 0.05, = 0.01, etc.).

Calcular el valor de tablas (valor crtico) (tablas normal, t)

Calcular el estadstico de prueba a partir de la informacin

Tomar una decisin contrastando el estadstico de prueba con la

Concluir en el contexto del problema

Ha: 0 (dos colas)

5) Tomar una decisin

Rechazar Ho si Zc > Z/2

investigador en un experimento sobre el efecto de un determinado

Nuestra hiptesis postulada es: