Sei sulla pagina 1di 34

INFERENCIA ESTADSTICA

El proceso de inferencia estadstica se cumple a travs de 2


subprocesos de gran importancia, los cuales son:
1) Estimacin de parmetros
2) Pruebas de Hiptesis sobre parmetros
1) Estimacin de parmetros
Como sabemos, es la media de todos los valores posibles de una
variable Yi, la cual slo es posible estimar si se conocieran los valores de
toda la poblacin, sin embargo, como no es posible, se recurren a
mtodos estadsticos para calcular los estimadores a travs de una
muestra

aleatoria.

Estos

estimadores

servirn

para

inferir

las

propiedades de la poblacin a la que pertenece esa muestra.


Muestra aleatoria. Es aquella en la que todos los elementos de
la poblacin tienen la misma probabilidad de ser incluidos en la muestra.
As, los valores de estos estimadores, tienden a aparecer de
acuerdo a ciertas distribuciones llamadas Distribuciones derivadas del
muestreo.
El

proceso

de

estimacin

consiste

en

estimadores de los parmetros que nos interesan.


Existen dos tipos de estimacin:
a) Estimacin puntual
b) Estimacin por intervalo

definir

los

mejores

a) Estimacin puntual. Consiste en calcular un valor estimado


del parmetro con base en los datos de la muestra que
llamaremos estimador. Dar una idea muy vaga del verdadero
valor del parmetro puesto que no podemos conocer el grado
de incertidumbre de la estimacin.
Ejemplo:
La produccin promedio de leche del estado de Mxico es de 10
litros diarios (estimacin de un punto de la lnea real).
b) Estimacin por intervalo. Consiste en establecer un intervalo
de valores, dentro del cual se conoce la probabilidad de que
est el parmetro (o sea un intervalo de confianza).
Ejemplo:
La produccin promedio de leche en el estado de Mxico, flucta
de 5 a 15 litros diarios con una medida de seguridad de 95%.
5 y 15 = 10 + 5
Mejores estimadores. Es comn que para un mismo parmetro
existan varios estimadores, por ejemplo, para existen estimadores
como X , Me, etc., sin embargo, no todos ellos poseen caractersticas
que los hagan deseables.
Las propiedades deseables de los estimadores son:
i)

Insesgamiento

ii)

Mnima varianza

iii)

Consistencia

Insesgamiento. Un estimador de un parmetro es insesgado


si E( ) = , esto es, si el promedio de todos los estimadores calculados
en todas las posibles muestras es el valor parametral.
Si un estimador es sesgado, entonces
Sesgo = - E( )

Mnima varianza Si 1 y 2 son dos estimadores diferentes (pero


ambos insesgados) de , con varianzas

12

22

respectivamente y si

2 2
1

entonces debemos preferir 1 , ya que tiene mnima varianza.


Consistencia. Sea un estimador de calculado a partir de una
muestra aleatoria de tamao n. Si a medida que n tiende a N (N =
nmero de elementos de la poblacin), la probabilidad de que

tenga

un valor cercano a se aproxima a 1, entonces es un estimador


consistente de .
Existen mtodos de estimacin que proporcionan estimadores con
una o ms caractersticas deseables, ellos son:
i)

Mtodo de momentos

ii)

Mtodo de mxima verosimilitud

iii)

Mtodo de mnima ji-cuadrada

iv)

Mtodo de mnimos cuadrados

i) El mtodo de mnimos cuadrados consiste en tomar como


estimadores de los parmetros, aquellos valores que minimizan la suma
de cuadrados de los errores, es decir:
h

e12

i 1

= mnimo = (Yi - )2

DISTRIBUCIONES DERIVADAS DEL MUESTREO


Como las muestras no incluyen a toda la poblacin, se tendrn
variaciones de muestra a muestra, que se reflejarn en variaciones de
los valores de los estimadores de un parmetro, derivados de cada
muestra. Como estas variaciones son aleatorias, entonces los posibles
valores del estimador, se distribuirn de acuerdo a las Distribuciones
derivadas del muestreo.
Ejemplo:
Valor de

Frecuenci

X
1.0
1.5

a
1
2

2.0

2.5
3.0

4
5

3.5

4.0
4.5

3
2

X i fi
fi

f 1

75
3
25

fi

25
1.041
24

5.0

Entonces tenemos que los estimadores son valores variables, su


valor cambia de muestra a muestra, dependiendo de las observaciones
que se hallen en la muestra. Por lo tanto, un estimador es una variable y
por lo tanto debe tener una distribucin con sus respectivos parmetros.
Distribucin de la media muestral

Sabemos que

X 1 X 2 ... X n
n
, entonces

E( X 1)+ E( X 2) + . . . + E( X
E( X ) =
n)
N

Var( X )
=

Var( X 1) + var( X 2) + . . . var(


X n)
n2

++....+

=
n

n
2

Entonces X N(,2/n)
TEOREMA CENTRAL DEL LIMITE
En un muestreo aleatorio de una poblacin arbitraria con media
y varianza 2,, si n es grande, la distribucin de X es aproximadamente
normal con media y varianza 2/n; en otras palabras

X N(,2/n)

Resumiendo tenemos:

X
/ n N(0,1)

i) X ? (,2) ===>

X
/ n N(0,1) cuando n

(es

grande)
Este

teorema

es

de

gran

importancia,

ya

que

ilustra

la

importancia de la densidad normal de probabilidades, pues muchas


variables con densidades indeterminadas pueden ser llevadas a la
normal, simplemente obteniendo promedios de grupos de valores
grandes.
Ejemplo:
El porcentaje de protena (X) en una variedad de soya tiene una
media de 23 con una desviacin estandar de 2; se realizan 10
determinaciones independientes del contenido de protena en dicha
variedad. Cul es la probabilidad de que X sea mayor de 24?
X (23,4) y se tienen X1, X2,. X10 determinaciones n = 10

P X 24 P

/ n

10
P Z 2 P Z 1.598
2 / 10

24 23

= 1 - PZ < - 1.598 = 0.0571


Suponga que el peso neto por lata de una marca de sopa tiene una
media de 565 g con una desviacin estndar de 15 g. Suponga
distribucin normal de los pesos.
Si se toma una muestra de 9 latas y se registra el peso

a) Cul es la probabilidad de que la media muestral este entre 555 y


575?
X1, . . . ., X9 es una muestra aleatoria N(565, 225)
575 565
555 565
Z
P 2 Z 2
15 / 9
15 / 9

P 555 X 575 P

0.9772 0.0228 0.9545

225

N 565,
9

b) De qu tamao tendra que ser la muestra para que la probabilidad


calculada sea de 0.9906?

P 555 < X < 575 = 0.9906, adems tenemos

225

N 565,
n

Entonces

10 n
575 565
10 n
555 565
Z
P
Z
P a Z a

15
15
15 / n
15 / n

= P Z < c - P Z < c = 0.9906


= Z < c
=

1 0.9906
2

= 0.0047

y buscando en tablas tenemos que c = 2.6, entonces:

10 n
P -2.6 < Z < 2.6 y 15 = 2.6, entonces n = 15.21 16

INTERVALOS DE CONFIANZA
a) Intervalo de confianza para de una distribucin normal
cuando es conocida
Un intervalo de confianza es un estimador para un determinado
parmetro por intervalo, donde se trata de encontrar un segmento a, b
en el cual el parmetro est contenido con cierta probabilidad, esto es:
P a < < b = 100 (1 - ) %

donde

es

la

probabilidad

de

equivocarse (0.05, 0.01)

P X Z 2 / n X Z 2 / n 1001

Z/2 es un valor de la distribucin normal estndar.


Ejemplo:
Los datos que a continuacin se dan son los pesos en gramos del
contenido de 16 cajas de alimento balanceado que se selecciona de un
proceso de llenado con el propsito de verificar el peso promedio X .
506
508
499
503

504
510
497
512

514
505
493
496

506
502
509
496

Si el peso de cada caja es una variable aleatoria normal con una


desviacin estndar poblacional (=5), obtenga los intervalos de
confianza al 90, 95 y 99% para la media del llenado de este proceso.
Como X = 503.75

= 0.1, entonces

5
5

P X Z 0.1 / 2
X Z 0.1 / 2
(1 0.1)100 90%
16
16

P 503.75 Z 0.05 503.75 Z 0.05


4

5
90%
4

5
5

P 503.75 1.6448 503.75 1.6448 90%


4
4

P 501.694 <
lmite inferior

< 505.806 = 90%


lmite superior

Interpretacin:

De 100 cajas que se llenan, en el 90% de los casos cae en


intervalo y el resto (10%) no cae.

Para

= 0.05 tenemos

5
5

P 503.75 Z 0.05 503.75 Z 0.05


95%
4
4

2
2

5
5

P 503.75 Z 0.025 503.75 Z 0.25 95%


4
4

5
5

P 503.75 (1.96) 503.75 (1.96) 95%


4
4

P 501.3 506.2 95%


y para = 0.01

5
P 503.75 Z 0.01 503.75 Z 0.01
4

2
2

5
99%
4

2.5758

b) Intervalo de confianza para de una distribucin normal


cuando es desconocida
Si es desconocida, calculamos el I.C. de mediante

P X tn 1, / 2 S / n X t n 1, / 2 S/ n 1001

t/2 es un valor tal que P t <- tn-1, /2 o

P t > tn-1, /2

Ejemplo:
Calcular el intervalo de confianza para el problema anterior
considerando que es desconocida.
S = 6.2021

= 0.10

/2 = 0.05

6.2021
6.2021

P 503.75 t15,0.05
503.7 t15,0.05
90%
4
4

= n-1=15

6.2021
6.2021

P 503.75 1.7531
503.75 1.7531
90%
4
4

P 501.0317 506.4682 90%

t/2 es un valor tal que P t <- t(/2,) o P t > t(/2,)


= es el nivel de error de la prueba
= n-1
t(/2,15) = t(0.05,15) = 1.7531
Trabajo para =0.05
500.45 < < 507.05 = 95%
Problema:
Los siguientes datos son determinaciones del contenido de calcio
en la sangre de 20 conejos adultos sanos.
10.46
10.20
12.46
10.21
11.39

10.77
9.49
10.08
11.37
9.67

11.68
11.28
11.39
10.63
9.74

9.46
9.72
10.42
7.99
9.56

Suponga que los datos provienen de una distribucin normal.


Calcule un intervalo al 90% de confiabilidad sobre la media verdadera o
poblacional ().

P X t / 2,n 1 S/ n X t ( / 2,n1 ) S/ n 100(1 )%

n = 20
= 0.1
= n-1 = 19

t(/2, 19) = t(0.05, 19) = 1.7291

X = 10.4 S = 1.016

1.016
1.016

P 10.4 1.7291 x
10.4 1.7291 x
90%
20
20

P 10 < < 10.8 = 90%

Programa SAS
data a;
input x @@;
cards;
10.46 10.77 11.68
10.20
9.49 11.28
12.46 10.08 11.39
10.21 11.37 10.63
11.39
9.67
9.74
proc means mean std
proc means mean std
proc means mean std
run;

9.46
9.72
10.42
7.99
9.56
clm alpha=0.1;
clm alpha=0.05;
clm alpha=0.01;

PRUEBA DE HIPOTESIS ESTADISTICA


Hiptesis: En general se entiende como un supuesto sobre un
determinado fenmeno o hecho que puede ser cierto o no.
Hiptesis estadstica: Es aquella que se propone sobre
algn

(os)

parmetro

probabilidades.
Ejemplo:
> 0
<3
10
Juegos de hipotesis para

(s)

de

cualquier

distribucin

de

1) Ho : = 0 vs Ha: 0 (dos colas)


2) Ho : < 0 vs Ha: > 0 (cola derecha)
3) Ho : > 0 vs Ha: < 0 (cola izquierda)

donde 0 es una constante elegida por el investigador.


Prueba de Hiptesis estadstica. Siempre involucra dos partes,
la primera es la hiptesis nula (Ho), generalmente esta es la que el
investigador quiere que no suceda y Ha que es el complemento de la
nula.
En todos los juegos de hiptesis siempre se tiene lo siguiente:

Rechazar Ho

Situacin real (desconocida)


Ho correcta
Ho falsa
ERROR (llamado error Decisin correcta

No rechazar Ho

tipo I
Decisin correcta

ERROR (llamado error tipo


II

Esto es, en una prueba de hiptesis pueden cometerse dos tipos


de error. El llamado error tipo I consiste en rechazar una hiptesis nula
que es cierta y el error tipo II consiste en no rechazar una hiptesis nula
que es falsa. Las probabilidades de los errores respectivos se denotan
por y .
= P error tipo I = P rechazar Ho cuando es cierta
= P error tipo II = P No rechazar Ho cuando es falsa
En una prueba de hiptesis, el valor mximo de probabilidad de
error tipo I es llamado el nivel de significancia de la prueba. Se llama

tambin ocasionalmente el tamao de la prueba. Generalmente este


nivel es fijado por el investigador.

Prueba de Hiptesis para la media () de poblaciones con


distribucin normal.
a) Una poblacin
a.1) Una poblacin suponiendo 2 conocida
a.2) Una poblacin suponiendo 2 desconocida
b) La

media

de

desconocida pero

dos

poblaciones

normales

con

varianza

12 12 2
(homogeneidad de varianzas).

Generalmente para probar cualquier prueba de hiptesis se


adoptan los siguientes pasos:
1.

Plantear el juego de hiptesis (procurando que Ho quede en lo


que queremos)

2.

Elegir el nivel de significancia ( = 0.05, = 0.01, etc.).

3.

Calcular el valor de tablas (valor crtico) (tablas normal, t)

4.

Calcular el estadstico de prueba a partir de la informacin


muestral

5.

Tomar una decisin contrastando el estadstico de prueba con la


del valor crtico

6.

Concluir en el contexto del problema


Prueba de hiptesis sobre la media de una poblacin
normal con 2 conocida
1) Plantear Ho:

1) Ho : = 0 vs
2) Ho : < 0 vs
3) Ho : > 0 vs

Ha: 0 (dos colas)


Ha: > 0 (cola derecha)
Ha: < 0 (cola izquierda)

2. Elegir
3) Valores de Z/2

para el juego

para el juego 2 y 3

4) Estadstico de prueba
Zc

X X n

/ n

5) Tomar una decisin


a) Para el juego 1

Rechazar Ho si Zc > Z/2

a) Para el juego 2

Rechazar Ho si Zc > Z

b) Para el juego 3

Rechazar Ho si Zc < - Z

o Zc < - Z/2

Ejemplo:
A

continuacin

se

presentan

los

datos

obtenidos

por

un

investigador en un experimento sobre el efecto de un determinado


micronutriente (Zn) sobre el rendimiento de frijol. Suponga que los
rendimientos tienen distribucin normal con 2 = 0.4 ton2.
Datos
1.5
2.0
2.5
1.8
1.9
X = 1.94

Nuestra hiptesis postulada es:


1) Ho : < 1 ton vs Ha: > 1 ton
2) = 0.1
= 0.4
3) Z0.1 = 1.285
1.94 1 5 3.33
0.63
4) Zc =

5) Como Zc = 3.33 > Z = 1.285 entonces se


rechaza Ho.

6) Con una confiabilidad del 90%, los datos


del experimento muestran evidencia de
que la aplicacin de Zn en frijol produce
rendimientos

superiores

ton/ha

(P<0.1)

Prueba de hiptesis sobre la media de una poblacin normal


con 2 desconocida

Juegos
de
hiptesis

1) Ho : = 0

vs

Ha: 0 (dos colas)

2) Ho : < 0

vs

Ha: > 0 (cola derecha)

3) Ho : > 0

vs

Ha: < 0 (cola izquierda)

Estadstica de prueba
tc

X X n

S
S/ n

Donde como sabemos S = desviacin estndar de la muestra y se


estima mediante S.
Regla de decisin
Para el juego 1. Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
Para el juego 2. Rechazar Ho si tc > t(,n-1)
Para el juego 3. Rechazar Ho si tc < -t(,n-1)

Ejemplo:
Un metalurgista hizo 4 determinaciones del punto de fusin del
manganeso, estas fueron: 1269, 1 271, 1263 y 1265. Es importante
probar el hecho de que el fabricante del manganeso indicaba que el
punto de fusin es 1260. La prueba de hiptesis es entonces:

Ho: = 1260

Ha: 1260

vs

= 0.05
X = 1267

S=3.65148

tc

X
S/ n

1267 1260
3.65148

3.834

t(/2, n-1) = t(0.025,3)= 3.1824 (tablas de t)

Conclusion
Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
3.834 > 3.1824
Se encontr que el punto de fusin del manganeso es diferente de
1260c (P<0.05).

Cambiando =0.01

Ho: = 1260

Ha: 1260

vs

= 0.01

/2=0.005

X = 1267

S=3.65148

T Calculada:

tc

X
S/ n

X
S

1267 1260
3.65148

3.834

T Tablas:
t(/2, n-1) = t(0.005,3)= 5.84 (tablas de t)

Conclusion
Rechazar Ho si tc > t(,n-1) o si tc < -t(,n-1)
3.834 < 5.84
Se encontr que el punto de fusin del manganeso es de 1260c
(P>0.01).

Ejemplo:
Los propagandistas de cierta marca de cigarrillos sostienen que el
contenido promedio de nicotina de sus productos es menor de 0.7 mg
por cigarrillo. Suponiendo una distribucin normal para el contenido de
nicotina, su aseveracin es que < 0.7. Queremos entonces probar:
Ho: > 0.7

vs Ha: < 0.7

La hiptesis se probar con un nivel de significancia de = 0.01,


ya que si se rechaza Ho deberemos autorizar que en la publicidad
aparezca la afirmacin de la empresa, y slo estamos dispuestos a
hacerlo si la evidencia en contra de Ho es sustancial. Para realizar la
prueba determinamos el contenido de 30 cigarros con los siguientes
resultados:
0.72 0.76 0.68 0.69 0.73 0.59 0.70 0.71 0.62 0.68
0.75 0.73 0.62 0.64 0.76 0.74 0.60 0.61 0.61 0.60
0.69 0.70 0.78 0.81 0.64 0.63 0.65 0.79 0.77 0.76
encontrndose los siguientes estimadores:
X = 0.6920:

S = 0.0653

De acuerdo a lo anterior tenemos que:

= 0.01, = n-1 = 29 y con esto t(0.01,29) = 2.462. Como es una


prueba de la cola izquierda entonces:
- t(0.01,29) = -2.462
Y el valor de tC es

tc

30 0.6920 0.7
0.671
0.0653

Para la hiptesis planteada tenemos:


Rechazar Ho si tc < - t(,n-1) y como tc = -0.671 > -2.462 entonces
no rechazamos Ho.

El nivel observado de significancia de la muestra es:


= P(t(29) < -0.671) = p (t(29) > 0.671) = 0.2538 = 25.38%

Lo cual quiere decir que para rechazar Ho con la muestra anterior,


tendramos que estar dispuestos a tolerar una probabilidad de Error Tipo
I de al menos 25.38%.
DATA A;
INPUT NIC @@;
CARDS;
0.72 0.76 0.68
0.75 0.73 0.62
0.69 0.70 0.78
PROC MEANS;
RUN;

0.69
0.64
0.81

0.73
0.76
0.64

0.59
0.74
0.63

0.70
0.60
0.65

0.71
0.61
0.79

0.62
0.61
0.77

0.68
0.60
0.76

Prueba de hiptesis sobre la varianza 2 de una distribucin


normal.
Para la varianza se tienen los siguientes juegos de hiptesis:

1) Ho : 2 =
Juegos
de
hiptesis

2) Ho : 2 <
3) Ho :

02
02

>

vs

Ha: 2

02

(dos colas)

vs

Ha: 2 >

02

(cola derecha)

02

vs

Ha: <
2

02

(cola izquierda)

La estadstica natural de prueba de estas hiptesis est basada en


la varianza muestral S2, como a continuacin se da

X c2

n 1 S2
2
0

y donde las reglas de decisin son:


Para el juego 1.

c2 (2 / 2,n 1)
Rechazar Ho si
__________________________
o si

c2 (2 / 2,n 1)
c2 (2,n 1)

Para el juego 2.

Rechazar Ho si

Para el juego 3.

c2 (21 ,n 1)
Rechazar Ho si
__________________________

MUESTRAS ALEATORIAS

__________________________

Prueba de hiptesis sobre las medias (1 y 2) de distribuciones


normales (1,

12

22

12

) y (2,

22

). Supuesto

12

22

son desconocidas pero

= 2.

1) Ho : 1 = 2

vs

Ha: 1 2 (dos colas)

2) Ho : 1 > 2

vs

Ha: 1 < 2 (cola izquierda)

3) Ho : 1 < 2

vs

Ha: 1 > 2 (cola derecha)

Pasos:
1. Elegir la hiptesis a probar.
2. Elegir
3. Estadstica a prueba
tc

X1 X 2
1
1
Sp

n1 n 2

S p2

n1 1 S12 (n2 1) S22

S p S p2

n1 n 2 2
=desv.

Estndar

ponde-rada de

S X2
*Encontrar frmula general.
Las reglas de decisin son:

S X1

Para el juego 1.Rechazar Ho si tc > t(/2,n1 + n2-2)

o si tc < -t(/2,n1 + n2

2)

Para el juego 2.

Rechazar Ho si tc > t(, n1+ n2-2)

Para el juego 3.

Rechazar Ho si tc < -t(,n1 + n2-2)

Ejemplo:
Mediante 2 procesos se manufactur cable de alambre; se desea
determinar si los procesos tienen diferentes efectos en la resistencia y
en la

ruptura

del cable. Se efectuaron pruebas

de laboratorio

sometiendo al cable a tensin y se registr la carga requerida para


romper el cable, obtenindose los datos de la siguiente tabla:
Valores crticos de la carga (codificados)
PROCESO 1
9
4
10
7
9
10
n1 = 6
HIPOTESIS:
Ho: 1 = 2

vs

Ha: 1 2

= 0.05

X1 = 8.17 S1 =5.366
X 2 = 11.28 S 2 =5.238

S p2

Sp =

; n1 = 6,
; n2 = 7

6 1 (5.366) (7 1) (5.238) 5.29


672

5.29 =2.3

PROCESO 2
14
9
13
12
13
8
10
n2 = 7

t Calculada

tc

8.17 11.28
2.43
1 1
2.3
6 7

t Tablas
t(/2, n1+ n2 -2) = t(0.025,11) = 2.201 =-2.01
Conclusion
Rechazar Ho si tc > t(/2,n1 + n2-2) o si tc < -t(/2,n1 + n2 2).
-2.43>-2.01
Se encontr que los procesos de manufactura de alambre son diferentes
(P<0.05).
Cual es ms resistente?
En este caso es aquella cuya media muestral es mayor.
Respuesta: Proceso 2; X 2 =

11.28

Ejercicio: Prueba de hipotesis.


Ho: 1 > 2
vs
Ha: 1 < 2
DATA A;
INPUT PROCESO RESIST @@;
CARDS;
1 9 1 4 1 10 1 7 1 9 1 10 2 14 2 9 2 13 2 12 2 13 2 8 2 10
PROC MEANS MEAN VAR;BY PROCESO;
PROC TTEST; VAR RESIST;
RUN:

ANALISIS DE COVARIANZA
MUESTRA APAREADA. Se dice que se tiene una muestra
apareada cuando se toman mediciones de dos variables a un solo
individuo que a su vez conforma una muestra aleatoria.

Cuando se tienen muestras apareadas, las inferencias sobre los


tratamientos se llevan a cabo usando las diferencias D i = Xi Yi. Las
estadsticas necesarias son:

1 n
D1 ;
n i 1

2
SD

1 n
D1 D 2
N 1 i 1

En estos casos se pueden plantear pruebas de hiptesis de la


siguiente forma:
1. Ho: x - y = k vs

Ha: D k
Diferencias de las medias = D 0

2. Ho: D < k = k

vs

Ha: D > k

3. Ho: D > k = k

vs

Ha: D < k

Donde k es una constante elegida por el investigador, siendo comn que


k tome el valor de cero.
Ahora, si se supone que las D 1 son una muestra aleatoria de

2
N D , D
/n,

entonces se tiene que

2
D N D , D / n ,

Por lo tanto una prueba adecuada es una prueba de t usando la


estadstica:

tc

n D k
SD

Las reglas de decisin son:


Para el juego 1. Rechazar Ho si tc > t(/2,n-1) o si tc < -t(/2,n-1)

Para el juego 2. Rechazar Ho si tc > t(, n-1)


Para el juego 3. Rechazar Ho si tc < -t(,n-1)
En la siguiente tabla se presentan las pulsaciones por minuto de
atletas antes y despus de una sesin de entrenamiento.
x = pulsaciones despus
y = pulsaciones antes

Ho: D = 0

tc

x
157
158
163
160
161
126
114
148
150
124

y
67
61
89
74
69
78
60
78
72
68

Ha: D 0;

vs

Dx-y
90
97
74
86
92
48
54
70
78
56

D x 74.5
SD = 17.26

= 0.01

74.5 10
13.64
17.26
como tc > t(/2, 9) se rechaza Ho con = 0.01

t(/2, 9) = 3.2498

Conclusin en el Contexto.
Se encontr que el nmero de pulsaciones por minuto en los atletas es
diferente antes y despus de un entrenamiento (P<0.01).
REGRESION LINEAL SIMPLE
Recta Y = 0 + 1 X
MODELO DE LINEA RECTA
Y
Efecto
(peso)

X
Causa
(alimento)

Existen relaciones de
causalidad

Porque al incrementar el alimento del animal, se incrementar su


peso.
Cuando se tiene una relacin de causalidad es posible determinar
el grado de asociacin entre las variables (coeficientes de correlacin).
Generalmente el investigador requiere mayor informacin y es necesario
postular modelos (matemticos y estadsticos) con el fin de tener
condensada la relacin de X y Y en una sola ecuacin (recta).
MODELO DE REGRESION LINEAL SIMPLE
Yi = 0 + 1 Xi + i
Donde:
Yi = Es la variable respuesta
0 = La ordenada al origen
1 = Pendiente
Xi = Variable explicatoria
i = error aleatorio. Tiene un N(0, 2)
Supuestos:
4. Que exista relacin de causalidad
5. La variable X es una variable fija (el investigador la puede
manipular)
6. El modelo terico de los datos tiene la forma de una lnea recta
7. Los errores i tienen distribucin normal con media cero y
varianza 2
8. Que existe homogeneidad de varianzas
9. Que exista independencia de los errores
Nota: El tomar muestras aleatorias nos permite tener independencia de
los errores.

La recta que minimiza las distancias es la mejor recta.

2
2
di2 Yi Yi Yi 0 1Xi

i 1

Minimizando L tenemos:

dL

d 0

dL

d 1

Yi 0 1Xi 2 Y X
i 0 1
2

d 0

Yi 0 1Xi 2 Y X
i 0 1
2

d 1

Igualando a cero
2 Yi 0 1X

=0

2 X i Yi 0 1X
=0

Con los que nos queda finalmente

Xi Yi nX Y
Xi2 nX 2

0 Y 1X

0 y 1
0

Son los estimadores


cuadrados ordinarios
Estima a 0

Estima a 1

de

mnimos

Ejemplo:
Efecto de la edad en la presin sangunea.
Se seleccionaron mujeres de alrededor de los 40 aos de edad
para estudiar la relacin de la presin sistlica de la sangre con la edad.

X = edad
42

Y = Presin en
mmHg
130
XY = 100990

1 = 0.7451

46

115

X = 66.2

42
71
80
74
70
80

148
160
156
162
151
156

Y = 149.8
X2 = 46270

rxy = 0.4805

85
72

162
158

= 100.4694

X i Yi n X Y

2
i

nX 2

0 Y 1 X

= 100.4694 + 0.7451 Xi
Finalmente se tiene el siguiente modelo: Y
Conclusin: Se encontr que cada que se aumenta un ao en la edad de
una mujer (de alrededor de 40 aos) la presin sistlica se incrementa
en 0.7451 mmHg.
Nota:
10. La regresin sirve para hacer predicciones, conociendo X y Y
11. Se utiliza en: clculo de dosis ptimas, curvas de respuestas,
superficies de respuestas, etc.
12. Interpolaciones.
0 = La ordenada al origen generalmente no tiene una interpretacin en

el contexto del problema, porque es imposible que exista una


persona de 0 aos y tenga una presin de 100.4694.

Tiene

interpretacin cuando existen datos alrededor del cero.


En nuestro problema 0 solo se considera como un factor de ajuste.

1 = La pendiente se dice que es el cambio en promedio observado en Y


cuando incrementamos X en una unidad. En el contexto del

problema se observ un incremento de 0.7451 mmHg en promedio


por cada ao.
rXY = El coeficiente de determinacin se define como el coeficiente de
correlacin elevado al cuadrado y es una forma de medir el ajuste
de la lnea a los datos.
Toma valores -1 < rXY < 1 0 <

2
rXY

<1

Y cuando es 1 tenemos un ajuste perfecto y cuando es cero no


existe ajuste.
Un

2
rXY

= 0.60 puede considerarse aceptable en modelos que

involucren seres vivos.


Ejemplo 2:
Considere la variable Y absorcin intestinal de vitamina B 12 para
vacas que ingirieron diferentes cantidades de B12 (X).
X = cantidad
ingerida (g)
0
0
0
0.3
0.3
0.3
0.7
0.7
0.7

Y = absorcin intestinal (%)


1.91
1.86
1.95
1.64
1.51
1.59
1.35
1.32
1.24

1.3
1.3
1.3

.76
.81
.78

1.7
1.7
1.7

.48
.50
.45

Finalmente tenemos

XiYi = 9.645
X = 0.8
Y = 1.21

Xi2
1

= 15.48

Xi Yi nX Y
X i Yi nX 2

1 = -0.8290
1X

0 Y

1.21 (-0.829 x 0.8) =


1.8732

= 1.8732 0.8290 Xi
Y

2.0
absorcin
intestinal

1.0
0.33
0.7
Cantidad de vitamina

1.3
B12

1.7
ingeri
da

0 = Cuando no se aplica vitamina B en las vacas existe una absorcin


12

de 1.87% en el intestino.

1 = Por cada microgramo que se administre a las vacas existe una


disminucin en promedio de 0.829% en la ingestin de vitamina B 12 en
el intestino.
2
rxy

= 0.992 por lo tanto el ajuste es muy bueno.

PRUEBA DE HIPTESIS SOBRE 1 (pendiente)


Ho: 1 = 1*

vs

Ha: 1 1*

Ho: 1 > 1*

vs

Ha: 1 < 0*

Ho: 1 < 0*

vs

Ha: 1 > 0*

ESTADISTICO DE PRUEBA

S 1

*
to 1 1
S 1

Yi2 nY 2 1 XY nXY
n2

XY 2 nX 2

Valor de tablas
t(/2,n-2)

(dos colas)

t(,n-2)

(una cola)

1* = cualquier constante.

ULTIMA TAREA
1.

Diga cules son las caractersticas que debe reunir un


estimador.

2.

Explique con sus palabras el teorema central del lmite y


mencione sus propiedades.

3. Suponga que el peso neto por cerdo de una piara tiene una media de
70 kg y una desviacin estndar de 20 kg. Se toma una muestra de 20
cerdos y su peso respectivo. Cul es la probabilidad de que la media
muestral se encuentre entre 60 y 80 kg? Suponga distribucin normal
de los pesos.
a) De qu tamao tendra que ser la muestra para que la probabilidad
calculada sea de 0.90
4.

Realice los siguientes intervalos de confianza al 90, 95 y


99%, suponiendo que = 4, X = 20
Realice adems los intervalos sealados pero si sabemos que S = 3.1
y el tamao de la muestra es 30.

5. Defina lo siguiente:
a) Hiptesis estadstica
b) Nivel de significancia
c) Error tipo I y Error tipo II
6. Una empresa produce un nuevo bactericida comercial, que contiene
un componente especfico de 200 ppm ()
Un laboratorio le propone un nuevo producto cuyo componente
especfico contiene mayor concentracin en ppm y a la empresa le
interesara el producto, si tuviera al menos 300 ppm.
Se realiza un muestreo del nuevo producto con 25 observaciones y
se sabe que = 20 y se supone que es la misma para el nuevo
producto.

Del muestreo se encontr que X = 200, adems deseamos


trabajar con = 0.05.
Tiene el nuevo producto mayor concentracin en ppm (mayor o igual a
300?
7. Se aplica una dieta tradicional, la cual incrementa el peso de ovinos
en 8 kg/mes. Se ensaya otra dieta nueva en 25 animales y se
registran la media ( X =7) de incremento de peso y una S = 5. Puede
decirse que la nueva dieta genera menos incremento de peso?
8. Ponga dos ejemplos donde aplique el concepto de muestras aleatorias
y pruebe las hiptesis correspondientes con = 0.05
9. Realice lo mismo que lo anterior pero con muestras apareadas.
10. Se extrae sangre de 10 bovinos de la granja y se les determina el
contenido de bacterias mediante los mtodos X y Y. Se desea saber si
existe diferencia estadsticamente significativa entre mtodos al
5%=0.05.
Datos:
X
Y

45
34

36
45

34
30

23
10

22
23

33
21

56
18

44
21

33
67

44
23

11. Suponga que se mide el promedio de consumo de alimento


balanceado y el incremento de peso promedio de un grupo de
animales. Los datos son:
Consumo

Incremento

Peso
12
2.4
14
3.0
10
5.9
11
3.9
20
6.6
8
2.5
7
4.3
Encontrar la ecuacin de regresin lineal simple que mejor se ajuste a
los datos.

Bibliografa:
Chao L.L. 1975. Estadstica para las ciencias administrativas. 2
Edicin. McGraw-Hill. Mxico.
Infante G.S. y Zrate De L.G. Mtodos estadsticos.
Prez V.

Apuntes de Introduccin a la Estadstica.

Potrebbero piacerti anche