Sei sulla pagina 1di 48

DOCIMASIA DE HIPTESIS

Prof.: Sergio Moscoso Cerda

Introduccin:

Sentencias tales como:

- En un nacimiento cualquiera la probabilidad de que nazca un hombre es igual a


la probabilidad de que nazca una mujer

- El peso medio de los chilenos al nacer es de 3,5 kilos

- Existe asociacin entre PGB y educacin

Estas sentencias ilustran una nocin genrica que llamamos hiptesis


estadstica.

Si se examina el 100% de una poblacin, la hiptesis podra ser probada sin error,
pero trabajar con el 100% de la poblacin no es posible por razones de tiempo y
de costo.

El juzgar la validez de alguna sentencia que se haga tendr que satisfacerse


usando la informacin que se obtenga de una muestra, esto implica correr algn
riesgo de errar, por lo tanto, lo razonable que podemos hacer es:

i) Cuantificar la incertidumbre asociada a cada uno de ello, aprovechado


todas nuestras nociones de probabilidades

ii) Definir procedimientos que nos garanticen que las probabilidades de


cometer un error sern reducidos.

1.0 Definicin de Hiptesis estadstica


Una hiptesis estadstica es una afirmacin o conjetura acerca de la distribucin
de una o ms variables aleatorias. Si una hiptesis estadstica especifica por
completo la distribucin, recibe el nombre de hiptesis simple; si no, se conoce
como hiptesis compuesta.

Por lo tanto, una hiptesis simple debe especificar no slo la forma de la


distribucin subyacente, sino tambin los valores de todos los parmetros.

Asimismo, para poder construir criterios adecuados para probar hiptesis


estadsticas, es necesario formular hiptesis alternativas

1
H0: Hiptesis nula: = 0 y otra de la forma

H1: Hiptesis alternativa: 0

Si una distancia T 0 parece recomendar el Rechazo de la hiptesis nula,


entonces definamos R = { T / T 0 > k } como regin de rechazo de esa hiptesis.
Es decir, podemos adoptar como regla de decisin Rechazar H0 si al realizar
nuestro estudio muestral obtenemos Tobs. tal que Tbos R .

Esta situacin se puede presentar en forma grafica de la siguiente manera:

Este procedimiento nos puede conducir a dos tipos de errores, a saber:

1) Al rechazar la hiptesis nula cuando esta es verdadera se le conoce como error


tipo I; la probabilidad de cometer el error tipo I se denota por

2) El no rechazo de la hiptesis nula cuando esta es falsa recibe el nombre de


error tipo II; la probabilidad de cometer un error tipo II se denota por

A la regin de rechazo de la hiptesis nula se acostumbra denominarla regin


crtica de la prueba

El esquema grfico de estas situaciones es la siguiente:

2
Estado de la DECISION
naturaleza No rechazar H0 Rechazar H0
H0 es verdadera Correcta Error tipo I
H0 es falsa Error tipo II Correcta

Ejemplo1:
Basndose en muestras un fabricante de productos farmacuticos tiene que
decidir si el 90% de todos sus pacientes a quienes les da un nuevo medicamento
se recuperaran de cierta enfermedad. Supngase que el fabricante del nuevo
medicamento desea probar la hiptesis nula de 0 = 0,90 contra la hiptesis
alternativa 1 = 0,60 . La estadstica de prueba es x, el nmero observado de
acierto es n = 20, y aceptar la hiptesis nula si x 15 ; de lo contrario, concluir
que aceptar 1 = 0,60 . Evalu y

Solucin:
La regin de no rechazo de H0 est dada por x = 15, 16, 17, 18, 19, 20, entonces
la regin de rechazo o critica est dada por x = 0, 1,...,14. Por lo tanto se tiene
que:

= P (error tipo I)

=P ( x 15;0 = 0,90 ) Esta es una probabilidad Binomial

=0,0114

=P(error tipo II)

=P ( x<15;1 = 0,60 )

= 0,1255

Un buen procedimiento de prueba es aquel en el cual y son pequeos


L
o que nos da una buena oportunidad de tomar la decisin correcta.

La forma en la que podemos reducir las probabilidades de ambos tipos de


errores consiste en aumentar el tamao de la muestra, pero esto de hace a
costa de un mayor costo de muestreo.

3
Para explicar la terminologa, consideremos una situacin en la cual se desea
probar la hiptesis nula H0: H0 : = 0 contra la hiptesis alternativa bilateral
H1: 0

Como parece razonable aceptar la hiptesis nula cuando nuestra estimacin de


punto  de esta prxima a 0 y rechazarla cuando  sea mucho mayor o muyo
menor que 0 sera lgico hacer que la regin critica conste de ambos extremos
de la distribucin muestral de nuestra estadstica de prueba  . Esta prueba recibe
el nombre de prueba de dos extremos.

Por otra parte, si probamos la hiptesis nula H0 : = 0 contra la hiptesis


alternativa unilateral H1 : < 0 parecer razonable rechazar H0 slo cuando 
sea mucho mayor que 0 , en este caso sera lgico hacer que la regin crtica
conste slo del extremo izquierdo de la distribucin muestral de  .

De la misma manera, al probar H0 : = 0 contra la alternativa H1 : > 0 slo


para valores grandes de .

Cualquier prueba donde la regin crtica consta de slo de un extremo de la


distribucin muestral de la estadstica de prueba se llama prueba de un extremo.

La situacin grafica para una prueba bilateral es:

4
La situacin grafica para un ensayo unilateral izquierdo es:

La situacin grafica para un ensayo unilateral derecho es:

Para una docimasia de hiptesis es conveniente seguir los siguientes pasos:

5
Plan de Docimasia

1) Definicin de la(s) variable(s) de inters y enunciado explicito de los


supuestos necesarios para aplicar correctamente el mtodo que se piensa usar.

2) Enunciado de las hiptesis nula y alternativa, simblicamente y en el


contexto del problema.

3) Especificar el nivel de significacin

4) Especificar la estadstica de la Dcima

5) Determinar la regin critica o regin de rechazo de H0, es decir, formular la


regla de decisin

6) Evaluar la estadstica con los datos muestrales.

7) Decisin respecto de H0 (rechazo o no rechazo). Interpretacin de la decisin


en el contexto del problema

2.0 Dcimas para una esperanza o media (poblacin normal)

2.1 Varianza conocida

Ejemplo2:
Supongamos que por experiencia se sabe que la desviacin estndar del peso de
ciertos paquetes de galletas, hechas por una pastelera, es de 16 gramos.
Para cerciorarse de que la produccin est bajo control en un da dado, es decir,
para verificar si el peso promedio real de los paquetes es de 80 gramos, se
selecciona una muestra al azar de 25 paquetes y se encuentra que su peso medio
es 81,12 gramos.
Probemos la H0 : = 80grs. . Contra la alternativa H1: 8 0gr., si = 0,01

Solucin: Siguiendo el plan de docimasia, se tiene:

1) Definiciones y supuestos: Sea X: Peso de un paquete de galletas


Supongamos que la variable aleatoria X tiene distribucin normal con 2 conocida

2) Enunciado de las hiptesis:

H0 : = 80grs. Versus H1: 8 0gr

3) Eleccin del nivel de significacin: = 0,01

4) Estadstica de trabajo:

6
Como:

x = 81,12

0 = 81,12

= 16

n = 15

Luego reemplazando en:

x 0
Z=


n

Se tiene que:

81,12 80
Z obs = = 0,35
16
25

5) Definicin de la regin critica

R = {T / T > Z crit T < Z crit }

De (3) se desprende que

Z = Z.99 = 2,575
2

La situacin grafica es:

7
6) Evaluacin de la estadstica

Como ZObs = 0,35 ZObs R(regin de rechazo)

7) Conclusin e interpretacin

No se reza H0, es decir, H 0 : = 80 gr.

Usos de valores P en la prueba de hiptesis (P valor)

Una manera de notificar los resultados de una prueba de hiptesis es establecer


que la hiptesis nula fue o no rechazada con un valor especfico de o nivel de
significancia.

Por ejemplo, en el problema anterior sobre el peso de los paquetes de galletas,


puede decirse que H0 : = 0 es decir H0 : = 0 = 80grs. no se rechaza H0 con
un nivel de significancia de 0,01.

A menudo, este planteamiento de la conclusiones resulta inadecuado, ya que no


brinda al investigador ninguna idea sobre si el valor calculado de la estadstica de
prueba estaba apenas en la regin de no rechazo o bien ubicado dentro de ella.
Adems, establecer de esta manera los resultados impone a otros usuarios de la
informacin en el nivel de significancia predeterminado. Este enfoque puede ser
poco satisfactorio, dado que algunos investigadores se sentirn incmodos con los
riesgos implicados por = 0,01

Para evitar estas dificultades, en la prctica se ha adoptado el enfoque del valor P


(P valor). El valor de P es la probabilidad de que el estadstico de prueba tome un
valor que sea al menos tan extremo como el valor observado del estadstico de

8
prueba cuando la hiptesis nula es verdadera. Es as como el valor de P acarrea
mucha informacin sobre el peso de la evidencia con H0 de modo que el
investigador pueda llegar a una conclusin para cualquier nivel de significancia
especificado.

Definicin:
El valor de P es el nivel de significancia ms pequeo que conduce al
rechazo de la hiptesis nula.

Es habitual llamar al estadstico de prueba (y los datos) significante cuando se


rechaza la hiptesis nula H0; por tanto, el valor de P puede considerarse como el
nivel de significancia ms pequeo para el que los datos son significativos.

Si Zobs. es el valor calculado del estadstico de prueba, entonces el valor de P es:

2 1 ( 0,5 + ( ZObs ) ) S H0 : = 0 v/s H1 : 0





P = 1 0,5 + ( ZObs ) S H0 : = 0 v/s H1 : > 0


0,5 + ( Z ) S H : = v/s H : <
Obs 0 0 1 0

En las expresiones anteriores ( ZObs ) es la funcin de distribucin acumulada


normal estndar.

Ejemplo:
Consideremos el ejemplo de las galletas. El valor de Z Obs. = 0,35 y como la
hiptesis alternativa es de dos colas, el valor de P es:

P = 2 1 ( 0,5 + (0,35 ) = 2 1 ( 0,5 + 0,1368 ) = 0, 7264

Por lo tanto, H 0 : = 0 = 80 gr. no ser rechazada con cualquier nivel de


significancia 0, 7264

9
2.2 Varianza desconocida

Ejemplo 3:
Se sabe que el valor medio de protrombina en la poblacin normal es de
aproximadamente 20 mg./100 ml de plasma. Una muestra de 635 pacientes con
deficiencia de vitamina K presenta un nivel medio de protrombina de
19,50 mg /100 ml. La desviacin estndar de la muestra es 4 mg /100 ml. Tienen
los pacientes con deficiencia de vitamina K un nivel significativamente ms bajo de
protrombina que la poblacin general?

Solucin: De acuerdo al plan de docimasia se tiene

1) Sea Y: nivel de protrombina


Supongamos que Y tiene una distribucin normal estndar y {y1 ,..., y 625 } es una
muestra aleatoria de nivel de protrombina en pacientes con deficiencia de vitamina
K y, se desconoce 2

2) Las hiptesis en contraposicin son

H0 : = 0 = 20mgs.

H1 : < 20

3) S = 0,01 es el nivel de significacin

Dado que desconocemos la varianza poblacional = 0,01 , deberemos


estimarla usando la varianza muestral S2. Sabemos que cuando se desconoce la
varianza poblacional la estadstica adecuada es t, es decir:

x 0
TObs =
S

n

En este caso se tiene que:

19,5 20
Tobs. = = 3,125
4
625

10
Que tendr bajo H0, distribucin muestral t624

De todo lo anterior resulta que nuestra regin de rechazo (de H0) es:

R = {T / T < t crit }

Con

tcrit = t = t.99,624 = 2,33


1 ,v
2

La situacin grafica es:

De la informacin muestral obtenemos que TObs = 3,125 valor que es claramente


perteneciente a la regin de rechazo de H0.

En consecuencia, nuestra decisin ser rechazar la hiptesis nula y afirmar que


en la poblacin de enfermos con deficiencia en vitamina K el nivel de protrombina
es menor que en la poblacin normal. Es decir aceptamos H1 : < 20

11
2.3 Pruebas concernientes a diferencias entre medias

2.3.1 Si se conoce la varianza poblacional

Ejemplo 4:
Supngase que se miden los contenidos de nicotina de dos muestras de
cigarrillos. Si en un experimento de 50 cigarrillos de la marca A tuvieron un
contenido de nicotina en promedio x1 = 2,61 miligramos con una desviacin
estndar de 1 = 0,12 miligramos, mientras que 40 cigarrillos de la marca B
tuvieron un contenido de nicotina en promedio de x 2 = 2,38 con una desviacin
estndar de 2 = 0,14 miligramos, pruebe la hiptesis:

H 0 : 1 2 = 0,2 Contra H 1 : 1 2 0,20 , si = 0,05

Solucin: Sea x 1: Cantidad de nicotina en los cigarrillos de marca A


x 2: Cantidad de nicotina en los cigarrillos de marca B
x 1 : Promedio de nicotina de la marca A
x 2 : Promedio de nicotina de la marca B

Las hiptesis en contraposicin son

H 0 : 1 2 = 0,2 Versus H 1 : 1 2 0,20

La estadstica de trabajo es:

Z Obs =
( x x ) ( )
1 2 1 2

21 2 2
+
1 n2
n

Luego al sustituir los valores correspondientes se tiene que:

Z Obs =
(2.61 2.38) 0.2 = 1.08
0.12 2 0.14 2
+
50 40

12
El valor critico de Z = 1,96 . Bajo H0 la distribucin es normal.
2

Luego, Z Obs. se encuentra en la regin de no rechazo de H0, por lo tanto las


diferencias de nicotina de los cigarrillos entre las dos marcas no es significativa

2.3.2 Si no se conoce la varianza poblacional.

Ejemplo 5:
En un estudio de angina de pecho en ratas, se dividi aleatoriamente a 18
animales afectados en dos grupos de 9 animales cada uno. A un grupo se le
suministro un placebo y al otro un frmaco experimental FL113. Despus del
ejercicio controlado sobre una rueda de andar, se midi el tiempo de recuperacin
de cada rata. El FL113 reducir el tiempo medio de recuperacin? Se dispone de
la siguiente informacin.

Placebo n1= 9 x1 = 329 seg. S1 = 45 seg.


FL113 n2 = 9 x 2 = 238 seg. S2 = 43 seg.

Solucin:

1) Sea X: tiempo de recuperacin de una rata despus del ejercicio


Conceptualmente, tenemos dos poblaciones de valores que corresponden a ratas
tratadas con placebo y a tratadas con FL113 respectivamente. Supondremos que
las poblaciones tienen distribuciones normales estndar. Y, supongamos que
tienen varianza igual para ambas poblaciones.

Como desconocemos 2 deberemos estimarla a partir de cada muestra usando


S 21 y S 22 respectivamente. Se propone, en general, el estimador combinado

=
(
2n1 1)S 21 + (n2 1)S 2 2
(n1 + n2 2)
2) Nos interesa docimar

H 0 : 1 = 2 o H 0 : 1 2 = 0

13
H 1 : 1 > 2 o H 1 : 1 2 > 0
3) Tenemos que = 0,05

4) Para hacer inferencia respecto a 1 2 resulta natural estudiar la estadstica


x1 x 2

Ya sabemos que x1 y x 2 tienen distribucin normal estndar.


En consecuencia, nuestra estadstica de trabajo ser:

TObs =
(x x ) ( )
1 2 1 2

1 1
+
n1 n2

Que bajo la hiptesis nula H 0 : 1 2 = 0 , entonces el TObs. se reduce a:

TObs =
(x x )
1 2

1 1
+
n1 n2

Con distribucin t ( n1 +n2 2 )

5) Por lo tanto, la regin de rechazo ser R = {T / T > t Crit }

tCrit = t.95,16 = 1,746

6) De los datos muestrales tenemos que

8 452 + 8 432
= = 44
18 2

14
Luego, se tiene que:

329 238
TObs = = 4,39
1 1
44 +
9 9

7) Debemos rechazar la hiptesis nula. Es decir, podemos afirmar que hay


evidencia de que el tiempo medio de recuperacin es significativamente mayor
entre las ratas tratadas con placebo que entre las que recibieron FL113

3.0 Pruebas concernientes a proporciones

Si como caracterstica de estudio tenemos el nmero de nios que faltan a una


escuela en un da dado, a este tipo de datos los llamamos datos de conteos. La
distribucin Binomial, la distribucin de Poisson, la distribucin Multinomial son
modelos apropiados del anlisis de datos contados.

Ejemplo 6:
El director de un consultorio cree que en la comunidad que debe atender hay un
grado de satisfaccin de a lo menos un 75%. El subdirector encuesta a 120
usuarios, aleatoriamente seleccionados, de los cuales 80 se declaran satisfechos.
Confirma o no este resultado la opinin del director?

Solucin:

1) Sea U la variable aleatoria que seala satisfaccin o no satisfaccin.


Desde el punto de vista del director P (U = 1) = 0,75 y P (U = 0) = 0,25. Es decir U
tiene distribucin de Bernoulli de parmetro P = 0,75 (proporcin poblacional de
satisfechos),y con n = 120

2) Queremos docimar H0: P = 0,75 contra H1 : P < 0,75

3) Sea = 0,05

4) La estadstica de trabajo es:

15
p P
Z=
P (1 P )
n

Sabemos que Z tiene, bajo la hiptesis nula, una distribucin normal estndar

5) Regin critica R = {T / T < Z crit } con Z crit. = -1,645. Por ser una prueba unilateral

80
6) Ya que p = = 0,67
120

El valor observado de la estadstica ser.

0, 67 0, 75
Z Obs = = 2, 02
0, 75 0, 25
120

La situacin grafica es la siguiente

7) Por lo tanto, rechazamos la hiptesis nula. Es decir, el porcentaje de aprobacin


es significativamente menor que lo supuesto por el director

16
3.1 Ensayos de diferencias de proporciones

Cuando se desea probar la hiptesis de que las proporciones de dos poblaciones


no son distintas, se combinan las dos proporciones muestrales

Ejemplo 7:
En una muestra de 50 hogares de cierta comunidad arroja que 10 de ellos se
encuentran bajo la lnea de pobreza. En una segunda comunidad, 15 hogares de
una muestra aleatoria de 50 se encuentran bajo la lnea de pobreza. Probemos la
hiptesis de que la proporcin de todos los hogares en las dos comunidades no
difiere con = 0,01

Solucin:

1) Sea X: La proporcin de hogares total de las dos comunidades que estn bajo
la lnea de pobreza.

Las proporciones p1 y p2 tienen distribucin normal estndar

2) Las hiptesis en contra posicin son H 0 : P1 P2 = 0 contra H 1 : P1 P2 0

3) El nivel de significacin es = 0,01

4) La estadstica de trabajo es:

p 1 p 2
Z Obs =
P (1 P ) P (1 P )
+
n1 n2

Donde la estimacin combinada de la proporcin poblacional, con base en las


proporciones obtenidas en dos muestras independientes es:

n1p1 + n2 p 2
P=
n1 + n2
Donde:

17
X1 X2
p 1 = y
p 2 =
n1 n2

 y p
p son las proporciones muestrales
1 2

5) Definicin de la regin critica R = {T / Z crit < T < Z crit }

ZCrit = 2,58

6) Evaluacin de la estadstica

10
p 1 = = 0,20 . Proporcin de la muestra uno
50

15
p 2 = = 0,30 . Proporcin de la muestra dos
50

50 0, 20 + 50 0,30
P = = 0, 25 . Proporcin combinada poblacional
50 + 50

P (1 P ) P (1 P )
p p = + : Desviacin de la diferencia de proporciones
1 2
n1 n2

0.25 0.75 0.25 0.75


p p = + = 0.087
1 2
50 50

18
Entonces, tememos que:

0.20 0.30
Z Obs = = 1,15
0.087

7) Por lo tanto, no rechazamos la hiptesis nula, es decir, no existe diferencia


significativa en la proporcin de hogares que estn bajo la lnea de pobreza en las
dos comunidades.

4.0 Pruebas concernientes a varianzas

Hay razones ms que suficientes para probar hiptesis concernientes a las


varianzas, por ejemplo un profesor desea saber si son verdaderas ciertas
afirmaciones acerca de la variabilidad que puede esperar al observar el
desempeo de un estudiante.

Como se ha establecido que si x y S2 son la media y la varianza de una muestra


aleatoria de tamao n tomada de una poblacin normal con media y la varianza
2 entonces, se tiene que:

i) x y S2 son independientes

ii) La variable aleatoria:

(n 1) S 2
=2

Tiene distribucin Chicuadrado con v = n 1 grados de libertad

Ejemplo 8:
Para juzgar ciertas caractersticas de seguridad de un automvil, un inspector
debe saber si el tiempo de reaccin del conductor ante una situacin de
emergencia determinada tiene una desviacin estndar de 0,010 segundos o si
sta es mayor que 0,010 segundos. Qu puede concluir en el nivel 0,05 de
significancia, si se obtiene que s = 0,014 segundos para una muestra aleatoria de
n = 15?

19
Solucin

Las hiptesis son:

H0 : = 0,010

H1 : > 0,010

= 0,05

(n 1) S 2 14(0,014) 2
2
= = = 27, 44
Obs .
2 0,0102

crit
2
= .95,14
2
= 23,7

Por lo tanto, como Obs > Crit se rechaza la hiptesis nula, es decir, el inspector
2 2

puede concluir que la desviacin estndar del tiempo de reaccin del conductor en
la situacin de emergencia es mayor que 0,010 segundos.

4.1 Pruebas referentes a dos desviaciones estndar

Dadas muestras aleatorias independientes de tamao n1 y n2 de dos poblaciones


las desviaciones estndar 1 y 2 , regularmente basamos las pruebas de la
hiptesis nula 1 = 2 en el estadstico de la distribucin F

Estadsticos para pruebas referentes a la igualdad de dos desviaciones


estndar

S 21 S 22
F= 2 o F= 2
S 2 S 1

20
Se puede elegir cualquiera que sea mayor

Ejemplo 9:
Al medir las capacidades lectoras de dos grupos de estudiantes, se tiene que
S 21 = 63,45 y S 2 2 = 42,65 para dos muestras aleatorias independientes de tamao
n = 5. Usemos el nivel de significancia 0,02 para probar si hay alguna evidencia de
que las desviaciones estndar de las poblaciones de las que se efecta el
muestreo no son iguales.

Solucin:

Las hiptesis son

Ho: 1 = 2

H1 : 1 2

El nivel de significancia es = 0,02

S 21
Dado que S 2
1 es mayor que S 2
2 se elige F = 2 y, sustituyendo se tiene
S 2
que:

S 21 63,45
FObs = 2 = = 1,49 .
S 2 42,65

Con v1 = 5-1 = 4 y v2 = 5 1 = 4

El valor crtico es:

F.99,4,4 = 16

Por lo tanto, como FObs no es mayor que Fcrit. , no se rechaza la hiptesis nula

21
5.0 La prueba Chicuadrado: 2

Las aplicaciones ms frecuentes de la Chicuadrado que se pueden sealar son:

a) Prueba de Asociacin

b) Prueba de Homogeneidad

c) Prueba de Bondad de Ajuste

5.1 Prueba de asociacin entre dos variable

En la bsqueda de modelos o leyes que describan los fenmenos naturales la


pregunta esencial es si existen vnculos o relaciones entre dos o ms variables.

Permite determinar si existe asociacin entre dos variables con escala de


mediacin nominal u ordinal (para escala de intervalo se utilizan los coeficientes
de correlaciones)

Con frecuencia queremos averiguar si dos v.a cualitativas X e Y se vinculan entre


s o no se vinculan

En cada unidad de observacin se registra un par (x, y) de valores observados. A


partir de lo observado en n unidades de observacin obtenemos una tabla de
frecuencias bidimensional llamada tabla de contingencia.

Las hiptesis a contrastar son:

H0: X e Y no estn asociadas

H1: X e Y estn asociadas

Ejemplo 10:
En un estudio de Rothman y Sller (1972), se presenta la tabla anexa que muestra
la distribucin de casos de cncer bucal y controles adecuados, segn consumo
de cigarrillos por da. Evaluemos a partir de esa informacin, la posible asociacin
entre ese tipo de cncer y el hbito de fumar (cigarrillos/da).

22
Grupo Categora fumador Total
Cncer Nulo Liviano Mediano Excesivo
0 1 - 19 20 - 39 40 o ms
Caso 26 (57,65) 66 (84,65) 248 (231,11) 143 (109,58) 483
Controles 85 (55,35) 97 (78,34) 197 (213,89) 68 (101,42) 447
Total 111 163 445 211 930

Donde el parntesis corresponde a las frecuencias esperadas

Sea X: La variable Grupo, respecto al cncer bucal


Y: La variable categora fumador

Docimar:

H0: X e Y no estn asociadas

H1: X e Y estn asociadas

Si no hubiera vinculo entre x e y la distribucin porcentual de los niveles de y


para los casos sera igual a la correspondiente a los controles, es decir bajo tal
supuesto, esperaramos en la celda (1,1) una frecuencia E11 que satisfara la
siguiente proporcin:

E11 483
= E11 = 57,65
111 930
Si no hay asociacin entre ambas variables, la distribucin de frecuencias relativas
observadas en le primer grupo se repetira en el segundo. Por ello, las frecuencias
Oij coincidiran con las frecuencias esperadas Eij celda por celda y una
estadstica como

A = ( Oij Eij ) = 0
2

En cambio, si hay vinculacin o asociacin entre estas variables, esta


estadstica A sera estrictamente positiva, creciendo si la asociacin es ms
fuerte.

Pearson propuso como estadstica de trabajo para esta Dcima la estadstica:

23
f c ( O E )2
2Obs =
ij ij

i =1 j =1 Eij

Y, demostr que, bajo el supuesto de no asociacin, ella tiene distribucin


muestral

2 ( f 1)(c 1)

Donde f son la cantidad de filas y c son la cantidad de columnas

En el ejemplo f = 2 y c = 4 y, si elegimos = 0,05 la regin crtica apropiada


ser:

{ }
R = T / T > 2 ( 3;0.95) De donde

.95,3
2
= 7,815
La situacin grafica es:

De los datos del ejemplo resulta que:

24
Obs
2
= 68,469

TObs es mayor que crit = .95,3 = 7,815


2 2
Por lo tanto, como rechazamos la
hiptesis nula, es decir, hay evidencia estadsticamente significativa de que la
categora de fumador est asociada con la condicin caso-control

Este procedimiento ilustrado en el ejemplo anterior u otro ejemplo no es


aplicable:

1) Si alguna frecuencia esperada es menor que 1

2) Si ms del 20% de las frecuencias esperadas es menor que 5

5.2 Prueba de Homogeneidad

Esta prueba se realiza con el propsito de determinar si dos o ms muestras


aleatorias, provienen de una misma poblacin o de poblaciones diferentes
en cuanto a tener o no una determinada caracterstica.

Ejemplo 11:
Es la proporcin de enfermos de Sida la misma en las regiones V, VII y
Metropolitana del pas?

Si no se rechaza H0 que afirma que existe Homogeneidad, significa que del punto
de vista de la morbilidad del Sida, las tres regiones constituyen una sola poblacin.
En caso de rechazar H0, se dice que no existe homogeneidad entre las
poblaciones
Se tienen K poblaciones de las cuales se escoge una muestra aleatoria
independiente de tamaos n1 ,..., nk respectivamente, no necesariamente de igual
tamao, para ser clasificados en h categoras de una variable

25
Categoras Poblaciones
p1 p2 ...........pj ........pk
c1 x11 x12 ...........x1j ........p1k x1
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Cn xn1 xn2 .................xnj ..............xnk
xn
n1 n2 nj nk n
Tamaos de la muestra

x i = Nmero de observaciones clasificadas en la categora (i )

xi
pi = Probabilidad de que una observacin quede clasificada en la categora (i)
n

Eij: Frecuencia esperada de la muestra de la poblacin (j) clasificada en la


categora (i)

Planteamiento de hiptesis

H0: Existe homogeneidad entre las poblaciones en cuanto a su distribucin


en las categoras de la variable

H1: No existe homogeneidad

La estadstica de prueba es:

f c (O E ) 2
2Obs =
ij ij

i =1 j =1 Eij

26
Ejemplo 12:
En un rea hospitalaria se tom una muestra aleatoria de 115 profesionales, 110
administrativos y 125 auxiliares, para determinar con un 5% de significacin, si la
opinin de los tres estamentos difiere en cuanto a una nueva poltica de sueldos.
Cada persona deba optar por responder: a favor, en contra, indiferente.

Categoras Poblaciones Total


Profesionales Administrativos Auxiliares
A favor 80 72 69 221
En contra 21 15 31 67
Indiferente 14 23 25 62
Tamao 115 110 125 350
Muestra

H0: Existe homogeneidad de opinin entre las tres poblaciones

H1: No existe homogeneidad

= 0,05

2.95,4 = 9.49 Valor critico

2
=
(80 72,61)
2
+
(72 69,46 )
2
+ ... +
(25 22,14 )
2
= 8,97
Obs
72,61 69,46 22,14

Por lo tanto, como el valor observado es menor que el valor critico no se rechaza
la hiptesis nula.

La situacin grafica es:

27
5.3 Prueba de bondad de ajuste

La prueba de bondad de ajuste, permite afirmar con un cierto nivel de confianza, si


las distribuciones de los universos de orgenes de muestras en estudio, se ajustan
a alguna distribucin de inters tal como la normal, binomial, t, etc., a fin de utilizar
las propiedades de estas distribuciones.

Las hiptesis a plantear son:

H0: La muestra proviene de un universo con distribucin de probabilidad


conocida

H1: La muestra proviene de un universo que no tiene la distribucin de


probabilidad conocida

Ejemplo13:
Segn una de las leyes de Mendel, el cruzamiento entre pollos normales y rizados
extremo, debe producir en la segunda generacin (F2) pollos rizados extremo,
rizado suave y normal en la proporcin 1: 2: 1.
Si en un cruce, se obtuvo en la segunda generacin 23 rizado extremo, 50 rizado
suave y 20 normal, se podra decir que esta distribucin es la dada por Mendel?

Solucin:
Las hiptesis son:

H0: La muestra proviene de un universo, donde las probabilidades de ocurrencia


de los diversos fenotipos estn en la proporcin 1: 2: 1

H1: La muestra proviene de un universo, donde las probabilidades de ocurrencia


de los diversos fenotipos, no estn en la proporcin 1: 2: 1

El nivel de significancia es = 0,01

28
La estadstica de prueba es:

f c (O E ) 2
2Obs =
ij ij

i =1 j =1 Eij

Con v = K 1 grados de libertad y donde K es el nmero de clases, por lo tanto


V = 3 1 = 2

Fenotipo Frecuencias
O E
Rizado extremo 23 93/4 = 23,25
Rizado suave 50 93/2 =46,50
Normal 20 93/4 = 23,25
Total 93

(23 23, 25) 2 ( 50 46,50 ) ( 20 23, 25 )


2 2

Crit . =
2
+ + = 0, 6449
23, 25 46,50 23, 25

.99,2
2
= 9,21

Como obs < crit se concluye que no se rechaza la hiptesis nula, es decir,
2 2

no hay evidencia para suponer, que la distribucin de los fenotipos sea diferente
de 1: 2: 1

29
6.0 Inferencia y dcimas concerniente a una recta de regresin

Supongamos que los datos siguientes corresponden a las horas de estudio y la


nota obtenida por un grupo de estudiantes:

Tabla 6.1
Estudiante Horas Notas
Estudio
X Y
1 5 3
2 6 3
3 6 4
4 7 5
5 8 4
6 9 6
7 10 6
8 10 5
= 61 = 36

Y que la recta de ajuste de estos datos es Y = 0.522 + 0.522 X.

Antes de utilizar la recta de regresin se debe determinar si existe una buena


relacin entre las variables o, pudiera ser que la relacin que se observa en la
muestra haya ocurrido por azar.

Si no existe relacin en la poblacin, la pendiente de la lnea de regresin


poblacional ser cero. Por ello la hiptesis que generalmente se prueba es:

H0 : 1 = 0, "y" no depende linealmente de "x"

H1 : 1 0, "y" depende linealmente de "x"

La recta de regresin poblacional se denotar por

y = 0 + 1 x
La estadstica de prueba se define como:

30
b1 ( 1 )0
tObs = .
Sb1

Donde

Sy/ x
Sb1 =
X 2
n ( x ) 2 .

Llamado error de la pendiente muestral

Como H0 : 1 = 0 , entonces, la estadstica de prueba queda definida como

b1
tObs =
Sb1

Luego el intervalo de confianza para la pendiente de la poblacin ( 1 ) es

b1 t (1 / 2 ),v S b1

Donde v = n-2 grados de libertad

31
Ejemplo 14:
Usemos la recta de regresin correspondiente a la tabla 6.1. De esta informacin
se tiene lo siguiente:

y = 36

xy = 288

x 2
= 491

y 2
= 172

Y = 0.522 + 0.522 X; S y/x = 0.7020

Existe relacin entre las variables en la poblacin?, utilicemos = 0,05

Solucin

H 0 : 1 = 0

H1 : 1 0

Como Y = 0.522 + 0.522 X, luego b1= 0.522 y Sy / x = 0,7020

Entonces, el error de la pendiente es:

Sy/ x 0.7020
Sb1 = = = 0,1380
X 2
n( x ) 2
491 8(7.625) 2

Como = 0,05 entonces

t Crit = t.975,6 = 2,45

32
Luego:

b1 0.522
tObs = = = 3.7826
Sb1 0.1380

Por lo tanto, como tobs > t crit se rechaza la hiptesis nula y se concluye que
existe una relacin significativa entre las horas de estudio y las notas

Ejemplo 15:
Respecto al ejemplo 14, probar que la pendiente de la poblacin es negativa.
Usando = 0,05

Solucin:
Las hiptesis son:

H 0 : 1 0

H1 : 1 > 0

Como t crit = t0.975,6 = +2,45

b1 0.522
tObs = = = 3.7826
Sb1 0.1380

Por lo tanto, como t Obs > t Crit se rechaza la hiptesis nula, es decir, la
pendiente de la lnea de regresin poblacional es positiva y existe una relacin
directa entre las horas de estudio y las notas

Ejemplo 16:
Del ejemplo 14 determinar un intervalo de confianza del 95% para 1

Solucin:

Como b1 = 0.522 y v = 8 2 = 6

33
El intervalo de confianza pedido esta dado por:

b1 t0.975,6 Sb1 Con t.975,6 = 2,45

Reemplazando los valores correspondientes se tiene:

0.522 (2, 45)(0.1380)

Por lo tanto, se tiene un 95% de confianza de que la pendiente de la lnea de


regresin esta entre 0.8601 y 0.1839

6.1 Intervalos de confianza para la media condicional

La estimacin por puntos de la media condicional de la variable dependiente es:

= b0 + b1 x
Con base en los datos muestrales, el error estndar de la media condicional vara
de acuerdo con el valor designado x:

S yx = S y / x
1
+
(x x )2

n ( x )2
x 2 n

Por lo tanto, el intervalo de confianza para la media condicional con n 2 grados


de libertad es:

34
y t (n 2 ) S yx
Ejemplo 17:
Utilizar lo datos del ejemplo 14 para construir un intervalo de confianza del 95% si
X = 8.5 horas

Solucin:

Como = b0 + b1 x

Entonces, se tiene:

y = 0,522 + 0,522 8,5 = 4,9590

De los datos anteriores se tiene que:

x 2
= 491

( x)
2
= (61) 2 = 3721

n=8

S y / x = 0.7020

Por lo tanto, se tiene que el error estndar de la media condicional es:

35
1 (8.5 7.625) 2
S yx = 0.7020 + = 0.2760
8 3721
491
8

Como el intervalo para estimar la media condicional esta dado por:

y t (n2 ) S yx

Luego sustituyendo se tiene que el intervalo de confianza pedido est dado por:

4.9590 (2, 45)(0.2760)

Por lo tanto, se estima que la nota promedio para 8.5 horas de estudio esta entre
5.6352 y 4.2828 con una confianza del 95%

6.2 Intervalos de prediccin para valores individuales de la variable


dependiente

En un intervalo de prediccin se estima un valor individual es, por lo tanto, un


intervalo de probabilidad.

El error estndar completo para un intervalo de prediccin se denomina error


estndar del pronstico.

Si denotamos a Sy (siguiente) como el error estndar del pronstico y definindolo


como:

S Y ( siguiente ) = S 2 Y . X + S 2 Y . X

Tambin se puede calcular usando el mtodo abreviado como:

36
SY ( siguiente ) = SY / X
1
1+ +
(x x ) 2

n ( x)

2

X 2

Por lo tanto, el intervalo de prediccin para un valor individual de la variable


dependiente, con n 2 grados de libertad es:

Y tObs SY ( siguiente )

Ejemplo 18:
Utilizar los datos del ejemplo 14 y determinar el intervalo de prediccin del 95%
para 8.5 horas de estudio

Solucin

De los datos del ejemplo 14 y sustituyendo en:

SY ( siguiente ) = SY / X
1
1+ +
(x x ) 2

n ( x ) 2

X 2

n

Se tiene:

1 ( 8.5 7.625 )
2

Sy ( siguiente ) = 0.7020 1 + + = 0,7543


8 612
491
8

37
Dado que Y = 0.522 + 0.522 X y X = 8.5, entonces se tiene que:

Y = 0.522 + (0.522)(8.5) = 4.9590

De la pgina 32 se tiene que Sb1 = 0,1380 y sustituyendo en:

b1 0.522
tObs = = = 3.7826
Sb1 0,1380

Y como el intervalo de prediccin est dado por Y tObs SY ( siguiente )

Luego sustituyendo se tiene que:

4.9590 (3.7826) (0.7543)

Por lo tanto, el intervalo de confianza del 95% para la prediccin es 7.8122 y


2.1058

Al comparar este intervalo con el construido para la media condicional (5.6352 y


4.2828) se puede concluir que el intervalo de prediccin es ms amplio, puesto
que el intervalo de prediccin se refiere a un valor individual y no a una media.

7.0 Dcima sobre la correlacin por rangos de Spearmann


Tratndose de valores pequeos del tamao de la muestra, la distribucin rs no
es normal.

H0 : rs = 0 No hay correlacin en los datos ordenados por rangos de la poblacin

H1 : rs 0 Hay correlacin en los datos ordenados por rangos de la poblacin

38
Ejemplo 7:
En la tabla siguiente se consignan los datos aportados por una organizacin sobre
la calidad del aire (x) y la enfermedad pulmonar (y)

Ciudad Rango Rango y ( x y )2


x
A 4 5 1
B 7 4 9
C 9 7 4
D 1 3 4
E 2 1 1
F 10 11 1
G 3 2 1
H 5 10 25
I 6 8 4
J 8 6 4
K 11 9 4
( X Y ) 2 =58

Probar que no hay correlacin en los datos ordenados por rangos de todas las
ciudades del mundo? Utiliza = 0,05

Solucin:

H0 : rs = 0 No hay correlacin en los datos ordenados por rangos en


todas las ciudades del mundo

H1 : rs 0 Hay correlacin en los datos ordenados por rangos en todas


las ciudades del mundo

6 58
rs = 1 = 0, 73636
11(112 1)

De la tabla n 1 para n = 11 y = 0,05 se tiene que rs = 0,6091(valor crtico)

Por lo tanto, se rechaza la hiptesis nula, es decir, existe asociacin entre los
niveles de calidad del aire y la incidencia de la enfermedad pulmonar

39
Si el tamao de la muestra es mayor que 30, la distribucin de muestreo de rs es
aproximadamente normal con:

rs = 0

1
rs =
n 1

Ejemplo 8:
Un psiclogo intenta averiguar si las personas inteligentes tienden a elegir
cnyuges que tambin lo sean. Se selecciono aleatoriamente a 32 matrimonios y
efecto la prueba para comprobar si existe relacin significativa por rangos en el
coeficiente intelectual (CI) de esas parejas. Los datos son los siguientes usa
= 0,05

40
Matrimonio CI esposo: CI esposa: Rango x Rango y ( x y )2
x y
1 95 95 8 4,5 12,25
2 103 98 20 8,5 132.25
3 111 110 26 23 9.00
4 92 88 4 2 4.0
5 150 106 32 18 196
6 107 109 24 21.5 6.25
7 90 96 3 6 9.0
8 108 131 25 32 49.0
9 100 112 17.5 25.5 64
10 93 95 5.5 4.5 1.0
11 119 112 29 25.5 12.25
12 115 117 28 30 4.0
13 87 94 1 3 4.0
14 105 109 21 21.5 .25
15 135 114 31 27 16.0
16 89 83 2 1 1.0
17 99 105 14.5 16.5 4.0
18 106 115 22.5 28 30.25
19 126 116 30 29 1.0
20 100 107 17.5 19 2.25
21 93 111 5.5 24 342.5
22 100 105 17.5 16.5 1.0
23 100 105 17.5 16.5 1.0
24 96 103 10 15 25.0
25 99 101 14.5 13 2.25
26 112 123 27 31 16.0
27 106 108 22.5 20 6.25
28 98 97 12.5 7 30.25
29 96 100 10 11.5 2.25
30 98 99 12.5 10 6.25
31 100 100 17.5 11.5 36
32 96 102 10 14 16.0
Total 1043.75

Luego, se tiene que:

6 1043, 75
rs ( obs ) = 1 = 0,8087
32(32 2 1)

41
Como:
1
Z crit . = Zc
n 1

Entonces el valor crtico es:

1
Z Crit . = 2,33 = 0, 41848
(32 1)

Por lo tanto, como el rs observado es mayor que el valor crtico se rechaza la


hiptesis nula, es decir, las personas inteligentes tienden a escoger cnyuges
tambin inteligentes

8.0 Contrastes de normalidad: Asimetra, Curtosis y Jarque-Bera

8.1 Contraste de normalidad: Asimetra


Estos contrastes se basan en los coeficientes de asimetra y curtosis muestrales.
Si la hiptesis de normalidad es cierta, el estadstico del contraste, el coeficiente
m3
de asimetra muestral 1 = 3 , tiene una distribucin asintticamente normal
2
m2
6
de media cero y varianza , siendo m2 y m3 los momentos muestrales
n
centrados en la media de rdenes 2 y 3 respectivamente. Tenemos:

m3 6
1 = 3
N 0,
2 n
m2

Este estadstico
1 permite contrastar la hiptesis de que los datos
provienen de una distribucin con simetra normal (asimetra = 0) y se basa
en que si la hiptesis de normalidad es cierta, el coeficiente de asimetra
estima un parmetro de la poblacin que es cero (el coeficiente de asimetra
de una distribucin normal es cero).

42
Para realizar el contraste se halla el valor de k tal que P (1 k ) = , siendo
el nivel de significacin establecido en el contraste.

Si el valor de 1 para los datos de la muestra es mayor que k se rechaza la


hiptesis nula de asimetra, y por supuesto la de normalidad.

8.2 Contraste de normalidad: Curtosis


De la misma forma que la simetra, si la hiptesis de normalidad es cierta, el
m4
estadstico del contraste, el coeficiente de curtosis muestral 2 =
m2 2 3 ,
tiene una distribucin asintticamente normal de media cero y varianza
24
, siendo m2 y m4 los momentos muestrales centrados en la media de
n
rdenes 2 y 4 respectivamente.

m4 24
2 = 3 N 0,
m2 2 n

Este estadstico 2 permite contrastar la hiptesis de que los datos


provienen de una distribucin con curtosis normal (curtosis = 0) y se basa
en la hiptesis de normalidad es cierta.

Para realizar el contraste se halla el valor de k tal que P ( 2 k ) = siendo


el nivel de significacin establecido para el contraste.

Si el valor del estadstico 2 para los datos de la muestra es mayor que k se


rechaza la hiptesis nula de curtosis cero, y por supuesto la de normalidad.

43
8.3 Contraste de Jarque-Bera
Para muestras grandes, el contraste de Jarque - Bera usa los dos
estadsticos anteriores mediante la consideracin del estadstico de
Bowman Shelton siguiente:

12 2 2
B = n + 2
2

6 24

Es posible utilizar para estos contrastes el criterio del p-valor, rechazando la


hiptesis nula de normalidad de los datos al nivel de cuando el p-valor es menor
que en algunos de ellos, y aceptndola cuando el p-valor es mayor que en
los dos.

Como criterio ms suave sobre la normalidad, suele considerarse normal la


poblacin cuya muestra presenta coeficientes de asimetra y curtosis
comprendidos entre -2 y 2

Ejemplo 6.1.
Se controlan los beneficios de una inversin durante 278 das escogidos al azar
observndose un coeficiente de asimetra de 0,04033 y una curtosis de 0,15553
en la muestra. Podramos deducir de estos datos la normalidad de la poblacin al
95% (beneficios de la inversin normales) = 0,05

Solucin:

Inicialmente, tanto el coeficiente de asimetra como el de curtosis presentan


valores comprendidos entre -2 y 2, lo que es un indicio fuerte de la presencia de
normalidad.

No obstante ser necesario utilizar algn contraste formal de normalidad que lo


asegure a un determinado nivel de significacin.

i) Sabemos que si la hiptesis de normalidad es cierta, el coeficiente de


asimetra muestral es:

m3 6 6 1
1 = 3
N 0, = N 0, = N ( 0; 0,15 ) Z Obs = N ( 0,1)
2 n 278 0,15
m2

44
Este estadstico 1 (o Z) permite contrastar la hiptesis de que los datos
provienen de una distribucin con simetra normal (asimetra = 0) y se basa en
que si la hiptesis de normalidad es cierta, el coeficiente de asimetra estima un
parmetro de la poblacin que es cero.

Para realizar el contraste se halla el valor de k tal que

P ( Z k ) = 0, 05 k = 1,96

Como el valor de = 0,04033, y como

1 0, 04033
Z Obs = = = 0, 2689
0,15 0,15

Por lo tanto, se tiene que Z Obs < k , es decir, cae fuera de la regin crtica, o sea,
no se puede rechazar la hiptesis nula de simetra, y por su puesto de la
normalidad.

ii) Si la hiptesis de normalidad es cierta, el coeficiente de curtosis muestral

m4
2 =
m22 3
Tiene distribucin asintticamente normal de media cero y varianza

24 m
2 = 2 4
n m 2 3

Siendo m2 y m4 lo momentos muestrales centrados en la media de rdenes 2 y 4


respectivamente

45
m4 24 24 2
2 = 2
3 N
0,
= N
0, = N ( 0; 0.29 ) Z Obs = N ( 0,1)
m2 n 278 0, 29

Este estadstico 1 ( o Z ) permite contrastar la hiptesis de que los datos


provienen de una distribucin con curtosis normal (curtosis = 0) y se basa en que
si la hiptesis de normalidad es cierta, el coeficiente de curtosis estima el
parmetro de la poblacin que es cero.

Para realizar el contraste se halla el valor de k tal que

P ( Z k ) = 0, 05 k = 1,96

Y dado que el valor de 2 = 0,15553 y como el valor del estadstico es:

2 0,15553
Z Obs = = = 0,5363
0, 29 0, 29

Este valor resulta menor que k, entonces se acepta la hiptesis nula de curtosis
poblacional cero, y por supuesto la de normalidad.

iii) Si utilizamos el contraste de Jarque Bera basado en el estadstico de


Bowman- Shelton, se tiene que:

12 22 0, 040332 0,155532
B = n + = 278 + = 0,36 22
6 24 6 24

Para realizar el contraste se halla el valor de k tal que

P ( 22 k ) = 0, 05 k ( .05,
2
2 ) = 5,99

Como el valor del estadstico B para los datos dados de la muestra es 0,36 el que
resulta menor que el valor de k, no se rechaza la hiptesis nula de la normalidad

46
Apndice: Tablas
Correlacin de Spearmann

47
48

Potrebbero piacerti anche