Sei sulla pagina 1di 19

Captulo 8

Comparacin de poblaciones

1. Introduccin 2. Comparacin de dos medias usando muestras independientes 3. Comparacin de dos medias usando datos emparejados 4. Comparacin de dos proporciones 5. Comparacin de dos varianzas en poblaciones normales

0 Apuntes

realizados por Ismael Snchez. Universidad Carlos III de Madrid.

Comparacin de poblaciones

8.1.

Introduccin

En este tema estamos interesados en comparar dos poblaciones a partir de la informacin de dos muestras, una de cada poblacin. Por ejemplo, podramos estar interesados en comparar dos algoritmos de computacin alternativos, para ver cul es ms rpido. Ejecutaramos entonces el Algoritmo I n1 veces y el Algoritmo II n2 veces, y a partir de la informacin de ambas muestras inferir si uno de los dos algoritmos ser, por trmino medio, ms rpido en ejecuciones futuras. Otro ejemplo sera la comparacin de la resistencia a la rotura de dos aleacciones diferentes. Haramos entonces un ensayo con n1 piezas con la Aleaccin I y n2 piezas de la Aleaccin 2, y a partir de la comparacin de ambas muestras podramos inferir si hay diferencias signicativas que nos hagan decantarnos por una de las dos aleacciones. En otros problemas, lo que querremos comparar no sern slo las medias, como en los dos ejemplos anteriores, sino tambin las varianzas. Un ejemplo tpico en el que interesa comparar varianzas es la comparacin de instrumentos de medida. Ser preferible aqul instrumento de medida con menos variabilidad. Al igual que se deca para el caso de una sola poblacin, el objetivo nal no es sacar conclusiones sobre los datos concretos obtenidos en las muestras, sino en los datos que se generen en el futuro. No nos interesa saber si la muestra 1 tiene valores ms o menos diferentes a la muestra 2, sino si las poblaciones de las que proceden son diferentes. En ese caso, esperaremos que las diferencias se produzcan tambin en posteriores muestras, y tomaremos decisiones en funcin de esas expectativas. Si las diferencias entre las muestras son pequeas, podran perfectamente explicarse por la variabilidad del muestreo. En general, si extraemos dos muestras de una misma poblacin, las muestras no sern idnticas: tendrn diferente media muestral, varianza muestral, etc. Por tanto, el que dos muestras sean diferentes no signica necesariamente que procedan de poblaciones diferentes. Cuando la diferencia entre dos muestras es pequea, de forma que sea del mismo orden de magnitud que la que se observa en muestras de una misma poblacin, diremos que la diferencia encontrada no es signicativa. Por el contrario, cuando la diferencia entre dos muestras sea mayor que la que se suele encontrar en muestras de una misma poblacin, diremos que la diferencia encontrada es signicativa. En ese caso, concluiremos que las poblaciones sern, con mucha probabilidad, diferentes. Cmo establecemos que la diferencia entre las muestras es o no es sucientemente grande para considerarla signicativa? Lo haremos mediante pruebas estadsticas similares a las presentadas en temas anteriores. En general, el problema que nos planteamos en este tema es la comparacin de dos poblaciones X1 y X2 independientes. La primera poblacin tiene media 1 y varianza 2 1 mientras que la segunda poblacin tiene media 2 y varianza 2 . La inferencia sobre ambas poblaciones la realizaremos a 2 partir de sendas muestras. La primera muestra ser de la poblacin X1 de tamao n1 y elementos X11 , ..., X1n1 , y la segunda muestra ser de la poblacin X2 y de elementos X21 , ..., X2n2 . Supondremos que las muestras son lo sucientemente grandes (ms de 30 elementos en cada muestra) como para poder utilizar el teorema central del lmite al hacer comparaciones basadas en medias muestrales. De esta forma, podremos asumir que las medias muestrales se distribuyen segn cierta normal aunque las poblaciones no sean normales. Si las muestras no son grandes, supondremos (suposicin que habr que comprobar) que las variables aleatorias X1 y X2 son normales, y utilizaremos estadsticos de contraste basados en dicha normalidad.

8.2 Comparacin de dos medias usando muestras independientes

8.2.
8.2.1.

Comparacin de dos medias usando muestras independientes


Introduccin

Queremos hacer inferencia sobre la diferencia de dos medias poblacionales 1 2 de dos poblaciones X1 y X2 a partir de la informacin de dos muestras. De la poblacin X1 se estrae una muestra de tamao n1 , y de la poblacin X2 se extrae una muestra de tamao n2 . Al no compartir ningn elemento, ambas muestras sern independientes. Si las poblaciones X1 y X2 son normales, o en caso de no serlo tenemos muestras grandes, tendremos que las medias muestrales de cada poblacin tienen la siguiente distribucin en el muestreo 2 2 1 2 X1 N 1 , ; X2 N 2 , . (8.1) n1 n2 La inferencia sobre 1 2 , tanto los intervalos de conanza como los contrastes de hiptesis, se har tratando esta diferencia de parmetros como si fuese un nuevo parmetro = 1 2 , 1 X 2 . Veremos entonces que la mayora de los resultados se basarn en cuyo estimador es =X la aplicacin de propiedades que ya hemos visto en temas anteriores, y habr muy pocos elementos nuevos. Al estudiar las propiedades de las variables normales, vimos que la combinacin lineal de normales es siempre normal. Por tanto, de (8.1) tendremos que, al ser ambas muestras independientes, 2 2 1 X 2 N 1 2 , 1 + 2 . X (8.2) n1 n2 Estandarizando tenemos entonces que 2 (1 2 ) 1 X X s N (0, 1), Z= 2 2 1 2 + n1 n2 que ser el resultado bsico para hacer inferencia de la diferencia 1 2 .

(8.3)

8.2.2.

Intervalos para la diferencia de medias

De (8.3) se pueden deducir muchos resultados para realizar inferencia. Por ejemplo, usando los mismos argumentos que se utilizaron para construir intervalos de conanza para la media , tenemos que, de (8.3), 2 (1 2 ) 1 X X s P z/2 < < z/2 = 1 , 2 2 1 2 + n1 n2

y operando en el interior del parntesis, se tiene que s s 2 2 2 2 1 X 2 z/2 1 + 2 < 1 2 < X 1 X 2 + z/2 1 + 2 = 1 . P X n1 n2 n1 n2

Comparacin de poblaciones

Por tanto, un intervalo de conanza de 1 2 de nivel de conanza (1 ) ser s 2 2 1 IC (1 ) : 1 2 ( x x 2 ) z/2 + 2 . 1 n1 n2

(8.4)

La interpretacin de este intervalo es similar al caso de un solo parmetro. Es decir, Si tomsemos innitos pares de muestras (en cada par, tenemos una muestra de cada poblacin), y para cada par de muestras calculsemos el intervalo (8.4), el 100(1-) % de esos intervalos contendr a la diferencia 1 2 .

En la realidad tendremos slo un par de muestras, una por cada poblacin. Y por tanto tendremos un solo intervalo. No sabremos si ese intervalo contendr o no al valor de 1 2 . Diremos entonces que la conanza que tenemos en que dicho intervalo contenga el valor de la diferencia 1 2 es (1 ). 2 2 En el caso particular de que las varianzas de ambas poblaciones sean iguales ( 2 1 = 2 = ) tendremos 2 (1 2 ) 1 X X r N (0, 1). (8.5) Z= 1 1 + n1 n2 y entonces el intervalo de conanza ser r 1 1 x1 x 2 ) z/2 + . IC (1 ) : 1 2 ( n1 n2 (8.6)

Ejemplo 1 Se quiere comparar rodamientos de agujas de 45 mm de dimetro de dos fabricantes distintos: SKF e INA. Una caracterstica de la calidad de los rodamientos es su capacidad esttica de carga, que es la carga mxima que puede soportar sin que se produzca deformacin. Se toma una muestra de 80 rodamientos del SKF y 67 de INA. Sea X1 la capacidad esttica de carga de los rodamientos de SKF y X2 la capacidad esttica de carga de los rodamientos de INA. La media muestral de la capacidad esttica de carga de SKF es x 1 =1400 kN (kilonewtons), y la de INA es x 2 = 1380 kN. Las varianzas de X1 y de X2 son iguales y tiene un valor conocido 2 = 902 kN2 . Un intervalo de conanza del 95 % de la diferencia de medias poblacionales ser, tomando que z0,025 = 1,96, ( ) r 1 1 + IC (1 ) : 1 2 (1400 1380) 1,96 90 80 67 = {20 29,2} . Como el cero est dentro del intervalo, la diferencia entre ambos fabricantes no resulta signicatica (con = 0,05) a la luz de las muestras analizadas Ejemplo 2 Sea X1 la duracin de un lamento de wolframio en espiral simple, y X2 la duracin usando espiral doble. Se toma una muestra de tamao 200 de ambos tipos de lamentos tenindose unas duraciones medias de x 1 = 1100 horas, y x 2 = 1108 horas. Las varianzas de las duraciones

8.2 Comparacin de dos medias usando muestras independientes

2 2 2 de cada tipo de lamento son 2 1 = 20 y 2 = 23 . Un intervalo de conanza del 95 % para la diferencia entre ambos tipos de lamentos es ( ) r 232 202 IC (1 ) : 1 2 (1100 1108) 1,96 + 200 200

= {8 4,2} = (12,2; 3,8). En este ejemplo, la diferencia entre ambos tipos de lamentos s resulta signicativa. Vemos, sin embargo, que la diferencia es muy pequea. El extremo inferior del intervalo es -12.2 horas de diferencia entre ambos lamentos, y el superior indica una diferencia de menos de 4 horas. Esa diferencia es muy pequea si la comparamos con la vida de los lamentos, que es del orden del millar de horas. La diferencia es signicativa, en el sentido de que los datos muestran evidencia suciente para pensar que el lamento doble dura ms (en promedio) que el simple. Sin embargo, el intervalo de conanza nos revela que aunque haya una diferencia real entre ambos lamentos, es muy pequea y tal vez sea de poco inters prctico. Vemos en este segundo ejemplo, que no debemos confundir diferencias estadsticamente signicativas, con diferencias de inters prctico. Una diferencia es signicativa si los datos muestran suciente evidencia de que existen diferencias en las poblaciones, ya sean diferencias grandes o pequeas. Mientras que una diferencia ser de inters en la prctica si supera una determinada magnitud de acuerdo con las necesidades de los analistas. El ancho del intervalo de conanza muestra la incertidumbre que tenemos sobre las poblaciones a partir de la informacin de la muestra. Vemos en las frmulas (8.4) y (8.6) que el ancho de los intervalos depende del tamao de las muestras. A menores tamaos muestrales, ms anchos sern los intervalos, aumentando el riesgo de que puedan contener al valor 0. En esos casos, concluiramos que la diferencia no es signicativa. Por tanto, si una diferencia entre dos poblaciones es grande, ser tambin fcil que las detectemos en muestras de tamao pequeo o moderado (es decir, que encontremos diferencias signicativas en las muestras). Pero si la diferencia entre las poblaciones es muy pequea, ser difcil detectarla salvo que las muestras sean muy grandes. Los intervalos de conanza de diferencias de medias nos permiten encontrar diferencias signicativas y tambin tener una idea de su magnitud. Si las varianzas poblacionales son desconocidas, emplearemos un estimador de las varianzas. Veamos a continuacin en qu cambia la inferencia dependiendo de si las poblaciones tienen varianzas iguales o diferentes.
2 2 Caso 1: varianzas iguales 2 1 = 2 =

Si ambas poblaciones tienen varianzas que podemos suponer iguales pero no conocemos su valor, utilizaremos un estimador conjunto a partir de las varianzas estimadas en cada muestra. Esa igualdad de varianzas ser una hiptesis que tendremos que contrastar con los datos. Ms adelante dedicaremos una seccin a este tipo de contrastes de igualdad de varianzas. 2 2 1 2 Sea S la cuasivarianza obtenida con la muestra de tamao n1 de la poblacin 1, y S con la muestra de tamao n2 de la poblacin 2. Entonces, si suponemos que ambas poblaciones tienen la 2 mediante la expresin misma varianza, construiremos un estimador comn, que llamaremos S T
2 2 1 2 (n1 1)S + (n2 1)S 2 T S = . n1 + n2 2

(8.7)

Comparacin de poblaciones

2 en (8.5) tendremos un estadstico Puede demostrarse que si sustituimos 2 por el estimador S T T que para poblaciones normales se distribuir como una t de Student de n1 + n2 2 grados de libertad. Es decir 1 X 2 (1 2 ) X r T = tn1 +n2 2 (8.8) 1 1 T + S n1 n2 y el intervalo de conanza de la diferencia de medias, para poblaciones normales, quedar r 1 1 IC (1 ) : 1 2 ( x1 x 2 ) tn1 +n2 2;/2 s T + . n1 n2 (8.9)

Si tenemos muestras grandes, no es necesario que las poblaciones implicadas sean normales para poder construir intervalos de conanza basados en el estadstico T . Adems, en el caso de poblaciones normales tenemos tambin que para muestras grandes, la distribucin t de Student ser muy parecida a la N(0,1). Por esta razn, para muestras grandes y para cualquier tipo de poblaciones, podemos utilizar un intervalo de conanza basado en la N (0, 1). Este intervalo para muestras grandes ser r 1 1 IC (1 ) : 1 2 x 1 x 2 z/2 s T + . n1 n2 (8.10)

Ejemplo 3 Se quiere elegir entre dos tipos de material textil para construir sistemas de amarre. Para ello se mide la tensin de rotura de varias cintas de prueba utilizando dos tipos de material. Se toman 24 datos usando el material M1, obtenindose x 1 = 87 (kg/mm2 ) y s 1 = 2. Se toman adems 30 datos usando el material M2, obtenindose x 2 = 75 y s 2 = 2,3. Se sabe que las tensiones de rotura se distribuyen como una normal. Se supondr, adems, que las varianzas de ambas poblaciones son iguales. Si suponemos que las varianzas de ambas poblaciones son iguales, podemos obtener una estimacin conjunta de la varianza, que ser s 2 T = 23 22 + 29 2,12 = 4,2 s T = 2,06. 23 + 29

Si las poblaciones son normales, y puesto que las muestras no son muy grandes, se usar el intervalo (8.9), donde para un nivel de conanza del 95 % se tiene que tn1 +n2 2;/2 = t52;0,025 = 2,0 y el intervalo del 95 % para la diferencia entre las medias de las tensiones de rotura ser ( ) r 1 1 IC (0,95) : 1 2 87 75 2 2,06 + 24 30 = (12 1,13). Por tanto, los datos muestran evidencia a favor del material M1, siendo el intervalo de conanza del 95 % muy estrecho en torno a las 12 unidades de ventaja respecto al material M2.

8.2 Comparacin de dos medias usando muestras independientes

2 Caso 2: 2 1 6= 2

Si las poblaciones que se comparan a travs de dos muestras tienen varianzas diferentes, no podremos utilizar el estimador conjunto (8.7). En ese caso, ya no tenemos un resultado como (8.8). Existe un resultado anlogo, pero es aproximado. Este resultado dice que si las poblaciones son normales, entonces, aproximadamente 2 (1 2 ) 1 X X s tv T = 2 2 2 1 S S + n1 n2 !2 2 2 2 1 S S + n1 n2 ! ! v = 2 2 1 2 1 S S 1 + n1 1 n1 n2 1 n2 El valor que se obtenga de v no ser en general un nmero entero, por lo que usaremos el entero ms prximo. El intervalo de conanza para poblaciones normales ser s 2 2 s s 1 IC (1 ) : 1 2 ( (8.11) x x 2 ) tv;/2 + 2 1 n1 n2

En cualquier caso, si los tamaos muestrales n1 y n2 son grandes, siempre podremos utilizar el resultado asinttico 2 (1 2 ) 1 X X s N (0, 1), (8.12) T = 2 2 1 1 S S + n1 n2 que es vlido incluso si las poblaciones no son normales, con tal que los tamaos muestrales sean mayores de, digamos, 30 datos. El intervalo de conanza para muestras grandes y varianzas distintas ser s 2 2 s s 1 IC (1 ) : 1 2 ( (8.13) x x 2 ) z/2 + 2 . 1 n1 n2

Ejemplo 4 Vamos ahora a calcular los intervalos de conanza del problema anterior, sobre la eleccin entre dos tipos de material textil para construir sistemas de amarre, sin utilizar la suposicin de que las varianzas son iguales. Como los tamaos muestrales no son grandes, no podemos utilizar el intervalo (8.13). No obstante, como las poblaciones son normales podremos utilizar (8.11). El clculo de los grados de libertad de la distribucin t de Student es 2 22 2,32 + 24 30 v= 2 2 2 2 52. 1 2 2,3 1 + 24 1 24 30 1 30

Comparacin de poblaciones

Por tanto, el intervalo de conanza del 95 % ser, usando que t52;0,025 = 2,0, ( ) r 2,32 22 IC (1 ) : 1 2 87 75 2 + 24 30 = 12 1,17, que es slo ligeramente ms ancho que el calculado anteriormente. La siguiente tabla resume los intervalos de conanza para la diferencia de medias. Los resultados para muestras grandes son vlidos para cualquier distribucin. Los resultados para poblaciones normales son vlidos para cualquier tamao muestral.

Varianzas
2 2 1 = 2

2 2 1 6= 2

Intervalos de conanza, IC(1 ) Muestras grandes Poblaciones normales r r 1 1 1 1 1 2 x 1 x 2 z/2 + 1 2 x 1 x 2 z/2 + n1 n2 n1 n 2 r r 1 1 1 1 1 x 2 z/2 s T + 1 x 2 tn1 +n2 2;/2 s T + 1 2 x 1 2 x n1 n2 s n1 n2 s ( ( ) ) 2 2 2 2 1 1 1 2 x 1 x 2 z/2 + 2 1 2 x 1 x 2 z/2 + 2 n n2 n n2 s 1 s1 ( ( ) ) 2 2 2 s 2 s 2 s 1 s 1 1 2 x 1 2 x 1 x 2 z/2 + 1 x 2 tv;/2 + 2 n1 n2 n1 n2 2 2 2 = (n1 1)S1 + (n2 1)S2 S T n1 + n2 2
2 2 2 S1 S2 + n1 n2 2 2 2 1 S S1 + 1 n1 n2 1 n2

v=

1 n1

Estos intervalos de conanza se pueden utilizar para hacer el contraste H0 : 1 = 2 frente a H1 : 1 6= 2 pues como ya dijimos hay una equivalencia entre el resultado de un contraste de nivel de signicacin y un intervalo de nivel de conanza (1 ) . En la seccin siguiente veremos este tipo de contrastes explcitamente.

8.2.3.

Contrastes para la diferencia de medias

Estamos interesados en realizar contrastes sobre la diferencia de las medias poblacionales 1 2 . Los contrastes se basan en los mismos argumentos que en temas anteriores. Para ello basta con considerar a 1 2 como un nico parmetro. Podemos interpretar estos contrastes como si fuesen los contrastes de = 1 2 y contrastaremos si es =, , cierto valor numrico, digamos 0 . Podemos escribir los contrastes como 1. H0 : 1 2 = 0 frente a H1 : 1 2 6= 0 , 2. H0 : 1 2 0 frente a H1 : 1 2 < 0 3. H0 : 1 2 0 frente a H1 : 1 2 > 0

8.2 Comparacin de dos medias usando muestras independientes

Lo ms frecuente ser comparar si las medias son iguales o si una es mayor que la otra. En este tipo de comparaciones se tendr que 0 = 0, quedando mlos contrastes

1. H0 : 1 = 2 frente a H1 : 1 6= 2 , 2. H0 : 1 2 frente a H1 : 1 < 2 3. H0 : 1 2 frente a H1 : 1 > 2

Por simplicidad, nos concentraremos nicamente en este tipo de contrastes. Los contrastes se basan en las mismas propiedades desarrolladas en la seccin anterior, por lo que no las vamos a repetir aqu. Basndonos en las propiedades anteriores se ha construido la siguiente tabla, que resume los estadsticos de contraste a utilizar en cada caso as como las distribuciones de referencia y regiones de rechazo.

Varianzas

Contrastes (1)-H0 : 1 = 1 ; H1 : 1 6= 2 (2)-H0 : 1 2 ; H1 : 1 < 2 (3)-H0 : 1 2 ; H1 : 1 > 2 (1)-H0 : 1 = 1 ; H1 : 1 6= 2 (2)-H0 : 1 2 ; H1 : 1 < 2 (3)-H0 : 1 2 ; H1 : 1 > 2

2 2 1 = 2

2 2 1 6= 2

Estadsticos de contraste 1 X 2 X (a) Z0 = r 1 1 + n1 n2 2 1 X X r (b) T0 = 1 1 T + S n1 n2 2 1 X X (a) Z0 = s 2 2 1 + 2 n1 n2 X1 X2 (b) T0 = s 2 2 1 S S + 2 n1 n2

Distribucin de referencia Muestras grandes Z0 , T0 N (0, 1) Normalidad (a) Z0 N (0, 1) (b) T0 tn1 +n2 2

Regin de rechazo (1-a) |z0 | > z/2 (2-a) z0 < z (3-a) z0 > z (1-b) |t0 | > z/2 tn1 +n2 2;/2 (2-b) t0 < z tn1 +n2 2; (3-b) t0 > z tn1 +n2 2; (1-a) |z0 | > z/2 (2-a) z0 < z (3-a) z0 > z (1-b) |t0 | > tv;/2 z/2 (2-b) t0 < tv; -z (3-b) t0 > tv; z

Muestras grandes Z0 , T0 N (0, 1) Normalidad (a) Z0 N (0, 1) (b) T0 tv

Ejemplo 5 Se quiere comparar la precisin de dos calibres diferentes. Para ello se comparan las mediciones (en mm) realizadas en 100 clavos procedentes del mismo lote de fabricacin (chero longitudclavos.sf3). Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. Los clavos se han asignado a cada subgrupo al azar, por lo que hemos de suponer que las medidas de un mismo calibre son una muestra de una misma pobacin. Se desea saber si ambos calibres miden por trmino medio lo mismo. Aunque los clavos sean todos del mismo tipo sern todos distintos, siendo sus diferencias pequeas y debidas a pequeas desviaciones aleatorias del proceso de produccin.

10

Comparacin de poblaciones

La gura siguiente muestra los histogramas de ambas mediciones.

Puede verse en los histogramas que puede haber diferencias signicativas de un calibre al otro. Si ambos calibres fuesen idnticos esperaramos que ambas distribuciones fuesen muy parecidas. Ms concretamente, esperaramos que la media poblacional de las mediciones del primer calibre 1 fuese igual a la media poblacional del segundo calibre 2 . Nuestro contraste ser: H0 : 1 = 2 ; H1 : 1 6= 2 No supondremos que las varianzas son iguales, pues no tenemos ninguna razn a priori para hacer dicha suposicin. No debemos confundir la varianza de las longitudes de los clavos en cada muestra con la varianza de las mediciones, que es lo que realmente tenemos. Al ser las dos muestras de clavos de la misma poblacin de clavos, sus varianzas slo diferirn por el azar de la muestra. Sin embargo, al medirse cada muestra con un calibre diferente, la varianza de las mediciones nales puede ser diferente si los calibres no tienen la misma precisin. Por tanto, al considerarse varianzas diferentes, el estadstico de contraste ser 1 X 2 X T0 = s . 2 S 2 S 1 + 2 n1 n2 De los datos se obtiene que x 1 x 2 y por tanto 346,16 351,12 = 6,48. t0 = q 7,40 21,90 + 50 50 = 346,16; s 2 1 = 7,40 = 351,12; s 2 2 = 21,90

Para ver si dicho valor est en la zona de aceptacin o rechazo debemos especicar un nivel de signicacin y decidir qu distribucin de referencia es la ms apropiada. Usaremos un nivel de signicacin = 0,05. Como tenemos un nmero de datos sucientemente grande en cada grupo, usaremos como distribucin de referencia la N (0, 1). Los valores crticos son z0,025 = 1,96 por lo que t0 = 6,48 est en la regin de rechazo, al ser |t0 | > z0,025 . El p-valor otenido es (calculado con Statgraphics) 2,67 107 que es realmente pequeo. Por tanto debemos rechazar la hiptesis nula

8.2 Comparacin de dos medias usando muestras independientes

11

de igualdad de medias. Aunque la diferencia entre las medias de ambos calibres no es muy grande (351.12-346.16=4.96mm), la diferencia entre las medias de ambos calibres es muy signicativa. Hay una fuerte evidencia de que ambos calibres no miden, por trmino medio, lo mismo. Ejemplo 6 El chero reciennacidos.sf3 contiene los pesos (en gramos) de las nias (muestra 1) y nios (muestra 2) nacidos en el hospital San Pedro de Alcntara de Cceres en la semana santa del ao 2002. Supondremos a estos bebs como una muestra representativa de los bebs espaoles. Con estos datos queremos saber si el peso medio de los nios es el mismo que de las nias. A continuacin se muestran los histogramas con la normal estimada.

Estos datos sugieren que ambas poblaciones sern normales. Los p-valores de los respectivos contrastes de normalidad basados en el test de la chi-cuadrado son muy elevados, lo que indica que la hiptesis de normalidad es muy razonable. Las varianzas muestrales son tambin muy pare2 2 cidas, por lo que supondremos que las varianzas poblacionales tambin lo son ( 2 1 = 2 = ). Ms adelante veremos un procedimiento para contrastar esta suposicin. Por tanto el estadstico de contraste es T0 = 1 X 2 X r . 1 1 T + S n1 n2 2 2 1 2 (n1 1)S + (n2 1)S n1 + n2 2

2 T S

Los datos muestran que n1 n2 s 2 T s T t0 = 59; x 1 = 3163,9; s 2 1 = 194004. 2 = 58; x 2 = 3162.; s 2 = 185806. (59 1) 194004 + (58 1) 185806 = = 189940,6 59 + 58 2 = 435,82. 3163,9 3162 q = = 0,024 1 1 435,82 59 + 58

La distribucin de referencia, al existir normalidad en las poblaciones, es la t115 . El contraste es bilateral por lo que el valor crtico es, usando = 0,05, (Statgraphics) t115;0,025 = 1,98. Por lo tanto t0 est en la regin de aceptacin. El p-valor es 0.98 (Statgraphics), que es realmente alto. Puede

12

Comparacin de poblaciones

decirse entonces que no podemos rechazar la igualdad de medias en el peso de nios y nias al nacer. Los tamaos muestrales de cada grupo son sucientemente grandes, por lo que el contraste tambin se podra haber hecho usando la N(0,1) como distribucin de referencia, y se obtendran resultados similares (el valor crtico sera z0,025 = 1,96, que es muy similar a t115;0,025 = 1,98)

8.3.

Comparacin de dos medias usando datos emparejados

Los datos emparejados son pares de datos de los mismos elementos. Por ejemplo, datos de las mismas personas antes y despus de ser sometidas a algn tratamiento, o rendimiento de un motor con el combustible A o el B. Tendremos as una muestra de n elementos sobre los que se toman datos en dos circunstancias distintas. Un ejemplo de datos apareados se puede ver en el chero calibretornillos.sf3, que contiene las mediciones de la longitud de 95 tornillos del mismo tipo. Cada tornillo se ha medido dos veces, una vez con un calibre digital (muy preciso) y una segunda vez con un calibre analgico (menos preciso). Los 95 pares de puntos son por tanto de los mismos tornillos. A este tipo de datos que son dependientes por pares se les llama datos emparejados, pareados, o apareados. El objetivo es comprobar con la muestra si ambas mediciones son signicativamente diferentes. El anlisis de datos emparejados es muy sencillo y consiste en construir una nueva variable que sea la diferencia entre las dos variables emparejadas. Es decir, construimos Y = Xa Xd donde Xa es la medicin con el calibre analgico y Xd es la medicin con el calibre digital. Sea y = E (Y ) = E (Xa Xd ) = E (Xa ) E (Xd ) = a d la media poblacional de la diferencia de las mediciones analgica (a ) y digital (d ). La hiptesis que queremos contrastar es H0 H1 : y = 0 : y = 6 0.

Por lo tanto estamos ante un contraste para una media poblacional como los vistos en temas anteriores. El estadstico de contraste ser y 0 T0 = , y /n S y es su covarianza. La gura siguiente muestra los donde y es la media muestral de Y y S histogramas de las 95 mediciones de cada calibre, as como el histograma de las 95 diferencias de ambas mediciones.

8.4 Comparacin de dos proporciones

13

El test de normalidad de la Chi-cuadrado realizado sobre la diferencia tiene un p-valor mayor que 5 % para los datos del calibre digital, pero rechaza la normalidad para el calibre analgico y para la diferencia entre ambos. Por tanto, a la hora de analizar esta diferencia no asumiremos normalidad. El tamao muestral es, no obstante, sucientemente grande para poder utilizar la N (0, 1) como distribucin de referencia para el estadstico de contraste. Con los datos se obtiene y = 0,00256; s 2 y = 0,00364 y 0 0,00256 0 = 6,8549 = t0 = s y / n 0,00364/ 95 z0,025 = 1,96 Como |t0 | =6.8549>1.96 se rechaza H0 y ambos calibres no parecen medir lo mismo. Al menos uno no est calibrado (tal vez el analgico)

8.4.
8.4.1.

Comparacin de dos proporciones


Intervalo de la diferencia de proporciones

La inferencia sobre la diferencia de dos proporciones poblacionales p1 p2 se basa en la propiedad de que, si tenemos dos muestras sucientemente grandes n1 y n2 , en las que hemos contabilizado la proporcin muestral de presencia de cierto atributo p 1 y p 2 , respectivamente, se tiene que p1 q1 p2 q2 p 1 N p1 , ;p 2 N p2 , , n1 n2 y por lo tanto 2 N p 1 p Y estandarizando p1 q1 p2 q2 p1 p2 , + . n1 n2 (8.14)

De esta forma, un intervalo de conanza para la diferencia de medias p1 p2 ser ( ) r p 1 q 1 p 2 2 q IC (1 ) : p1 p2 p 1 p 2 z/2 + . n1 n2

) (p1 p2 ) ( p1 p q 2 N (0, 1) p1 q1 p2 q2 + n1 n2

(8.15)

8.4.2.

Contrastes

Los contrastes en los que esamos interesados son: 1. H0 : p1 = p2 ; frente a H1 : p1 6= p2 2. H0 : p1 p2 ; frente a H1 : p1 < p2 3. H0 : p1 p2 ; frente a H1 : p1 > p2

14

Comparacin de poblaciones

Los contastes tendrn el mismo esquema que los contrastes de diferencia de medias. El estadstico de contraste se construye usando la propiedad (8.15). El estadstico de contraste se construye utilizando la expresin (8.15) anterior, pero suponiendo p1 = p2 = p0 . Como p0 es un valor desconocido, tendremos que usar una estimacin utilizando la informacin de ambas muestras. Tendremos entonces el siguiente estadstico de contraste Z0 = s donde p 0 = ( p1 p 2 ) 1 1 p 0 q 0 + n1 n2

n1 p 1 + n2 p 2 ;q 0 = 1 p 0 . n1 + n2

La distribucin de referencia es siempre la N (0, 1). La siguiente tabla resume este contraste Contrastes (1)-H0 : p1 = p2 ; H1 : p1 6= p2 (2)-H0 : p1 p2 ; H1 : p1 < p2 (3)-H0 : p1 p2 ;H1 : p1 > p2 Estadsticos de contraste ( p1 p 2 ) Z0 = s 1 1 p 0 q 0 + n1 n2 n1 p 1 + n2 p 2 con p 0 = n1 + n2 Distribucin de referencia Regin de rechazo (1) |z0 | > z/2 (2) z0 < z (3) z0 > z

N (0, 1)

Ejemplo 7 Se desea saber si el porcentaje de alumnos que aprueban todas las asignaturas de primer curso en primera convocatoria, en la carrera de Ingeniera Industrial, es el mismo en la Carlos III y en la Universidad Politcnica de Madrid. Para ello se analiza una muestra de 100 expedientes, elegidos al azar, de cada universidad. De los 100 expedientes seleccionados de la Carlos III, el nmero de alumnos que aprobaron todas las asignaturas de primero en primera convocatoria fue de 22 mientras que en la Politcnica fue de 18. Se puede concluir que la probabilidad de aprobar es diferente en ambas universidades? (utiliza un nivel de signicacin de = 0,05) (sep 01) Sea p1 =porcentaje de alumnos aprobados en la Universidad Politcnica, y p2 el porcentaje en la Carlos III. Sea adems, p 1 el porcentaje de alumnos aprobados en la Politcnica en una muestra de tamao n1 , y p 2 y n2 enm la Carlos III, entonces: r Por tanto el contraste H0 : p1 = p2 H1 : p1 6= p2 utilizar el estadstico de contraste z0 = s 2 ) ( p1 p 1 1 p 0 q 0 + n1 n2 2 ) (p1 p2 ) ( p1 p N (0, 1) 2 (1 p p 1 (1 p 1 ) p 2 ) + n1 n2

8.5 Comparacin de dos varianzas en poblaciones normales

15

y se rechazar H0 si z > z/2 o z < z/2 . Con los datos del enunciado se tiene que p 0 z0 = = 18 + 22 = 0,20 200 (0,18 0,22) s = 0,71 1 1 0,20 0,80 + 100 100

Como z0,025 = 1,96 se tiene que |z0 | < 1,96 y por tanto la diferencia observada entre ambas universidades no es signicativa.

8.5.
8.5.1.

Comparacin de dos varianzas en poblaciones normales


Introduccin

En esta seccin estamos interesados en comparar las varianzas de dos poblaciones normales a travs de las varianzas estimadas con sus muestras. Esta comparacin slo se realizar para poblaciones normales, por lo que es importante conrmar este aspecto en los datos. Los resultados que se van a exponer son muy sensibles a esta hiptesis de normalidad, de forma que slo podremos estar seguros de su aplicacin si estamos muy seguros de que los datos proceden de poblaciones normales. Esta sesibilidad a pequeas desviaciones de la normalidad resta inters a este tipo de anlisis de comparacin de varianzas. En muchos casos, el inters en realizar la comparacin de varianzas es para poder realizar un contraste o intervalo de conanza para la igualdad de medias basado en un estimador comn de la varianza, a travs de la frmula (8.7). La inferencia sobre diferencia de medias slo precisa la normalidad si tenemos muestras pequeas, y as aplicar la distribucin t de Student, a travs de la propiedad expresada en la frmula (8.8). Sin embargo, la propiedad (8.8) an es vlida aunque los datos se deven un poco de la normalidad. An ms, la utilizacin del estimador conjunto ( (8.7) sigue dando resultados satisfactorios incluso con pequeas diferencias 2 en las varianzas poblacionales 2 1 y 2 . Por esta razn, muchos autores recomiendan la decisin de aplicar (8.7) en la inferencia sobre la diferencia de medias mediante la comparacin directa de las estimaciones s 1 y s 2 . Es muy popular la utilizacin de la siguiente regla emprica: Si la mayor desviacin tpica estimada no es ms del doble que la menor, los procedimientos de comparacin de medias basados en (8.7) siguen siendo aproximadamente vlidos. Una vez realizadas estas consideraciones, pasemos a ver cmo es la inferencia de comparacin de varianzas en poblaciones normales. Sea una poblacin X1 N 1 , 2 n1 y se calcula 1 de la que se extrae una muestra de tamao 2 1 la varianza muestral corregida S . Y sea una segunda poblacin X2 N 2 , 2 2 de la que se 2 2 extrae una muestra de tamao n2 y se calcula la varianza muestral corregida S . La comparacin 2 2 2 2 de las varianzas 1 y 2 a partir de los estimadores S1 y S2 se realiza a partir del siguiente ratio: F =
2 1 S /2 1 . 2 S /2 2 2

(8.16)

16

Comparacin de poblaciones

2 y S 2 . Este ratio F es una variable aleatoria, al ser la divisin de dos variables aleatorias S 1 2 2 2 El carcter aleatorio de F viene por tanto de los diferentes valores que podran tomar S1 y S2 si tomsemos muestras diferentes de cada poblacin. En poblaciones normales, la variable aleatoria F es conocida y se denomina distribucin F de Fisher, o tambin distribucin F de Snedecor, o simplemente distribucin F. Es una distribucin que est tabulada y puede encontrarse en la mayora de los textos de estadstica y en los programas de ordenador como el Statgraphics. La distribucin F de Fisher depende de dos parmetros g1 y g2 denominados grados de libertad. El valor de g1 est relacionado con el numerador de (8.16) y toma el valor g1 = n1 1. Por esta razn, a g1 tambin se le denomina grados de libertad del numerador. El valor de g2 est relacionado con el denominador de (8.16) y toma el valor g2 = n2 1. Por esta razn, a g2 tambin se le denomina grados de libertad del denominador. La notacin de esta distribucin F es Fg1,g2 . 2 Por tanto, si X1 N 1 , 2 1 y X2 N 2 , 2 , entonces F =
2 1 / 2 S 1 Fn1 1,n2 1 . 2 / 2 S 2 2

(8.17)

La distribucin Fg1,g2 es una variable aleatoria continua no negativa, denida en [0, ), y su forma vara dependiendo de los valores g1 y g2 . En general, es una distribucin unimodal y asimtrica positiva, disminuyendo la asimetra al aumentar los valores de g1 y g2 . La siguiente gura muestra dos ejemplos de esta distribucin: la F5,10 y la F20,20 .

8.5.2.

Intervalo de conanza del ratio de varianzas

2 A partir de (8.17) se puede deducir un intervalo de conanza para el ratio de varianzas 2 1 / 2 . De (8.17) se puede escribir que

Fn1 1,n2 1;1/2

2 / 2 S 1 < 1 < Fn1 1,n2 1;/2 2 / 2 S


2 2

= 1 ,

(8.18)

8.5 Comparacin de dos varianzas en poblaciones normales

17

donde Fn1 1,n2 1;1/2 y Fn1 1,n2 1 son los valores de la distribucin Fn1 1,n2 1 que dejan a izquierda y derecha, respectivamente, un rea /2, como ilustra la siguiente gura

Se puede demostrar que Fn1 1,n2 1;1/2 = 1 , Fn2 1,n1 1;/2

que es una relacin til cuando queremos buscar dichos valores en tablas, y la tabla slo muestra valores situados en la cola de la derecha. Operando en el interior de (8.18) se obtiene ! 2 2 1 1 2 S S 1 P F < < 2 Fn1 1,n2 1;/2 = 1 . 2 n1 1,n2 1;1/2 2 S S 2 2 2 Por tanto, a partir de la informacin de una muestra, el intervalo de conanza de nivel (1 ) del 2 ratio de varianzas 2 1 / 2 es ( ) 2 2 S S 2 1 F ; 1 F . (8.19) IC (1 ) : 1 2 n1 1,n2 1;1/2 S 2 n1 1,n2 1;/2 2 S 2
2 2

Ejemplo 8 Siguiendo con el Ejemplo 5, en el que se comparaban las mediciones de dos calibres sobre dos muestras independientes de 50 clavos cada una. Si hacemos el test de la chi-cuadrado en ambos grupos de datos, observamos que el p-valor es superior al 5 % en ambas muestras, por lo que asumiremos la hiptesis de normalidad es las poblaciones. Con 50 datos en cada muestra, la distribucin F de Fisher ser F49,49 . Para hacer un intervalo de conanza del 95 % tendremos que F49,49;0,975 = 0,57 y F49,49;0,025 = 1,76. El intervalo de conanza es 2 IC (0,95) : 1 2 2 7,4 7,4 0,57; 1,76 = {0,193; 0,595} . 21,9 21,9

18

Comparacin de poblaciones

Por tanto, la diferencia entre la variabilidad de las mediciones de ambos calibres es muy signicativa. El intervalo est muy alejado del valor 1, que sera el caso de igualdad de varianzas. Los datos muestran as una gran evidencia a favor de la precisin del calibre 1, que con un 95 % de conanza tiene una variabilidad de entre un 20 % a un 60 % de la del calibre 2 (que es el analgico, de peor calidad que el digital)

8.5.3.

Contrastes

Nuestras hiptesis son:


2 2 2 1. H0 : 2 1 = 2 ; frente a H1 : 1 6= 2 2 2 2 2. H0 : 2 1 2 ; frente a H1 : 1 < 2 2 2 2 3. H0 : 2 1 2 ; frente a H1 : 1 > 2

El contraste se basa en la propiedad (8.17) expuesta anteriormente. De esta propiedad se deduce el estadstico de contraste, que ser 2 S , F0 = 1 2 S
2

y denotaremos por f0 al valor del estadstico F0 obtenido en la muestra. Al igual que suceda con otros contrastes, es fcil comprobar que la regin de rechazo est situada en la zona de la distribucin de referencia que seala H1 . La siguiente tabla muestra los detalles de estos contrastes. Contrastes
2 (1)-H0 : 2 1 = 2; 2 = 6 H1 : 2 1 2 2 (2)-H0 : 2 1 2; 2 2 H1 : 1 < 2 2 (3)-H0 : 2 1 2; 2 2 H1 : 1 > 2

Estadstico de contraste
2 1 S 2 S 2

Distribucin de referencia

F0 =

F0 Fn1 1;n2 1

Regin de rechazo (1) f0 > Fn1 1;n2 1;/2 f0 < Fn1 1;n2 1;1/2 con Fn1 1;n2 1;1/2 = 1 Fn2 1;n1 1;/2 (2) f0 < Fn1 1;n2 1;1 con Fn1 1;n2 1;1 = 1 /Fn2 1;n1 1; (3) f0 > Fn1 1;n2 1;

Ejemplo 9 Siguiendo con el Ejemplo 6 en el que se mostraba el peso de 59 nios y 58 nias recin nacidos. Se concluy entonces que se poda asumir la normalidad de ambas poblaciones. Queremos contrastar la igualdad de varianzas. La hiptesis a contrastar es
2 2 2 H0 : 2 V = M ; H1 ; V 6= M

El valor del estadstico de contraste es f0 = 194004 = 1,04. 185806

La distribucin dereferencia es la F58,57 , y los dos valores crticos, con = 0,05, que delimitan la regin de aceptacin son F58,57;0,975 = 0,59 y F58,57;0,025 = 1,69. Como f0 est entre ambos valores crticos, no podemos rechazar H0 y asumitemos que las varianzas de ambas poblaciones son normales.

8.5 Comparacin de dos varianzas en poblaciones normales

19

Recurdese que tambin habamos deducido que las distribuciones eran normales (o, mejor dicho, que los test de la chi-cuadrado mostraban una evidencia suciente). Como una distribucin normal queda totalmente identicada con la media y la varianza, una vez que se concluye que dos normales tienen la misma media y la misma varianza, se concluye que las variables aleatorias son idnticas. Como anteriomente habamos llegado a la conclusin de que las medias podan tambin asumirse iguales, llegamos entonces a la conclusin de que los pesos de los recin nacidos son distribuciones idnticas tanto en nios como en nias.

Potrebbero piacerti anche