Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
- Definiciones Preliminares El campo de la inferencia estadstica est formado por los mtodos utilizados para tomar decisiones o para obtener conclusiones sobre una Poblacin, Lote, Proceso. Estos mtodos utilizan la informacin contenida en una muestra de la Poblacin, Lote, Proceso para obtener conclusiones. La inferencia estadstica la podemos dividir en tres grandes reas: 1).- Estimacin de parmetros 2).- Prueba de hiptesis e intervalos de confianza para parmetros poblacionales. 3).- Ajuste de modelos tericos a un conjunto de datos empricos y medir la bondad de dicho ajuste. De lo anterior, podemos desprender de que la calidad de la informacin obtenida, como tambin la acertividad de la decisin tomada, dependen esencialmente de la muestra. (Que es de donde obtenemos los datos). Poblacin, Lote, Proceso.
En muchos problemas estadsticos, es necesario utilizar una muestra de observaciones tomadas de la poblacin de inters con objeto de obtener conclusiones acerca de ella. Muestra
Para que las inferencias sean vlidas, la muestra debe ser representativa de la poblacin. Un mecanismo de seleccin que asegura la representatividad es la aleatorizacin. En consecuencia la seleccin de una muestra es un experimento aleatorio, y cada observacin de la muestra es el valor observado de una variable aleatoria. Las observaciones en la poblacin determinan la distribucin de probabilidad de la variable aleatoria. La calidad de las medida(s) o valor(es) obtenidos de las muestras dependen, entre otros factores, de los equipos de medicin (exactitud, precisin, capacidad, etc.). Una muestra representativa, evita que se produzca una informacin sesgada.
150
Estimacin Puntual
Propiedades de los estimadores: 1.- Insesgado: Un estimador debe arrojar, en promedio, valores muy prximo al verdadero valor del parmetro. 2.- Mnima Varianza: Si se consideran todos los estimadores insesgados de del parmetro ,el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza mnima. 3.- Consistentes: A medida de que el tamao de la muestra aumenta, (n N), el estimador tiende a coincidir con el parmetro. 4.- Eficientes: Si se utilizan dos estadgrafos o estimadores del mismo parmetro , aquel cuya distribucin muestral tenga menor error estndar , es un estimador ms eficaz que otro . 5.- Suficiente: Un estimador suficiente del parmetro , es aquel que agota toda la informacin pertinente sobre de que se pueda disponer en la muestra. Por ejemplo, el promedio (desconocido) de la Poblacin, puede ser estimado a travs del promedio aritmtico de la muestra, X ; tambin puede ser estimado por la Mediana de la muestra, X . Pero X ~ ~ tiene menor varianza que X . (Es decir X , es ms eficiente que X ) Uno de los mejores mtodos para obtener un estimador puntual de un parmetro es el mtodo de Mxima Verosimilitud. Tal como su nombre lo seala, el estimador ser el valor del parmetro que maximiza la funcin de verosimilitud. (No ser expuesto en el presente desarrollo , pero puede ser revisado en Textos de Estadstica Matemtica o de Probabilidades y Estadstica)
151
Por ejemplo, la distribucin de probabilidad del promedio aritmtico X , se conoce como distribucin de muestreo (muestral) de la media. La distribucin de muestreo de una estadstica o estimador depende de la distribucin de la poblacin, del tamao de muestra y del mtodo utilizado para seleccionar la muestra. Teorema del Lmite Central
Error Estndar
2
n
. Pero en muchas
152
8.4.- Prueba de Hiptesis e intervalo de confianza. En muchos problemas de Ingeniera, Ciencias Naturales, Ciencias Sociales, Administracin y Negocios , etc ., requieren que se tome una decisin entre aceptar o rechazar una proposicin sobre algn parmetro. Esta proposicin recibe el nombre de Hiptesis, y el procedimiento de toma de decisin sobre la hiptesis se conoce como Prueba de Hiptesis. Este es uno de los aspectos ms tiles de la inferencia estadstica, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la Ingeniera, pueden formularse como problemas de prueba de hiptesis. Es conveniente considerar la prueba de hiptesis estadsticas como la etapa de anlisis de datos de un experimento comparativo, en el que el ingeniero est interesado, por ejemplo, en mejorar un rendimiento promedio en un proceso, despus de haber hecho una innovacin en el mismo. La finalidad es probar hiptesis con respecto a los parmetros de las dos situaciones.
En la prueba de hiptesis intervienen siempre dos hiptesis denominadas como: H : conocida como hiptesis nula o hiptesis de prueba. H : denominada hiptesis alternativa
1 0
Los procedimientos de pruebas de hiptesis dependen del empleo de la informacin que obtiene al procesar los datos contenidos en una muestra aleatoria de la poblacin de inters. Es por esto que la verdad o falsedad de una hiptesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la poblacin. Usualmente esto es imposible en muchas situaciones prcticas. Dado que estamos trabajando con informacin muestral para aceptar o rechazar la hiptesis de prueba, es que debemos asumir que podemos cometer alguno de estos dos tipos de errores denominados: Error Tipo I , Error Tipo II.
153
Al utilizar una muestra para obtener conclusiones sobre una poblacin existe el riesgo de llegar a una conclusin incorrecta. Cuando se toma una decisin referente a una hiptesis basada en la teora de la probabilidad, sta puede ser: Decisin Correcta: Se acepta una hiptesis cuando es verdadera. Se rechaza una hiptesis cuando no es verdadera. Decisin Incorrecta Error Tipo I ().- Se rechaza un hiptesis que es verdadera, es decir, se rechaza la Hiptesis Nula (H ) cuando en realidad es cierta. Error Tipo II ().- Se acepta una hiptesis que no es verdadera, es decir, no se rechaza la Hiptesis Nula (H ) cuando es falsa y se debiera rechazar.
0 0
154
De estos dos errores el ms frecuente es , pero es el ms difcil de controlar. De ah que el ms usado en la prctica es .
La regin crtica o de rechazo es la medida del resultado del proceso de una muestra (Estadstico de Prueba) cuando es mayor o igual que un valor fijado (Valor Crtico), entonces se rechaza la hiptesis nula (H0); como tambin se rechaza la hiptesis nula en el caso de que la medida sea menor que un valor fijado (Valor Crtico).
El nivel de significacin debe ser especificado antes de que una prueba sea hecha, de otra manera, el resultado obtenido en la prueba puede influir en la decisin. Los niveles de significacin ms utilizados son: = 0,05 y = 0,01 Al emplear un nivel de significacin del 5% tenemos la confianza del 95% de que hemos tomado una decisin correcta, aunque pudimos estar equivocados en un 5%.
155
El error de Tipo II () se puede determinar solamente respecto a un valor especfico incluido en el rango de la Hiptesis Alternativa (H ).
1
8.4.1.- Etapas bsicas a considerar en la prueba de hiptesis: A continuacin se enunciarn un conjunto secuenciados de procedimientos a tener en consideracin, para prueba de hiptesis en el caso de muchos problemas prcticos. 1.- Del contexto del problema, identificar el parmetro de inters. 2.- Establecer la hiptesis nula, H . 3.- Establecer una apropiada hiptesis alternativa, H 5.- Establecer una estadstico de prueba apropiado.
0
1.
0.
6.- Establecer la Regin de Rechazo para el estadstico de prueba, que est sealada por la hiptesis alternativa ( < , > , ). 7.- Calcular todas las cantidades o estimadores a partir de los datos muestrales, para sustituirlas en la expresin del estadstico de prueba, obtener el valor correspondiente. 8.- Decidir si debe o no rechazarse H y expresar o redactar esto, en el contexto del problema.
0
8.4.2.- Aplicaciones de la Distribucin Normal en la Prueba de Hiptesis y la construccin de intervalos de confianza. En forma muy general, podemos decir que la distribucin normal se aplica en temas relacionados con la inferencia estadstica cuando la Variable en estudio tiene un comportamiento que es modelizado por esta distribucin, se conoce el valor del parmetro denominado varianza, o el tamao de la muestra es suficientemente grande, como para invocar que el estadgrafo muestral tiene un comportamiento normal. 8.4.2.1.- Prueba de hiptesis e intervalo de confianza acerca una proporcin "p". En muchos problemas de ingeniera, se tiene inters en una variable aleatoria que sigue o se comporta como una distribucin Bernoulli. Por ejemplo, considrese un proceso productivo que fabrica artculos que son clasificados como aceptables o defectuosos; o bien un proceso de monitoreo que controla una variable especfica mediante una lectura muestral, y la muestra se clasifica como contaminada ( + ) o no contaminada ( - ). El parmetro binomial " p " representa la proporcin de artculos (o muestras) defectuosos (contaminados) producidos.
156
es la proporcin de unidades con la caracterstica buscada. Entonces X = n p es la El valor de p cantidad de unidades muestrales con la caracterstica buscada. El valor p es la proporcin que
hipotticamente existe en la poblacin. El valor " n p " representa entonces el valor esperado de unidades con la caracterstica buscada, en la muestra de tamao "n". Intervalo de Confianza para p de nivel (1 - ) Tamao de la muestra
0
Z 1 / 2 p
(1 p ) p n
Z n =
Z /2 n=
p 0 (1 p 0 ) + Z p p0
p 0 (1 p 0 ) + Z p p0
p (1 p ) prueba bilateral
2
p (1 p )
prueba unilateral
8.4.2.2.- Prueba de hiptesis acerca de la diferencia entre dos proporciones " p1 y p2. Las pruebas de hiptesis del punto 6.4.2.2 pueden extenderse al caso donde existen dos parmetros binomiales de inters (por ejemplo p1 y p2 ) y se desea probar que son iguales o que difieren en una cantidad . Esta prueba de hiptesis, para asegurar la convergencia a la distribucin normal de los parmetros muestrales, necesita que los tamaos de las respectivas muestras tomadas independientemente en cada una de las poblaciones sean de tamao grande (preferentemente superior o igual a 100). Los estimadores de las proporciones poblacionales son distribuciones aproximadamente normales. Para probar la hiptesis H0, se debe calcular =
1 = p
X1 n1
2 = p
X2 n2
y que tienen
cantidades de unidades, en cada una de las muestras, que poseen la caracterstica en estudio.
157
(1 )(
1 1 + ) n1 n2
Tamao de la muestra
1 p 2 ) Z1 /2 (p
1 1 (1 )( + ) n1 n2
(Z n=
( p1 + p 2 )(q1 + q 2 ) / 2 + Z ( p1 p 2 ) 2
p1 q1 + p 2 q 2
La frmula que permite calcular el tamao muestral est dada en el caso de realizar una prueba de hiptesis con alternativa unilateral. En el caso de que se desee realizar una prueba bilateral ( ), entonces es necesario remplazar Z por Z/2 Si el inters del investigador estuviese en probar si la cantidad esperada de unidades, X, que tienen una cierta caracterstica cuando se extrae de esa poblacin, lote, o proceso una muestra de tamao "n, entonces la estructura de la prueba de hiptesis sera: H0 : np =n p0 = X0 H1 : n p < X0 H1 : n p > X0 H1: np X0 Estadstico de prueba Z0bs =
( X np 0 ) np 0 (1 p 0 )
Ejercicio 1.- En una ciudad, que se dividi en dos sectores, A y B, se colectaron muestras de 160 y 200 hogares respectivamente, para tomar informacin acerca del consumo de un cierto producto para el lavado de ropa (ACE). Contestaron favorablemente 80 hogares en "A" 115 hogares en "B". a).- Redacte las hiptesis para probar de que existe una diferencia estadsticamente significativa en la preferencia por el producto, entre ambas ciudades. b).- Determine un intervalo de confianza del 90 % para la verdadera diferencia entre la preferencia por el producto entre ambas ciudades. c).- Cul es el tamao muestral adecuado en la ciudad A, para estimar la proporcin de personas que prefieren el producto con un 90 % de confianza y un error de muestreo del 4 %?
158
2.- Los administradores (no mdicos) de los hospitales en muchos casos se encargan de obtener y calcular algunas estadsticas que son de suma importancia para los mdicos y para los encargados de decidir en el hospital. En los registros de un hospital se tiene que 52 hombres (mayores de 50 aos) en una muestra de 500; y que 25 mujeres (mayores de 50 aos) de una muestra de 550, ingresaron al hospital y necesitan intervencin quirrgica cardiovascular. a).- Con estos datos, existe evidencia suficiente como para pensar de que existe una mayor tasa de afecciones cardacas en los hombres que en las mujeres?. Plantee y prueba esta hiptesis.b).- Determine un intervalo de confianza del 90 % para la diferencia en la proporcin de hombres y mujeres que necesitan intervencin quirrgica cardiovascular. c) Con un intervalo de confianza del 95 %, estime la proporcin de hombres mayores de 50 aos que necesitan intervencin quirrgica cardiovascular.2.- En una muestra aleatoria de 450 telfonos residenciales tomada en cierta ciudad A en el ao 1990, se encontr que 130 no aparecen en el directorio. En el mismo ao, en otra muestra aleatoria de 600 telfonos para una ciudad B, se encontr que 120 no aparecen en el directorio (Telfono privado). a) Redacte y Realice todos los pasos de la prueba de hiptesis y use = 0,05 para probar si existe una tendencia mayoritaria en la ciudad A, respecto de B, a la existencia de una mayor proporcin de telfonos privados. b) Determine un intervalo de confiabilidad del 95%, para la proporcin de telfonos privados en la ciudad B c) Si se desea estimar la proporcin de telfonos privados en la ciudad B con una confiabilidad del 95 % y un error de muestreo no mayor a 0.06 Cuntas hogares seleccionados debe tener la muestra?
159
8.4.3.- Aplicaciones de la Distribucin t - Student en la Prueba de Hiptesis y la construccin de intervalos de confianza. Cuando se prueban hiptesis a cerca del promedio de una poblacin o la diferencia entre promedios de dos poblaciones diferentes y cuando 2 es desconocida, es posible utilizar los por ) siempre y cuando el tamao de la muestra procedimientos antes descritos (remplazando p sea grande. Sin embargo, cuando la muestra es pequea y 2 es desconocida, debe plantearse una hiptesis sobre la forma de la distribucin subyacente con la finalidad de obtener un procedimiento de prueba. En muchos casos, una hiptesis razonable es que la distribucin que modeliza el comportamiento de los datos, es normal. Pero en el caso de muestras pequeas y varianza desconocida, se ha desarrollado una distribucin denominada t de Student. Esta distribucin se origina como el cuociente de dos distribuciones, donde una de ellas es la distribucin normal. De hecho, la distribucin t de Student tiene una forma muy parecida a la Normal. (Tabla al final del texto) Muchas de las poblaciones que se encuentran en la prctica, quedan bien aproximadas por la distribucin normal, razn por la cual esta hiptesis conduce a un procedimiento de prueba de gran aplicabilidad. De hecho, un alejamiento moderado de la normalidad estadstica tiene poco efecto sobre la validez de la prueba. Cuando la hiptesis no es razonable, entonces puede especificarse otra distribucin (Exponencial, Weibull, lognormal, etc.) y usar algn mtodo general para la construccin de pruebas de hiptesis con la finalidad de obtener un procedimiento vlido, o tambin pueden utilizarse pruebas no- paramtricas que son vlidas para cualquier distribucin estadstica. 8.4.3.1.- Prueba de hiptesis e intervalo de confianza para el promedio Supngase que la poblacin tiene una distribucin normal con media y varianza 2 , con ambos parmetros desconocidos. Se desea probar la hiptesis de que es igual a una constante 0. Necesitamos la informacin muestral del promedio aritmtico X y la varianza muestral S2 . H0 : = 0 H1 : < 0 H0 : > 0 H0 : 0 Estadstico de prueba TObs
=
Intervalo de confianza
( X u0 2 S n
X T1 / 2,
2 S n
T1 - /2 , , es un valor obtenido de una tabla que contiene la distribucin t - student y el valor = n - 1. Este smbolo nos indica los grados de libertad de la distribucin, los cuales estn indicados en la fila de la tabla. Es igual al nmero de datos muestrales menos 1. Para rechazar la hiptesis H0 , a favor de H1 , se debe cumplir que el valor del estadstico de prueba caiga en la regin de rechazo indicada por la hiptesis alternativa H1
2 = S
(X
i =1
i =n
X )2
;
n 1
S2 =
(X
i =1
i =n
X )2
160
8.4.3.2.- Prueba de hiptesis e intervalo de confianza para los promedio de dos distribuciones muestras independientes Ahora se considerar una prueba de hiptesis sobre la diferencia de los promedio 1 - 2 = , de dos 2 distribuciones normales donde las varianza 12 y 2 son desconocidas pero iguales, estimadas a
2 y S 2 . Las muestras obtenidas de cada travs de sus respectivas varianzas muestrales S 1 2 poblacin son independientes entre si. Tal como se indic en la prueba homnima en puntos anteriores, se requiere la hiptesis de normalidad para desarrollar el procedimiento de prueba, pero los alejamientos o distanciamientos moderados de la normalidad estadstica no tendrn efectos adversos sobre el procedimiento (Concepto de prueba robusta).
H0 : 1 - 2 Estadstico de Prueba
H1 : 1 - 2 <
H1: 1 - 2
>
H1: 1 - 2
Tobs =
(X1 X 2 ) 2 + (n 1) S 2 1 (n1 1) S 1 1 2 2 + n1 + n2 2 n1 n 2
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla Estadstica de la distribucin t-Student , adjunta al final del texto, segn se la hiptesis alternativa H1 que se est utilizando. Los grados de libertad, son iguales al tamao de la muestra menos 1. El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios poblacionales 1 - 2, est dado por
( X 1 X 2 ) T(1 / 2);
2 + (n 1) S 2 (n1 1) S 1 2 2 n1 + n2 2
1 1 n + n 2 1
Los grados de libertad para la distribucin son = n1 + n2 2 Ejercicios: 1.- Dos proveedores fabrican un engranaje plstico utilizado en una impresora lser. Una caracterstica importante de estos engranajes es la resistencia al impacto, la cual se mide en pieslibras. Una muestra aleatoria de 10 engranajes suministrados por el proveedor "A" y de 15 engranajes suministrados por el proveedor "B", entregan los siguientes resultados: Proveedor A B Tamao Muestra 10 15 Promedio 290 321 Desv. Estndar 12 15
161
a).- Existe evidencia que apoye la afirmacin de que los engranajes del proveedor "B" tienen una mayor resistencia promedio al impacto ?. Utilice = 0,05. b).- Los datos apoyan la afirmacin de que la resistencia promedio al impacto de los engranajes del proveedor "B" es al menos 20 pies-libra mayor que la del proveedor "A" c).- Construya un intervalo de confiabilidad del 95 %, para la diferencia promedio entre las resistencias de los engranajes suministrados por ambos proveedores. 2.- Las organizaciones de empresas de manufactura incurren en costos considerables para la capacitacin de nuevos empleados. Estas empresas buscan programas de capacitacin que puedan llevar a los empleados a un grado mximo de eficiencia en el menor tiempo posible. Los datos siguientes presentan el tiempo, en minutos, que demoran los empleados para ensamblar la misma componente bajo dos mtodos: uno estndar y uno nuevo Procedimiento Estndar 32 37 35 28 41 40 35 31 34 36 30 33 34 35 24 31 Procedimiento Nuevo 35 31 29 25 34 31 38 27 32 29 26 28 26 29 28 33 30
a).- Existe alguna diferencia estadsticamente significativa en la disminucin entre los tiempos promedios de ensamblaje ?. Realice todos los pasos de la prueba de hiptesis y use = 0,05. b).- Determine un intervalo de confianza del 95% para la diferencia entre los tiempos promedio de ensamblaje. c).- Determine un intervalo de confianza del 95 % para la desviacin estndar del tiempo de ensamblaje del nuevo procedimiento. 3.- Se realizan pruebas de dureza en dos tipos de bolas, X e Y, que se utilizan en molinos de la gran minera. Se desea estudiar el desempeo de estas bolas en el proceso de molienda. Se toman muestras independientes de cada uno de los tipos y se encuentran los siguientes resultados. Bola X Bola Y 75 52 46 41 57 43 43 47 58 32 39 49 61 52 56 44 44 57 65 60 60 45 50 50 55
a).- Redacte y pruebe la hiptesis de que ambos tipos de bolas no presentan diferencias estadsticamente significativas en su resistencia promedio. Use alfa = 0,05. Que recomendacin dara usted, respecto de cual tipo de bola usar? Justifique su respuesta. b).- Determine con 95% de confianza entre que valores se encuentra la resistencia promedio de cada uno de los tipos de bolas. c).- Determine un intervalo de confianza del 90% para la desviacin estndar de la dureza del tipo de bola Y. d).- Se desea estimar la dureza promedio de la bola tipo X con una confiabilidad del 95 % y un error de estimacin no mayor a 1,5 unidades, Cuntas muestras sera necesario seleccionar para cumplir estas exigencias? 3 Pts
162
8.4.3.3.- Prueba de hiptesis e intervalo de confianza para los promedio de dos distribuciones, muestras dependientes. En el caso las muestras obtenidas de cada poblacin son dependientes entre si , como ejemplo , cuando la misma muestra es sometida a anlisis por laboratorios diferentes que utilizan la misma metodologa ; la misma unidad muestreada es sometida a una medicin pre y post ; puede ser tambin cuando las observaciones sobre las dos poblaciones de inters se recopilan por pares , tomadas bajo condiciones homogneas , pero ests pueden cambiar de un par a otro . Esta prueba recibe el nombre de prueba " t pareada. Se calcula la diferencia entre cada par de observaciones di = X i - Yi desde i = 1 , 2.........n
Con los valores de di, se obtiene su promedio aritmtico d = Para remplazarlos en el estadstico de prueba H0 : 1 - 2
d
i =1
i =n
2 = , S d
(d
i =1
i =n
d )2
n 1
Estadstico de Prueba
H1 : 1 - 2 <
H1: 1 - 2
>
H1: 1 - 2
TObs =
(d ) 2 S
d
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla Estadstica de la distribucin t-Student , adjunta al final del texto, segn se la hiptesis alternativa H1 que se est utilizando. Los grados de libertad, son iguales al tamao de la muestra menos 1. El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios poblacionales 1 - 2, est dado por
d T1 / 2
Ejercicios :
2 S d 1 - 2 d + T1 / 2 n
2 S d n
Quince hombres adultos trabajadores de una Empresa Minera de la II Regin, cuyas edades fluctan entre los 35 y 50 aos , participaron en un estudio aerbico para evaluar el efecto de la dieta y el ejercicio sobre los niveles de colesterol en la sangre . El colesterol total fue medido al inicio del estudio en cada trabajador, y tres meses despus de participar en el estudio y de haber cambiado la alimentacin a una dieta baja en grasas y un programa de acondicionamiento fsico, se obtuvieron los siguientes resultados:
163
Nivel de Colesterol Total en la Sangre Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Antes 265 240 258 295 251 245 287 314 260 279 283 240 238 225 247 Despus 229 231 227 240 238 241 234 256 247 239 246 218 219 226 233 a).- Estos datos apoyan la afirmacin de que la dieta baja en grasas y el ejercicio son de gran valor en la disminucin de los niveles de colesterol total en la sangre, de a lo menos 10 puntos en 3 meses? b).- Construya un intervalo de confianza del 95 %, para establecer la reduccin promedio conseguida en el estudio, por los trabajadores. 2.- Se desea determinar el contenido de grasa en la carne para establecer el precio de venta al consumidor. Un a compaa empacadora de carne est considerando el uso de dos mtodos diferentes para determinar el porcentaje de grasa. Ambos mtodos fueron probado para evaluar el contenido de grasa en ocho muestras diferentes de carne.. Los resultados son M u e s t r a s
Mtodo
1 2
1 23,1 22,7
2 27,1 27,4
3 25,0 24,9
4 27,6 27,2
5 22,2 22,5
6 27,1| 27,4
7 23,2 23,6
8 24,7 24,4
a).- Sugieren estos datos que los dos mtodos difieren en su medicin del contenido de grasa en la carne? Redacte y Pruebe esta hiptesis con un nivel de significancia del 5 % . b).- Determine un intervalo de confianza del 95 % para el contenido promedio de grasa con el Mtodo1 c).- Determine un intervalo de confianza del 95 % para el contenido promedio de grasa con el Mtodo 2
164
8.4.4.- Aplicaciones de la Distribucin Chi-Cuadrado. La distribucin de probabilidad Chi-cuadrado, o distribucin 2 , fue descrita por primera vez por Karl Pearson alrededor del ao 1900. Es una variable aleatoria y que a la vez se utiliza como estadgrafo de contraste o de prueba, al igual que las distribuciones Normal, t de Stdudent. Tiene amplias aplicaciones y variadas utilizaciones, las que entre las ms frecuentes se cuentan: o o o Prueba de hiptesis e intervalos de confianza para la varianza de la poblacin Prueba de Independencia en tablas de contingencia o de asociacin Prueba de la Bondad de Ajuste
8.4.4.1.- Prueba de hiptesis e intervalos de confianza para la varianza de una sola poblacin. En algunas oportunidades se necesitan pruebas sobre la varianza o la desviacin estndar de una poblacin (dispersin) o distribucin. Supngase que se desea probar la hiptesis de la varianza de una poblacin normal 2 es igual a 2 un valor especfico, por ejemplo, 0 . De una muestra aleatoria de tamao "n" extrada de la
Estadstico de prueba H1 :
2 2 0
H1 : <
2
2 0
H1 : >
2
2 0
2 Obs
2 (n 1) S
02
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla Estadstica de la distribucin Chi-cuadrado , adjunta al final del texto, segn se la hiptesis alternativa H1 que se est utilizando. Los grados de libertad, al igual que en la distribucin muestra menos 1. t Student, son iguales al tamao de la
Un intervalo de confianza de nivel (1 - ) para la varianza de la poblacin est dado por la expresin
2 (n 1) S
12 / 2
Ejemplo:
2 (n 1) S
2 /2
La desviacin estndar de cierto proceso de produccin es de 2 pulgadas. Se sospecha que la varianza se ha hecho demasiado grande (ha aumentado). Se toma una muestra de 9 partes producidas en dicho proceso y sus medidas son: 50 , 57 , 52 , 54 , 58 , 59 , 58 , 56 , 55
165
H0: 2 = 4
8.4.4.2.-Prueba de Independencia en tablas de contingencia o de asociacin En muchas ocasiones, los "n" elementos de una muestra tomada de una poblacin pueden clasificarse de forma conjunta de acuerdo con dos criterios o variables diferentes. Sea estas variables " R " y " C". Es decir, podemos observar en cada elemento dos variables, que generalmente tiene como respuesta una caracterstica cualitativa o atributo. La tabla estadstica que se genera se denomina tabla de contingencia o de asociacin, que tiene " i " filas y " j " columnas Resulta de inters saber si existe algn grado de dependencia o de asociacin entre los niveles de clasificacin de las variables. Por ejemplo, se desea averiguar si hay alguna asociacin estadsticamente significativa entre "Nivel de Formacin Acadmica "y el "Rendimiento Laboral". Si existe alguna asociacin estadsticamente significativa entre el " Ausentismo Laboral " y la " Edad , etc. La hiptesis nula a probar es la de que las Variables " R " y " C " son independientes. Esto es de que no hay asociacin o relacin entre las dos variables. La hiptesis alternativa es la negacin de la hiptesis nula. Bajo el contexto de la hiptesis H 0 , es decir de independencia entre las variables , es de esperar que la Probabilidad Conjunta entre las variables se igual al producto de las probabilidades Marginales de cada una de ellas, es decir P (Ri , Cj ) = P ( Ri ) x P ( Cj) Los valores de las frecuencias conjuntas en cada una de las casillas, se comparan con los valores esperados para cada casilla. Los valores esperados para cada casilla se calculan multiplicando los totales en cada fila por los totales en cada columna y luego este producto se divide por el total " n " de la tabla
) se obtiene multiplicando el total Por ejemplo el valor esperado conjunto en la columna 2, fila 3 ( f 23 de fila 2 por el total en la columna 3 . Luego dividir por el total de datos
Es decir,
= f 2 f 3 f 23 n
0
166
2 ( j 1)( k 1)
)2 ( fij f ij = f j =1 k =1
J K ij
(Estadstico de Prueba)
Aqu el contraste es unilateral y el valor del estadstico de prueba se compara con el valor obtenido de una tabla de Distribucin Chi-cuadrado con grados de libertad igual al producto (nmero de filas - 1)x( nmero de columnas - 1 ) , para un nivel de confianza especfico 8.4.4.3.- Prueba de la Bondad de Ajuste El procedimiento de prueba requiere de una muestra aleatoria de tamao " n " proveniente de la poblacin la cual tiene una distribucin de probabilidad desconocida. Estas "n" observaciones se ubican en los " k " intervalos reales, cada uno de ellos conteniendo una cantidad "f i ". Seguidamente se representan grficamente en un histograma de frecuencia. Se supone o propone una distribucin de probabilidad, bajo la cual se calculan las frecuencias esperadas para cada uno de los intervalos, ". las que se denotan por " f i Hiptesis nula Ho es: " Los datos muestrales se distribuyen segn la distribucin propuesta" Hiptesis Alternativa H distribucin propuesta.
1
2 Observado
)2 ( fi f i = f i =1
i =k i
Cuando se trabaja con variables aleatorias continuas, la prueba chi-cuadrada ( ) tal vez no sea el mejor procedimiento, pero est ampliamente difundida su utilizacin. Desde el desarrollo de aspecto tericos de la estadstica matemtica, se demuestra que si la 2 tiene poblacin sigue o se distribuye segn el modelo de probabilidad propuesto, el valor de Observado de manera aproximada una distribucin Chi-cuadrada con " k p 1 " grados de libertad, donde k representa la cantidad de intervalos utilizados; p es el nmero de parmetros estimados a partir de los datos muestrales. La aproximacin a la distribucin puede mejorar si el tamao de la muestra aumenta.
2 La hiptesis nula Ho es rechazada cuando el valor de Observado > que el valor entregado por la tabla
Existe una tcnica grfica para probar si Ho se cumple . Esto se realiza por medio de la "grafica de probabilidad. Si el modelo de probabilidad propuesto ajusta a los datos, entonces el grfico de probabilidad mostrar que los datos tendern a alinearse en torno a una lnea recta.
167
Observaciones: