Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
como
estimadores
de
parmetros
Estadgrafos Estadsticos
En este captulo se tratarn funciones de las variables X1, X2, ... , Xn observadas en una muestra aleatoria seleccionada de una poblacin bajo estudio. Las variables son independientes y tienen una distribucin comn. Con mucha frecuencia se utilizan ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones con respecto de parmetros poblacionales desconocidos. Por ejemplo, supongamos que se desea estimar la media de una poblacin . Si obtenemos una muestra aleatoria de n a travs de la media de la
La bondad de la estimacin del comportamiento de las v.a. X1, X2, ... , Xn y el efecto de este comportamiento sobre . Ntese que la v.a. es una funcin de (solamente) las v.a. X1, X2, ... , Xn y el tamao (constante) n de la muestra. Por lo tanto la v.a. representa un estadgrafo estadstico.
Una definicin ms formal sera: Un estadstico (estadgrafo) es una funcin de las variables que se pueden observar en una muestra y de las constantes conocidas. Los estadsticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a parmetros poblacionales desconocidos.
Como el estadstico es una funcin de variables aleatorias observadas en una muestra aleatoria, un estadstico en s, es una variable aleatoria. Por lo anteriormente expuesto, deduciremos su distribucin de probabilidad, la cual la llamamos Distribucin Muestral del estadstico. Debe quedar claro que la forma de distribucin muestral terica de un estadstico depender de la distribucin de las variables aleatorias observadas en la muestra.
El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos de la poblacin tienen la misma probabilidad de ser extrados.
Muestreo aleatorio
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de seleccin muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposicin de los elementos; Con reposicin. Muestreo aleatorio sin reposicin Consideremos una poblacin E formada por N elementos. Si observamos un elemento particular, circunstancia: , en un muestreo aleatorio sin reposicin se da la siguiente ; ), la
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de
probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de Si consideramos una muestra de mismos tiene importancia, la cualquiera es .
lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la poblacin. Si el orden no interviene, la probabilidad de que una muestra
sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir
Muestreo aleatorio con reposicin Sobre una poblacin E de tamao N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extrado es repuesto al total de la poblacin. De esta forma un elemento puede ser extrado varias veces. Si el orden en la extraccin de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:
Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de la anterior, repitindola tantas veces como manera de combinar sus elementos sea posible. Es decir, sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra; sea n2 el nmero de veces que se repite cierto elemento e2; sea nk el nmero de veces que se repite cierto elemento ek, de modo que . Entonces la probabilidad de obtener la muestra
es
es decir,
Muestreo aleatorio Simple El Muestreo Aleatorio Simple es aquel en que cada uno de los elementos de la
poblacin tiene la misma probabilidad de ser elegido, y en las que la seleccin de un nuevo elemento no afecta las probabilidades de eleccin de cualquier otro elemento. De forma ms general, se puede considerar que una muestra aleatoria simple es aquella en la que todas las posibles muestras extradas tienen la misma probabilidad de ser elegidas. Adems todos las observaciones de la v.a. son independientes, es decir
en donde entonces la funcin de distribucin Un converge a una funcin de distribucin normal estndar cuando n. Ejemplo Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de una tienda de menudeo son variables aleatorias independientes con una media de 1.5 minutos y una varianza de 1.0. Aproxime la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas. Solucin Si Xi denota el tiempo de espera para el i-simo cliente, entonces se desea calcular
P(
Xi 120 )
=P( =P(
120/100) 1.20)
As la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas es aproximadamente 0.0013. Esta pequea probabilidad indica que es prcticamente imposible despachar a 100 clientes en menos de 2 horas. Resumiendo, el Teorema del Lmite Central establece que cuando el tamao de la muestra se incrementa, la distribucin de muestreo de la media (as como de otras estadsticas muestrales) se aproxima en cuanto a su forma a la distribucin normal, independientemente de la distribucin de la poblacin de la que fue tomada la muestra. Para efectos prcticos, puede suponerse que la distribucin de muestreo de la media tiene una distribucin aproximadamente normal, incluso en las poblaciones o procesos menos normales, siempre que el tamao de la muestra sea n 30. Ejemplo Un auditor toma una muestra aleatoria de tamao n =36 de una poblacin de 1000 cuentas por cobrar. El valor medio de las cuentas por cobrar para la poblacin es = $260.00, con la desviacin estndar de la poblacin = $45.00. Cul es la probabilidad deque la media muestral sea inferior a $250.00? Solucin Figura: En la figura aparece la curva de probabilidad. La distribucin de muestreo es descrita por la media y el error estndar.
E(
Por lo tanto, P( < 250.0 | = 260.0 , = 7.50 ) = P( z < -1.33 ) P( z < -1.33 ) = 0.0918 (valor tabulado).
Xi
tiene Xi ] = n
=E[y]=E[ Xi / n =
z=
E[z]= es una v.a. V(Y) = n 2 V(Z) = 2 / n Recordemos que la desigualdad de Tchebysheff P(|X| K /n ) 1 / k2 como la v.a. | K /n ) 1 / k2 => k = n /
sea = K /n
| ) ( 2 / 2 n )
Lmn P( |
Al hecho de que sea consistente con , o que converja en probabilidad a , suele designarse como la Ley de los Grandes Nmeros . Esta es la justificacin terica del procedimiento de promediar las mediciones utilizado por muchos investigadores para obtener mayor precisin en las medidas. Por ejemplo, un investigador puede calcular el promedio de varias mediciones del peso de un animal para obtener una estimacin ms exacta de dicho peso. Su consideracin, es que el promedio de muchos pesos obtenidos independientemente debe estar bastante prximo del peso real, con una alta probabilidad. Ejemplo A una poblacin de cuatro mecangrafas se les pidi que escribieran la misma pgina de un manuscrito. Los errores cometidos por cada mecangrafa fueron: Mecangrafa A B C D Solucin Cuando se dispone de la informacin de una poblacin se puede calcular la media de ella, entonces
x
No. de Errores 3 2 1 4
=(
Xi ) / N
y la desviacin estndar
Por lo tanto
x
= ( 3 + 2 + 1 + 4 ) / 4 = 2.5 errores
Por otra parte, si el muestreo se hubiera realizado sin reposicin debera haber seis muestras posibles de dos mecangrafas: N! / [ n! ( N n )! ] = 4! / [ 2! * 2! ] = 6 A continuacin se presentan las posibles muestras 1. Total 16 muestras de n =2 y N =4, muestreo con reposicin Muestra Mecangrafa Resultados de Media la muestra muestral 1 A, A 3,3 3 2 A, B 3,2 2.5 3 A, C 3,1 2 4 A, D 3,4 3.5 5 B, A 2,3 2.5 6 B, B 2,2 2 7 B, C 2,1 1.5 8 B, D 2,4 3 9 C, A 1,3 2 10 C, B 1,2 1.5 11 C, C 1,1 1 12 C, D 1,4 2.5 13 D, A 4,3 3.5 14 D, B 4,2 3 15 D, C 4,1 2.5 16 D, D 4,4 4
=2.5= x 2. Total 6 muestras posibles de n =2, N =4, muestreo sin reposicin Muestra Mecangrafa Resultados de Media la muestra muestral 1 C, D 1,4 2.5 2 A, B 3,2 2.5 3 A, C 3,1 2 4 A, D 3,4 3.5 5 B, C 2,1 1.5
B, D
2,4
3 =2.5=
x
En este pequeo ejemplo, aunque se puede observar gran fluctuacin en la media muestral, dependiendo de las mecangrafas que se seleccionaron, no hay tanta fluctuacin como en la poblacin real en s. El hecho de que las medias muestrales sean menos variables que los datos de poblacin, se deriva directamente de la Ley de los Grandes Nmeros.
y varianza
/ n, es decir
Figura: Funcin de densidad de una v.a. con respecto a una v.a. X que tiene funcin de densidad de probabilidad Normal Estndar.
Ejemplo Una mquina embotelladora puede regularse de tal manera que llene un promedio de onzas por botella. Se ha observado que la cantidad de contenido que suministra la mquina presenta una distribucin normal con = 1.0 onza. De la produccin de la mquina cierto da, se obtiene una muestra aleatoria de n = 9 botellas llenas (todas fueron llenadas con las mismas posiciones de control operativo) y se miden las onzas del contenido de cada una. Determinar la probabilidad de la media real posiciones del control. Solucin para tales
Si X1, X2, ... , X9 representan las onzas de contenido a observarse, se deduce que X i presenta una distribucin normal con una media 2, ... , 9. por tanto, Se desea calcular P( | y una varianza y
X
=1 para i = 1, = /n = 1/9.
ya que ( ) / ( / n ) representa una distribucin normal estndar. Aplicando los valores tabulados, se tiene P ( - 0.9 Z 0.9 ) = 1 2 P( Z > 0.9)
= 1 2 (0.1841) = 0.6318 Por tanto la probabilidad es solo de 0.63 de que la media muestral diste a lo ms en 0.3 de onza de la poblacin real. Distribucin Ji Cuadrado ( Sean )
con media y varianza . Entonces Zi = ( Xi ) / son v.a. normales estndar e independientes, i = 1, 2, ...,n, y la suma de los cuadrados de variables aleatorias normales estndares e independientes tiene una distribucin Ji-cuadrado con n grados de libertad. Bajo las condiciones anteriormente expuestas, para cuestiones ms prcticas se suele trabajar con la siguiente frmula:
= ( n 1 ) S2 / Ejemplo Continuando con el ejemplo anterior, se supone que las onzas del contenido que vaca la mquina embotelladora tiene una distribucin normal con =1. Supngase que se desea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella. Si se utilizan estas 10 observaciones para calcular S2, podra ser til especificar un intervalo de valores que incluyeran a S2 con una alta probabilidad. Encuentre los nmeros b1 y b2 tales que P( b1 S2 b2) = 0.90 Solucin
Ya que = 1, en consecuencia (n 1) S2 / = (n 1) S2 tiene una distribucin con (n 1) grados de libertad. Por tanto, utilizando los valores tabulados de esta funcin podemos encontrar dos nmeros , a1 y a2, tales que P( a1 (n 1) S2 a2) = 0.90 Un mtodo para hacerlo es encontrar el valor a2 que limita un rea de 0.05 de la cola derecha y un valor a1 que limita un rea de 0.05 de la cola izquierda (0.95 de rea a la derecha). Ya que hay 9 grados de libertad, la tabla nos da a2 = 16.919 y a1 = 3.325.
As debemos tener a1 = (n 1)b1 / a2 = (n 1)b2 / o sea b1 = 3.325 / 9= 0.369 y b2 = 16.919 / 9 = 1.880 = (n 1)b1 = 9 b1 = (n 1)b2 = 9 b2
de donde se deduce que si se desea tener un intervalo que incluya a S2 con una probabilidad de 0.90, uno de tales intervalos es ( 0.369, 1.880). Obsrvese que este intervalo es bastante grande. Distribucin t de Student La distribucin -Student se construye como un cociente entre una normal y la raz de una independientes. De modo preciso, llamamos distribucin t-Student con n grados a la de una v.a. T,
de libertad,
La funcin de densidad de
es
Es de media cero, y simtrica con respecto a la misma; Es algo ms dispersa que la normal, pero la varianza decrece hasta 1 cuando el nmero de grados de libertad aumenta;
Para un nmero alto de grados de libertad se puede aproximar la distribucin de Student por la normal, es decir,
Figura: Cuando aumentan los grados de libertad, la distribucin de Student se aproxima a la distribucin normal estandarizada.
Para calcular
en lugar de considerar una primitiva de esa funcin y determinar la integral definida, buscaremos el resultado aproximado en una tabla de la distribucin 4, al final del libro. La distribucin F de Snedecor Otra de la distribuciones importantes asociadas a la normal es la que se define como cociente de distribuciones independientes. independientes. Decimos entonces que la variable Sean e v.a. . Vase la tabla
sigue una distribucin de probabilidad de Snedecor, con (n,m) grados de libertad. Obsrvese que . La forma ms habitual en que nos encontraremos esta distribucin ser en el caso en que tengamos n+m v.a. independientes
y as
y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una tabla (la nmero 6) donde encontrar aproximaciones a esas cantidades
Es claro que la distribucin de Snedecor no es simtrica, pues slo tienen densidad de probabilidad distinta de cero, los punto de . Otra propiedad interesante de la distribucin de Snedecor es:
Mtodo de Montecarlo
El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin de distribucin F). Con este mtodo, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es: 1. Usando una tabla de nmeros aleatorios se toma un valor u de una v.a. . 2. Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como el percentil de X, es decir el valor ms pequeo que verifica que .
Este proceso se debe repetir n veces para obtener una muestra de tamao n. Ejemplo Si queremos extraer n =10 muestras de una distribucin podemos recurrir a una tabla de nmeros aleatorios de k =5 cifras, en las que observamos las cantidades (por ejemplo)
A partir de ellas podemos obtener una muestra de distribucin normal: Nmeros aleatorios ti 76.293 31.776 50.803 0.76 0.32(=1-0.68) 0.51
Muestra
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor de la esperanza matemtica de que el valor medio de la muestra sea necesariamente . Por otra parte, esto no implica . Sin embargo sabemos que
su dispersin con respecto al valor central es pequea, lo que implica que probablemente el valor medio estar muy prximo a 0, como se puede calcular:
Obsrvese que si el problema fuese el inverso, donde nicamente conocisemos las observaciones xi y que el mecanismo que gener esos datos hubiese sido una distribucin normal de parmetros desconocidos, con obtenida hubisemos tenido una buena aproximacin del ``parmetro desconocido'' .
Representamos mediante una muestra aleatoria simple de la variable. Denotamos mediante fc a la funcin de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo:
, a cualquier v.a.
que se exprese en ,
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unvocamente de los valores de la muestra observados ( Xi=xi), la eleccin de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimacin el valor numrico que toma el estimador sobre esa muestra. Ejemplo Consideremos una v.a. de la que slo conocemos que su ley de distribucin es normal,
es
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria (que usaremos para estimar el parmetro desconocido) deben ser: Consistencia Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al parmetro desconocido. El estimador Lmn P( | es un estimador consistente de | )=1 n n
|> )=0
La notacin n se utiliza por el hecho de expresar que el estimador de se calcula mediante una muestra de tamao n. Por ejemplo, dos 2 es el promedio de observaciones, mientras que 100 es el promedio de las 100 observaciones contenidas en una muestra de tamao n = 100. Insesgado (Carencia de sesgo) El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el valor del parmetro. Se dice que un estimador de un parmetro es insesgado si:
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga como estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su dispersin con respecto al valor central (varianza) sea tan pequea como sea posible. Sea es el estimador del parmetro densidad de probabilidad f(x), Si V( ) = I ( ), al estimador de la poblacin X, la cual tiene funcin de
I( ) = (1 / n) E [ - ( 2 ln f(x)) / (
)]
Suficiencia El estimador debera aprovechar toda la informacin existente en la muestra. A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esas caractersticas. Estimadores de Mxima Verosimilitud Sea X una v.a. con funcin de probabilidad Las muestras aleatorias simples de tamao n, probabilidad conjunta tienen por distribucin de
Esta funcin que depende de n +1 cantidades podemos considerarla de dos maneras: Fijando , es una funcin de las n cantidades xi. Esto es la funcin de probabilidad o densidad. Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es nicamente funcin de . A esta funcin de la denominamos funcin de verosimilitud. En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi, una posible estimacin del parmetro es aquella que maximiza la funcin de verosimilitud.
Figura: La funcin de verosimilitud se obtiene a partir de la funcin de densidad, intercambiando los papeles entre parmetro y estimador. En una funcin de verosimilitud consideramos que las observaciones x1, ..., xn, estn fijadas, y se representa la grfica con el valor de los valores que tomara la funcin de densidad para todos los posibles valores del parmetro . El estimador mximo verosmil del parmetro buscado, , es aquel que maximiza su funcin de verosimilitud,
Como es lo mismo maximizar una funcin que su logaritmo (al ser este una funcin estrictamente creciente), este mximo puede calcularse derivando con respecto a la funcin de verosimilitud ( bien su logaritmo) y tomando como estimador mximo verosmil al que haga la derivada nula:
Los estimadores de mxima verosimilitud tienen ciertas propiedades en general que a continuacin enunciamos: 1. Son consistentes; 2. Son invariantes frente a transformaciones biunvocas, es decir, si mximo verosmil de y es una funcin biunvoca de . es el estimador es el
, entonces
es funcin
5. Son asintticamente eficientes, es decir, entre todos los estimadores consistentes de un parmetro , los de mxima verosimilitud son los de varianza mnima. 6. No siempre son insesgados.
Es decir, la tcnica llamada mtodo de mxima posibilidad verosimilitud selecciona como estimaciones aquellos valores de los parmetros que maximizan la verosimilitud (funcin de probabilidad conjunta o la funcin de densidad conjunta) de la muestra observada. Ejemplo Sea x1,x2, ... ,xn una muestra aleatoria de observaciones de una distribucin uniforme con funcin de densidad de probabilidad f(x) = 1/ , 0 x , i = 1, 2, ... , n. Determine el estimador de mxima verosimilitud de . En este caso la verosimilitud est dado por L = f(x1,x2, ... ,xn) = f(x1) f(x2) ... f(xn) = (1 / )(1 / ) ... (1 / ) = (1 / n) Ntese que L es una funcin montona decreciente de y por lo tanto dL/ d no se har igual a cero para ningn valor del intervalo 0 < < . Sin embargo, L crece cuando decrece y que debe ser igual o mayor que el mximo valor observado en el conjunto . Por lo tanto el valor de que maximiza L es la mayor observacin en la muestra. Es decir que = X(n) = mx (X1, ... , Xn). Algunos estimadores fundamentales Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianza de una distribucin de probabilidad. Estimador de la esperanza matemtica Consideremos las muestras de tamao n, , de un carcter sobre una poblacin que viene expresado a travs de una v.a. Xque posee momentos de primer y segundo orden, es decir, existen y :
(en lugar de
es
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye como una v.a. Normal, es sencillo comprobar que coincide con el estimador de mxima verosimilitud (figura superior):
(en principio escribimos tambin el otro parmetro desconocido, , aunque no nos interesamos en su estimacin por el momento). La expresin de la funcin de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:
El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo (monotona), por tanto derivando con respecto a e igualando a cero se llega a:
Es decir, el estimador mximo verosmil de la media poblacional, , coincide con la media muestral
como queramos demostrar: Figura: El estimador de mxima verosimilitud de una variable aleatoria Normal es la media muestral. para
del
Estimador de la varianza A la hora de elegir un estimador de estimador ms natural: , podemos comenzar con el
Podemos comprobar que cuando el carcter que se estudia sobre la poblacin es Normal, en realidad este es el estimador mximo verosmil para la varianza. Sin
embargo se comprueba tambin su falta de sesgo, lo que hace mas adecuado que se utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral Proposicin: Demostracin: Recuperamos el logaritmo de la funcin de verosimilitud escrita en la relacin anterior, donde en esta ocasin el primer parmetro ya fue obtenido por el mtodo de mxima verosimilitud (y vimos que era la media muestral) y tratamos de maximizarla con respecto al segundo parmetro:
Despejando de esta ecuacin se obtiene que el estimador mximo verosmil coincide con la varianza muestral,
Proposicin: El valor esperado del estimador no es Ms an, Demostracin Comenzamos escribiendo , y por tanto el estimador mximo verosmil para la varianza no es insesgado.
Luego
Cuasivarianza muestral Para tener un estimador insesgado de la varianza introducimos la cuasivarianza muestral que se define como
Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin del estimador es conocida:
luego
Es consecuencia de las relaciones anteriores que la distribucin de la cuasivarianza muestral es tal que
y los grados de libertad de la muestra ( n-1). La falta de simetra del mismo hace que su valor esperado (n-1) se desplace a la derecha de la moda (asimetra positiva).
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal cuando el tamao de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:
El estimador
Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla por la siguiente aproximacin:
Para encontrar el intervalo de confianza al nivel de significacin el intervalo que hace que la distribucin de
deje la probabilidad
del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles . As se puede afirmar con una confianza de que:
Ejemplo Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarn a favor y 65% que votarn en contra (suponemos que no hay indecisos para simplificar el problema). Con un nivel de significacin del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones. Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una variable Bernulli:
El parmetro a estimar en un intervalo de confianza con es p, y tenemos sobre una muestra de tamao n =100, la siguiente estimacin puntual de p: Sabemos que
En la prctica el error que se comete no es muy grande si tomamos algo ms simple como
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%. En la siguiente Figura podemos observar grficamente la interpretacin del clculo realizado. Figura: Regin a partir de la cual se realiza una estimacin confidencial para una proporcin, con una confianza del 95%.
Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la ley de distribucin no dependa de ningn parmetro desconocido, para ello estandarizamos:
Este es el modo en que se har siempre la estimacin puntual: se buscar una relacin en la que intervengan el parmetro desconocido junto con su estimador y de modo que estos se distribuyan segn una ley de probabilidad que es bien conocida y a ser posible tabulada. De este modo, fijado , consideramos la v.a. y tomamos un
intervalo que contenga una masa de probabilidad de . Este intervalo lo queremos tan pequeo como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a la media (0), ya que all es donde se acumula ms masa.
As las dos colas de la distribucin (zonas ms alejadas de la media) se repartirn a partes iguales el resto de la masa de probabilidad, . Vamos a precisar cmo calcular el intervalo de confianza: Regin de aceptacin Sea el percentil de Z, es decir, aquel valor de que deja por debajo de s
la cantidad
Sea
el percentil
, es decir,
Es til considerar en este punto la simetra de la distribucin normal, y observar que los percentiles anteriores son los mismos aunque con el signo cambiado:
El intervalo alrededor del origen que contiene la mayor parte de la masa ( intervalo siguiente:
) es el
De este modo podemos afirmar que existe una probabilidad de una muestra aleatoria de la variable en estudio, ocurra:
de que al extraer
De este modo un intervalo de confianza al nivel para la esperanza de una normal de varianza conocida es el comprendido entre los valores
Intervalo para la media cuando se desconoce la varianza de la poblacin Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, ya que lo usual es que sobre una poblacin quizs podamos conocer si se distribuye normalmente, pero el valor exacto de los parmetros y nuestro inters en buscar intervalos de confianza para ellos. no son conocidos. De ah
El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
Como se analiz en la Unidad 5. El Teorema del Lmite Central, en el tema 5.5 Distribuciones muestrales basados en la normalidad, se tiene una variable t con v grados de libertad. La nica diferencia entre el intervalo de confianza para la media cuando no se conoce la varianza es que se debe estimar este parmetro por medio de su estimador s. Ejemplo Se quiere estimar un intervalo de confianza al nivel de significacin para la
altura media de los individuos de una ciudad. En principio slo sabemos que la distribucin de las alturas es una v.a. X de distribucin normal. Para ello se toma una muestra de n=25 personas y se obtiene
Solucin: En primer lugar, en estadstica inferencial, los estadsticos para medir la dispersin ms convenientes son los insesgados. Por ello vamos a dejar de lado la desviacin tpica muestral, para utilizar la cuasidesviacin tpica:
, es conveniente utilizar el
es decir,
o dicho de forma ms precisa: Con un nivel de confianza del media poblacional est en el intervalo siguiente:
Figura: Clculo del intervalo de confianza para la media usando para ello la distribucin t de Student y la funcin de verosimilitud asociada, est tiene su mximo en , ya que esta estimacin puntual de es la mximo verosmil.
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad en la zona central de la distribucin:
Entonces un intervalo de confianza al nivel para la varianza de una distribucin normal (cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad de que:
Ejemplo En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obtenindose en una muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con individuos de la ciudad. Solucin: Para estimar un intervalo de confianza para nos resulta til es:
para la varianza
de la altura de los
con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales y calculados sobre la muestra.
1 X2
Finalmente, el intervalo de prediccin para un valor individual de la variables dependiente, con n-2 grados de libertad, es
t SX(siguiente)
Si la distribucin de la muestra es diferente de la distribucin de probabilidad que hemos asignado a priori a la poblacin, concluimos que probablemente sea errnea la suposicin inicial. Ejemplo Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de Ecuador. Antes de tomar una muestra, lo lgico es hacer la siguiente suposicin a priori, (hiptesis que se desea contrastar y que denotamos H0 ):
Al obtener una muestra de tamao n =8, podramos encontrarnos ante uno de los siguientes casos: a. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63} b. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78} Intuitivamente, en el caso a sera lgico suponer que excepto que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa, la hiptesis H0 debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0 sea cierta, sin embargo no podramos descartarla y la admitimos por una cuestin de simplicidad. Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste de hiptesis (tambin denominado prueba de hiptesis o Contraste de significacin) se decide si cierta hiptesis H0 que denominamos hiptesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la poblacin. Para realizar el contraste es necesario establecer previamente una hiptesis alternativa (H1 Ha) que ser admitida cuando H0 sea rechazada. Normalmente H1es la negacin de H0, aunque esto no es necesariamente as. La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccin de una muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los errores que se pueden cometer se clasifican como sigue: Error de tipo I: Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que se denomina nivel de significacin. Se denota con la letra
Error de tipo II: Es el error que consiste en no rechazar H 0 cuando es falsa. La probabilidad de cometer este error la denotamos con la letra
Elementos de una prueba estadstica: Hiptesis nula, H0 Hiptesis alterna H1 Estadstico de la prueba Regin de rechazo En este tema hemos estudiado dos de los cuatro elementos, para el siguiente tema se estudiarn los dos restantes.
El intervalo de aceptacin o ms precisamente, de no rechazo de la hiptesis nula, se establece fijando una cantidad suficientemente pequea denominada nivel de significacin, de modo que la probabilidad de que el estadstico del contraste tome un valor fuera del mismo -- regin crtica--
; Esto se ha de entender
Si H0 es correcta el criterio de rechazo slo se equivoca con probabilidad , que es la probabilidad de que una muestra d un valor del estadstico del contraste extrao (fuera del intervalo de aceptacin). Ejemplo En una encuesta poltica del candidato A se seleccionan n=15 votantes. Se desea probar H0: p = 0.5 frente a la hiptesis alternativa H 1: p < 0.5. el estadstico de prueba es T, el nmero de votantes en la muestra a favor del candidato A. Calcular si establecemos RR = {t 2} como la regin de rechazo. Solucin = P(error tipo I) = P( rechazar H0 cuando es verdadera H0) = P(de que el estadstico de la prueba se localice en RR cuando es verdadera H0) = P(T 2 cuando p = 0.5) Considerando que T es una variable Binomial con n=15 y p=0.5, se tiene = 0.004 (utilizando la tabla de probabilidades para la v.a. binomial) Por tanto vemos que si se decide utilizar la regin de rechazo RR= {t 2}, se asumen un riesgo muy pequeo de concluir que el candidato A perder las elecciones si, en realidad, es ganador. Observaciones: 1. Ntese que la hiptesis nula H0 contiene el valor investigado por probar del parmetro en cuestin. 2. La hiptesis alterna trata de probar que el porcentaje no es como el candidato piensa sino que es inferior. Esta hiptesis pudo haber sido diferente si quisieran probar que porcentaje es mayor, esta se transformara en p>0.5. Si solamente se hubiera querido demostrar que no es cierto este porcentaje la hiptesis alterna quedara p 0.5. 3. El valor del estadstico siempre es calculado por medio de los valores obtenidos de la muestra. 4. La regin de rechazo RR se la establece de acuerdo a ciertas condiciones preestablecidas cono son el nivel de significancia, y del valor obtenido de las tablas de probabilidades.
Potencia de la prueba Recuerde que la bondad de una prueba se mide por y , las probabilidades de los errores de tipo I y II, en donde se fija de antemano para determinar la regin de rechazo. Un concepto relacionado pero ms til para evaluar el funcionamiento de una prueba se denomina poder ( potencia) de la prueba. Bsicamente el poder de una prueba es la probabilidad de que la prueba rechace la hiptesis nula. Supongamos que T es un estadstico de la prueba y RR la regin de rechazo para la prueba de una hiptesis referente al valor de una parmetro . Entonces, el poder denotado por k(), es la probabilidad de que la prueba rechace H0 cuando el valor real del parmetro es . Es decir, k() = P(de que T est en RR cuando el valor del parmetro es ) Supngase que se desea probar la hiptesis nula H 0: = 0 y que 1 es un valor particular de es cogido para H1. El poder de la prueba para = 0, k(0), es igual a la probabilidad de rechazar H0 cuando es verdadera H0. Es decir, k(0) = , la probabilidad de un error tipo I. Para cualquier valor de para H1, el poder de una prueba se mide su capacidad para detectar que la hiptesis nula es falsa. Es decir, para = 1 k(1) = P(rechazar H0 cuando = 1) Dado que = P(aceptar H0 cuando = 1) tenemos que el poder de la prueba para 1 y la probabilidad de un error tipo II se relaciona como sigue: k(1) = 1 A continuacin ilustraremos dos ejemplos de curvas de poder o potencia Figura: tpica curva de poder o potencia para la prueba H0: = 0 frente a la alternativa H1: 0
Figura: curva de poder ideal para la prueba H0: = 0 frente a la alternativa H1: 0
Curvas OC Cuando el nivel de significancia y el tamao de muestra se mantienen constantes, la probabilidad de error tipo II disminuye a medida que el valor alternativo especfico de la media se aleja del valor de la hiptesis nula y aumenta a medida que Una curva caracterstica OC, describe grficamente la probabilidad de aceptar la hiptesis nula dados diversos valores alternativos de la media de la poblacin. La siguiente curva OC es aplicable a cualquier prueba de cola inferior de una media hipottica al nivel de significancia de 5% basada en el uso de la distribucin normal de probabilidad. Figura: curva de poder ideal para la prueba H0: = 0 frente a la alternativa H1: 0
Ntese que es aplicable a cualquier prueba de este tipo, porque los valores del eje horizontal han sido enunciados en unidades del error estndar de la media. Para cualesquiera valores a la izquierda de 0, la probabilidad de aceptacin indica la probabilidad del error tipo II. A la derecha de 0, las probabilidades indican la aceptacin correcta de la hiptesis nula. Tal como lo indican las lneas punteadas, cuando = 0, la probabilidad de aceptar la hiptesis nula es 1 o, en este caso, 1 0.05 = 0.95.
En los siguientes temas desarrollaremos algunos ejemplos de cmo aplicar las curvas OC y la potencia de la prueba.
7.4 Pruebas de hiptesis relativas a medias, varianzas, proporciones y cocientes de dos varianzas
en este tema se desarrollar un procedimiento para la prueba basada en el estimador que tiene aproximadamente una distribucin normal con media y varianza 2. ,
Los estimadores referidos en la unidad anterior como , con muestras grandes utilizados para estimar una media poblacional y proporcin poblacional p, respectivamente, satisfacen estos requerimientos. Junto con ellos, tambin lo hacen los estimadores para la comparacin de dos medias (1 2) y la comparacin de parmetros binomiales (p1 p2). Dentro del desarrollo de este tema se puede encontrar un resumen detallado de las pruebas de hiptesis para la media, la varianza y las proporciones.
posible que (desconocida) sea en realidad cierto valor fijado. Esto es un supuesto terico que nunca se dar en la realidad pero servir para introducir la teora sobre contrastes. El test se escribe entonces como:
Como hemos mencionado anteriormente, la tcnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con esta hiptesis quien es la distribucin del estadstico del contraste que este caso es lgico que deba estar muy relacionado con . Si al obtener una muestra concreta se tiene que se debe rechazar H0. Veamos esto con ms detalle: es un valor muy alejado de ,
Para poder acceder a las probabilidades de la normal, hemos normalizado (ya que los valores para hacer la normalizacin son conocidos). Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra
est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de significacin , y tomando como regin crtica , a los valores que son muy extremados y con probabilidad en total, o sea,
aceptando en consecuencia la hiptesis alternativa Figura: La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H0 cuando el estadstico zexp toma un valor comprendido en la zona sombreada de la grfica pequea, , o equivalentemente, cuando el estadstico . toma un valor en la
Test de una cola con varianza conocida Consideremos un contraste de hiptesis donde ahora la hiptesis alternativa es compuesta:
y como regin crtica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad , es decir
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis nula es Figura: Se rechaza la hiptesis nula, cuando uno de los estadstico Z o valor en la zona roja de sus grficas respectivas. toma un
Es evidente que si en el contraste de significacin (primer grfico), hubisemos tomado como hiptesis alternativa su contraria, es decir
por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis nula es (vase la figura de abajo y contrstese con la anterior):
Test de dos colas con varianza desconocida Sea donde ni ni son conocidos y queremos realizar el contraste
Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, . Por ello la distribucin del estimador del contraste ser una de Student, que ha perdido un grado de libertad, segn el teorema de Cochran (no evaluado en el curso presente), y la definicin de la distribucin de Student:
o sea
Observacin Para dar una forma homognea a todos los contrastes de hiptesis es costumbre denominar al valor del estadstico del contraste calculado sobre la muestra como valor experimental y a los extremos de la regin crtica, como valores tericos. Definiendo entonces
el resultado del contraste es el siguiente: Figura: Regin crtica para el contraste bilateral de una media.
tn-1 t
t T
es:
Figura: Regin crtica para uno de los contrastes unilaterales de una media.
definimos Texp y Tteo como anteriormente y el criterio a aplicar es: Figura: Regin crtica para el contrastes unilateral de una media contrario al anterior.
Ejemplo Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo normal. Deseamos contrastar con un nivel de significacin de = 0.05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo:
La tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadstico
es ``razonable" o no bajo esta hiptesis, para el nivel de significacin dado. Aceptaremos la hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si no lo es, es decir, si
no es 174, no .
hay una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del Es decir, no se rechaza H0.
Figura: El valor de Texp no est en la regin crtica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, sta hiptesis no se rechaza.
Ejemplo Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm. Solucin: Ahora el contraste es
Para realizar este contraste, consideramos el caso lmite y observamos si la hiptesis nula debe ser rechazada o no. Este es:
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadstico
es aceptable bajo esta hiptesis, con un nivel de confianza del . Se aceptar la hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si
Recordamos que el valor de Texp obtenido fue de Texp=-1'959< t24,0'05= -t24,0'95 = -1'71 Por ello hemos de aceptar la hiptesis alternativa Figura: El valor te Texp est en la regin crtica, por tanto existe una evidencia significativa en contra de H0, y a favor de H1.
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no exista una evidencia significativa para decir que cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versin unilateral nos conduce a rechazar de modo significativo que y aceptamos que cm. Es por ello que podemos decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes:
Supongamos que poseemos una sucesin de observaciones independientes, de modo que cada una de ellas se comporta como una distribucin de Bernoulli de parmetro p:
La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es por definicin una v.a. de distribucin binomial:
frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de contraste) que ya fue considerado anteriormente en la construccin de intervalos de confianza para proporciones y que sigue una distribucin aproximadamente normal para tamaos muestrales suficientemente grandes:
. Entonces se define
siendo el criterio de 56nilateral o rechazo de la 56nilatera nula el que refleja la siguiente figura: Figura: Contraste bilateral de una 56nilateral.
La figura siguiente expresa el criterio de aceptacin o rechazo a seguir: Figura: Contraste unilateral cuando
Luego
Contrastes sobre la diferencia de proporciones Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotmico (Bernoulli):
Si X1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial:
de modo que los estimadores de las proporciones en cada poblacin tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada poblacin es una cantidad conocida
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeo cuando los tamaos muestrales son importantes:
Entonces se define
o si
se rechazar H0 si
se rechaza H0 si
frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales o unilaterales. La tcnica consiste en observar que el siguiente estadstico experimental que utiliza el estimador insesgado de la varianza, posee una distribucin grados de libertad: , con n-1
Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas que se formulen en cada caso atendiendo a la ley de distribucin Contraste bilateral Cuando el contraste a realizar es .
definimos
y el criterio que suministra el contraste es el expresado en la siguiente figura: Figura: Contraste bilateral de una varianza.
se tiene que el resultado del mismo es el que refleja la siguiente figura: Figura: Contraste . unilateral del tipo
Tabla: Estadsticos asociados a una muestra aleatoria simple, procedente de una poblacin normal.
ambas ( ), del modo . Este modo de escribir la diferencia entre varianzas (que era el adecuado para las medias) no es sin embargo fcil de utilizar para las varianzas, de modo que nos ser ms fcil sacarle partido a las expresiones de las relaciones entre varianzas como
Por ejemplo, si R =1 tenemos que ambas varianzas son iguales. Consideramos entonces la hiptesis nula
Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocida cuando H0 es cierta --vase la definicin de la distribucin de Snedecor:
Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo toma valores positivos, se rechazar la hiptesis nula cuando el el valor que tome el estadstico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien, muy grande. Es decir, se define el estadstico experimental y los lmites de la regin crtica como:
dada la no simetra de F. A la hora de usar una tabla de la distribucin podemos tal vez encontrar que no est tabulada para los valores pequeos, pero si para . Una regla que es de bastante utilidad para estos casos es la siguiente
y entonces
Ejemplo Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula fotoelctrica durante 24 horas. Los datos obtenidos fueron los siguientes:
Ratas de control
n1=25
Ratas desnutridas n2=36 Se observan diferencias significativas entre el grupo control y el grupo desnutrido? Solucin: En primer lugar, por tratarse de un problema de inferencia estadstica, nos sern ms tiles las cuasivarianzas que las varianzas. Por ello calculamos:
El contraste que debemos realizar est basado en el de la de Student para la diferencia de medias de dos poblaciones. Para ello conocemos dos estadsticos posibles, segn que las varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales (homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el contraste:
ya que as no es necesario calcular el extremo inferior para la regin donde no se rechaza H0. En este caso:
Como , no podemos concluir (al menos al nivel de significacin que H0 deba ser rechazada. Figura: No hay evidencia significativa para rechazar la homocedasticidad. El estadstico del contraste ha sido elegido de modo que el numerador de Fexp sea mayor que el denominador, es decir, Fexp>1.
Por lo tanto no rechazamos la hiptesis de homocedasticidad (que las dos son iguales) de ambas poblaciones, y pasamos a contrastar la igualdad de las medias
utilizando el estadstico ms sencillo (el que no necesita aproximar los grados de libertad mediante la frmula de Welch). Para ello calculamos en primer lugar la cuasivarianza muestral ponderada:
y posteriormente
Como concluimos que se ha de rechazar la hiptesis de igualdad de las medias, y por tanto aceptamos que las medias son diferentes. Adems, como se aprecia en la figura siguiente, la evidencia a favor de la hiptesis alternativa es muy alta, y se puede afirmar que con gran probabilidad la media poblacional de las ratas de control es mayor que la de las ratas desnutridas. Figura: Hay una gran evidencia en contra de la hiptesis de que ambas medias poblacionales coincidan, y a favor de que la de la primera poblacin es mayor que la de la segunda.
No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una mejora con el tratamiento, llamemos di a la diferencia entre las observaciones antes y despus del tratamiento di = xi-yi Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas
en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos conviene es
donde es la media muestral de las diferencias diy es la cuasivarianza muestral de las mismas. El tipo de contraste sera entonces del mismo tipo que el realizado para la media con varianza desconocida. Contraste bilateral
Entonces se define
entonces se rechaza H0 si
se rechaza H0 si Observacin
No supone ninguna dificultad el haber realizado el contraste con entonces el estadstico del contraste es
conocida, ya que
pasteles son idnticas. La hiptesis alternativa, que implica una prueba de dos colas, es que las distribuciones difieren en ubicacin. Realizaremos nuestra prueba utilizando = 0.10, porque la cantidad de datos es pequea. De la tabla de valores crticos de T en la prueba de Wilcoxon, vemos que el valor crtico de T para una prueba de dos colas y = 0.10, es T0 = 2. por tanto rechazaremos H0 si T 2. Dado que hay solamente una diferencia positiva que tiene el rango 3, T + = 3y T-- = 18, y por lo tanto no hay evidencia suficiente para indicar una diferencia ente las distribuciones de frecuencias de las dos poblaciones de las densidades de las poblaciones de los pasteles. Ya que no es posible rechazar H0 para = 0.10, solamente podemos afirmar que el valor p > 0.10.
Los nmeros ente parntesis son las estimaciones de las frecuencias esperadas de las celdas. El objetivo es probar la hiptesis nula de que el tipo de defecto es independiente del turno de produccin, frente a la alternativa de que las dos categoras son dependientes. Es decir, queremos probar H0: la clasificacin por columnas es independiente de la clasificacin por renglones. Sea pA igual a la probabilidad incondicional de que un efecto sea del tipo A. Asimismo, se definen pB, pC, y pD como las probabilidades de observar los otros tres tipos de defectos. Entonces estas probabilidades, que llamaremos probabilidades de columna de la tabla anterior, satisfacen la condicin: pA + pB + pC + pD = 1 De igual manera sea pi (i = 1,2 o 3) igual a la probabilidad de rengln de que un defecto provenga del turno i, en donde p1 + p2 + p3 = 1 La hiptesis nula especifica solamente que la probabilidad cada celda ser igual al producto de sus respectivas probabilidades de rengln y de columna, lo que implica la independencia de las dos clasificaciones.
Tenemos que estimarlas probabilidades de columna y de rengln para poder estimar las frecuencias esperadas de las celdas. Como hemos observado, se pueden utilizar las estimaciones de las frecuencias esperadas de las celdas en lugar de los E(n i) en la expresin de X 2, y X2 todava tendr una distribucin que se puede aproximar por una distribucin de probabilidad 2 en un muestreo repetitivo. Sea nij la frecuencia observada en el rengln i y la columna j de la tabla de contingencia, y sea pij la probabilidad de que una observacin caiga en esta celda. pij es simplemente la frecuencia relativa observada para esta celda, es decir
ij
= nij / n,
i =1,...,r; j = 1,...,c
Asimismo, al considerar el rengln i como una sola celda, la probabilidad para el rengln i est dada por pi y por lo tanto
ij
= ri / n
donde r denota el nmero de observaciones en el rengln i) es el estimador de mxima verosimilitud de pi. Anlogamente la probabilidad para la columna es cj/n, en donde cj denota el nmero de observaciones en la columna j. El valor esperado de la frecuencia de celda observada n ij para una tabla de contingencia, es igual al producto de sus respectivos totales de rengln y de columna, dividido entre la frecuencia total. Es decir, ( nij ) = rij / n Finalmente se construye el estadstico de la prueba por medio de las frecuencias esperadas y observadas X2 = [nij - (nij)]2 / (nij)
El nico obstculo restante es la determinacin del nmero apropiado de grados de libertad asociados con el estadstico de la prueba. Para ello se establece una regla que trataremos de justificar. Los grados de libertad asociados con una tabla de contingencia que tiene r renglones y c columnas siempre son iguales a (r 1) (c 1). Para el ejemplo planteado compararemos X2 con el valor crtico de una 2 con (r-1)(c-1) = (3-1)(4-1) = 6 grados de libertad. X2 = [nij - (nij)]2 / (nij) = (15 22.51)2/ 22.51 + (26 22.99)2/22.99 + ... + (20 - 14.63)2/14.63 = 19.17
Por lo tanto si utilizamos = 0.05, rechazaremos la hiptesis nula de que las dos clasificaciones son independientes si X2 > 12. 592. Dado que el valor del estadstico de la prueba, X2 = 19.17, es mayor que el valor crtico de 2, rechazamos la hiptesis nula a nivel de significancia de = 0.05.El valor p asociado se da por valor p = P( 2 > 19.17). Una tabla de contingencia es un arreglo rectangular en el que se expresan los efectos de un factor horizontal A y un factor vertical B, sobre los elementos de una misma poblacin. A tiene c niveles, B tiene r niveles Factor B Nivel 1 2 ... r 1 X11 X21 ... Xr1 X.1 Factor A 2 X12 X22 ... Xr2 X.2 ... ... ... ... ... c X1c X2c ... Xrc X.c
Xij es el nmero de elementos bajo el nivel i de A y la columna j de B La idea es verificar si el factor A y el B son independientes por medio de un contraste de hiptesis como se muestra en el ejemplo anterior.
Sea X una v.a. cuyo rango son los valores probabilidad de cada valor;
Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribucin Binomial
pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de un experimento aleatorio es una clase c1, c2, ..., ck(ci, ), que puede representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las cantidades pi son correctas o no, en funcin de los resultados experimentales
Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a partir de ella unas frecuencias observadas de cada clase que representamos mediante , , ..., Clase Frec. Abs. ci c1 c2 ... ck ...
Supongamos que la hiptesis nula es cierta. Al ser pi =pi0 la proporcin de elementos de la clase ci en la poblacin, el nmero de individuos de que presentan esta modalidad al tomar una muestra de tamao n, es una v.a. de distribucin binomial, tanto la frecuencia esperada de individuos de esa clase es . Por
Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente se obtienen en una muestra, las frecuencias esperadas no tienen por que ser nmeros enteros. De cualquier modo, bajo la suposicin de que H0 es cierta cabe esperar que las diferencias entre las cantidades Pearson propuso el estadstico y sea pequea.
el cual, siguiendo la lnea de razonamiento anterior debe tomar valores pequeos si H0 es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la hiptesis inicial es probablemente falsa. Para decidir cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente resultado
es decir,
Observacin A pesar de que el contraste parece ser bilateral la forma de , nos indica que el contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo observado, pero no podemos contrastar hiptesis alternativas del tipo `` pi mayor que cierto valor''. Observacin Obsrvese que en realidad no es una variable aleatoria continua: Los posibles , , ..., , que nicamente
resultados de la muestra se resumen en las cantidades toman valores discretos. Luego las cantidades
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con decimales). Por tanto su distribucin no es continua. Luego al realizar la aproximacin mencionada hay que precisar en qu condiciones el error cometido es pequeo . De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la aproximacin binomial por la distribucin normal: 1. 2. n>30; para todo .
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se utiliza entonces una regla ms flexible y que no sacrifica demasiada precisin con respecto a la anterior: 1. 2. ellos. Para ninguna clase ocurre que para casi todos los , salvo a lo sumo un de
Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos elementos con sus adyacentes. Observacin El lector puede considerar los contrastes con el estadstico como una generalizacin del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo. Ejemplo Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el resto son mujeres. Qu conclusiones se obtiene de ello? Solucin: El contraste a realizar se puede plantear de dos formas que despus veremos que son equivalentes: Contraste de una proporcin: Si p es el porcentaje de hombres en la poblacin de enfermos, podemos considerar el contraste:
De la muestra obtenemos la siguiente estimacin puntual del porcentaje de enfermos de sexo masculino:
Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos la significatividad del contraste:
Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la distribucin normal):
Lo que nos indica que se ha de rechazar la hiptesis nula y aceptar la hiptesis alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la hiptesis de que la enfermedad no afecta por igual a hombres y mujeres. Contraste con el estadstico : En este caso planteamos el contraste:
Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres, junto a los valores esperados en el caso de que la hiptesis nula fuese cierta: frecuencias observadas frecuencias esperadas diferencia
Hombres Mujeres
9 -9 0
donde: k =2 es el nmero de modalidades posibles que toma la variable sexo: hombres y mujeres; p =0 es el nmero de parmetros estimados; h =1 es el nmeros de restricciones impuestas a los valores esperados. Slo hay una (que es habitual), que consiste en que el nmero esperado de enfermos entre hombres y mujeres es 60. El estadstico calculado sobre la muestra ofrece el valor experimental:
En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo porcentaje de hombres y mujeres que padecen la enfermedad. La ventaja de la ltima forma de plantear el contraste (diferencia entre frecuencias observadas y esperadas) es que la tcnica se puede aplicar a casos ms generales que variables dicotmicas, como se ver ms adelante. Observacin Hay una frmula alternativa para el clculo de cuando realizamos clculos: cuya expresin es ms fcil de utilizar
Demostracin
Distribuciones con parmetros desconocidos Supongamos que la distribucin de X que queremos contrastar no especifica ciertos valores de r parmetros
Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependen del nico parmetro que debe ser estimado a partir de la muestra ( r=1): Realizando esta estimacin
es aproximadamente
Contraste de una distribucin normal Si queremos contrastar si una v.a. X se distribuye normalmente
podemos realizar el contraste correspondiente mediante la tcnica del estadstico tomando una muestra, estimando los parmetros mediante y , y agrupando las observaciones (continuas) en un nmero finito, k, de intervalos. No rechazaremos entonces la normalidad de X si las probabilidades esperadas de los intervalos no son muy diferentes de las obtenidas sobre la muestra, es decir,
Intervalo
- e1
e1 - e2
e2 - e3
...
...
...
...
...
Distribuciones de parmetros conocidos Deseamos contrastar si la v.a. X sigue una ley de distribucin
donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionado anteriormente, el contraste consiste en:
En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejor cuanto mayor sea n. Ejemplo Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn las leyes de Mendel, debe estar compuesto del siguiente modo: Leyes de Mendel Frecuencias Fenotipo relativas AB Ab aB ab 9/16 3/16 3/16 1/16
Elegidos 300 individuos al azar de cierta poblacin se observa la siguiente distribucin de frecuencias: Frecuencias Fenotipo observadas AB Ab aB ab Total 165 47 67 21 300
Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha poblacin? Solucin: El contraste a realizar es:
Para ello vamos a representar en una sola tabla las frecuencias observadas, junto con las que seran de esperar en el caso de que H0 fuese cierta: Fenotipo AB Ab aB ab Total 165 47 67 21 300 300 161,33 42,27 85,91 23,52 313,03
ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucin segn las leyes de Mendel es conocida), y sobre las cantidades Ei existe solamente una restriccin, que es: Por otro lado, .
distribucin . Por tanto la significatividad del contraste es del , lo que nos conduce a rechazar la hiptesis de que la poblacin de la que la muestra ha sido extrada sigue las leyes de Mendel. Al mismo resultado llegamos sin calcular con precisin la significatividad del contraste, sino considerando que el valor terico mximo que admitimos para el estadstico experimental con un nivel de significacin del 5% es el percentil 95 de , es decir,
Obsrvese tambin que el que se haya rechazado la hiptesis nula significa que hay diferencia estadsticamente significativa entre las frecuencias observadas y las esperadas, aunque a primera vista no lo hubisemos percibido en el grfico de la Figura siguiente:
Figura: Aunque aparentan ser aproximadamente iguales las frecuencias observadas y esperadas, existe diferencia estadsticamente significativa entre ellas.
8.1 El modelo de Regresin Lineal es estimado usando el Mtodo de los Mnimos Cuadrados
un procedimiento para estimar los parmetros de cualquier modelo lineal es el mtodo de los mnimos cuadrados, que se puede ilustrar sencillamente aplicndolo para ajustar una lnea recta a travs de un conjunto de puntos que representan los datos. Supngase que se desea ajustar el modelo E(Y) = 0 + 1 x Al conjunto de datos mostrados en la siguiente figura Figura: Ajuste de una lnea recta a travs de un conjunto de puntos
(Ntese que la variable independiente x podra ser w2 o bien (w)1/2 o an ln w, y as sucesivamente, para alguna otra variable independiente w).
Es decir se postula que Y = 0 + 1x + en donde es una v.a. Si 0 y 1 son estimadores de los parmetros 0 y 1, entonces = 0 + 1x es obviamente un estimador de E(Y). El procedimiento de los mnimos cuadrados para ajustar una recta a travs de un conjunto de n puntos es similar al mtodo de que podramos utilizar para ajustar una recta a simple vista; es decir, se pretende que las desviaciones sean pequeas en cierto sentido. Una manera conveniente de lograr esto, es minimizar la suma de los cuadrados de las desviaciones verticales de la recta ajustada, por lo tanto si =
0
es el valor que se predice del i-simo valor de y (cuando x = xi), entonces la desviacin del valor observado de y a partir de la recta (llamada a veces el error) es yi i y la suma de los cuadrados de las desviaciones que deben minimizar es SCE = (yi i)2 = [y i ( + x)]2
La cantidad SCE se llama suma de los cuadrados de los errores por motivos que sern obvios en seguida. Si se tiene un mnimo este ocurrir para los valores de ecuaciones, SCE / SCE / =0 1 = 0
0 0
Al obtener los valores de las derivadas parciales de SCE con respecto a 1,respectivamente, y al igualarlas a cero, se obtienen las ecuaciones SCE / =-2( yi - n xi) = 0
SCE / 1 = - 2 ( xi yi - 0 xi - 1 xi2) = 0 ntese que las ecuaciones de mnimos cuadrados son lineales en 0 y 1, y por lo tanto se pueden resolver simultneamente. Puede verificarse que las soluciones son
Adems se puede demostrar que la resolucin simultnea de las dos ecuaciones de los mnimos cuadrados produce valores de 0 y 1 que minimizan SCE. Ejemplo Aplicar el mtodo de los mnimos cuadrados para ajustar una lnea recta a travs de los n=5 datos contenidos en la siguiente tabla: x -2 -1 0 1 2 y 0 0 1 1 3
Solucin Empezaremos por construir la tabla para calcular los coeficientes de las ecuaciones de los mnimos cuadrados. Entonces se tiene: xi -2 -1 0 1 2 xi= 0 yi 0 0 1 1 3 yi = 5
0
xi yi 0 0 0 1 6 xi yi = 7 y
1
xi2 4 1 0 1 4 xi2 = 10
y la recta ajustada es = 1 + 0.7 x y se muestran los cinco puntos y la recta ajustada en la siguiente figura
Figura: representacin de los puntos y la recta de los mnimos cuadrados para el ejemplo.
Como se predice un valor futuro, Y, que no se utiliz en el clculo de , sigue que Y y son independientes y por lo tanto que la covarianza de Y y es igual a cero. Entonces V() = V(Y ) + V()
Por lo tanto el error tiene una distribucin de probabilidad normal con media cero y varianza 2
Obsrvese que x es cero si se toma la observacin de la poblacin 1 y que x es 1 si se toma la observacin de la poblacin 2. Si utilizamos x como una variable independiente en un modelo lineal, puede utilizarse el modelo de Yij como Yij = 0 + 1 x + ij En donde ij es un error aleatorio con distribucin normal con E( ij) = 0, y V(ij) = . En este modelo 1 = E(Y1 j) = 0 2 = E(Y2 j) = 0 + 1 Por lo tanto 1 = 1 + 2 y una prueba de la hiptesis 2 - 1 = 0 es equivalente a la prueba de que 1 = 0. Por intuicin se indica que 0 = 1 y 1 = 2 - 1 son estimadores adecuados de 0 y 1. Se puede demostrar que realmente estos son los estimadores por mnimos cuadrados que se obtienen ajustando el modelo lineal formulado antes.
Ejemplo En la tabla siguiente se dan los valores codificados de la medicin de elasticidad de un plstico, producido mediante dos procesos diferentes, para muestras A 6.1 7.1 7.8 6.9 7.6 8.2 B 9.1 8.2 8.6 6.9 7.5 7.9
De tamao seis extradas aleatoriamente de cada uno de los dos procesos. Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad media de los procesos? Solucin Aunque en este ejercicio se podra utilizar la t de Student como el estadstico de la prueba, aplicaremos la prueba F del anlisis de varianza, ya que es ms general y se la puede utilizar para comparar ms de dos medias. Las tres sumas de cuadrados de las desviaciones deseadas son
Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las desviaciones para las dos muestras. Tambin obsrvese que SC Total = SCT + SCE. Los cuadrados medios para el tratamiento y el error son, respectivamente CMT = CME = SCT / 1 = 1.6875 5.8617 / 10 = 5.8617
SCE / (2n1 2) =
F = CMT / CME =
1.6875 / 0.58617 =
2.88
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F > 2.88) que segn la tabla para la v.a. F, es tal que p > 0.10. Observacin El propsito de este ejemplo era explicar los clculos implicados en un anlisis de varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de student, porque un estadstico F con un grado de libertad en el numerador es igual a t2. Puede verificarse fcilmente que el cuadrado de t0.025 = 2.228 (que se utilizara como una prueba de dos colas con = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si se hubiere utilizado la prueba t para el ejemplo anterior, habramos obtenido t = -1.6967, que satisface la relacin t2 =(-1.6967)2 = 2.88 = F.
Es decir, suponemos que la esperanza condicional de Y para un valor fijo de X es una funcin lineal del valor de x. En general, suponemos que el vector variables aleatorio, (X, Y), tiene distribucin normal bivariable, en tal caso se puede demostrar que E(Y | X = x) = 0 + 1 x La teora estadstica para hacer inferencias acerca de los parmetros 0 y 1 es exactamente la misma para ambos casos, pero deben recordarse siempre las diferencias en la interpretacin del modelo. Para el caso (X, Y) el investigador puede estar interesado nicamente en saber si X y Y son v.a. independientes. Si (X, Y) tiene una distribucin normal bivariable, entonces la prueba de la independencia equivale a probar que el coeficiente de correlacin es igual a cero. Recurdese que es positivo si X y Y tienden a aumentar y que es negativo si Y decrece cuando X crece. Sea (X1, Y1), (X2, Y2),..., (Xn, Yn) una muestra aleatoria de una poblacin normal bivariada. El estimador de mxima verosimilitud de est dado por el coeficiente de correlacin muestral
Ntese que el numerador de r es exactamente igual al numerador del estimador de 1, como ambos denominadores de r y 1 son no negativos, se sigue que r y 0 tienen el mismo signo. Parecera lgico utilizar r como un estadstico de prueba para probar hiptesis acerca de , pero se presentan dificultades ya que es difcil obtener la distribucin para r. Se puede superar este problema en muestras bastantes grandes al utilizar el hecho de que (1/2) ln[(1 + r) / (1 r)] tiene aproximadamente una distribucin normal con media (1/2) ln[(1 + ) / (1 )] y varianza 1 / (n 3). Por lo tanto para probar la hiptesis H0: = 0, podemos utilizar una prueba z en la cual
La forma de la regin de rechazo depende de la hiptesis alternativa, si es la probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor inters y las regiones de rechazo correspondientes son H1: > 0. H1: < 0. H1: 0. RR: z > z. RR: z < z. RR: | z | > z/2.
Adems el coeficiente de determinacin R2 se lo puede obtener de la siguiente manera R2 = SC Regresin / SC Total El R2 cambia con el modelo a diferencia del xy el cual no cambia con el modelo. Cuando el R2 es el coeficiente de determinacin del modelo y = 0 + 1xi + i; i ~ N(o, 2). Tmese la raz positiva si 1 es positivo y la raz negativa si 1 es negativo. En cada modelo hay un R2, ya que cambia de acuerdo al modelo. Ejemplo Los datos en la siguiente tabla representan una muestra de los resultados de un examen de aprovechamiento en matemticas y de las calificaciones de clculo para diez estudiantes seleccionados independientemente, de primer ao. Con esta evidencia, se concluira que los resultados del examen de aprovechamiento en matemticas y las calificaciones de clculo son independientes? Utilice = 0.05. obtener el correspondiente nivel de significacin alcanzado.
Estudiante Resultado de la prueba Calificacin final de de aprovechamiento clculo de matemticas
1 2 3 4 5 6 7
39 43 21 64 57 47 28
65 78 52 82 92 89 73
8 9 10 Solucin
75 34 52
98 56 75
Al denotar por x los resultados del examen de aprovechamiento y por y las calificaciones de clculo, tenemos que
xi = 460
yi = 760
xi2 = 23.637
yi2 = 59.816
xi yi = 36.854 As
proponemos como hiptesis nula que X y Y son independientes, o bien, al suponer que (X, Y) tiene una distribucin normal bivariable, probamos H0: = 0 frente a H1: 0. El valor del estadstico de la prueba es
Ya que z/2 = z .025 = 1.96, el valor observado del estadstico de la prueba cae en la regin de rechazo, por lo tanto, los datos sugieren firmemente que los resultados del examen de aprovechamiento y las calificaciones de clculo son dependientes. Ntese que = 0.05 es la probabilidad de que nuestro estadstico de prueba caiga en la regin de rechazo cuando es verdadera H0. Por lo tanto, se confa bastante en que hemos tomado una decisin correcta. Como se aplica una prueba de dos colas, el valor p = 2 P(Z > 3.231). De los valores obtenidos de la tabla de probabilidades de la normal, sigue que P(Z > 3.231) < P(Z > 3.00) = 0.001. Por lo tanto, el valor p < 2 (0.001) = 0.002 y para cualquier valor de mayor que 0.002 (lo que incluye = 0.05, como se utiliz al inicio de este anlisis) concluiremos que 0.
Coeficiente de correlacin El coeficiente de correlacin lineal de la poblacin, , se relaciona con la covarianza y se define como = Cov(X1, X2) / 1 2 donde 1 y 2 son las desviaciones estndar de X1 y X2 respectivamente. Coeficiente de Determinacin R2 se define como
= bT XT y n
= yT y bT XT y
)2 + ... + (yn
)2
Existe la matriz de Varianzas y Covarianzas de los estimadores = [cov(bi, bj)]; i, j = 1, ..., p-1
(Donde p representa el nmero de parmetros que se deben estimar) = MC Error (XT X)-1 En la tabla ANOVA se tiene que F = MC Reg / MC Error ~ F (p-1, n-p)
vs
H1: H0
Con (1 ) 100% de confianza rechace Ho a favor de H1 si F > F (p-1, n-p) Para determinar cual de los i no es cero, se realizan intervalos de confianza de la siguiente manera bk Sbk t /2 k bk + Sbk t /2 (un intervalo de confianza de (1 )100% de confianza para k) Para contraste de hiptesis H0: k = 0 vs H1: H0
El modelo estadstico lineal que relaciona una respuesta aleatoria Y con un conjunto de variables independientes x1, x2,..., xk tiene la forma Y = 0 + 1 x1 +...+ k xk + En donde 0, 1,..., k son parmetros desconocidos, es una v.a. y x1, x2,..., xk son constantes conocidas. Supondremos que E() = 0 y por lo tanto que E(Y) = 0 + 1 x1 +...+ k xk Obsrvese la interpretacin fsica del modelo lineal Y. Decimos que Y es igual a un valor esperado, 0 + 1 x1 +...+ k xk (una funcin de las variables independientes x1, x2,..., xk), ms un error aleatorio . Desde un punto de vista prctico, , traduce nuestra incapacidad de tener un modelo exacto de la realidad. En una experimentacin repetida Y flucta alrededor de E(Y) en una manera aleatoria porque no hemos podido incluir en nuestro modelo toda la gran cantidad de variables que afectan a Y. Afortunadamente, el efecto neto de estas variables indeterminadas, y que la mayora de las veces son desconocidas, hacen que Y vare de manera que puede calcularse adecuadamente mediante la suposicin de un comportamiento aleatorio.
variable independiente es significativamente mayor, la prueba F rechazar la hiptesis de que la variable independiente no tiene efecto y generar evidencia que indique una relacin con la respuesta. Tabla de anlisis de varianza para un diseo completamente aleatorizado La siguiente es la tabla de anlisis de varianza Fuente Tratamientos Error Total g.l. k1 nk n-1 SC SCT SCE SC Total CM CMT CME F CMT / CME
g.l. representan los grados de libertad; k es el nmero de tratamientos; n es el nmero de observaciones; SCT es la suma cuadrtica del tratamiento y est dada por
CMT es la divisin entre la SC Tratamiento para sus grados de libertad (SCT / k-1); CME es la divisin de la SCE para sus grados de libertad (SCE / n-k); Por ltimo se obtiene el estadstico F que es la divisin entre CMT y CME, los grados de libertad son en el numerador los g.l. de la SCT y en el denominador los g.l. de la SCE. Ejemplo En la tabla siguiente se dan los valores codificados de la medicin de elasticidad de un plstico, producido mediante dos procesos diferentes, A 6.1 7.1 7.8 6.9 7.6 8.2 B 9.1 8.2 8.6 6.9 7.5 7.9
para muestras de tamao seis extradas aleatoriamente de cada uno de los dos procesos. Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad media de los procesos?
Solucin Aunque en este ejercicio se podra utilizar la t de Student como el estadstico de la prueba, aplicaremos la prueba F del anlisis de varianza, ya que es ms general y se la puede utilizar para comparar ms de dos medias. Las tres sumas de cuadrados de las desviaciones deseadas son
Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las desviaciones para las dos muestras. Tambin obsrvese que SC Total = SCT + SCE. Los cuadrados medios para el tratamiento y el error son, respectivamente CMT = CME = SCT / 1 = 1.6875 5.8617 / 10 = .58617
SCE / (2n1 2) =
Para probar la hiptesis nula 1 = 2, se calcula el estadstico de prueba F = CMT / CME = 1.6875 / 0.58617 = 2.88
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F > 2.88) que segn la tabla para la v.a. F, es tal que p > 0.10. Observacin El propsito de este ejemplo era explicar los clculos implicados en un anlisis de varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de student, porque un estadstico F con un grado de libertad en el numerador es igual a t2. Puede verificarse fcilmente que el cuadrado de t0.025 = 2.228 (que se utilizara como una prueba de dos colas con = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si se hubiere utilizado la prueba t para el ejemplo anterior, habramos obtenido t = -1.6967, que satisface la relacin t2 =(-1.6967)2 = 2.88 = F.
8.7.1 Modelos que involucran variables cuantitativas Los modelos que involucran variables cuntitativas son los que se han estado analizando a lo largo de la unidad, es decir, estos modelos no se pueden analizar cuando se tiene el tipo de variable cualitativa, para el cual existe otro tipo de investigacin, el cual no es objeto de estudio en este curso. Todos los ejemplos que se encuentran en la presente unidad pertenecen a estos tipos de modelos. 8.7.2 Modelos para un diseo Experimental de dos factores Los modelos para un diseo bifactorial o de dos factores es el mismo que se estudi en la unidad 7 tema 6, y en la unidad 8 tema 4. En ambos casos se presentan ejemplos ilustrativos que ayudarn a entender mejor la aplicacin de estos modelos. 8.7.3 Principios de Confiabilidad Si Y denota la duracin de un componente y F(y) es la funcin de distribucin de Y, entonces a P(Y > y) = 1 F(y) se le denomina la Confiabilidad del componente. Ejemplo Supongamos que un sistema consta de cuatro componentes con funciones de confiabilidad idnticas, 1 F(y), que funcionan como se indica en el siguiente diagrama Figura: Diagrama de componentes
El sistema funciona cuando opera una cadena intacta de componentes entre A y B. Si los cuatro componentes funcionan independientemente, encuentre la confiabilidad del sistema, en trminos de F(y). Solucin Observando el diagrama podemos ver que para que el sistema funcione deben trabajar a la vez C1 y C2 y C3 C1 y C2 y C4 dado que no funciona C3, lo que equivale a: Cs = P(funcione C1 ) * P(funcione C2 ) * P(funcione C3) + [P(funcione C1 ) * P(funcione C2 ) * P(funcione C4)] * [P(no funcione C3)] Cs = (1 F(y)) * (1 F(y)) * (1 F(y)) + [(1 F(y)) * (1 F(y)) * (1 F(y))] * [1 (1 F(y))] = [(1 F(y))]3 + [(1 F(y))]3 * [1 1 + F(y)]
tratamientos a las unidades en cada bloque, y cada tratamiento aparece exactamente una sola vez en cada bloque. En la unidad 8 tema 3 encontramos un ejemplo que demuestra la aplicacin del tema.
LC (lnea central) equivale al valor medio de los datos obtenidos LCS (lmite de control superior) es el valor obtenido de + 3 LCI (lmite de control inferior) es el valor obtenido de - 3 Recordemos que: P ( - 3 x + 3 ) = 0.99 P ( - 2 x + 2 ) = 0.95 P ( + x + ) = 0.68 Al realizar el contraste de hiptesis en el proceso, aparecen las siguientes hiptesis: hiptesis nula, es que el proceso est estable y que solamente existen causas comunes de variacin. La hiptesis alterna, es que el proceso incluye variaciones por causas especiales. El resultado del control estadstico de procesos se presenta en la siguiente tabla Condicin del Proceso H0 cierta: Estable H0 falsa: Inestable Decisin correcta Error tipo II: Permitir la continuacin de un proceso inestable. Error tipo I: Ajuste Decisin correcta de un proceso estable
Decisin
Cuando el proceso est fuera de control? Existen ocho pruebas para detectar la variacin por causas especiales. Prueba 1: un punto fuera de la zona A Prueba 2: Nueve puntos Prueba 3: Seis puntos seguidos al mismo lado de seguidos crecientes o la lnea central decrecientes
Prueba 5: Dos de tres puntos en la zona A o ms all (a uno de los lados de la lnea central)
Prueba 6: Cuatro de cinco puntos seguidos en la zona B o ms all (a uno de los lados ...)
Prueba 8: Ocho puntos seguidos ms all de la zonas C (a ambos lado la lnea central)
En la siguiente tabla se muestra un resumen las frmulas para las cartas de control ms usuales Carta Distribucin supuesta Normal Normal Binomial Poisson +3 +3 Lnea central Lnea superior + A2 D4 -3 -3 , para el rango R, la Lnea inferior - A2 D3
R p c
Como podemos ver existen cartas de control para la media proporcin p, y para la cantidad c.
es el promedio de las medias obtenidas de los valores observados A2, D3 y D4 son valore obtenidos de la tabla de factores para grficas de control para ajustar los valores obtenidos en la formacin de los lmites de control. Ejemplo En la tabla siguiente se presentan los pesos, en onzas, de una secuencia de 15 muestras de subgrupos racionales de papas fritas, con n = 4 para cada muestra. Se reportan asimismo las medias, desviaciones estndar y rangos muestrales. Supongamos las especificaciones de empaque establecen un peso medio por paquete de = 15.0 oz. y una desviacin estndar de = 0.1 oz. Con base en estos valores paramtricos, determine
a) b) c) d)
Muestra No. Pesos de paquetes (oz) s R 1 15,01 14,98 15,16 14,8 14,99 0,148 0,36 2 15,09 15,14 15,08 15,03 15,09 0,045 0,11 3 15,04 15,1 14,93 15,13 15,05 0,088 0,20 4 14,9 15,03 14,94 14,92 14,95 0,057 0,13 5 15,04 15,05 15,08 14,98 15,04 0,042 0,10 6 14,96 14,081 14,96 14,91 14,73 0,432 0,88 7 15,01 15,1 14,9 15,03 15,01 0,083 0,20 8 14,71 14,92 14,77 14,95 14,84 0,116 0,24 9 14,81 14,8 14,64 14,95 14,80 0,127 0,31 10 15,03 14,89 14,99 15,03 14,99 0,066 0,14 11 15,16 14,91 14,95 14,83 14,96 0,141 0,33 12 14,92 15,05 15,01 15,02 15,00 0,056 0,13 13 15,06 15,03 14,95 15,02 15,02 0,047 0,11 14 14,99 15,14 15,04 15,11 15,07 0,068 0,15 15 14,94 15,08 14,9 15,17 15,02 0,125 0,27 la lnea central y los lmites de control inferior y superior de la grfica . Elabore la grfica de la carta de control para Se sale de control el proceso?. Si as fuese, Que prueba incumple? Suponga que no se tienen las especificaciones, cuales seran las lmites superior, inferior y la lnea central?
Solucin a.- dado que tenemos las especificaciones del producto entonces obtenemos los lmites de control por medio de ellos lnea central = Lmite superior Lmite inferior b.Figura: carta de control para la media = 15.0 oz. = + 3 /n = 15.0 + 3 * 0.1 / 4 =15.15 oz. = - 3 /n = 15.0 - 3 * 0.1 / 4 =14.85 oz.
c.- como podemos observar en el grfico, el procesos se sale de control en las muestras # 8 y # 9. 1. Los puntos 8 y 9 rebasan los lmites de control (prueba 1)
2. Dos de tres puntos caen en la zona A o ms all (prueba 5) d.- Si no tuvisemos las especificaciones se debern calcular los valores utilizando las frmulas de la tabla para cartas de control ms comunes. Lnea central = = = = = / k= 224.72 / 15 = 14.98 s/k = 1.28 / 15 = 0.08551 + 3 ( / C4 n) - 3 ( / C4 n) = 14.98 + 0.14= 15.12. = 14.98 - 0.14 =
El nivel lmite de calidad (LQL) esta es la definicin numrica de un lote pobre, asociado con el riesgo del consumidor. Figura: Efecto del tamao de muestra en la curva OC, (a) si se modifica el tamao de muestra, (b) modifica el nmero de aceptacin
La curva caracterstica de operacin (OC) estudiada en la unidad de contraste de hiptesis vuelve a ser objeto de estudio, la construimos obteniendo la probabilidad de aceptar un lote dado una proporcin de no conformidades. Para este objeto utilizaremos la v.a. Hipergeomtrica, cuando se desea analizar lotes de mayor tamao se utiliza la v.a. Poisson Tipos de planes de muestreo de aceptacin Plan simple de muestreo: la informacin obtenida de una muestra es usada para tomar una decisin para aceptar o rechazar el lote. Los parmetros son n tamao de muestra y c nmero de aceptacin. Se selecciona una muestra de tamao n y el nmero de tem defectuosos o no conformes se compara con c. Si el nmero de defectuosos es menor o igual a c entonces el lote es aceptado, en caso contrario el lote es rechazado. Plan doble de muestre: en este plan se requieren de los siguientes parmetros: Tamao de la primera muestra (n1) Nmero de aceptacin para la primera muestra (c1) Nmero de rechazo para la primera muestra (r1) Tamao de la primera muestra (n2) Nmero de aceptacin para la primera muestra (c2) Nmero de rechazo para la primera muestra(r2) Se selecciona una muestra de tamao n1 y se detectan el nmero de defectuosos en el lote, si denotamos el nmero de defectuosos por d1, entonces decidimos: Si d1 c1 => acepta el lote Si d1 > r1 => rechace el lote Si r1 < d1 < c1 => tome una nueva muestra
Al momento de tomar la nueva muestra se determinan n2, c2, r2 con una condicionante que r2 = c2 + 1, y la prueba queda de la siguiente manera: Si d1 + d2 c2 => acepta el lote Si d1 + d2 > r2 => rechace el lote Cuando d2 es el nmero de defectuosos en el segundo grupo muestreado. Por ejemplo si se tiene una poblacin de tamao N = 5000, se realiza un plan de muestreo doble con los siguientes parmetros: n1 = 40 c1 = 1 r1 = 4 n2 = 60 c2 = 5 r2 = 6
Plan mltiple de muestreo: en este tipo de plan de muestreo se procede de la misma manera que en el doble, incrementndose el nmero de parmetros de acuerdo a las etapas que se deseen realizar.