Sei sulla pagina 1di 17

UNIDAD IV PRUEBAS DE HIPTESIS

Tenemos que empezar por definir que es una hiptesis y que es prueba de hiptesis. Hiptesis es una aseveracin de una poblacin elaborado con el propsito de aprueba, para verificar si la afirmacin es razonable se usan datos. En el anlisis estadstico se hace una aseveracin, es decir, se plantea una hiptesis, despus se hacen las pruebas para verificar la aseveracin o para determinar que no es verdadera. Por tanto, la prueba de hiptesis es un procedimiento basado en la evidencia muestral y la teora de probabilidad; se emplea para determinar si la hiptesis es una afirmacin razonable. Prueba de una hiptesis: se realiza mediante un procedimiento sistemtico de cinco paso: poner

Siguiendo este procedimiento sistemtico, al llegar al paso cinco se puede o no rechazar la hiptesis, pero debemos de tener cuidado con esta determinacin ya que en la consideracin de estadstica no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba ms all de una duda razonable. Analizaremos cada paso en detalle.

pg.

4.1 OBJETIVOS
El propsito de la prueba de hiptesis no es cuestionar el valor calculado del estadstico (muestral), sino hacer un juicio con respecto a la diferencia entre estadstico de muestra y un valor planteado del parmetro.

4.2 EJEMPLO ILUSTRATIVO


Ejemplo El jefe de la Biblioteca Especializada de la Facultad de Ingeniera Elctrica y Electrnica de la UNAC manifiesta que el nmero promedio de lectores por da es de 350. Para confirmar o no este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 das. Se considera el nivel de significancia de 0.05 Datos:

D a 1 rios

Usua a 356 1

D suarios 1 05 1 2 13 1 3 91 1 4 80 1 5 82 1 6 89 1

U a 3 1 4 2 3 3 3 4 3 5 3 6 4

D suario 2 29 2 76 2 28 2 11 2 97 2 65 2

427

387

510

288

290

320

pg.

7 8 350 8 9 403 9 1 0 329 0 2 1 1

05 2 93 2 76 4 17

7 2 8 2 9 3 0

05 3 69 4 29 3 64

Solucin: Se trata de un problema con una media poblacional: muestra grande y desviacin estndar poblacional desconocida. Paso 01: Seleccionamos la hiptesis nula y la hiptesis alternativa Ho: 350 Ha: 350 Paso 02: Nivel de confianza o significancia 95% 0.05 Paso 03: Calculamos o determinamos el valor estadstico de prueba De los datos determinamos: que el estadstico de prueba es t, debido a que el numero de muestras es igual a 30, conocemos la media de la poblacin, pero la desviacin estndar de la poblacin es desconocida, en este caso determinamos la desviacin estndar de la muestra y la utilizamos en la formula reemplazando a la desviacin estndar de la poblacin.

Calculamos la desviacin estndar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue.

Columna1

pg.

372 Media .8 9.5 Error tpico Mediana Moda Desviacin estndar Varianza de la muestra 6951578 381 405 52. 4143965 274 7.26897 0.3 Curtosis Coeficiente asimetra Rango Mnimo Mximo de 6687081 0.0 4706877 234 276 510 111 Suma Cuenta Nivel confianza (95.0%) Paso 04: Formulacin de la regla de decisin. La regla de decisin la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, esta en cada cola. el rea en la que no se rechaza Ho esta entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96. Por consiguiente la regla de decisin: es rechazar la hiptesis nula y aceptar la hiptesis alternativa, si el valor Z calculado no queda en la regin comprendida entre -1.96 y +1.96. En caso contrario no se rechaza la hiptesis nula si Z queda entre -1.96 y +1.96. de 571868 84 30 19.

pg.

Paso 05: Toma de decisin. En este ultimo paso comparamos el estadstico de prueba calculado mediante el Software Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadstico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe de la Biblioteca.

4.3 APUNTE INFORMAL DEL CRITERIO DE RECHAZO


Contrastes de hiptesis estadsticas. Apunte informal del criterio de rechazo. Como en todo proceso inferencial, nuestra intencin es extraer al azar una muestra de la poblacin, de tamao 100 por ejemplo, que representamos formalmente con ayuda de Y1, Y2 , .... , Y100 , es decir, una sucesin de variables aleatorias independientes con idntico modelo de probabilidad que la variable de Bernoulli , Y , que identifica a la poblacin ( Y=1 , si el individuo tiene genotipo aa ; Y=0 si no es el caso) ; con la esperanza de que esta muestra nos permita confeccionar el criterio de rechazo de H0. Si la conjetura de investigador es cierta, es decir, si H0 es cierta, el nmero medio o esperado de individuos con genotipo aa ser:

donde Y1+ Y2 + .... + Y100 es una variable aleatoria con modelo de probabilidad Binomial B(100, 1/4) , que contabiliza el nmero de individuos con genotipo aa en la muestra de tamao 100. En base a la interpretacin del valor medio de una variable como centro de gravedad de su ley de probabilidad, si se obtiene en la muestra un nmero de individuos, con genotipo aa, que difiera "sustancialmente" de 25, tanto por exceso como por defecto, nos har dudar de la veracidad de H0 , obligndonos a su rechazo.

4.4 TOPOS DE ERRORES (1)


Un error tipo I se presenta si la hiptesis nula Ho es rechazada cuando es verdadera y deba ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa .

pg.

4.5 TIPOS DE ERRORES (2)


Un error tipo II, se denota con la letra griega se presenta si la hiptesis nula es aceptada cuando de hecho es falsa y deba ser rechazada.

4.6 OBSERVACIONES SOBRE LOS ERRORES


En cualquiera de los dos casos se comete un error al tomar una decisin equivocada. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.

Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que minimice los errores de decisin. En la prctica un tipo de error puede tener ms importancia que el otro, y as se tiene a conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir ambos tipos de errores es incrementar el tamao de la muestra, lo cual puede ser o no ser posible. La probabilidad de cometer un error de tipo II denotada con la letra griega beta , depende de la diferencia entre los valores supuesto y real del parmetro de la poblacin. Como es ms fcil encontrar diferencias grandes, si la diferencia entre la estadstica de muestra y el correspondiente parmetro de poblacin es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequea. El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado exclusivamente en el anlisis de una parte de sta. De la probabilidad con la que estemos

pg.

dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribucin normal Existe una relacin inversa entre la magnitud de los errores y : conforme a aumenta, disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadsticas. Lo ideal sera establecer y .En la prctica se establece el nivel y para disminuir el Error se incrementa el nmero de observaciones en la muestra, pues as se acortan los limites de confianza respecto a la hiptesis planteada .La meta de las pruebas estadsticas es rechazar la hiptesis planteada. En otras palabras, es deseable aumentar cuando sta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- ) La aceptacin de la hiptesis planteada debe interpretarse como que la informacin aleatoria de la muestra disponible no permite detectar la falsedad de esta hiptesis.

4.7 FORMULACION GENERAL


Formular la regla SE establece las condiciones especficas en la que se rechaza la hiptesis nula y las condiciones en que no se rechaza la hiptesis nula. La regin de rechazo define la ubicacin de todos los valores que son tan grandes o tan pequeos, que la probabilidad de que se presenten bajo la suposicin de que la hiptesis nula es verdadera, es muy remota

Distribucin muestral del valor estadstico z, con prueba de una cola a la derecha Valor critico: Es el punto de divisin entre la regin en la que se rechaza la hiptesis nula y la regin en la que no se rechaza la hiptesis nula.

pg.

UNIDAD V. ESTADSTICA NO PARAMTRICA


5.1 INTRODUCCIN, PROBLEMAS Y MTODOS NO PARAMETRICOS Estas notas se refieren a problemas y metodos estadsticos a los que se suele aplicar el calificativo de no parametrico. Significa que a ellos no se aplican propiedades o formas de analisis tpicas de los problemas parametricos en los que intervienen familias de distribuciones de probabilidad identificadas por un parametro real , o un conjunto finito de parametros reales 1, . . . , p (de otra manera, un parametro vectorial en Rp). En los problemas parametricos, las distancias entre los parametros (derivadas de la distancia en R o en Rp) tienen relacion con las propiedades de las distribuciones asociadas a esos parametros. Por ejemplo, las funciones de distribucion, o las densidades de las probabilidades de la familia, dependen de manera continua, o diferenciable, de los parametros, y esto tiene aplicacion en los metodos de analisis de los problemas estadsticos. En los problemas no parametricos, en cambio, intervienen familias de probabilidades mas complejas, para las que no basta una identificacion por medio de parametros en R o Rd para algun valor de d, de manera que la proximidad de los parametros se refleje en la similitud de las correspondientes distribuciones. Es posible que un problema no parametrico pueda resolverse mediante metodos parametricos, por ejemplo, dada F en la familia F de todas las distribuciones continuas en R, que es una familia no parametrica, nos preguntamos si la mediana es cero o si no lo es, y para responderlo partimos de la informacion dada por una muestra aleatoria simple de F de tamao n (es decir, un conjuto i.i.d. de n variables con distribucion F). La hiptesis de que la mediana es cero equivale a que la cantidad N+ de elementos de la muestra que son positivos tiene distribucion binomial de parametros (n, p), con p = 0.5. Como consecuencia, para probar la hipotesis (no parametrica) de que la mediana es cero, podemos probar la hipotesis (parametrica) de que N+ tiene distribucion Bin(n, 0.5). Recprocamente, en los captulos que siguen describiremos algunos mtodos no parametricos, y sera posible verificar que, ademas de ser aplicables a problemas no parametricos, tambien pueden servir para resolver problemas parametricos.

pg.

5.2 ESTADISTICOS DE ORDEN


Dada una muestra X1,X2, . . . , Xn, llamamos (X1,n,X2,n, . . . , Xn,n) al conjunto formado por los mismos elementos que la muestra, puestos en orden creciente, de manera que X1,n X2,n . . . Xn,n. Tambien se utiliza la notacion X(h) = Xh,n, menos informativa, ya que solo indica el lugar dentro de la ordenacion, pero no el tamano de la muestra. La variable X(h) se llama estadstico de orden h de la muestra, y a X(1), . . . , X(n) se los llama genericamente estadsticos de orden. En particular, vamos a considerar el caso en que X1,X2, . . . , Xn es una muestra aleatoria simple de una distribucion con funcion de distribucion F, continua. En ese caso hay probabilidad cero de que dos observaciones coincidan.

5.4 PRUEBAS DE AJUSTE


Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parmetros de una distribucin conocida o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben el nombre general de Pruebas de Bondad de Ajuste. Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis: H0: f(x,q) = f0(x,q) H1: f(x,q) f0(x,q)

pg.

10

donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad. Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios: a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una distribucin normal. b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del tipo de distribucin a considerar.

5.5 PRUEBAS BASADAS EN RACHAS


El contraste de rachas permite verificar la hiptesis nula de que la muestra es aleatoria, es decir, si las sucesivas observaciones son independientes. Este contraste se basa en el nmero de rachas que presenta una muestra. Una racha se define como una secuencia de valores muestrales con una caracterstica comn precedida y seguida por valores que no presentan esa caracterstica. As, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estn precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte). El nmero total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un nmero reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extrado de forma aleatoria, los elementos de la primera racha proceden de una poblacin con una determinada caracterstica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra poblacin. De forma idntica un nmero excesivo de rachas puede ser tambin indicio de no aleatoriedad de la muestra.

pg.

11

Si la muestra es suficientemente grande y la hiptesis de aleatoriedad es cierta, la distribucin muestral del nmero de rachas, R, puede aproximarse mediante una distribucin normal de parmetros:

donde n1 es el nmero de elementos de una clase, n2 es el nmero de elementos de la otra clase y n es el nmero total de observaciones.

5.6 PRUEBAS DE INDEPENDENCIA


Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representacin de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo ni el nmero de individuos que presentan simultneamente la i-sima modalidad del carcter A y la j-sima del B. La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la poblacin de la cual se extrae la muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres. La realizacin de esta prueba requiere el clculo del estadstico donde:y son las frecuencias absolutas marginales y el tamao muestral total. El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un nivel de significacin del 5%.

5.7 ESTIMACION DE DENSIDADES


Dada la muestra de n observaciones reales X1; : : : ;Xn de_niremos la estimaci_on tipo N_ucleo de funci_on n_ucleo K como ^ fn(x) =1 n hn Xn i=1 K _ x Xi h _ (8.1) donde K(x) es una funci_on, denominada funci_on Kernel funci_on n_ucleo o funci_on peso, que satisface ciertas condiciones de regularidad, generalmente es una funci_on de densidad sim_etrica como por ejemplo la de la distribuci_on normal, y fhng es una secuencia de constantes positivas

pg.

12

conocidas como ancho de ventana, parametro de suavizacion o bandwith. El estimador nucleo puede interpretarse como una suma de protuberancias (del ingles bump situadas en las observaciones. La funcion nucleo K determina la forma de las protuberancias mientras que el parametro hn determina su anchura. Al igual que en el histograma hn tambien determina la cantidad de suavizacion de la estimacion, siendo el limite cuando hn tiende a cero una suma de funcionales delta de Dirac en los puntos de las observaciones. Tambien puede interpretarse como una transformacion en continua de la funcion de distribucion empirica de acuerdo a la funcion K(x) que se encarga de redistribuir la masa de probabilidad 1/n en la vecindad de cada punto muestral.

pg.

13

CONCLUSION
Dentro del estudio de la inferencia estadstica, se describe como se puede tomar una muestra aleatoria y a partir de esta muestra estimar el valor de un parmetro poblacional en la cual se puede emplear el mtodo de muestreo y el teorema del valor central lo que permite explicar como a partir de una muestra se puede inferir algo acerca de una poblacin, lo cual nos lleva a definir y elaborar una distribucin de muestreo de medias muestrales que nos permite explicar el teorema del limite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas medias maestrales de una poblacin. Pero es necesario tener conocimiento de ciertos datos de la poblacin como la media, la desviacin estndar o la forma de la poblacin, pero a veces no se dispone de esta informacin. En este caso es necesario hacer una estimacin puntual que es un valor que se usa para estimar un valor poblacional. Pero una estimacin puntual es un solo valor y se requiere un intervalo de valores a esto se denomina intervalote confianza y se espera que dentro de este intervalo se encuentre el parmetro poblacional buscado. Tambin se utiliza una estimacin mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el parmetro poblacional En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveracin acerca de un parmetro poblacional este mtodo es denominado Prueba de hiptesis para una muestra.

pg.

14

GLOSARIO
HIPOTESIS Una hiptesis es una proposicin aceptable que ha sido formulada a travs de la recoleccin de informacin y datos, aunque no est confirmada sirve para responder de forma tentativa a un problema con base cientfica. DENSIDAD En fsica y qumica, la densidad o masa especfica (smbolo ) es una magnitud escalar referida a la cantidad de masa contenida en un determinado volumen de una sustancia. Ejemplo: un objeto pequeo y pesado, como una piedra de granito o un trozo de plomo, es ms denso que un objeto grande y liviano hecho de corcho o de espuma de poliuretano. PRUEBA

Prueba, un hecho utilizado para demostrar una accin, tesis o teora en

ciencias.

Prueba, como sinnimo de experimento. Prueba, en matemticas. Prueba en Lgica. Vase: Clculo lgico; Deduccin; Argumento. Prueba, en Derecho. Prueba, como sinnimo de examen. Prueba en informtica, procesos que permiten verificar y revelar la calidad

de un producto software.

Prueba puede referirse a prueba de un delito.

RANGO LINEAL En lgebra lineal, el rango de una matriz es el nmero mximo de columnas (filas respectivamente) que son linealmente independientes. Si el rango fila y la columna son

pg.

15

iguales, este nmero es llamado simplemente rango de A. Comnmente se expresa como rg(A). DISTRIBUCION En trminos generales, la distribucin o plaza es una herramienta de la mercadotecnia (las otras son el producto, el precio y la promocin) que los mercadlogos utilizan para lograr que los productos estn a disposicin de los clientes en las cantidades, lugares y momentos precisos. MUESTRA En estadstica una muestra estadstica (tambin llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una poblacin estadstica. ALEATORIA Se dice de la variable que puede tomar un valor cualquiera de un conjunto especificado, con una probabilidad que expresa, para este valor particular, la fraccin del nmero total de valores en que puede presentarse. PARAMETRO Un parmetro estadstico es una funcin definida sobre los valores numricos de una poblacin. Se trata, por lo tanto de un valor representativo que permite modelizar la realidad. HISTOGRAMA En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos.

pg.

16

METODO Mtodo es una palabra que proviene del trmino griego methodos (camino o va) y que se refiere al medio utilizado para llegar a un fin. Su significado original seala el camino que conduce a un lugar.

pg.

17

BIBLIOGRAFIA
1. Abramson, I.S. (1982). .On bandwidth variation in kernel estimates - a square root law."Ann. Statist, 10, 1217-1223. 2. Anderson, J.A., Whaley, K., Williamson, J. and Buchanan, W.W. (1972). .A statistical aid to the diagnosis of Keratoconjunctivitis sicca."Quart. J. Med., 41, 175189. 3. Beran, R. (1977). "Minimum Hellinger Distance Estimates for Parametric Models."The Annals of Statistics , 5 , 3 445-463. 4. Birg_e, L. (1985). "Non-Asymptotic Minimax Risk for Hellinger Balls."Probability and Mathematical Statistics , 5 , 1 21-29. 5. Birg_e, L. (1986). .On Estimating a Densitiy Using Hellinger Distance and Some Other Strange Facts."Probab. Theory and Related Fields , 71 , 271-291. 6. Bochner, S. (1955). Harmonic analysis and the Theory of Probability. Univ. of California Press. 7. Bonan, S., Lubinsky, D.S. and Nevai, P. (1987). .Orthogonal polynomials and their derivatives,II."SIAM J. Math. Anal. , 18 , 4 1163-1176. 8. Boneva, L.I., Kendall, D. and Stefanov, I. ( 1971 ) "Spline transformations: Three New Diagnostic Aids for the Statistical data-analyst."Journal of the Royal Statistical Society. Series B., 33, 1-70. 9. Bowman, A.W. (1984). .An Alternative Method of Cross-Validation for the Smoothing of Density Estimates."Biometrika, 71, 353-360. 10. Bowman, A.W. (1985). .A comparative study of some kernel-based nonparametric density estimators."J. Statist. Comput. Simul., 21, 313-327.

pg.

18

Potrebbero piacerti anche