Esta Di Stica

Estadstica Bsica
para topografa
Coleccin manuales uex - 66
Rodrigo Martnez Quintana
66
ESTADSTICA BSICA PARA TOPOGRAFA
MANUALES UEX
66
RODRIGO MARTNEZ QUINTANA
ESTADSTICA BSICA PARA TOPOGRAFA
2009
Edita Universidad de Extremadura. Servicio de Publicaciones C./ Caldereros, 2 - Planta 2 - 10071 Cceres (Espaa) Telf. 927 257 041 - Fax 927 257 046 publicac@unex.es www.unex.es/publicaciones ISSN 1135-870-X ISBN 978-84-692-0988-2 Depsito Legal M-14.077-2009 Edicin electrnica: Pedro Cid, S.A. Telf.: 914 786 125
Prlogo o
Es bien conocido que los errores aleatorios estn presentes en todo proceso de a medicin. En un trabajo topogrco, un estudio y tratamiento adecuado de o a dichos errores es de vital importancia para avalar las mediciones realizadas, as como para determinar el comportamiento de las observaciones indirectas derivadas de ellas. Teniendo esto en mente, en este manual desarrollamos los contenidos matemticos bsicos necesarios para afrontar con xito el estudio a a e de los errores aleatorios, que es el objeto de inters de la Teor de errores. Sin e a embargo, los contenidos seleccionados van a ser expuestos en un contexto ms a general que el que estrictamente dene la Teor de errores, aunque en todo a momento sern ilustrados con una gran variedad de ejemplos t a picos de dicha teor Estos contenidos son los apropiados para una asignatura de estad a. stica bsica para Ingenier Tcnica en Topograf as como del futuro Grado de a a e a Ingenier en Geomtica y Topograf y estn programados para impartirse en a a a a 60 horas presenciales (45 horas de desarrollo terico y 15 horas de desarrollo o prctico). a Este manual ha sido dividido en 9 temas, agrupados en 4 bloques temticos: a Mtodos para la descripcin y anlisis de conjuntos de datos, Probabilidad, e o a Teor de muestra y Estad a stica Inferencial. Los dos primeros temas estn dea dicados a describir y analizar datos. En el Tema 1 exponemos cmo realizar un o estudio estad stico descriptivo apropiado para ordenar, resumir y poder anacontinuacin, en el Tema 2, desarrollamos las tcnicas necesarias para descrio e bir y analizar conjuntamente una muestra con datos multidimensionales. En el segundo bloque temtico exponemos los conceptos principales de la Teor a a de la Probabilidad. Concretamente, en el Tema 3 introducimos el concepto
Manuales uex 7
lizar la informacin contenida en un conjunto de datos unidimensionales. A o
RodRigo MaRtnez quintana

de probabilidad como medida de incertidumbre, mientras que dedicamos los Temas 4 y 5 al estudio de variables y vectores aleatorios, respectivamente, que son conceptos matemticos que facilitan la interpretacin, el manejo y el a o clculo de probabilidades. Para nalizar este bloque temtico, en el Tema 6 a a proponemos algunos modelos de probabilidad tericos adecuados para descrio bir el comportamiento probabil stico de algunas situaciones prcticas usuales a en Teor de errores y en el campo de la Topograf Para que el conjunto a a. de datos seleccionados sea representativo, en el Tema 7 estudiamos distintas tcnicas de muestro, as como el comportamiento probabil e stico de algunas caracter sticas de inters asociadas a una muestra. Este estudio se basa en la e teor de la probabilidad y juega un papel fundamental en la estad a stica inferencial, que es objeto del ultimo bloque temtico. Dicho bloque consta de dos a temas, cada uno de ellos dedicado a una de las tcnicas utilizadas para inferir: e estimacin y test de hiptesis. As en el Tema 8, consideramos el problema de o o , la inferencia mediante estimaciones puntuales y por intervalos de conanza de los principales parmetros que denen el comportamiento probabil a stico de un carcter. En el Tema 9 abordamos los problemas inferenciable haciendo uso a de la metodolog de test de hiptesis. El manual se completa con unos prea o liminares donde introducimos algunas deniciones y conceptos que justican la seleccin de los contenidos para el anlisis de los errores aleatorios, y con 3 o a apndices que son de ayuda para la explicacin de dichos contenidos. e o Adems de los contenidos tericos y prcticos, en cada tema adjuntamos las a o a sentencias apropiadas para desarrollar en el software estad stico R los ejemplos ilustrativos utilizados para exponer los contenidos. Asimismo, cada tema es completado con algunas cuestiones y problemas, como ayuda para el trabajo no presencial del alumno. Finalmente queremos hacer constar que para una mejor lectura y comprensin o de este manual se requieren conocimientos bsicos de Anlisis Real y Algebra a a Lineal desarrollados en la titulacin de Ingenier Tcnica en Topograf y en o a e a futuro Grado en Ingenier en Geomtica y Topograf a a a.
Manuales uex 8
Indice general
Prlogo o 0. Preliminares 0.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 0.2. Clasicacin de los errores en el proceso de medicin . . . . . . o o 0.3. Deniciones y conceptos bsicos . . . . . . . . . . . . . . . . . . a 0.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bloque temtico I: Mtodos para la descripcin y anlisis de cona e o a juntos de datos 1. Mtodos para la descripcin y anlisis de conjuntos de datos e o a unidimensionales 1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Grcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.4. Medidas caracter sticas . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Medidas de centralizacin . . . . . . . . . . . . . . . . . o 1.4.2. Medidas de posicin . . . . . . . . . . . . . . . . . . . . o 1.4.3. Medidas de dispersin . . . . . . . . . . . . . . . . . . . o 1.4.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . 1.4.5. Transformacin de datos . . . . . . . . . . . . . . . . . . o 1.5. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . a 1.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 11 11 12 17 20 21 24 33 34 36 39 27 9
I
1 1 1 3 6
Manuales uex 9

2. Mtodos para la descripcin y anlisis de conjuntos de datos e o a multidimensionales 2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2.2. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . 2.3. Grcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 2.4. Medidas caracter sticas . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Medidas de asociacin . . . . . . . . . . . . . . . . . . . o 2.4.2. Transformacin de datos . . . . . . . . . . . . . . . . . . o 2.5. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . a 2.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . Bloque temtico II: Probabilidad a 3. Introduccin a la Teor de la Probabilidad o a 3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.2. Sucesos de un experimento aleatorio . . . . . . . . . . . . . . . 3.3. Probabilidad y sus propiedades . . . . . . . . . . . . . . . . . . 3.4. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . 3.4.1. Teorema de la probabilidad total . . . . . . . . . . . . . 3.4.2. Sucesos independientes . . . . . . . . . . . . . . . . . . . 3.4.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . 3.5. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . a 3.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 4. Variables aleatorias unidimensionales 4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Funcin de probabilidad . . . . . . . . . . . . . . . . . . o 4.2.2. Funcin de densidad . . . . . . . . . . . . . . . . . . . . o 4.2.3. Transformacin de variables aleatorias . . . . . . . . . . o 4.3. Medidas caracter sticas de una variable aleatoria . . . . . . . . 43 43 44 46 50 51 57 60 63 67 69 69 69 71 73 75 75 77 78 79 83 83 84 87 90 94 95 96 99
Manuales uex
4.3.1. Medidas de centralizacin . . . . . . . . . . . . . . . . . o 4.3.2. Medidas de posicin . . . . . . . . . . . . . . . . . . . . o
4.3.3. Medidas de dispersin . . . . . . . . . . . . . . . . . . . 100 o 4.3.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . 103 4.3.5. Transformacin de variables aleatorias . . . . . . . . . . 104 o
10
estadstica bsica paRa topogRafa

4.4. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 107 a 4.5. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 109 5. Variables aleatorias multidimensionales 113
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 o 5.2. Vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.1. Funcin de probabilidad conjunta . . . . . . . . . . . . . 116 o 5.2.2. Funcin de densidad conjunta . . . . . . . . . . . . . . . 117 o 5.2.3. Funciones de probabilidad y de densidad marginales . . 119 5.3. Independencia de variables aleatorias . . . . . . . . . . . . . . . 121 5.4. Medidas de asociacin . . . . . . . . . . . . . . . . . . . . . . . 123 o 5.5. Transformacin de vectores aleatorios . . . . . . . . . . . . . . 126 o 5.6. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 131 a 5.7. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 133 6. Principales modelos de probabilidad en el campo de la Topograf a 137 6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 o 6.2. Modelos de probabilidad discretos . . . . . . . . . . . . . . . . 138 6.2.1. Distribucin uniforme discreta . . . . . . . . . . . . . . 138 o 6.2.2. Distribucin binomial y de Bernoulli . . . . . . . . . . . 140 o 6.3. Modelos de probabilidad continuos . . . . . . . . . . . . . . . . 148 6.3.1. Distribucin uniforme continua . . . . . . . . . . . . . . 148 o 6.3.2. Distribucin normal . . . . . . . . . . . . . . . . . . . . 150 o 6.3.3. Distribuciones asociadas al modelo normal estndar . . 160 a 6.4. Modelos de probabilidad multidimensionales . . . . . . . . . . . 167 6.4.1. Distribucin multinomial . . . . . . . . . . . . . . . . . 167 o 6.5. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 174 a 6.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 179 Bloque temtico III: Teor de muestras a a 183 6.4.2. Distribucin normal multivariante . . . . . . . . . . . . 170 o
Manuales uex 11

7. Introduccin a la Teor de muestras o a 185
7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 o 7.2. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . 186 7.3. Distribucin en el muestreo de la media muestral con varianza o conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.4. Distribucin en el muestreo de la cuasivarianza muestral . . . . 196 o 7.5. Distribucin en el muestreo de la media muestral con varianza o desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 7.6. Distribucin en el muestreo de la diferencia de dos medias mueso trales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 7.6.1. Muestras aleatorias simples independientes . . . . . . . 200 7.6.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 202 7.7. Distribucin en el muestreo del cociente de dos cuasivarianzas o muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 7.8. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 204 a 7.9. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 207 Bloque temtico IV: Estad a stica inferencial 8. Introduccin a la Teor de Estimacin o a o 211 213
8.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 o 8.2. Estimacin puntual de la media y la varianza . . . . . . . . . . 215 o 8.3. Estimacin por intervalo de la media . . . . . . . . . . . . . . . 217 o 8.3.1. Con varianza conocida . . . . . . . . . . . . . . . . . . . 218 8.3.2. Con varianza desconocida . . . . . . . . . . . . . . . . . 220 8.4. Estimacin por intervalo de la varianza . . . . . . . . . . . . . . 223 o 8.5. Estimacin por intervalo del cociente de varianzas . . . . . . . 224 o 8.6. Estimacin por intervalo de la diferencia de medias . . . . . . . 227 o 8.6.1. Muestras aleatorias simples independientes . . . . . . . 227 8.6.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 229 8.7. Prcticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 231 a 8.8. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 234
Manuales uex 12

9. Introduccin a la Teor sobre Contraste de Hiptesis o a o 237
9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 o 9.2. Test de hiptesis para la media . . . . . . . . . . . . . . . . . . 244 o 9.2.1. Con varianza conocida . . . . . . . . . . . . . . . . . . . 244 9.2.2. Con varianza desconocida . . . . . . . . . . . . . . . . . 248 9.3. Test de hiptesis para la varianza . . . . . . . . . . . . . . . . . 250 o 9.4. Test de hiptesis de igualdad de varianzas . . . . . . . . . . . . 252 o 9.5. Test de hiptesis para la diferencia de medias . . . . . . . . . . 255 o 9.5.1. Muestras aleatorias simples independientes . . . . . . . 256 9.5.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 258 9.6. Test de hiptesis de independencia . . . . . . . . . . . . . . . . 259 o 9.7. Test de hiptesis sobre la distribucin o o 9.7.1. Caso discreto . . . . . . . . . . 9.7.2. Caso continuo . . . . . . . . . . 9.8. Prcticas de laboratorio . . . . . . . . a 9.9. Cuestiones y problemas . . . . . . . . Bibliograf bsica a a Apndices e A. Tablas estad sticas B. Variaciones y combinaciones C. Cifras signicativas Indice alfabtico e Lista de s mbolos y notacin o Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 262 263 265 268 271 273 273 281 285 287 291 294
Manuales uex 13
Tema 0 Preliminares
0.1. Introduccin o
Con el n de conocer ciertos valores de inters, todo trabajo topogrco ree a quiere de un proceso de medicin de magnitudes, generalmente distancias y/o o angulos. Despus de procesar las mediciones, no determinamos los valores de e inters, pues stos son siempre desconocidos, sino ms bien proporcionamos e e a aproximaciones a ellos. Esto es debido a que el proceso de medicin involucra o la presencia de errores. El estudio de estos errores nos permite proporcionar mejores aproximaciones de los valores desconocidos. A continuacin clasicao mos los errores implicados en un proceso de medicin, segn su naturaleza y o u origen, y determinamos el marco adecuado para analizarlos.
0.2.
Clasicacin de los errores en el proceso o de medicin o
Como hemos comentado anteriormente, en general, en el proceso de medicin o de una magnitud no determinamos el valor verdadero de dicha magnitud. Ms a bien proporcionamos una aproximacin a dicho valor a partir de las mediciones o namos error y a las mediciones realizadas observaciones directas. Observemos que como el verdadero valor de la magnitud es desconocido, el error asociado a una medicin no es cuanticable. Sin embargo, podemos clasicar los erroo res atendiendo a su origen y a su naturaleza. Teniendo en cuenta su origen
Manuales uex 1
observadas. La distancia entre la aproximacin y el verdadero valor lo denomio

distinguimos entre errores instrumentales, causados por las imperfecciones en la construccin del instrumento de medida, errores naturales, causados por los o cambios de las condiciones medioambientales donde se realiza la medicin, y o errores personales, causados por la limitacin de los sentidos humanos as coo mo de las habilidades y destrezas personales. Asimismo, los errores personales que son causados por confusin o descuido los denominamos pias. Un caso o t pico de pia es la lectura incorrecta de una observacin. o Por otro lado, independientemente de su origen, clasicamos los errores atendiendo a su naturaleza en errores sistemticos y errores aleatorios. Los errores a sistemticos no son debidos ni al azar ni a causas no controlables. Pueden a surgir del empleo de un mtodo inadecuado (error personal), un instrumene to defectuoso (error instrumental) o bien por usarlo en condiciones para las que no estaba previsto su uso (error ambiental). As en general, los errores , sistemticos pueden evitarse y eliminarse utilizando mtodos e instrumentos a e apropiados. Por ejemplo, emplear una cinta mtrica metlica a una temperatue a ra muy alta puede introducir un error sistemtico si la dilatacin del material a o hace que su longitud sea mayor que la nominal. En este caso, sistemticamena te todas las mediciones realizadas con la cinta mtrica en dichas condiciones e son mayores que las realizadas en condiciones normales. El error puede evitarse eligiendo un material de coeciente de dilatacin bajo o controlando la o temperatura a la que realizamos la medicin. o Si los errores sistemticos se caracterizan por ser controlables, los errores aleaa torios son debidos al cmulo de numerosas causas incontrolables e imprevisibles u que dan lugar a mediciones diferentes cuando se repite el proceso de medicin o en condiciones idnticas. As decimos que los errores aleatorios son fruto del e azar y no pueden evitarse. Sin embargo, podemos estudiar su comportamiento, una vez eliminados los errores sistemticos involucrados en el proceso de media cin, cuanticando la incertidumbre en el valor de la medicin. A partir de este o o
Manuales uex 2
estudio construimos un intervalo para el verdadero valor de la magnitud de inters. El grado de conanza para que dicho intervalo contenga al verdadero e valor depende de la incertidumbre de los errores y de la amplitud de dicho intervalo. Asimismo, el estudio de la incertidumbre en la medicin es util para o valorar el error asociado a una magnitud que se obtiene de manera indirecta

a travs de cierta operaciones efectuadas sobre mediciones de magnitudes reae lizadas directamente. A este error los denominamos error de propagacin y a o las observaciones as obtenidas observaciones indirectas. Todo esto es objeto de estudio de la Teor de errores aleatorios. El marco de trabajo adecuado a para ello lo describimos en el siguiente apartado.
0.3.
Deniciones y conceptos bsicos a
Como hemos comentado, la presencia del error aleatorio en el proceso de medicin implica cierta incertidumbre en el valor de la medicin obtenida en cada o o realizacin. El estudio de dicha incertidumbre es fundamental para valorar y o predecir el resultado de la medicin. El marco adecuado para este estudio lo o proporciona la Probabilidad y la Estad stica. Adems, este marco no slo es a o util para estudiar los errores aleatorios involucrados en un proceso de medicin o sino para estudiar la incertidumbre presente en otras situaciones prcticas de a naturaleza distinta. A continuacin, proporcionamos las deniciones que nos o conducen a establecer el marco de trabajo de la Probabilidad y la Estad stica, en un contexto ms general que el de los errores aleatorios de un proceso de a medicin. o En trminos generales, denominamos poblacin al conjunto de elementos (sue o jetos, objetos, entidades abstractas,...) de la misma naturaleza que presentan uno o varios caracteres comunes susceptibles de ser medidos o clasicados. Ejemplos de poblaciones pueden ser el conjunto de mediciones de una cierta magnitud, el conjunto de instrumentos de medida disponibles para realizar una medicin, el conjunto de redes topogrcas o el conjunto de vrtices geodsicos o a e e que intervienen en un trabajo topogrco. A los elementos de la poblacin los a o denominamos individuos o unidades experimentales. Atendiendo a la naturaleza de los caracteres, los clasicamos en cualitativos
modalidades que son exhaustivas y excluyentes, es decir, cada unidad experimental es clasicada en una y slo en unica categor Ejemplos de caracteres o a. cualitativos son el tipo de instrumento de medida, con las categor analgico as o
Manuales uex 3
y cuantitativos. Un carcter cualitativo indica una cualidad de las unidades a experimentales. Estas son clasicadas, atendiendo al carcter, en categor o a as

y digital, orden del vrtice geodsico, distinguindose entre primer, segundo y e e e tercer orden, o el tipo de medida, diferencindose entre distancias y ngulos. a a En cambio, los caracteres cuantitativos miden cierta cantidad de las unidades experimentales. En consecuencia cada unidad experimental proporciona un valor numrico asociado al carcter. Dependiendo de la naturaleza de los valores e a que pueda tomar, hablamos de carcter cuantitativo discreto si slo toma una a o serie de valores aislados y de carcter cuantitativo continuo cuando, a prioa ri, puede tomar cualquier valor dentro de un cierto rango. As el nmero de , u vrtices geodsicos de una red topogrca o el nmero de veces que medimos e e a u una magnitud son caracteres cuantitativos discretos, mientras que las mediciones de distancias o ngulos las consideramos como caracteres cuantitativos a continuos. Observemos que, debido a la discretizacin de la medicin por el o o instrumento de medida, los valores de las mediciones se comportan como si fueran de naturaleza discreta. A pesar de ello, en general, las mediciones las consideramos como caracteres cuantitativos continuos. Adems, clasicamos los caracteres en funcin de la escala de medida de las a o unidades experimentales. Decimos que un carcter es medido en escala nominal a si las unidades experimentales son slo susceptibles de ser clasicados, en escala o ordinal si adems de ser clasicados son susceptibles de ser ordenadas y en a escala numrica si tambin podemos establecer relaciones de proporcionalidad e e entre las unidades experimentales. El carcter cualitativo tipo de medida, con a categor distancia y ngulo, lo denimos en escala nominal, el orden del as a vrtice geodsico, distinguindose entre primer, segundo y tercer orden, es e e e un ejemplo de carcter denido es escala ordinal y el nmero de veces que a u medimos una magnitud est denido en escala numrica, pues si una magnitud a e es medida seis veces y otra tres podemos decir que la primera es medida el doble de veces que la segunda. Observemos que un carcter denido en escala a numrica se puede expresar en escala ordinal y podemos pasar a escala nominal. e Sin embargo, clasicados las unidades experimentales en una escala inferior no podemos obtener la clasicacin en una escala superior. As siempre que o , sea viable, utilizaremos la escala numrica por ser la que proporciona mayor e informacin de las unidades experimentales. o
Manuales uex 4

Fijada la poblacin y los caracteres observables, denominamos experimento o a cualquier procedimiento por medio del cual obtenemos una observacin de o los caracteres en una unidad experimental. Un experimento es determin stico cuando al repetirse en condiciones anlogas siempre observamos el mismo rea sultado y por tanto podemos predecir exactamente de antemano el valor que vamos a obtener al realizar el experimento, independientemente de la unidad experimental. Si soltamos al vac un bol o grafo ste siempre se cae. En cambio e cuando el resultado del experimento no es predecible, en el sentido de que no obtenemos el mismo resultado al repetir el experimento en condiciones anloa gas, decimos que es aleatorio. En general, dos observaciones de una misma medida dieren entre s y son impredecibles antes de realizar el experimento, pues en el proceso de medicin intervienen factores que no podemos controlar. o En esta situacin, tenemos una incertidumbre sobre el resultado nal antes o de realizar el experimento, debido a la presencia de los errores aleatorios. La Teor de la Probabilidad estudia modelos que cuantican la incertidumbre en a un experimento aleatorio. Cuando el nmero de individuos en la poblacin es u o excesivamente grande como para observarlos a todos, el experimento se repite slo un nmero relativamente pequeo de veces obtenindose un conjunto de o u n e datos que denominamos muestra. Extraer un conjunto de datos que sea representativo de la poblacin es el objetivo de la Teor de Muestras. Adems, o a a basndose en la Teor de la Probabilidad, esta disciplina estudia el compora a tamiento de ciertas caracter sticas asociadas a las muestras extra das en un experimento aleatorio. Una vez extra una muestra de una poblacin, aplicamos mtodos estad da o e sticos para obtener informacin sobre la muestra y extrapolarla a toda la poblao cin. El primer paso es describir y analizar el conjunto de datos extra o dos, organizando, representando y resumiendo la informacin contenida en los miso mos. A este proceso lo denominamos Estad stica Descriptiva. Una vez descrito y analizado el comportamiento de la muestra procedemos a obtener inferencias da por la misma y valindonos de la Teor de la Probabilidad. A este proceso e a lo denominamos Estad stica Inferencial. En la Figura 1 mostramos el marco apropiado para analizar un experimento aleatorio asociado a un carcter. a
Manuales uex 5
cient cas sobre el experimento aleatorio en base a la informacin suministrao
Poblacin Carcter X
Estadstica inferencial Teora de la Probabilidad Estadstica descriptiva
Teora de muestras x1, , xn
Figura 1: Marco apropiado para analizar un experimento aleatorio asociado a un carcter X. a
0.4.
Ejemplo
A continuacin, exponemos brevemente a modo de ejemplo el estudio asociao do a un proceso de medicin. Observemos que este estudio es la consecuencia o directa de aplicar los mtodos y tcnicas que desarrollamos en los siguientes e e temas. Fijando ideas, suponemos que estamos interesados en determinar la distancia en metros entre dos puntos. Dado que dicha distancia es desconocida, utilizamos un distancimetro con apreciacin en mil o o metros para aproximarla. Si medimos dicha distancia dos veces, una vez eliminados los errores sistemtia cos, es muy probable an que obtengamos dos mediciones diferentes, debido a u la presencia de errores aleatorios. Por tanto, la medicin de dicha distancia es o un experimento aleatorio asociado a un carcter cuantitativo continuo medido a en escala numrica. Las unidades experimentales son mediciones. Dado que el e nmero de mediciones es innitas (a priori), con el n de aproximar el comporu tamiento de las mediciones, registramos 25 observaciones de las mismas. Estas observaciones constituyen nuestra muestra. Notemos que para obtener un conjunto de mediciones representativos tenemos que aplicar tcnicas de Muestreo e Estad stico. Una vez registrados los datos, realizamos un estudio descriptivo, con el n de ordenar, representar y resumir la informacin de las mediciones o
Manuales uex 6
observadas. Dicho estudio se concreta en una tabla de frecuencias (tabla de la izquierda del Cuadro 1), un histograma (grco de la izquierda de la Fia gura 2) y valores de medidas caracter sticas (tabla de la derecha del Cuadro 1). Las explicaciones de los mismos son dadas en el Ejemplo 1.3. Solamente, notemos que 36.145, el valor de la media aritmtica de los 25 mediciones, es e
Distancia
Fr. absoluta
Medidas caracter sticas
Datos originales
(36.135, 36.139] (36.139, 36.143] (36.143, 36.147] (36.147, 36.151] (36.151, 36.155]
2 7 10 5 1
Media Mediana 1o Cuartil 3o Cuartil Cuasidesviacin t o pica Meda
36.145 36.145 36.143 36.147 0.003535 0.002
Total
25
Cuadro 1: Tabla de frecuencias (tabla de la izquierda) y valores de medidas caracter sticas (tabla de la derecha) para el conjunto de mediciones consideradas en el Apartado 0.4.
36.135
36.140
36.145
36.150
36.155
0 36.130
20
40
60
80
100
10
36.135
36.140
36.145
36.150
36.155
36.160
Figura 2: Histograma (grco de la izquierda) y modelo de probabilidad terica a o (grco de la derecha) para el conjunto de datos considerados en el Apartado a 0.4. obtenido como aplicacin del mtodo numrico conocido por m o e e nimos cuadrados para el ajuste de observaciones. As este valor representa al conjunto de , las mediciones observadas. Por otro lado, haciendo uso de la Teor de la Probabilidad, en el grco de la a a derecha de la Figura 2, mostramos un modelo terico para explicar la incertio dumbre en la medicin. Observemos que este comportamiento es parecido al o obtenido para el conjunto de 25 mediciones, pues ste representa a todas las e mediciones.
Manuales uex 7

Como la muestra es representativa, a continuacin proporcionamos una aproo ximacin de la distancia a partir de la informacin que contiene la muestra. o o Como la media aritmtica representa a las mediciones observadas, podemos e proponer dicho valor como aproximacin a la distancia de inters, en este caso o e 36.145 m. Probablemente, ste no es el valor verdadero de la distancia, mxie a me sabiendo que si extraemos otra muestra de 25 observaciones en las mismas condiciones que las anteriores y calculamos su media aritmtica, sta diere e e de la calculada a partir de la primera muestra. Teniendo en cuenta todo esto y el comportamiento de la muestra, los mtodos estad e sticos inferenciales proporcionan un intervalo que con cierto grado de conanza contiene al verdadero valor de la distancia. En este caso, con una conanza del 95 %, el verdadero valor de la distancia se encuentra en intervalo (36.143, 36.146).
Manuales uex 8
Bloque Temtico I a Mtodos para la descripcin y e o anlisis de conjuntos de datos a
Manuales uex 9
Tema 1 Mtodos para la descripcin y e o anlisis de conjuntos de datos a unidimensionales

1.1. Introduccin o
Como hemos comentado, la estad stica descriptiva es la parte de la Estad stica encargada de estudiar mtodos, tcnicas y procedimientos destinados a ordee e nar, describir y analizar un conjunto de datos. Para tal n y de manera general organizamos el conjunto de datos a travs de una tabla, lo representamos mee diante uno o varios grcos y resumimos su informacin en medidas que desa o criben ciertas caracter sticas de los mismos. En este tema, estudiaremos cmo o construir tablas, grcos y calcular medidas caracter a sticas apropiadas para analizar descriptivamente un conjunto de datos procedentes de la medicin u o observacin de un unico carcter. Dicho estudio depende de la naturaleza del o a
ahora, supondremos que hemos observado un determinado carcter, cualitaa tivo o cuantitativo, en n elementos de una poblacin, lo que constituye una o muestra de tamao n. n
Manuales uex 11
carcter, as como de la escala de medida del conjunto de datos. A partir de a
1.2.
Tablas de frecuencias
En general, si el tamao de la muestra es elevado, la simple secuencia de n los datos observados no proporciona informacin sobre el comportamiento de o los mismos. En cambio, podemos extraer esta informacin organizando los o datos en una tabla denominada tabla de frecuencias. En ella presentamos los datos agrupados en clases, que para un carcter cualitativo son sus categor a as y para un carcter cuantitativo son los valores numricos o intervalos que los a e contengan. En cualquier caso, las clases consideradas tienen que ser exhaustivas y excluyentes, es decir, cada dato es clasicado en una y solamente en una clase. A cada clase, asociamos la frecuencia absoluta que es el nmero de veces que u aparece dicha clase en el conjunto de datos observados. Como las clases son exhaustivas y excluyentes, la suma total de las frecuencias absolutas coincide con el nmero de datos en la muestra. Para conocer la representacin global de u o una clase en el conjunto de datos, incorporamos su frecuencia relativa que es la proporcin de apariciones de la clase en el conjunto de datos observados. La o calculamos como la frecuencia absoluta dividido entre el tamao de la muestra. n Como las clases son exhaustivas y excluyentes, la suma total de las frecuencias relativas es uno. Dado que es ms usual hablar en trminos de porcentaje, a e en ocasiones, las frecuencias relativas son reemplazadas por las frecuencias porcentuales, es decir, las frecuencias relativas multiplicadas por cien. A la clase con mayor frecuencia la denominamos clase modal o moda, es decir, la clase ms representativa en la muestra. En ocasiones hay ms de una moda en a a la muestra. Ejemplo 1.1 Supongamos que para las mediciones de un trabajo topogrco a de gran envergadura han participado tres equipos de campo, E1, E2 y E3, de modo que cada medida ha dependido de un slo equipo. Con el n de conocer o la distribucin de participacin de los distintos equipos de trabajo, hemos o o
Manuales uex 12
seleccionado 20 mediciones distintas y hemos anotado el grupo de trabajo que ha tomado dicha medida, obtenindose la secuencia e E3, E2, E3, E3, E1, E1, E2, E3, E2, E1, E2, E2, E2, E1, E2, E3, E2, E2, E2, E3,
Equipos
Fr. absolutas
Fr. relativas
Fr. porcentuales
E1 E2 E3
4 10 6
0.20 0.50 0.30
20 % 50 % 30 %
Total
20
100 %
Cuadro 1.1: Tabla de frecuencias para el conjunto de datos considerado en el Ejemplo 1.1. que constituye el conjunto de datos. En esta situacin, la poblacin bajo estuo o dio es el conjunto de medidas realizadas en el trabajo topogrco. Para cada a medida, la caracter stica a estudiar es equipo de campo que ha tomado dicha medida. Este es un carcter cualitativo medido en escala nominal con catea gor E1, E2 y E3, que son exhaustivas y excluyentes, pues en cada medida as slo participa uno de los tres equipos considerados. Tomando estas categor o as como las clases de la tabla de frecuencias, en el Cuadro 1.1 mostramos la organizacin de las 20 observaciones de la muestra. o Teniendo en cuenta la tabla de frecuencias deducimos que el equipo E2 ha participado en la toma de la mitad de las 20 medidas de la muestra. El resto de las medidas de la muestra han sido tomadas entre los equipos E1 y E3, siendo algo superior la implicacin del equipo E3. Notemos que, en esta situacin, o o podemos reproducir el conjunto de datos, salvo el orden en que fueron tomados, a partir de la tabla de frecuencias. Como se observa el elemento fundamental de una tabla de frecuencias son las clases y no los valores del conjunto de datos. Cuando el carcter es medido en a escala ordinal o numrica, podemos establecer un orden en las clases. Teniendo e lada como el nmero de veces que aparece en el conjunto de datos las clases u inferiores o iguales a dicha clase. De manera anloga, denimos la frecuencia a relativa acumulada como la proporcin de apariciones en el conjunto de datos o de las clases inferiores o iguales a la jada. Como las clases son exhaustivas y
Manuales uex 13
en cuenta este orden, para cada clase denimos la frecuencia absoluta acumu-
No de vrtices e
Fr. absolutas
Fr. absolutas ac.
Fr. relativas ac.
1 2 3 4 5 6
3 8 9 6 3 1
3 11 20 26 29 30
0.10 0.37 0.67 0.87 0.97 1
Cuadro 1.2: Tabla de frecuencias para el conjunto de datos considerados en el Ejemplo 1.2. excluyentes, la frecuencia absoluta acumulada de la ultima clase es el tama o n de la muestra y su frecuencia relativa acumulada es la unidad. Ejemplo 1.2 Supongamos que para el conjunto de redes topogrcas que ina tervienen en un trabajo topogrco estamos interesados estudiar el nmero de a u vrtices geodsicos que constituyen cada red topogrca. Para tal n, selece e a cionamos 30 redes topogrcas, obtenindose la secuencia a e 2, 3, 4, 3, 5, 5, 4, 4, 3, 2, 2, 5, 6, 4, 1, 2, 3, 2, 3, 2, 1, 2, 4, 2, 3, 1, 3, 4, 3, 3, que constituye el conjunto de datos. En esta situacin, la poblacin bajo eso o tudio es el conjunto de redes topogrcas que intervienen en el trabajo toa pogrco. La caracter a stica a estudiar de cada red topogrca es el nmero a u de vrtices geodsicos que constituye la red, que tiene naturaleza cuantitativa e e discreta medida en escala numrica. e Los datos recogidos lo organizamos en la tabla de frecuencias mostrada en el Cuadro 1.2, donde las clases son los valores del conjunto de datos. Observamos que el rango de valores del nmero de vrtices para las redes topogrcas de la u e a
Manuales uex 14
muestra oscila entre 1 y 6. Adems, el 77 % de las redes topogrcas observadas a a presentan de 2 a 4 vrtices geodsicos. Dicho porcentaje lo obtenemos como e e diferencia de las frecuencias relativas acumuladas asociadas a las clases 1 y 4. El resto de redes topogrcas se distribuyen de manera casi uniforme entre a las que tienen uno y las que tiene ms de 4 vrtices. Notemos que a partir del a e

conocimiento de las frecuencias acumuladas, podemos obtener las frecuencias absolutas o relativas de una clase, sin ms que realizar la diferencia de dos a frecuencias acumuladas consecutivas. La frecuencia relativa para el valor 4 es de 0.20, pues la frecuencia relativa acumulada de 3 y 4 es de 0.67 y 0.87, respectivamente. Las tablas que hemos considerado hasta ahora, tienen como peculiaridad que cada clase corresponde a un unico valor del carcter. Esta propiedad permi a te reconstruir el conjunto de datos, salvo el orden en que fueron tomados. En cambio, cuando un carcter toma muchos valores diferentes, ya sean categor a as o nmeros, cada clase de la tabla no puede corresponder a un unico valor, pues u una tabla con muchas clases (las) no es ni operativa ni informativa. Por ello, en esta situacin, los valores los agrupamos en clases. El nmero de clases a o u considerar depender del tamao de la muestra y oscilar entre 5 y 20. Pocas a n a clases no proporcionan informacin y muchas clases oscurecen la informacin o o global. Aunque existen varios criterios de seleccin, en la prctica es usual too a mar un nmero de intervalos aproximadamente igual a 1 + log2 (n) (frmula de u o Sturges), siendo n el tamao de la muestra. Dependiendo del nmero de clases n u consideradas, as como de la seleccin de los intervalos, la tabla de frecuencias o puede presentar diferentes apariencias. Finalmente, observamos que cualquier simplicacin de los datos mediante su agrupamiento en clases signica una o reduccin y prdida de informacin respecto al conjunto de datos original. o e o Para caracteres cuantitativos, las clases agrupadas son intervalos o rangos de valores que sern exhaustivos y excluyentes. En general, es conveniente a que todas las clases agrupadas tengan la misma amplitud. En ocasiones este proceder no es una buena seleccin, pues algunas clases tienen baja frecuencia o absoluta. En estas situaciones, procedemos a agrupar algunas de estas clases, teniendo en cuenta la longitud de los intervalos para la comparacin de las o
Ejemplo 1.3 Supongamos que estamos interesados en determinar la distancia en metros entre dos puntos. Para ello utilizamos un distancimetro con o apreciacin en mil o metros y registramos las siguientes 25 mediciones
Manuales uex 15
frecuencias absolutas entre las clases.
Medicin o
Fr. absoluta
Fr. relativa
Fr. relativa acumulada
(36.135, 36.139] (36.139, 36.143] (36.143, 36.147] (36.147, 36.151] (36.151, 36.155]
2 7 10 5 1
0.08 0.28 0.40 0.20 0.04
0.08 0.36 0.76 0.96 1
Total
25
Cuadro 1.3: Tabla de frecuencias para el conjunto de datos considerados en el Ejemplo 1.3. 36.144, 36.147, 36.145, 36.145, 36.145, 36.141, 36.137, 36.147, 36.148, 36.146, 36.142, 36.143, 36.152, 36.142, 36.143, 36.148, 36.147, 36.141, 36.150,36.146, 36.143, 36.144, 36.148, 36.148, 36.138, que constituye el conjunto de datos. En esta situacin, la poblacin a consio o derar es el conjunto de mediciones de la distancia de inters realizadas con un e distancimetro y la caracter o stica a estudiar es la medida observada, que es un carcter cuantitativo continuo medido en escala numrica. A priori, el valor a e numrico de cada medicin deber de ser distinto al del resto, pero debido e o a a la apreciacin del instrumento, algunas mediciones toman el mismo valor. o En este caso hemos registrado 12 valores distintos. Teniendo en cuenta que el tamao de la muestra es 25, recomendamos agrupar los datos en 5 categor n as. Como el valor m nimo es 36.137 y el mximo 36.152, podemos considerar el a intervalo global denido por los valores 36.135 y 36.155. La amplitud de este intervalo es 0.020 y por tanto, cada intervalo que dene una clase tiene una amplitud de 0.004. Teniendo en cuenta la tabla de frecuencias mostrada en el Cuadro 1.3, deduci-
Manuales uex 16
mos, por ejemplo, que en el intervalo denido por los valores 36.139 y 36.151 se encuentra el 88 % de las mediciones de la muestra. Adems, en los dos pria meros intervalos se acumulan el 36 % de los valores observados mientras que slo un 24 % en los dos ultimos. o

Notemos que como estamos realizando un estudio descriptivo, todas las conclusiones de los ejemplos anteriores slo hacen referencia al comportamiento o del carcter para el conjunto de datos observados y no a la poblacin de proa o cedencia. Si queremos generalizar nuestras conclusiones tenemos que aplicar tcnicas de estad e stica inferencial.
1.3.
Grcos a
Las tablas de frecuencias proporcionan de manera eciente y sencilla una ordenacin de los datos. Sin embargo, la obtencin de conclusiones a partir de ellas o o puede entraar cierta dicultad. En cambio, normalmente un grco presenta n a de forma clara la informacin relevante contenida en una muestra, donde el o area de la gura asociada a cada clase es proporcional a la frecuencia de sta, e absoluta o relativa. Cuando a cada clase le asignamos un rectngulo, el grco a a es un diagrama de barras. Un diagrama de barras donde las clases son intervalos en que agrupamos los valores del carcter los denominamos histograma. a En un histograma los rectngulos aparecen pegados unos a otros, atendiendo a a la continuidad de los intervalos. Un diagrama de barras donde representamos las frecuencias acumuladas y ordenamos las categor de manera decreciente as atendiendo a las frecuencias de las mismas, lo denominamos diagrama de Pareto. Por otro lado, cuando a cada clase le asignamos un sector del c rculo con angulo proporcional a la frecuencia absoluta o relativa de dicha clase, el grco a es un diagrama de sectores. Finalmente, cuando presentamos los datos de la muestra mediante el empleo de los d gitos que constituyen los valores de los datos, lo denominamos diagrama de tallo-hoja. Para ello, cada dato numrico e los dividimos en dos partes: los d gitos principales que se convierten en el tallo, y los d gitos posteriores que se convierten en las hojas. Los tallos lo escribimos a lo largo del eje principal, y cada dato est asociado a una hoja. La impresin a o resultante es la de un histograma horizontal.
ra caracteres cualitativos y caracteres cuantitativos discretos, mientras que el histograma y el diagrama de tallo-hoja son apropiados para caracteres cuantitativos. Observemos que para un mismo carcter es posible realizar varios a grcos. En esa situacin elegimos aquel que mejor represente la informacin a o o
Manuales uex 17
El diagrama de barras y el diagrama de sectores son grcos apropiados paa
10
E1
8
E2
E3
E1
E2
E3
Figura 1.1: Diagrama de barras (grco de la izquierda) y un diagrama de a sectores (grco de la derecha) para el conjunto de datos considerados en el a Ejemplo 1.1. relevante que contiene la muestra y que mejor complemente a la tabla de frecuencias. Ejemplo 1.4 A continuacin mostramos grcos correspondientes a los ejemo a plos desarrollados en la seccin anterior. Para el conjunto de datos considerado o en el Ejemplo 1.1 hemos realizado un diagrama de barras y un diagrama de sectores, los cuales los mostramos en la Figura 1.1. Notemos que el grco que a mejor reeja que el equipo E2 ha llevado a cabo la mitad de las mediciones es el diagrama de sectores. Para el conjunto de datos considerado en el Ejemplo 1.2 hemos realizado un diagrama de barras (grco de la izquierda de la Figura 1.2), un diagrama de a Pareto (grco central de la Figura 1.2) y un diagrama tallo-hoja (tabla de la a izquierda del Cuadro 1.4). Como podemos observar el diagrama de tallo-hoja es tan ilustrativo como el diagrama de barras. En esta situacin, a partir de o ellos podemos obtener la tabla de frecuencias del conjunto de datos. Teniendo en cuenta el diagrama de Pareto deducimos que casi en el 80 % de las redes topogrcas intervienen de 2 a 4 vrtices, siendo estos n meros de vrtices los a e u e
Manuales uex 18
ms numerosos en el conjunto de redes topogrcas observadas. a a Finalmente, para el conjunto de datos considerado en el Ejemplo 1.3 hemos realizado un histograma (grco de la izquierda de la Figura 1.2) y un diagrama a de tallo-hoja (tabla de la derecha del Cuadro 1.4). Observemos que, en esta
1.0
0.8
0.6
0.4
0.2
0.0
0 36.135
10
36.140
36.145
36.150
36.155
Figura 1.2: Diagrama de barras (grco de la izquierda) y diagrama de Pareto a (grco central) para el conjunto de datos considerado en el Ejemplo 1.2 e a histograma (grco de la derecha) para el conjunto de datos considerados en a el Ejemplo 1.3.
Tallo Hoja Tallo Hoja
1 2 3 4 5 6
000 00000000 000000000 000000 000 0
36.13 36.14 36.14 36.14 36.15
78 1122333 4455566777 88880 2
Cuadro 1.4: Diagramas de tallo-hoja para el conjunto de datos considerado en el Ejemplo 1.2 (tabla de la izquierda) y en el Ejemplo 1.3 (tabla de la derecha). situacin, podemos reconstruir el conjunto de datos originales a partir del o diagrama de tallo-hoja, salvo el orden en la observacin de los mismos. o En general los comentarios asociados a los grcos son los mismos que los a realizados al describir las tablas de frecuencias. Sin embargo, en algunos casos, podemos ilustrar ms claramente algunos aspectos. a En ocasiones, una mala representacin de los datos puede conducir a concluo pondientes al Ejemplo 1.1. El grco de la izquierda es correcto. En cambio, a el grco de la derecha es confuso, pues el rea del rectngulo correspondiente a a a al equipo de trabajo E3 es ms del doble que el rea del rectngulo corresa a a pondiente al equipo de trabajo E1, mientras que esa relacin no se mantiene o
Manuales uex 19
siones errneas. En la Figura 1.3 mostramos dos diagramas de barras correso
10
E1
E2
E3
10
E1
E2
E3
Figura 1.3: Diagramas de barras para el conjunto de datos considerado en el Ejemplo 1.1. en sus frecuencias absolutas, 4 y 6, respectivamente. Ello se debe a tomar el 3 como valor m nimo en el eje de ordenada.
1.4.
Como complemento a las tablas y a los grcos, resumiremos la informacin a o contenida en la muestra en valores que describen ciertas caracter sticas sobre el comportamiento de los datos. A dichos valores los denominamos medidas caracter sticas muestrales y se calcularn sobre conjunto de datos de naturaa leza cuantitativa. Atendiendo a la caracter stica que describen las agrupamos en medidas de centralizacin, medidas de posicin, medidas de dispersin y o o o medidas de forma. Las medidas de centralizacin tienen por objeto proporcioo nar valores en torno a los cuales se encuentran las observaciones muestrales. En cambio, las medidas de posicin permiten estudiar la posicin relativa de o o los datos dentro de su conjunto. Finalmente, la concentracin de los datos o se reeja en las medidas de dispersin y el estudio de la distribucin de los o o datos en las medidas de forma. Los valores que proporcionan estas medidas son valores numricos que dependen del conjunto de datos y no lo determinan e de manera un voca, es decir, dos conjuntos de datos diferentes pueden tener la misma medida caracter stica. Por ello, de un conjunto de datos estudiamos varias medidas caracter sticas, con el n de obtener la mxima informacin a o sobre el comportamiento de los mismos y que los resuman adecuadamente, obviamente, no con la perfeccin que se alcanza con el conocimiento de todos o los valores originales.
Manuales uex 20

La mayor de las medidas caracter a sticas slo estn denidas para caracteres o a cuantitativos, ya sean discretos o continuos, pues los valores que proporcionan dependen de valores numricos. Es por ello que, a partir de ahora suponemos e que hemos observado un carcter cuantitativo en n unidades experimentales, a obtenindose un muestra de tamao n con valores numricos x1 , . . . , xn , siendo e n e xi el valor numrico del carcter correspondiente a la observacin i-sima. e a o e
1.4.1.
Medidas de centralizacin o
La medida de centralizacin ms com n es la media aritmtica muestral, la o a u e denotamos por x y la denimos como el promedio de los valores de la muestra, xi . n A partir de su denicin tenemos que las desviaciones positivas y negativas de o x=
i=1
es decir
los datos con respecto al valor de la media aritmtica muestral se equilibran, e es decir,
n n (xi x) = xi nx = 0, i=1 i=1
y por tanto podemos decir que la media aritmtica muestral es una medida e de centralizacin, pues representa el centro geomtrico para el conjunto de o e datos. Adems, si los valores del conjunto de datos son ceros y unos, entonces a la media aritmtica muestral representa la proporcin de unos en el conjunto e o de datos. Para el conjunto de datos considerados en el Ejemplo 1.3, tenemos que x= 36.144 + 36.147 + . . . + 36.148 + 36.138 = 36.1448 m., 25
es decir, el valor medio de las 25 mediciones realizadas. Como el nmero de u cifras signicativas (ver Apndice C) de la medida caracter e stica debe ser el mismo que el de los valores observados, en esta situacin 5 cifras signicativas, o media aritmtica muestral est medida en las mismas unidades que la variable e a y que utiliza toda la informacin que contiene cada dato. Por este motivo, tiene o el incoveniente de verse afectada por la presencia de datos at picos o anmalos, o es decir, valores que son extremadamente grandes o pequeos en relacin al n o
Manuales uex 21
tenemos que la media aritmtica muestral es 36.145 m. Observemos que la e

resto. En efecto, supongamos que en el Ejemplo 1.3, cometemos un error en la anotacin de la primera medicin, tomndose el valor 361.440 en vez de o o a 36.144. En esta nueva situacin, el valor 361.440 es sensiblemente mayor que o el resto de las mediciones lo que produce un aumento en el valor de la media x= 361.440 + 36.147 + . . . + 36.148 + 36.138 = 49.157 m. 25
Por tanto, la media aritmtica muestral es una medida de centralizacin aproe o piada para describir datos homogneos. Para un conjunto de datos que presente e un comportamiento heterogneo, originado por ejemplo por la presencia de e datos at picos, una medida de centralizacin apropiada es la mediana muestral. o La denimos como aquel valor que, supuesto los datos ordenados de menor a mayor, deja igual nmero de valores a su izquierda que a su derecha. Si el u nmero de datos es impar tomamos el valor central de los datos. Si el nmero u u de datos es par la calculamos como la media de los valores centrales. Es decir, si x1 x2 . . . xn entonces la mediana es x(n+1)/2 si n es impar (xn/2 + xn/2+1 )/2 si n es par. Ejemplo 1.5 Para el conjunto de datos considerado en el Ejemplo 1.3, n = 25 es impar y por tanto la mediana es el dato que ocupa la posicin 13=(25+1)/2, o una vez ordenados estos de menor a mayor. Dicha ordenacin puede ser obteo nida a partir del tallo-hoja (ver Cuadro 1.4), de donde deducimos que 36.145 m es la mediana de las mediciones tomadas. En esta ocasin coincide con el o valor de la media aritmtica muestral, consecuencia de la homogeneidad de los e datos. Por otro lado, para el conjunto de datos considerado en el Ejemplo 1.2, n = 30 es par y por tanto la mediana es el valor medio de los datos que ocupa las posiciones 15=30/2 y 16=30/2+1, una vez ordenados estos de menor a
Manuales uex 22
mayor. En este caso, teniendo en cuenta las frecuencias absolutas acumuladas de la tabla de frecuencias (ver Cuadro 1.2), tenemos que x15 = x16 = 3, pues las frecuencias absolutas de los valores numricos 2 y 3 son 11 y 20, e respectivamente.

Observemos que cuando n es par, todos aquellos valores que estn entre xn/2 a y xn/2+1 dejan igual nmero de valores a su izquierda que a su derecha, es u decir, la mediana no es unica. Por convenio, hemos tomado para su clculo el a valor medio de esos valores. Para el clculo de la mediana, los valores numricos de los datos slo son utilia e o zados para ordenar estos de menor a mayor. Por ello la mediana, a diferencia de la media aritmtica muestral, es una medida robusta frente a valores at e picos o anmalos, es decir, su magnitud no est afectada fuertemente por la presencia o a de este tipo de valores. En efecto, para el Ejemplo 1.3 hemos calculado que la mediana es 36.145 m. que coincide en este caso con la mediana de los datos cuando anotamos en la primera medicin, por error, un valor de 361.440 m. o Medidas de centralizacin que utilizan toda la informacin contenida en cada o o dato y que son apropiadas para datos heterogneos son la media geomtrica e e y la media armnica. Ambas slo son aplicadas cuando los valores observados o o son positivos. La media geomtrica la denimos como el antilogaritmo de la e media aritmtica muestral de los logaritmos de las observaciones, es decir e n n i=1 log xi n n e = xi ,
i=1
y es apropiada cuando hay presencia de valores at picos de gran magnitud. En cambio, cuando hay presencia de valores at picos de pequea magnitud, n la medida armnica es apropiada. La denimos como la inversa de la media o aritmtica muestral de las inversas de las observaciones, es decir e 1 . n 1 1 n x i=1 i Para el Ejemplo 1.3, tenemos que ambas medias coinciden con el valor de la que se reeja en su histograma. Como hemos comentado anteriormente, la medida de centralizacin ms utilio a zada es la media aritmtica muestral. Por ello, a partir de ahora nos referiremos e
Manuales uex 23
media aritmtica muestral. Esto muestra la homogeneidad de los datos, hecho e

a ella, si no hay lugar a confusin, simplemente como media muestral. Una geo neralizacin de la media muestral es la media ponderada, que la denimos o como n i=1 w x n i i , j=1 wj
donde wi > 0, con i {1, . . . , n}. A wi lo denominamos peso del dato xi ,
pues nos indica la aportacin relativa de cada dato al valor nal. Es fcil o a obtener la media muestral como una media ponderada donde todos los datos tienen igual peso. La media ponderada es de utilidad para calcular la media aritmtica muestral e de los datos a partir de una tabla de frecuencias donde cada clase es un unico valor numrico, siendo los pesos las frecuencias absolutas. Como ilustracin, e o para el conjunto de datos del Ejemplo 1.2 deducimos a partir del Cuadro 1.2 que x= 1 3 + 2 8 + ... + 5 3 + 6 1 = 3.03 vrtices. e 3 + 8 + ... + 3 + 1
Observemos que si los datos estn tabulados y alguna clase contiene ms de a a un valor numrico, es posible denir las medidas de centralizacin anteriores, e o teniendo en cuenta que al agrupar los datos se ha perdido informacin y por o tanto los valores que proporcionan las medidas caracter sticas sern prximas a o a las obtenidas si se conocieran los valores originales de todos los datos.
1.4.2.
Medidas de posicin o
Como la mediana muestral es una medida de centralizacin que deja igual o nmero de valores a su izquierda que a su derecha, entonces es un valor que u se posiciona en la parte central del conjunto de datos, una vez que estos estn a ordenados de menor a mayor. Como generalizacin del concepto de mediana o denimos el cuantil muestral de orden p (0 p 1) como el valor que deja a lo sumo np datos, el 100p %, a su izquierda y a lo sumo n(1 p) datos, el
Manuales uex 24
100(1p) %, a su derecha, una vez que esos estn ordenados de menor a mayor. a Por tanto, los cuantiles nos proporcionan valores que ocupan determinadas posiciones en el conjunto de datos. Atendiendo al valor de p, destacamos los cuartiles y los percentiles.

Los cuartiles dividen al conjunto de datos en 4 partes, cada una de las cuales engloban a lo sumo un 25 % de los datos. Hay 3 cuartiles, los cuantiles muestrales de orden 0.25, 0.50 y 0.75, respectivamente. Por tanto, el segundo cuartil es la mediana y entre el primero y el tercero se encuentra el 50 % central de los datos de la muestra. Es importante resaltar que la distancia entre el primer cuartil y el segundo no es, en general, igual a la distancia entre el segundo y el tercero, aunque ambos intervalos contiene un 25 % de los datos. Los percentiles dividen al conjunto de datos en 100 partes, cada una de las cuales engloba a lo sumo un 1 % de los datos. Hay 99 percentiles, siendo los cuantiles de orden 0.01,. . . ,0.99, respectivamente. Existen varios procedimientos para el clculo de los percentiles, pues como sucede para la mediana muestral, no a son unicos. A continuacin, describimos un procedimiento para el clculo del o a cuantil de orden j/100 con j {1, . . . , 99}, que es similar al empleado para la mediana. Si x1 x2 . . . xn entonces el cuantil de orden j/100 es si nj/100 no es entero x[nj/100]+1 x[nj/100] + (x[nj/100]+1 x[nj/100] )j/100 si nj/100 es entero ,
u donde [] denota la parte entera1 . Si nj/100 no es un nmero entero, entonces el dato que ocupa la posicin [nj/100], es decir, x[nj/100] , no deja a lo sumo o nj/100 datos a su izquierda, pero s el siguiente dato, es decir, el que ocupa la posicin [nj/100] + 1. Adems, x[nj/100]+1 es el primer valor numrico que o a e lo verica. Por otro lado, si nj/100 es un nmero entero, entonces cualquier u valor comprendido entre x[nj/100] y x[nj/100]+1 verica la denicin de cuantil o muestral de orden j/100. Suponiendo uniformidad del carcter entre estos a dos valores, determinamos el valor del percentil interpolando. Para j = 50, el clculo del cuantil muestral de orden 0.5 coincide con el descrito para el clculo a a de la mediana, pues 50/100 = 1/2 e imponer que n/2 sea entero equivale a que n sea par.
travs del tamao de la muestra. Por tanto los cuantiles son medidas robustas, e n es decir, su valor no est fuertemente inuenciado por la presencia de valores a
1 La
parte entera de un n mero positivo z es el mayor n mero natural menor o igual que u u
z.
Manuales uex 25
Observemos que las posiciones obtenidas slo dependen del conjunto de datos a o

at picos. Notemos que si el tamao de la muestra o el conjunto de los valores de n los datos son pequeos, entonces cuantiles muestrales de distinto orden pueden n tener el mismo valor. Ejemplo 1.6 Como ilustracin del mtodo proporcionado a continuacin calo e o culamos los cuantiles para el conjunto de datos del Ejemplo 1.2 y del Ejemplo 1.3. Si n = 25 y j = 25, 50, 75, entonces tenemos que nj/100 es un nmero no u entero en los 3 casos y por tanto el primer cuartil es x7 , el segundo es x13 y el tercero es x19 . Por otro lado, si n = 30 tenemos que nj/100 es entero si j = 50 y no entero si j = 25, 75. Entonces, en esta situacin el primer cuartil es x8 , o y el tercero es x23 . Teniendo en cuenta los diagramas tallo-hoja de los datos (ver Cuadro 1.4), deducimos que para el Ejemplo 1.2, x8 = 2, x15 = x16 = 3 y x23 = 4, y para el Ejemplo 1.3, x7 = 36.143, x13 = 36.145 y x19 = 36.147. A partir de las frecuencias relativas acumuladas de cada clase que constituye la tabla de frecuencias podemos obtener una aproximacin a cualquier cuano til, utilizando para ello un procedimiento de interpolacin similar al descrito o anteriormente, donde los valores numricos son reemplazados por los extremos e de las clases. Ejemplo 1.7 Para el conjunto de datos considerado en el Ejemplo 1.3 deducimos, teniendo en cuenta slo la tabla de frecuencias (ver Cuadro 1.2), que la o mediana muestral se encuentra entre 36.143 y 36.147. Como la amplitud del intervalo es de 0.004, el porcentaje de valores en dicho intervalo es del 40 % y el 36 % de los datos son valores inferiores o iguales a 36.143, entonces la mediana muestral es 36.143 + 0.004(0.5 0.36)/0.4 = 36.1444m. el segundo es el punto medio entre x15 y x16 , es decir, x15 + 0.5(x16 x15 ),
Manuales uex 26
En la Figura 1.4 mostramos geomtricamente el procedimiento de interpolacin e o seguido. Observemos que, en esta situacin, debido al efecto del agrupamiento o en clases la aproximacin diere del resultado obtenido anteriormente en el o Ejemplo 1.6 utilizando los datos originales.
0.3
0.4
0.5
0.6
0.7
0.8
36.143
36.144
36.145
36.146
36.147
Figura 1.4: Interpretacin geomtrica del procedimiento de interpolacin seo e o guido en el Ejemplo 1.7.
x1
x2
x3
x4
x5
x1
x2
x3
x4
x5
Figura 1.5: Conjuntos de datos con las mismas media y mediana muestral y diferente comportamiento en la dispersin. o
1.4.3.
Medidas de dispersin o
Las medidas de centralizacin y posicin no determinan un o o vocamente a un conjunto de datos, es decir, no describen todas las caracter sticas del mismo. Como mostramos en la Figura 1.5, dos conjuntos de datos pueden tener las mismas media y mediana muestral y ser muy diferentes entre s atendiendo a la dispersin de las observaciones. Las medidas de dispersin indican lo agruo o pado o disperso que se encuentran los datos de la muestra. Una medida de fcil clculo es el rango o amplitud de los datos que lo denimos como la disa a tancia entre el valor mximo y el valor m a nimo de la muestra. Es un valor no negativo que se expresa en las mismas unidades que los datos originales. Dado que su valor depende unicamente del dato mayor y del menor, est fuertemen a informacin sobre cmo de dispersos o agrupados estn el resto de los datos o o a de la muestra. Por ello es una medida que suele venir acompaada del rango n intercuart lico que lo denimos como la distancia entre el tercer y el primer cuartil, es decir, la amplitud donde se distribuye al menos el 50 % de los datos te inuenciado por la presencia de valores at picos. Adems, no proporciona a
Manuales uex 27

centrales. Como los cuartiles son medidas de centralizacin robustas tambin o e lo es el rango intercuart lico. Ejemplo 1.8 Para el conjunto de datos considerado en el Ejemplo 1.2, deducimos que los datos tienen una amplitud de 5 unidades, pues los valores se encuentran entre 1 y 6. Adems, entre 2 y 4 se encuentra al menos el 50 % de a los datos centrales. Con esta informacin deducimos tambin que el 25 % de o e los datos con valores menores est ms agrupado que el 25 % de los datos con a a valores mayores. Para el conjunto de datos considerado en el Ejemplo 1.3, los valores se encuentran entre 36.137 y 36.152, es decir, tiene una amplitud de 0.015 m. El 50 % de los valores centrales se concentran en 0.005 m. El resto de valores se distribuye en 0.010 m repartidos de manera equitativa entre el 25 % de los datos con valores menores y el 25 % de los datos con valores mayores. Tanto el rango como el rango intercuart lico son medidas de dispersin que o indican el grado de agrupamiento entre los datos, tomando como referencia los propios datos. En cambio, existen otros tipos de medidas de dispersin que o toman como referencia a los valores de medidas de centralizacin. Para la media o muestral asociamos la medida de dispersin varianza muestral que la denimos o como la media de los cuadrados de las desviaciones de cada observacin a la o media muestral, es decir, 1 (xi x)2 . n i=1
n
Observemos que la varianza proporciona un valor no negativo, nulo si y slo si o todos los valores de los datos son iguales. Para datos con la misma magnitud, cuanto mayor sea su valor, indicar mayor grado de dispersin de los datos a a o su media muestral, teniendo presente que est fuertemente inuenciada por la a presencia de valores at picos en un grado mayor a lo que est la media muestral. a Dado que tomamos las desviaciones al cuadrado, la varianza est expresada a en unidades que son el cuadrado de las unidades de las observaciones. Por ello
Manuales uex 28
denimos la desviacin t o pica muestral como la ra cuadrada de la varianza z muestral, que se expresa en las mismas unidades que los datos. Para el clculo a de la varianza, y por ende de la desviacin t o pica, requerimos conocer previamente el valor de la media muestral, que de no ser un valor exacto, tenemos que redondearlo. Este redondeo provocar un error que se propagar al valor a a

nal de la varianza. Para evitar este posible error de propagacin, a continuao cin, proporcionamos una expresin alternativa al sumatorio de la denicin o o o de la varianza muestral, que depende directamente de los valores observados:
n xi i=1
n i=1
(xi x)2 =
n n (x2 2xxi + x2 ) = x2 i i i=1 i=1
Por tanto, para obtener el valor de la varianza muestral slo es necesario o calcular la suma de los valores observados y la suma de los valores al cuadrado. Ejemplo 1.9 Para el conjunto de datos considerado en el Ejemplo 1.2, tenemos que
30 i=1
xi = 2 + . . . + 3 = 91 vrtices y e
30 i=1
x2 = (2)2 + . . . + (3)2 = 323 vrtices2 , e i
o pica es 1.25 vrtices. e y por tanto, la varianza es 1.56 vrtices2 y la desviacin t e Asimismo, para el conjunto de datos del Ejemplo 1.3, tenemos que
25 i=1
xi = 903.620 m y
25 i=1
x2 = 32661.160 m2 , i
o pica es 0.0034641 m. y por tanto, la varianza es 0.000012 m2 y la desviacin t
Observemos que, conocida la media de una muestra de tamao n, y los n n
1 primeros datos de la misma, somos capaces de deducir el dato n-simo. e Este es el motivo por el que en la expresin de la varianza muestral es usual o cuasivarianza muestral y la denotamos por s2 . Asimismo, a su ra cuadrada z la denominamos cuasidesviacin t o pica y la denotamos por s. Observemos que si n es sucientemente grande, entonces la varianza y cuasivarianza muestral varianza a la cuasivarianza. Para el Ejemplo 1.3 la varianza es 0.000012 m2 y la cuasivarianza es 0.0000125 m2 . Como veremos en el bloque temtico III, la a cuasidesviacin t o pica muestral juega un papel fundamental en la estad stica inferencial. dividirla por n 1 en lugar de por n. A esta nueva medida la denominamos
Manuales uex 29
son prcticamente iguales. Este es el porqu en algunos textos denominan a e

Si la varianza muestral es una medida de dispersin que toma como referencia o a la media muestral, la meda muestral es la medida de dispersin asociada a la o mediana muestral. La denimos como la mediana de las desviaciones absolutas de los datos a su mediana, es decir, mediana de {|xi mediana de {x1 , . . . , xn }|, i {1, . . . , n}}. A diferencia de la varianza muestral, la meda muestral es una medida robusta frente a la presencia de valores at picos y se expresa en las mismas unidades que los datos. Por su denicin deducimos que el valor de la meda es no negativo y o para datos con la misma magnitud, cuanto mayor sea su valor, indicar mayor a grado de dispersin de los datos a su mediana. o Ejemplo 1.10 Como hemos calculado en el Ejemplo 1.6, la mediana muestral del conjunto de datos del Ejemplo 1.2 es 3 vrtices, que corresponde a la media e de los valores que ocupan la posicin decimoquinta y la decimosexta, una vez o ordenados stos de menor a mayor. Adems, este clculo slo depende del e a a o conjunto de datos a travs del tama o muestral. As ordenando de menor a e n , mayor la distancias de los datos a 3 obtenemos que el valor 1 ocupa las posicin o decimoquinta y la decimosexta, es decir, es la mediana de las desviaciones, y por tanto el valor de la meda muestral. El diagrama de tallo-hoja mostrado en el Cuadro 1.4 es de utilidad para realizar el anlisis anterior. Asimismo, a para el conjunto de datos del Ejemplo 1.3, hemos calculado que la mediana es 36.145 m. Adems, obtenemos que el valor 0.002 es el valor de la meda a muestral, pues ocupa la posicin decimotercera una vez ordenadas de menor o a mayor las distancias de los datos a 36.145. Del mismo modo que el rango intercuart lico determina un intervalo donde se encuentran al menos el 50 % de los datos de la muestra, a partir del conocimiento de la mediana y la meda muestral proporcionamos un intervalo de estas caracter sticas. Concretamente, tenemos que al menos el 50 % de los datos no dista de la mediana ms que el valor de la meda. Asimismo, a partir del conocia miento de la media y la desviacin t o pica muestral tenemos que en el intervalo centrado en la media y que tiene como radio dos veces la desviacin t o pica se encuentran al menos el 75 % de los datos, mientras que entre la media y tres desviaciones t picas se encuentran al menos el 89 % de los datos. Observemos
Manuales uex 30

que al ampliar la amplitud del intervalo aumenta el porcentaje de datos que los contiene. Ejemplo 1.11 A partir del valor de la mediana y meda muestral del Ejemplo 1.2 calculada en el Ejemplo 1.10, obtenemos que al menos el 50 % de los datos se encuentra entre 2 y 4. Esta informacin coincide en este caso con la proo porcionada por los cuartiles, calculados en el Ejemplo 1.6. Teniendo en cuenta la tabla de frecuencias mostrada en el Cuadro 1.2, observemos que entre 2 y 4 se encuentran realmente ms del 75 % de los datos, es decir, el intervalo a proporcionado acota inferiormente el porcentaje de datos que contiene. Los valores de la medidas de dispersin denidas dependen de las unidades o en las que estn medidos los datos. El problema que esto origina es que no a podemos comparar la dispersin de los datos de dos muestras si estos estn o a medidos en unidades diferentes o tiene magnitudes diferentes, pues no es lo mismo obtener una desviacin t o pica de 3 mil metros cuando estamos midiendo el largo de una nave industrial o la longitud de un bol grafo. Es por ello que introducimos medidas de dispersin relativas que son adimensionales, es decir, o no se expresan en unidades. Una de estas medidas es el coeciente de variacin o muestral que denimos como el cociente entre la desviacin t o pica muestral y el valor absoluto de la media muestral, siempre que sta sea no nula. Para datos e que representen distintas mediciones de una misma magnitud, la desviacin o t pica es un valor promedio del error de medicin y el coeciente de variacin o o indica la magnitud promedio de dicho error como porcentaje de la cantidad medida. De modo que cuanto menor sea el valor del coeciente de variacin o mayor es la precisin en la medicin. o o La informacin que proporcionan algunas medidas de centralizacin, posicin o o o y dispersin la podemos representar grcamente mediante un diagrama de o a caja o box-plot. Este tipo de grco consta de una caja central que est dea a representamos los valores en los que se distribuyen al menos el 50 % de los datos centrales. La dimensin de esta caja nos indica el rango intercuart o lico. Adems, en su interior colocamos otro segmento que corresponde con la mediaa na muestral. La posicin de la mediana en la caja nos indicar la dispersin de o a o
Manuales uex 31
limitada por la posicin del primer y tercer cuartil. Por tanto, en esta caja o
Figura 1.6: Diagrama de caja para los datos considerados en el Ejemplo 1.2 (grco de la izquierda) y en el Ejemplo 1.3 (grco de la derecha). a a el 25 % de los datos centrales menores en relacin al 25 % de los datos centrales o mayores. En el grco de la izquierda de la Figura 1.6 mostramos el diagrama a de caja para el Ejemplo 1.2 y el del Ejemplo 1.3 en el grco de la derecha. a Observemos que en el extremo inferior de la caja trazamos una l nea que se extiende hasta o bien el m nimo de los datos o el menor dato mayor que el cuartil primero menos 1.5 veces el rango intercuart lico. En este ultimo caso, los datos menores que dicho extremo son representados mediante puntos aislados y los consideraremos como datos at picos, por estar demasiado alejados de la mediana. En los diagramas de caja mostrados en la Figura 1.6, el extremo inferior de la l nea es el valor m nimo de los datos y por tanto no detectan la presencia de valores at picos. De manera similar trazamos una l nea desde el extremo superior de la caja. Concretamente, la l nea se extiende o bien el mximo de los datos o bien el mayor dato menor que el cuartil primero a menos 1.5 veces el rango intercuart lico. Asimismo, en este ultimo caso, los datos mayores a dicho extremo son representados mediante puntos aislados y los consideraremos como valores at picos, por estar demasiado alejados de la mediana (ver Figura 1.7). En los diagramas de caja mostrados en la Figura 1.6 observamos que la mediana muestral se encuentra en mitad de la caja. Adems para el grco de la derecha el rango donde se encuentran el 25 % de a a
Manuales uex
los datos menores es similar que el del 25 % de los datos mayores, lo que nos muestra cierta homogeneidad alrededor de la mediana. Esto no sucede para el grco de la izquierda, observndose cierta asimetr a valores grandes. Este a a a comportamiento ya lo hab amos detectado en el anlisis del histograma y del a diagrama tallo-hoja (ver Figura 1.2 y Cuadro 1.4).
32
36.135
36.140
36.145
36.150
36.155
1.4.4.
Medidas de forma
Aunque la varianza y la meda muestral indican la dispersin de los datos a la o media y mediana muestral, respectivamente, no nos proporcionan informacin o sobre la homogeneidad de la dispersin alrededor de dichas medidas centrales. o El coeciente de asimetr muestral es una medida de forma que nos indica el a grado de asimetr de los datos alrededor de la media muestral y lo denimos a como n
i=1 (xi n3 s
x)3
siendo s la desviacin t o pica muestral del conjunto de datos. De su denicin, o de asimetr tiene signo. Un valor positivo nos indica que las desviaciones a
deducimos que el coeciente de asimetr no depende de las unidades de medida a de los datos. Como el numerador puede ser positivo o negativo, el coeciente positivas de los datos a la media son superiores en magnitud a las negativas y por tanto los datos presentan una asimetr a la derecha o a valores grandes. a Por contra un valor negativo nos indica una asimetr a la izquierda o valores a pequeos. Finalmente un valor prximo a cero nos indica simetr de los datos n o a alrededor de la media muestral. Ejemplo 1.12 Para el conjunto de datos considerado en el Ejemplo 1.3, el coeciente de asimetr muestral es prximo a cero, pues como mostramos a o en el grco central de la Figura 1.7, ni el histograma ni el diagrama de caja a reejan asimetr En cambio, el grco de la izquierda de la Figura 1.7 muestra a. a un conjunto de datos para la situacin descrita en el Ejemplo 1.3 donde el o coeciente de asimetr muestral es negativo. Asimismo, en el grco de la a a derecha de la Figura 1.7 muestra un conjunto de datos donde el coeciente de asimetr muestral es negativo. Adems, observamos la presencia de un valor a a at pico. A partir del conocimiento de la media aritmtica y la mediana podemos pree decir la asimetr de los datos. Si la media aritmtica y la mediana estn a e a prximas, este hecho nos indica cierta simetr pues en promedio los valores o a, grandes se compensan con los menores. En cambio, si la media aritmtica es e superior a la mediana, este hecho indica la presencia de valores mayores que
Manuales uex 33
10
36.130
36.135
36.140
36.145
36.150
36.155
36.135
36.140
36.145
36.150
36.155
0 36.135
36.140
36.145
36.150
36.155
36.160
36.150
36.150
36.145
36.140
36.145
36.135
36.140
Figura 1.7: Comportamiento del histograma y diagrama de caja de los conjuntos de datos considerados en el Ejemplo 1.12. dominan a los menores y por tanto los datos presenta una asimetr a la derea cha. En caso contrario, los datos presentan una asimetr a la izquierda, pues a los valores menores dominan a los mayores.
1.4.5.
Transformacin de datos o
En ocasiones, nos interesa trabajar con un conjunto de datos que presenten simetr con respecto a la media muestral. Si esto no sucede, es posible transa formarlos de modo que los datos transformados s sean simtricos. Para asi e metr a la izquierda utilizamos los valores al cuadrado de los datos. Esta as transformacin comprime la escala para valores pequeos y la expande para o n valores altos, pudindose corregir as la asimetr Por el contrario, cuando los e a. datos presentan una asimetr a la derecha utilizamos transformaciones que a compriman los valores altos y expandan los bajos. Ejemplos t picos de estas transformaciones son la ra cuadrada, el logaritmo neperiano o la inversa, z que corrigen la asimetr en orden creciente. Al realizar las transformaciones a debemos tener cuidado con la presencia de valores que hagan las operaciones
Manuales uex
34
36.140
36.145
36.150
36.155
36.160
3.2
1 e03
3.4
6 e04
3.6
3.8
2 e04
4.0
Figura 1.8: Diagrama de caja de los datos transformados considerados en el Ejemplo 1.13. inviables o cambien de signo a los datos. En esos casos sumamos una cantidad a todos los datos de forma que esto no ocurra. Ejemplo 1.13 Para los conjuntos de datos considerados en el Ejemplo 1.12 en los que hemos detectado cierta asimetr aplicamos transformaciones para coa, rregirla. Concretamente, para el conjunto de datos con asimetr a la izquierda a Figura 1.8 mostramos el diagrama de caja de los datos transformados, donde observamos que la asimetr se ha corregido. Por otro lado, para el conjunto de a datos con asimetr a la derecha, aplicamos las transformaciones log(x36.120) a y 1/(x 36.120). En el grco central y en el grco de la derecha de la Figura a a 1.8 mostramos los diagramas de caja de los datos transformados con dichas pero s lo hace la segunda. Notemos que, en general, las medidas caracter sticas de los datos transformados no son las transformadas de las medidas caracter sticas de los datos originales o funciones de estas. Sin embargo cuando la transformacin es de o tipo lineal, es decir, yi = axi + b, con a, b R e i {1, . . . , n}, s encontramos ciertas relaciones entre las medidas caracter sticas de los datos originales y de de escala. Por ejemplo, si los datos son valores de cierta distancia medida en metros para pasarlos a mil metros lo multiplicamos por 1000, es decir, a=1000. El valor b representa una traslacin en los datos. Por ejemplo, esto lo utilizao mos para eliminar los errores sistemticos existentes en el proceso de medicin. a o funciones. Observamos que la primera transformacin no corrige la asimetr o a, aplicamos la transformacin (x 36.120)2 . En el grco de la izquierda de la o a
Manuales uex 35
los transformados. Intuitivamente, a signica que hemos realizado un cambio
25
30
35
40
45
50
55
Datos originales
Datos transformados
Media Mediana 1o Cuartil 3o Cuartil Cuasidesviacin t o pica Meda Coef. Asimetr a
36.145 36.145 36.143 36.147 0.0035355 0.002 0
145 145 143 147 3.5355 2 0
Cuadro 1.5: Medidas caracter sticas para los conjuntos de datos considerados en el Ejemplo 1.14. Se verica que la media muestral de los datos transformados es a veces la media aritmtica de los datos originales ms b. La misma relacin se satisface e a o para la mediana. En cambio, la desviacin t o pica de los datos transformados es el valor absoluto de a por la desviacin t o pica de los datos originales. Esta misma relacin se satisface para la amplitud, el rango intercuart o lico y la meda. Observemos que no dependen del valor de b pues al realizar una traslacin o mantenemos la dispersin. Finalmente las medidas relativas, como el coecieno te de variacin o el coeciente de asimetr coinciden en ambos conjuntos de o a datos, salvo posiblemente el signo. Estas relaciones nos permiten despreocuparnos en cierto sentido de las unidades de medida de los datos, pudindose e utilizar aquellas que nos sea ms sencillas a la hora del clculo. a a Ejemplo 1.14 En el Cuadro 1.5 mostramos las medidas caracter sticas del conjunto de datos considerado en el Ejemplo 1.3 y del conjunto de datos transformados por una relacin lineal, tomando a = 1000 y b = 36000. Observamos o las relaciones entre las medias caracter sticas de los datos originales y de los transformados.
Manuales uex
1.5.
tencias:
Prcticas de laboratorio a
Para la situacin descrita en el Ejemplo 1.1, utilizamos las siguientes seno
36

Cargar el conjunto de datos x<-as.factor(c("E3", "E2", "E3", "E3", "E1", "E1", "E2", "E3", "E2", "E1", "E2", "E2", "E2", "E1", "E2", "E3", "E2", "E2", "E2", "E3")) Frecuencias absolutas y relativas table(x); table(x)/length(x) Diagrama de barras y de sectores barplot(table(x)); pie(table(x)/length(x), col = gray(seq(0.4,1.0,length=3))) Para la situacin descrita en el Ejemplo 1.2, utilizamos las siguientes seno tencias: Cargar el conjunto de datos x<-c(2, 3, 4, 3, 5, 5, 4, 4, 3, 2, 2, 5, 6, 4, 1, 2, 3, 2, 3, 2, 1, 2, 4, 2, 3, 1, 3, 4, 3, 3) Frecuencias absolutas y relativas, y frecuencias relativas acumuladas table(x); cumsum(table(x)); round(cumsum(table(x)/length(x)),2) Diagrama de barras, de Pareto, de tallo-hoja y de caja barplot(table(x)) barplot(cumsum(-sort(-table(x)))/length(x),col=0)
Media muestral, geomtrica, armnica y cuartiles e o mean(x); prod(x)^{1/length(x)}; 1/mean(1/x); quantile(x)
Manuales uex 37
stem(x); boxplot(x)

Varianza, desviacin t o pica, cuasivarianza, cuasidesviacin t o pica y meda muestral sum((x-mean(x))^2)/length(x); sqrt(sum((x-mean(x))^2)/length(x)) var(x); sqrt(var(x)); median(abs(x-median(x))) Coeciente de asimetr muestral a mean((x-mean(x))^3)/((sqrt(mean((x-mean(x))^2)))^3) Para la situacin descrita en el Ejemplo 1.3, utilizamos las sentencias: o Cargar el conjunto de datos x<-c(36.144, 36.147, 36.145, 36.145, 36.145, 36.141, 36.137, 36.147, 36.148, 36.146, 36.142, 36.143, 36.152, 36.142, 36.143, 36.148, 36.147, 36.141, 36.150, 36.146, 36.143, 36.144, 36.148, 36.148, 36.138) Histograma, diagrama de tallo-hoja y de caja hist(x,br=seq(36.135,36.155,.004),xlab=" ",ylab=" ",main=" ") stem(x); boxplot(x) Media muestral, geomtrica, armnica y cuartiles e o mean(x); prod(x)^{1/length(x)}; 1/mean(1/x); quantile(x) Varianza, desviacin t o pica, cuasivarianza, cuasidesviacin t o pica y meda muestral sum((x-mean(x))^2)/length(x); sqrt(sum((x-mean(x))^2)/length(x))
Manuales uex 38
var(x); sqrt(var(x)); median(abs(x-median(x))) Coeciente de asimetr muestral a mean((x-mean(x))^3)/((sqrt(mean((x-mean(x))^2)))^3)

Para la situacin descrita en el Ejemplo 1.13, utilizamos las siguientes seno tencias: Cargar los conjuntos de datos x1<-c(36.141, 36.138, 36.149, 36.153, 36.143, 36.144, 36.147, 36.133, 36.145, 36.151, 36.142, 36.148, 36.143, 36.151, 36.146, 36.148, 36.141, 36.151, 36.154, 36.150, 36.137, 36.146, 36.147, 36.153, 36.145) x2<-c(36.138, 36.141, 36.148, 36.142, 36.160, 36.144, 36.147, 36.141, 36.140, 36.141, 36.144, 36.147, 36.148, 36.144, 36.142, 36.139, 36.147, 36.154, 36.140, 36.150, 36.145, 36.154, 36.150, 36.146, 36.139) Diagrama de caja para los datos transformados boxplot(x1); boxplot((x1-36.120)^2) boxplot(x2); boxplot(log(x2-36.120)); boxplot(1/(x2-36.120))
1.6.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La desviacin t o pica de un conjunto de datos asociado a un carcter a cuantitativo es una medida central expresada en las mismas unidades de medida que los datos. ii) Si las medias aritmticas muestrales de dos conjuntos de datos distintos e son iguales, entonces tambin lo son las varianzas muestrales. e iii) Si en un conjunto de datos asociado a un carcter cuantitativo, al menor a de los datos se le resta una unidad, la varianza aumenta. iv) Si en un conjunto de datos asociado a un carcter cuantitativo, al menor a de los datos se le resta una unidad, la mediana disminuye.
Manuales uex 39
Intervalos
Fr. absoluta
Fr. relativa
Fr. absoluta acumulada
Fr. relativa acumulada
5 0.14 (16.165, 16.170] 13 44 0.74
Total
Cuadro 1.6: Tabla de frecuencias para la situacin considerada en el Problema o 2. v) Si a todos los valores de un conjunto de datos asociado a un carcter a cuantitativo le sumamos la misma cantidad, la varianza aumenta. vi) Si un conjunto de datos asociado a un carcter cuantitativo es agrupado a en clases, su mediana coincide con la mediana calculada a partir de los datos agrupados. vii) Si el coeciente de asimetr muestral de un conjunto de datos asociado a a un carcter cuantitativo es positivo, entonces la media aritmtica es la a e mejor medida de centralizacin. o 2. Completar y comentar descriptivamente la tabla de frecuencias mostrada en el Cuadro 1.6, constituida por 6 categor de amplitud 0.005 que corresas ponden a 50 mediciones realizadas con un distancimetro con apreciacin en o o mil metros. 3. Discutir razonadamente cul de los diagramas de caja mostrados en la Figura a
Manuales uex 40
1.9 corresponde a un conjunto de datos con media 4 y coeciente de simetr a negativo. 4. Supongamos que en un trabajo topogrco estamos interesados en determia nar las relaciones de proporcionalidad entre los tipos de mediciones observadas,
Figura 1.9: Diagramas de caja asociados a los tres conjuntos de datos considerados en el Problema 3. sean distancias y ngulos. Para tal n hemos seleccionados 20 mediciones rea gistradas en el trabajo y hemos anotado el tipo de medida, obtenindose la e secuencia: A, D, D, A, D, A, A, A, D, A, A, D, D, A, A, D, A, D, D, A, donde A denota ngulo y D denota distancia. Atendiendo a la naturaleza a del carcter, analizar descriptivamente de manera exhaustiva y sintetizada los a datos seleccionados, utilizando para ello el software estad stico R. 5. Supongamos que en un trabajo topogrco de precisin estamos interesados a o en determinar las relaciones de proporcionalidad entre los tipos de vrtices e geodsicos considerados (Primer, Segundo y Tercer Orden). Para tal n hemos e seleccionados al azar 25 vrtices geodsicos registrados en el trabajo y hemos e e anotado el nivel de los mismos, obtenindose la secuencia: e PO, TO, TO, TO, TO, TO, TO, PO, TO, SO, SO, TO, SO, TO, SO, TO, TO, TO, SO, SO, SO, TO, SO, TO, SO. donde PO: Primer Orden, SO: Segundo Orden y TO: Tercer Orden. Atendiendo a la naturaleza del carcter, analizar descriptivamente de manera exhaustiva y a sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 6. Supongamos que en un trabajo topogrco estamos interesados en detera minar el nmero de mediciones que dependen de cada uno de los vrtices u e
Manuales uex 41

geodsicos considerados. Para tal n hemos seleccionados 25 vrtices geodsie e e cos registrados en el trabajo, obtenindose la secuencia: e 7, 6, 6, 3, 6, 1, 3, 8, 5, 9, 6, 9, 11, 8, 8, 7, 6, 6, 4, 5, 3, 12, 6, 10, 9. Atendiendo a la naturaleza del carcter, analizar descriptivamente de manera a exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 7. Supongamos que estamos interesados en determinar un ngulo, medido en a grados centesimales. Para ello utilizamos un teodolito con apreciacin en seo gundos y registramos las siguientes 15 mediciones 21.3381, 21.3510, 21.3440, 21.3384, 21.3436, 21.3369, 21.3352, 21.3306, 21.3412, 21.3455, 21.3480, 21.3327, 21.3458, 21.3380, 21.3443. Atendiendo a la naturaleza del carcter, analizar descriptivamente de manera a exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 8. Utilizando el software estad stico R y un conjunto de datos, mostrar la relacin entre las medidas caracter o sticas del conjunto de datos y de una transformacin lineal de los mismos. Qu sucede si la transformacin no es de tipo o e o lineal?. (Sugerencia: Calcula el rea y el per a metro de un c rculo cuando las mediciones del radio son las recogidas en el Ejemplo 1.3)
Manuales uex 42
Tema 2 Mtodos para la descripcin y e o anlisis de conjuntos de datos a multidimensionales

2.1. Introduccin o
En el tema anterior hemos supuesto que para cada individuo o unidad experimental observamos un unico carcter. Sin embargo, lo habitual es observar a varios caracteres en cada individuos, obtenindose datos multidimensionales. e En esta situacin, adems de realizar un estudio descriptivo para cada uno de o a los caracteres, podemos analizar de manera descriptiva la relacin o asociao cin entre los valores observados de los distintos caracteres. Para ello, como o en el caso de un carcter, la descripcin y anlisis de un conjunto de datos a o a multidimensionales se basa en organizar el conjunto de datos en una tabla, representarlos en grcos y resumir la informacin que contienen mediante a o ciertas medidas caracter sticas. La naturaleza de los caracteres condiciona el tipo de estudio. En lo que sigue, slo consideramos que observamos dos caraco de caracteres sea mayor. As suponemos que en n individuos observamos dos , caracteres, de modo que a cada individuo le asociamos dos valores, uno para cada carcter. Por tanto, el conjunto de datos a analizar est formado por n a a vectores bidimensionales, que constituyen la muestra. teres, aunque el estudio se puede generalizar sin dicultad cuando el nmero u
Manuales uex 43
2.2.
Tablas de contingencia
Como en el caso de un solo carcter, para construir una tabla agrupamos las a categor o valores de los caracteres en clases que son exhaustivas y excluas yentes. A cada individuo lo clasicamos atendiendo a la clase de cada carcter a a la que pertenece. Por tanto, las clases conjuntas estn constituidas por la a combinacin de dos clases, una por cada carcter. Estas clases conjuntas tamo a bin son exhaustivas y excluyentes y en nmero son el producto del nmero de e u u clases de cada carcter. Para cada una de estas clases conjuntas denimos la a frecuencia absoluta y la frecuencia relativa de igual manera que para la de las clases de un carcter. A la tabla asociada a estas frecuencias la denominamos a tabla de contingencia o tabla de doble entrada, pues las las representan las clases de un carcter y las columnas a las clases del otro carcter. Esta taa a bla muestra tambin las frecuencias absolutas (relativas) de las clases de cada e carcter a las que denominamos frecuencias absolutas (relativas) marginales y a la obtenemos como la suma de las frecuencias absolutas (relativas) de las las o columnas. Las tablas de contingencia las podemos utilizar para organizar la informacin o de caracteres tanto cualitativos como cuantitativos. Notemos que para caracteres cuantitativos una agrupacin de los valores puede ser necesaria, como ya o ocurr en la tabla de frecuencias de un carcter cuantitativo. a a Ejemplo 2.1 Supongamos que para la situacin considerada en el Ejemplo o 1.1, adems de anotar el equipo de trabajo que ha tomado la medida, regisa tramos el tipo de medicin realizada, donde distinguimos entre distancias y o a ngulos. El siguiente conjunto de datos corresponde a los 20 datos observados: DE3, DE2, DE3, AE3, AE1, DE1, AE2, DE3, DE2, DE1, AE2, AE2, AE2, AE1, AE2, DE3, AE2, DE2, AE2, DE3,
Manuales uex 44
donde AEi denota que el equipo i ha medido un angulo y DEi denota que el equipo i ha medido una distancia, con i {1, 2, 3}. En esta nueva situacin, cada medicin puede ser clasicada en 6 clases ateno o diendo al tipo de medida as como al equipo que ha tomado la medida. En el
Tipo/Equipos
E1
E2
E3
Marg. Tipos
Angulo Distancia
2 (0.10) 2 (0.10)
7 (0.35) 3 (0.15)
1 (0.05) 5 (0.25)
10 (0.50) 10 (0.50)
Marg. Equipo
4 (0.20)
10 (0.50)
6 (0.30)
20 (1)
Cuadro 2.1: Tabla de contingencia para el conjunto de datos considerado en el Ejemplo 2.1. Cuadro 2.1 organizamos el conjunto de datos en una tabla de doble entrada donde mostramos las frecuencias absolutas y, entre parntesis, las frecuencias e relativas. En la tabla de contingencia, observamos que 2 mediciones son del tipo angulo y realizadas por el equipo E1, lo cual representa el 10 % de todas las mediciones observadas. Notemos que el nmero de mediciones totales realizadas por el u equipo E1 son 4, dos ngulos y dos distancias, que corresponden a la frecuencia a absoluta del equipo E1 sin tener en cuenta el tipo de angulo medido. Note mos que las frecuencias absolutas marginales asociadas a los equipos coinciden con las frecuencias absolutas obtenidas para dicho carcter en el Cuadro 1.1. a Teniendo en cuenta las frecuencias relativas marginales del tipo de medida, deducimos que la mitad de las mediciones observadas corresponden a ngulos a y la otra mitad a distancias. Como hemos comentado anteriormente, en el estudio de dos caracteres no interesan tanto las frecuencias marginales como analizar la posible relacin o entre los caracteres. Con este n, denimos la frecuencia relativa condicionada carcter como la proporcin de individuos pertenecientes a la clase del segundo a o carcter que estn a la vez en la clase del primer carcter. De manera anloga a a a a denimos la frecuencia relativa condicionada asociada a una clase del segundo carcter condicionada a una clase del primero. a asociada a una clase del primer carcter condicionada a una clase del segundo a
Manuales uex 45
Tipo/Equipos
E1
E2
E3
Tipo/Equipos
E1
E2
E3
Angulo Distancia
0.20 0.20
0.70 0.30
0.10 0.50
Angulo Distancia
0.50 0.50
0.70 0.30
0.17 0.83
Cuadro 2.2: Frecuencias relativas condicionadas por tipos (tabla de la izquierda) y por equipos (tabla de la derecha) para el conjunto de datos considerado en el Ejemplo 2.1. Ejemplo 2.2 Teniendo en cuenta el Cuadro 2.1, observamos que 4 mediciones han sido tomadas por el equipo E1, dos ngulos y dos distancias. Por tanto, a la frecuencia relativa del tipo de medida condicionado a que sea tomada por el equipo E1 es de 0.5 para ngulos y 0.5 para distancias. Podemos observar que a esta relacin no se conserva para el equipo E2, siendo la frecuencia relativa o condicionada para angulos y distancias de 0.7 y 0.3, respectivamente. Por tanto, la proporcin de mediciones de cada tipo de ngulo tomadas por cada o a equipo depende del equipo, pues para E1 es de 0.50 mientras que para E2 de 0.70. En la tabla de la izquierda del Cuadro 2.2 mostramos las frecuencias relativas condicionadas por tipos y en la tabla de la derecha las frecuencias relativas condicionadas por equipos. Observamos que la suma de las las son uno para la tabla de la izquierda, pues condicionamos sobre los tipos. Adems a la suma de las columnas son tambin uno para la tabla de la derecha, pues e condicionamos sobre los equipos.
2.3.
Grcos a
El tipo de grco apropiado para representar un conjunto de datos asociado a a dos caracteres depende de la naturaleza de los mismos. Cuando los dos caracteres son cualitativos, utilizamos un diagrama de barras agrupadas para re-
Manuales uex 46
presentar las frecuencias absolutas. En dicho grco, a cada clase le asociamos a una barra con altura igual a su frecuencia absoluta. Adems, agrupamos las a barras que pertenecen a la misma clase de un carcter. La suma de las alturas a de dicha barras corresponde a la frecuencia absoluta marginal de la clase. Para representar las frecuencias marginales y las relativas utilizamos un diagrama
10
E1 E2 E3
10
A D
E1
E2
E3
Figura 2.1: Diagramas de barras agrupadas para el conjunto de datos considerado en el Ejemplo 2.1. de barras apiladas. Consiste en el diagrama de barras de un carcter, donde a cada barra la dividimos en tantas zonas como clases tenga el otro carcter. a El area de cada zona viene dado por la frecuencia relativa condicionada a la clase asociada a la barra. Notemos que para cada tipo de diagrama podemos obtener dos grcos, dependiendo del carcter que jemos en el eje horizontal. a a Ejemplo 2.3 Como ambos caracteres asociados al conjunto de datos considerado en el Ejemplo 2.1 son cualitativos, representamos los datos utilizando diagramas de barras agrupadas y apiladas. En el grco de la izquierda de la a Figura 2.1 mostramos el diagrama de barras agrupadas, donde el carcter asoa ciado al tipo de medida es utilizado para la agrupacin de barras. Asimismo, o en el grco de la derecha de la Figura 2.1 mostramos el diagrama de barras a agrupadas cuando el carcter asociado al equipo es utilizado para la agrupaa cin de barras. Finalmente, los diagramas de barras apilados son mostrados en o la Figura 2.2. En el grco de la izquierda condicionamos a las clases denidas a por el carcter asociado al tipo de medida, mientras que en el grco de la a a derecha condicionamos a las clases denidas por el equipo de trabajo. Observemos que los grcos representan las frecuencias calculadas en el Cuadro 2.1 a heterogeneidad de la proporcin de medidas de tipo ngulo que son medidas o a por cada equipo de trabajo, elegimos el diagrama de barras apiladas donde las clases que se jan en el eje horizontal son los equipos.
Manuales uex 47
y Cuadro 2.2, respectivamente. Con todo ello, si nuestro objetivo es mostrar la
14
E3 E2 E1
14
12
10
10
12
D A
E1
E2
E3
Figura 2.2: Diagramas de barras apiladas para el conjunto de datos considerado en el Ejemplo 2.1. La representacin grca de un conjunto de datos cuando uno de los caraco a teres es cualitativo y el otro cuantitativo consiste en representar el carcter a cuantitativo clasicado por las categor del carcter cuantitativo. as a Ejemplo 2.4 Supongamos que estamos interesados en determinar la distancia en metros entre dos puntos. Para ello utilizamos dos distancimetros, uno o analgico y otro digital, ambos con apreciacin en mil o o metros. El siguiente conjunto de datos corresponde a 25 mediciones tomadas con cada uno de ellos. Distancimetro digital: 15.354, 15.357, 15.356, 15.356, 15.351, 15.352, 15.356, o 15.362, 15.356, 15.356, 15.356, 15.354, 15.361, 15.354, 15.356, 15.352, 15.352, 15.360, 15.359, 15.359, 15.357, 15.354, 15.362, 15.356, 15.357. Distancimetro analgico: 15.355, 15.362, 15.357, 15.357, 15.359, 15.350, o o 15.343, 15.362, 15.363, 15.359, 15.351, 15.354, 15.371, 15.353, 15.354, 15.363, 15.363, 15.350, 15.368, 15.360, 15.353, 15.356, 15.364, 15.363, 15.344. En esta situacin, la poblacin a considerar es el conjunto de mediciones de la o o distancia de inters y los caracteres bajo estudio son la medida observada y el e tipo de distancimetro. La primera es cuantitativa continua medida en escala o
Manuales uex 48
numrica y la segunda cualitativa medida en escala nominal. En el grco e a de la izquierda de la Figura 2.3 mostramos conjuntamente los diagramas de caja para el conjunto de 25 mediciones tomadas con cada distancimetro. o En el grco de la derecha de la Figura 2.3 mostramos conjuntamente los a histogramas. De todo ello deducimos que las medianas muestrales son similares
15.345 15.350 15.355 15.360 15.365 15.370
0 15.340
40
80
15.350
15.360 group Analgico
15.370
Digital
Analgico
0 15.340
40
80
15.350
15.360 group Digital
15.370
Figura 2.3: Diagramas de caja (grco de la izquierda) e histogramas (grco a a de la derecha) para los datos considerados en el Ejemplo 2.4.
A Distancia horizontal
Figura 2.4: Posicin de los puntos en la situacin descrita en el Ejemplo 2.5. o o y la dispersin de las mediciones tomadas con el distancimetro analgico es o o o superior a las mediciones tomadas con el distancimetro digital. o Observemos que para aplicar una estad stica descriptiva conjunta de un carca ter cuantitativo y otro cualitativo no es necesario observar el mismo nmero u de individuos en cada categor denida por el carcter cualitativo. Sin embara a go, cuando los dos caracteres son cuantitativos, el nmero de datos asociado u a cada carcter es el mismo, pues a cada individuo le asociamos dos valores a numricos, uno por cada carcter. En esta situacin un diagrama de dispersin e a o o es apropiado. En dicho grco representamos cada observacin bidimensional a o como un punto en el plano cartesiano. Por tanto el nmero de puntos repreu sentados es el tama o de la muestra. Este tipo de grco es especialmente util n a para mostrar la relacin entre los valores observados de los dos caracteres. o Ejemplo 2.5 Fijado dos puntos, A y B, distribuidos tal y como mostramos en la Figura 2.4, supongamos que estamos interesados en determinar la distancia horizontal entre ellos. Para ello medimos la distancia entre los mismos y el
Manuales uex 49
Observacin o
Distancia
Angulo
Observacin o
Distancia
Angulo
1 2 3 4 5 6 7 8 9 10
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
11 12 13 14 15 16 17 18 19 20
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
Cuadro 2.3: Conjunto de datos considerado en el Ejemplo 2.5. a ngulo vertical , utilizando una estacin total situada en el punto A, con o apreciacin en cent o metros para la distancia y en dcimas de segundo para los e a ngulos. En el Cuadro 2.3 recogemos 20 mediciones conjuntas de la distancia entre los puntos y el ngulo , donde usamos notacin centesimal. Observemos a o que un dato consta de dos valores numricos, la medicin de la distancia y la e o medicin del ngulo asociado a dicha distancia. En la Figura 2.5 mostramos o a el diagrama de dispersin asociado al conjunto de datos, donde representamos o los valores de la distancia en el eje horizontal y los valores del ngulo en el eje a vertical. A medida que aumenta el valor de la distancia apreciamos un aumento en valor de la medicin del angulo. Adems, observamos que la disposicin de o a o los puntos dene una tendencia de tipo lineal.
2.4.
Para resumir la informacin de un conjunto de datos asociado a dos caracteres o
Manuales uex 50
mediante medidas caracter sticas muestrales, al menos uno de ellos tiene que ser de naturaleza cuantitativa. En el caso de que un carcter sea cuantitativo y a el otro cualitativo, el estudio lo reducimos a obtener las medidas caracter sticas muestrales del carcter cuantitativo distinguiendo las categor del carcter a as a cualitativo.
20.32916
20.32920 42.25
20.32924
42.30
42.35
42.40
42.45
42.50
42.55
Figura 2.5: Diagrama de dispersin para el conjunto de datos considerado en o el Ejemplo 2.5.
Medidas caracter sticas Digital Analgico o
Media Mediana 1o Cuartil 3o Cuartil Cuasidesviacin t o pica Meda Coef. Asimetr a
15.356 15.356 15.354 15.357 0.0030414 0.002 0.29567
15.357 15.357 15.353 15.363 0.0068550 0.005 -0.22156
Cuadro 2.4: Medidas caracter sticas para el conjunto de datos considerado en el Ejemplo 2.4. Ejemplo 2.6 Para el conjunto de datos considerado en el Ejemplo 2.4, en el Cuadro 2.4 recogemos las principales medidas caracter sticas de las 25 mediciones realizadas con el distancimetro analgico y las de las 25 mediciones o o realizadas con el distancimetro digital. Observamos que las medidas de ceno tralizacin de ambos conjuntos son similares, mientras que los valores de las o medidas de dispersin correspondientes a las medidas tomadas con el distano cimetro analgico son mayores que las correspondientes a las medias tomadas o o con el distancimetro digital. o
2.4.1.
Medidas de asociacin o
Cuando los dos caracteres son cuantitativos, adems de obtener las medidas a caracter sticas muestrales para cada uno de ellos, podemos denir medidas de
Manuales uex 51

asociacin entre ellos. Estas medidas nos permiten valorar la dependencia exiso tente entre los valores de los dos caracteres, en el sentido de monoton o lineaa lidad. Supongamos que hemos observado n unidades experimentales, es decir, tenemos una muestra de n de vectores bidimensionales {(x1 , y1 ), . . . , (xn , yn )}, siendo (xi , yi ) el valor de los caracteres en la unidad experimental i-sima. En e 1 (xi x)(yi y), n i=1 donde x e y denotan las medias muestrales asociadas a los valores del primer y el segundo carcter, respectivamente. Siguiendo un desarrollo similar al a realizado para la varianza muestral obtenemos la siguiente expresin de fcil o a cmputo para la covarianza muestral o
n i=1 n
primer lugar denimos la covarianza muestral como
xi yi x y.
Notemos que la unidad de medida de la covarianza es el producto de las unidades de los dos caracteres. Ejemplo 2.7 Teniendo en cuenta la informacin recogida en el Cuadro 2.5, o obtenemos para el conjunto de datos considerado en el Ejemplo 2.5, que
20 i=1
xi yi = 17232.86,
20 i=1
xi = 847.69 y
20 i=1
yi = 406.5841.
Como el tamao muestral es 20, calculamos el valor de la covarianza, que es n prximo a 9 diezmillonsima. o e El valor de la covarianza muestral puede ser positivo o negativo. Un producto
Manuales uex 52
los dos mayores o los dos menores que los valores de sus respectivas medias
del tipo (xi x)(yi y) es positivo si y slo si los valores de los caracteres son o
muestrales. En general, obtenemos un valor positivo de la covarianza si existe una tendencia de tipo lineal directa entre los dos caracteres, es decir, valores bajos (altos) de un carcter se asocia a valores bajos (altos) del otro carcter a a a travs de una dependencia de tipo lineal. Por el contrario, si existe una e
xi
yi
xi yi
xi
yi
xi yi
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
861.1449 859.3140 861.7556 862.7721 862.7725 860.3309 862.3647 861.9585 860.9416 861.5515
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
861.3486 860.3313 863.3828 860.3309 864.3989 860.9412 861.1449 862.3651 861.9585 861.7556
Suma
423.77
203.29203
8614.9064
423.92
203.29208
8617.9579
Cuadro 2.5: Clculo de la covarianza muestral del conjunto de datos considea rado en el Ejemplo 2.7. tendencia de tipo lineal inversa entre los dos caracteres, es decir, valores bajos (altos) de un carcter se asocian a valores altos (bajos) del otro carcter a a a travs de una dependencia de tipo lineal, obtenemos un valor negativo. Un e valor prximo a cero nos indica una escasa asociacin de tipo lineal entre o o ambos caracteres. Por todo ello, decimos que la covarianza es una medida de asociacin para medir relaciones lineales. Obviamente, an siendo la covarianza o u prxima a cero, una relacin entre ambos caracteres es posible, pero no ser de o o a tipo lineal. En la Figura 2.6 mostramos dos diagramas de dispersin donde se observa o una tendencia de tipo lineal, directa para el grco de la izquierda (covarianza a muestral positiva) e inversa para el grco de la derecha (covarianza muestral a negativa). Sin embargo, en los diagramas de dispersin mostrados en la Fio es prxima a cero. Para el grco de la izquierda observamos cierta indepeno a dencia entre los valores de los dos caracteres, mientras que una asociacin de o tipo cuadrtica puede ser apropiada para describir los datos del grco de la a a derecha.
Manuales uex 53
gura 2.7 no apreciamos tendencia de tipo lineal, pues la covarianza muestral
81.405
81.395
81.385
81.375
65.350
65.355
65.360
65.365
50.670 65.354
50.675
50.680
50.685
65.356
65.358
65.360
65.362
65.364
Figura 2.6: Diagramas de dispersin con tendencia lineal directa (grco de la o a izquierda) y con tendencia lineal inversa (grco de la derecha). a
16.34502 65.354 65.358 65.362 16.34500 16.34501
50.670 65.350
50.675
50.680
50.685
65.354
65.356
65.358
65.360
65.362
Figura 2.7: Diagramas de dispersin, con ausencia de tendencia lineal. o El inconveniente de utilizar la covarianza muestral como medida de asociacin o radica en su dependencia de las unidades de medida de los caracteres. Esta dependencia no permite determinar el grado de asociacin de tipo lineal entre o los caracteres. Para ello, utilizamos el coeciente de correlacin muestral de o Pearson que lo denotamos por rP y lo denimos como el cociente entre la covarianza y el producto de las desviaciones t picas muestrales del conjunto de datos asociado a cada carcter, es decir, a n (xi x)(yi y) n rP = n i=1 . 2 2 i=1 (xi x) i=1 (yi y)
A partir de su denicin, deducimos que coeciente de correlacin muestral de o o Pearson es una medida adimensional, con el mismo signo que la covarianza, pero acotada entre -1 y 1. Cuanto mayor sea el valor absoluto del coeciente de correlacin muestral de Pearson mayor es el grado de asociacin lineal entre o o lo datos de los dos caracteres. El signo del coeciente nos indica si la relacin o es directa (signo positivo) o inversa (signo negativo). Si el valor absoluto del
Manuales uex 54
20.32924
20.32920
20.32916
42.25
42.30
42.35
42.40
42.45
42.50
42.55
20.28 42.25
20.30
20.32
20.34
20.36
20.38
20.40
42.30
42.35
42.40
42.45
42.50
42.55
Figura 2.8: Diagramas de dispersin para las situaciones descritas en el Ejemo plo 2.8. coeciente es uno, entonces podemos denir una relacin lineal exacta entre o los datos de ambos caracteres, es decir, cada valor de un carcter determina a un vocamente mediante una relacin lineal el valor asociado del otro carcter. o a En cambio, un valor del coeciente de correlacin muestral de Pearson prximo o o a cero indica ausencia de asociacin de tipo lineal. o Ejemplo 2.8 Para el conjunto de datos considerado en el Ejemplo 2.5, obtenemos que el coeciente de correlacin muestral de Pearson es 0.895. Por ser o positivo y prximo a uno, la asociacin entre los valores de ambos caracteres es o o de tipo lineal. Notemos que dicha relacin lineal no es exacta, como muestra su o diagrama de dispersin (grco de la izquierda de la Figura 2.8). Un diagrama o a de dispersin asociado a una relacin lineal exacta lo mostramos en el grco o o a de la derecha de la Figura 2.8, donde representamos la distancia observada frente a la mitad de dicha distancia menos 0.85537. Como el coeciente de correlacin muestral de Pearson utiliza todo el valor o numrico de los datos, es una medida que est inuenciada por la presencia de e a valores at picos. Una medida de asociacin robusta ante la presencia de valores o at picos es el coeciente de correlacin muestral de Spearman. Lo denotamos o para el conjunto de rangos apareados. Los rangos asociados a los datos de un carcter los asignamos seg n el orden numrico de dichos datos, teniendo a u e en cuenta que, en el caso de valores coincidentes, asignamos a cada dato el promedio de los rangos que hubiramos asignado si no hubiese coincidencias. e por rS y lo denimos como el coeciente de correlacin muestral de Pearson o
Manuales uex 55
0 0
1000
2000
3000
4000
Figura 2.9: Diagrama de dispersin donde la asociacin del conjunto de datos o o no es de tipo lineal y el coeciente de correlacin muestral de Spearman es o prximo a uno. o Como el coeciente de correlacin muestral de Spearman es el coeciente de o correlacin muestral de Pearson de los rangos, deducimos que es una medida o de asociacin relativa, acotada entre -1 y 1. De su denicin deducimos que o o determina si existe una relacin montona entre los datos de los dos caracteres. o o Un valor positivo nos indica monoton directa, es decir, a valores altos (bajos) a de un carcter se asocian valores altos (bajos) del otro carcter, pues los rangos a a asignados a los valores estn asociado de ese modo. En cambio, si a valores a altos (bajos) de un carcter se asocian valores bajos (altos) del otro carcter, a a obtenemos un valor negativo. Un valor prximo a cero nos indica una escasa o asociacin de monoton entre ambos caracteres. Cuanto mayor es el valor o a absoluto del coeciente de correlacin muestral de Spearman mayor es el grado o de asociacin de monoton entre los datos de los dos caracteres. Si existe una o a asociacin de tipo lineal, los coecientes de correlacin de Pearson y Spearman o o nos indican el mismo tipo de monoton directa o inversa. Adems, como a, a existen relaciones de monoton distintas a la lineal, por ejemplo relacin de a o tipo exponencial, un conjunto de datos puede tener el coeciente de correlacin o de Pearson prximo a cero y en cambio el valor absoluto del coeciente de o
Manuales uex 56
correlacin de Spearman prximo a uno. Un diagrama de dispersin de un o o o conjunto de datos con tales caracter sticas lo mostramos en la Figura 2.9, donde el coeciente de correlacin de Person en 0.64860 y el de Spearman es o 0.90033.
Dist.
Rango
Angulo
Rango
Dist.
Rango
Angulo
Rango
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
7.5 1.0 11.5 17.5 17.5 3.0 15.5 13.5 5.5 10.0
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
8.0 1.0 16.0 16.0 18.5 2.5 8.0 12.5 8.0 8.0
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
9.0 3.0 19.0 3.0 20.0 5.5 7.5 15.5 13.5 11.5
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
12.5 4.5 20.0 2.5 18.5 4.5 8.0 12.5 12.5 16.0
Cuadro 2.6: Asignacin de rangos para el conjunto de datos considerado en el o Ejemplo 2.9. Ejemplo 2.9 En el Cuadro 2.6 mostramos los rangos asignados a los valores de cada carcter para el conjunto de datos considerado en el Ejemplo 2.5. Oba servemos que la asignacin de rangos de cada carcter lo realizamos de manera o a independiente. Como 20.32917 es el menor valor observado para el angulo, a este valor le asignamos el rango uno, pues no existe otra observacin igual. o El siguiente valor es 20.32918, observado dos veces, que ocupa las posiciones segunda y tercera, una vez ordenados todos las mediciones del ngulo de mea nor a mayor. Por eso, a este valor le asignamos el rango promedio, es decir, 2.5. Calculando el coeciente de correlacin muestral de Pearson de las parejas o de rangos asignados, obtenemos que el coeciente de correlacin muestral de o Spearman es 0.892. Como la asociacin del conjunto de datos es de tipo lineal, o el valor del coeciente de correlacin de Spearman es prximo a uno y similar o o al coeciente de correlacin de Pearson calculado en el Ejemplo 2.8. o
Como los coecientes de correlacin muestral de Pearson y de Spearman son o medidas relativas, sus valores absolutos son invariantes ante un cambio de escala en los datos. Asimismo, a partir de las propiedades de la cuasidesviacin o t pica y covarianza muestrales, deducimos que el coeciente de correlacin o
Manuales uex 57
2.4.2.
Transformacin de datos o

muestral de Pearson es invariante frente a traslaciones de los datos. Dichas traslaciones no afectan a la asignacin de rangos y por tanto el valor del coeo ciente de correlacin muestral de Spearman es el mismo que el asociado al o conjunto de datos originales. Ejemplo 2.10 Teniendo en cuenta las propiedades anteriores y con el n de facilitar los clculos para obtener los coecientes de correlacin muestral a o de Pearson y de Spearman asociados al conjunto de datos considerado en el Ejemplo 2.5, hemos podido calcular dichos coecientes para el conjunto de datos obtenidos despus de restar 4200 a los valores de la distancia expresadas e en cent metros y de multiplicar por 100000 los valores del angulo y restarles 2032900, obtenindose los mismos valores. e Adems de aplicar una transformacin al conjunto de valores asociado a cada a o carcter cuantitativo, podemos obtener para cada pareja de valores numricos, a e un unico valor. Casos t picos de esta situacin son las medidas indirectas, coo mo la obtencin de una distancia total como suma de dos distancias parciales o intermedias, la obtencin de un ngulo como substraccin de las medidas de o a o dos ngulos o la distancia horizontal entre dos puntos a partir de su distancia a y el ngulo vertical. Algunas medidas caracter a sticas muestrales del conjunto de datos resultante de la transformacin son funciones de las medidas caraco ter sticas muestrales de los dos caracteres observados. Un ejemplo de este tipo de medida es la media muestral de la suma (diferencia) de los valores asociados a los dos caracteres, que la obtenemos como la suma (diferencia) de las medias muestrales del conjunto de datos de cada carcter. Asimismo, la varianza a muestral de la suma (diferencia) de los datos transformados es la suma de las varianzas muestrales del conjunto de datos de cada carcter ms (menos) a a dos veces la covarianza muestral. Notemos que estas relaciones de la media y la varianza muestrales de los datos transformados no se mantiene para la distancia horizontal. Finalmente hacemos constar que mediana, meda o amplitud son ejemplos de medidas caracter sticas muestrales que en general no son funciones de las medidas caracter sticas de cada carcter. a
Manuales uex 58
Figura 2.10: Posicin de los puntos considerado en la situacin descrita en el o o Ejemplo 2.11.
Obs. OA OB AB Obs. OA OB AB
1 2 3 4 5 6 7 8 9 10
65.358 65.362 65.357 65.359 65.352 65.353 65.353 65.356 65.357 65.353
101.036 101.040 101.039 101.036 101.029 101.027 101.032 101.025 101.037 101.032
35.678 35.678 35.682 35.677 35.677 35.674 35.679 35.669 35.680 35.679
11 12 13 14 15 16 17 18 19 20
65.362 65.354 65.353 65.358 65.357 65.353 65.360 65.356 65.355 65.361
101.041 101.030 101.030 101.032 101.031 101.026 101.035 101.032 101.033 101.041
35.679 35.676 35.677 35.674 35.674 35.673 35.675 35.676 35.678 35.680
Cuadro 2.7: Conjunto de datos considerado en el Ejemplo 2.11. Ejemplo 2.11 Fijado tres puntos, O, A y B, distribuidos tal y como mostramos en la Figura 2.10, supongamos que estamos interesado en determinar la distancia en metros AB. Para ello utilizamos una estacin total con apreciao cin en mil o metros situada en el punto O y medimos las distancia OA y OB. En el Cuadro 2.7 recogemos 20 mediciones conjuntas de las distancias OA y OB. Asimismo, hemos calculado las mediciones indirectas AB obtenidas como diferencias entre OB y OA. Las medidas caracter sticas asociadas a los tres conjuntos de valores las mostramos en el Cuadro 2.8. Observamos que la media muestral del conjunto de datos asociado al carcter AB es la diferencia de las a medias muestrales de los conjuntos de datos asociados a los caracteres OB y OA, respectivamente. Notemos que esta relacin no se verica para la mediao de datos asociado a los caracteres OA y OB menos dos veces la covarianza muestral del conjunto de datos apareados asociado a los caracteres OA y OB es la varianza muestral del conjunto de datos asociado al carcter AB. Esta a relacin, no se verica para la meda muestral. o na muestral. Asimismo, la suma de las varianzas muestrales de los conjuntos
Manuales uex 59
OA
OB
AB
Media Mediana Meda Varianza Covarianza
65.356 101.033 65.356 101.032 0.003 0.0035 0.0000097475 0.00002206 0.00001166
35.677 35.677 0.002 0.0000084875
Cuadro 2.8: Medidas caracter sticas para el conjunto de datos considerados en el Ejemplo 2.11.
2.5.
Para la situacin descrita en el Ejemplo 2.1, utilizamos las sentencias: o Cargar el conjunto de datos x<-as.factor(c("E3", "E2", "E3", "E3", "E1", "E1", "E2", "E3", "E2", "E1", "E2", "E2", "E2", "E1", "E2", "E3", "E2", "E2", "E2", "E3")) y<-as.factor(c("D", "D", "D", "A", "A", "D", "A", "D", "D", "D", "A", "A", "A", "A", "A", "D", "A", "D", "A", "D")) Frecuencias absolutas, relativas y relativas condicionas table(x,y); table(x,y)/length(x); f<-function(z){z/sum(z)} round(apply(table(x,y),2,f),2); apply(table(y,x),2,f) Diagrama de barras agrupadas y apiladas
Manuales uex 60
barplot(table(x,y),be=T,leg= rownames(table(x,y))) barplot(table(y,x),be=T,leg = rownames(table(y,x))) barplot(table(x,y),leg= rownames(table(x,y))) barplot(table(y,x),leg= rownames(table(y,x)))

Para la situacin descrita en el Ejemplo 2.4, utilizamos las sentencias: o Cargar el conjunto de datos x<-c(15.354, 15.357, 15.356, 15.356, 15.351, 15.352, 15.356, 15.362, 15.356, 15.356, 15.356, 15.354, 15.361, 15.354, 15.356, 15.352, 15.352, 15.360, 15.359, 15.359, 15.357, 15.354, 15.362, 15.356, 15.357) y<-c(15.355, 15.362, 15.357, 15.357, 15.359, 15.350, 15.343, 15.362, 15.363, 15.359, 15.351, 15.354, 15.371, 15.353, 15.354, 15.363, 15.363, 15.350, 15.368, 15.360, 15.353, 15.356, 15.364, 15.363, 15.344) Diagramas de caja e histogramas conjuntos boxplot(data.frame(cbind(Digital=x,Analgico=y))) o library(MASS) ldahist(c(x,y),as.factor(c(rep("Dig.",25),rep("Ana.",25))), col=0,nbin=6) Para la situacin descrita en el Ejemplo 2.5, utilizamos las sentencias: o Cargar el conjunto de datos x<-c(42.36, 42.27, 42.39, 42.44, 42.44, 42.32, 42.42, 42.40, 42.35, 42.38, 42.37, 42.32, 42.47, 42.32, 42.52, 42.35, 42.36, 42.42, 42.40, 42.39) y<-c(20.32920, 20.32917, 20.32922, 20.32922, 20.32923, 20.32918, 20.32920, 20.32921, 20.32920, 20.32920, 20.32921, 20.32919, 20.32921, 20.32922) Diagrama de dispersin o plot(x,y,xlab=,ylab=) 20.32924, 20.32918, 20.32923, 20.32919, 20.32920, 20.32921,
Manuales uex 61

Covarianza muestral, coecientes de correlacin muestral de Pearson y Spearo man mean((x-mean(x))(y-mean(y))); cor(x,y); cor(rank(x),rank(y)) Coecientes de correlacin muestral de Pearson y Spearman para datos transo formados cor(100*x-4200,100000*y-2032900) cor(rank(100*x-4200),rank(100000*y-2032900)) Para la situacin descrita en el Ejemplo 2.11, utilizamos las sentencias: o Cargar el conjunto de datos x<-c(65.358, 65.362, 65.357,65.359, 65.352, 65.353, 65.353, 65.356, 65.357,65.353, 65.362, 65.354, 65.353, 65.358, 65.357, 65.353, 65.360, 65.356, 65.355, 65.361) y<-c(101.036, 101.040,101.039, 101.036, 101.029, 101.027, 101.032, 101.025, 101.037, 101.032,101.041, 101.030, 101.030, 101.032, 101.031, 101.026, 101.035, 101.032,101.033, 101.041) Calcular medidas indirectas z<-y-x Media muestral mean(z); mean(y)-mean(x)
Manuales uex 62
Mediana muestral median(z); median(y)-median(x) Varianza muestral
mean((z-mean(z))^2); mean((x-mean(x))^2)+mean((y-mean(y))^2) -2*mean((x-mean(x))*(y-mean(y)))
2.6.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La frecuencia relativa de una clase conjunta denida por la combinacin o de dos categor de dos caracteres es diferente a la frecuencia relativa as de una categor de un carcter condicionada a otra categor del otro a a a carcter. a ii) Si el coeciente de correlacin muestral de Spearman de un conjunto de o datos asociados a dos caracteres cuantitativos es prximo a cero entonces o tambin lo es el coeciente de correlacin muestral de Pearson. e o iii) Si el valor absoluto del coeciente de correlacin muestral de Spearo man de un conjunto de datos asociados a dos caracteres cuantitativos es prximo a uno entonces tambin lo es en valor absoluto del coeciente o e de correlacin muestral de Pearson. o iv) El coeciente de correlacin muestral de Spearman de un conjunto de o datos asociados a dos caracteres cuantitativos coincide con el coeciente de correlacin muestral de Spearman del conjunto de datos donde al o menor valor numrico observado de un carcter le restamos una unidad. e a 2. Completar y comentar descriptivamente la tabla de contingencia mostrada en la Figura 2.9. En dicha tabla organizamos las frecuencias absolutas de un conjunto de datos formado por 50 mediciones realizadas con un distancimetro o con apreciacin en mil o metros, que puede ser analgico o digital. Los valores o de las mediciones los agrupamos en 6 intervalos de amplitud 0.005. Adems, a entre parntesis, indicamos las frecuencias relativas condicionadas al tipo de e distancimetro. o 3. Discutir razonadamente cul de los diagramas de dispersin mostrados en a o la Figura 2.11 corresponde a un conjunto de datos asociado a dos caracteres cuantitativos tal que el coeciente de correlacin muestral de Pearson es o
Manuales uex 63
Distacimetro/Tipo o
Analgico o
Digital
Marg. Distancimetro o
(16.165, 16.170]
1( ) ( ) 8( ) ( ) ( ) (0.04)
( ) 4( ) 6( ) (0.24) (0.20) ( )
3 6
Marg. Tipo
25 (
Cuadro 2.9: Tabla de contingencia para la situacin considerada en el Problema o 2. prximo a cero y los coecientes de variacin de los valores asociados a cada o o carcter son similares. a 4. Supongamos que en un trabajo topogrco estamos interesados en detera minar la relacin entre el tipo de ngulo medido, sea vertical u horizontal, y o a el aparato de medida utilizado, sea teodolito o estacin total. Para tal n seo leccionamos 16 ngulos registrados en el trabajo y anotamos el tipo de angulo a as como el tipo de aparato utilizado, obtenindose la secuencia: e HET, VT, HET, VET, HET, VET, HET, VET, HET, VT, HT, VET, VT, VET, HET, HET, donde VT denota ngulo vertical medido con teodolito, VET denota angulo a vertical medido con estacin total, HT denota ngulo horizontal medido con o a teodolito y HET denota ngulo horizontal medido con estacin total. Atendiena o do a la naturaleza de los dos caracteres, analizar descriptivamente de manera
Manuales uex 64
exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 5. Supongamos que estamos interesados en determinar el rea, medida en mea tros cuadrados, de un determinado recinto. Para ello utilizamos dos distan-
35.362
61.395
35.360
61.390
61.385
35.356
61.380
35.350
35.355 X
35.360
35.365
35.354
35.350 35.352 35.354 35.356 35.358 35.360 35.362 X
35.35748
35.35749
35.358
35.35750
61.400
35.354
35.356
35.358 X
35.360
35.362
Figura 2.11: Diagrama de dispersin asociados a los tres conjuntos de datos o considerados en el Problema 3. cimetros, uno analgico y otro digital. El siguiente conjunto de datos correso o ponde a 20 mediciones tomadas con cada uno de ellos. Distancimetro digital: 123.4515, 123.4414, 123.4463, 123.4504, 123.4491, o 123.4556, 123.4447, 123.4487, 123.4464, 123.4557, 123.4492, 123.4481, 123.4531, 123.4493, 123.4493, 123.4394, 123.4495, 123.4467, 123.4474, 123.4482. Distancimetro analgico: 123.4292, 123.4340, 123.4377, 123.4393, 123.4396, o o 123.4406, 123.4417, 123.4423, 123.4461, 123.4513, 123.4535, 123.4536, 123.4545, 123.4562, 123.4571, 123.4616, 123.4624, 123.4631, 123.4699, 123.4726. Atendiendo a la naturaleza de los dos caracteres, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 6. Supongamos que desde una posicin ja y utilizando una estacin total con o o apreciacin en segundos tomamos medidas de dos ngulos, uno horizontal y o a en grados centesimales, donde AV denota las medidas del ngulo vertical y a AH las medidas del ngulo horizontal. Atendiendo a la naturaleza de los dos a caracteres, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. otro vertical. En el Cuadro 2.10 recogemos 20 mediciones conjuntas medidas
Manuales uex 65
Bloque Temtico II a Probabilidad
Manuales uex 67
Tema 3 Introduccin a la Teor de la o a Probabilidad

3.1. Introduccin o
Como comentamos en los preliminares, la Teor de la Probabilidad juega un a papel fundamental a la hora de inferir a toda la poblacin la informacin o o contenida en una muestra extra de la misma. El objetivo principal de la da Teor de la Probabilidad es cuanticar la incertidumbre en el resultado de a un experimento aleatorio. En este bloque temtico exponemos las principales a herramientas para tal n. Concretamente, en este tema, introduciremos el concepto de suceso en el marco de un experimento aleatorio como paso previo para dar la denicin de probabilidad. Una vez denida la probabilidad de o un suceso, estudiaremos sus principales propiedades y expondremos algunos resultados de utilidad para el clculo de probabilidades. a
3.2.
Sucesos de un experimento aleatorio

Manuales uex 69
El primer paso para cuanticar la incertidumbre asociada a un experimento aleatorio es determinar su espacio muestral, que es el conjunto de los posibles resultados del mismo. Atendiendo al nmero de elementos, el espacio muestral u puede ser nito, innito numerable o innito no numerable. A cualquier subconjunto del espacio muestral lo denominamos suceso. Adems, a un suceso a formado por un unico elemento, lo denominamos suceso elemental, pues es uno

de los posibles resultados del experimento. Por tanto, un suceso es una unin o de sucesos elementales. Dados dos sucesos, A y B, asociados al experimento aleatorio, denominamos suceso unin y lo denotamos por A B, al conjunto de sucesos elementales o que forman parte alguno de estos sucesos. Denominamos suceso interseccin y o lo denotamos por A B, al conjunto de sucesos elementales que forman parte
simultneamente de los dos sucesos. Si no existen sucesos elementales comunes, a
si todos los sucesos elementales de A lo son de B. Finalmente denominamos los sucesos elementales que no constituyen el suceso A.
un suceso A est incluido en otro B y lo denotamos por A B, si y slo a o
entonces lo denominamos suceso imposible y lo denotamos por . Decimos que
complementario de un suceso A y lo denotamos por Ac al conjunto de todos
Ejemplo 3.1 Supongamos que en el almacn del Centro Universitario de e Mrida disponemos de 5 estaciones totales para realizar las prcticas de came a po de una determinada asignatura y consideramos el experimento aleatorio consistente en coger al azar una estacin total. Si enumeramos las estaciones o disponibles del uno al cinco, los posibles resultados (sucesos elementales) de dicho experimento son ET 1, ET 2, ET 3, ET 4, ET 5, que constituyen el espacio muestral. El subconjunto {ET 1, ET 2} es un suceso del experimento aleatorio, que est constituido como la unin de dos sucesos elementales. El suceso a o {ET 1, ET 2} se asocia a los experimentos en los cuales o bien escogemos la
que la unin de ambos sucesos es el suceso {ET 1, ET 2, ET 5} y la interseccin o o mentario del suceso {ET 2} es el suceso {ET 1, ET 3, ET 4, ET 5}, que lo hemos que intervienen en la interseccin. o el suceso {ET 2}, que obviamente est incluido en ambos sucesos. El complea
ET 1 o bien la ET 2. Si consideramos adems el suceso {ET 2, ET 5}, tenemos a
podido obtener como la unin del complementario de los dos sucesos de partida o
Manuales uex 70
La naturaleza del carcter asociado al experimento aleatorio descrito en el a ejemplo anterior es cualitativo, y as los resultados del experimento son las categor de dicho carcter. En el siguiente ejemplo, el resultado del experias a mento es un valor numrico pues el carcter asociado es cuantitativo. e a

Ejemplo 3.2 Supongamos que consideramos el experimento aleatorio consistente en medir con un distancimetro con apreciacin en mil o o metros una distancia calibrada de valor nominal 0 . Un suceso elemental es cualquier valor que es de cardinal innito no numerable. Un suceso de inters puede ser e {x R : real no negativo y por tanto, el espacio muestral es el conjunto {x R : x 0}, 0 x 0 } que est asociado con las mediciones inferiores a
o iguales a la medida real de la distancia. Su complementario es el suceso {x R : x > 0 }, es decir, el suceso asociado con las mediciones mayores que
la medida calibrada. La interseccin de ambos sucesos es el suceso imposible o y la unin el espacio muestral. o
3.3.
Probabilidad y sus propiedades
En lo que sigue, estamos interesados en cuanticar la incertidumbre que ocurra un suceso A como resultado de un experimento aleatorio. Para ello le asociamos una medida de incertidumbre a la que llamamos probabilidad y la denotamos por P (A). Esta probabilidad est relacionada con la frecuencia relativa de dia cho suceso al repetir el experimento. En base a las propiedades de la frecuencia relativa, suponemos que la probabilidad es un nmero no negativo y acotado u por uno, es decir, 0 P (A) 1. Al espacio muestral le asociamos la probabilidad mxima. Adems, por ser una medida, la probabilidad de dos sucesos a a incompatibles A y B es la suma de las probabilidades de los mismos, es decir, P (A B) = P (A) + P (B) si A B = . Consecuencia de estas suposiciones tenemos las siguientes propiedades que permiten calcular la probabilidad de un suceso en funcin de otros sucesos o ms sencillos. a P (Ac ) = 1 P (A) P () = 0 P (A B) = P (A) + P (B) P (A B) Si A B entonces P (A) P (B)
Manuales uex 71
Frecuencia relativa
0.0 0
0.1
0.2
0.3
0.4
1000
2000
3000
4000
5000
Tamao muestral
Figura 3.1: Evolucin de la frecuencia relativa del suceso elemental ET 1 del o Ejemplo 3.1. La determinacin de las probabilidades de los sucesos est asociada al estudio o a de las frecuencias relativas de los mismos al repetir el experimento en idnticas e condiciones, pues emp ricamente se ha demostrado que la frecuencia relativa de un suceso tiende a estabilizarse. En la Figura 3.1 mostramos la evolucin o de la frecuencia relativa del suceso elemental ET 1 del Ejemplo 3.1, cuando hemos simulados 5000 experimento aleatorio consistente en coger al azar un estacin total de las cinco existentes. Observamos que se estabiliza en el valor o 0.2 que representar la probabilidad del suceso elemental ET 1. a Sin embargo, no siempre es factible realizar una experimentacin continuada o o si lo es, no en el nmero de veces necesario para obtener una estabilizacin u o de las frecuencias relativas de inters. En estas situaciones, calculamos las proe babilidades combinando la experimentacin con la teor sobre la naturaleza o a del experimento. Un caso sencillo, es cuando el espacio muestral es nito y la simetr de los sucesos elementales sugiere considerarlos equiprobables, es a decir, con igual probabilidad asociada. Por tanto, como los sucesos elementales son incompatibles dos a dos y la unin de todos ellos es el espacio muestral al o que le asociamos probabilidad uno, si existen K sucesos elementales entonces a cada uno de ellos le asociamos probabilidad 1/K. As si un suceso est for, a mado por k sucesos elementales, la probabilidad asociada a dicho suceso es k/K. Esta frmula es conocida como regla de Laplace y la interpretamos como o el cociente entre los casos factibles (k) y los casos posibles (K). Observemos que, en esta situacin, la probabilidad de un suceso slo depende del nmero o o u de sucesos elementales y no de los sucesos elementales que lo forman.
Manuales uex 72

Ejemplo 3.3 Para el experimento aleatorio descrito en el Ejemplo 3.1 podemos suponer que todos los sucesos elementales son equiprobables, pues las estaciones totales son seleccionadas al azar. En dicho caso, tenemos que P (ET 1) = 1/5, como hemos mostrado en la Figura 3.1. Asimismo, la probabilidad del suceso {ET 1, ET 2} es 2/5. Observemos que cualquier otro suceso de la numeracin de la estaciones totales elegidas. o Como hemos comentado, la regla de Laplace slo es vlida cuando el cardinal o a del espacio muestral es nito. Para el clculo de probabilidades cuando el a cardinal no es nito utilizamos los modelos tericos de probabilidades que o exponemos en el Tema 4. Ejemplo 3.4 Como el espacio muestral asociado al experimento aleatorio descrito en el Ejemplo 3.2 es de cardinal innito no numerable, la regla de Laplace no es aplicable. Supongamos que a partir de un modelo terico de probabilidad o obtenemos que la probabilidad asociada a las mediciones inferiores a la distancia calibrada es igual a la probabilidad asociada a las mediciones superiores a la distancia calibrada e iguales a 0.5, es decir, P ({x R : x < 0 }) = P ({x R : x > 0 }) = 0.5. Intuitivamente tenemos que la mitad de las mediciones proporcionadas por el aparato subvalora la distancia calibrada y la otra mitad la sobrevalora. Esta propiedad es deseable para cualquier aparato de medida. Adems, teniendo en cuenta las propiedades de la probabilidad, deducimos que a la probabilidad de que la medicin coincida con la distancia es cero, es decir, o P ({x R : x = 0 }) = 0. con dos elementos distintos, tiene la misma probabilidad, independientemente
La incertidumbre sobre la observacin de un suceso puede depender del grado o de informacin parcial que tengamos sobre los resultados del experimento, o como mostramos en el siguiente ejemplo.
Manuales uex 73
3.4.
Probabilidad condicionada

Ejemplo 3.5 Para el experimento aleatorio descrito en el Ejemplo 3.1, hemos obtenido que la probabilidad asociada al suceso elemental ET 1 es 0.2. Sin embargo, si consideramos que de las 5 estaciones totales las estaciones ET 1 y ET 2 estn mal calibradas y conocemos que la estacin que hemos seleccionado a o est mal calibrada, entonces la probabilidad de que sea la ET 1 es 0.5, pues a tenemos un caso favorable de dos posibles. A la probabilidad de un suceso A condicionado a que ha ocurrido el suceso B la denominamos probabilidad de A condicionada a B, la denotamos por P (A|B) y la denimos como P (A|B) = P (A B) , P (B)
donde suponemos que P (B) > 0 para que el cociente est bien denido. Es e inmediato probar que la probabilidad condicionada de cualquier suceso es un valor no negativo, que al suceso B le asocia valor uno y que la probabilidad de la unin de dos sucesos incompatibles es la suma de las probabilidades o condicionadas. Observemos que P (A|B) no es, en general, igual a P (B|A), y P (A|B c ) no es en general igual a P (A|B). Ejemplo 3.6 Si para la situacin descrita en el Ejemplo 3.5, denotamos por o calibradas, a partir de la expresin de la probabilidad condicional tenemos o que 1 , 2 como ya hab amos calculado. Por otro lado, P (ET M C|{ET 1}) = 1, pues si P ({ET 1}|ET M C) = el resultado del experimento ha sido elegir la ET 1, entonces hemos seleccionado una estacin total que est mal calibrada. Observemos que si slo sao a o bemos qu dos estaciones totales estn mal calibradas y no conocemos que e a estaciones totales son, entonces tenemos que P ({ET 1}|ET M C) = 1/5 y P (ET M C|{ET 1}) = 2/5, que coinciden con las probabilidades de los sucesos ET M C = {ET 1, ET 2} al suceso constituido por las estaciones totales mal
Manuales uex 74
sin condicionar. Finalmente, si denotamos por ET BC = {ET 3, ET 4, ET 5}, al suceso constitui= 0, que no coincide con P ({ET 1}|ET M C).
do por las estaciones totales bien calibradas, obtenemos que P ({ET 1}|ET BC)
3.4.1.
Teorema de la probabilidad total
La probabilidad condicionada nos ayuda a calcular la probabilidad de la interseccin de dos sucesos, mediante la siguiente expresin, denominada regla de o o la multiplicacin o P (A B) = P (B)P (A|B) = P (A)P (B|A). Teniendo en cuenta esta expresin, podemos deducir la probabilidad de un o suceso A a partir de la probabilidad de un suceso B y las probabilidades de A condicionada a B y B c , como sigue P (A) = P (A B) + P (A B c ) = P (B)P (A|B) + P (B c )P (A|B c ). A este resultado lo denominamos teorema de la probabilidad total y es de gran utilidad en el clculo de determinadas probabilidades a partir de otras ms a a sencillas de obtener. Ejemplo 3.7 Para la situacin descrita en el Ejemplo 3.6, donde denotamos o por ET M C = {ET 1, ET 2} y ET BC = {ET 3, ET 4, ET 5}, calculamos la total como P ({ET 1}) = P (ET M C)P ({ET 1}|ET M C) + P (ET BC)P ({ET 1}|ET BC) 2 1 3 1 = + 0= . 5 2 5 5 probabilidad del suceso elemental ET 1 a partir del teorema de la probabilidad
3.4.2.
Sucesos independientes
En ocasiones la probabilidad del suceso A condicionado a B coincide con la probabilidad de A, es decir, P (A|B) = P (A). Esta igualdad nos indica que la informacin que proporciona el suceso B no afecta a la probabilidad de A. o Adems, la probabilidad de la interseccin de ambos sucesos es el producto de a o P (B)P (A). Este hecho implica adems, que la informacin que proporciona el a o suceso A tampoco afecta a la probabilidad de B, pues P (B|A) = P (B A) P (B)P (A) = = P (B). P (A) P (A)
Manuales uex 75
las probabilidades de cada uno de los sucesos, pues P (AB) = P (B)P (A|B) =

Por todo ello, diremos que dos sucesos A y B son sucesos independientes si P (A|B) = P (A). Equivalentemente, dos sucesos sern independientes si la a probabilidad de su interseccin es el producto de sus probabilidades. o Ejemplo 3.8 Una modicacin de la situacin descrita en el Ejemplo 3.1 cono o siste en considerar que las prcticas de campo se realizan en dos sesiones distina tas, y en cada una escogemos al azar una estacin total de entre las cinco exiso tentes. En esta situacin, un resultado del experimento consiste en especicar o la estacin total seleccionada en la primera sesin y la estacin total seleccioo o o nada en la segunda sesin. Un ejemplo de suceso elemental es S1ET 3&S2ET 1 o donde entendemos que en la sesin primera hemos elegido ET 3 y en la sesin o o segunda ET 1. Por tanto, el espacio muestral est constituido por 25 sucea sos elementales como resultado de las distintas formas en que puedo tomar de dos en dos las 5 estaciones totales (ver Apndice B). As suponiendo que e , todos los sucesos elementales son equiprobables, tenemos que la probabilidad de un suceso elemental es 1/25. Adems, teniendo en cuenta que el suceso a {S1ET 3} es la unin disjunta de los sucesos elementales S1ET 3&S2ET 1, o S1ET 3&S2ET 2, S1ET 3&S2ET 3, S1ET 3&S2ET 4, S1ET 3&S2ET 5, obtenemos que P ({S1ET 3}) = 1/5. Siguiendo un razonamiento similar, tenemos que P ({S2ET 1}) = 1/5. Con todo ello, deducimos que los sucesos {S1ET 3} y {S2ET 1} son independientes, pues 1 P ({S1ET 3&S2ET 1}) = . P ({S1ET 3}) 5
P ({S2ET 1}|{S1ET 3}) =
La independencia de ambos sucesos nos indica que la seleccin de la estacin o o total en la primera sesin no condiciona la seleccin en la segunda sesin. o o o No debemos confundir sucesos independientes con sucesos incompatibles, es
Manuales uex 76
decir, aquellos que no podemos observar simultneamente. Mxime cuando se a a verica que si A y B son dos sucesos incompatibles con probabilidades no las probabilidades de ambos sucesos es no nulo. Adems, se verica que dos a sucesos son independientes si y slo si P (A|B) = P (A|B c ). o nulas, entonces no son independientes, pues P (A B) = 0 y el producto de
3.4.3.
Regla de Bayes
Dado dos sucesos A y B de probabilidad no nula, la regla de Bayes permite calcular la probabilidad del suceso B condicionado al suceso A en funcin de o la probabilidad de B y de las probabilidades de A condicionado a B y B c , cuando stas son conocidas. Concretamente tenemos que e P (B|A) = P (A|B)P (B) P (A B) = . P (A) P (A|B)P (B) + P (A|B c )P (B c )
Ejemplo 3.9 Supongamos que de las cinco estaciones totales del Centro Universitario de Mrida conocemos que dos estn mal calibradas, pero no sae a bemos qu estaciones son. Para detectar si una estacin total est bien o e o a mal calibrada seguimos un mtodo de deteccin. Dicho mtodo no es exace o e to en sus decisiones. Ms concretamente sabemos que al aplicarlo a una esa tacin total proporciona una decisin correcta con probabilidad 0.95. Por o o tanto, si denotamos por ET BC (ET M C) al conjunto de estaciones totales bien (mal) calibrada y por DET BC (DET M C) al suceso asociado a la decisin de que la estacin total est bien (mal) calibrada, tenemos que o o a P (DET BC|ET BC) = P (DET M C|ET M C) = 0.95. Aplicando el teorema de la probabilidad total, tenemos que la probabilidad de detectar una estacin o mal calibrada al aplicar el mtodo es e P (DET M C) = P (ET BC)P (DET M C|ET BC)
+ P (ET M C)P (DET M C|ET M C) 5 2 95 41 3 + = . = 5 100 5 100 100 Observamos que si la decisin la tomamos al azar sin aplicar el mtodo de o e deteccin, la probabilidad de decidir que est mal calibrada es de 0.4, valor o a muy prximo al obtenido con el mtodo deteccin. Sin embargo, al aplicar o e o el mtodo obtenemos que la probabilidad de que la estacin total que hemos e o decidido que est mal calibrada lo est es mayor. En efecto, en general tenemos a e que P (ET M C DET M C) . P (ET M C|DET M C) = P (DET M C) Como P (ET M C DET M C) = P (ET M C)P (DET M C|ET M C),
Manuales uex 77

entonces P (ET M C|DET M C) = P (ET M C)P (DET M C|ET M C) . P (DET M C)
Si tomamos la decisin al azar, P (ET M C|DET M C) = 0.4, pues o P (DET M C|ET M C) = P (ET M C) = P (DET M C) = 0.4. En cambio, aplicando el mtodo de deteccin, tenemos que e o P (ET M C|DET M C) =
2 5 95 100 38 = , 41/100 41
que es mayor que 0.4. Asimismo, deducimos que P (ET BC|DET M C) = 3/41, que es la probabilidad de cometer un error cuando la decisin tomada es que o la estacin total est mal calibrada. o a
3.5.
Para estudiar el comportamiento probabil stico del experimento aleatorio descrito en el Ejemplo 3.1, utilizamos las sentencias: Generar 5000 veces el experimento aleatorio library(e1071); y<-rdiscrete(5000, rep(1/5,5)) Calcular la frecuencia relativa para el suceso {ET 1} x<-y==1; cumsum(x)/(1:length(x)) Representar la frecuencia relativa en funcin del nmero de repeticiones o u plot(1:length(x), cumsum(x)/(1:length(x)), type="l", xlab="Tama~o muestral", ylab="Fr. relativa", ylim=c(0,0.4)) n lines(1:length(x), rep(0.2,length(x)), lty=2)
Manuales uex 78
3.6.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La suma de probabilidades de dos sucesos distintos cualesquiera es menor o igual que uno. ii) La probabilidad de un suceso elemental es siempre no nula. iii) Si dos sucesos tienen la misma probabilidad, entonces estn constituidos a por el mismo nmero de sucesos elementales. u iv) Si el suceso A es independiente del suceso B entonces el suceso A tambin e es independiente del suceso complementario de B. 2. Si la probabilidad de cometer una pia con una estacin total bien calibrao da es de 0.01 y con una estacin total mal calibrada es de 0.05, calcular la o probabilidad de cometer una pia cuando tenemos una incertidumbre de 0.5 de que la estacin total utilizada est bien calibrada. Adems, si al tomar una o e a medida hemos cometido una pia, calcular la probabilidad de que la estacin o total utilizada est mal calibrada. e En los siguientes problemas consideremos que en el almacn del Centro Unie versitario de Mrida existen 6 estaciones totales disponibles para los alumnos e y que dos de ellas estn mal calibradas. Adems, suponemos que la seleccin a a o de cualquier estacin total se produce al azar. o 3. Supongamos que para la realizacin de las prcticas de campo de una deo a terminada asignatura se forma un unico grupo de trabajo y para cada sesin o slo se requiere de una estacin total, que se devuelve al nalizar la sesin. o o o Calcular razonadamente las siguientes probabilidades: i) Probabilidad de que en una sesin el grupo trabaje con una estacin o o total bien calibrada. ii) Probabilidad de que en una sesin el grupo trabaje con una estacin o o total mal calibrada.
Manuales uex 79

iii) Probabilidad de que en dos sesiones el grupo trabaje con dos estaciones totales bien calibradas. iv) Probabilidad de que en dos sesiones el grupo trabaje con dos estaciones totales mal calibradas. v) Probabilidad de que en dos sesiones el grupo trabaje slo con una estao cin total bien calibrada. o vi) Probabilidad de que en dos sesiones el grupo trabaje con al menos una estacin total bien calibrada. o vii) Probabilidad de que en dos sesiones el grupo trabaje con la misma estacin total. o viii) Probabilidad de que en una sesin el grupo trabaje con una estacin total o o bien calibrada sabiendo que en la sesin anterior el grupo trabaj con o o una mal calibrada. ix) Probabilidad de que en una sesin el grupo trabaje con una estacin o o total bien calibrada sabiendo que en la sesin anterior trabaj con una o o bien calibrada. 4. Supongamos ahora que para la realizacin de las prcticas de campo de una o a determinada asignatura se forman dos grupos de trabajo y para cada sesin o se requieren dos estaciones totales, una por cada grupo, que se devuelven al nalizar la sesin. Calcular razonadamente las siguientes probabilidades: o i) Probabilidad de que en una sesin los dos grupos trabajen con estaciones o totales bien calibradas. ii) Probabilidad de que en una sesin los dos grupos trabajen con estaciones o totales mal calibradas.
Manuales uex
iii) Probabilidad de que en una sesin al menos un grupo trabaje con una o estacin total bien calibrada. o iv) Probabilidad de que en una sesin un grupo trabaje con una estacin o o total mal calibrada sabiendo que al menos un grupo trabaja con una estacin total bien calibrada. o
80

v) Probabilidad de que en una sesin los dos grupos trabajen con dos eso taciones totales mal calibradas sabiendo que al menos un grupo trabaja con una estacin total mal calibrada. o vi) Probabilidad de que en una sesin el grupo que se le asigna primero o trabaje con una estacin total bien calibrada. o vii) Probabilidad de que en una sesin el segundo grupo que elige la estacin o o total trabaje con una estacin total bien calibrada sabiendo que al primeo ro se le ha asignado una estacin total bien calibrada. o viii) Probabilidad de que en una sesin, el grupo que se le asigna segundo o trabaje con una estacin total bien calibrada. o ix) Probabilidad de que en dos sesiones los dos grupos trabajen con dos estaciones totales bien calibradas. x) Probabilidad de que en dos sesiones consecutivos al menos un grupo trabaje con dos estaciones totales bien calibradas. 5. Calcular razonadamente las probabilidades de los problemas 3 y 4 en las siguientes situaciones: i) Se adquiere una nueva estacin total. o ii) Se calibra una de las estaciones totales mal calibradas. iii) Se estropea una de las estaciones totales bien calibrada y pasa a estar mal calibrada. iv) Se estropea una de las estaciones totales bien calibrada y no se puede utilizar.
Manuales uex 81
Tema 4 Variables aleatorias unidimensionales

4.1. Introduccin o
En el tema anterior hemos introducido el concepto de probabilidad para medir la incertidumbre en el resultado de un experimento aleatorio. Si en este experimento aleatorio estamos interesados en un determinado carcter nos a convendr conocer las probabilidades de los sucesos relacionados con dicho a carcter. Si es cuantitativo, los sucesos vendrn expresados en trminos de a a e valores numricos. Las propiedades de los nmeros pueden ser de ayuda pae u ra denir y describir el comportamiento aleatorio del experimento, lo cual no ocurre si la naturaleza del carcter asociado al experimento es cualitativa. En a este tema, introducimos el concepto de variable aleatoria unidimensional como una funcin que asocia a cada resultado del experimento un valor numrico, o e independientemente de la naturaleza del carcter. Esto permite trasladar la a incertidumbre en el resultado del experimento aleatorio a valores numricos. e En estas condiciones el espacio muestral de una variable aleatoria es un conde probabilidad asociada a una variable aleatoria se simplica. La funcin o de probabilidad y la funcin de densidad nos permiten esta tarea. Asimismo, o deniremos algunas medidas caracter sticas que sintetizan la distribucin de o probabilidad de una variable aleatoria, aunque no la determinan de manera junto de nmeros, con lo cual la denicin y descripcin de la distribucin u o o o
Manuales uex 83

un voca. Finalmente, a partir del comportamiento probabil stico de una variable aleatoria estudiamos el comportamiento de ciertas transformaciones de la misma, lo que resultar util en el caso de caracteres que slo podamos obsera o var indirectamente y cuyo estudio se basa en la distribucin de probabilidad o asociada a aquellos caracteres observados en el experimento de modo directo.
4.2.
Variable aleatoria
Como hemos comentado anteriormente, con el n de facilitar la denicin o y descripcin de la probabilidad asociada a un experimento aleatorio es de o inters caracterizar cuantitativamente los resultados del experimento. Fijado e un experimento aleatorio, denominamos variable aleatoria a una funcin que o asigna a cada suceso elemental un nmero real. Si denota el conjunto de u sucesos elementales del experimento y X la variable aleatoria, tenemos que X: R X()
y los valores de X estn sujetos a las leyes del azar subyacente al experimento a aleatorio. As por ejemplo, si x R P (X x) = P ( : X() x). El conjunto de valores numricos que toma una variable constituye el espacio e muestral de la variable aleatoria. Si es de cardinal nito o innito numerable diremos que la variable aleatoria es discreta. Si es de cardinal innito no numerable, diremos que la variable aleatoria es continua. A la funcin F (x) = P (X x), con x R, la denominamos funcin de o o
distribucin de la variable aleatoria X. Esta funcin caracteriza la distribucin o o o probabilidad en el espacio muestral de la variable X. De su propia denicin o deducimos que la funcin de distribucin es no decreciente, continua por la o o derecha y
x
Manuales uex
lim F (x) = 0 y lim F (x) = 1.

x
84

Ejemplo 4.1 Supongamos que de las 5 estaciones totales disponibles en el almacn del Centro Universitario de Mrida para realizar las prcticas de campo e e a de una determinada asignatura hay 2 que estn mal calibradas. Si las estacioa nes totales las enumeramos por ET 1, ET 2, ET 3, ET 4, ET 5, consideremos que las dos primeras son las mal calibradas. Supongamos tambin que existen e dos grupos de prcticas y que cada uno de ellos elige una estacin total para la a o realizacin de las prcticas. Un posible resultado de la eleccin es que el grupo o a o uno escoja ET 3 y el grupo dos ET 1. Esta asignacin, desde el punto de vista o de los grupos, es distinta a que el grupo uno escoja ET 1 y el grupo dos ET 3, a pesar de intervenir las mismas estaciones totales. Sin embargo, si consideramos la variable aleatoria X nmero de estaciones totales bien calibradas de u entre las dos seleccionadas, a ambos sucesos elementales le asignamos el mimo valor, independientemente del grupo al que ha sido asignado la estacin total o mal calibrada. En esta situacin no es de inters las estaciones totales asigo e nadas y a qu grupo, sino cuntas estaciones totales bien calibradas han sido e a asignadas. Por ello, para calcular la probabilidad asociada a los valores de la variable slo es necesario conocer los sucesos elementales del experimento sin o denota que las dos estaciones totales asignadas son ET 1 y ET 3. tener en cuenta la asignacin de los grupos. As pues, el suceso {ET 1&ET 3} o Como dos son las estaciones totales mal calibradas y tres las bien calibradas, los valores de la variable aleatoria X son 0, 1 y 2. Concretamente al sos {ET 1&ET 3}, {ET 1&ET 4}, {ET 1&ET 5}, {ET 2&ET 3}, {ET 2&ET 4}, suceso {ET 1&ET 2} le asigna el valor 0, el valor 1 es asociado a los suce-
{ET 4&ET 5}. Como slo son tres los posibles valores que toma la variable o ciadas, dependen de las probabilidades de los sucesos elementales asignados a cada valor. Si asumimos que todos los sucesos del experimento son equiproba 0 1 bles, entonces la funcin de distribucin de la variable aleatoria X es o o si si si si x < 0, pues P (X < 0) = 0 0 x < 1, pues P (X < 1) = P (X < 0) + P (X = 0) 1 x < 2, pues P (X < 2) = P (X < 1) + P (X = 1) x 2, pues P (X 2) = 1.
{ET 2&ET 5} y el valor 2 a los sucesos {ET 3&ET 4}, {ET 3&ET 5},
X, deducimos que es una variable aleatoria discreta. Las probabilidades aso-
F (x) =
10
7 10 1
Manuales uex 85
F(x) 0.0 0.2 0.4
0.6
0.8
1.0
1 x
Figura 4.1: Funcin de distribucin para la variable aleatoria X considerada o o en el Ejemplo 4.1. Su representacin grca se muestra en la Figura 4.1. Observemos que como la o a variable aleatoria slo toma un nmero nito de valores, la funcin de distribuo u o cin es escalonada con saltos en dichos valores. Asimismo, la grca muestra o a las propiedades anteriormente descritas de la funcin de distribucin. o o En el siguiente ejemplo, consideramos una variable aleatoria continua. Ejemplo 4.2 Consideramos el experimento aleatorio, descrito en el Ejemplo 3.2, consistente en medir con un distancimetro con apreciacin en mil o o metros una distancia calibrada de valor nominal 0 , medida en metros. En este caso el conjunto de sucesos elementales son mediciones. Para cada medicin, denimos o la variable aleatoria X error en mil metros cometido en dicha medicin, donde o el signo positivo lo interpretamos que la medicin es superior a 0 y el signo o negativo lo interpretamos que la medicin es inferior a 0 . o Si suponemos que la mitad de las mediciones proporcionada por el aparato subvalora la distancia calibrada y la otra mitad la sobrevalora, entonces obtenemos que P (X 0) = 1/2 y P (X > 0) = 1 P (X 0) = 1/2. Una funcin de distribucin que describe esta situacin puede ser o o o si x < 10 0 2 x x + 10 + 1 si 10 x < 0 2 F (x) = 200 2 x 1 x 200 + 10 + 2 si 0 x < 10 1 si x 10,
Manuales uex 86
F(x) 0.0 15 0.2 0.4
0.6
0.8
1.0
10
0 x
10
15
Figura 4.2: Funcin de distribucin para la variable aleatoria X considerada o o en el Ejemplo 4.2. pues F (0) = 0.5. Adems, a partir de la funcin de distribucin, podemos a o o calcular las siguientes probabilidades P (X 10) = 0, P (X 10) = 1, P (X 5) = 7/8, P (X 5) = 1/8, P (X > 5) = 1 P (X 5) = 1/8, P (5 < X 5) = P (X 5) P (X 5) = 3/4. Observemos que la variable puede tomar cualquier valor entre -10 y 10 y por tanto es una variable aleatoria continua. En la Figura 4.2 representamos esta funcin de distribucin. o o
4.2.1.
Funcin de probabilidad o
La funcin de distribucin valorada en x nos mide la incertidumbre de obtener o o un resultado para el cual el valor de la variable sea menor o igual que x. Este concepto generaliza al de frecuencia relativa acumulada denida para un conjunto de datos medidos en escala ordinal o numrica. A continuacin, e o extendemos el concepto de frecuencia relativa de un conjunto de datos a una variable aleatoria X.
y la denotamos por p(), a la funcin que nos indica la probabilidad de cada o uno de los valores de la variable X, es decir, para cada x R p(x) = P (X = x).
Manuales uex 87
Si X es una variable aleatoria discreta, denominamos funcin de probabilidad o
1.0
0.8
0.6
F(x)
p(x) 0.4 0.2 0.0 1 0 1 x 2 3 0.0 1 0.1 0.2 0.3
0.4
0.5
0.6
0.7
1 x
Figura 4.3: Funcin de distribucin (grco de la izquierda) y funcin de proo o a o babilidad (grco de la derecha) para la variable aleatoria X considerada en a el Ejemplo 4.1. Si denotamos por {xn }n1 al espacio muestral de la variable aleatoria X, que no pertenece a dicho espacio muestral. Adems, a partir de la funcin de a o distribucin, tenemos que o p(x1 ) = F (x1 ) y p(xn+1 ) = F (xn+1 ) F (xn ), n 1, es decir, la funcin de probabilidad nos mide la altura de los escalones de la o funcin de distribucin. Se verica que o o p(xn ) > 0 y

donde xn < xn+1 para todo n 1, entonces p(x) = 0 para todo valor x
p(xn ) = 1.
n=1
Con la notacin utilizada, hemos supuesto impl o citamente que el valor m nimo de la variable, x1 , se puede determinar. En ocasiones esto no es posible, pero los resultados anteriores siguen siendo vlidos sin ms que modicar convea a nientemente la notacin. o Ejemplo 4.3 Para la variable aleatoria X considerada en el Ejemplo 4.1 teterminada por nemos que {0, 1, 2} es el espacio muestral y la funcin de probabilidad est deo a p(0) =
Manuales uex 88
1 6 3 , p(1) = y p(2) = . 10 10 10 En el grco de la izquierda de la Figura 4.3 mostramos la funcin de distria o bucin de la variable aleatoria X y en el grco de la derecha su funcin de o a o probabilidad, donde observamos la relacin con la funcin de distribucin. o o o
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Figura 4.4: Diagramas de barras para los conjuntos de datos obtenidos cuando el nmero de repeticiones del experimento es 100 (grco de la izquierda), 1000 u a (grco central) y 10000 (grco de la derecha), considerados en el Ejemplo a a 4.3. Notemos que el grco correspondiente a la funcin de probabilidad se asemeja a o en forma a un diagrama de barras, donde en lugar de frecuencias relativas representamos probabilidades. Asimismo, los diagramas de barras aproximan el comportamiento de la funcin de probabilidad a medida que las repeticiones o del experimento aumentan, tal y como mostramos en la Figura 4.4, donde el nmero de repeticiones considerado son 100 (grco de la izquierda), 1000 u a (grco central) y 10000 (grco de la derecha). Consecuentemente ponemos a a de maniesto que la frecuencia relativa de un suceso aproxima a la probabilidad de dicho suceso.
Notemos que, conocida la funcin de distribucin, hemos obtenido la funcin o o o de probabilidad. Asimismo, la funcin de distribucin queda determinada a o o partir de la funcin de probabilidad como sigue o 0 si x < x1 n F (x) = p(xk ) si xn x < xn+1 , n 1.
k=1
As a partir de ahora, determinar una variable aleatoria discreta consiste en , especicar su espacio muestral y la funcin de probabilidad asociada a los o valores de dicho espacio muestral.
Manuales uex 89
4.2.2.
Funcin de densidad o
Si la variable aleatoria es continua, la probabilidad asociada a un valor de su espacio muestral debe ser cero, pues el conjunto de posibles valores es de cardinal innito no numerable y todas las probabilidades suman la unidad. Por ello, en esta situacin, no es de inters determinar la probabilidad de o e que la variable tome un valor concreto sino ms bien la probabilidad de que a la variable valores en un rango determinado por un intervalo. Mxime cuando a las variables aleatorias continuas estn asociadas a experimentos de naturaleza a cuantitiva continua discretizados por la apreciacin en la observacin. En la o o situacin descrita en el Ejemplo 4.2, donde la variable aleatoria determina el o error cometido por un distancimetro con apreciacin en mil o o metro al medir una distancia calibrada 0 , dos valores consecutivos de los errores obtenidos distan al menos un mil metro. Ahora bien, al realizar una medicin y obtener o el error, por ejemplo 2 mil metros, esto no nos indica que el error cometido haya sido de 2 mil metros sino ms bien que el error cometido lo aproximamos a a 2 mil metros con una apreciacin de un mil o metro, es decir, el error cometido real no observable est entre 1.5 y 2.5 mil a metros, sin determinar exactamente su magnitud debido a la discretizacin de la medicin. Por ello la variable que o o modeliza esta situacin la consideramos de tipo continua y estamos interesados o en determinar la probabilidad de que el error real cometido se encuentre en el intervalo comprendido entre 1.5 y 2.5 mil metros, ms que la probabilidad de a que el error sea el valor observado 2. Ahora bien, intervalos diferentes con la misma longitud pueden tener probabilidades distintas. Esto nos lo determina la funcin de densidad de la variable o aleatoria continua X. La denotamos por f () y la denimos como la probabilidad por unidad de medida de la variable, es decir, nos mide como crece la funcin de distribucin en cada punto. La calculamos, siempre que sea posible, o o como f (x) = F (x) = lim P (x h X x + h) , x R, 2h
Manuales uex
h0
siendo F () la funcin derivada de F (). Observemos que la funcin de densio o dad en un punto x no representa una probabilidad, sino una relacin entre la o probabilidad del intervalo denido por los valores xh y x+h y su longitud 2h, cuando sta se acerca a cero. Por tanto, es posible que la funcin de densidad e o
90
1 F(x)
F(x)
f(x) x
Figura 4.5: Relacin entre la funcin de distribucin y la funcin de densidad. o o o o pueda valer ms de 1 en algn punto. De su denicin, deducimos que la funa u o cin de distribucin F () es una primitiva de f (). Como limx F (x) = 0, o o podemos utilizar la funcin de densidad para el clculo de probabilidades como o a x f (y)dy. P (X x) = F (x) =
En la Figura 4.5, mostramos la relacin entre la funcin de distribucin y la o o o funcin de densidad de una variable aleatoria continua. Consecuentemente, o para cualesquiera valores x1 , x2 R, tales que x1 < x2 , tenemos que x2 f (x)dx. P (x1 < X x2 ) = F (x2 ) F (x1 ) =
x1
Intuitivamente, el rea bajo la curva denida por la funcin de densidad hasta a o el punto x representa la probabilidad de que la variable tome un valor igual o inferior a x, como mostramos en el grco de la izquierda de la Figura 4.6. a Asimismo, la probabilidad de un intervalo es el area delimitada por la funcin o de densidad en dicho intervalo, como mostramos en el grco de la derecha de a la Figura 4.6. Si existe la funcin de densidad en un punto x, entonces tenemos que la funcin o o de distribucin es continua en ese punto, por ser derivable. Adems, tenemos o a que P (X = x) = 0. Debido a esto, a la hora de calcular probabilidades de intervalos a partir de la funcin de densidad no inuye incorporar los extremos, o es decir, P (x1 X x2 ) = P (x1 < X x2 ) = P (x1 X < x2 ) = P (x1 < X < x2 ).
Manuales uex 91
0.4
0.3
F(x)
f(x)
0.2
P (X 2 )
0.1 0.1
0.2
0.3
0.4
P ( 2 X 2 )
0.0
0 x
0.0 3
0 x
Figura 4.6: Uso de la funcin de densidad de una variable aleatoria para el o clculo de probabilidades. a Asimismo la funcin de densidad hereda las propiedades de la funcin de diso o tribucin como sigue. El rea total encerrada por la funcin de densidad es o a o uno, pues
f (y)dy = lim F (x) = 1.

x
Adems, como la funcin de distribucin es no decreciente, entonces la funcin a o o o de densidad es no negativa, nula en un punto si ste no pertenece al espacio e muestral. Cuanto mayor sea el valor de la funcin de densidad en un punto, o mayor probabilidad para que la variable tome valores cercanos a dicho punto. Ejemplo 4.4 Como la funcin de distribucin de la variable aleatoria X cono o siderada en Ejemplo 4.2 es derivable, obtenemos la siguiente expresin de su o funcin de densidad o 0 x
100 + x 100 + 0 1 10 1 10
f (x) =
si si si si
x < 10 10 x < 0 0 x < 10 x 10.
En la Figura 4.7 mostramos el comportamiento de la funcin de densidad o
Manuales uex 92
(grco de la derecha) frente a la funcin de distribucin (grco de la iza o o a quierda) de la variable aleatoria X. Observemos que la funcin de densidad o es positiva en el intervalo denido por los valores -10 y 10, que determina el espacio muestral de la variable aleatoria continua. Sobre el espacio muestral, la funcin de densidad no es contante, alcanzando su mximo en el cero. De o a
Estadstica bsica para topografa
0.8
F(x)
0.6
0.4
f(x) 0.2 15 10 5 0 x 5 10 15 0.00 15 0.0 0.05
0.10
0.15
1.0
10
0 x
10
15
Figura 4.7: Funcin de distribucin (grco de la izquierda) y funcin de densio o a o dad (grco de la derecha) para la variable aleatoria considerada en el Ejemplo a 4.2. este hecho deducimos que intervalos con la misma longitud no tienen necesariamente la misma probabilidad. Por ejemplo, P (0 < X < 5) =
5
f (x)dx =
3 y P (5 < X < 10) = 8
10
f (x)dx =
1 . 8
Teniendo en cuenta estas probabilidades, podemos calcular probabilidades condicionadas. Por ejemplo si conocemos que el error en la medicin es positivo, o entonces tenemos una probabilidad de 0.75 de que sea menor de 5 unidades pues P (0 X 5|X 0) = P (0 X 5) 3 = . P (X 0) 4
Observemos que la funcin de densidad se asemeja al histograma de un cono junto de datos dnde se representan las frecuencias relativas convenientemente o normalizadas para que la suma de las reas de todos los rectngulos que lo a a constituyen sea la unidad. Concretamente, cuando el nmero de repeticiones u del experimento es sucientemente grande y la base de los rectngulos es sua cientemente pequea obtenemos que la distribucin del histograma se apron o xima a la funcin de densidad. Este comportamiento se muestra en la Figura o considerada en el Ejemplo 4.2 junto a un histograma de un conjunto de datos obtenido cuando el nmero de repeticiones del experimento aleatorio es 1000 u (grco de la izquierda) y 10000 (grco de la derecha). Esta propiedad la a a derivamos de la propia denicin de la funcin de densidad, pues si la base del o o 4.8 donde representamos la funcin de densidad de una variable aleatoria X o
ManualEs uEx 93
rodrigo MartnEz quintana
0.15
0.10
f(x)
0.05
f(x) 0.00 15 10 5 0 x 5 10 15 0.00 15 0.05
0.10
0.15
10
0 x
10
15
Figura 4.8: Funcin de densidad de la variable aleatoria considerada en el o Ejemplo 4.2, junto a un histograma de un conjunto de datos obtenido cuando el nmero de repeticiones del experimento aleatorio es 1000 (grco de la u a izquierda) y 10000 (grco de la derecha). a rectngulo con centro x es sucientemente pequea, el rea de dicho rectngulo a n a a lo aproximamos por P (x h < X < x + h) 2hf (x). De la expresin anterior deducimos que si multiplicamos el valor de la funcin o o de densidad en x por la longitud de un intervalo pequeo centrado en x, n obtenemos una aproximacin de la probabilidad de que la variable se encuentre o en dicho intervalo.
4.2.3.
Transformacin de variables aleatorias o
En muchas ocasiones no slo estamos interesados en la distribucin de la variao o ble aleatoria X, sino en una transformacin de la propia variable, Y = g(X), o siendo g() una funcin real. Como X es una variable aleatoria, Y es otra vao riable aleatoria cuya funcin de distribucin la podemos determinar en algunas o o situaciones a partir de la funcin de distribucin de la variable X. o o Ejemplo 4.5 Supongamos que para la situacin descrita en el Ejemplo 4.2, o estamos interesados slo en la magnitud del error y no en el signo de ste. La o e variable que describe su comportamiento aleatorio es Y = |X|, donde X es la variable aleatoria asociada al error. As el espacio muestral de esta nueva , variable es el conjunto de valores comprendido entre 0 y 10. Como Y es una variable no negativa, entonces para valores y < 0 P (Y y) = 0.
ManualEs uEx 94
F(y)
f(y) 5 0 5 y 10 15 0.00 5 0.0 0.05 0.2 0.10 0.4
0.15
0.6
0.20
0.8
0.25
1.0
5 y
10
15
Figura 4.9: Funcin de distribucin (grco de la izquierda) y funcin de deno o a o sidad (grco de la derecha) de la variable aleatoria Y = |X|, siendo X la a variable aleatoria considerada en el Ejemplo 4.2. En cambio, si y 0, tenemos que P (Y y) = P (y X y) = F (y) F (y) + P (X = y). Con todo ello, deducimos que la funcin de distribucin y la funcin de densio o o dad de la variable Y admiten, respectivamente, las expresiones 0 0 si y < 0 si y < 0 y y2 P (Y y) = 100 + y si 0 y < 10 y f (y) = 50 + 1 si 0 y < 10 5 5 0 si y 10, 1 si y 10
En el grco de la izquierda de la Figura 4.9 mostramos la funcin de distribua o cin y en el grco de la derecha la funcin de densidad de la variable aleatoria o a o Y . En ambos grcos podemos observar que el espacio muestral est comprena a dido entre 0 y 10. A partir de estas funciones obtenemos, por ejemplo, que P (0 Y 5) = 3/4. Obviamente, este valor corresponde a la probabilidad de que la variable aleatoria X se encuentre en el intervalo denido por los valores -5 y 5.
4.3.
Medidas caracter sticas de una variable aleatoria

ManualEs uEx 95
Como hemos comentado anteriormente, el conocimiento de la funcin de proo babilidad o de la funcin de densidad determina un o vocamente, seg n su nau turaleza, la estructura probabil stica asociada a una variable aleatoria. A continuacin, denimos medidas caracter o sticas de una variable aleatoria que sintetizan el comportamiento de la misma, aunque no lo determinan de manera

un voca. Atendiendo a la caracter stica que describen las agrupamos en medidas de centralizacin, medidas de posicin, medidas de dispersin y medidas o o o de forma. La interpretacin de estas medidas es anloga a las dadas para las o a medidas caracter sticas muestrales expuestas en el Tema 1, referidas ahora a los valores que toma la variable aleatoria. Para evitar confusin, llamamos a o stas medidas caracter e sticas poblacionales para distinguirlas de la muestrales, que hacen referencia a un conjunto de datos. Como veremos, las medidas muestrales aproximan a las medidas poblacionales, siempre que el conjunto de datos sea representativo y su tamao muestral sucientemente grande. n Las medidas caracter sticas poblacionales son valores numricos que calculae mos a partir de la funcin de probabilidad o de densidad, dependiendo de si o la variable aleatoria es discreta o continua. Las deniciones son anlogas a a las dadas para un conjunto de datos. Hacemos constar que aunque es posible calcular las medidas caracter sticas de cualquier variable aleatoria, no es interpretable cuando la variable es una codicacin de un experimento aleatorio o asociado a un carcter cualitativo. a
4.3.1.
Medidas de centralizacin o
La medida de centralizacin ms utilizada de una variable aleatoria X es la o a media o esperanza matemtica, que para el caso discreto se dene como a =
i=1
xi p(xi ),
es la misma que la de la media muestral de un conjunto de datos, donde ahora consideramos todos los posibles valores de la variable y sustituimos las frecuencias relativas por las probabilidades, es decir, la media ponderada de todos los posibles valores, cada uno de ellos ponderado por su probabilidad asociada. Por tanto, la media proporciona el centro de gravedad de la funcin o de probabilidad. Observemos que la media se mide en las mismas unidades que los valores que toma la variable aleatoria.
o donde {xn }n0 denota el espacio muestral de la variable aleatoria. Su expresin
ManualEs uEx 96

Ejemplo 4.6 Como el espacio muestral de la variable aleatoria discreta considera en el Ejemplo 4.1 es {0, 1, 2} y su funcin de probabilidad es o p(0) = 6 3 1 , p(1) = , p(2) = , 10 10 10
entonces su media la calculamos mediante la expresin o =0 1 6 3 6 +1 +2 = estaciones bien calibradas. 10 10 10 5
Intuitivamente tenemos que en diez sesiones prcticas el nmero esperado de a u estaciones totales bien calibradas entre los dos grupos es 12. Para el caso continuo, denimos la media o el valor esperado de la variable aleatoria X como =

xf (x)dx,
donde hemos reemplazamos las probabilidades del caso discreto por la funcin o de densidad y el sumatorio por un signo integral (sumas innitas no contables), en el sentido de sumar cada valor por su peso en la poblacin. o Ejemplo 4.7 Como la funcin de densidad de la variable aleatoria continua o considerada en el Ejemplo 4.2 admite la expresin o 0 x si si si si x < 10 10 x < 0 0 x < 10 x 10,
su media es nula, pues =

0
+ 1 f (x) = 100x 10 1 100 + 10 0 x x2 + 100 10 dx +

10 0
Observemos que cuando realizamos mediciones con el distancimetro cometeo mos errores, posiblemente de magnitudes no nulas, pero en promedio stos se e compensan.
ManualEs uEx 97
10
x2 x + 100 10
dx = 0 mm.

Si Y es una variable aleatoria obtenida a partir de una transformacin de la o variable aleatoria X, sea Y = g(X), entonces podemos calcular la media de la variable Y bien a partir de su funcin de probabilidad o de densidad, bien a o partir de la variable X mediante la expresin o g(xi )p(xi ) (caso discreto) o g(x)f (x)dx (caso continuo).
i=1
Ejemplo 4.8 Teniendo en cuenta la funcin de densidad de la variable aleao toria continua Y considerada en el Ejemplo 4.5, calculamos su valor esperado mediante la expresin o 10 yfY (y)dy =
0 10
Obviamente, el valor obtenido es el mismo que el calculado a partir de su funcin de densidad. En la prctica, utilizamos un procedimiento u otro, deo a pendiendo de la funcin de densidad que conozcamos. o Como sucede con la media muestral, la media tiene el inconveniente de verse afectada por la presencia de valores cuya magnitud sea diferente a la del resto. Una medida de centralizacin apropiada para esta situacin es la mediana o o que denimos como un valor numrico que deja a cada lado un 50 % de la e probabilidad. La calculamos como el valor m tal que P (X < m) 0.5 y P (X m) 0.5. Para el caso continuo obtenemos que m f (x)dx =
m
Sin embargo, como Y = |X|, siendo X la variable aleatoria descrita en el Ejemplo 4.2, podemos calcular el valor esperado de la variable Y a partir de la funcin de densidad de la variable X mediante la expresin o o 2 10 0 10 x x x x2 10 + + mm. |x|fX (x)dx = dx+ dx = 100 10 100 10 3 10 10 0
y2 y + 50 5
dy =
10 mm. 3
f (x)dx = 0.5
ManualEs uEx 98
De su denicin, se deduce que la mediana es unica para el caso continuo y o puede no serlo para el caso discreto, pues si tenemos una variable aleatoria que toma el valor 0 con probabilidad 0.5 y el valor 1 probabilidad 0.5, entonces cualquier valor entre 0 y 1 puede considerarse como la mediana.
0.75 10 + 5 2
f(x)
0.8
0.15
1.0
F(x)
0.4
0.6
10 + 5 2
10 5 2
0.25
0.2
10 5 2
0.00
0.05
0.10
0.25
15 15 10 5
0.50
0 x
0.25
5 10 15
0.0 15
10
0 x
10
Figura 4.10: Clculo del primer y tercer cuartil para la variable aleatoria desa crita en el Ejemplo 4.2. Ejemplo 4.9 Para la variable aleatoria discreta considerada en el Ejemplo 4.1 tenemos que el valor de la mediana es 1, pues F (0) = 0.1 y F (1) = 0.7. Por otro lado, para la variable aleatoria considerada el Ejemplo 4.2 la mediana es el 0, pues F (0) = 0.5 y la variable es continua.
4.3.2.
Medidas de posicin o
Generalizando el concepto de mediana, denimos el cuantil de orden p de la variable aleatoria X, con 0 p 1, como un valor mp tal que P (X < mp ) p y P (X mp ) p. De su denicin, deducimos que es una medida de posicin que coincide con o o la mediana cuando p = 0.5. Casos particulares son el primer cuartil y el tercer cuartil, que corresponde a los cuantiles de orden 0.25 y 0.75, respectivamente. Ejemplo 4.10 Para la variable aleatoria continua considerada en el Ejemplo 4.2, obtenemos que el primer cuartil es 10 + 5 2 y el tercer cuartil 10 5 2, dado que F (10 + 5 2) = 0.25 y F (10 5 2) = 0.75. En la Figura 4.10
mostramos la posicin de los cuartiles primero y tercero en el espacio muestral o de la variable.
ManualEs uEx 99
4.3.3.
Medidas de dispersin o
Como en el estudio descriptivo de un conjunto de datos, la distancia entre el primer y el tercer cuartil denen una medida de dispersin que la denominamos o rango intercuart lico. Observemos que la variable aleatoria toma un valor en dicho rango con probabilidad 0.5. Asimismo, denimos rango o amplitud a la distancia entre el valor m nimo y el mximo del espacio muestral de la variable a aleatoria. Notemos que si el espacio muestral es no acotado, entonces el rango es innito. Medidas de dispersin que toman como referencia medidas centrales son la o varianza, la desviacin t o pica y la meda de una variable aleatoria. Denotamos la varianza por 2 y la denimos como el valor esperado de las distancias al cuadrado de los valores de la variable a la media. Segn sea la variable aleatoria u discreta o continua, tenemos la siguiente expresin de la varianza o 2 2 = (xi ) p(xi ) = o
2 i=1
(x )2 f (x)dx,
donde denota la media de la variable aleatoria X. De la propia denicin de varianza deducimos que es un valor no negativo, nulo o si y slo si el espacio muestral de la variable est formado por un unico valor, o a es decir, la variable es degenerada en dicho valor y por tanto no aleatoria. Las unidades en las que expresamos la varianza son el cuadrado de las unidades en las que se expresa la variable aleatoria. Por ello, denimos la desviacin t o pica de una variable aleatoria como la ra cuadrada de la varianza y la denotamos z por . Adems, una medida de dispersin adimensional (no depende de la a o unidades de medida), util para comparar la dispersin entre variables, es el o coeciente de variacin, que lo denimos como el cociente entre la desviacin o o t pica y el valor absoluto de la media, siempre que sta sea no nula. e
ManualEs uEx
Ejemplo 4.11 Calculamos la varianza de la variable aleatoria discreta considerada en el Ejemplo 4.1, como 2 = 0 6 5 2 2 2 6 6 9 1 6 3 + 1 + 2 = . 10 5 10 5 10 25
100

Notemos que las unidades de medida de la variable son estaciones totales bien calibradas y por tanto la varianza se expresa en stas unidades al cuadrado. e Asimismo, para la variable aleatoria continua considerada en el Ejemplo 4.2, tenemos que la varianza es 0 3 10 x2 x2 x3 x 50 + + mm.2 . 2 = dx + dx = 100 10 100 10 3 10 0 Conocer slo la media y la desviacin t o o pica de una variable aleatoria nos permite calcular una cota de la proporcin de distribucin que est situada en o o a el intervalo denido por los valores k y + k, siendo k una constante
positiva mayor que uno, sin necesidad de conocer su funcin de distribucin. o o Concretamente tenemos que P ( k < X < + k) 1 1 . k2
Esta expresin se denomina desigualdad de Tchebychev. Particularizando para o k = 2 y 3, deducimos que, independientemente de la distribucin de la variable, o P ( 2 < X < + 2) 8 3 y P ( 3 < X < + 3) . 4 9
Observemos que la desigualdad de Tchebychev proporciona una cota inferior para la probabilidad de que la variable se encuentre en un intervalo centrado en la media. Dicha cota se aproxima a 1 a medida que crece la amplitud del intervalo. Ejemplo 4.12 Como para la variable aleatoria considerada en el Ejemplo 4.1, hemos obtenido que = 6/5 y 2 = 9/25, entonces, aplicando la desigualdad de Tchebychev para k = 2, tenemos que 6 3 6 3 3 P 2 <X < +2 = P (X 1), 4 5 5 5 5 es decir, la probabilidad de que al menos un grupo trabaje con una estacin o total bien calibrada es mayor o igual que 0.75. En realidad sabemos que esta probabilidad vale 9/10. Este resultado lo podemos expresar en trminos de su e complementario como sigue 6 6 1 P X = P (X = 0). 4 5 5
101
ManualEs uEx

Por otro lado, para la variable aleatoria considerada en el Ejemplo 4.2 hemos calculado que = 0 y 2 = 50/3. As aplicando la desigualdad de Tchebychev , para k = 2, tenemos que 3 P 4 5 2 5 2 2 < X < 2 . 3 3
En este caso sabemos que este probabilidad vale 2 2/ 3 2/3. Si tomamos k = 3, obtenemos que 8 P 5 6 < X < 5 6 , 9 que en este caso es irrelevante puesto que conocemos que el espacio muestral se encuentra entre -10 y 10.
Si la varianza es una medida de dispersin que toma como referencia a la media, o la meda es una medida de dispersin asociada a la mediana. La denimos como o la mediana de la diferencia en valor absoluto entre los valores de la variable y la mediana. A partir de esta denicin es fcil deducir que en el intervalo o a centrado en la mediana de la variable y con amplitud dos veces la meda se encuentra al menos el 50 % de la distribucin de la variable. o Ejemplo 4.13 Como la mediana de la variable aleatoria X considerada en el Ejemplo 4.2 es nula, tenemos que la meda de dicha variable es la mediana de la variable Y = |X|, descrita en el Ejemplo 4.5. Adems, como Y es una a variable aleatoria continua y FY (10 5 2) = 0.5, siendo FY () su funcin o de distribucin, deducimos que la mediana de Y es 10 5 2, y por tanto, la o meda de X. Observemos que, en esta situacin, la meda es la mitad del rango o intercuart lico. As el intervalo denido por el primer y el tercer cuartil es el , mismo que el que obtenemos a partir de la mediana y la meda.
102
ManualEs uEx
0.25
0.15
0.20
0.15
0.10
f(y)
f(x)
0.10
f(y)
0.05
0.05
0.00
0.00
15
10
5 y
15
10
0 x
10
15
0.00
0.05
0.10
0.15
0.20
0.25
5 y
10
15
Figura 4.11: Funciones de densidad con diferentes coecientes de asimetr a.
4.3.4.
Medidas de forma
El coeciente de asimetr nos indica la simetr de los valores de la variable a a con respecto a su valor esperado. Es una medida de forma y la denimos como la esperanza de la diferencia al cubo entre la variable y la media, dividido por la desviacin t o pica al cubo. De su denicin deducimos que el coeciente o de asimetr es adimensional y tiene signo. Un valor negativo (positivo) nos a indica una asimetr a la izquierda (derecha) de la variable con respecto a su a media, pues, las desviaciones negativas (positivas) que corresponden a valores pequeos (grandes) pesan ms que las desviaciones positivas (negativas) que n a corresponden a valores grandes (pequeos). Un coeciente de asimetr nulo n a nos indica una simetr perfecta en la distribucin de los valores de la variable a o con respecto a su media , es decir, P (X x) = P (X + x), para cualquier valor positivo x. En la Figura 4.11 mostramos las funciones de densidad de las variables Y (grco de la izquierda), X (grco central) e a a 4.2 y Ejemplo 4.5, respectivamente. Observamos que la variable aleatoria Y Y (grco de la derecha), siendo X e Y las variables descritas en el Ejemplo a tiene un coeciente de asimetr negativo, que se maniesta con la presencia de a una cola hacia valores pequeos de la variable, X un coeciente de asimetr n a nulo, pues su funcin de densidad es simtrica con respecto a la media e Y o e un coeciente de asimetr positivo, que se maniesta con la presencia de una a cola hacia valores grandes de la variable.
103
ManualEs uEx
0.15
0.10
f(x)
0.05
f(x)
F(5)
0.00 15 10 5 0 x 5 10 15 0.00 15 10 5
0.05
0.10
0.15
F(5)
0 x 5 10 15
Figura 4.12: Clculo de probabilidades en variables simtricas. a e Finalmente, notemos que conocida la media de una variable aleatoria simtrica, e el clculo de probabilidades se simplica teniendo en cuenta la igualdad a P (X x) = P (X + x). As para la variable aleatoria simtrica X considerada en el Ejemplo 4.2, , e hemos obtenido que = 0, y por tanto, tenemos que P (X 5) = 1 P (X 5), como mostramos en la Figura 4.12.
4.3.5.
Transformacin de variables aleatorias o
ManualEs uEx
Al realizar una transformacin de una variable aleatoria X, las medidas cao racter sticas de la variable resultante, Y , no son en general la transformacin o de las medidas caracter sticas de la variable transformada. Observemos que las medidas caracter sticas de la variable X descrita en el Ejemplo 4.2 no estn relacionadas con las medidas caracter a sticas de la variable aleatoria Y del Ejemplo 4.5, a pesar de que Y = |X|. En cambio, las medidas caracter sticas de X e Y s estn relacionadas si la dependencia es de tipo lineal, es decir, a Y = aX + b con a, b R. Intuitivamente, a signica que hemos realizado un cambio de escala en las unidades de la variable X y b lo interpretamos como una traslacin de todos los valores de la variable. En esta situacin, tenemos o o que la media de la variable Y , Y , depende de la media de la variable aleatoria X, X , de la misma manera, es decir, Y = aX + b.
104

Lo mismo sucede para la mediana. En cambio, la varianza no est afectada por a la traslacin, pues la dispersin es la misma, pero s por el cambio de escala. o o Concretamente tenemos que
2 2 Y = a2 X , 2 2 donde X y Y denotan la varianza de las variables aleatorias X e Y , respec-
tivamente. Asimismo, la meda de la variable Y la calculamos como el valor absoluto de a multiplicado por la meda de la variable X. Finalmente, tenemos que el coeciente de variacin y el coeciente de asimetr no estn afectados o a a por la transformacin lineal, salvo por el signo de a. o Un caso especial de transformacin lineal y de gran inters prctico es la tio e a picacin. Dada una variable aleatoria X con media y desviacin t o o pica , tipicar la variable X consiste en aplicar la transformacin o Y = X .
La variable Y se caracteriza por tener media 0 y varianza 1. Ejemplo 4.14 Si consideramos la transformacin Y = 0.1X, siendo X la vao riable aleatoria descrita en el Ejemplo 4.2, entonces Y es una variable aleatoria que nos determina en cent metros el error cometido en cada medicin. A paro tir de las medidas caracter sticas de X y teniendo en cuenta que Y es una transformacin lineal de X con a = 0.1 y b = 0, obtenemos las medidas cao racter sticas de Y sin necesidad de conocer su funcin de densidad, tal y como o mostramos en el Cuadro 4.1. Como hemos comentado, si la variable Y no es una transformacin lineal de la o variable aleatoria X, entonces las medidas caracter sticas de Y no se obtienen en general como funcin de las medidas caracter o sticas de X. Si no conocemos la funcin de distribucin de la variable aleatoria Y , podemos aproximar sus o o medidas caracter sticas a partir de las medidas caracter sticas de la variable aleatoria X, utilizando la aproximacin lineal de la transformacin proporo o cionada por el desarrollo de Taylor hasta el primer orden. Concretamente, si Y = g(X), siendo g() una funcin derivable en X , tenemos que o Y g(X ) + g (X )(X X ),
105
ManualEs uEx
Medidas
Media Mediana 1o Cuartil 3o Cuartil Varianza Meda Coef. Asimetr a
0 0 10 + 5 2 10 5 2 50/3 10 5 2 nulo
0 0 1 + 0.5 2 1 0.5 2 5/30 1 0.5 2 nulo
Cuadro 4.1: Medidas caracter sticas de la variable aleatoria Y = 0.1X obtenidas a partir de la variable aleatoria X, siendo X la variable descrita en el Ejemplo 4.2. o , donde g () denota a la funcin derivada de g(). As teniendo en cuenta las expresiones de la media y la varianza para transformaciones lineales, obtenemos que
2 2 Y g(X ) y Y (g (X ))2 X . 2 Observemos que g(X ) y (g (X ))2 X son una aproximacin de la media y la o
varianza, respectivamente, de la variable aleatoria Y , util cuando no conocemos o es dif calcular su funcin de distribucin. Esta aproximacin depende cil o o o de la distribucin de la variable aleatoria X slo a travs de sus medidas o o e caracter sticas. Si la transformacin es de tipo lineal, la aproximacin es exacta. o o Como ilustramos en el siguiente ejemplo, la aproximacin de la media y la o varianza de transformaciones no lineales tiene gran inters prctico para dese a cribir el comportamiento probabil stico de observaciones indirectas, conocida la distribucin de la observacin directa que la dene. o o
ManualEs uEx 106
Ejemplo 4.15 Supongamos que estamos interesados en determinar el comportamiento del error de medicin del area de un c o rculo de radio nominal 5 metros, cuando en la medicin del radio utilizamos el distancimetro descrito o o en el Ejemplo 4.2. Como la variable aleatoria X describe el comportamiento

del error en mil metros del distancimetro al medir el radio de magnitud 5, o tenemos que el error del rea en metros cuadrados admite la expresin a o Y = ((0.001X + 5)2 52 ). Aplicando el desarrollo de Taylor hasta el orden uno, obtenemos que
2 2 Y 0.01X, Y 0.01X y Y 0.0001 2 X .
Como el valor esperado de los errores del radio es nulo, entonces la media de los errores del rea tambin est prxima a 0. a e a o
4.4.
Para estudiar el comportamiento probabil stico de la variable aleatoria descrita en el Ejemplo 4.1, utilizamos las sentencias: Funcin de distribucin y de probabilidad o o x<--1:3; Fx<-c(0,.1,.7,1,1); px<-c(0,0.1,0.6,.3,0) plot(x, Fx, xlim=c(-1.25,3.25), ylab="F(x)", type="s") plot(x, px, xlim=c(-1,3), ylab="p(x)",type="h", lwd=4) Generar 100 valores de la variable aleatoria library(e1071); x<-rdiscrete(100, c(.1,.6,.3), 0:2) Representar el diagrama de barras barplot(table(x)/length(x), col=0, ylim=c(0,0.7)) abline(h=c(.1,.6,.3), lty=2)
plot(1:length(x), cumsum(x)/(1:length(x)), type="l", xlab="Tama~o muestral", ylab="Media muestral", ylim=c(1,1.4)) n abline(h=6/5,lty=2)
107
ManualEs uEx
Representar la media muestral de los valores generados

Para estudiar el comportamiento probabil stico de la variable aleatoria descrita en el Ejemplo 4.2, utilizamos las sentencias: Funcin de distribucin o o f1<-function(x){x^2/(200)+x/10+1/2}; f2<-function(x){-x^2/(200)+x/10+1/2} plot(x<-seq(-10,0,0.01), f1(x), type="l", xlab="x", ylab="F(x)", xlim=c(-15,15), ylim=c(0,1)) lines(x,f2(x)); lines(c(10,15),c(1,1)); lines(c(-15,-10),c(0,0)) Funcin de densidad o fd1<-function(x)x/(100)+1/10; fd2<-function(x)-x/(100)+1/10 plot(x<-seq(-10,0,0.01), fd1(x), type="l", xlab="x", ylab="f(x)", xlim=c(-15,15), ylim=c(0,.15)); lines(x, fd2(x)) lines(c(10,15), c(0,0)); lines(c(-15,-10), c(0,0)) Generar 100 valores de la variable aleatoria x<-runif(100,-5,5); y<-runif(100,-5,5) Representacin conjunta de la funcin de densidad y del histograma o o hist(x+y, br=20, prob=T, xlab="x", ylab="f(x)", main=, xlim=c(-15,15), ylim=c(0,.15));par(new=T) fd1<-function(x)x/(100)+1/10; fd2<-function(x)-x/(100)+1/10
ManualEs uEx 108
plot(x<-seq(-10,0,0.01), fd1(x), type="l", xlab="x", ylab="f(x)", xlim=c(-15,15), ylim=c(0,.15)) lines(x<-seq(0,10,0.01), fd2(x)); lines(c(10,15), c(0,0)) lines(c(-15,-10), c(0,0))
4.5.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Dos variables aleatorias discretas que tienen la misma media y la misma varianza tienen tambin la misma funcin de probabilidad. e o ii) La funcin de probabilidad de una variable aleatoria discreta asigna a o cada valor numrico x la probabilidad de que la variable tome un valor e menor o igual a x. iii) El area bajo la funcin de distribucin de una variable aleatoria continua o o es uno. iv) Si una variable aleatoria discreta toma slo un valor, su varianza es nula. o v) Si a todos los valores del espacio muestral de una variable aleatoria le sumamos el mismo valor, la mediana no var a. vi) Si una variable aleatoria discreta toma slo un valor, su media y mediana o coinciden. vii) El valor medio asociado a la variable aleatoria que describe las mediciones de una distancia expresada en mil metros es mil veces mayor que el valor medio asociado a la variable aleatoria que describe las mediciones de una distancia expresada en metros. 2. Discutir razonadamente cul de las funciones de densidad mostradas en a la Figura 4.13 est asociada a una variable aleatoria continua simtrica con a e mediana nula. 3. Supongamos que el comportamiento aleatorio del error en la medicin de un o de densidad k(1 x2 ) f (x) = 0
si 1 < x 1 en otro caso.
i) Determinar el valor de k para que f () sea una funcin de densidad. o
109
ManualEs uEx
angulo con un teodolito es descrito por una variable aleatoria X con funcin o
0.15
0.10
0.20
0.25
f(x)
f(x)
0.15
0.05
0.10
f(x) 0.00 0.05 15 10 5 0 x 5 10 15 0.00 15 0.05
0.00
10 x
15
20
25
0.10
0.15
10
0 x
10
15
Figura 4.13: Funciones de densidad para la variable aleatoria considerada en el Problema 2. ii) Determinar y representar la funcin de densidad de la variable aleatoria o X. iii) Calcular la funcin de distribucin de la variable aleatoria X. o o iv) Calcular la media y la varianza de la variable aleatoria X. v) Determinar P (0.5 X 0.5). Contrastar este valor con la cota proporcionada por la desigualdad de Tchebychev.
4. Supongamos que de las 5 estaciones totales disponibles en el almacn del e Centro Universitario de Mrida para realizar las prcticas de campo de una e a determinada asignatura hay 2 que estn mal calibradas. Supongamos tambin a e que dichas prcticas se realizan en dos sesiones distintas, en las que un grupo a escoge al azar en cada sesin una estacin total de entre las cinco existentes. o o Denotemos por X a la variable aleatoria que describe el nmero de estaciones u totales bien calibradas seleccionadas por el grupo de prcticas. a i) Determinar y representar la funcin de distribucin y de probabilidad o o asociada a la variable aleatoria X. ii) Determinar la media y la varianza de la variable aleatoria X.
ManualEs uEx
iii) Calcular la probabilidad de que al menos en las dos sesiones se trabaje con una estacin total bien calibrada. o iv) Determinar y representar la funcin de distribucin y de probabilidad de o o la variable aleatoria 2 X.
110

v) Calcular la media y la varianza de la variable aleatoria Y . 5. Supongamos que el error en la medicin de una distancia con un distano cimetro es una variable aleatoria X con funcin de densidad o o x 25 + 1 si 5 < x 0 5 x 1 f (x) = 100 + 10 si 0 < x 10 0 en otro caso.
i) Representar la funcin de densidad de la variable aleatoria X. o
ii) Calcular la funcin de distribucin de la variable aleatoria X. o o iii) Calcular la media y la mediana de la variable aleatoria X. Interpretar los resultados. iv) Determinar P (5 X 0), P (0 X 10), P (2 X 0) y P (0 X 2). Interpretar los resultados. 6. Si la variable aleatoria considerada en el Ejemplo 4.2 describe el comportamiento probabil stico del error expresados en mil metro de las mediciones del lado de un cubo de valor nominal 5 m., aproximar la media y la varianza de la variable aleatoria que describe el comportamiento probabil stico del error expresado en mil metros c bicos de las mediciones del volumen de dicho cubo. u 7. Con el n de valorar las aproximaciones proporcionadas en el Ejemplo 4.15 de las medidas caracter sticas de los errores asociados a la medicin de rea de o a un c rculo de radio 5 m., calcular la media muestral y la varianza muestral de un conjunto de errores simulados, utilizando para ello el software estad stico R. Cul es el comportamiento de las medidas caracter a sticas de los errores de medicin asociados a su per o metro?
111
ManualEs uEx
Tema 5 Variables aleatorias multidimensionales

5.1. Introduccin o
En el tema anterior, hemos modelizado cuantitativamente los resultados de un experimento aleatorio asociado a un carcter, utilizando para ello los conceptos a de probabilidad y de variable aleatoria. Sin embargo, asociado a un mismo experimento podemos considerar varios caracteres con sus respectivas variables aleatorias. En general, el estudio individualizado de cada una de las variables no describe el comportamiento probabil stico conjunto de todas ellas. Por este motivo, en este tema, introduciremos el concepto de vector aleatorio, que generaliza al de variable aleatoria. Asimismo, denimos la funcin de probabilidad o y la funcin de densidad de un vector aleatorio que determinan la distribucin o o conjunta de las variables que lo forman. En base a esta distribucin podemos o establecer si las coordenadas del vector aleatorio estn relacionadas o por el a contrario son independientes. En caso de estar relacionadas, introduciremos medidas del grado de asociacin entre ellas. Estas medidas son anlogas a o a descriptivamente caracteres cuantitativos. Finalmente, a partir del comportamiento probabil stico de un vector aleatorio estudiaremos el comportamiento de ciertas transformaciones del mismo, lo que resultar util en el caso de caa racteres que slo podamos observar indirectamente y cuyo estudio se basa en o las medidas de asociacin muestrales expuestas en el Tema 2 para analizar o
113
ManualEs uEx

la distribucin de probabilidad asociada a aquellos caracteres observados en el o experimento de modo directo. Con el n de simplicar la notacin, en lo que sigue slo consideraremos el o o estudio conjunto de dos caracteres de un experimento aleatorio. Los conceptos introducidos se pueden generalizar sin dicultad a experimentos aleatorios que involucran a un nmero mayor de caracteres. u
5.2.
Vector aleatorio
Como hemos comentado anteriormente, cuando dos caracteres estn asociados a a los resultados de un mismo experimento aleatorio, obtenemos dos variables aleatorias, una por cada carcter. En ocasiones, el valor que asigna una variable a a un resultado puede determinar el valor que asigna la otra variable a dicho resultado. Ejemplo 5.1 Supongamos que en el experimento aleatorio descrito en el Ejemplo 4.1, adems de estudiar la variable aleatoria X, nmero de estacioa u nes totales bien calibradas de entre las dos seleccionadas, estamos interesados en estudiar la variable aleatoria Y , nmero de estaciones totales mal calibrau das de entre las dos seleccionadas. Como dos son las estaciones totales mal calibradas y tres las bien calibradas, los valores que puede tomar la variael valor 2, el valor 1 es asociado a los sucesos {ET 1&ET 3}, {ET 1&ET 4}, cesos {ET 3&ET 4}, {ET 3&ET 5}, {ET 4&ET 5}. Por tanto, si asumimos que todos los sucesos del experimento son equiprobables, la funcin de probabilio dad asociada a la variable aleatoria Y , independientemente de la variable X, admite la expresin o 3 6 1 , P (Y = 1) = y P (Y = 2) = . 10 10 10 {ET 1&ET 5}, {ET 2&ET 3}, {ET 2&ET 4}, {ET 2&ET 5} y el valor 0 a los suble aleatoria Y son 0, 1 y 2. Concretamente al suceso {ET 1&ET 2} le asigna
ManualEs uEx
P (Y = 0) =
En el grco de la izquierda de la Figura 5.1 mostramos la funcin de distria o bucin de la variable aleatoria Y y en el grco de la derecha su funcin de o a o probabilidad.
114
1.0
0.8
0.6
F(y)
p(y) 0.4 0.2 0.0 1 0 1 y 2 3 0.0 1 0.1 0.2 0.3
0.4
0.5
0.6
0.7
1 y
Figura 5.1: Funcin de distribucin (grco de la izquierda) y funcin de probao o a o bilidad (grco de la derecha) de la variable aleatoria Y descrita en el Ejemplo a 5.1. Observemos que, conocido el nmero de estaciones totales bien calibradas deu terminamos el nmero de estaciones totales mal calibradas. As para el suceso u , {ET 1&ET 2} la variable aleatoria X le asigna el valor 0 y la variable aleatoria Y el valor 2. Concretamente se verica que Y = 2X. As conocida la funcin , o de probabilidad de una variable, determinamos la funcin de probabilidad de o la otra variable (vase Figura 4.3 y Figura 5.1). e Sin embargo, en la mayor de las situaciones, el valor que asigna una variable a a un resultado del experimento no determina un vocamente el valor que asigna la otra variable, aunque s puede condicionarlo. Ejemplo 5.2 Supongamos que en el experimento aleatorio descrito en el Ejemplo 4.2, la variable aleatoria X corresponde al error en mil metros cometido en la medicin utilizndose un distancimetro analgico y consideramos o a o o otra variable aleatoria, Y , que corresponde al error en mil metros cometido en la medicin utilizndose un distancimetro digital. o a o Supongamos que a la variable Y le asociamos la funcin de densidad o si y < 5 0 y +1 si 5 y < 0 f (y) = 25 y 5 1 25 + 5 si 0 y < 5 0 si y 5.
Observemos que, conocidas las funciones de densidad de cada una de las variables aleatorias, no determinamos la distribucin conjunta de los valores de o
115
ManualEs uEx

ambas variables. No sabemos si el valor que toma una variable inuye en el valor de la otra. Para determinar la distribucin conjunta de los valores asignados por las dos o variables a los resultados del experimento denimos los vectores aleatorios. Fijado un experimento aleatorio y dos variables aleatorias asociadas, X e Y , denimos el vector aleatorio (X, Y ), como una funcin que asigna a cada suceso o elemental un vector bidimensional, cuyas coordenadas son los valores asignados por las variables aleatorias X e Y , respectivamente. Si denota el conjunto de sucesos elementales del experimento, tenemos que R R
(X(), Y ()).
La probabilidad asociada al experimento aleatorio se transere al conjunto R R de vectores numricos a travs de la funcin de probabilidad conjunta, e e o si ambas variables aleatorias son discretas, o a travs de la funcin de densie o dad conjunta, si ambas variables aleatorias son continuas. Si una variable es continua y la otra discreta, la funcin de distribucin, similar a la denida o o para variables aleatorias, describe el comportamiento probabil stico conjunto de ambas variables.
5.2.1.
Funcin de probabilidad conjunta o
Si las dos variables aleatorias asociadas a un vector aleatorio son discretas, denimos la funcin de probabilidad conjunta del vector aleatorio (X, Y ) como o p(x, y) = P (X = x, Y = y), x, y R. El conjunto de vectores que tienen asociada una probabilidad positiva constituye el espacio muestral del vector aleatorio. Notemos que cualquier combinacin o
ManualEs uEx 116
de elementos de los espacios muestrales de las variables no es un vector del espacio muestral del vector aleatorio. Si denotamos por S al producto cartesiano1 de los espacios muestrales de cada variable, de la propia denicin de o
1 Producto cartesiano de dos conjuntos A y B es el conjunto formado por todos los posibles pares donde el primer elemento pertenece a A y el segundo a B.

funcin de probabilidad conjunta, tenemos, para cada (x, y) S, que o p(x, y) 0 y
x,yS
p(x, y) = 1.
Ejemplo 5.3 Considerando las variables aleatorias X e Y descritas en el Ejemplo 5.1, obtenemos que el espacio muestral asociado al vector aleatoasigna el vector (0, 2), el vector (1, 1) se asocia a los sucesos {ET 1&ET 3}, vector (2, 0) a los sucesos {ET 3&ET 4}, {ET 3&ET 5}, {ET 4&ET 5}. Por ello, P (X = 0, Y = 2) = 6 3 1 , P (X = 1, Y = 1) = y P (X = 2, Y = 0) = . 10 10 10 {ET 1&ET 4}, {ET 1&ET 5}, {ET 2&ET 3}, {ET 2&ET 4}, {ET 2&ET 5} y el rio (X, Y ) es {(0, 2), (1, 1), (2, 0)}. Concretamente al suceso {ET 1&ET 2} le
la funcin de probabilidad conjunta es o
A pesar que 2 pertenece al espacio muestral de ambas variable, el vector (2, 2) no es un elemento del espacio muestral del vector aleatorio. Esto pone de maniesto que a la hora de estudiar un vector aleatorio tenemos que considerar la funcin de probabilidad conjunta y no las funciones de probabilidad de cada o variable. Sin embargo, en este caso particular, los valores de la funcin de o probabilidad conjunta son los que intervienen en la funcin de probabilidad de o cada variable. Esto es debido a la relacin exacta existente entre las variables o aleatorias X e Y .
5.2.2.
Funcin de densidad conjunta o
Para determinar el comportamiento probabil stico conjunto de dos variables aleatorias continuas, hacemos uso de la funcin de densidad conjunta del vector o aleatorio (X, Y ). Como generalizacin del caso de una variable, la funcin de o o denotamos por f (x, y) y se caracteriza por ser no negativa y porque el volumen subyacente a la grca es uno, es decir, a f (x, y)dydx = 1.

117
ManualEs uEx
densidad conjunta cuantica la densidad de probabilidad de cada vector. La
Figura 5.2: Funcin de densidad del vector aleatorio descrito en el Ejemplo o 5.2. Anlogamente al caso de variables aleatorias continuas, la funcin de densidad a o conjunta la utilizamos para el clculo de probabilidades del vector aleatorio a (X, Y ) como x2 y2 f (x, y)dydx, P (x1 < X x2 , y1 < Y y2 ) =
x1 y1
siendo x1 , x2 , y1 , y2 R, tales que x1 < x2 e y1 < y2 . As el conjunto de , vectores donde la funcin de densidad conjunta es no nula constituye el espacio o muestral del vector aleatorio. Ejemplo 5.4 Para las variables aleatorias X e Y descritas en el Ejemplo 5.2, suponemos que la funcin de densidad conjunta es o 0 si x < 10 0 si y < 5 x y 1 1 si 10 x < 0, 5 y < 0 100 + 10 25 + 5 x + 1 y + 1 si 10 x < 0, 0 y < 5 f (x, y) = 100x 10 1 25 5 y 100 + 10 25 + 1 si 0 x < 10, 5 y < 0 5 x + 1 y + 1 si 0 x < 10, 0 y < 5 100 10 25 5 0 si y 5 0 si x 10.
118
En este caso, el espacio muestral es el producto cartesiano de los espacios muestrales de las dos variables. Notemos que el valor de una variable no determina un vocamente el valor de la otra. En la Figura 5.2 mostramos la representacin grca de la funcin de densidad. Observamos que al vector (0, 0) la o a o funcin de densidad le asigna el mximo valor. Por tanto, es ms probable que o a a
ManualEs uEx
10
0 x
10
4 10
0 x
10
Figura 5.3: Diagrama de dispersin para conjuntos de datos de tamao mueso n tral 1000 (grco de la izquierda) y tamao muestral 3000 (grco de la dea n a recha) procedentes de repeticiones del experimento aleatorio descrito en el Ejemplo 5.4. el resultado del experimento se encuentre cercano a dicho vector. Este hecho lo ilustramos en la Figura 5.3 donde representamos el diagrama de dispersin o para conjuntos de datos de tamao muestral 1000 (grco de la izquierda) y n a tamao muestral 3000 (grco de la derecha), procedentes de repeticiones del n a experimento aleatorio. Del mismo modo que relacionamos en el tema anterior la funcin de probabio lidad o de densidad de una variable aleatoria con las frecuencias relativas de un conjunto de datos asociado al experimento aleatorio, la funcin de probao bilidad o de densidad conjunta de un vector aleatorio est relacionada con las a frecuencias relativas denidas en la tabla de contingencia asociada al conjunto de datos.
5.2.3.
Funciones de probabilidad y de densidad marginales
Como ya hemos comentado, en general, conocer la distribucin de cada una o de las variables no es suciente para determinar la distribucin conjunta. En o cambio, a partir de la funcin de probabilidad o de densidad conjunta de un o vector aleatorio (X, Y ), podemos calcular la distribucin de cada una de las o variables. A las funciones de probabilidad o de densidad de las variables aleatorias obtenidas a partir de la funcin conjunta las denominamos funciones o de probabilidad marginales o funciones de densidad marginales, seg n corresu ponda. Estas funciones estn relacionas con las frecuencias relativas marginales a
119
ManualEs uEx

denidas en las tablas de contingencia cuando consideramos dos caracter sticas asociadas al experimento aleatorio. Cuando las dos variables son discretas, las funciones de probabilidad marginales las obtenemos como pX (x) = P (X = x) = p(x, y) y pY (y) = P (Y = y) = p(x, y),
(x,y)S
(x,y)S
es decir, la probabilidad de que la variable aleatoria X (Y ) tome un valor concreto x (y) es la suma de las probabilidades asociadas a todos los vectores del espacio muestral con primera (segunda) coordenada igual a x (y). As , pX () y pY () son las funciones de probabilidades de las variables aleatorias X e Y , respectivamente. Ejemplo 5.5 Teniendo en cuenta la funcin de probabilidad conjunta consio derada en el Ejemplo 5.3, obtenemos que P (X = 0) = P (X = 0, Y = 2) = P (X = 1) = P (X = 1, Y = 1) = P (X = 2) = P (X = 2, Y = 0) = 3 1 , P (Y = 0) = P (X = 2, Y = 0) = , 10 10 6 6 , P (Y = 1) = P (X = 1, Y = 1) = , 10 10 1 3 , P (Y = 2) = P (X = 0, Y = 2) = . 10 10
En el Cuadro 5.1 mostramos una representacin del espacio muestral del vector o aleatorio (X, Y ) y de las variables aleatorias X e Y . Como ya hemos comentado, observemos que el valor de una variable determina un vocamente el valor de la otra.
ManualEs uEx
De manera anloga, cuando las dos variables aleatorias son continuas, calcua lamos las funciones de densidad marginales como fX (x) =
f (x, y)dy y fY (y) =
120
f (x, y)dx.
Y |X 0 1 2
0 0 P (X = 0, Y = 2)
0 P (X = 1, Y = 1) 0
P (X = 2, Y = 0) 0 0
Cuadro 5.1: Representacin del espacio muestral del vector aleatorio (X, Y ) y o de las variables aleatorias X e Y descritas en el Ejemplo 5.1. Ejemplo 5.6 Considerando la funcin de densidad conjunta denida en el o Ejemplo 5.4 para el vector aleatorio (X, Y ), tenemos que si x < 10 si y < 5 0 0 x y +1 1 + 10 si 10 x < 0 si 5 y < 0 fX (x) = 100x y fY (y) = 25 y 5 1 1 100 + 10 si 0 x < 10 25 + 5 si 0 y < 5 0 si x 10 0 si y 5.
En el grco de la izquierda de la Figura 5.4 mostramos la funcin de densidad a o de la variable aleatoria X y en el grco de la derecha la funcin de densidad a o de la variable aleatoria Y . Comparndolas, deducimos que ambas variables son a simtricas, tienen la misma media y mediana y la dispersin de X es mayor e o que la de Y . Este hecho se maniesta en que la magnitud de la varianza y la meda de la variable aleatoria Y es menor que la varianza y la meda de la variable aleatoria X, respectivamente. Esto puede obedecer a las caracter sticas de precisin de un distancimetro digital frente a uno analgico. o o o
En resumen, la funcin de probabilidad o de densidad conjunta de un vector o aleatorio (X, Y ) no slo determina la distribucin conjunta de las dos variables, o o sino que tambin describe el comportamiento probabil e stico de las variables aleatorias a travs de las distribuciones marginales. e
5.3.
Independencia de variables aleatorias
A partir de la funcin de probabilidad o de densidad conjunta del vector aleao torio (X, Y ) podemos determinar si las variables aleatorias X e Y son independientes o por el contrario estn relacionadas, en el sentido de que el valor a
121
ManualEs uEx
0.15
0.10
f(x)
f(y) 0.05 0.00 15 10 5 0 x 5 10 15 0.00 10 0.05 0.10
0.15
0.20
0.25
0 y
10
Figura 5.4: La funcin de densidad de la variable aleatoria X (grco de la o a izquierda) y de la variable aleatoria Y (grco de la derecha) descritas en el a Ejemplo 5.2. de una variable condiciona el comportamiento de la otra. Decimos que dos variables aleatorias discretas X e Y son independientes, cuando p(x, y) = pX (x)pY (y), para todo x, y R. Observemos que si las variables aleatorias X e Y son independientes, entonces el comportamiento de una variable no condiciona el comportamiento de la otra, pues P (X = x|Y = y) = P (X = x, Y = y) = P (X = x). P (Y = y)
Asimismo, la condicin de independencia para dos variables aleatorias contio nuas es f (x, y) = fX (x)fY (y). Ejemplo 5.7 Teniendo en cuenta la funcin de densidad conjunta denida en o el Ejemplo 5.4 y las funciones de densidades marginales calculadas en el Ejemplo 5.6, deducimos que las variables aleatorias continuas X e Y descritas en el Ejemplo 5.2 son independientes. As la magnitud de la medicin utilizando , o un tipo de distancimetro no condiciona la magnitud de la medicin del otro o o tipo de distancimetro. o
ManualEs uEx
Por contra, las variables aleatorias discretas X e Y consideradas en Ejemplo 5.1 no son independientes, pues, 1 1 = P (X = 0, Y = 2) = P (X = 0)P (Y = 2) = . 10 100
122

Como ya hemos comentado las variables X e Y estn determinadas un a vocamente por la expresin, Y = 2 X. o
5.4.
Medidas de asociacin o
En general, aunque variables aleatorias sean dependientes, el valor de una variable no tiene porqu determinar de manera un e voca el valor de la otra, aunque s condiciona su comportamiento. Para medir el grado de dependencia entre ambas variables introducimos medidas de asociacin. La denicin e interpreo o tacin de estas medidas es anloga a la de las medidas de asociacin muestrales o a o expuestas en el Tema 2 para analizar descriptivamente dos caracteres cuantitativos, referidas ahora a los valores que toma las variables aleatorias. En caso de confusin, llamamos a stas medidas de asociacin poblacionales para o e o distinguirlas de la muestrales, que hacen referencia a un conjunto de datos. A continuacin denimos la covarianza y el coeciente de correlacin de un o o vector aleatorio (X, Y ). La covarianza del vector aleatorio (X, Y ), la denotamos por XY y la denimos como el valor esperado del producto de las diferencias entre las variables y sus medias. Seg n sean las dos variables discretas o continuas obtenemos las u siguientes expresiones para el clculo de la covarianza, a XY = o XY =

x,yS
(x X )(y Y )p(x, y)
donde X y Y denotan las medias de X e Y , respectivamente. La covarianza mide el grado de asociacin lineal entre las variables aleatorias X e Y . Las o unidades en las que se expresa es el producto de las unidades en las que se expresan las variables aleatorias. Observemos que el orden en las coordenadas no inuye en el valor de la covarianza. Un valor positivo de la covarianza indica que la asociacin es de tipo lineal directa, es decir, a medida que los valores o de una variable aumentan los valores asociados a la otra variable aumentan de forma lineal. Por el contrario, un valor negativo indica que la asociacin es o de tipo inversa, es decir, a medida que los valores de una variable aumentan
(x X )(y Y )f (x, y)dxdy,
123
ManualEs uEx

los valores asociados a la otra variable decrecen de forma lineal. Finalmente, un valor nulo de la covarianza indica ausencia de dependencia lineal entre las variables X e Y , aunque puede haber otro tipo de dependencia. Cuando la covarianza del vector aleatorio (X, Y ) es nulo, decimos que las variables aleatorias son incorreladas. Por lo dicho anteriormente, ser incorreladas no implica ser independientes, aunque s al revs. e Ejemplo 5.8 Como X = 6/5 y Y = 4/5 para las variables aleatorias discretas X e Y descritas en el Ejemplo 5.1, tenemos que 6 6 4 1 4 6 XY = + 1 0 2 1 5 5 10 5 5 10 9 6 4 3 = . + 2 0 5 5 10 25 Como el valor de la covarianza es negativo, deducimos que existe una relacin o lineal inversa entre las variables. De hecho tenemos que Y = 2 X. Por contra, para las variables aleatorias continuas X e Y descritas en el Ejemplo 5.2, obtenemos que 0 2 0 2 x y x y + + XY = dx dy 100 10 25 5 10 5 5 2 0 2 x y x y + + dx dy + 100 10 25 5 10 0 0 2 10 x y x2 y + + dx dy + 100 10 25 5 0 5 5 2 10 x y x2 y + + dx dy = 0. + 100 10 25 5 0 0 El valor nulo de la covarianza obedece al hecho de que las variables aleatorias X e Y son independientes, pues si no existe ninguna relacin, tampoco existe o del tipo lineal. Para expresar de manera conjunta la variabilidad de las variables aleatorias X e Y , as como la asociacin entre ellas, utilizamos la matriz de varianzas o covarianzas, denida como 2 X XY , 2 XY Y
124
ManualEs uEx

2 2 siendo X y Y las varianzas de las variables aleatorias X e Y , respectivamente.
Como la covarianza mide el grado de dependencia en trminos absolutos, su e magnitud depende de la escala de medida utilizada. Para evitar este inconveniente, introducimos el coeciente de correlacin del vector aleatorio (X, Y ). o Lo denotamos por XY y la denimos como XY = XY , X Y
siendo X y Y las desviaciones t picas de las variables aleatorias X e Y , respectivamente. El coeciente de correlacin es una medida adimensional, o acotado entre -1 y 1, dnde su signo es el de la covarianza. Con respecto a su o magnitud, decimos que cuanto ms prximo est a 1 a -1, la asociacin entre a o e o o ambas variables mayor se ajusta a una relacin lineal directa o inversa, respeco nulo, entonces tambin lo es la covarianza y por tanto nos indica ausencia de e dependencia lineal entre las variables aleatorias X e Y . Ejemplo 5.9 Para las variables aleatorias discretas consideradas en el Ejem2 2 plo 5.1, tenemos que X = Y = 9/25, pues Y = 2 X, y XY = 9/25.
tivamente, siendo exacta cuando XY = 1. Si el coeciente de correlacin es o
relacin lineal inversa exacta entre X e Y . Finalmente, como las variables o aleatorias consideradas en el Ejemplo 5.2 son independientes, tenemos que el coeciente de correlacin es nulo. o De la propia denicin del coeciente de correlacin, obtenemos que XX = 1, o o pues una variable est determinada con ella misma, y XY = Y X , es decir, a no importa el orden en la relacin. Adems, como el coeciente de correlacin o a o es una medida relativa, su magnitud no est afectada por transformaciones a lineales de las variables aleatorias. Observemos que el coeciente de correlacin o slo nos informa de la existencia de relacin lineal. o o
Con todo ello, deducimos que XY = 1, que nos indica la existencia de una
125
ManualEs uEx
5.5.
Transformacin de vectores aleatorios o
En muchas situaciones prcticas no es posible determinar de manera directa el a comportamiento de un vector aleatorio (Z, W ) de inters para nuestro estudio. e En cambio podemos conocer el comportamiento de otro vector aleatorio (X, Y ) que determina al vector (Z, W ) de manera indirecta aplicando cierta transformacin, (Z, W ) = g(X, Y ). Ejemplos de esta situacin son la descripcin del o o o comportamiento probabil stico de la medicin de un ngulo horizontal como o a diferencia o suma de mediciones de dos ngulos horizontales, la descripcin a o del rea de un rectngulo a partir de las mediciones de la base y la altura o la a a descripcin de la altura y la distancia horizontal entre dos puntos, conocidas o la medicin del ngulo de inclinacin y la medicin de la distancia entre ellos. o a o o Conocida la funcin de probabilidad o de densidad conjunta del vector aleatorio o (X, Y ), es posible obtener en determinadas situaciones, mediante un cambio de variables, la funcin de probabilidad o de densidad conjunta del vector aleatorio o (Z, W ). Sin embargo, en la mayor de las situaciones prcticas, slo estamos a a o interesados en determinar medidas caracter sticas del vector aleatorio (Z, W ), ms que en la propia funcin de probabilidad o de densidad conjunta. Estas a o medidas caracter sticas pueden ser aproximadas realizando clculos sencillos a a partir de las medidas caracter sticas del vector (X, Y ). Este procedimiento es el aplicado habitualmente en las prcticas de campo, a pesar de obtener slo a o una aproximacin de las medidas caracter o sticas. A continuacin, aproximamos las medias y la matriz de varianzas-covarianzas o del vector aleatorio (Z, W ), a partir de la medidas caracter sticas del vector aleatorio (X, Y ). En primer lugar suponemos que Z = a1 X + b1 Y + c1 y ente ambos vectores aleatorios es de tipo lineal. Para facilitar los clculos, esta a relacin la expresamos matricialmente como o Z W = a1 a2 b1 b2 c1 c2 X Y . 1 (5.1) o W = a2 X + b2 Y + c2 , con ai , bi , ci R para i {1, 2}, es decir, la relacin
126
ManualEs uEx

En esta situacin, tenemos que las medias y la matriz de varianzas-covarianzas o de las variables aleatorias Z y W estn relacionadas con las medidas caraca ter sticas de X e Y mediante las expresiones
2 Z ZW
Z W
a1 a2
a1 a2 c1 c2
b1 b2
c1 c2
ZW 2 W
b1 b2
2 X XY 0
X Y , 1 XY 2 Y 0
(5.2) a2 b2 . c2 (5.3)
a1 0 0 b1 c1 0
respectivamente. Observemos que en esta situacin determinamos las medidas o caracter sticas de manera exacta y que estas expresiones son la generalizacin o de las medidas caracter sticas de una variable aleatoria transformada linealmente. Ejemplo 5.10 Supongamos que estamos interesados en medir con un teodolito un ngulo horizontal , como diferencia de la medicin de dos ngulos a o a y , tal y como mostramos en el grco izquierdo de la Figura 5.5. Si las a mediciones de los ngulos , y quedan descrita por las variables aleatorias a aleatoria Z es una combinacin lineal de las variables X e Y del tipo dado en o y la varianza de la variable aleatoria Z son 2 X X 2 Z = 1 1 y Z = 1 1 Y XY (5.1), tomando a1 = 1, b1 = 1 y c1 = 0. Con todo ello, tenemos que la media XY 2 Y 1 1 Z, X e Y , respectivamente, deducimos que Z = X Y . Por tanto, la variable
respectivamente, que admiten las expresiones
2 2 2 Z = X Y y Z = X + Y 2XY .
Observemos que si las variables aleatorias X e Y son independientes, entonces pendencia se verica cuando al medir el angulo no utilizamos la referencia utilizada para medir el angulo , tal y como mostramos en el grco central a de la Figura 5.5. En cambio si la covarianza es positiva, la varianza de Z es menor que la suma de las varianzas de las variables X e Y . Esta situacin o
127
ManualEs uEx
la varianza de Z es la suma de las varianzas de X e Y . Esta situacin de indeo
X Y
X Y
Figura 5.5: Distribucin de los ngulos considerados en la situacin descrita o a o en el Ejemplo 5.10. de dependencia directa entre las variables aleatorias X e Y se verica cuando al medir el ngulo utilizamos la misma referencia que para medir el ngulo a a , tal y como mostramos en el grco izquierdo de la Figura 5.5. Por ello, al a medir el ngulo es conveniente utilizar este ultimo procedimiento, pues obtea nemos menor variabilidad en el comportamiento probabil stico de la medicin o del ngulo . a En cambio, si la relacin entre ambos vectores aleatorios no es de tipo lineal, o aproximamos dicha relacin, siempre que sea posible, por una ecuacin tipo o o lineal proporcionada por el desarrollo de Taylor hasta el primer orden. Ms a concretamente, si Z = g1 (X, Y ) y W = g2 (X, Y ), entonces g1 g1 Z g1 (X , Y ) + (X X ) + (Y Y ), x (X ,Y ) y (X ,Y ) g2 g2 W g2 (X , Y ) + (X X ) + (Y Y ), (5.4) x (X ,Y ) y (X ,Y ) siendo
gi t
ximacin es la generalizacin dada en el tema anterior para la transformacin o o o no lineal de una variable aleatoria. Observemos que si la relacin entre los veco
con respecto a t, para t {x, y}, valorada en el vector (X , Y ). Esta apro-
(X ,Y )
la derivada parcial de la funcin gi (x, y), para i {1, 2}, o
ManualEs uEx 128
tores aleatorios (X, Y ) y (Z, W ) es lineal, entonces la aproximacin anterior o es exacta. Ejemplo 5.11 Para la variable aleatoria Z descrita en el Ejemplo 5.10, tenemos que Z es una transformacin lineal de las variables aleatorias X e Y . o

Tomando g1 (X, Y ) = X Y , obtenemos que g1 g1 =1 y = 1. x (X ,Y ) y (X ,Y ) As aplicando la ecuacin (5.4), deducimos que la aproximacin , o o Z X Y + (X X ) (Y Y ) = X Y, es exacta. Teniendo en cuenta la aproximacin de (Z, W ) dada en (5.4), deducimos que o dicha aproximacin es de tipo lineal como la descrita en (5.1), tomando o gi gi ai = , bi = , x (X ,Y ) y (X ,Y ) ci = gi (X , Y ) X gi x Y gi y ,
(X ,Y )
(X ,Y )
para i {1, 2}. A partir de (5.2) y (5.3) obtenemos aproximaciones a las medias y a la matriz de varianzas-covarianzas, respectivamente, del vector (Z, W ) en funcin de las medidas caracter o sticas del vector aleatorio (X, Y ). Ejemplo 5.12 Supongamos que estamos interesados en determinar el rea a de un rectngulo a partir de las mediciones de su base y altura. Si el coma portamiento de las mediciones del rea, la base y la altura del rectngulo es a a descrito por las variables aleatorias Z, X e Y , respectivamente, deducimos que Z = XY , que no es una transformacin lineal. Aplicando la aproximacin o o dada en (5.4), tenemos que Z X Y + Y (X X ) + X (Y Y ), caracter sticas de X e Y , mediante las expresiones
2 2 2 Z X Y y Z 2 X + 2 Y + 2X Y XY . Y X
129
ManualEs uEx
y por tanto, aproximamos la media y la varianza de Z, a partir de las medidas
Altura A Distancia horizontal
Figura 5.6: Croquis de la situacin descrita en el Ejemplo 5.13. o Ejemplo 5.13 Supongamos que estamos interesados en determinar la altura y la distancia horizontal existente entre dos puntos A y B, a partir de la medicin de la distancia y del ngulo de inclinacin entre ambos puntos, tal o a o y como mostramos en la Figura 5.6. Si el comportamiento probabil stico de las mediciones de la altura, la distancia horizontal, el angulo de inclinacin o y la distancia estn modeladas por las variables aleatorias Z, W , X e Y , a respectivamente, deducimos que Z = X sen Y y W = X cos Y, que no es una transformacin lineal. Aplicando la aproximacin dada en (5.4), o o tenemos que Z W X sen Y + (X X ) sen Y + X (Y Y ) cos Y , X cos Y + (X X ) cos Y X (Y Y ) sen Y ,
y por tanto, las siguientes aproximaciones de las medidas caracter sticas del vector aleatorio (Z, W ) a partir de las del vector (X, Y )
2 2 2 Z X sen Y y Z X sen2 Y + 2 Y cos2 Y + 2X XY cos Y sen Y , X 2 2 2 W X cos Y y W X cos2 Y +2 Y sen2 Y 2X XY cos Y sen Y , X
ManualEs uEx 130
2 2 ZW X cos Y sen Y 2 Y cos Y sen Y + X (cos2 Y sen2 Y )XY . X
Notemos que puede ocurrir que XY sea nulo y ZW no lo sea, pues la transformacin puede denir cierta relacin entre las variables aleatorias Z y W . o o Este hecho lo ilustramos en la Figura 5.7 donde mostramos el diagrama de dispersin para un conjunto de datos extra del experimento aleatorio asociado o do
1.2
1.1
1.0
w 2.8 2.9 3.0 x 3.1 3.2
0.9
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.2
2.4 z
2.6
2.8
Figura 5.7: Diagramas de dispersin para dos conjuntos de datos correspono diente al vector (X, Y ) (grco de la izquierda) y al vector (Z, W ) (grco de a a la derecha), respectivamente, del Ejemplo 5.13. al vector (X, Y ) (grco de la izquierda) y el diagrama de dispersin para un a o conjunto de datos extra del experimento aleatorio asociado al vector (Z, W ) do (grco de la derecha) a La determinacin o aproximacin de la variabilidad de observaciones indirectas o o es de gran inters prctico a la hora de determinar la caracter e a stica de precisin o del aparato de medida que vamos a utilizar en las observaciones directas, con el n de garantizar que la variabilidad de las medidas indirectas nales sea menor que cierto valor de tolerancia. Si para la situacin descrita en el Ejemplo o 5.10, suponemos que la variabilidad en las mediciones de ambos angulos es la misma, suposicin lgica si utilizamos el mismo teodolito para la medicin de o o o ambos ngulos, y que ambas mediciones son independientes, deducimos que la a precisin del teodolito tiene que ser la mitad de la tolerancia deseada para la o medicin nal del angulo de inters. o e
5.6.
tencias:
Para la situacin descrita en el Ejemplo 5.4, utilizamos las siguientes seno
Representar la funcin de densidad conjunta o f<-function(x,y){ (x/100+1/10)*(y/25+1/5)*(-10<=x)*(x<0)*(-5<=y)*(y<0)+
131
ManualEs uEx
(x/100+1/10)*(-y/25+1/5)*(-10<=x)*(x<0)*(0<=y)*(y<5)+ (-x/100+1/10)*(y/25+1/5)*(0<=x)*(x<10)*(-5<=y)*(y<0)+ (-x/100+1/10)*(-y/25+1/5)*(0<=x)*(x<10)*(0<=y)*(y<5)} x<-seq(-11,11,0.5); y<-seq(-6,6,0.5); z<-outer(x,y,f) persp(x,y,z, theta = 30, phi = 30) Generar 1000 valores del vector aleatorio x1<-runif(1000,-5,5); x2<-runif(1000,-5,5) y1<-runif(1000,-2.5,2.5); y2<-runif(1000,-2.5,2.5) cbind(x<-x1+x2,y<-y1+y2) Representar el diagrama de dispersin de los vectores generados o plot(x,y,xlim=c(-10,10),ylim=c(-5,5)) Para mostrar las aproximaciones de las medidas caracter sticas para la situacin descrita en el Ejemplo 5.12, utilizamos las sentencias: o Generar 10000 valores de un vector aleatorio library(MASS); xy<-mvrnorm(10000,c(5,6),cbind(c(1,.5),c(.5,1))) x<-xy[,1];y<-xy[,2]; z<-x*y Representar las observaciones directas y las indirectas plot(x,y); hist(z) Calcular las medidas caracter sticas de las medias indirectas y sus aproximaciones mean(z); mean(x)*mean(y); var(z) mean(y)^2*var(x)+mean(x)^2*var(y)+2*mean(x)*mean(y)*cov(x,y)
132
ManualEs uEx

Para mostrar las aproximaciones de las medidas caracter sticas para la situacin descrita en el Ejemplo 5.13, utilizamos las sentencias: o Generar 10000 valores de un vector aleatorio library(MASS) xy<-mvrnorm(10000,c(3,1),cbind(c(0.005,0),c(0,0.005))) x<-xy[,1];y<-xy[,2]; z<-x*sin(y);w<-x*cos(y) Representar las observaciones directas y las indirectas plot(x,y); plot(z,w) Calcular las medidas caracter sticas de las medias indirectas y sus aproximaciones mean(z); mean(x)*sin(mean(y)) mean(w); mean(x)*cos(y) var(z); var(x)*sin(mean(y))^2+mean(x)^2*var(y)*cos(mean(y))^2 +2*mean(x)*cov(x,y)*cos(mean(y))*cos(mean(y)) var(w); var(x)*cos(mean(y))^2+mean(x)^2*var(y)*sin(mean(y))^2 -2*mean(x)*cov(x,y)*cos(mean(y))*cos(mean(y)) cov(z,w); var(x)*cos(mean(y))*sin(mean(y)) -mean(x)^2*var(y)*cos(mean(y))*sin(mean(y)) +mean(x)*(cos(mean(y))^2-sin(mean(y))^2)*cov(x,y)
5.7.
ManualEs uEx 133
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si dos variables aleatorias son independientes entonces son incorreladas. ii) Las funciones de densidad de las variables aleatorias continuas que constituyen un vector aleatorio determinan la funcin de densidad conjunta. o
f(x,y)
Figura 5.8: Funciones de densidad conjuntas para el vector aleatorio considerado en el Problema 2. iii) Si dos variables aleatorias discretas son independientes, entonces las funciones de probabilidad de dichas variables aleatorias determinan la funcin de probabilidad conjunta. o iv) La varianza de la suma de dos variables aleatorias es la suma de las varianzas de dichas variables aleatorias. v) La varianza de la suma de dos variables aleatorias es mayor o igual que la suma de las varianzas de dichas variables aleatorias. vi) La covarianza del vector (X, Y ) coincide con la del vector (X + a, Y + b), para cualesquiera valores a, b R. 2. Discutir razonadamente cul de las funciones de densidad conjuntas mosa tradas en la Figura 5.8 est asociada a un vector aleatorio continuo tal que el a coeciente de correlacin entre sus variables sea negativo. o 3. Supongamos que de las 5 estaciones totales existentes en el Centro Universitario de Mrida, 2 estn mal calibradas. Adems, supongamos que las e a a prcticas de cierta asignatura se dividen en dos sesiones prcticas y que al a a
f(x,y)
ManualEs uEx
nalizar cada sesin prctica cada alumno entrega la estacin total asignada. o a o Denotamos por Xi el nmero de estaciones totales bien calibradas asignadas u a un estudiante para la sesin prctica i-sima. o a e i) Calcular la funcin de probabilidad del vector aleatorio (X1 , X2 ). o
134

ii) Calcular la funcin de probabilidad de las variables aleatorias X1 , X2 y o X1 + X2 . Interpretar los resultados. iii) Calcular el valor medio y la varianza de las variables aleatorias X1 , X2 y X1 + X2 , as como la covarianza y el coeciente de correlacin entre o X1 y X2 . Interpretar los resultados. 4. Supongamos que de las 5 estaciones totales existentes en el Centro Universitario de Mrida, 2 estn mal calibradas. Adems, supongamos que para e a a la prctica de cierta asignatura, los alumnos se han dividido en dos grupos, a grupo 1 y grupo 2, y cada grupo tiene que utilizar una estacin total para la o prctica. Supongamos tambin que el grupo 1 retira de manera aleatoria la a e estacin total del almacn antes de que lo haga el grupo 2. Denotamos por o e u X1 y X2 el nmero de estaciones totales bien calibradas asignadas para la prctica al grupo 1 y al grupo 2, respectivamente y por Y1 e Y2 el nmero de a u estaciones totales mal calibradas asignadas para la prctica al grupo 1 y al a grupo 2, respectivamente. i) Calcular la funcin de probabilidad de los vectores aleatorios (X1 , X2 ), o (Y1 , Y2 ), (X1 , Y1 ) y (X1 , Y2 ). ii) Calcular la funcin de probabilidad de las variables aleatorias X1 , X2 , o Y1 , Y2 , X1 + X2 , X1 + Y1 , X1 + Y2 e Y1 + Y2 . Interpretar los resultados. iii) Calcular el valor medio y la varianza de las variables aleatorias X1 , X2 , Y1 , Y2 , X1 + X2 , X1 + Y1 , X1 + Y2 e Y1 + Y2 . iv) Calcular la covarianza y el coeciente de correlacin de los vectores aleao torios (X1 , X2 ), (Y1 , Y2 ), (X1 , Y1 ), (X1 , Y2 ), (X1 +X2 , Y1 ), (X1 +X2 , Y1 + Y2 ). Interpretar los resultados. 5. Conocidas la media y la varianza de las variables aleatorias que describen distribuidos tal y como mostramos en el grco de la izquierda de la Figura a 5.9, as como la covarianza entre ambas, calcular la media y la varianza de la variable aleatoria que describe el comportamiento probabil stico de las mediciones de la distancia entre los puntos AC. Describir tres situaciones diferentes
135
ManualEs uEx
el comportamiento probabil stico de las distancias entre los puntos AB y BC,
Figura 5.9: Posicin de los puntos considerado en la situacin descrita en el o o Problema 5 (grco de la izquierda) y en el Problema 6 (grco de la derecha). a a para tomar las mediciones en las que la covarianza de las variables sea nula, negativa y positiva, respectivamente. Cul es la mejor situacin en el sena o tido de minimizar la varianza de la variable asociada a las mediciones de la distancia entre los puntos AC? 6. Conocida la media y la varianza de las variables aleatorias que describen el comportamiento probabil stico de las mediciones entre los puntos AC, BC, AD y DE distribuidos tal y como mostramos en el grco de la derecha de la a Figura 5.9 y supuesto que las variables son incorreladas, calcular la media y la varianza de la variable aleatoria que describe el comportamiento probabil stico de las mediciones del rea del rectngulo de vrtices ABE. a a e 7. Utilizando el software estad stico R y un conjunto de datos generados asociado al experimento aleatorio descrito en el problema anterior, comparar las medidas caracter sticas asociadas al rea del rectngulo y las aproximaciones a a obtenidas a partir de las medidas caracter sticas de las medidas directas.
136
ManualEs uEx
Tema 6 Principales modelos de probabilidad en el campo de la Topograf a

6.1. Introduccin o
Como hemos comentado en los temas anteriores, el comportamiento probabil stico de una variable o vector aleatorio queda determinado una vez conocida su funcin de probabilidad para el caso discreto, o su funcin de densidad o o para el caso continuo. En la prctica no siempre es evidente la distribucin de a o probabilidad o modelo probabil stico que subyace a un experimento aleatorio y ha de ser el experimentador el que ajuste una funcin de probabilidad o de o densidad a las variables de inters. La eleccin de estas funciones debe estar e o motivada por la compresin de la naturaleza del experimento, y la validez de o la eleccin debe ser vericada a travs de la evidencia emp o e rica. Por tanto, a la hora de elegir, el experimentador debe conocer en profundidad los modelos probabil sticos susceptibles de ser utilizados. En este tema, para variables como para vectores aleatorios, frecuentemente utilizados en el campo de la Topograf Para cada uno de estos modelos ofrecemos una discua. sin sobre las condiciones que debe vericar el experimento para su aplicacin, o o deduciendo la expresin matemtica del modelo en base a estas condiciones. o a
137
ManualEs uEx
exponemos una serie de modelos de probabilidad discretos y continuos, tanto

En primer lugar estudiaremos modelos de probabilidad asociados a variables aleatorias discretas, posteriormente introduciremos modelos relacionados con variables aleatorias continuas y nalmente consideraremos modelos asociados a vectores aleatorios. Para cada uno de estos modelos de probabilidad, determinamos su funcin de probabilidad o de densidad y sus medidas caracter o sticas en funcin de ciertos parmetros asociados al mismo. Adems, utilizaremos la o a a funcin de probabilidad o la de densidad para calcular ciertas probabilidades o asociadas a los resultados del experimento aleatorio.
6.2.
Modelos de probabilidad discretos
Como hemos indicado anteriormente, en primer lugar exponemos modelos de probabilidad asociados a variables aleatorias discretas. A pesar de existir un gran abanico de modelos que describen una extensa variedad de situaciones prcticas, a continuacin, slo nos centraremos en el modelo uniforme y el a o o modelo binomial, por aparecer con mayor frecuencia en el campo de la Topograf a.
6.2.1.
Distribucin uniforme discreta o
Para una variable aleatoria discreta cuyo espacio muestral tiene cardinal nito con todos sus elementos equiprobables, una distribucin de probabilidad o adecuada es la uniforme discreta. Ejemplo 6.1 Consideramos el experimento aleatorio descrito en el Ejemplo 3.1, donde elegimos al azar una estacin total de entre las cinco existentes en o el almacn del Centro Universitario de Mrida. Si enumeramos las estaciones e e totales del uno al cinco y denimos la variable aleatoria X, ndice de la estacin o total seleccionada, tenemos que el espacio muestral de la variable aleatoria es {1, 2, 3, 4, 5}, de cardinal nito. Adems, como los sucesos elementales son a considerados equiprobables y cada valor de la variable est asociado a un unico a
ManualEs uEx
suceso elemental, la funcin de probabilidad admite la expresin o o P (X = 1) = 0.2, P (X = 2) = 0.2, P (X = 3) = 0.2, P (X = 4) = 0.2, P (X = 5) = 0.2.
138
F(x)
p(x) 0 1 2 3 x 4 5 6 0.00 0.0 0.05 0.2 0.10 0.4
0.15
0.6
0.20
0.8
0.25
1.0
3 x
Figura 6.1: Funcin de distribucin (grco de la izquierda) y funcin de proo o a o babilidad (grco de la derecha) para la variable aleatoria X considerada en a el Ejemplo 6.1. En el grco de la izquierda de la Figura 6.1, mostramos la funcin de disa o tribucin de la variable aleatoria X y en el grco de la derecha su funcin o a o de probabilidad. Observamos que la probabilidad de seleccionar una estacin o total concreta es independiente de la enumeracin, hecho que se maniesta o en la uniformidad de la funcin de probabilidad y en la altura de los escaloo nes de la funcin de distribucin. As un modelo uniforme es apropiado para o o , caracterizar el comportamiento aleatorio de esta variable. En general, diremos que una variable aleatoria discreta X sigue una distribude probabilidad admite la expresin o cin uniforme si su espacio muestral es nito, sea {x1 , . . . , xn }, y la funcin o o P (X = xi ) = 1 , i {1, . . . , n}. n
De su propia denicin, deducimos que para determinar un modelo uniforme o slo es necesario especicar el espacio muestral de la variable aleatoria. Gro a camente, un distribucin uniforme est caracterizada por tener una funcin o a o de probabilidad uniforme en los valores del espacio muestral y escalones de la misma altura en su funcin de distribucin, tal y como mostramos en la Figura o o 6.1. A partir de la funcin de probabilidad obtenemos que o = 1 1 xi y 2 = (xi )2 . n i=1 n i=1
n n
139
ManualEs uEx

Observemos que las expresiones obtenidas para la media y la varianza son las mismas que para la media muestral y la varianza muestral, respectivamente, de una muestra de tamao n. Lo mismo sucede para las expresiones de la n mediana, meda y coeciente de asimetr de la distribucin uniforme. a o Ejemplo 6.2 Como la variable aleatoria X descrita en el Ejemplo 6.1 sigue un modelo uniforme con espacio muestral {1, 2, 3, 4, 5}, obtenemos que = 3 y y la varianza de la variable aleatoria X, stas carecen de sentido, pues la e variable aleatoria es una codicacin de un carcter cualitativo y las medidas o a caracter sticas no son interpretables. 2 = 2. Observemos que, en este caso particular, a pesar de obtener la media
6.2.2.
Distribucin binomial y de Bernoulli o
No todas las variables aleatorias discretas asociadas a un experimento aleatorio con sucesos elementales equiprobables se caracterizan mediante una distribucin uniforme. o Ejemplo 6.3 Supongamos que en la situacin descrita en el Ejemplo 6.1, las o estaciones totales ET 1 y ET 2 estn mal calibradas. Si el valor cero es asociado a a los sucesos elementales donde la estacin total est mal calibrada y el uno o a a los sucesos elementales donde la estacin total est bien calibrada, tenemos o a que la funcin de probabilidad asociada a la variable aleatoria X que describe o esta situacin admite la expresin o o P (X = 0) = 0.4 y P (X = 1) = 0.6. En el grco de la izquierda de la Figura 6.2 mostramos la funcin de distria o bucin de la variable aleatoria X y en el grco de la derecha su funcin de o a o
ManualEs uEx 140
probabilidad. Observamos que la variable aleatoria X no se ajusta a un modelo uniforme, dado que las probabilidades asociadas a los valores muestrales son distintas, a pesar de que los sucesos elementales del experimento aleatorio son equiprobables.
1.0
0.8
F(x)
0.6
p(x) 0.4 0.2 0.0 1.0 0.5 0.0 0.5 x 1.0 1.5 2.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
1.0
0.5
0.0
0.5 x
1.0
1.5
2.0
Figura 6.2: Funcin de distribucin (grco de la izquierda) y funcin de deno o a o sidad (grco de la derecha) para la variable aleatoria X considerada en el a Ejemplo 6.3. A continuacin, introducimos un modelo de probabilidad apropiado para una o variable aleatoria X con espacio muestral {0, 1, . . . , n} y cuyos valores no todos son equiprobables. Comenzaremos con el caso n = 1. Decimos que una variable aleatoria X sigue un modelo de distribucin de Bernoulli de parmetro p si su o a espacio muestral es {0, 1} y la funcin de probabilidad admite la expresin o o P (X = 0) = 1 p, En esta situacin, obtenemos que o = p y 2 = p(1 p). Adems, la mediana de una distribucin de Bernoulli es cero si p < 0.5, uno a o si p > 0.5 y cualquier valor entre 0 y 1 si p = 0.5. Ejemplo 6.4 Para la variable aleatoria X descrita en el Ejemplo 6.3, deducimos que sigue un modelo de Bernoulli de parmetro p = 0.6. Adems, a a o obtenemos que = 0.6, 2 = 0.24, la mediana es uno y la distribucin es asimtrica a la izquierda, tal y como, mostramos en el grco de la derecha de e a la Figura 6.2. El parmetro p de un modelo de Bernoulli puede representar la probabilidad a de cierto suceso del experimento aleatorio. Este suceso es codicado por la variable como 1 y a su complementario por el valor 0. Teniendo en cuenta este esquema, en el siguiente ejemplo consideramos una generalizacin de la o distribucin de Bernoulli. o P (X = 1) = p.
141
ManualEs uEx

Ejemplo 6.5 Una ampliacin de la situacin descrita en el Ejemplo 6.3 cono o siste en considerar que las prcticas de campo se realizan en dos sesiones a distintas en las que escogemos al azar, en cada sesin, una estacin total de o o las cinco disponibles. Consideramos en esta situacin la variable aleatoria X, o nmero de estaciones totales bien calibradas seleccionadas en las dos sesiones u de prcticas. En este caso el espacio muestral es {0, 1, 2}. Como el estado de la a total elegida en la siguiente sesin, tenemos que o P (X = 0) = 0.4 0.4 = 0.16, pues en las dos sesiones se ha elegido una estacin total mal calibrada, la o seleccin en una sesin es independiente de la seleccin en la otra sesin y la o o o o probabilidad de elegir en una sesin una estacin total mal calibrada es de 0.4. o o Siguiendo un razonamiento anlogo tenemos que a P (X = 2) = 0.6 0.6 = 0.36. Finalmente, si slo se ha seleccionado una estacin total bien calibrada entre o o las dos sesiones, esto implica que en una sesin se ha seleccionado una mal o calibrada y en la otra una estacin total bien calibrada. Como el orden en la o seleccin no importa, es decir, o bien en la primera sesin se ha elegido la bien o o calibrada y en la segunda la mal calibrada o viceversa, tenemos que P (X = 1) = 2 0.4 0.6 = 0.48. En el grco de la izquierda de la Figura 6.3 mostramos la funcin de distria o bucin de la variable aleatoria X y en el grco de la derecha su funcin de o a o probabilidad. Teniendo en cuenta la funcin de probabilidad, deducimos que o estacin total seleccionada en una sesin no condiciona al estado de la estacin o o o
ManualEs uEx
= 2 0.6 = 1.2 y 2 = 2 0.4 0.6 = 0.48. Asimismo, obtenemos que la mediana es 1 y la distribucin de la variable o presenta una asimetr a la izquierda. a
142
1.0
0.8
0.6
F(x)
0.4
p(x) 0.2 0.0 1 0 1 x 2 3
0.0
0.1
0.2
0.3
0.4
0.5
1 x
Figura 6.3: Funcin de distribucin (grco de la izquierda) y funcin de proo o a o babilidad (grco de la derecha) para la variable aleatoria X considerada en a el Ejemplo 6.5. En general, el nmero de veces que en n repeticiones independientes de un u experimento aleatorio obtenemos un cierto suceso que tiene probabilidad asociada p, es una variable aleatoria con espacio muestral {0, 1, . . . , n} y funcin o de probabilidad P (X = x) = n(n 1) (n x + 1) x p (1 p)nx , x {0, 1, . . . , n}, x(x 1) 1
Denominamos a dicha variable modelo o distribucin binomial de parmetros o a n y p y la denotamos por B(n, p). La expresin de la funcin de probabilio o dad la deducimos teniendo en cuenta que las repeticiones del experimento son independientes, que la probabilidad del suceso es p y el nmero de combinau ciones sin repeticin de n elementos tomados de x en x (ver Apndice B), pues o e determinar una realizacin de las n repeticiones del experimento consiste en o proporcionar x posiciones donde se ha observado el suceso. Ejemplo 6.6 La variable aleatoria X descrita en el Ejemplo 6.5 contabiliza el nmero de estaciones totales bien calibradas en las dos sesiones prcticas. u a Si consideramos el suceso, elegir una estacin total bien calibrada en una seo sin, tenemos que la variable aleatoria X sigue una distribucin binomial de o o estacin total bien calibrada es de 0.6. Observemos que esta probabilidad es o invariante a lo largo de las repeticiones del experimento. Si el experimento slo o se repite una vez, como en la situacin descrita en el Ejemplo 6.3, entonces o obtenemos la distribucin de Bernoulli. Asimismo, un modelo binomial B(2, p) o
143
ManualEs uEx
parmetros 2 y 0.6, pues la probabilidad de seleccionar en una sesin una a o
0.5
0.5
0.4
0.4
0.3
0.3
p(x)
p(x)
0.2
0.2
p(x) 0.1 0.0 0 2 4 x 6 8 0.0 0 0.1 0.2
0.0
0.1
2 x
0.3
0.4
0.5
6 x
10
12
Figura 6.4: Funcin de probabilidad de un modelo binomial con p = 0.25 y o n = 4 (grco de la izquierda), n = 8 (grco central) y n = 12 (grco de la a a a derecha). lo podemos interpretar como suma de 2 modelos de Bernoulli de parmetro p. a
Para determinar un modelo binomial hemos de jar los parmetros n y p. a La media y la varianza de este modelo dependen de estos parmetros seg n a u indican las siguientes expresiones = np y 2 = np(1 p). As jados los valores de la media y la varianza de una variable aleatoria que , sigue un modelo binomial, podemos determinar los valores de los parmetros a n y p. La distribucin de la variable presenta una asimetr a la derecha (izo a quierda) si p < 0.5 (p > 0.5), siendo ms ligera cuanto mayor sea n, tal y como a mostramos en la Figura 6.4. En cambio, si p = 0.5, entonces la distribucin es o simtrica, coincidiendo la mediana con la media si n es par. En la Figura 6.5 e ponemos de maniesto estos hechos, representando la funcin de probabilidad o de un modelo binomial con n = 6 para distintos valores de p, concretamente para p = 0.25 (grco de la izquierda), p = 0.5 (grco central) y p = 0.75 a a (grco de la derecha). a
ManualEs uEx 144
Observemos que si p > 0.5 (p < 0.5), los valores ms probables de la variable a son los valores de mayor (menor) magnitud, pues en promedio ms (menos) a de la mitad de las repeticiones sern favorables a la observacin del suceso a o de inters. El clculo de las probabilidades de un modelo binomial puede ser e a
0.4
0.4
0.3
0.3
p(x)
p(x)
p(x) 0 1 2 3 x 4 5 6
0.2
0.2
0.1
0.1
0.0
0.0
3 x
0.0
0.1
0.2
0.3
0.4
3 x
Figura 6.5: Funcin de probabilidad de un modelo binomial con n = 6 y o p = 0.25 (grco de la izquierda), p = 0.5 (grco central) y p = 0.75 (grco a a a de la derecha). tedioso e incmodo. Por ello, en cualquier software estad o stico estn implea mentados los clculos. En cualquier caso, en el Cuadro A.1 proporcionamos a la funcin de distribucin de algunos modelos binomiales para los valores de o o n y p ms usuales. As si X es una variable aleatoria que sigue un modelo a , binomial B(6, 0.25), obtenemos que P (X = 1) = P (X 1) P (X = 0) = 0.534 0.178 = 0.356. Observemos que si Y es una variable aleatoria binomial B(6, 0.75), entonces el Cuadro A.1 no nos permite calcular de manera directa su funcin de probao bilidad. Sin embargo, por simetr tenemos que P (Y = 5) = P (X = 1), pues a si en las 6 repeticiones del experimento se ha observado una vez el suceso de inters que tiene probabilidad 0.25, entonces su suceso complementario tiene e probabilidad 0.75 y se ha observado 5 veces en las 6 repeticiones. Este hecho lo mostramos en la Figura 6.5. En general, si X e Y siguen modelos binomiales, Por otro lado, si X e Y siguen modelos binomiales independientes, B(n1 , p) y B(n2 , p), respectivamente, donde ahora el parmetro jo es p, entonces la a variable X +Y es un modelo binomial B(n1 +n2 , p), pues es la suma de n1 +n2 B(n, p) y B(n, 1 p), respectivamente, entonces P (X = x) = P (Y = n x).
Ejemplo 6.7 Supongamos que la variable aleatoria X descrita en el Ejemplo 6.5 modeliza el nmero de estaciones totales bien calibradas seleccionadas en u el primer cuatrimestre. Si denotamos por Y el nmero de estaciones totales u
145
ManualEs uEx
modelos de Bernoulli con parmetro p. a

bien calibradas seleccionadas en el segundo cuatrimestre, tenemos que la variable aleatoria X + Y describe el nmero de estaciones totales bien calibradas u seleccionadas durante el curso completo. Si suponemos que Y tambin sigue e un modelo binomial B(2, 0.6), entonces Z = X + Y es un modelo binomial B(4, 0.6), pues X e Y son independientes. A partir de la variable aleatoria Z, podemos calcular la probabilidad de que durante el curso utilicemos al menos una estacin total bien calibrada, como o P (Z 1) = 1 P (Z = 0) = 1 P (W = 4) = 0.974, siendo W un modelo binomial B(4, 0.4). Si no conocemos la distribucin de la o variable aleatoria Z, podemos obtener esta probabilidad, teniendo en cuenta la independencia de las variables X e Y , as como las probabilidades de la distribucin binomial B(2, 0.6) y la igualdad o P (X + Y 1) = P (X 1, Y = 0) + P (X = 0, Y 1) + P (X 1, Y 1). En efecto, como P (X 1) = 1 P (X = 0) = 0.84 (ver Cuadro A.1), obtenemos que P (X + Y 1) = 0.84 0.16 + 0.16 0.84 + 0.84 0.84 = 0.974, como hab amos obtenido anteriormente. Como ya hemos comentado, el modelo binomial se caracteriza por la independencia en las repeticiones del experimento aleatorio y por que la probabilidad del suceso de inters permanece invariante a lo largo de estas repeticiones. En e el siguiente ejemplo, estas condiciones no se satisfacen. Ejemplo 6.8 La variable aleatoria X considerada en el Ejemplo 4.1, determina el nmero de estaciones totales bien calibradas seleccionadas en una sesin u o por dos grupos de prcticas, cuando 2 de las 5 estaciones totales existentes en a
ManualEs uEx 146
el Centro Universitario de Mrida estn mal calibradas. En esta situacin, la e a o variable aleatoria X no est modelada por una distribucin binomial, a pesar a o de ser una repeticin en la seleccin de una estacin total, pues la probabilidad o o o de que el segundo grupo seleccione una estacin bien calibrada depende del o estado de la estacin total seleccionada por el grupo uno. En este caso, antes o

de realizar la segunda repeticin del experimento no se reemplaza la estacin o o total seleccionada en la primera repeticin, variando as las condiciones probao bil sticas del experimento. Este hecho no se verica en la situacin descrita en o el Ejemplo 6.5, donde al nalizar cada sesin la estacin total es reemplazada y o o as no var las condiciones probabil an sticas en las repeticiones del experimento. Un modelo de probabilidad apropiado para modelizar repeticiones de un experimento aleatorio sin reemplazamiento es la distribucin hipergeomtrica. o e La variable aleatoria X considerada en el Ejemplo 4.1 es un caso particular de este tipo de distribucin. o Las variables que siguen un modelo uniforme o un modelo binomial tienen como caracter stica com n que su espacio muestral es nito. Existen otros u modelos de probabilidad discretos, donde el conjunto de posibles valores es de cardinal innito que ser numerable pues la variable es discreta. El modelo a geomtrico en un ejemplo t e pico de una variable aleatoria discreta con espacio muestral innito. En el siguiente ejemplo describimos un experimento aleatorio descrito por este modelo de probabilidad. Ejemplo 6.9 Supongamos que la probabilidad de cometer una pia al utilizar una estacin total manipulada por una persona experta es p, con 0 < p < 1. o El nmero de mediciones independientes realizadas con la estacin total hasta u o cometer la primera pia es una variable aleatoria X de inters desde el punto e de vista de la persona que realiza las mediciones. El espacio muestral de esta variable es cualquier nmero natural, y por tanto, su cardinal es innito. La u funcin de probabilidad de la variable aleatoria X est determinada por la o a expresin o P (X = x) = (1 p)x1 p, x {1, 2, . . .}. Una variable con funcin de probabilidad como la descrita anteriormente, es un o modelo geomtrico con parmetro p. En la Figura 6.6, mostramos la funcin de e a o probabilidad de la variable X para p = 0.2 (grco de la izquierda) y p = 0.1 a (grco de la derecha). a
147
ManualEs uEx
0.20
0.15
0.10
0.05
0.00
10
15 x
20
25
30
0.00 0
0.05
0.10
p(x)
p(x)
0.15
0.20
10
20
30 x
40
50
60
Figura 6.6: Funcin de probabilidad de un modelo geomtrico con p = 0.2 o e (grco de la izquierda) y p = 0.1 (grco de la derecha). a a
6.3.
Modelos de probabilidad continuos
A continuacin exponemos distribuciones de probabilidad asociadas a variao bles aleatorias continuas. A pesar de existir un gran abanico de modelos que describen una extensa variedad de situaciones prcticas, nos centramos en el a modelo uniforme y en el modelo normal, as como los modelos asociados a la distribucin normal, por ser las que aparecen con mayor frecuencia en campo o de la Topograf a.
6.3.1.
Distribucin uniforme continua o
Al igual que en el caso discreto, un modelo de inters es la distribucin unie o forme. Se caracteriza por asignar la misma probabilidad a intervalos incluidos en el espacio muestral que tengan la misma amplitud. Es apropiado cuando la amplitud del espacio muestral es nito y no observamos de antemano zonas ms probables que otras. a Ejemplo 6.10 Supongamos que la variable aleatoria X considerada en el Ejemplo 4.2, que modeliza el error en mil metros cometido con un distancimetro con apreciacin en mil o o metros al medir una distancia calibrada de valor nominal 0 , admite la funcin de distribucin y de densidad dada por o o las expresiones 0, F (x) = x+10 20 1, si x < 10 0, si 10 x < 10 y f (x) = 1 20 , si x 10
ManualEs uEx
148
si x < 10 o x > 10 si 10 x 10,
0.8
0.6
0.4
0.2
15
10
0 x
10
15
0.00 15
0.0
0.01
0.02
0.03
F(x)
f(x)
0.04
0.05
0.06
1.0
10
0 x
10
15
Figura 6.7: Funcin de distribucin (grco de la izquierda) y funcin de deno o a o sidad (grco de la derecha) para la variable aleatoria X considerada en el a Ejemplo 6.10. respectivamente. En el grco de la izquierda de la Figura 6.7 mostramos la a funcin de distribucin la variable aleatoria X y en el grco de la derecha su o o a funcin de densidad. En esta situacin, obtenemos que el error est acotado o o a amplitud contenidos en el espacio muestral tiene la misma probabilidad. Por ejemplo, tenemos que P (10 X 5) = P (5 X 0) = P (0 X 5) = P (5 X 10), pues la funcin de densidad es contante sobre el espacio muestral. Observemos o que al cambiar la funcin de densidad de la variable X a la considerada en el o Ejemplo 4.2, las probabilidades tienen comportamiento distinto. En general, decimos que una variable aleatoria continua X sigue un modelo o distribucin uniforme en el intervalo denido por los valores a y b, con o la expresin o a, b R y a < b, y lo denotamos por U (a, b), si su funcin de densidad admite o f (x) = 0, si x < a o x > b si a x b. en el intervalo denido por los valores 10 y 10, y que dos intervalos con igual
1 ba ,
valores extremos del espacio muestral. Asimismo, la media y la varianza dependen de a y b como sigue = b+a (b a)2 y 2 = . 2 12
149
ManualEs uEx
Para determinar el modelo uniforme continuo slo es necesario especicar los o

La distribucin es simtrica y el valor de la mediana coincide con el de la o e media. Ejemplo 6.11 Para la variable aleatoria considerada en el Ejemplo 6.10, deducimos que sigue un modelo uniforme U (10, 10). As el valor de la media , y de la mediana son nulos y la varianza es 100/3.
6.3.2.
Distribucin normal o
Una de las caracter sticas de la distribucin uniforme es que el rango de vao lores que toma la variable est acotado. Sin embargo, el conjunto de posibles a valores de un carcter en un experimento aleatorio puede no estar determinaa do expl citamente y por tanto el espacio muestral de la variable aleatoria que represente dicho carcter debe ser no acotado, aunque la probabilidad de que a la variable tome valores en un intervalo de gran amplitud sea prxima a uno. o Ejemplo 6.12 Supongamos que la distribucin de probabilidad de la variable o aleatoria X considerada en el Ejemplo 6.10 admite la representacin dada en la o Figura 6.8, donde mostramos su funcin de distribucin (grco de la izquiero o a da) y su funcin de densidad (grco de la derecha). Observemos que el espacio o a muestral no est acotado, aunque se concentra en su mayor en el intervalo a a denido por los valores -3 y 3. Adems, su comportamiento probabil a stico es simtrico con respecto al cero, siendo ste el valor de la media y mediana. e e Asimismo, los valores concentrados alrededor del cero son ms probables que a aquellos que se encuentran ms alejados. a Un modelo de probabilidad con estas caracter sticas y que es apropiado para representar el comportamiento aleatorio de mltiples variables f u sicas donde interviene un proceso de medicin, es el modelo normal. Diremos que una o variable aleatoria X sigue un modelo o distribucin normal estndar si su o a funcin de densidad admite la expresin o o
ManualEs uEx
x2 1 f (x) = e 2 , x R. 2
150
En el grco de la izquierda de la Figura 6.8 mostramos su funcin de distribua o cin y en el grco de la derecha su funcin de densidad, donde observamos su o a o forma acampanada. De sus propiedades deducimos que la media y la mediana
0.8
1.0
F(x)
0.6
f(x) 0.4 0.0 0.2 3 2 1 0 x 1 2 3
0.0 3
0.1
0.2
0.3
0.4
0 x
Figura 6.8: Funcin de distribucin (grco de la izquierda) y funcin de deno o a o sidad (grco de la derecha) para la variable aleatoria X considerada en el a Ejemplo 6.12.
0.4
0.3
f(x)
f(x)
0.2
0.1
0.0
0 x
0.0
F(x)
0.1
0.2
0.3
0.4
F(x)
3 2 1 0 x 1
1F(x)
2 3
Figura 6.9: Clculo de la funcin de distribucin de la normal estndar para a o o a valores negativos teniendo en cuenta su simetr a. del modelo normal estndar son nulos, el valor de su varianza es la unidad y a es una distribucin simtrica, con valores ms probables cuanto ms cercanos o e a a a cero, dnde alcanza el mximo la funcin de densidad. o a o El clculo de la funcin de distribucin del modelo normal estndar est ima o o a a plementado en cualquier software estad stico. En cualquier caso en el Cuadro A.2 mostramos una tabulacin de dichos valores. A continuacin, indicamos o o como calcular, a partir de dicha tabla, las siguientes probabilidades P (X 2) = 0.977 y P (X 2) = 1 P (X 2) = 0.023. Observemos que la tabulacin anterior no nos permite calcular de manera o directa la funcin de distribucin para valores negativos. Sin embargo, por o o mostramos en la Figura 6.9. Es decir, a la izquierda del punto x queda bajo la simetr del modelo normal, tenemos que F (x) = 1 F (x), tal y como a
151
ManualEs uEx
0.4
0.4
0.3
0.3
f(x)
f(x)
f(x)
0.2
0.2
0.683
0.954
0.2
0.3
0.4
0.997
0.1
0.1
0.0
0.0
0 x
0 x
0.0 3
0.1
0 x
Figura 6.10: Comportamiento de la probabilidad el modelo normal estndar. a la curva el mismo rea que a la derecha de x. Teniendo esto en cuenta, se a verica que P (X 2) = 1 P (X 2) = P (X 2) = 0.023. Siguiendo un procedimiento anlogo, a P (1 X 1) = 0.683, P (2 X 2) = 0.954, P (3 X 3) = 0.997. En la Figura 6.10 mostramos el comportamiento de estas probabilidades, observando un aumento en la probabilidad al ampliar la amplitud del intervalo. En el intervalo denido por los valores -2 y 2 se concentra ms del 95 % de la a distribucin de probabilidad. Fijados los extremos del intervalo, hemos calcuo lado la probabilidad de que el modelo normal tome un valor dentro de dicho intervalo. En ocasiones, estamos interesados en determinar un intervalo centrado en el cero, tal que con probabilidad 1 , siendo 0 < < 1, la variable tome un valor en dicho intervalo. Si denotamos por z/2 y z1/2 a los extremos inferior y superior, respectivamente, de dicho intervalo, tenemos que P (z/2 X z1/2 ) = 1 . Observemos que, a partir de la denicin de z/2 y z1/2 , y teniendo en o cuenta las propiedades de la normal estndar, los valores z/2 y z1/2 son los a cuantiles de orden /2 y 1 /2, respectivamente, de la distribucin normal o estndar. Adems, por la simetr del modelo, obtenemos que z/2 = z1/2 . a a a
ManualEs uEx 152
En la Figura 6.11, mostramos la posicin de dichos cuantiles con respecto a la o funcin de densidad de la distribucin normal estndar. En el Cuadro A.3 se o o a encuentran tabulados los cuantiles de orden p del modelo normal estndar para a
0.3
0.4
z1
f(x)
0.1
0.2
0.0
2
3 2 1
1
0 x 1
2
2 3
Figura 6.11: Posicin de los cuantiles z/2 y z1/2 , con respecto a la funcin o o de densidad, de la distribucin normal estndar. o a ciertos valores de p 0.5. Como z0.975 = 1.960 y z0.995 = 2.576, obtenemos que P (1.960 X 1.960) = 0.95 y P (2.576 X 2.576) = 0.99. Notemos que como la media es nula y la varianza es la unidad, aplicando la desigualdad de Tchebychev obtenemos una cota inferior de estas probabilidades. Como ya hemos comentado, el modelo normal estndar se caracteriza por la a forma acampanada de su funcin de densidad centrada en 0 y de varianza o 1. Si la funcin de densidad de una variable aleatoria X no est centrada en o a 0 ni la varianza es 1, decimos que sigue un modelo o distribucin normal de o parmetros y 2 , con R y 2 > 0, y lo denotamos por N (, 2 ), cuando a la funcin de densidad viene denida por o f (x) =
(x)2 1 e 22 , x R. 2
Se verica que es el valor de su media y 2 el valor de su varianza. En la Figura 6.12 mostramos el comportamiento de la funcin de densidad del o 2 o a modelo N (, ), en relacin a los parmetros y que determinan las caracter sticas de dicho modelo normal. En esta situacin, la funcin de densidad o o es simtrica, centrada en y tiene un punto de inexin de su curvatura a e o distancia del eje de simetr siendo la desviacin t a, o pica. Cuando = 0 2 y = 1, tenemos el modelo normal estndar. As pues, las propiedades del a 2 a modelo normal con parmetros y son anlogas a las enumeradas para el a modelo normal estndar. a
153
ManualEs uEx
Figura 6.12: Funcin de densidad de un modelo normal de parmetros y 2 . o a
1 2
Figura 6.13: Comportamiento de la funcin de densidad de modelos normales o en funcin de los parmetros y 2 . o a Los modelos normales son una familia de distribuciones que dependen de los parmetros y 2 . El cambio de la funcin de densidad dependiendo de los a o valores de dicho parmetros lo mostramos en la Figura 6.13, donde 1 < 2 y a
2 2 1 < 2 . Concretamente, jada la varianza la funcin de densidad se desplaza o
a la derecha manteniendo la misma forma al aumentar la media. En cambio, al aumentar la varianza, mayor es el aplastamiento de la funcin de densidad o y as su dispersin. Adems, la transformacin lineal de una variable aleatoria o a o perteneciendo a esta familia, tambin sigue un modelo normal. Concretamente, e si X sigue una distribucin normal N (, 2 ), entonces la variable aleatoria o aX + b, con a, b R, es un modelo normal, en este caso, de parmetros a + b a y a2 2 , que corresponde a su media y a su varianza, respectivamente. Como
ManualEs uEx 154
ya hemos comentado en alguna ocasin, a signica que hemos realizado un o cambio de escala en las unidades de la variable X y b lo interpretamos como una traslacin de todos los valores de la variable. Teniendo en cuenta esta o propiedad, deducimos que si la variable aleatoria X sigue una distribucin o N (, 2 ), entonces la variable tipicada
1 0
Figura 6.14: Relacin entre la funcin de densidad de un modelo normal de o o a parmetros y 2 y la de la normal estndar. a Z= X
sigue un modelo normal estndar. En la Figura 6.14 mostramos la relacin a o entre la funcin de densidad de un modelo normal de parmetros y 2 y la o a de la normal estndar. Por ello el clculo de probabilidades de la distribucin a a o normal N (, 2 ) lo reducimos al clculo de probabilidades con la distribucin a o normal estndar como sigue a P (X x) = P (X x ) = P normal estndar, deducimos que a x X =P Z x ,
para cualquier x R. As teniendo en cuenta las probabilidades del modelo , P ( X + ) = 0.683, P ( 1.96 X + 1.96) = 0.95, P ( 2 X + 2) = 0.954, P ( 2.576 X + 2.576) = 0.99. Por tanto, conocidos la media y la varianza de un modelo normal, obtenemos que en el intervalo denido por los valores 1.96 y +1.96, se encuentra el 95 % de los valores centrales de la variable aleatoria. Este hecho no contradice que el espacio muestral del modelo normal sea el conjunto de nmeros reales. u
incertidumbre en un proceso de medicin. As en ausencia de cualquier tipo o , de error salvo el aleatorio y utilizando un instrumento calibrado, un modelo stico de las mediciones, normal N (, 2 ) describe el comportamiento probabil cuyo valor nominal est representado por y la dispersin entre las mismas a o
155
ManualEs uEx
Como hemos comentado, el modelo normal es apropiado para representar la
400
300
200
f(x)
f(x)
0.954
0.2
0.3
0.4
0.954
100
4.996
4.998
5.000 x
5.002
5.004
0.0 3
0.1
0 x
Figura 6.15: Relacin entre las probabilidades del modelo normal de parmeo a tros 5 y 0.000001 y la de la normal estndar. a e determinado por 2 . Notemos que las mediciones son simtricas alrededor de su valor nominal, que en general es desconocido, a no ser un valor calibrado. Sin embargo, el valor de la varianza es proporcionado por las especicaciones del instrumento de medida. Ejemplo 6.13 Supongamos que la variable aleatoria Y , que describe el comportamiento aleatorio de medir con un distancimetro con apreciacin en o o mil metros y gran precisin una distancia calibrada de valor nominal 5 m., o sigue un modelo normal de media 5 m. (el valor medio de las mediciones coincide con la distancia calibrada en ausencia de errores sistemticos) y varianza a 0.000001 m2 (la desviacin t o pica de las mediciones es un mil metro). En esta situacin, a partir del Cuadro A.2, tenemos que la probabilidad de que la o medicin sea inferior a 5.002 m. la calculamos como o Y 5 5.002 5 P (Y 5.002) = P = P (Z 2) = 0.977. 0.001 0.001 Asimismo P (Y 4.998) = P y por tanto 4.998 5 Y 5 0.001 0.001 = P (Z 2) = 0.023,
ManualEs uEx
P (4.998 Y 5.002) = 0.954. Observemos que la variable aleatoria X = 1000(Y 5), considerada en el en mil metros sigue un modelo normal estndar. a Ejemplo 6.12 y que describe el comportamiento aleatorio del error de medicin o
156

2 Notemos que si las variables X e Y siguen distribuciones normales, N (X , X ) 2 y N (Y , Y ), respectivamente, y ambas son independientes, entonces la suma
de las variables aleatorias sigue tambin un modelo normal de parmetros e a

2 2 X + Y y X + Y , correspondientes a su media y a su varianza, respectiva-
mente. Este resultado es de utilidad cuando obtenemos la medicin de cierta o distancia como suma de mediciones parciales. Si estas mediciones son independientes y el comportamiento probabil stico es descrito por modelos normales, entonces el comportamiento de la suma de las dos mediciones tambin sigue e una distribucin normal con media la suma de las medias de las medidas paro ciales y varianza la suma de las varianzas de las medidas parciales. Ejemplo 6.14 Supongamos que una distancia calibrada de valor nominal 12 m. la dividimos en dos distancias calibradas parciales, de 5 m. y 7 m., respectivamente. Para medir la distancia total, utilizamos dos distancimetros o con apreciacin en mil o metros. El primero lo utilizamos para medir la primera distancia parcial, cuyo comportamiento en sus medicines lo describe una variable aleatoria X que sigue un modelo normal N (5, 0.000009). La segunda distancia parcial es medida de manera independiente a la primera por el otro distancimetro, cuyo comportamiento en sus medicines lo describe una o variable aleatoria Y que sigue un modelo normal N (7, 0.000016). Por tanto, el comportamiento probabil stico de la suma de las mediciones es descrita por un modelo normal N (12, 0.000025). Con ello, deducimos que ms del 95 % de a los valores se encuentran entre 11.99 = 12 2 0.005 y 12.01 = 12 + 2 0.005. En la Figura 6.16, mostramos este hecho, donde comparamos la funcin de o densidad asociada a cada una de las mediciones con el histograma de 10000 mediciones de cada una de las medidas parciales. La base terica para armar que los modelos normales son los ms frecuentes y o a apropiados para explicar el comportamiento aleatorio de mltiples situaciones u prcticas, en especial de un proceso de medicin, es el teorema central del l a o mila suma de variables aleatorias independientes cualesquiera, con medias y varianzas comunes, se aproxima, a medida que el nmero de sumandos aumenta, u a un modelo normal. Concretamente, si X1 , . . . , Xn son n variables aleatorias independientes, con media y varianza 2 , no necesariamente siguiendo una
157
ManualEs uEx
te. En su versin ms sencilla, arma que el comportamiento probabil o a stico de
140
100
120
100
80
80
60
f(x+y) 6.985 6.990 6.995 7.000 y 7.005 7.010
f(x)
f(y)
60
40
40
20
20
4.990
4.995
5.000 x
5.005
5.010
0 11.98
20
40
60
80
11.99
12.00 x+y
12.01
12.02
Figura 6.16: Comparacin entre la funcin de densidad e histograma de un o o conjunto de 1000 observaciones de las variables X (grco de la izquierda), Y a (grco central) y X + Y (grco de la izquierda) descritas en el Ejemplo 6.14. a a distribucin normal, entonces el comportamiento probabil o stico de la variable aleatoria
n i=1
Xi
se aproxima al de una distribucin normal de media n y varianza n 2 , cuando o n es sucientemente grande. Experimentalmente se ha probado que si n 30, la aproximacin es sucientemente precisa. o Ejemplo 6.15 Supongamos que para la situacin descrita en el Ejemplo 6.12, o consideramos la variable aleatoria Y que toma los valores 1 si el error es positivo y 1 si el error es negativo. Teniendo en cuenta la distribucin del error, o
2 deducimos que P (Y = 1) = P (Y = 1) = 0.5. Como Y = 0 y Y = 1, si
realizamos n mediciones de manera independiente y consideremos la suma de
los n resultados de la variable Y , entonces el comportamiento asinttico de la o variable aleatoria resultante se aproxima al del modelo normal de media nula y varianza n. En la Figura 6.17, mostramos la comparacin de la funcin de o o probabilidad de la variable suma con respecto a la funcin de densidad del o modelo normal asociado, para n = 2 (grco de la izquierda), n = 15 (grco a a central) y n = 30 (grco de la derecha). Observemos que, a pesar de ser la a
ManualEs uEx 158
variable suma discreta, su comportamiento probabil stico se va aproximando al de una variable aleatoria continua, cuando el nmero de sumandos aumenta. u Adems, los valores prximos a cero son los ms probables, es decir, los erroa o a res positivos se compensan con los negativos. Observemos que para comparar ambas distribuciones, hemos tenido que normalizar la funcin de probabilidad, o
0.15
0.25
0.30
0.20
0.10
0.15
p(x)
p(x)
p(x) 0.05 0.00 10 5 0 x 5 10 0.00 20 0.02 0.04
0.00
0.05
0.10
0 x
0.06
0.08
0.10
10
0 x
10
20
Figura 6.17: Comparacin de la funcin de probabilidad de la variable suma o o considerada en el Ejemplo 6.15, con respecto a la funcin de densidad del o modelo normal asociado, para n = 2 (grco de la izquierda), n = 15 (grco a a central) y n = 30 (grco de la derecha). a dividiendo los valores de sta por dos, dado que dos valores consecutivos del e espacio muestral de la suma distan dos unidades. Una aplicacin util del teorema central del l o mite es la aproximacin del como portamiento probabil stico de la distribucin binomial por la normal. Dado o que una variable aleatoria X con modelo binomial B(n, p) es la suma de n modelos de Bernoulli independientes de parmetro p, entonces a P (X = k) P (k 1/2 Y k + 1/2), k {1, . . . , n 1}, P (X = 0) P (Y 1/2) y P (X = n) P (Y n 1/2), siendo Y un modelo normal de media np y varianza np(1 p). En la prctica, a esta aproximacin es buena si np(1 p) > 5. Observemos que si n es pequeo o n y p cercano a cero o a uno, la distribucin binomial presenta un asimetr y o a por tanto no se puede aproximar por un modelo normal. En la Figura 6.18 comparamos la funcin de probabilidad de una variable aleatoria con modelo o B(30, 0.5) frente a la funcin de densidad del modelo normal N (15, 7.5) asoo ciado. Observamos que el rea de cada rectngulo, de base 1 y rea igual a lo a a a que indica la funcin de probabilidad, es aproximadamente el area que queda o bajo la densidad normal N (15, 7.5), dado que np(1 p) = 7.5 > 5. Ejemplo 6.16 Supongamos que en la situacin descrita en el Ejemplo 6.13, o consideramos que se ha producido una anomal en la medicin de la distancia a o calibrada de valor nominal 5 m. cuando el valor de medicin diste ms de 2 o a
159
ManualEs uEx
p(x) 0.00 5 0.05
0.10
0.15
10
15 x
20
25
Figura 6.18: Comparamos la funcin de probabilidad de una variable aleatoria o con distribucin B(30, 0.5) frente a la funcin de densidad del modelo normal o o N (15, 7.5). mil metros. Como la variable aleatoria Y que describe el comportamiento aleatorio de medicin sigue un modelo normal de media 5 m. y varianza 0.000001 o o o m2 , obtenemos que la probabilidad de realizar una medicin anmala, es P (|Y 5| > 0.002) = 1 P (4.998 Y 5.002) = 0.046, teniendo en cuenta el Cuadro A.2. Si repetimos 1000 veces, de manera independiente, el experimento aleatorio de medir la distancia calibrada, tenemos que el nmero de mediciones anmalas es una variable aleatoria W que sigue u o un modelo binomial B(1000, 0.046). Para calcular la probabilidad de que el nmero de anomal sea mayor o igual a 30, utilizamos la aproximacin del u as o modelo binomial B(1000, 0.046) al modelo normal N (46, 43.884) descrito por la variable T , pues 43.884 = np(1 p) > 5. Con todo ello, obtenemos que 29.5 46 P (W 30) P (T 29.5) = P Z 43.884 = 1 P (Z 2.491) = 0.994, siendo Z el modelo normal estndar. a
ManualEs uEx
6.3.3.
Distribuciones asociadas al modelo normal estna dar
En lo que sigue presentamos algunos modelos de probabilidad de tipo continuo, que estn asociados directamente a la distribucin normal estndar. Concretaa o a mente estudiamos la distribucin 2 (ji-cuadrado) de Pearson, la distribucin o o
160
0.4
n=2
3 0.3
n=4 n=8
f(x)
f(x) 0 2 4 x 6 8
0.0 0
0.1
0.2
10 x
15
20
Figura 6.19: Comportamiento de la funcin de densidad de modelos 2 de o Pearson, en funcin del grado de libertad, para n=1 (grco de la izquierda) o a y n = 2, 4, 8 (grco de la derecha). a t de Student y la distribucin F de Snedecor. Estos modelos de probabilio dad juegan un papel fundamental en la estad stica inferencial, pues describen el comportamiento probabil stico de medidas caracter sticas de un conjunto arbitrario de datos. El modelo 2 de Pearson es apropiado para describir el comportamiento probabil stico de la suma de variables aleatorias al cuadrado, cuando stas siguen e un modelo normal estndar y son independientes. a Ejemplo 6.17 Supongamos que para la situacin descrita en el Ejemplo 6.12, o estamos interesados en determinar el comportamiento probabil stico de la magnitud del error al cuadrado, ms que la del propio error. Si denotamos por Y a a dicha variable aleatoria, tenemos que Y = X 2 , siendo X una variable aleatoria normal estndar que modeliza el error cometido en la medicin. Es fcil dedua o a cir que la media de la variable aleatoria Y es 1, pues coincide con la varianza de modelo normal estndar. Asimismo, obtenemos que el valor de su varianza es a 2. En el grco de la izquierda de la Figura 6.19 mostramos el comportamiento a de su funcin de densidad, que es no acotada y sta denida para cualquier o e nmero real no negativo. u En general, decimos que la suma de los cuadrados de n variables aleatorias independientes con modelo normal estndar sigue una distribucin 2 de Pearson a o con n grados de libertad y la denotamos por 2 (n). El nmero de sumandos u
161
ManualEs uEx

determina el comportamiento probabil stico de dicha variable. As la variable , aleatoria X=
n i=1 2 Zi ,
siendo Zi s modelos normales estndar independientes, sigue un modelo 2 (n). a Dicha variable aleatoria es no negativa, continua, con espacio muestral no acotado y con asimetr a la derecha, que disminuye conforme aumenta n. En a la Figura 6.19 mostramos el comportamiento de la funcin de densidad de o 2 o a modelos de Pearson, en funcin del grado de libertad, para n=1 (grco de la izquierda) y n = 2, 4, 8 (grco de la derecha). Adems, tenemos que a a = n y 2 = 2n. El comportamiento probabil stico de un modelo 2 (n) se aproxima al de un modelo normal N (n, 2n), cuando n es sucientemente grande, pues es suma de variables aleatorias independientes. Para cualquier p, tal que 0 < p < 1, denotamos por 2 (n) al cuantil de orden p p de la variable aleatoria X, es decir P (X 2 (n)) = p. p Por tanto, si 0 < < 1, obtenemos que P (2 (n) X 2 /2 1/2 (n)) = 1 . En la Figura 6.20, mostramos la posicin de los cuantiles 2 (n) y 2 o /2 1/2 (n)) 2 con respecto a la funcin de densidad de la distribucin (n). En el Cuadro o o A.4 se encuentran tabulados los cuantiles de orden p del modelo 2 (n) para ciertos valores de p y n. Para valores grandes de n utilizamos la aproximacin o 2 a un modelo normal anteriormente mencionada. Como 0.025 (5) = 0.831 y 2 (5) = 12.833, entonces deducimos que 0.975
ManualEs uEx
P (0.831 X 12.832) = 0.95, siendo X un modelo 2 de Pearson con 5 grados de libertad. Observemos que el intervalo propuesto, en el que se encuentran distribuidos el 95 % de los valores de la variable, no est centrado en su media, debido a la asimetr del modelo. a a
162
2 1 2 2 2 2 1 2
Figura 6.20: Posicin de los cuantiles 2 (n) y 2 o /2 1/2 (n)) con respecto a la 2 funcin de densidad de la distribucin (n). o o Como veremos en el prximo tema, la distribucin 2 de Pearson es apropiada o o para modelizar el comportamiento probabil stico de la cuasivarianza muestral de un conjunto de datos. El comportamiento de la media muestral es descrito por el modelo de probabilidad t de Student. Este modelo determina la relacin o probabil stica entre el modelo normal estndar y el modelo 2 (n). Concrea tamente, decimos que el comportamiento probabil stico del cociente entre un modelo normal y la ra cuadrada del cociente de un modelo 2 de Pearson z con n grados de libertad entre sus grados de libertad, ambos independientes, sigue una distribucin t de Student con n grados de libertad y la denotamos o por t(n). Los grados de libertad del modelo 2 de Pearson determinan el comportamiento de la distribucin t de Student. As la variable aleatoria o , Z T = ,
X n
siendo Z un modelo normal estndar y X un modelo 2 (n), ambos indepena dientes, siguen un modelo t(n). Tenemos que la variable aleatoria T puede tomar cualquier valor real, sus distribuciones simtrica con respecto al 0 y su e dispersin es mayor que la del modelo normal estndar. Adems, su comporo a a aumenta, siendo prcticamente idntico cuando n es igual o mayor que 100. a e En la Figura 6.21, mostramos estos hechos, mediante la representacin de la o funcin de densidad del modelo t(n), para n = 1 y n = 4, y de la funcin o o de densidad del modelo normal estndar. Adems tenemos que la media de a a tamiento probabil stico se aproxima al del modelo normal estndar cuando n a
163
ManualEs uEx
0.4
N(0,1) n=4
f(t)
0.2
0.3
n=1
0.1 0.0
0 t
Figura 6.21: Funcin de densidad del modelo t(n), para n = 1 y n = 4, o comparada con respecto a la funcin de densidad del modelo normal estndar. o a la variable aleatoria T es nula, que coincide con su mediana, y su varianza depende de n mediante la expresin o 2 = n , n > 2. n2
Para cualquier p, tal que 0 < p < 1, denotamos por tp (n) al cuantil de orden p de la variable aleatoria T , es decir P (T tp (n)) = p. Por tanto, si 0 < < 1, obtenemos que P (t/2 (n) T t1/2 (n)) = 1 . Por la simetr de la distribucin t de Student, deducimos que t/2 (n) = a o y t1/2 (n), con respecto a la funcin de densidad de la distribucin t(n). En o o el Cuadro A.5 se encuentran tabulados los cuantiles de orden p del modelo t(n) para ciertos valores de n y p, con p > 0.5. Para valores grandes de n utilizamos la aproximacin a un modelo normal estndar. Como t0.975 (2) = o a 4.303, entonces deducimos que P (4.303 T 4.303) = 0.95, siendo T un modelo t de Student con 2 grados de libertad. t1/2 (n). En la Figura 6.22, mostramos la posicin de los cuantiles t/2 (n) o
164
ManualEs uEx
0.3
0.4
t1
0.2
f(t)
0.1
2
0.0 5
1
0 t
2
5
Figura 6.22: Posicin de los cuantiles t/2 (n) y t1/2 (n)) con respecto a la o funcin de densidad de la distribucin t(n). o o La relacin probabil o stica entre dos modelos 2 de Pearson es descrita por el modelo de probabilidad F de Snedecor, conocido tambin como F de Fisher. e Concretamente, decimos que el cociente entre dos modelos 2 de Pearson independientes, con n grados de libertad el numerador y m grados de libertad el denominador, divididos entre sus grados de libertad sigue una distribucin F o de Snedecor con n y m grados de libertad y lo denotamos por F (n, m). Los grados de libertad de los modelos 2 de Pearson determinan el comportamiento de la distribucin F de Snedecor. As la variable aleatoria o , F = X/n , Y /m
siendo X e Y modelos 2 de Pearson independientes, con n y m grados de libertad, respectivamente, sigue un modelo F (n, m). Tenemos que la variable aleatoria F puede tomar cualquier valor real no negativo, con distribucin o asimtrica a la derecha. En la Figura 6.23, mostramos la funcin densidad del e o modelo F (n, m), para los valores de n y m, (2, 4), (10, 4), (4, 2) y (4, 10), en funcin de n y m, respectivamente. De su propia denicin, deducimos que o o si F es un modelo F (n, m), entonces 1/F es un modelo F (m, n). Adems, si a n = 1, la variable aleatoria F es el cuadrado de un modelo t de Student con m grados de libertad. La media y la varianza de la variable aleatoria F dependen de n y m mediante las expresiones = m 2m2 (n + m 2) , m > 2 y 2 = , m > 4. m2 n(m 2)2 (m 4)
165
ManualEs uEx
1.0
1.0
n=2,m=4
0.8
0.6
0.6
0.8
n=4,m=10
0.4
n=10,m=4
0.4
f(f)
0.2
f(f) 4 f 6 8 10 0.0 0 0.2
0.0
n=4,m=2
0 2
4 f
10
Figura 6.23: Funcin de densidad del modelo F (n, m), para los valores (2, 4), o (10, 4), (4, 2) y (4, 10), en funcin de n y m, respectivamente. o Para cualquier p, tal que 0 < p < 1, denotamos por Fp (n, m) al cuantil de orden p de la variable aleatoria F , es decir P (F Fp (n, m)) = p. Como 1/F es un modelo F (m, n), deducimos que F1p (m, n) = pues P 1 , Fp (n, m) = 1 p.
1 1 F Fp (n, m)
Con todo ello, si 0 < < 1, obtenemos que
P (F/2 (n, m) F F1/2 (n, m)) = 1 , o equivalentemente, 1 P F F1/2 (n, m) = 1 . F1/2 (m, n) En la Figura 6.24, mostramos la posicin de los cuantiles F/2 (n, m) y o F1/2 (n, m)) con respecto a la funcin de densidad del modelo F (n, m). En o
ManualEs uEx
el Cuadro A.6 se encuentran tabulados los cuantiles de orden p del modelo F (n, m) para ciertos valores de n, m con p > 0.5. Como F0.975 (8, 6) = 5.600 y F0.975 (6, 8) = 4.650, obtenemos que P (0.215 F 5.600) = 0.95,
166
2 F
2
2 F1
2
(n, m)
(n, m)
Figura 6.24: Posicin de los cuantiles F/2 (n, m) y F1/2 (n, m)) con respecto o a la funcin de densidad de la distribucin F (n, m). o o siendo F un modelo F (8, 6), pues F0.025 (8, 6) = 1/F0.975 (6, 8) = 0.215. Como veremos en el prximo tema, la distribucin F de Snedecor es apropiada o o para modelizar el comportamiento probabil stico de la relacin entre las cuao sivarianzas muestrales de dos conjuntos de datos, cada uno de ellos, extra dos de poblaciones distintas.
6.4.
Modelos de probabilidad multidimensionales
Una vez estudiados los principales modelos de probabilidad para variables aleatorias, tanto discretas como continuas, a continuacin describimos dos modelos o de probabilidad asociados a vectores aleatorios. Estos modelos se caracterizan por denir distribuciones de probabilidad conocidas en cada una de las variables aleatorias que constituyen el vector aleatorio. Concretamente, estudiamos el modelo multinomial, asociado a la distribucin binomial de las variables, o y el modelo normal multidimensional, asociado a variables aleatorias con distribucin normal. Con el n de reducir la notacin, a partir de ahora, slo o o o consideramos vectores aleatorios con dos variables aleatorias, pudindose exe tender las deniciones a vectores de dimensin mayor. o
6.4.1.
Distribucin multinomial o
Como hemos comentado, la distribucin binomial es un modelo apropiado pao ra describir el comportamiento probabil stico del nmero de veces que en n u
167
ManualEs uEx

repeticiones independientes de un experimento aleatorio obtenemos un cierto suceso. Ahora bien, si estamos interesados en contabilizar las apariciones de dos sucesos incompatibles (que no suceden simultneamente) asociados al a experimento aleatorio, sean A y B tales que P (A B) = 0, son necesarias dos variables aleatorias. Si X e Y contabilizan el nmero de veces que en n u repeticiones independientes del experimento aleatorio obtenemos los sucesos A y B, respectivamente, al comportamiento probabil stico conjunto del vector aleatorio (X, Y ) lo denominamos modelo multinomial. Ejemplo 6.18 Supongamos que en la situacin descrita en el Ejemplo 6.5, o adems de considerar la variable aleatoria X, nmero de estaciones totales a u bien calibradas seleccionadas en las dos sesiones de prcticas, denimos la vaa riable aleatoria Y , nmero de estaciones totales mal calibradas seleccionadas en u las dos sesiones de prcticas. En esta nueva situacin, el experimento aleatorio a o consiste en seleccionar, en una sesin, una estacin total y clasicarla como o o bien calibrada o como mal calibrada. Observemos que los dos sucesos considerados, estacin total bien o mal calibrada, son incompatibles, pues, si una o estacin total est bien calibrada no est mal calibrada. Como el experimento o a a aleatorio lo repetimos dos veces de manera independiente y la probabilidad de seleccionar una estacin total bien calibrada es de 0.6 y 0.4 la de seleccionar o una estacin total mal calibrada, ambas estables durante las repeticiones, deo ducimos la siguiente expresin para la funcin de probabilidad conjunta del o o vector aleatorio (X, Y ) P (X = 0, Y = 2) = 0.4 0.4 = 0.16, P (X = 2, Y = 0) = 0.6 0.6 = 0.36, P (X = 1, Y = 1) = 2 0.4 0.6 = 0.48. Adems, las variables aleatorias X e Y son modelos binomiales B(2, 0.6) y a B(2, 0.4), respectivamente. Como, en este caso particular, la unin de los dos o
ManualEs uEx 168
sucesos considerados cubren todas las posibilidades, es decir, una estacin total o est bien o mal calibrada, entonces la suma total de estaciones elegidas en las a dos sesiones es dos. Matemticamente este hecho lo expresamos como X +Y = a 2.

Si denotamos por pA a la probabilidad del suceso A y por pB a la probabilidad del suceso B, entonces la funcin de probabilidad conjunta del vector aleatorio o (X, Y ) admite la expresin o P (X = x, Y = y) = n(n 1) (n x y + 1) x y p p (1 pA pB )(nxy) , [x(x 1) 1][y(y 1) 1] A B
esta expresin como generalizacin del modelo binomial y teniendo en cuenta o o que si en las n repeticiones del experimento, hemos observado x veces el suceso A e y el suceso B, entonces n x y veces hemos observado ni A ni B. Como ambos sucesos son incompatibles, la probabilidad de no observar ni A ni B o es 1 pA pB . Si pA + pB = 1, obtenemos la expresin dada para el modelo binomial, pues en esta situacin, pB = 1 pA y X + Y = n. En cualquier o
siendo x e y nmeros enteros no negativos y tales que x + y n. Deducimos u
stico caso, los parmetros n, pA y pB determinan el comportamiento probabil a del modelo multinomial. Adems, las variables aleatorias X e Y son modelos a o binomiales B(n, pA ) y B(n, pB ), respectivamente. El grado de relacin lineal entre ambas variables lo determina la covarianza, que admite la expresin o XY = npA pB . Observemos que es un valor negativo, pues valores altos de una variable estn asociados a valores bajos de la otra, dado que X, Y 0 y a X + Y n. Adems, la relacin lineal entre ambas variables es perfecta si y a o slo pA + pB = 1. En dicho caso, la relacin est determinada por la expresin o o a o X + Y = n.
Ejemplo 6.19 Para el vector aleatorio descrito en el Ejemplo 6.18, deducimos que sigue un modelo multinomial de parmetros n = 2, pA = 0.6 y pB = 0.4. a Adems, como pA + pB = 1, el valor de una variable determina el valor de la a otra mediante la expresin X + Y = 2. o En el siguiente ejemplo, no existe relacin lineal entre las variables del modelo o multinomial. Ejemplo 6.20 Para la situacin descrita en el Ejemplo 6.18, supongamos que o las estaciones totales mal calibradas las clasicamos en dos tipos, con desviaciones leves o con desviaciones graves. Consideramos que de las dos estaciones mal calibradas existentes en el almacn del Centro Universitario de Mrida e e hay una de cada tipo. En esta situacin, si la variable aleatoria X describe o
169
ManualEs uEx

el nmero de estaciones totales bien calibradas seleccionadas en las dos sesiou nes de prcticas y la variable aleatoria Y el nmero de estaciones totales mal a u calibradas con desviaciones leves seleccionadas en las dos sesiones de prctia cas, deducimos que el vector aleatorio (X, Y ) es un modelo multinomial de parmetros n = 2, pA = 0.6 y pB = 0.2. As a , P (X = 0, Y = 0) = 0.04, P (X = 1, Y = 0) = 0.24, P (X = 0, Y = 1) = 0.08, P (X = 1, Y = 1) = 0.24, P (X = 0, Y = 2) = 0.04, P (X = 2, Y = 0) = 0.36. Observemos que, en esta situacin, el valor de una variable no determinar o un vocamente el valor de la otra. Por ejemplo, si X = 1, la variable aleatoria Y puede tomar los valores 0 1, pues una estacin seleccionada es bien calibrada o o y la otra es mal calibrada, que puede ser con desviaciones graves o desviaciones leves, respectivamente. As el valor de X + Y no es necesariamente 2. ,
6.4.2.
Distribucin normal multivariante o
El modelo normal multivariante describe el comportamiento conjunto de un 2 vector aleatorio (X, Y ), donde X e Y siguen modelos normales N (X , X ) y 2 a a N (Y , Y ), respectivamente. Este modelo, adems de los parmetros X , Y , 2 2 o X y Y de ambas variables, depende del coeciente de correlacin XY , que determina la relacin lineal entre las variables aleatorias X e Y . Concretameno te, decimos que el vector aleatorio (X, Y ) sigue un modelo normal multivariante 2 2 de parmetros X , Y , X , Y y XY , si su funcin de densidad conjunta, a o f (x, y), admite la expresin o 1 1 2(1 2 ) XY e a 2 2 x X y Y y Y 2XY + X Y Y
x X X
ManualEs uEx 170
1 2 . Observemos que esta expresin es una generao XY lizacin de la funcin de densidad del modelo normal. Para que tenga sentido o o la expresin suponemos que el valor absoluto de XY no sea la unidad. En el o siendo a = 2X Y grco izquierdo de la Figura 6.25, mostramos la funcin de densidad conjunta a o del modelo normal multivariante, donde apreciamos la forma acampanada, en
Figura 6.25: Funcin de densidad de un modelo normal multidimensional junto o a sus curvas de nivel. este caso, tridimensional. Las curvas de nivel, obtenidas como corte con planos paralelos al plano XY , las representamos en el grco derecho de la Figura a 6.25. Esta curvas de nivel son elipses de ecuacin o 2 2 x X x X y Y y Y 1 2XY = k, + 2(1 2 ) X X Y Y XY siendo k una constante. Dichas elipses est centradas en (X , Y ) y con oriena tacin denida por el signo del coeciente de correlacin. En la Figura 6.26 o o mostramos el comportamiento de la orientacin de las curvas de nivel con o respecto al signo del coeciente de correlacin, negativo (grco de la izquiero a da), nulo (grco central) y positivo (grco de la derecha). Observamos que a a su orientacin corresponde a la relacin directa o inversa existente entre las o o variables aleatorias X e Y . Como comentamos en el tema anterior, un coeciente de correlacin nulo, o indica slo independencia de tipo lineal entre ambas variables. En cambio, o adems las variables aleatorias X e Y son independientes. Por tanto, en el caso a del modelo normal multivariante, la independencia es equivalente a la ausencia o de dependencia de tipo lineal. Si XY = 1, la relacin lineal entre X e Y es perfecta y denida por la expresin Y = Y XY X + Y Y XY X . o si el vector aleatorio (X, Y ) sigue un modelo normal multivariante, entonces
171
ManualEs uEx
f(x,y)
y
x
Figura 6.26: Curva de nivel de la funcin de densidad de un modelo normal o multidimensional con coeciente de correlacin negativo (grco de la izquiero a da), nulo (grco central) y positivo (grco de la derecha). a a De modo anlogo a lo que suced para la familia de distribuciones normales, a a tenemos que la combinacin lineal de las coordenadas de un vector aleatoo rio con modelo normal multivariante es un modelo normal. Concretamente si
2 2 (X, Y ) es un modelo normal multivariante de parmetros X , Y , X , Y a
2 2 delo normal con media aX + bY y varianza a2 X + 2abXY X Y + b2 Y .
y XY , entonces la variable aleatoria aX + bY , con a, b R, sigue un moObservemos que, como aX + bY = a b X Y ,
la media y la varianza de la variable aleatoria aX + bY se obtiene a partir de las ecuaciones (5.2) y (5.3), expuestas en el tema anterior. Dado que los valores del vector aleatorio (X, Y ) son desconocidos a priori, en ocasiones, es de inters determinar regiones centradas en el vector de medias e o (X , Y ) donde garanticemos que los valores se concentran en dicha regin con cierta probabilidad. Para ello, nos basamos en las elipses denidas por las curvas de nivel. Asimismo, para facilitar los clculos, suponemos que las a
ManualEs uEx
variables aleatorias X e Y son independientes, es decir, XY = 0. En esta situacin, tenemos que la variable aleatoria o X X X 2 + Y Y Y 2 ,
172

sigue un modelo 2 de Pearson con 2 grados de libertad, por ser una suma de dos variables normales estndar al cuadrado independientes. Con todo ello, a jado p, con 0 < p < 1, tenemos que P X X X 2 + Y Y Y 2 2 (2) p = p,
donde 2 (2) es el cuartil de orden p de un modelo 2 de Pearson con 2 grados de p libertad. As con probabilidad p garantizamos que el valor del vector aleatorio , (X, Y ) se encuentra dentro de la elipse denida por la ecuacin o x X X 2 + y Y Y 2 = 2 (2). p
caso, para proponer una elipse tenemos que aplicar previamente una transformacin para obtener variables aleatorias independientes. o Ejemplo 6.21 Supongamos que las variables aleatorias X e Y describen el comportamiento probabil stico del error en la medicin de las coordenadas o cartesianas del punto Q = (QX , QY ) con respecto a un sistema de referencia ortogonal con origen en O. Supongamos tambin que el comportamiene to probabil stico del vector (X, Y ) es un modelo normal multivariante de parmetros X = Y = 0 (en media no se comete error en la medicin), a o
2 2 X = Y = 0.000025 y XY = 0 (las mediciones de las coordenadas se rea-
Cuando 0 < |XY | < 1, entonces las variables X e Y son dependientes. En este
lizan de manera independiente). Como 2 (2) = 5.991 (ver Cuadro A.4), 0.95 entonces con una probabilidad del 0.95 garantizamos que la posicin del puno to Q, determinada por las mediciones, yace en la circunferencia con centro (QX , QY ) y radio 0.012 = 5.991 0.000025. En la Figura 6.27 mostramos la regin de distribucin del error de medicin (grco de la izquierda) y la regin o o o a o de distribucin de las posiciones del punto Q determinadas por las mediciones o (grco de la derecha), ambas con una probabilidad de 0.95. a
173
ManualEs uEx
(0,0)
0.95
QY
0.95
QX
Figura 6.27: Regin de distribucin del error de medicin (grco de la izquiero o o a da) y regin de distribucin de la posicin del punto Q (grco de la derecha), o o o a ambas con una probabilidad de 0.95, para la situacin descrita en el Ejemplo o 6.21.
6.5.
cias:
Para la descripcin de un modelo uniforme discreto, utilizamos las senteno
Generar valores del experimento aleatorio asociado library(e1071); x<-rdiscrete(10000,prob=rep(1/5,5),value=1:5) plot(table(x)/length(x)) Para la descripcin de un modelo binomial, utilizamos las sentencias: o Calcular la funcin de probabilidad o n<-6; p<-0.25; x<-1; round(dbinom(x,n,p),3) Representar la funcin de probabilidad o plot(0:n,dbinom(0:n,n,p),xlab="x",ylab="p(x)",type="h",lwd=4)
ManualEs uEx 174
Calcular la funcin de distribucin o o x<-1; round(pbinom(x,n,p),3) Representar la funcin de distribucin o o
plot((-1):(n+1),pbinom((-1):(n+1),n,p),xlab="x", ylab="F(x)",type="s") Generar valores del experimento aleatorio asociado x<-rbinom(10000,n,p);plot(table(x)/length(x)) Para la descripcin de un modelo uniforme continuo, utilizamos las senteno cias: Calcular la funcin de densidad o a<--10; b<-10; x<-0; dunif(x,a,b) Representar la funcin de densidad o x<-seq(a-5,b+5,0.01) plot(x,dunif(x,a,b),xlab="x",ylab="f(x)",type="l") Calcular la funcin de distribucin o o x<-0; punif(x,a,b) Representar la funcin de distribucin o o x<-seq(a-5,b+5,0.01) plot(x,punif(x,a,b),xlab="x",ylab="F(x)",type="s") Generar valores del experimento aleatorio asociado x<-runif(10000,a,b); hist(x,prob=T); abline(h=0.05,lty=2) Para la descripcin de un modelo normal, utilizamos las sentencias: o Calcular la funcin de densidad o me<-0; vari<-1; x<-0; dnorm(x,me,sqrt(vari)) Representar la funcin de densidad o
175
ManualEs uEx
x<-seq(-3.25,3.25,0.1) plot(x,dnorm(x,me,sqrt(vari)),type="l",xlab="x",ylab="f(x)") Calcular la funcin de distribucin o o x<-0; pnorm(x,me,sqrt(vari)) Representar la funcin de distribucin o o x<-seq(-3.25,3.25,0.1) plot(x,pnorm(x,me,sqrt(vari)),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qnorm(p,me,sqrt(vari)),3) Generar valores del experimento aleatorio asociado x<-rnorm(10000,me,sqrt(vari)); hist(x,prob=T) x<-seq(-3.25,3.25,0.1);lines(x,dnorm(x,me,sqrt(vari))) Para situacin descrita en el Ejemplo 6.14, utilizamos las sentencias: o Generar 1000 valores de cada modelo normal x<-rnorm(10000,5,0.003);y<-rnorm(10000,7,0.004); z<-x+y Representar y comparar los valores generados hist(z,br=50,prob=T,xlab="x+y",ylab="f(x+y)",main=) lines(x<-seq(min(z),max(z),0.0001),dnorm(x,12,sqrt(0.000025))) Para mostrar la aproximacin del modelo binomial por el normal, utilizamos o
ManualEs uEx 176
las sentencias: plot(0:30,dbinom(0:30,30,0.5),xlab="x",ylab="p(x)",type="h", lwd=21, ylim=c(0,.15),col="gray",xlim=c(5,25)) lines(x<-seq(5,25,0.1),dnorm(x,15,sqrt(7.5)))

Para la descripcin de un modelo 2 de Pearson, utilizamos las sentencias: o Calcular la funcin de densidad o n<-5; x<-0; dchisq(x,n) Representar la funcin de densidad o x<-seq(0,20,0.01) plot(x,dchisq(x,n),type="l",xlab="x",ylab="f(x)") Calcular la funcin de distribucin o o x<-0; pchisq(x,n) Representar la funcin de distribucin o o x<-seq(0,20,0.01) plot(x,pchisq(x,n),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qchisq(p,n),3) Para la descripcin de un modelo t de Student, utilizamos las sentencias: o Calcular la funcin de densidad o n<-2; x<-0; dt(x,n) Representar la funcin de densidad o x<-seq(-8,8,0.1); plot(x,dt(x,n),type="l",xlab="x",ylab="f(x)") Calcular la funcin de distribucin o o x<-0; pt(x,n) Representar la funcin de distribucin o o
177
ManualEs uEx
x<-seq(-8,8,0.1); plot(x,pt(x,n),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qt(p,n),3) Para la descripcin de un modelo F de Snedecor, utilizamos las sentencias: o Calcular la funcin de densidad o n<-8; m<-6; x<-0; df(x,n,m) Representar la funcin de densidad o x<-seq(0,15,0.1) plot(x,dt(x,n,m),type="l",xlab="x",ylab="f(x)") Calcular la funcin de distribucin o o x<-0; pf(x,n,m) Representar la funcin de distribucin o o x<-seq(0,15,0.1) plot(x,pf(x,n,m),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qf(p,n,m),3) Para la descripcin de un modelo multinomial, utilizamos las sentencias: o Calcular la funcin de probabilidad conjunta o
ManualEs uEx 178
library(stats); pA<-0.6; pB<-0.2; x<-c(1,0,1) dmultinom(x,size=2,prob=c(pA,pB,1-pA-pB)) Para la descripcin de un modelo normal multidimensional, utilizamos las o sentencias:

Calcular la funcin de densidad o library(mvtnorm); xy<-c(0,0); me<-c(0,0) matrizcov<-diag(c(0.005,0.005)); dmvnorm(xy,me,matrizcov) Representar la funcin de densidad conjunta o f<-function(x,y,me=c(0,0),matrizcov=diag(c(0.005,0.005))) {dmvnorm(c(x,y),c(0,0),matrizcov)} x<-seq(-0.125,0.125,0.001); y<-x; z<-outer(x,y,f) persp(x,y,z,theta=1400,phi=30,expand=0.5) Representar curvas de nivel contour(x,y,z,levels=1,lty="solid",drawlabels=F,axes=F) Generar valores del experimento aleatorio asociado n<-1000; xy<-rmvnorm(n,me,matrizcov); plot(xy)
6.6.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si las variables aleatorias X e Y son independientes y siguen un modelo U [a, b], entonces la variable aleatoria X + Y sigue un modelo U [2a, 2b]. ii) Si la variable aleatoria X sigue un modelo normal N (25, 1), entonces se verica que P (X 25) = 0.5. iii) Si las variables aleatorias X e Y son independientes y siguen un modelo normal de media 0 y varianza 2. iv) Si la variable aleatoria X sigue un modelo normal estndar, entonces se a verica que P (X 1) + P (X 1) > 1.
179
ManualEs uEx
normal estndar, entonces la variable aleatoria X + Y sigue un modelo a

v) Si la variable aleatoria X sigue un modelo t de Student con 2 grados de libertad, entonces P (X 2) + P (X 2) = 1. vi) Una variable aleatoria X que slo toma dos valores sigue una distribucin o o de Bernoulli. vii) Si la variable aleatoria X sigue un modelo normal de media 5, entonces P (X 10) > P (X 1). viii) La covarianza de las variables aleatorias de un modelo multinomial es siempre negativa. 2. Supongamos que de las 5 estaciones totales existentes en el Centro Universitario de Mrida, 2 estn mal calibradas. Adems, supongamos que para la e a a prctica de cierta asignatura, se requieren 35 sesiones a lo largo del curso y a que en cada sesin se adjudica de manera aleatoria una de las 5 estaciones o existentes. Responder razonadamente las siguientes cuestiones. i) Calcular el nmero esperado de estaciones totales bien calibradas asigu nadas en las 35 sesiones. ii) Determinar la probabilidad de que en las 35 sesiones se trabaje con aparatos mal calibrados. iii) Determinar la probabilidad de que al menos se asignen 30 estaciones totales bien calibradas en las 35 sesiones. 3. Supongamos que el comportamiento probabil stico de las mediciones de cierta distancia realizadas con un distancimetro con apreciacin en mil o o metros lo describe una variable aleatoria X, que sigue un modelo normal de media 24.346 m. y varianza 0.000025 m2 .
ManualEs uEx
i) Calcular P (24.336 X 24.356) y P (24.331 X 24.361). ii) Si consideramos que la medicin obtenida es at o pica si dista ms de a 10 mil metros del valor esperado, calcular la probabilidad de obtener al menos una medicin at o pica en 3 mediciones realizadas de manera independiente.
180

iii) Calcular el nmero m u nimo de mediciones para garantizar con probabilidad de 0.2 que al menos una medicin es at o pica. 4. Supongamos que las mediciones de cierta distancia son realizadas de manera independiente con un distancimetro que la mitad de las veces subestima dicha o distancia y la otra mitad de veces la sobreestima. Para cada n 1, denotemos n por Sn = i=1 Xi , donde Xi es una variable aleatoria que toma el valor 1 si el error cometido en la i-sima medicin es positivo y 1 si el error cometido en e o dicha medicin es negativo. Contestar razonadamente las siguientes cuestiones. o i) Determinar el valor esperado de la variable aleatoria Sn . ii) Calcular la funcin de probabilidad de la variable aleatoria S2 . o iii) A partir de la distribucin binomial, determinar la funcin de probabilio o dad de la variable aleatoria S15 . iv) Aplicando el teorema central del l mite, aproximar P (30 S100 30). 5. Determinar x1 y x2 tales que P (X x1 ) = P (X x2 ) = 0.05, cuando la variable aleatoria X sigue i) Un modelo 2 de Pearson con 6 grados de libertad ii) Un modelo t de Student con 4 grados de libertad. iii) Un modelo F de Snedecor con 4 y 5 grados de libertad. 6. Utilizando el software estad stico R y valores generados de un modelo uniforme U (5, 5), mostrar que la suma de dos variables aleatorias con modelo uniforme continuo no sigue un modelo uniforme. Discutir cul es el modelo de a probabilidad ms adecuado para describir dicha suma, cuando el nmero de a u sumandos aumenta.
181
ManualEs uEx
Bloque Temtico III a Teor de muestras a
183
ManualEs uEx
Tema 7 Introduccin a la Teor de o a muestras

7.1. Introduccin o
Una vez conocida la funcin de probabilidad o de densidad de una variao ble aleatoria, es posible determinar su comportamiento probabil stico y el del carcter que describe. Sin embargo, lo habitual es que, ya sea por razones a econmicas, de tiempo o f o sicas, no tengamos acceso a todos los individuos de la poblacin y por tanto no podemos determinar dichas funciones. En la o prctica slo dispondremos de un conjunto de datos obtenidos al tomar los a o valores del carcter sobre un subconjunto de la poblacin al que denominamos a o muestra. A partir de estos datos podemos extraer informacin sobre la distrio bucin de probabilidad de la variable que describe al carcter bajo estudio, o a utilizando las tcnicas que expondremos en el bloque temtico de inferencia e a estad stica. Pero para que este proceso de inferencia aporte resultados ables, los individuos de la muestra han de representar adecuadamente el comportamiento de toda la poblacin en relacin al carcter bajo estudio. La Teor de o o a a una muestra representativa de una poblacin. En este tema expondremos los o aspectos fundamentales de esta teor y analizaremos las propiedades de la a media y la cuasivarianza muestral bajo la hiptesis de que los datos proceden o de una variable que sigue un modelo normal. muestras estudia procedimientos, basados en el azar, destinados a seleccionar
185
ManualEs uEx
7.2.
Muestreo aleatorio simple
Como hemos comentado, cuando no es posible determinar el valor de una variable en todos los elementos de la poblacin, seleccionamos un conjunto de o individuos representativos, al que denominamos muestra. Para que la muestra sea representativa es preciso que el proceso de seleccin sea aleatorio y que cao da elemento de la poblacin tenga la misma oportunidad de ser incluido en la o muestra. Al conjunto de datos obtenidos tras realizar este tipo de muestreo lo denominamos muestra aleatoria simple. El procedimiento de obtencin de una o muestra aleatoria simple depende de las caracter sticas de la poblacin. Si los o elementos de la poblacin existen conceptualmente, pero no en la realidad, coo mo sucede en el caso de las mediciones, las observaciones las obtenemos de manera consecutiva, repitiendo el experimento aleatorio de manera independiente bajo condiciones idnticas para los factores que son controlables. En cambio, e cuando la seleccin la realizamos en una poblacin de elementos tangibles, el o o nmero total de elementos es nito. En esta situacin, cada elemento de la u o muestra lo seleccionamos al azar de entre todos los elementos de la poblacin, o despus de reemplazar (devolver) a la poblacin el ultimo elemento seleccioe o nado. Para seleccionar un elemento al azar, enumeramos consecutivamente los elementos de la poblacin y mediante un software estad o stico generamos un valor de un modelo uniforme discreto, siendo los ndices asignados su espacio muestral. Dicho valor indica el elemento a seleccionar. Este procedimiento de seleccin implica que las repeticiones son independientes y que en cada repetio cin los elementos de la poblacin son equiprobables. En ocasiones, cuando el o o tamao de la poblacin es mayor que 30 y el tamao de la muestra no supera n o n el 10 % del total, el elemento seleccionado puede no ser reemplazado y la muestra obtenida la consideramos aleatoria, pues las condiciones probabil sticas son muy parecidas en cada seleccin. Si no hay reemplazamiento y las condiciones o no se satisfacen, entonces cada seleccin depende de las anteriores y la mueso tra no es aleatoria. Notemos que el tamao de la muestra aleatoria simple es n menor que el tamao de la poblacin, puesto que si podemos observar toda la n o poblacin conocemos la distribucin del carcter. o o a
186
ManualEs uEx

Ejemplo 7.1 Supongamos que estamos interesados en determinar el comportamiento probabil stico de la variable aleatoria X descrita en el Ejemplo 6.3, asociada al experimento de seleccionar al azar una estacin total de las 5 exiso tentes en el almacn del Centro Universitario de Mrida. En esta situacin X e e o sigue un modelo de Bernoulli que toma el valor 0 si la estacin total est mal o a calibrada y el valor 1 si est bien calibrada, siendo p un parmetro desconoa a cido. Una muestra aleatoria simple de tamao 4 puede ser {1, 0, 1, 1} que con rresponde a la observacin de los sucesos elementales {ET 4, ET 2, ET 3, ET 4}. o Observemos que como es una muestra aleatoria simple, el reemplazamiento
est permitido y por tanto alguna estacin puede repetirse en la seleccin. En a o o esta situacin, un muestreo sin reemplazamiento no ser considerado como o a una muestra aleatoria simple, pues una vez conocidos los sucesos elementales de las 4 primeras selecciones, estar determinado un a vocamente el resultado de la ultima seleccin. Notemos tambin que si extraemos otra muestra aleato o e ria simple, los valores obtenidos variarn en general con respecto a la muestra a anterior. Desde un punto de vista prctico, no es fcil decidir cundo se estn mana a a a teniendo condiciones idnticas durante el proceso de obtencin de los datos. e o Adems, como una muestra aleatoria simple es ms representativa cuanto ms a a a homogneos son los elementos de la poblacin con respecto a la caracter e o stica a estudiar, cuando disponemos de informacin extra sobre los elementos de la o poblacin, conviene tenerla en cuenta al seleccionar la muestra. A partir de o esta informacin, dividimos la poblacin en estratos disjuntos, de modo que los o o elementos de cada estrato sean homogneos y con comportamiento diferente e respecto a los elementos de los otros estratos. Una vez formados los estratos, extraemos una muestra aleatoria simple de cada uno de ellos. La muestra total la denominamos muestras aleatorias simples independientes. Por ejemplo, si para medir cierta distancia o ngulo utilizamos dos procedimientos diferentes, a utilizado, pues ste puede inuir en el comportamiento de la medicin. As e o , tenemos un conjunto de mediciones realizadas con el primer procedimiento y otro con las mediciones realizadas con el segundo. De cada uno de estos conjuntos extraemos una muestra aleatoria simple y la unin de ambas constituyen o
187
ManualEs uEx
es interesante clasicar las mediciones atendiendo al tipo de procedimiento

la muestra. Observemos que el tama o de cada muestra puede ser diferente, n al igual que el tamao de cada estrato. n Como ya hemos comentado, los valores que tomamos en una muestra aleatoria simple se caracterizan por ser seleccionados de manera independiente y por representar el comportamiento probabil stico de la variable aleatoria X bajo estudio. Matemticamente, una muestra aleatoria simple de tamao n es la a n realizacin de un vector formado por n variables aleatorias, X1 , . . . , Xn , ino dependientes y cada una de ellas con la misma distribucin que la variable o aleatoria X. As Xi representa el valor de la variable aleatoria X para la , observacin i-sima. Dos realizaciones del vector aleatorio (X1 , . . . , Xn ), proo e porcionan en general dos muestras aleatorias diferentes. El comportamiento probabil stico de las muestras est relacionado con el comportamiento probaa bil stico de la variable aleatoria X. Concretamente, como las variables aleatorias son independientes, la funcin de probabilidad o de densidad conjunta o o del vector aleatorio (X1 , . . . , Xn ) es el producto de la funcin de probabilidad o de densidad de la variable aleatoria X, segn sea discreta o continua, u respectivamente. Ejemplo 7.2 Para la situacin descrita en el Ejemplo 7.1, tomando n = 4, o tenemos que P ((X1 , X2 , X3 , X4 ) = (1, 0, 1, 1)) = P (X1 = 1)P (X2 = 0)P (X3 = 1)P (X4 = 1) = p3 (1 p), siendo p la probabilidad de seleccionar al azar una estacin total bien calibrada, o es decir, P (X = 1) = p. As p3 (1p) es la probabilidad de que en una muestra , aleatoria simple de tamao 4 asociada al experimento aleatorio observemos que n slo la segunda estacin elegida est mal calibrada. o o e Como hemos indicado en la introduccin, la inferencia estad o stica se basa en
ManualEs uEx 188
la informacin proporcionada por una muestra aleatoria simple. Generalmeno te, dicha informacin es una funcin de los valores de la muestra, como por o o ejemplo la media muestral o la cuasivarianza muestral, que sintetizan el comportamiento del conjunto de datos. Pero en las tcnicas empleadas en inferene cia estad stica no slo es determinante la informacin contenida en los datos. o o
(X1 , . . . , Xn )
S2
Muestra 1 Muestra 2 . . . Muestra m
x1,1 , . . . , xn,1 x1,2 , . . . , xn,2 . . . x1,m , . . . , xn,m
x1 x2 . . . xm
s2 1 s2 2 . . . s2 m
Cuadro 7.1: Valores de X y S 2 , cuando hemos observado m muestras aleatorias simples. Como dichas funciones son variables aleatorias, tambin es de gran utilidad e conocer la distribucin de dichas funciones. Concretamente, si el vector aleao torio (X1 , . . . , Xn ) describe el comportamiento probabil stico de las muestras aleatorias simples de tama o n de la variable X, las variables aleatorias n X= X1 + . . . + Xn 1 y S2 = (Xi X)2 , n n 1 i=1
n
describen el comportamiento probabil stico de la media muestral y la cuasivarianza muestral, respectivamente. Observemos que a las variables aleatorias X y S 2 las denotamos con letras maysculas a diferencia de la media muestral u y cuasivarianza muestral de una muestra concreta fueron denotadas por x y s2 , respectivamente, en el bloque temtico referido a estad a stica descriptiva. Por tanto, x y s2 son los valores de las variables aleatorias X y S 2 , respectivamente, cuando la realizacin del vector (X1 , . . . , Xn ) es una muestra con o media muestral x y cuasivarianza muestral s2 . En el Cuadro 7.1 mostramos los valores de X y S 2 , cuando hemos observado m muestras aleatorias simples, donde xi,j denotan el valor de la i-sima observacin de la muestra j-sima, e o e y xj y s2 denota a la media muestral y cuasivarianza muestral, respectivaj mente, de la muestral j-sima. Observemos que los valores de la media y la e muestra aleatoria simple. Ejemplo 7.3 Supongamos que la variable aleatoria X describe el comportamiento aleatorio de observar cierta distancia, expresada en metros, con un
189
ManualEs uEx
cuasivarianza estn asociados a muestras, que son el resultado de obtener una a
800
400
200
15.245
15.250
15.255
15.260
0 0.00000
500
1000
600
1500
0.00005
0.00010
0.00015
Figura 7.1: Comportamiento de la media muestral (grco de la izquierda) y a la cuasivarianza muestral (grco de la derecha) de 10000 muestras aleatoa rias simples de tamao 5 extra n das de manera independiente del experimento aleatorio asociado a la variable X descrita en el Ejemplo 7.3. distancimetro con apreciacin en mil o o metros. A continuacin, mostramos dos o muestras aleatorias simples de tama o 5 del experimento aleatorio asociado a n X, junto a sus medias y cuasivarianzas muestrales. Muestra 1: 15.259, 15.257, 15.254, 15.257, 15.255; x1 = 15.256 m. y s2 = 0.0000038 m2 . 1 Muestra 2: 15.255, 15.251, 15.256, 15.256, 15.255; x2 = 15.255 m. y s2 = 0.0000043 m2 . 2 Observamos que a pesar de ser diferentes las medias y las cuasivarianzas muestrales de cada muestra, sus valores estn prximos y estarn relacionados con a o a el comportamiento probabil stico de la variable aleatoria X. En la Figura 7.1, mostramos el comportamiento de la media muestral (grco de la izquierda) y a la cuasivarianza muestral (grco de la derecha) de 10000 muestras aleatorias a simples de tamao 5 extra n das de manera independiente del experimento aleatorio asociado a X. Observemos que los valores estn asociados a muestras y a no a elementos de la poblacin asociada a la variable aleatoria. o A continuacin estudiamos la distribucin de las variables aleatorias X y S 2 , o o
ManualEs uEx 190
que denen la forma del histograma de los valores x y s2 dados en la Figura 7.1, cuando el nmero de muestras es sucientemente grande. Al comportamiento u probabil stico de dichas variables lo denominamos distribucin en el muestreo o de la media muestral y de la cuasivarianza muestral, respectivamente. Este comportamiento depende del tamao muestral, as como de la distribucin de n o

la variable aleatoria X. La distribucin normal y las distribuciones asociadas o al modelo normal estndar describen las distribuciones en el muestreo de X a y S 2 . En primer lugar estudiamos las distribuciones en el muestreo asociadas a una muestra aleatoria simple y nalmente las distribuciones en el muestreo asociadas a dos muestras aleatorias simples independientes.
7.3.
Distribucin en el muestreo de la media o muestral con varianza conocida
En lo que sigue suponemos que X es una variable aleatoria con media y varianza 2 . Teniendo en cuenta que X es una transformacin lineal de las vao riables aleatorias X1 , . . . , Xn , que son independientes, con media y varianza 2 , tenemos que X =
n n 1 1 2 2 2 , Xi = y X = 2 X i = n i=1 n i=1 n
es decir, el valor esperado para la media muestral es la media de la variable aleatoria X, independientemente del tamao muestral, y la varianza de la n media muestral es la n-sima parte de la varianza de la variable X. De este e hecho deducimos que la desviacin t o pica de la distribucin de muestreo de la o media muestral, a la que denominamos error estndar de la media, es / n. a Por tanto, a medida que aumenta el tamao de la muestra, la dispersin de n o los valores de la media muestral en torno al valor de la media de la variable se reduce, pues disponemos de mayor informacin de la variable aleatoria X. o Una vez determinado la media y la varianza de la variable aleatoria X, vamos a estudiar la distribucin de dicha variable. Para ello distinguimos dos casos, o atendiendo a si X sigue un modelo normal o no. Si X sigue un modelo normal de media y varianza 2 , teniendo en cuenta que un modelo normal, deducimos que la distribucin de muestreo de la media o muestral es tambin normal, con media y varianza 2 /n. En esta situacin, e o X y X pertenecen a la misma familia de distribuciones, aunque con parmetros a distintos.
191
ManualEs uEx
X es una transformacin lineal de variables aleatorias independientes siguiendo o
80
60
f(x)
f(x) 15.24 15.25 x 15.26 15.27
40
20
50
100
150
15.24
15.25 x
15.26
15.27
Figura 7.2: Funcin de densidad de la variable aleatoria X (grco de la izo a a quierda) y la funcin de densidad de la variable aleatoria X (grco de la o derecha) para la situacin descrita en el Ejemplo 7.4. o Ejemplo 7.4 Supongamos que la variable aleatoria X, que describe el comportamiento probabil stico del proceso de medicin del Ejemplo 7.3, sigue un o modelo normal N (15.254, 0.000025). El comportamiento de la media muestral de muestras aleatorias simples de tama o 5 es modelizado por la distribun cin normal N (15.254, 0.000005). En la Figura 7.2, mostramos la funcin de o o densidad de la variable aleatoria X (grco de la izquierda) y la funcin de a o densidad de la variable aleatoria X (grco de la derecha). Observamos que a la dispersin de la distribucin de muestreo asociada a la media muestral es o o menor que la de la variable, teniendo ambas la misma media. Como P (15.254 1.96 0.000005 X 15.254 + 1.96 0.000005) = 0.95, deducimos que el valor de la media muestral del 95 % de las muestras aleatorias simples de tamao 5 extra n das de manera independiente se encuentra entre 15.250 m. y 15.258 m. En la Figura 7.3, mostramos este hecho, comparando la funcin de densidad de X con los valores de la media muestral o de 10000 muestras aleatorias simples de tama o 5 extra n das de manera independiente del experimento aleatorio asociado a X. Notemos que la distancia entre los extremos del intervalo obtenido para la media de la variable aleatoria X es de 4 mil metros. Si pretendemos reducir esa distancia, tendremos que aumentar el tamao muestral, pues la dispersin se reduce. Dicha distancia n o est determinada por el cuantil de orden 0.975 de la normal estndar junto al a a error estndar de la media, independientemente del valor de dicha media. Por a
192
ManualEs uEx
150
100
0.95
50
15.245
15.250
15.255
15.260
15.265
0 15.245
50
100
150
15.250
15.255
15.260
15.265
Figura 7.3: Comparacin entre la funcin de densidad de X con los valores de o o la media muestral de 10000 muestras aleatorias simples de tama o 5 extra n das de manera independiente del experimento aleatorio asociado a X, descrito en el Ejemplo 7.4. ejemplo, si queremos que no diste ms de un mil a metro, el tamao muestral n n tiene que vericar que 1.96 0.001, n 2
o equivalentemente que 96.04 = 0.005 1.96 0.001 n,
es decir, el tamao muestral tiene que ser superior a 97 para que el valor de n la media muestral del 95 % de las muestras aleatorias simples no diste ms de a 1 mil metro de la media de la variable aleatoria X. Este hecho lo mostramos en la Figura 7.4, donde representamos la relacin entre el tamao muestral y o n la distancia a la media de la variable aleatoria X de los extremos del intervalo que contiene al 95 % de los valores de la media muestral. En cambio, si la variable aleatoria X no sigue un modelo normal no podemos garantizar que el comportamiento probabil stico de X est determinado por e una distribucin normal. Sin embargo, en virtud del teorema central del l o mite aproximar por un modelo normal con media y varianza 2 /n, siempre que el ximacin al modelo normal es independiente de la distribucin probabil o o stica de la variable aleatoria X. tamao muestral sea sucientemente grande (n 30). Observemos que la apron deducimos que la distribucin de muestreo de la media muestral la podemos o
193
ManualEs uEx
distancia
0.002 0
0.004
0.006
0.008
0.010
50 n
100
150
Figura 7.4: Relacin entre el tamao muestral y la distancia a la media de la o n variable aleatoria X de los extremos del intervalo que contiene al 95 % de los valores de la media muestral de muestras aleatorias simples del experimento aleatorio asociado a X, descrito en el Ejemplo 7.4. Ejemplo 7.5 Supongamos ahora que en la situacin descrita en el Ejemplo o 7.3, la variable aleatoria X sigue un modelo uniforme en el intervalo denido por los valores 15.239 y 15.269. En la Figura 7.5 mostramos el comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tamao muestral n, con n = 1 (grco de la izquierda), n = 5 (grco central) n a a y n = 36 (grco de la derecha), extra a das de manera independiente del experimento aleatorio asociado a X. Observamos como a medida que aumenta el tamao muestral el comportamiento de los datos es descrito mejor por la n funcin de densidad de un modelo normal de media y varianza 2 /n, siendo o = 15.254 y 2 = 0.000075, valores correspondientes a la media y la varianza, respectivamente, del modelo uniforme asociado a la variable aleatoria X. Teniendo en cuenta este hecho y tomando n = 36, obtenemos que 0.000075 0.000075 P 15.254 1.96 X 15.254 + 1.96 0.95, 6 6 es decir, el valor de la media muestral del aproximadamente el 95 % de las muestras aleatorias simples de tama o 36 extra n das de manera independiente se encuentra entre 15.253 m. y 15.255 m.
ManualEs uEx 194
Incluso cuando la variable aleatoria X es de naturaleza discreta, la distribucin o en el muestreo de la media muestral la podemos aproximar por un modelo normal siempre que el tamao muestral sea sucientemente grande. En el caso n particular que X tome como unicos valores el cero y el uno, es decir, siga
100
40
80
30
60
20
40
10
20
15.240
15.245
15.250
15.255
15.260
15.265
15.270
15.240
15.245
15.250
15.255
15.260
15.265
50
100
150
200
250
15.250
15.252
15.254
15.256
15.258
15.260
Figura 7.5: Comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tama o muestral n, con n = 1 (grco de la n a izquierda), n = 5 (grco central) y n = 36 (grco de la derecha), extra a a das de manera independiente del experimento aleatorio descrito en el Ejemplo 7.5. o un modelo de Bernoulli, interpretamos X como la proporcin de unos en la muestra. Ejemplo 7.6 Supongamos que la variable aleatoria X descrita en el Ejemplo 7.1, sigue un modelo de Bernoulli de parmetro p = 0.6, siendo p = P (X = 1). a Como el valor uno est asociado al suceso elemental de seleccionar al azar a una estacin total bien calibrada de entre las existentes en el almacn del o e Centro Universitario de Mrida, entonces la media muestral de una muestra e aleatoria simple de tamao n nos indica el porcentaje de estaciones totales bien n calibradas seleccionadas en las n repeticiones del experimento. Observemos que, en esta situacin, el nmero total de estaciones totales bien calibradas o u sigue un modelo binomial B(n, 0.6) (ver Ejemplo 6.5 para n = 2). Como = p = 0.6, 2 = p(1 p) = 0.24 y z0.95 = 1.645 (ver Cuadro A.3), obtenemos que P 0.6 1.645 0.24 0.24 X 0.6 + 1.645 0.90, n n
valor de la media (porcentaje) muestral de aproximadamente el 90 % de las muestras aleatorias simples de tama o 100 extra n das de manera independiente se encuentra entre 0.519 y 0.681.
195
ManualEs uEx
cuando n es sucientemente grande. Tomando n = 100, deducimos que el
7.4.
Distribucin en el muestreo de la cuasivao rianza muestral
A continuacin estudiamos el comportamiento probabil o stico de la variable aleatoria S 2 asociada a una muestra aleatoria simple. Tenemos que, si la varianza de la variable aleatoria X es 2 , entonces la media de la variable alean o toria S 2 es 2 , independientemente del tamao muestral y de la distribucin de la variable aleatoria X. Sin embargo, un resultado para la distribucin en o el muestreo de la cuasivarianza muestral slo es posible bajo el supuesto que o la variable X siga un modelo normal. En este caso, el modelo 2 de Pearson est asociado al comportamiento probabil a stico de la variable aleatoria S 2 . Concretamente, tenemos que si la variable aleatoria X sigue un modelo normal con media y varianza 2 , entonces la variable aleatoria (n 1)S 2 , 2 sigue una distribucin 2 de Pearson con n 1 grados de libertad. Observemos o que los grados de libertad obedecen a la idea de que conocido el valor de la media muestral de una muestra de tamao n, slo n 1 datos no estn n o a determinados. Adems, notemos que la distribucin de S 2 no depende de la a o magnitud de y es diferente a la de la variable aleatoria X. Ejemplo 7.7 Retornando a la situacin descrita en el Ejemplo 7.4, donde o la variable aleatoria X sigue un modelo normal N (15.254, 0.000025), tenemos que el comportamiento probabil stico de la cuasivarianza muestral de muestras aleatorias simples de tama o 5 es modelizado a partir de la distribucin 2 de n o Pearson con 4 grados de libertad. Como 4/0.000025=160000, obtenemos que la variable aleatoria 160000S 2 es un modelo 2 de Pearson con 4 grados de libertad. En la Figura 7.6 mostramos la funcin de densidad de la variable aleatoria o X (grco de la izquierda) y la funcin de densidad de la variable aleatoria a o 2 a 160000S (grco de la derecha). Como 2 (4) = 0.484 y 2 (4) = 11.143 0.025 0.975 (ver Cuadro A.4), tenemos que P (0.484 160000S 2 11.14329) = P (0.000003 S 2 0.000070) = 0.95. De ello deducimos que el valor de la cuasivarianza muestral del 95 % de las muestras aleatorias simples de tama o 5 extra n das de manera independiente
196
ManualEs uEx
80
60
f(x)
f(x)
40
0.10
0.15
0.95
20
15.24
15.25 x
15.26
15.27
0.00 0
0.05
5 x
10
15
Figura 7.6: Funcin de densidad de la variable aleatoria X (grco de la izo a a quierda) y la funcin de densidad de la variable aleatoria 160000S 2 (grco de o la derecha) para la situacin descrita en el Ejemplo 7.7. o se encuentra entre 0.000003 m2 . y 0.000070 m2 . Observemos que como en esta situacin 2 es conocido, hemos obtenido un intervalo para la distribucin o o de muestreo de la cuasivarianza muestral. En cambio, si el valor de 2 fuera desconocido, entonces el intervalo ser para el cociente entre la cuasivarianza a muestral y 2 , es decir, 0.484 S2 11.14329 P 2 = 0.95 4 4 Si la variable aleatoria X no sigue un modelo normal, la distribucin en el o muestreo de la cuasivarianza muestral no se ajusta a un modelo de probabilidad denido. En el siguiente ejemplo ponemos de maniesto este hecho. Ejemplo 7.8 Para la variable aleatoria X considerada en el Ejemplo 7.5, siendo X un modelo uniforme en el intervalo denido por los valores 15.239 y 15.269, tenemos que 2 = (0.03)2 /12 y (n 1)S 2 / 2 = 12(n 1)S 2 /(0.03)2 . En la Figura 7.7 mostramos el comportamiento de los valores de 12(n 1)S 2 /(0.03)2 para 10000 muestras aleatorias simples de tama o muestral n, n grados de libertad, para n = 5 (grco de la izquierda) y n = 10 (grco de la a a
derecha). Observamos que la funcin de densidad no se ajusta a la silueta del o histograma, siendo las discrepancias mayores al aumentar el tamao muestral. n
197
ManualEs uEx
junto a la funcin de densidad de la distribucin 2 de Pearson con n 1 o o
0.15
0.10
0.05
0.00
10
12
0.00 0
0.02
0.04
0.06
0.08
0.10
0.12
0.14
10
15
20
Figura 7.7: Comportamiento de los valores de 12(n 1)S 2 /(0.03)2 para 10000 muestras aleatorias simples de tama o muestral n, junto a la funcin de denn o sidad de la distribucin 2 de Pearson con n 1 grados de libertad, para o n = 5 (grco de la izquierda) y n = 10 (grco de la derecha), asociado a la a a situacin descrita en el Ejemplo 7.8. o
7.5.
Distribucin en el muestreo de la media o muestral con varianza desconocida
Como ya hemos comentado, si la variable aleatoria X sigue un modelo normal o de media y varianza 2 , la distribucin en el muestreo de la media muestral es un modelo normal de media y varianza 2 /n. Tipicando, tenemos que la variable aleatoria X n sigue un modelo normal estndar, y por tanto la distribucin en el muestreo a o de la distancia entre la media muestral y la media de la variable aleatoria slo o depende del tamao muestral y del valor de la varianza 1. Sin embargo, en la n mayor de las situaciones prcticas, el valor de la varianza es desconocido. En a a estos casos, como la variable aleatoria (n 1)S 2 2 sigue un modelo 2 de Pearson con n 1 grados de libertad, las variables X y S 2 son independientes, entonces obtenemos que la variable aleatoria X n S sigue un modelo t de Student con n 1 grados de libertad, siendo S (la cuasidesviacin t o pica) la ra cuadrada de S 2 . Teniendo en cuenta la relacin z o
198
ManualEs uEx

entre el modelo t de Student y el modelo normal estndar, observemos que al a reemplazar el valor constante por la variable aleatoria S, obtenemos mayor dispersin de la distribucin. o o Ejemplo 7.9 Si suponemos que la variable aleatoria X considerada en el Ejemplo 7.4 describe el comportamiento de las mediciones de una distancia calibrada de 15.254 m., entonces la variable aleatoria Y = X 15.254 describe
el comportamiento aleatorio del error medio cometido en 5 mediciones independientes de dicha distancia. Como la variable aleatoria X sigue un modelo
normal N (15.254, 0.000025) y z0.975 = 1.960 (ver Cuadro A.3), deducimos que 1.96 0.005 1.96 0.005 = 0.95, P Y 5 5 es decir, la magnitud del valor absoluto del error medio muestral del 95 % de las muestras aleatorias simples de tama o 5 no es superior a 4 mil n metros. En cambio, si no conocemos que = 0.005, como t0.975 (4) = 2.776 (ver Cuadro A.5), obtenemos que P 2.776 2.776 Y S 5 5 = 0.95,
es decir, la magnitud del valor absoluto del cociente entre el error medio muestral y la cuasivarianza muestral del 95 % de las muestras aleatorias simples de tamao 5 no es superior a 1.241. Por tanto, si la cuasivarianza muestral de una n muestra es 0.000005, obtenemos que el valor absoluto del error no es superior a 6 mil metros. Observemos que esta cota del error es superior a la obtenida anteriormente cuando el valor de la varianza era conocido. La base terica de o este hecho radica en que z0.975 < t0.975 (4).
7.6.
Distribucin en el muestreo de la difereno cia de dos medias muestrales

ManualEs uEx 199
Supongamos ahora que la poblacin bajo estudio la dividimos en dos subpoo blaciones tales que el comportamiento probabil stico de la caracter stica de inters en la primera subpoblacin est modelada por la variable aleatoria X e o a y la de la segunda poblacin por la variable aleatoria Y . Como hemos comeno tado anteriormente, esta situacin corresponde, por ejemplo, al experimento o

aleatorio de medir cierta distancia o ngulo con dos procedimientos diferena tes, siendo las mediciones realizadas con cada procedimiento una subpoblacin o de la poblacin total de mediciones. Asimismo, suponemos que las variables o aleatorias X e Y son modelos normales independientes de medias X y Y ,
2 2 y varianzas X y Y , respectivamente. El comportamiento probabil stico en
el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra de cada una de las subpoblaciones lo describen las da variables aleatorias, X=
2 SX =
X1 + . . . + XnX , nX
n
Y =
Y1 + . . . + YnY , nY
n
n siendo nX y nY los tamaos muestrales de las muestras aleatorias simples extra das de la primera y segunda poblacin, respectivamente. Observemos o que hemos extra las muestras aleatorias simples asociadas a cada poblacin do o de manera independiente. As el nmero total de datos es la suma de los , u tamaos muestrales. Como las muestras aleatorias simples son extra n das de manera independiente los tamaos muestrales pueden ser diferentes. n En lo que sigue estudiamos la distribucin en el muestreo de la diferencia de o las medias muestrales, es decir, la variable aleatoria X Y . Este estudio es de utilidad para valorar las discrepancias en el valor medio de las variables en ambas subpoblaciones. Asimismo, para comparar la discrepancias en la dispersin de las variables en ambas subpoblaciones, tambin consideramos o e el estudio de la distribucin en el muestreo del cociente de las cuasivarianzas o
2 2 muestrales, es decir, la variable aleatoria SX /SY .
X Y 1 1 2 (Xi X)2 y SY = (Yi Y )2 , nX 1 i=1 nY 1 i=1
7.6.1.
Muestras aleatorias simples independientes
ManualEs uEx 200
Como las variables aleatorias X e Y siguen modelos normales independientes

2 2 de medias X y Y , y varianzas X y Y , respectivamente, entonces, como
ya hemos comentado, las variables aleatorias X e Y siguen modelos normales

2 2 independientes de medias X y Y , y varianzas X /nX y Y /nY , respecti-
vamente. De todo ello, deducimos que el comportamiento probabil stico de la

variable aleatoria X Y lo describe una distribucin normal de media X Y o X Y (X Y ) 2 , 2 X Y nX + nY
2 2 y varianza X /nX + Y /nY . Tipicando, obtenemos que la variable aleatoria
sigue un modelo normal estndar. Adems, las variables aleatorias a a

2 2 (nY 1)SY (nX 1)SX y , 2 2 X Y
de libertad, respectivamente, y por tanto, la variable aleatoria

2 2 (nY 1)SY (nX 1)SX + , 2 2 X Y
son independientes y con modelos 2 de Pearson con nX 1 y nY 1 grados
teniendo en cuenta la denicin de la distribucin t de Student, deducimos o o que la variable aleatoria

XY 2 (X Y ) 2 X /nX +Y /nY
, sigue un modelo 2 de Pearson con nX + nY 2 grados de libertad. As
es un modelo t de Student con nX + nY 2 grados de libertad. Si las varianzas

2 2 son iguales, es decir, X = Y , obtenemos que la variable aleatoria
2 2 2 2 (nX 1)SX /X +(nY 1)SY /Y nX +nY 2
(nX 1)SX +(nY 1)SY nX +nY 2
vemos que en este ultimo caso, la variable aleatoria no depende de los valores de las varianzas, slo de las cuasivarianzas muestrales. o Ejemplo 7.10 Supongamos que para medir cierto angulo utilizamos de ma nera independiente dos teodolitos con apreciacin en segundos. Si las variables o que describen el comportamiento aleatorio de medir dicho ngulo con cada a uno de los teodolitos siguen modelos normales con medias y varianzas iguales,
sigue una distribucin t de Student con nX + nY 2 grados de libertad. Obsero
X Y (X Y ) 2 2
1 nX
1 nY
201
ManualEs uEx
1500
1500
1000
1000
500
500
32.5425
32.5430
32.5435
32.5440
32.5425
32.5430
32.5435
32.5440
0.0
0.1
0.2
0.3
Figura 7.8: Distribucin en el muestreo de la diferencia de medias muestrales o para el experimento aleatorio descrito en el Ejemplo 7.10. deducimos que la distribucin en el muestreo de la diferencia de medias mueso trales en muestras aleatorias simples de tama o 5 est asociada a la variable n a aleatoria X Y , 2 2
SX +SY 5
que sigue un modelo t de Student con 8 grados de libertad. En la Figura 7.8 mostramos el comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tama o 5 extra n das de manera independiente del experimento aleatorio asociado a X (grco de la izquierda) y a Y (grco a a central), junto a la funcin de densidad del modelo normal asociada a la diso tribucin en el muestreo de la media muestral. A partir de las 20000 muestras o aleatorias simples, 10000 para cada procedimiento, obtenemos 10000 valores 2 2 de la variable aleatoria 5(X Y )/ SX + SY . En el grco de la derecha de a
la Figura 7.8 mostramos el comportamiento de esos valores, junto a la funcin o de la densidad del modelo t de Student con 8 grados de libertad que describe su comportamiento. Como las medias de las variables aleatorias son iguales, entonces la diferencia de las medias muestrales est prxima a cero. a o
ManualEs uEx
7.6.2.
Muestras aleatorias relacionadas
En ocasiones las variables aleatorias X e Y no son independientes. En esta situacin, para cada elemento de la poblacin observamos el valor de las o o dos caracter sticas. As una muestra aleatoria simple de tamao n consiste , n en seleccionar al azar n individuos a los que observamos a la vez tanto el
202

valor de la caracter stica asociada a X como la caracter stica asociada a Y . Por tanto, una muestra aleatoria simple de tamao n, es una realizacin del n o vector ((X1 , Y1 ), . . . , (Xn , Yn )), siendo los vectores (Xi , Yi ) con i {1, . . . , n} independientes y con la misma distribucin que (X, Y ). A esta muestra la o entonces (D1 , . . . , Dn ), con Di = Xi Yi , i {1, . . . , n}, es una muestra aleadenominamos muestra aleatoria relacionada. Si denotamos por D = X Y , toria simple de tamao n asociada a la variable aleatoria D. Por tanto, si n suponemos que esta variable sigue un modelo normal, tenemos que D D n SD sigue un modelo t de Student con n 1 grados de libertad, donde D = X Y , D es la variable media muestral y SD es la ra cuadrada de la variable z el muestreo. Como comentamos en el Ejemplo 5.10, una situacin prctica donde las variao a bles aleatorias X e Y son consideradas dependientes es cuando describen las mediciones de dos ngulos horizontales utilizando la misma referencia. En este a caso, el valor de la variable aleatoria D es la diferencia de las mediciones de los dos ngulos. a
cuasivarianza muestral, ambas de la distribucin de la variable aleatoria D en o
7.7.
Distribucin en el muestreo del cociente de o dos cuasivarianzas muestrales
Para nalizar con el estudio de la distribucin en el muestreo con dos muestras o aleatorias simples independientes, consideramos a continuacin el comportao miento de las cuasivarianzas muestrales. Como las variables aleatorias
2 2 (nY 1)SY (nX 1)SX y , 2 2 X Y
de libertad, respectivamente, deducimos que la variable aleatoria

2 2 SX /X 2 / 2 SY Y
son independientes y siguen modelos 2 de Pearson con nX 1 y nY 1 grados
203
ManualEs uEx

sigue un modelo F de Snedecor con nX 1 y nY 1 grados de libertad.
Observemos que si las varianzas son iguales, entonces la variable aleatoria no depende de los valores de las varianzas, slo de las cuasivarianzas muestrales. o
Ejemplo 7.11 Retornamos a la situacin descrita en el Ejemplo 7.10 para o estudiar la distribucin en el muestreo del cociente de las cuasivarianzas mueso trales en muestras aleatorias simples de tama o 5. Teniendo en cuenta que las n varianzas de ambas variables son iguales, tenemos que la variable aleatoria
2 SX 2 , SY
sigue un modelo F de Snedecor con 4 grados de libertad, tanto en el numerador como en el denominador. En la Figura 7.7 mostramos el comportamiento de los valores de la distribucin de muestreo de la cuasivarianza muestral de 10000 o muestras aleatorias simples de tama o 5 extra n das de manera independiente del experimento aleatorio asociado a X (grco de la izquierda) y a Y (grco a a central), junto a la funcin de la densidad del modelo 2 de Pearson con 4 o grados de libertad que lo describe. A partir de las 20000 muestras aleatorias simples, 10000 para cada subpoblacin, obtenemos 10000 valores de la variable o 2 2 a aleatoria SX /SY . En el grco de la derecha de la Figura 7.9 mostramos el comportamiento de esos valores, junto a la funcin de la densidad del modelo o F de Snedecor, F (4, 4), que describe su comportamiento. Como las varianzas son iguales, lo ms probable es que el cociente de las cuasivarianzas muestrales a est cercano a uno. e
7.8.
Para estudiar el comportamiento probabil stico de la situacin descrita en o el Ejemplo 7.1, utilizamos las sentencias: Extraer muestras del experimento aleatorio
ManualEs uEx 204
n<-4; res<-sample(1:5,n,replace=T); as.numeric(res>=3) n<-4; res<-sample(1:5,n,replace=F); as.numeric(res>=3) Estudiar el comportamiento de las muestras
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
10
15
20
25
10
15
20
0.0 0
0.1
0.2
0.3
0.4
0.5
0.6
10
Figura 7.9: Distribucin en el muestreo de la diferencia del cociente de cuao sivarianzas muestrales para el experimento aleatorio descrito en el Ejemplo 7.11. res<-numeric() for(i in 1:10000){res<-rbind(res,sample(1:5,4,replace=T))} mean((res[,1]>=3)&(res[,2]<=2)&(res[,3]>=3)&(res[,4]>=3)) Para estudiar el comportamiento probabil stico de la situacin descrita en o el Ejemplo 7.4, utilizamos las sentencias: Extraer muestras del experimento aleatorio n<-5; res<-rnorm(n,15.254,0.005) Calcular la media muestral y la cuasivarianza muestral mean(res); var(res) Generar la distribucin en el muestreo de la media muestral o m<-10000; res<-rnorm(n*m,15.254,0.005) hist(apply(matrix(res,n,m),2,mean),xlab="",ylab="",main="",
Generar la distribucin en el muestreo de la cuasivarianza muestral o
205
ManualEs uEx
br=50, prob=T) x<-seq(15.245,15.265,0.0001) lines(x,dnorm(x,15.254,sqrt(0.000005)))
hist(160000*apply(matrix(res,n,m),2,var),xlab="",ylab="", main="",br=50,prob=T) lines(x<-seq(0,15,0.01),dchisq(x,4)) Determinar el tamao muestral n plot(n<-1:150,1.96*0.005/sqrt(n),type="l",xlab="n", ylab="distancia"); abline(h=0.001,lty=2)
Para estudiar el comportamiento probabil stico de la situacin descrita en o el Ejemplo 7.5, utilizamos las sentencias: Extraer muestras del experimento aleatorio n<-5; res<-runif(n,15.239,15.269) Calcular la media muestral y la cuasivarianza muestral mean(res); var(res) Generar la distribucin en el muestreo de la media muestral o m<-10000; res<-runif(n*m,15.239,15.269) hist(apply(matrix(res,n,m),2,mean),xlab="",ylab="",main="", br=50,prob=T); x<-seq(15.239,15.269,0.0001); lines(x,dnorm(x,15.254, sqrt(0.000075/5)),lty=2) Generar la distribucin en el muestreo de la cuasivarianza muestral o hist(4/((0.03)^2/12)*apply(matrix(res,n,m),2,var),xlab="", ylab="", main="",br=50,prob=T) lines(x<-seq(0,12,0.01),dchisq(x,4),lty=2)
206
ManualEs uEx

Para estudiar el comportamiento probabil stico de la situacin descrita en o el Ejemplo 7.10, utilizamos las sentencias: Extraer muestras del experimento aleatorio n<-5; resx<-rnorm(n,32.5432,0.0005) resy<-rnorm(n,32.5432,0.0005) Calcular la media muestral y la cuasivarianza muestral mean(resx); var(resx); mean(resy); var(resy) Generar la distribucin en el muestreo de la diferencia de medias muestrales o m<-10000 resx<-rnorm(n*m,32.5432,0.0005); resy<-rnorm(n*m,32.5432,0.0005) mx<-apply(matrix(resx,n,m),2,mean); my<-apply(matrix(resy,n,m),2,mean) cx<-apply(matrix(resx,n,m),2,var); cy<-apply(matrix(resy,n,m),2,var) hist((mx-my)/sqrt((cx+cy)/n),xlab="",ylab="",br=50,prob=T) lines(x<-seq(-7,7,0.01),dt(x,8)) Generar la distribucin en el muestreo del cociente de cuasivarianzas mueso trales hist(cx/cy,xlab="",ylab="",main="",br=150,prob=T) lines(x<-seq(0,10,0.01),df(x,4,4))
7.9.
ManualEs uEx 207
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si X1 , . . . , Xn es una muestra aleatoria simple de tamao n, entonces la n libertad. variable aleatoria S 2 sigue un modelo 2 de Pearson con n 1 grados de

ii) La dispersin de la variable aleatoria X disminuye al aumentar el tamao o n muestral. iii) Si la varianza de la variable aleatoria X es desconocida, entonces la o dispersin de la variable aleatoria X es mayor que la dispersin de dicha o variable cuando conocemos el valor de la varianza. iv) La distribucin en el muestreo de la media muestral coincide con la o distribucin de la variable aleatoria asociada. o v) El valor de un elemento de una muestra aleatoria simple condiciona a los valores de los otros elementos. 2. Calcular la funcin de probabilidad conjunta del vector aleatorio o (X1 , X2 , X3 , X4 ) considerado en el Ejemplo 7.2. Utilizando el software estad stico R y valores generados del experimento asociado comparar la probabilidad asociada a un vector numrico del espacio muestral. e 3. Supongamos que las mediciones de cierta distancia realizadas con un distancimetro con apreciacin en mil o o metros siguen una distribucin normal con o valor medio = 23.453 m. y varianza 2 = 0.000025 m2 . Consideremos muestras aleatorias simples de tamao 9 asociado al experimento aleatorio. n i) Calcular un intervalo en el cual se encuentre el 95 % de los posibles valores de la media muestral. ii) Determinar el tamao muestral necesario para que el 95 % de los valores n de la media muestral no disten ms de un mil a metro del valor de la medida. iii) Calcular un intervalo en el cual se encuentre el 95 % de los posibles valores de la cuasivarianza muestral.
ManualEs uEx 208
4. Utilizando el software estad stico R mostrar, para la situacin descrita en el o Ejemplo 7.6, la aproximacin de la distribucin en el muestreo de la proporcin o o o muestral a un modelo normal, cuando el tamao muestral es sucientemente n grande.

5. Utilizando el software estad stico R mostrar, para la situacin descrita en o el Ejemplo 7.9, que la distribucin en el muestreo de la media muestral es o un modelo t de Student, cuando la varianza de la variable aleatoria media muestral es desconocida. 6. Utilizando el software estad stico R mostrar, para la situacin descrita en o el Ejemplo 7.5, que la distribucin en el muestreo de la media muestral no o es un modelo t de Student, cuando la varianza de la variable aleatoria media muestral es desconocida. Qu sucede cuando el tamao muestral aumenta? e n 7. Si suponemos que las varianza de las variables aleatorias consideradas en 2 2 el Ejemplo 7.10, son X = 0.000025 y Y = 0.000009, utilizando el software estad stico R, mostrar que la distribucin en el muestreo de la variable aleatoria o X Y
2 2 SX +SY 5
es prxima a la de un modelo t de Student con 7 grados de libertad, donde el o tamao muestral de las muestras aleatorias simples es 5. n
209
ManualEs uEx
Bloque Temtico IV a Estad stica Inferencial
211
ManualEs uEx
Tema 8 Introduccin a la Teor de o a Estimacin o

8.1. Introduccin o
En un experimento aleatorio es habitual desconocer el comportamiento del carcter bajo estudio en el global de la poblacin debido a la imposibilidad a o de evaluar dicho carcter en todos y cada uno de los individuos. Para obtener a alguna informacin al respecto es necesario tomar una muestra representativa o de la poblacin, registrando el valor que toma el carcter o la variable asociada o a al mismo en cada uno de los individuos de dicha muestra. Una vez que disponemos de estos datos necesitamos herramientas para, de forma rigurosa, extraer conclusiones aplicables a toda la poblacin. Al conjunto de estas tcnicas lo o e denominamos Estad stica Inferencial. En el tema anterior, bajo el ep grafe de Teor de muestras, hemos estudiaa do el comportamiento probabil stico de la media y la cuasivarianza muestral en muestras aleatorias simples asociadas a un experimento aleatorio. En este bloque temtico exponemos las principales tcnicas utilizadas en Estad a e stica contenida en la muestra al global de la poblacin sino que tambin nos dan la o e posibilidad de valorar la abilidad de la informacin aportada por los datos. o Los fundamentos probabil sticos de todo este proceso residen en la Teor de a muestras.
213
ManualEs uEx
Inferencial. La mayor de estas tcnicas no slo generalizan la informacin a e o o

Dependiendo de las hiptesis que estemos dispuestos a asumir a la hora de o modelizar el experimento aleatorio, distinguiremos dos tipos de Estad stica Inferencial: paramtrica y no paramtrica . En la estad e e stica paramtrica sue ponemos, atendiendo a la naturaleza del experimento aleatorio, que el comportamiento probabil stico del carcter es descrito por alg n modelo de probabilia u dad concreto del que slo desconocemos ciertos parmetros. En esta situacin o a o el inters del proceso inferencial se centra en los parmetros que determinan el e a modelo de probabilidad. En cambio, en inferencia no paramtrica no imponee mos restricciones sobre la distribucin de la variable aleatoria y nuestro inters o e se centra no tanto en parmetros como en caracter a sticas ms generales de la a distribucin de probabilidad. o En cualquier caso, los mtodos de la Estad e stica Inferencial se clasican, a grandes rasgos, en estimacin y contraste de hiptesis. En general, la estio o macin consiste en aproximar los parmetros poblacionales mediante ciertos o a valores numricos obtenidos a partir de los datos. El contraste de hiptesis tiee o ne como nalidad decidir sobre la verdad o falsedad de determinadas hiptesis o acerca del carcter bajo estudio, valindose para ello de un mecanismo que ha a e de ser objetivo y construido en base a los datos al que denominaremos test de hiptesis. o Ejemplo 8.1 Supongamos que estamos interesados en conocer el comportamiento probabil stico de las mediciones realizadas con un distancimetro con o apreciacin en mil o metros asociadas al experimento aleatorio de medir una distancia calibrada de valor nominal 7 m. Como el conjunto de mediciones posibles es de cardinal innito, en primer lugar, extraemos una muestra aleatoria simple de mediciones de la distancia calibrada. A partir de la informacin de la o muestra realizamos inferencia sobre el comportamiento de todas las mediciones, aplicando para ello mtodos de inferencia estad e stica. Si suponemos que un modelo normal es apropiado para describir dicho comportamiento, enton-
ManualEs uEx 214
ces una situacin paramtrica puede ser asumida y las inferencias se centrarn o e a en los parmetros media y varianza de la variable aleatoria. Determinar estos a parmetros es de vital importancia, pues si en el proceso de medicin no ina o tervienen ms errores que el aleatorio, entonces la media representa el valor a real de la distancia medida por el distancimetro y la varianza la dispersin o o

de las mediciones. En este contexto, los mtodos de estimacin consisten en e o asignar valores a los parmetros media y varianza, atendiendo a la media y a a la cuasivarianza muestral as como a sus distribuciones en el muestreo. Por otro lado, puede ser de inters contrastar si el valor real de la distancia medida e por el distancimetro coincide con la magnitud de la distancia calibrada, es o decir, = 7, o por el contrario es diferente. Cuando no suponemos un modelo de probabilidad asociado al comportamiento probabil stico de la variable aleatoria, entonces se aplican mtodos de inferencia no paramtrica y las infee e rencias se centran en la distribucin de la variable. En este contexto, podemos o preguntarnos, por ejemplo, si un modelo normal es apropiado para describir el comportamiento probabil stico de las mediciones y responder a esta pregunta mediante un contraste de hiptesis. o En lo que sigue estudiamos los principales mtodos de estimacin utilizados e o en estad stica inferencial paramtrica, mientras que en el siguiente tema cone sideramos los test de hiptesis. En estimacin distinguimos entre estimacin o o o puntual, que consiste en aproximar valores de los parmetros del modelo a a partir de los datos de la muestra, y estimacin por intervalo, en el que se proo porcionan rango de valores, tambin dependientes de los datos de la muestra, e que con una abilidad alta contienen a dichos parmetros. a
8.2.
Estimacin puntual de la media y la vao rianza
En todo lo que sigue, suponemos que la variable aleatoria X, que describe el comportamiento probabil stico del carcter de inters, sigue un modelo normal a e de media y varianza 2 , siendo y 2 parmetros desconocidos. El objetivo a que nos proponemos es aproximar mediante una estimacin puntual dichos o parmetros, a partir de la informacin proporcionada por una muestra aleatoa o ria simple de tamao n extra del experimento aleatorio. Para ello hacemos n da uso de las variables aleatorias media muestral y cuasivarianza muestral, X= X1 + . . . + Xn 1 y S2 = (Xi X)2 , n n 1 i=1
n
215
ManualEs uEx

siendo X1 , . . . , Xn un vector formado por n variables aleatorias, independientes y cada una de ellas con la misma distribucin que la variable aleatoria X. o Los valores de estas variables son estimaciones puntuales de los parmetros a y dependen de la muestra. Como X = y S 2 = 2 , es decir, la media de la distribucin de muestreo de la media muestral y de la cuasivarianza o muestral de muestras aleatorias simples coinciden con la media y la varianza de la variable, respectivamente, entonces la media muestral y la cuasivarianza muestral de una muestra proporcionan estimaciones adecuadas para aproximar a y 2 , respectivamente. El porqu de usar la cuasivarianza muestral en e lugar de la varianza muestral para estimar la varianza queda explicado por el hecho que S 2 = 2 . Adems, la media muestral y la cuasivarianza muestral a proporcionan las estimaciones ms precisas posibles de la media y la varianza, a respectivamente. Ejemplo 8.2 Supongamos que la distribucin de las mediciones asociadas o al experimento aleatorio descrito en el Ejemplo 8.1 sigue un modelo normal. Adems, por las especicaciones del distancimetro sabemos que la dispersin a o o en la mediciones es de 5 mil metros. Por tanto, en esta situacin, la variable o aleatoria que describe el comportamiento probabil stico de las mediciones sigue un modelo normal de media desconocida y varianza 2 = 0.000025 m2 . Para aproximar el valor de la media, extraemos una muestra aleatoria simple de tamao 4, obtenindose los valores n e Muestra: 7.001, 7.005, 6.993, 7.004. Como x = 7.001 m., entonces una estimacin puntal del valor de la media o de la variable es 7.001 m. En general, este no es el valor de la media aunque s prximo. Notemos que el valor de la cuasivarianza muestral es 0.000029 m2 , o que es prximo al valor real de la varianza. o
ManualEs uEx 216
La media muestral es una estimacin puntual adecuada de la media de la o variable aleatoria, incluso cuando sta no sigue un modelo normal. As si la e , variable aleatoria sigue un modelo de Bernoulli con parmetro p, entonces la a media muestral proporciona una estimacin puntual de la proporcin p. o o

Ejemplo 8.3 Supongamos que estamos interesados en determinar el comportamiento probabil stico de la variable aleatoria X descrita en el Ejemplo 6.3, asociada al experimento de seleccionar al azar una estacin total bien calibrada o de las 5 existentes en el almacn del Centro Universitario de Mrida. En esta e e situacin X es un modelo de Bernoulli que toma el valor 0 si la estacin total o o est mal calibrada y el valor 1 si est bien calibrada, siendo p = P (X = 1) un a a parmetro desconocido. Si la muestra aleatoria simple de tamao 4 extra a n da del experimento es {1, 0, 1, 1}, entonces la estimacin puntual del parmetro o a p dada por la media muestral es 0.75, indicndonos la proporcin de estacioa o Esta proporcin es una aproximacin de la distribucin de estaciones totales o o o bien calibradas existentes en el almacn. e Observemos que la estimacin puntual de la media y de la varianza depende o de la muestra, y por tanto, no coinciden en general con el valor real de estos parmetros. As pues, una estimacin puntual tiene que venir acompaada de a o n la abilidad en el muestreo de dicho valor. A continuacin estudiamos mtodos o e de estimacin por intervalo, donde valoramos a travs de un intervalo dicha o e abilidad. Este estudio lo dividimos por parmetros y tipo de muestra como a sigue. nes totales bien calibradas seleccionadas en las 4 repeticiones del experimento.
8.3.
Estimacin por intervalo de la media o
Como hemos comentado anteriormente, una estimacin puntual de la media o de la variable es la media muestral. Sin embargo una respuesta de este tipo no es del todo satisfactoria, pues la estimacin depende de la muestra y no o proporcionamos el error que cometemos en la estimacin. Dado que la media es o desconocida y la muestra es aleatoria, no podemos obtener una cota de dicho error. Para proponer un intervalo distinguimos si la varianza de la variable aleatoria es conocida o no.
217
ManualEs uEx
x z1 2 1 2 + z1 2 n
x + z1
x z1
x + z1
z1
z1
2 1 2 + z1 2 n
z1
2 1 2 + z1 2 n
Figura 8.1: Comportamiento de la distribucin en el muestreo de la media o muestral y de los intervalos de conanza para la media de un modelo normal.
8.3.1.
Con varianza conocida
Si la variable aleatoria X sigue un modelo normal de media y varianza 2 , siendo este ultimo parmetro un valor conocido, hemos estudiado en el blo a que temtico anterior que la distribucin de muestreo de la media muestral de a o muestras aleatorias simples de tama o n sigue un modelo normal de media n y varianza 2 /n. Teniendo en cuenta las propiedades del modelo normal, obtenemos que el 100(1 ) % de las medias muestrales de la muestras aleatorias simples se encuentran en el intervalo z1/2 , + z1/2 , n n
donde (0, 1) y z1/2 es el cuantil de orden 1 /2 del modelo normal estndar. El comportamiento de la distribucin en el muestreo de la media a o muestral lo mostramos en la Figura 8.1. Observemos que el intervalo est cena trado en el valor real de la media y con semiamplitud z1/2 / n, que nos indica la distancia mxima del 100(1 ) % de las medias muestrales al valor a de la media. Por tanto, un intervalo de conanza para al nivel 1 es x z1/2 , x + z1/2 , n n
ManualEs uEx 218
al verdadero valor de la media , hecho que mostramos en la Figura 8.1. Si
garantizndose que el 100(1 ) % de los intervalos as construidos contienen a
el valor real de la media est incluido en el intervalo, el error de aproximar a dicho valor por la media muestral no ser superior a z1/2 / n, indepena dientemente de la magnitud de . Como utilizamos una muestra aleatoria que

contiene slo informacin parcial de la poblacin no podemos proporcionar una o o o armacin exacta, por eso la acompaamos de su nivel de conanza. Observeo n mos que ese nivel de conanza no es la probabilidad para que se encuentre dentro del intervalo, pues dicho valor estar o no estar en el intervalo. Como a a slo disponemos de una muestra, entonces slo proporcionamos un intervalo o o para cada nivel de conanza jo. En general, tomamos valores de pequeos, n siendo los ms habituales = 0.1, 0.05 y 0.01, que corresponden a los niveles a de conanza 0.9, 0.95 y 0.99, respectivamente. Como la amplitud del intervalo de conanza est determinada por la cantidad z1/2 / n, teniendo en cuena ta las propiedades de los cuantiles del modelo normal estndar deducimos que a al aumentar el nivel de conanza, la amplitud del intervalo tambin aumene ta. Asimismo, jado el nivel de conanza, la amplitud del intervalo disminuye al aumentar el tamao de la muestra, pues tenemos mayor informacin del n o comportamiento probabil stico de la poblacin. Una cuestin interesante es o o determinar el tamao muestral necesario para que la semiamplitud del intern valo de conanza sea menor que cierta magnitud d. Si el nivel de conanza es 1 , obtenemos que . d Puesto que el esfuerzo de muestro aumenta con el tamao de la muestra, n conviene tomar el menor valor de n que satisface la desigualdad anterior. Ejemplo 8.4 Para la situacin descrita en el Ejemplo 8.2, tenemos que = o 0.005 m., n = 4 y x = 7.001 m. Como z0.975 = 1.960 (ver Cuadro A.3), el intervalo de conanza para la media con un nivel de conanza de 0.95 es x z1/2 , x + z1/2 = (6.996, 7.006). n n As el valor medio de las mediciones realizadas con el distancimetro se en, o cuentra en el intervalo denido por los valores 6.996 y 7.006, con una conanza del 95 %. Observamos que, en este caso, el intervalo de conanza contiene al proporcionados con este mtodo no contiene a dicho valor. En el grco de la e a izquierda de la Figura 8.2 mostramos 50 intervalos de conanza para la media al nivel 0.95 correspondientes a 50 muestras aleatorias simples independientes, donde se pone de maniesto este hecho. n z
1/2
219
ManualEs uEx
verdadero valor de la distancia calibrada. Sin embargo, un 5 % de los intervalos
7.010
7.005
7.000
6.995
6.990
10
20
30
40
50
6.990 0
6.995
7.000
7.005
7.010
7.015
7.020
20
40 n
60
80
100
Figura 8.2: Comportamiento de los intervalos de conanza de la media al nivel 0.95 asociados a 50 muestras aleatorias simples (grco de la izquierda) y a evolucin de la estimacin, tanto puntual como por intervalo, de la media al o o aumentar el tamao muestral (grco de la derecha), para la situacin descrita n a o en el Ejemplo 8.4. Del mismo modo, como z0.95 = 1.645 y z0.995 = 2.576 (ver Cuadro A.3), obtenemos que los intervalos de conanza para la media a los niveles de conanza 0.9 y 0.99, son (6.997, 7.005) y (6.995, 7.007), respectivamente. Observemos que al aumentar la conanza, disminuye la precisin en la determinacin del o o valor de la media, pues aumenta la amplitud del intervalo. Cuando n = 4 y = 0.05, obtenemos que el intervalo de conanza acota al verdadero valor de la media con una precisin de 5 mil o metros y un 95 % de conanza, independientemente de la muestra seleccionada. Si queremos aumentar dicha precision, manteniendo el nivel de conanza, tenemos que aumentar el tamao muestral. Para obtener un intervalo de conanza para la media con n un nivel de conanza 0.95 tal que la precisin sea de un mil o metro, el tamao n muestral m nimo es de 97. En el grco de la derecha de la Figura 8.2 mosa tramos la evolucin de la estimacin, tanto puntual como por intervalo, de la o o media al aumentar el tamao muestral. n
8.3.2.
Con varianza desconocida
ManualEs uEx 220
En todo lo anterior, hemos supuesto conocida la magnitud de la varianza de la variable aleatoria X. Sin embargo, es posible proporcionar un intervalo de conanza para la media sin necesidad de conocer el valor de la varianza de la variable. Concretamente si X sigue una distribucin normal de media y o varianza 2 , ambos parmetros desconocidos, y n es el tama o muestral, hemos a n

comentado en el bloque temtico anterior que la distribucin en el muestreo a o de la variable aleatoria X , n S sigue un modelo t de Student con n 1 grados de libertad, siendo S la ra z
cuadrada de S 2 . Por tanto, S S P X t1/2 (n 1) X + t1/2 (n 1) = 1 , n n
donde (0, 1) y t1/2 (n 1) es el cuantil de orden 1 /2 del modelo t de el siguiente intervalo de conanza para con un nivel de conanza de 1
Student con n 1 grados de libertad. Teniendo esto en cuenta, construimos
cuando la varianza es descococida s s x t1/2 (n 1) , x + t1/2 (n 1) , n n
siendo s la ra cuadrada de la cuasivarianza muestral. Observemos que la z amplitud del intervalo de conanza cuando no conocemos el valor de la varianza es, en general, mayor que cuando conocemos el valor de la varianza, intervalo, el error cometido al aproximar dicho valor por la media muestral no ser superior a t1/2 (n 1)s/ n. Ahora bien, slo tenemos una conanza de a o a pues z1/2 t1/2 (n 1). Si el valor real de la media est incluido en el
(1 ) en que eso ocurra.
Ejemplo 8.5 Si para la situacin descrita en el Ejemplo 8.2, slo utilizamos la o o informacin proporcionada por la muestra y no las especicaciones del distano cimetro sobre su dispersin, tenemos que n = 4, x = 7.001 m. y s2 = 0.000029 o o m2 . Como t0.975 (3) = 3.182 (ver Cuadro A.5), el intervalo de conanza para la media con un nivel de conanza de 0.95 es s s x t1/2 (n 1) , x + t1/2 (n 1) = (6.992, 7.010). n n As la media del distancimetro se encuentra en el intervalo denido por los , o valores 6.992 y 7.010, con una conanza del 95 %. Observemos que el intervalo de conanza obtenido tiene amplitud mayor que el obtenido cuando conocemos el valor de la varianza.
221
ManualEs uEx

Para la construccin del intervalo de conanza para la media nos hemos bao sado en el hecho de que la distribucin en el muestreo de la media muestral o sigue un modelo normal. Si la variable aleatoria X no sigue un modelo normal pero el tamao muestral es sucientemente grande, comentamos en el bloque n temtico anterior que la distribucin en el muestreo de la media muestral se a o aproxima por un modelo normal. As la construccin de intervalos de conan, o za sigue siendo vlida, aunque de manera aproximada. Adems, si la varianza a a es desconocida, reemplazamos por s, la ra cuadrada de la cuasivarianza z muestral, que es una estimacin puntual de la desviacin t o o pica. En esta situacin y a efectos prcticos, la aproximacin proporciona buenos resultados o a o proporcin de cierta caracter o stica cualitativa. Para ello utilizamos el modelo de Bernoulli, cuyo parmetro es la proporcin a determinar. a o Ejemplo 8.6 Supongamos que hemos extra una muestra aleatoria simple do de tamao 100 del experimento aleatorio descrito en el Ejemplo 8.3, donde n la variable aleatoria asociada al experimento es un modelo de Bernoulli de parmetro p, con p = P (X = 1). Como el valor uno est asociado al suceso a a elemental de seleccionar al azar una estacin total bien calibrada de entre las o existentes en el almacn del Centro Universitario de Mrida, entonces la media e e muestral nos indica la proporcin de estaciones totales bien calibradas entre las o seleccionadas. Si x = 0.64 y s2 = 0.2304, como z0.975 = 1.96 (ver Cuadro A.3), el tamao muestral es sucientemente grande y nx(1 x) > 5, construimos el n intervalo de conanza para p al nivel de conanza 0.95 siguiente s s = (0.546, 0.734). x z1/2 , x + z1/2 n n As deducimos que el porcentaje de estaciones totales bien calibradas en el , Centro Universitario de Mrida se encuentra en el intervalo denido por los e valores 0.546 y 0.734, con una conanza aproximada del 95 %. Observemos que a partir de la muestra hemos realizado un proceso de inferencia estad stica para la media. El intervalo de conanza es un rango de valores en el que tenemos una conanza alta de que contenga al valor real de la media. No confundir este intervalo asociado al parmetro como un intervalo para el a rango de valores de la variable. para n 60. Una situacin de gran inters prctico es la determinacin de la o e a o
222
ManualEs uEx
2 1 2 2 2 2 1 2
Figura 8.3: Posicin de los cuantiles 2 (n 1) y 2 o /2 1/2 (n 1)) con respecto 2 a la funcin de densidad de la distribucin (n 1). o o
8.4.
Estimacin por intervalo de la varianza o
Cuando el valor de la varianza de una variable aleatoria que sigue un modelo normal es desconocido, una estimacin por intervalo del mismo es posible. o Este intervalo nos es de utilidad, por ejemplo, para valorar la variabilidad en las mediciones de un instrumento de medida, cuando no conocemos las especicaciones del mismo al respecto. Como estudiamos en el bloque temtico a anterior, la distribucin en el muestro de (n 1)S 2 / 2 es una distribucin 2 o o de Pearson con n 1 grados de libertad. Entonces tenemos que (n 1)S 2 (n 1)S 2 2 P 2 = 1 , 2 /2 (n 1) 1/2 (n 1)
donde (0, 1) y 2 (n 1) es el cuantil de orden /2 de un modelo 2 de /2
Pearson con n1 grados de libertad. En la Figura 8.3 mostramos la posicin de o de la distribucin 2 (n 1). Teniendo esto en cuenta, construimos el siguiente o los cuantiles 2 (n 1) y 2 o /2 1/2 (n 1) con respecto a la funcin de densidad
intervalo de conanza para 2 con un nivel de conanza de 1 (n 1)s2 (n 1)s2 , 2 . 2 1/2 (n 1) /2 (n 1)
la distribucin 2 de Pearson no es simtrica. Sin embargo, las propiedades o e e interpretacin del intervalo son anlogas a las del intervalo para la media. o a Notemos que si la variable aleatoria X no sigue un modelo normal, el intervalo de conanza anterior no es vlido para la varianza de la variable. a
223
ManualEs uEx
Observemos que el intervalo obtenido no es simtrico con respecto a s2 , pues e

Ejemplo 8.7 Si para la situacin descrita en el Ejemplo 8.2 no disponemos de o las especicaciones del distancimetro sobre su dispersin y slo utilizamos la o o o informacin proporcionada por la muestra, tenemos que n = 4 y s2 = 0.000029. o Como 2 (3) = 0.216 y 2 (3) = 9.348 (ver Cuadro A.4), por tanto, el 0.025 0.975 intervalo de conanza para la varianza con un nivel de conanza 0.95 es (n 1)s2 (n 1)s2 , 2 = (0.000009, 0.000403). 2 1/2 (n 1) /2 (n 1) As la varianza asociada al distancimetro se encuentra en el intervalo denido , o por los valores 0.000007 y 0.000306, con una conanza del 95 %.
8.5.
Estimacin por intervalo del cociente de o varianzas
En todo lo anterior, las inferencias estad sticas se han basado en la informacin o contenida en una muestra aleatoria simple. En lo que sigue, consideramos los mtodos de estimacin por intervalo para dos muestras aleatorias simples indee o pendientes. As suponemos que la poblacin bajo estudio la dividimos en dos , o subpoblaciones tal que el comportamiento probabil stico de la caracter stica de inters en la primera subpoblacin est modelada por la variable aleatoria e o a X y la de la segunda poblacin por la variable aleatoria Y . Un ejemplo de o esta situacin est asociado al experimento aleatorio de medir cierta distancia o a o ngulo con dos procedimientos diferentes, siendo las mediciones realizadas a con cada procedimiento una subpoblacin de la poblacin total de mediciones. o o Asimismo, suponemos que las variables aleatorias X e Y son modelos normales
2 2 independientes con medias X y Y , y varianzas X y Y , respectivamente.
El comportamiento probabil stico en el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra de cada una da de las subpoblaciones lo describen las variables aleatorias,
ManualEs uEx
X=
2 SX =
X1 + . . . + XnX , nX
n
Y =
Y1 + . . . + YnY , nY
n
224
X Y 1 1 2 (Xi X)2 y SY = (Yi Y )2 , nX 1 i=1 nY 1 i=1

siendo nX y nY los tamaos muestrales de las muestras aleatorias simples exn tra das de la primera y segunda poblacin, respectivamente. Como las variao bles aleatorias son independientes, los tamaos muestrales pueden ser iguales n o diferentes. Como tenemos dos muestras aleatorias simples, una para cada subpoblacin, o
2 a entonces x, s2 , y y s2 son estimaciones puntuales de los parmetros X , X , X Y 2 Y y Y , respectivamente.
En este modelo, adems del estudio individual de cada parmetro, es de inters a a e determinar intervalos para ciertas funciones de los mismos. Concretamente, proporcionamos intervalos de conanza para el cociente de varianzas y para la diferencia de medias. Si suponemos que X e Y describen el comportamiento probabil stico de las mediciones de una cierta distancia o ngulo con dos a instrumentos de medida diferentes, entonces un intervalo de conanza para el cociente de las varianza es util para comparar la precisin en la medicin de o o cada uno de estos instrumentos, considerndose de la misma precisin cuando a o el cociente sea la unidad. Asimismo, un intervalo de conanza para la diferencia de medias es de utilidad para la comparacin de la discrepancia en las o mediciones con cada instrumento. En primer lugar proporcionamos un intervalo de conanza para el cociente de varianzas. Como las muestras aleatorias simples asociadas a cada poblacin son o extra das de manera independiente, hemos comentado en el bloque temtico a
2 2 2 2 anterior que la distribucin en el muestreo de Y SX /X SY sigue un modelo o
donde (0, 1) y F/2 (nX 1, nY 1) es el cuantil de orden /2 del modelo F
la posicin de los cuantiles F/2 (nX 1, nY 1) y F1/2 (nX 1, nY 1) o con respecto a la funcin de densidad de la distribucin F (nX 1, nY 1). o o
de Snedecor con nX 1 y nY 1 grados de libertad. En la Figura 8.4 mostramos
225
ManualEs uEx
F de Snedecor con nX 1 y nY 1 grados de libertad. As 2 2 2 SY Y SY P F/2 (nX 1, nY 1) 2 2 F1/2 (nX 1, nY 1) 2 = 1 , SX X SX
(nX 1, nY 1)
2 F1
2
(nX 1, nY 1)
Figura 8.4: Posicin de los cuantiles F/2 (nX 1, nY 1) y F1/2 (nX 1, nY o 1)) con respecto a la funcin de densidad de la distribucin F (nX 1, nY 1). o o Teniendo esto en cuenta, construimos el siguiente intervalo de conanza para 2 2 el cociente de varianzas Y /X al nivel de conanza 1 s2 s2 Y Y F/2 (nX 1, nY 1) 2 , F1/2 (nX 1, nY 1) 2 . sX sX Observemos que el intervalo obtenido no es simtrico con respecto s2 /s2 , pues e Y X la distribucin F de Snedecor no es simtrica. Sin embargo, las propiedades e o e interpretacin del intervalo son anlogas a las de los intervalos para la media o a y la varianza. Por convenio, cuando calculamos intervalos de conanza del cociente de varianzas, en el numerador ponemos la varianza de la poblacin o que tiene mayor varianza muestral. Recordamos tambin que para el clculo e a de cuantiles de un modelo F de Snedecor, tenemos que F/2 (nX 1, nY 1) = 1 . F1/2 (nY 1, nX 1)
Notemos que si las variables aleatorias X e Y no siguen modelos normales, entonces el intervalo de conanza anterior no es vlido para el cociente de a varianzas. Ejemplo 8.8 Supongamos que para medir cierto angulo utilizamos de manera independiente dos teodolitos con apreciacin en segundos, de modo que las o variables que describen el comportamiento aleatorio de medir dicho angulo con cada uno de los teodolitos siguen modelos normales. Seleccionadas las siguientes muestras aleatorias simples de tama o 5 asociadas a cada uno de n los teodolitos, Muestra X: 35.3428, 35.3426, 35.3423, 35.3426, 35.3424,
226
ManualEs uEx

Muestra Y : 35.3424, 35.3420, 35.3425, 35.3425, 35.3424, donde hemos utilizado notacin centesimal, tenemos que las cuasivarianzas o muestrales son s2 = 0.000000031 y s2 = 0.000000034. Como F0.05 (4, 4) = 0.157 X Y y F0.95 (4, 4) = 6.388 (ver Cuadro A.6), el intervalo de conanza del cociente
2 2 Y /X al nivel de conanza 0.90 est denido por los valores 0.172 y 7.006. a
Como la unidad est contenida en el intervalo de conanza, entonces podemos a asumir que la dispersin en la mediciones de ambos distancimetros es la o o misma, con una conanza del 90 %.
8.6.
Estimacin por intervalo de la diferencia o de medias
A continuacin proporcionamos un intervalo de conanza para la diferencia o de medias X Y . Un intervalo de este tipo nos es util, por ejemplo, para valorar la exactitud de dos instrumentos de medida. En la exposicin distino guimos entre muestras aleatorias simples independientes y muestras aleatorias relacionadas.
8.6.1.
Como las variables aleatorias X e Y siguen modelos normales independientes

2 2 de medias X y Y , y varianzas X y Y , respectivamente, entonces, hemos
comentado en el bloque temtico anterior que la distribucin en el muestreo a o de la variable aleatoria X Y sigue un modelo normal de media X Y y
2 2 varianza X /nX + Y /nY . Por tanto, 2 2 2 2 X Y X Y = 1 , + X Y X Y +z1/2 + PX Y z1/2 nX nY n X nY
conanza para la diferencias de medias X Y al nivel de conanza 1 2 2 2 2 Y Y X X x y z1/2 + , x y + z1/2 + . nX nY nX nY
227
ManualEs uEx
donde (0, 1) y z1/2 es el cuantil de orden 1 /2 del modelo nor-
mal estndar. Teniendo esto en cuenta, construimos el siguiente intervalo de a

2 2 Observemos que necesitamos conocer el valor de las varianzas X y Y . Cuan-
do trabajamos con instrumentos de medida, la dispersin en las mediciones o son proporcionadas en las especicaciones del instrumento. Sin embargo, en un proceso de calibracin de los instrumentos, el valor de la varianza es descoo nocido. En dicha situacin, si suponemos que las varianzas son desconocidas o
2 2 pero iguales, es decir, X = Y , obtenemos que la distribucin en el muestreo o
de la variable aleatoria
X Y (X Y ) , SXY
sigue una distribucin t de Student con nX + nY 2 grados de libertad, siendo o 2 2 (nX 1)SX + (nY 1)SY 1 1 + SXY = . nX + nY 2 nX nY Por tanto, P X Y t1/2 (nXY )SXY X Y X Y + t1/2 (nXY )SXY = 1 ,
donde (0, 1), nXY = nX + nY 2 y t1/2 (nXY ) es el cuantil de orden
construimos el siguiente intervalo de conanza para la diferencia de medias X Y al nivel de conanza 1 x y t1/2 (nX + nY 2)sXY , x y + t1/2 (nX + nY 2)sXY ,
, 1 /2 de un modelo t de Student con nX + nY 2 grados de libertad. As
siendo sXY la realizacin de la variable aleatoria SXY . Observemos que el ino tervalo de conanza est centrado en la diferencia de las medias muestrales. a
2 2 Como las varianzas X y Y son desconocidas, para valorar si las podemos su2 2 poner iguales, utilizamos un intervalo de conanza para el cociente X /Y . En
el caso de varianzas distintas, es posible construir otro intervalo de conanza para la diferencia de medias, pero de formulacin ms compleja, implicando la o a distribucin t de Student. o
ManualEs uEx 228
Ejemplo 8.9 Retornando a la situacin descrita en el Ejemplo 8.8, tenemos o que la dispersin en las mediciones de cada uno de los teodolitos es desconocida, o pero las podemos asumir iguales. En ese caso, como x = 35.3425, y = 35.3424, s2 = 0.000000031, s2 = 0.000000034 y t0.95 (8) = 1.860 (ver Cuadro A.5), X Y un intervalo de conanza para la diferencia de medias X Y al nivel de

conanza 0.90, est determinado por los valores -0.0001 y 0.0003. Como el a cero est incluido en dicho intervalo, deducimos que el valor esperado de la a mediciones de ambos teodolitos son iguales, con una conanza del 90 %.
8.6.2.
Hasta ahora hemos considerado que las variables aleatorias X e Y son independientes. En ocasiones ambas variables estn relacionadas y los mtodos a e anteriormente descritos no son aplicables. Como ya hemos comentado en alguna ocasin, las mediciones de dos ngulos horizontales utilizando la misma o a referencia es un caso t pico de dependencia, pues el valor de la medicin de o un angulo condiciona el valor de la medicin del otro. En una situacin de o o dependencia, suponemos que observamos dos muestras aleatorias relacionadas de tamao n, es decir, una realizacin del vector ((X1 , Y1 ), . . . , (Xn , Yn )), n o siendo los vectores (Xi , Yi ) con i {1, . . . , n} independientes y con la misma distribucin que (X, Y ). Como la media de la variable aleatoria D = X Y o es X Y , entonces proporcionar un intervalo de conanza para la diferencia de medias X Y , consiste en proponer un intervalo de conanza para la media de la variable aleatoria D. Si suponemos que esta variable sigue un modelo normal, como una muestra aleatoria simple de tamao n asociada a n la variable aleatoria D es una realizacin del vector aleatorio (D1 , . . . , Dn ), o siendo Di = Xi Yi con i {1, . . . , n}, tenemos que SD SD P D t1/2 (n 1) D + t1/2 (n 1) = 1 , n n donde (0, 1), t1/2 (n 1) es el cuantil de orden 1 /2 del modelo t de Student con n 1 grados de libertad, D es la variable media muestral y SD es la ra cuadrada de la variable cuasivarianza muestral, ambas de la distribucin z o de muestreo de la variable aleatoria D. Teniendo esto en cuenta, construimos el siguiente intervalo de conanza para la diferencia de medias X Y con un nivel de conanza de 1 sD sD d t1/2 (n 1) , d + t1/2 (n 1) , n n z siendo d la media muestral y sD la ra cuadrada de la cuasivarianza muestral de la muestra aleatoria simple asociada a la variable aleatoria D.
229
ManualEs uEx
X Y
Figura 8.5: Distribucin de los ngulos considerados en la situacin descrita o a o en el Ejemplo 8.10. Ejemplo 8.10 Supongamos que estamos interesados en medir un ngulo hoa rizontal , con un teodolito con apreciacin en segundos. Dicho ngulo lo obteo a nemos como diferencia de dos ngulos, y , como mostramos en la Figura 8.5. a Suponemos tambin que para medir el ngulo utilizamos la misma referencia e a que para medir el ngulo , es decir, ambas mediciones estn relacionadas (ver a a Ejemplo 5.10). Si las mediciones de los angulos y estn modeladas por a las variables aleatorias X e Y , respectivamente, a travs de un modelo normal e multivariante, entonces D es una variable normal y X Y determina el
valor del ngulo horizontal . Para obtener un intervalo de conanza para la a
diferencias de medias, observamos una muestra aleatoria simple de tamao 4, n donde cada observacin consiste en la medicin de los dos ngulos implicados, o o a utilizando la misma referencia. En el Cuadro 8.1 mostramos los valores de los a ngulos de cada observacin en notacin centesimal junto a la diferencia de o o o a ngulos. Como x = 61.7811 e y = 25.3455, entonces una estimacin puntual a del valor del ngulo horizontal de inters es d = x y = 36.4356. Adems, a e
como sD = 0.0002 y t0.995 (3) = 5.841 (ver Cuadro A.5), un intervalo de con-
ManualEs uEx 230
anza para la diferencia de medias al nivel de 0.99 est denido por los valores a 36.4350 y 36.4362. Como hemos comentado, para disminuir la amplitud del intervalo, o bien aumentamos el tamao muestral o bien bajamos el nivel de n conanza.
Muestra
1a
2a
3a
4a
X Y D
61.7814 25.3457 36.4357
61.7812 25.3455 36.4357
61.7805 25.3452 36.4353
61.7813 25.3455 36.4358
Cuadro 8.1: Una muestra aleatoria simple de tamao 4 para la situacin desn o crita en el Ejemplo 8.10.
8.7.
Para obtener inferencias por estimacin para la situacin considerada en el o o Ejemplo 8.2, utilizamos las sentencias: Cargar el conjunto de datos x<-c(7.001, 7.005, 6.993, 7.004) Calcular una estimacin puntual y por intervalo de la media con varianza o conocida round(mean(x),3); alpha<-0.05; sigma<-0.005 round(mean(x)-qnorm(1-alpha/2)*sigma/sqrt(length(x)),3) round(mean(x)+qnorm(1-alpha/2)*sigma/sqrt(length(x)),3) Interpretar los intervalos de conanza n<-4; m<-50; x<-apply(matrix(rnorm(n*m,7,sigma),n,m),2,mean) plot(1:m,xi<-x-qnorm(1-alpha/2)*sigma/sqrt(n),ylim=c(6.99,7.01)) plot(1:m,xs<-x+qnorm(1-alpha/2)*sigma/sqrt(n),ylim=c(6.99,7.01)) for(i in 1:m){lines(c(i,i),c(xi[i],xs[i]))}; abline(h=7,lty=2) Calcular el intervalo de conanza aumentando el tamao muestral n
231
ManualEs uEx
par(new=T)
n<-100; x<-rnorm(n,7,sigma); xx<-cumsum(x)/(1:length(x)) plot((1:length(x)),xx,ylim=c(6.99,7.02),type="l",lty=2) lines((1:length(x)),xx-1.96*0.005/sqrt((1:length(x))),lty=4) lines((1:length(x)),xx+1.96*0.005/sqrt((1:length(x))),lty=4) abline(h=7) Calcular una estimacin puntual y por intervalo de la media con varianza o desconocida round(mean(x),3); alpha<-0.05 round(t.test(x,conf.level=1-alpha)$conf.int,3) Calcular una estimacin puntual y por intervalo de la varianza o round(var(x),7) (length(x)-1)*var(x)/qchisq(1-alpha/2,length(x)-1) (length(x)-1)*var(x)/qchisq(alpha/2,length(x)-1) Para obtener inferencias por estimacin para la situacin considerada en el o o Ejemplo 8.6, utilizamos las sentencias: Cargar el conjunto de datos x<-rep(c(1,0),c(64,36)) Calcular una estimacin puntual y por intervalos de la proporcin o o round(mean(x),3) round(t.test(x,conf.level=0.95)$conf.int,3) Para obtener inferencias por estimacin para la situacin considerada en el o o
ManualEs uEx 232
Ejemplo 8.8, utilizamos las sentencias: Cargar el conjunto de datos x<-c(35.3428, 35.3426, 35.3423, 35.3426, 35.3424) y<-c(35.3424, 35.3420, 35.3425, 35.3425, 35.3424)

Calcular estimacin puntual de las medias y las varianzas o mean(x); var(x); mean(y); var(y) Calcular una estimacin por intervalo para el cociente las varianzas o
alpha<-0.1; var.test(y,x,conf.level=1-alpha)$conf.int Calcular estimacin por intervalo para la diferencia de medias o
round(t.test(x,y,var.equal=T,conf.level=1-alpha)$conf.int,4) round(t.test(x,y,var.equal=F,conf.level=1-alpha)$conf.int,4) Para obtener inferencias por estimacin para la situacin considerada en el o o Ejemplo 8.10, utilizamos las sentencias: Cargar el conjunto de datos x<-c(61.7814, 61.7812, 61.7805, 61.7813) y<-c(25.3457, 25.3455, 25.3452, 25.3455); d<-x-y Calcular estimacin puntual de las medias o mean(x); mean(y); mean(d) Calcular estimacin por intervalo para la diferencia de medias o
alpha<-0.01 round(t.test(x,y,pair=T,conf.level=1-alpha)$conf.int,4)
233
ManualEs uEx
8.8.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La amplitud del intervalo de conanza para la media de una distribucin o normal aumenta con el nivel de conanza. ii) La varianza muestral es la mejor estimacin puntual para la varianza de o una variable aleatoria. iii) La amplitud del intervalo de conanza para la media de una distribucin o normal con varianza desconocida no depende de la muestra. iv) Un intervalo conanza al 95 % para la varianza de una variable es un intervalo que contiene el 95 % de los valores posibles del parmetro. a v) La amplitud del intervalo de conanza para la media de una distribucin o normal con varianza conocida aumenta con el tamao de la muestra. n vi) Los extremos del intervalo de conanza para la varianza de una distribucin normal dependen de la media. o 2. Supongamos que el intervalo de conanza al 95 % para el valor medio de las mediciones de cierta distancia calibrada proporcionadas por un distancimetro o contiene al verdadero valor de dicho parmetro. Tambin lo contendr el a e a intervalo de conanza del nivel 99 %?. Y el del 90 %?. 3. Sea 12.350, 12.351, 12.345, 12.342 un conjunto de mediciones expresadas en metros de cierta distancia, utilizndose para ello un distancimetro con aprea o ciacin en mil o metros. Suponemos que las mediciones proporcionadas por el distancimetro siguen una distribucin normal y las mediciones son indepeno o dientes y estn exentas de cualquier tipo de errores salvo el aleatorio. a
ManualEs uEx
i) Calcular la media muestral y la cuasivarianza muestral de las mediciones observadas. ii) Proporcionar un intervalo de conanza al 95 % para el valor medio de las mediciones. Interpretar el resultado obtenido.
234

iii) Proporcionar un intervalo de conanza al 95 % para la varianza de las mediciones proporcionadas por el distancimetro. Interpretar el resultao do obtenido. 4. Si en 1000 mediciones realizadas de manera independiente con una estacin o total se han detectado 5 datos at picos, calcular un intervalo de conanza al 95 % para la proporcin de datos at o picos que genera dicha estacin total. o 5. Sean 12.350, 12.351, 12.345, 12.342 y 12.356, 12.356, 12.352, 12.357 dos conjuntos de mediciones expresadas en metros de cierta distancia, utilizndose a para ello dos distancimetros con apreciacin en mil o o metros, uno para cada conjunto de datos. Suponemos que las mediciones proporcionadas por ambos distancimetros son independientes, siguen distribucin normal y las medicioo o nes son independientes y estn exentas de cualquier tipo de errores salvo el a aleatorio. i) Calcular la media muestral y la cuasivarianza muestral de cada muestra. ii) Proporcionar un intervalo de conanza al 95 % para el cociente de las varianzas de las mediciones proporcionadas por cada distancimetro. Ino terpretar el resultado obtenido. iii) Proporcionar un intervalo de conanza al 95 % para la diferencia de los valores medios de las mediciones proporcionadas por los distancimetros. o Interpretar el resultado obtenido. iv) Utilizando el software estad stico R, proporcionar un intervalo de conanza al 95 % para la diferencia de los valores medios de las mediciones proporcionadas por los distancimetros si suponemos que las varianzas o son distintas.
235
ManualEs uEx
Tema 9 Introduccin a la Teor sobre o a Contraste de Hiptesis o

9.1. Introduccin o
Cuando aplicamos mtodos de estad e stica inferencial basados en estimacin o pretendemos, como objetivo ultimo del estudio, valorar y cuanticar una carac ter stica de la poblacin a partir de la informacin contenida en una muestra. o o En cambio, en muchas ocasiones prcticas, no estamos interesados en estimar a sino en comprobar cierta restriccin o suposicin. La herramienta estad o o stica inferencial para tal n es genricamente referida como contraste de hiptesis. e o En un contraste de hiptesis realizamos una armacin, es decir, formulamos o o una hiptesis sobre alguna caracter o stica de la poblacin asociada al experio mento, y a partir de la informacin que proporciona una muestra extra de o da dicha poblacin tomamos una de las dos decisiones posibles, aceptar o rechao zar esa hiptesis. En un contexto paramtrico dicha hiptesis la expresamos o e o normalmente en funcin de la media o la varianza de la variable aleatoria asoo ciada al experimento, mientras que en un contexto no paramtrico, se formulan e cha variable aleatoria. A la hiptesis que queremos contrastar la denominamos o hiptesis nula y la denotamos por H0 . Esta hiptesis la contrastamos frente a o o otra, a la que denominamos hiptesis alternativa y la denotamos por H1 . En o general, la hiptesis alternativa es complementaria a la hiptesis nula. o o
237
ManualEs uEx
hiptesis sobre propiedades generales de la distribucin de probabilidad de dio o

Ejemplo 9.1 Consideremos el experimento aleatorio descrito en el Ejemplo 8.1 que est asociado a la medicin con un distancimetro con apreciacin en a o o o mil metros de una distancia calibrada de valor nominal 7 m. Si asumimos que en el proceso de medicin no intervienen ms errores que el aleatorio, entonces o a la media de la variable aleatoria X asociada al experimento representa el valor real de la distancia. Por ello, para contrastar la exactitud del distancimetro, o comparamos la media de las mediciones con el valor nominal de la distancia calibrada. Observemos que no nos interesa tanto estimar la media de la variable aleatoria, sino compararla con el valor nominal. Si denotamos por a la media de la variable aleatoria X, el distancimetro lo consideramos exacto cuando o dicha media coincide con 7. En esta situacin, la hiptesis nula a contrastar es o o H0 : = 7, el distancimetro es exacto, frente a la hiptesis alternativa, H1 : o o = 7, el distancimetro no es exacto. Anlogamente, si queremos contrastar o a que la varianza de las mediciones no es superior a 0.000025 m2 , como especica 2 0.000025, frente a la hiptesis alternativa H1 : 2 > 0.000025, siendo 2 o el fabricante del distancimetro, tenemos que contrastar la hiptesis nula H0 : o o la varianza de la variable aleatoria X. Las hiptesis planteadas dependen de la o media y la varianza, y por tanto estn en un contexto paramtrico. En cambio, a e contrastar si la distribucin de la variable aleatoria X sigue un modelo normal o est en un contexto no paramtrico. a e En un contexto paramtrico, donde la hiptesis la formulamos como una e o inecuacin en funcin de los parmetros, el signo igual siempre est asociao o a a do a la hiptesis nula. Adems, si la hiptesis nula est determinada por una o a o a ecuacin, entonces la hiptesis alternativa la denominamos bilateral, pues el o o parmetro puede ser mayor o menor. En caso contrario, la denominamos unia hiptesis alternativa H1 : 2 > 0.000025 es unilateral. o lateral. As la hiptesis alternativa H1 : = 7 es bilateral, mientras que la , o
A la hora de contrastar las hiptesis H0 y H1 no se encuentran al mismo nivel. o
ManualEs uEx 238
La hiptesis nula se asume como cierta antes de aplicar el test de modo que si o aceptamos la hiptesis alternativa, es debido a que los datos muestran fuerte o discrepancias frente a la hiptesis nula. En cambio, la aceptacin de H0 indica o o que la informacin contenida en la muestra no contiene evidencias sucientes o para rechazarla y por tanto seguimos asumindola como cierta. Notemos que e

decimos asumir y no probar, pues los datos slo se comportan como si la o hiptesis nula fuera cierta. o Para poder decidir entre la hiptesis nula o la alternativa, el test de hiptesis o o proporciona una regla de decisin como sigue. En primer lugar, aplicndole o a cierta funcin a los datos, obtenemos un valor numrico al que denominamos o e valor experimental. Este valor resume el comportamiento de la muestra frente a la hiptesis nula a contrastar. En segundo lugar, teniendo en cuenta la diso tribucin en el muestreo de dicha funcin cuando la hiptesis nula es cierta, o o o denimos en el conjunto de posibles valores de la citada funcin, una regin o o de aceptacin y una regin de rechazo, tal que si el valor experimental est en o o a la regin de rechazo aceptamos la hiptesis alternativa y en caso contrario o o aceptamos la hiptesis nula. La regin de aceptacin contiene los valores de la o o o funcin ms probables bajo la hiptesis nula. Al tomar la decisin podemos o a o o cometer dos tipos de errores, ya sea rechazar la hiptesis nula cuando es cierta o o aceptar la hiptesis nula cuando es falsa. Denominamos al primero de ello o error de tipo I y al segundo error de tipo II. En el Cuadro 9.1 mostramos los tipos de errores en la toma de decisin de un test de hiptesis. La probao o bilidad de cometer un error de tipo I se calcula como la probabilidad de la regin de rechazo cuando H0 es cierta, se denomina nivel de signicacin del o o test y la denotamos por , es decir, = P (Aceptar H1 |H0 cierto). El nivel de signicacin de un test de hiptesis es jado de antemano y toma valores o o pequeos, siendo los habituales = 0.1, = 0.05 y = 0.01. As cuando la n , decisin es rechazar la hiptesis nula, tenemos la garant de que tenemos una o o a probabilidad pequea de equivocarnos, lo que hace able la aceptacin de la n o hiptesis H1 . o Observemos que el error de tipo II no es controlado por la regla de decisin o del test de hiptesis, pues no podemos controlar simultneamente las probao a bilidades de los dos tipos de errores. Por tanto, como el error de tipo II no probabilidad alta de cometer un error, lo que nos obliga a tener cierta cautela. Por ello, en esta situacin, mas que aceptar la hiptesis nula, armamos o o que la muestra obtenida no nos permite rechazarla o que no aporta evidencias sucientes contra ella.
239
ManualEs uEx
es controlado, si la decisin es aceptar la hiptesis nula podemos tener una o o
Realidad Decisin o Aceptar H0 Aceptar H1 H0 cierta Decisin correcta o Error de Tipo I H1 cierta Error de Tipo II Decisin correcta o
Cuadro 9.1: Tipo de errores en la toma de decisin de un test de hiptesis. o o
H0 : =7 vs. H1 : 7 Regin de Regin de Regin de rechazo aceptacin rechazo Rechazamos Aceptamos Rechazamos H0 H0 H0 x<7 x7 7 x>7
Figura 9.1: Regla de decisin para la situacin descrita en el Ejemplo 9.2. o o Ejemplo 9.2 Supongamos que el comportamiento probabil stico de las mediciones asociadas al experimento aleatorio descrito en el Ejemplo 9.1 es descrito por un modelo normal. Adems, a partir de la especicaciones del distancimea o tro deducimos que la dispersin en la mediciones es de 5 mil o metros. En esta situacin, la variable aleatoria X sigue un modelo normal de media desconocida o y varianza 2 = 0.000025 m2 . Para contrastar la exactitud del distancimetro, o una de las dos hiptesis, extraemos una muestra aleatoria simple de tamao o n 4, obtenindose los valores e Muestra: 7.001, 7.005, 6.993, 7.004. planteamos la hiptesis H0 : = 7 frente a H1 : = 7. Para poder decidir por o
ManualEs uEx 240
En primer lugar calculamos el valor experimental en funcin de la distancia o existente entre la media muestral y el valor nominal. En nuestro caso tenemos metro. Esta distancia nos que x = 7.001 m. y por tanto la distancia es de 1 mil mide la discrepancia entre la muestra y la hiptesis nula. As si esta distancia o , es grande rechazamos la hiptesis nula y en caso contrario la aceptamos. En la o

Figura 9.1 mostramos grcamente la regla de decisin. Con el n de comparar a o esta discrepancia con la distribucin en el muestreo de las discrepancias cuando o la media coincide con el valor nominal, normalizamos la distancia por 0.005/2 (la cuasivarianza muestral), obtenindose el valor experimental e zexp = 2 2 x7 = . 0.005 5
Ahora bien, asumiendo la hiptesis nula, tenemos que la variable aleatoria X o sigue un modelo normal con = 7 y 2 = 0.000025. As aplicando lo estudiado , en el Tema 7, deducimos que la variable aleatoria 2 X 7 0.005
sigue un modelo normal estndar, siendo X la media muestral de una muestra a aleatoria simple de tamao 4 extra del experimento aleatorio cuando la n da media de la variable coinciden con el valor nominal. Si el distancimetro es o exacto, es ms probable que la discrepancia normalizada de la muestra se a encuentre cercana a cero, como mostramos en el grco de la izquierda de la a Figura 9.2. Teniendo esto en cuenta, determinamos la regin de aceptacin y o o de rechazo jado el nivel de signicacin del test, es decir, el error de tipo I o dispuesto a tolerar. Si tomamos = 0.05, tenemos que para el 95 % de las muestras aleatorias simples extra das del experimento aleatorio asumiendo la hiptesis nula, su discrepancia normalizada se encuentra en el intervalo denido o por los valores -1.96 y 1.96. Por ello, consideramos este intervalo como la regin o de aceptacin y su complementario la regin de rechazo, tal y como mostramos o o en el grco de la derecha de la Figura 9.2. a En nuestro caso, el valor experimental se encuentra dentro de la regin de o aceptacin y por tanto deducimos que no encontramos evidencias sucientes o muestra en relacin a la distancia normalizada se ajusta al comportamiento o probabil stico de la discrepancia de las muestras cuando el distancimetro es o exacto. Observemos que esto no quiere decir que hemos probado que sea exacto, dado que no hemos controlado el error de tipo II. para decir que el distancimetro no sea exacto, pues el comportamiento de la o
241
ManualEs uEx
0.4
0.3
0.3
0.4
regin de rechazo 0.025
regin de aceptacin 0.95 zexp
0.2
0.1
0.0
0.0 3
0.1
0.2
Figura 9.2: Comportamiento aleatorio de la discrepancia normalizada (grco a de la izquierda), junto a las regiones de aceptacin y rechazo con nivel de o signicacin de 0.05 (grco de la derecha) para la situacin descrita en el o a o Ejemplo 9.2. Si suponemos ahora que la distancia de la media muestral al valor nominal es 6 mil metros, entonces el valor experimental es 2.4. El signo nos indica calibrado. Como dichos valores se encuentra en la regin de rechazo, decidimos o que el distancimetro no es exacto. Una vez tomada la decisin hemos podido o o cometer o no un error, pero esto no lo sabemos. Sin embargo, cuanticamos la probabilidad de este error de tipo I sabiendo que para el 5 % de las muestras aleatorias simples extra das del experimento aleatorio asumiendo la hiptesis o nula, su discrepancia normalizada se encuentra en la regin de rechazo, y si o nuestra muestra es una de esas, cometemos un error. Si el nivel de signicacin o es mayor, la regin de rechazo aumenta y por tanto el test de hiptesis sigue o o conduciendo a la decisin de rechazar la hiptesis nula, en este caso con mayor o o probabilidad de error. En el grco de la izquierda de la Figura 9.3 mostramos a la regin de aceptacin y rechazo para = 0.1. En cambio, al disminuir el o o nivel de signicacin la decisin del test de hiptesis va a cambiar a partir o o o de un cierto nivel. Como P (Z 2.4) = 0.992, siendo Z un modelo normal estndar (ver Cuadro A.2), tomando = 0.016, tenemos que la regin de a o rechazo est determinada por el valor experimental, tal y como mostramos en a si la discrepancia es por exceso (+) o por defecto (), con respecto al valor
ManualEs uEx 242
el grco de la derecha de la Figura 9.3. Por tanto, para niveles de signicacin a o menores que 0.016, aceptamos la hiptesis nula. Obviamente si el nivel de o signicacin es muy pequeo, la decisin es asumir la hiptesis nula, a no ser o n o o que presente una fuerte discrepancia con la muestra.
0.4
0.3
regin de aceptacin 0.9
regin de rechazo 0.05 zexp
0.3
0.4
regin de aceptacin 0.984
0.2
0.1
0.1
0.2
zexp
2
0.0
0.0 4
Figura 9.3: Regiones de aceptacin y rechazo para el nivel de signicacin de o o 0.1 (grco de la izquierda) y 0.016 (grco de la derecha), para la situacin a a o descrita en el Ejemplo 9.2. El cambio en la decisin al disminuir el nivel de signicacin nos lleva a ino o troducir el concepto de p-valor, En general denominamos p-valor asociado a un test de hiptesis al menor nivel de signicacin para el cual rechazamos la o o hiptesis nula. De la propia denicin deducimos que el p-valor depende de la o o muestra. Para la situacin anterior, en la que la distancia observada es de 6 o mil metros, hemos obtenido que el p-valor es 0.016. La magnitud del p-valor nos informa sobre la disconformidad de la muestra con la hiptesis nula, sieno do sta mayor cuanto menor sea la magnitud del p-valor. Intuitivamente, la e magnitud del p-valor nos indica la probabilidad de obtener, cuando asumimos la hiptesis nula, un valor experimental tan extremo o ms que el obtenido por o a la muestra. As pues, conocido el nivel de signicacin deseado y el p-valor, o o o y pv , respectivamente, aceptamos la hiptesis nula si < pv y la hiptesis cativo al nivel de signicacin de , pues el error en la decisin es menor que o o discrepancias con la hiptesis nula. o Resumiendo, la aplicacin de un test de hiptesis consta de los siguiente pasos: o o jar la hiptesis nula y la hiptesis alternativa, jar el nivel de signicacin o o o as como las regiones de aceptacin y rechazo asociadas, calcular el valor ex o perimental as como el p-valor y nalmente, decidir si el resultado obtenido es signicativo o no. alternativa si pv . En dicho caso decimos que el resultado del test es signia el error permisible. Cuanto menor sea pv los datos observados muestran ms
243
ManualEs uEx

En lo que sigue, mostramos los principales test de hiptesis atendiendo a la o caracter stica a contrastar as como a la muestra observada.
9.2.
Test de hiptesis para la media o
A continuacin desarrollamos un test de hiptesis para comparar la media o o de una variable aleatoria X con respecto a un valor conocido. Si denotamos por a la media de la variable y por 0 al valor de prueba a comparar, contrastamos la hiptesis nula H0 : = 0 , frente a la hiptesis alternativa o o H1 : = 0 . Como hemos visto en el Ejemplo 9.2, esta situacin es apropiada o para contrastar la exactitud de un instrumento de medida, donde comparamos el valor de la media de las mediciones de cierta caracter stica con el valor nominal de dicha caracter stica. En la exposicin distinguimos si el valor de la o varianza es conocido o desconocido.
9.2.1.
Con varianza conocida
Como la media muestral es una estimacin puntual de la media, para tomar o una decisin a partir de una muestra aleatoria simple de tamao n, vamos a o n comparar la distancia existente entre la media muestral y el valor de prueba, con respecto a la distribucin en el muestreo de dicha distancia para una o muestra aleatoria simple extra de una poblacin normal con media 0 , da o seg n indica la hiptesis nula. Si suponemos que la variable aleatoria X sigue u o un modelo normal de media y varianza 2 , siendo este ultimo parmetro un a valor conocido, la distribucin en el muestreo de dicha distancia est asociada o a X 0 . n Como hemos comentado en el Tema 7, esta variable sigue un modelo normal estndar bajo la hiptesis nula, es decir, cuando = 0 , siendo X la variable a o aleatoria media muestral. En el grco de la izquierda de la Figura 9.4, mosa tramos la distribucin en el muestreo de la distancia, normalizada por / n, o existente entre la media muestral y el valor conocido, para muestras aleatorias simples extra das de una poblacin normal con media 0 y varianza 2 . Por o tanto, deducimos que en el intervalo denido por los valores z1/2 y z1/2 se encuentra la distancia normalizada del 100(1) % de la muestras extra das a la variable aleatoria
244
ManualEs uEx
0.4
0.4
0.3
0.3
z1 regin de rechazo
regin de aceptacin
z1
regin de rechazo
0.2
0.2
0.2
0.3
0.4
zexp p 2 1p
2 1 0 1 2
0.1
0.1
0.1
0.0
0.0
0.0
p 2
3
Figura 9.4: Comportamiento probabil stico de la discrepancia normalizada (grco de la izquierda), regiones de aceptacin y rechazo con nivel de siga o nicacin (grco central) y clculo del p-valor (grco de la derecha) para o a a a la hiptesis H0 : = 0 . o bajo la hiptesis nula, siendo z1/2 el cuantil de orden 1 /2 del modelo o
test de hiptesis al nivel de signicacin , tal y como mostramos en el grco o o a central de la Figura 9.4. Observemos que la regin de rechazo corresponde o a las muestras asociadas con distancias normalizadas grandes, pues son las
normal estndar y (0, 1). Dicho intervalo dene la regin de aceptacin del a o o
que mayor discrepancia presentan con respecto a la hiptesis nula, an siendo o u extra das de un poblacin bajo la hiptesis nula. Asimismo, tenemos que al o o disminuir el nivel de signicacin, aumenta la regin de aceptacin. o o o A partir de la muestra aleatoria simple que disponemos, calculamos el valor experimental zexp = x 0 , n
siendo x la media muestral. Este valor nos indica la distancia normalizada asociada a la muestra aleatoria simple observada. Si |zexp | > z1/2 , entonces decidimos rechazar la hiptesis nula con nivel de signicacin , pues la distano o cia normalizada muestra fuerte discrepancia con respecto al comportamiento de la distancia normalizada bajo la hiptesis nula. Con el n de determinar la o signicacin del resultado, calculamos el p-valor como o pv = P (|Z| |zexp |), siendo Z un modelo normal estndar. a
245
ManualEs uEx
0.4
0.3
0.3
0.4
z1 regin de regin de rechazo aceptacin
regin de aceptacin
z1 regin de rechazo
0.2
0.1
0.1
0.2
0.0
0.0
1
3 2 1 0 1
2 3
Figura 9.5: Regiones de aceptacin y rechazo con nivel de signicacin para o o a a la hiptesis H0 : 0 (grco de la izquierda) y H0 : 0 (grco de la o derecha). Dado que la hiptesis alternativa es bilateral, observamos que la regin de o o rechazo est formada por dos zonas, pues rechazamos la hiptesis nula cuana o do la media muestral discrepa por exceso o por defecto con respecto al valor conocido. Para un test de hiptesis en la que la hiptesis alternativa sea unio o lateral, la regin de rechazo est constituida por una unica zona y calculamos o a dicha regin aplicando un razonamiento anlogo al anterior. Concretamente, o a para contrastar la hiptesis nula H0 : 0 frente a la hiptesis alternativa o o de rechazo al conjunto de valores mayores que z1 , como mostramos en el H1 : > 0 al nivel de signicacin , con (0, 1), tomamos como regin o o
grco de la izquierda de la Figura 9.5. Asimismo, para contrastar la hiptesis a o nicacin , tomamos como regin de rechazo al conjunto de valores menores o o que z1 , como mostramos en el grco de la derecha de la Figura 9.5. a Ejemplo 9.3 Para el test de hiptesis de la media planteado en el Ejemplo o 9.2, donde contrastamos la hiptesis nula H0 : = 7 frente a la hiptesis o o alternativa H1 : = 7, hemos obtenido que una discrepancia de 6 mil metros hiptesis nula. Ahora bien, una vez que decidimos que el distancimetro no es o o entre la media muestral y el valor calibrado es signicativa para rechazar la exacto, es de inters determinar si es por exceso o por defecto. Si suponemos e que x = 7.006 m., que discrepa en 6 mil metros con respecto al valor nominal unilateral H1 : > 7. Como zexp = 2.4 y P (Z zexp ) = 0.008 (ver Cuadro jado, planteamos la hiptesis nula H0 : 7 frente a la hiptesis alternativa o o nula H0 : 0 frente a la hiptesis alternativa H1 : < 0 al nivel de sigo
ManualEs uEx 246
A.2), siendo Z un modelo normal estndar, obtenemos que el p-valor es 0.008, a
0.4
0.3
0.2
zexp 0.992 0.008

1 2 3
0.2
0.3
0.4
zexp 0.992 0.008

1 2 3
0.1
0.0
0.0 3
0.1
Figura 9.6: Clculo del p-valor para la hiptesis nula H0 : 7 (grco de la a o a a izquierda) y H0 : 7 (grco de la derecha). como mostramos en el grco de la izquierda de la Figura 9.6. Por tanto, a decidimos que > 0 , siendo un resultado signicativo al nivel de signicacin o de 0.05, es decir, la probabilidad de error al hacer esta armacin es inferior al o 5 %. Adems, como el p-valor es pequeo en relacin a , los datos muestran a n o fuerte discrepancia. Observemos que hemos planteado como hiptesis nula H0 : o 7, pues si planteamos como hiptesis nula H0 : 7, no tenemos razones o sucientes para rechazarla, pues el p-valor es 0.992, como mostramos en el grco de la izquierda de la Figura 9.6. As pues, planteando la hiptesis nula a o H0 : 7, tanto slo asumimos que 7. o Una vez decidido que > 7, una estimacin por intervalo puede ser de utilidad o para cuanticar el valor de la media. Como z0.975 = 1.96 (ver Cuadro A.3), tenemos que el intervalo de conanza para la media al nivel de conanza de 0.95 lo calculamos como z0.975 z0.975 ,x + n = (7.001, 7.012). x n Observemos que el valor nominal de la distancia calibrada no est incluido en a el intervalo de conanza. Este hecho es lgico y consistente con el obtenido o mediante el test de hiptesis, pues tenemos una conanza del 95 % que el o intervalo contenga al valor de la media.
Notemos que el test de hiptesis bilateral puede ser no signicativo al nivel o de signicacin , mientras que uno de los test de hiptesis unilaterales es o o signicativo a dicho nivel. As por ejemplo, si x = 7.004 m. tenemos que zexp = 1.6, z0.975 = 1.960 (ver Cuadro A.3) y P (Z 1.6) = 0.945. Por tanto
247
ManualEs uEx

el test bilateral es no signicativo al nivel de signicacin 0.05, mientras que el o test unilateral H0 : 7 frente a H1 : > 7 puede considerarse signicativo a dicho nivel, pues el p-valor es 0.055.
9.2.2.
Con varianza desconocida
En todo lo anterior, hemos supuesto conocida la varianza de la variable aleatoria X. Sin embargo, es posible aplicar un test de hiptesis para la media, o sin necesidad de conocer el valor de la varianza de la variable. En efecto, en el Tema 7 hemos comentado que, bajo la hiptesis nula H0 : = 0 , la variable o X 0 , n S sigue un modelo t de Student con n 1 grados de libertad, siendo S la ra z aleatoria
cuadrada de la variable aleatoria cuasivarianza muestral S 2 . Como X 0 t1/2 (n 1) = 1 , P t1/2 (n 1) n S
donde (0, 1) y t1/2 (n 1) el cuantil de orden 1 /2 del modelo t de
por los valores t1/2 (n 1) y t1/2 (n 1), como mostramos en el grco a
Student con n 1 grados de libertad, la regin de aceptacin est denida o o a
de la izquierda de la Figura 9.7. Observemos que la amplitud de la regin de o aceptacin cuando no conocemos el valor de la varianza, es en general, mayor o que cuando conocemos el valor de la varianza, pues z1/2 t1/2 (n 1). texp = x 0 , n s
Parece lgico tomar como valor experimental o
siendo s la ra cuadrada de la cuasivarianza muestral. Este valor se comz rechazamos la hiptesis nula H0 : = 0 con un nivel de signicacin . As o o , parar con el cuantil de la t de Student, de modo que, si |texp | > t1/2 , a
ManualEs uEx 248
calculamos el p-valor, como pv = P (|T | > |texp |) siendo T un modelo t de Student con n 1 grados de libertad. Si la hiptesis alternativa es unilateral, la regin de aceptacin es modicada o o o de manera anloga a lo realizado cuando la varianza es conocida. a
0.3
t1
(n 1 )
t1
(n 1 )
0.3
t0.975(3) regin de rechazo 0.025 regin de aceptacin 0.95 texp

2 0
t0.975(3) regin de rechazo 0.025

2 4
0.2
0.1
0.0
0.0
0.1
regin de regin de regin de rechazo aceptacin rechazo
0.2
Figura 9.7: Regiones de aceptacin y rechazo con nivel de signicacin para o o la hiptesis H0 : = 0 , cuando la varianza es desconocida. o Ejemplo 9.4 Si para la situacin descrita en el Ejemplo 9.2, donde contraso o tamos la hiptesis nula H0 : = 7 frente a la hiptesis alternativa H1 : = 7, o ciones del distancimetro sobre su dispersin, tenemos que n = 4, x = 7.001 m. o o y s2 = 0.000029 m2 . Con todo ello, obtenemos el valor experimental siguiente texp = x 0 0.001 = 2 n = 0.252. s 0.000029 slo utilizamos la informacin proporcionada por la muestra y no las especicao o
Como t0.975 (3) = 3.182 (ver Cuadro A.5), es mayor que el valor experimental, entonces deducimos que la diferencia observada de un mil metro no es signicativa con nivel de signicacin = 0.05 y decidimos asumir la exactitud o del distancimetro. Notemos que el resultado es consistente con el intervalo de o conanza de nivel de conanza de 0.95 obtenido en el Ejemplo 8.5, utilizando la misma muestra, pues el intervalo contiene al valor nominal de la distancia calibrada. En el grco de la derecha de la Figura 9.7 mostramos la situacin a o del valor experimental con respecto a la regin de aceptacin para el nivel de o o signicacin = 0.05. o Si la variable aleatoria X no sigue un modelo normal, pero el tamao muestral n es sucientemente grande, comentamos en el Tema 7 que la distribucin de o la construccin de la regin de aceptacin que vimos en el apartado 9.2.1 sigue o o o siendo vlida. Si la varianza es desconocida, reemplazamos por s, la ra a z cuadrada de la cuasivarianza muestral. A efectos prcticos, la aproximacin a o proporciona buenos resultados para n 60.
249
ManualEs uEx
muestreo de la media muestral se aproxima por un modelo normal y por tanto,

Ejemplo 9.5 Retornamos a la situacin descrita en el Ejemplo 8.6, donde o estamos interesados en determinar el comportamiento probabil stico de la variable aleatoria X asociada al experimento de seleccionar al azar una estacin o total de las 5 existentes en el almacn del Centro Universitario de Mrida y que e e toma el valor 0 si la estacin total est mal calibrada y el valor 1 si est bien o a a calibrada. Como hemos comentado, la variable aleatoria X sigue un modelo de Bernoulli con parmetro p = P (X = 1) desconocido. Dicho parmetro es a a la media de la variable y nos indica la proporcin de estaciones totales bien o calibradas. A continuacin, planteamos la hiptesis nula H0 : p = 0.6 frente o o a la hiptesis alternativa H1 : p = 0.6. Para tomar una decisin, utilizamos o o la muestra aleatoria simple de tamao 100 del Ejemplo 8.6, donde x = 0.64 n y s2 = 0.2304. Como n es sucientemente grande y nx(1 x) > 5, podemos x 0 = 0.833. n s
construir la regin de aceptacin a partir del modelo normal estndar y el valor o o a experimental es zexp =
Como z0.975 = 1.96 (ver Cuadro A.3) es mayor que el valor experimental, entonces deducimos que la diferencia observada no es signicativa al nivel de signicacin 0.05, y decidimos asumir que la proporcin de estaciones o o bien calibradas es 0.6. As el p-valor es mayor que 0.05. En efecto, como , P (Z 0.833) = 0.798 (ver Cuadro A.2), siendo Z un modelo normal estndar, a tenemos que pv = 0.404. Notemos que el resultado es consistente con el intervalo de conanza para la proporcin al nivel de conanza de 0.95 obtenido en o el Ejemplo 8.6, pues el intervalo contiene el valor 0.6. Por otro lado, si plantearechazamos la hiptesis nula con nivel de signicacin = 0.05. o o mos la hiptesis nula H0 : p = 0.4 frente a la hiptesis alternativa H1 : p = 0.4, o o
9.3.
ManualEs uEx
Test de hiptesis para la varianza o
Cuando estamos interesados en contrastar la exactitud de un instrumento de medida con las especicaciones dadas por su fabricante, la hiptesis no se o centran en la media de la variable aleatoria asociada al experimento, sino en su varianza. Concretamente, si suponemos que la variable aleatoria X sigue un modelo normal de media y varianza 2 , contrastar la hiptesis nula o
250

2 2 2 H0 : 2 = 0 frente a la hiptesis alternativa H1 : 2 = 0 , siendo 0 un valor o
conocido, puede ser apropiado para resolver esta situacin. o
Como la cuasivarianza muestral es una estimacin puntual de la varianza de la o variable, para tomar una decisin comparamos la magnitud de la cuasivariano
2 e za muestral con el valor conocido 0 , a travs del cociente de ambos. Valores
grandes o pequeos del cociente muestran discrepancias con la hiptesis nula. n o

2 Ahora bien, bajo la hiptesis nula, es decir, cuando 2 = 0 , hemos comeno
tado en el Tema 7 que la distribucin en el muestreo de muestras aleatorias o

2 simples de tama o n de la variable aleatoria (n 1)S 2 /0 es un modelo 2 de n
Pearson con n 1 grados de libertad. Esto nos conduce a tomar como regin o siendo 2 (n 1) el cuantil de orden /2 de un modelo 2 de Pearson con /2
de aceptacin el intervalo denido por los valores 2 (n 1) y 2 o /2 1/2 (n 1), n 1 grados de libertad y el nivel de signicacin del test de hiptesis. As o o , tomando como valor experimental 2 = exp (n 1)s2 , 2 0
o siendo s2 la cuasivarianza muestral, rechazamos la hiptesis nula al nivel de mostramos en el grco de la izquierda de la Figura 9.8. Teniendo esto en a cuenta, el p-valor lo calculamos como pv = 2 min{P (Y < 2 ), P (Y > 2 )}, exp exp siendo Y un modelo 2 de Pearson con n 1 grados de libertad. En este caso variable aleatoria X. Como la hiptesis alternativa es bilateral, la regin de rechazo est formada por o o a dos zonas, pues rechazamos la hiptesis nula cuando la magnitud del cociente o sea unilateral, la regin de rechazo est constituida por una unica zona y la o a calculamos aplicando un razonamiento anlogo al anterior. Concretamente, a
2 H1 : 2 > 0 al nivel de signicacin , con (0, 1), tomamos como regin o o 2 para contrastar la hiptesis nula H0 : 2 0 frente a la hiptesis alternativa o o
signicacin , si 2 < 2 (n 1) o 2 > 2 o exp exp /2 1/2 (n 1), tal y como
la regin de aceptacin es muy sensible a la hiptesis de normalidad de las o o o
251
ManualEs uEx
es peque a o grande. Para un test de hiptesis en la que la hiptesis alternativa n o o
regin de rechazo
(n 1 )
regin de regin de aceptacin rechazo
regin de regin de aceptacin rechazo
(n 1) regin de regin de rechazo aceptacin
1 2 1 2
(n 1 )
1
1(n 1) 1
Figura 9.8: Regiones de aceptacin y rechazo con nivel de signicacin para o o 2 2 a a la hiptesis H0 : 2 = 0 (grco de la izquierda) H0 : 2 0 (grco o 2 2 a central) y H0 : 0 (grco de la derecha). de rechazo al conjunto de valores mayores que 2 (n 1), como mostramos 1
en el grco central de la Figura 9.8. Asimismo, para contrastar la hiptesis a o

2 2 nula H0 : 2 0 frente a la hiptesis alternativa H1 : 2 < 0 al nivel o
de signicacin , tomamos como regin de rechazo al conjunto de valores o o menores que 2 (n 1), como mostramos en el grco de la derecha de la a
Figura 9.8.
Ejemplo 9.6 Supongamos que para el distancimetro considerado en la sio tuacin descrita en el Ejemplo 9.2 estamos interesados en contrastar las espeo cicaciones dadas por el fabricante sobre su dispersin, planteando la hiptesis o o nula H0 : 2 0.000025 frente a la hiptesis alternativa unilateral H1 : 2 > o que n = 4 y s2 = 0.000029. As obtenemos el valor experimental siguiente , 2 = exp (n 1)s2 = 3.48. 2 0 0.000025. A partir de la informacin proporcionada por la muestra, tenemos o
Como 2 (3) = 7.815 (ver Cuadro A.4) es mayor que el valor experimental, 0.95 entonces asumimos que la precisin del distancimetro es menor o igual a las o o especicaciones indicadas por el fabricante, con nivel de signicacin de 0.1. o
ManualEs uEx
9.4.
Test de hiptesis de igualdad de varianzas o
En todo lo anterior, las inferencias estad sticas se han basado en la informacin contenida en una muestra aleatoria simple. En lo que sigue, de modo o al desarrollado en estimacin por intervalo, a continuacin estudiamos test de o o
252

hiptesis basados en dos muestras aleatorias simples independientes. Para ello, o suponemos que la poblacin bajo estudio la dividimos en dos subpoblaciones o tal que el comportamiento probabil stico de la caracter stica de inters en la e primera subpoblacin est modelada por la variable aleatoria X y la de la o a segunda poblacin por la variable aleatoria Y . Asimismo, suponemos que las o variables aleatorias X e Y siguen modelos normales independientes de medias
2 2 X y Y , y varianzas X y Y , respectivamente. El comportamiento proba-
bil stico en el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra de cada una de las subpoblaciones de tada mao muestral nX y nY , respectivamente, lo describen las variables aleatorias, n
2 2 X, Y , SX y SY , respectivamente. Finalmente, el valor de la media muestral
y la cuasivarianza muestral de cada una de las muestras, la denotamos por x, s2 , y y s2 , respectivamente. X Y En este contexto, en primer lugar contrastamos la igualdad de varianzas plan2 2 o teando la hiptesis nula H0 : X = Y frente a la hiptesis alternativa bilao 2 2 teral H1 : X = Y . Si suponemos que X e Y describen el comportamiento
probabil stico de las mediciones de una cierta distancia o ngulo con dos insa
trumentos de medida, entonces la hiptesis nula planteada es apropiada para o comparar la precisin en la medicin de cada uno de los instrumentos utilizao o dos. Como la cuasivarianza muestral es una estimacin puntual de la varianza, para o tomar una decisin comparamos la magnitud de la cuasivarianza muestral de o cada una de las muestras, a travs del cociente de ambas. Valores grandes e o pequeos del cociente muestran discrepancias con la hiptesis nula. Ahora n o
2 2 bien, bajo la hiptesis nula, es decir, cuando X = Y , hemos comentado en o 2 2 el Tema 7 que la distribucin en el muestreo de la variable aleatoria SX /SY o
conduce a tomar como regin de aceptacin el intervalo denido por los valores o o
es un modelo F de Snedecor con nX 1 y nY 1 grados de libertad. Esto nos
libertad y el nivel de signicacin del test de hiptesis. As tomando como o o , Fexp = s2 X , s2 Y
valor experimental
253
ManualEs uEx
F/2 (nX 1, nY 1) y F1/2 (nX 1, nY 1), siendo F/2 (nX 1, nY 1) el cuantil de orden /2 del modelo F de Snedecor con nX 1 y nY 1 grados de
(nX 1, nY 1)
regin de aceptacin regin de rechazo regin de regin de aceptacin rechazo
F(nX 1, nY 1) regin de rechazo regin de aceptacin
regin de rechazo
F1 2 1
(nX 1, nY 1)
1
F1(nX 1, nY 1) 1
Figura 9.9: Regiones de aceptacin y rechazo con nivel de signicacin para o o 2 2 2 2 a a la hiptesis H0 : X = Y (grco de la izquierda) H0 : X Y (grco o 2 2 a central) y H0 : X Y (grco de la derecha). rechazamos la hiptesis nula al nivel de signicacin , si Fexp < o o F/2 (nX 1, nY 1) o Fexp > F1/2 (nX 1, nY 1), tal y como mostramos en el grco de la izquierda de la Figura 9.9. Teniendo esto en cuenta, a calculamos el p-valor como pv = 2 min{P (W < Fexp ), P (W > Fexp )}, siendo W un modelo F de Snedecor con nX 1 y nY 1 grados de libertad. Por convenio, al calcular el valor experimental tomamos en el numerador la cuasivarianza de mayor magnitud, cambiando los papeles de X e Y si fuera preciso. Tambin en este caso la regin de aceptacin es muy sensible a la e o o hiptesis de normalidad de las variables aleatorias X e Y . o Siguiendo un razonamiento anlogo al anterior, para contrastar la hiptesis a o 2 2 2 2 o nula H0 : X Y frente a la hiptesis alternativa H1 : X > Y al nivel de signicacin , tomamos como regin de rechazo al conjunto de valores o o a mayores que F1 (nX 1, nY 1), como mostramos en el grco central de la 2 2 Figura 9.9. Asimismo, para contrastar la hiptesis nula H0 : X Y frente o 2 2 o a la hiptesis alternativa H1 : X < Y al nivel de signicacin , tomamos o como regin de rechazo al conjunto de valores menores que F (nX 1, nY 1), o como mostramos en el grco de la derecha de la Figura 9.9. a
ManualEs uEx 254
Ejemplo 9.7 Retornamos a la situacin descrita en el Ejemplo 8.8, para cono trastar la igualdad en dispersin de las mediciones de cierto ngulo usando de o a manera independiente dos teodolitos con apreciacin en segundos. Para ello o 2 2 o planteamos la hiptesis nula H0 : X = Y frente a la hiptesis alternativa o

2 2 bilateral H1 : X = Y . Considerando la mismas muestras aleatorias simples
de tamao 5 asociadas a cada uno de los teodolitos, sean n
Muestra X: 35.3428, 35.3426, 35.3423, 35.3426, 35.3424, Muestra Y : 35.3424, 35.3420, 35.3425, 35.3425, 35.3424, donde hemos utilizado notacin centesimal, tenemos que las cuasivarianzas o muestrales son s2 = 0.000000031 y s2 = 0.000000034. Como s2 > s2 , entonX Y Y X ces tomamos como valor experimental Fexp = s2 Y = 1.097. s2 X
Adems, como F0.05 (4, 4) = 0.157 y F0.95 (4, 4) = 6.388 (ver Cuadro A.6), a decidimos asumir la igualdad de dispersin al nivel de signicacin = 0.1. o o Esta decisin es consistente con el resultado obtenido mediante estimacin por o o intervalos, donde la unidad est contenida en el intervalo de conanza para el a cociente de varianzas al nivel de conanza 0.90.
9.5.
Test de hiptesis para la diferencia de meo dias
En lo que sigue contrastamos la hiptesis nula H0 : X Y = 0 frente o
o conocido. Tomando 0 = 0, la hiptesis nula planteada es apropiada para contrastar la exactitud entre dos instrumentos de medida. Por otro lado, si o 0 > 0, la hiptesis nula planteada es apropiada para contrastar la exactitud en la medida de una caracter stica cuyo valor nominal es 0 . Como la media muestral es una estimacin puntual de la media, para tomar una decisin o o e , conocido 0 , a travs de su distancia. As valores grandes de la distancia muestran discrepancias con la hiptesis nula. A continuacin exponemos este o o proceder distinguindose entre muestras aleatorias simples independientes y e muestras aleatorias relacionadas. comparamos la magnitud de la diferencia de medias muestrales con el valor
a la hiptesis alternativa bilateral H1 : X Y = 0 , siendo 0 un valor o
255
ManualEs uEx
9.5.1.
Como las variables aleatorias X e Y siguen modelos normales independientes 2 2 de medias X y Y , y varianzas X y Y , respectivamente, entonces, bajo la 7 que la distribucin en el muestreo de la variable aleatoria o X Y 0 2 2 X Y nX + nY hiptesis nula, es decir, cuando X Y = 0 , hemos comentado en el Tema o
sigue un modelo normal estndar. Esta variable describe la distribucin en el a o muestreo, bajo la hiptesis nula, de la distancia normalizada entre la diferencia o de medias muestrales y el valor de prueba 0 . Siguiendo un razonamiento anlogo al realizado cuando hemos planteado una hiptesis alternativa bilateral a o de la media de una poblacin, tomamos como regin de aceptacin el intervalo o o o denido por los valores z1/2 y z1/2 , siendo z1/2 el cuantil de orden
1 /2 del modelo normal estndar y el nivel de signicacin del test de a o hiptesis. As tomando como valor experimental o , x y 0 , zexp = 2 X 2 + nY nX Y
rechazamos la hiptesis nula al nivel de signicacin , si |zexp | > z1/2 . o o Teniendo esto en cuenta, el p-valor lo calculamos como p = P (|Z| > zexp ), siendo Z un modelo normal estndar. a
2 Observemos que el valor experimental depende del valor de las varianzas X 2 y Y . De modo anlogo al desarrollado en estimacin por intervalo, cuana o do los valores de las varianzas son desconocidos pero supuestamente iguales, calculamos el valor experimental como
ManualEs uEx
texp = siendo sXY =
x y 0 , sXY 1 1 + nX nY
256
(nX 1)s2 + (nY 1)s2 X Y nX + nY 2

En esta situacin, la regin de aceptacin es el intervalo denido por los valores o o o t1/2 (nX + nY 2) y t1/2 (nX + nY 2), siendo t1/2 (nX + nY 2) el cuantil de orden 1 /2 del modelo t de Student con nX nY 2 grados de
libertad y el nivel de signicacin del test de hiptesis. Por tanto, rechazamos o o
la hiptesis nula al nivel de signicacin , si |texp | > t1/2 (nX + nY 2). o o Teniendo esto en cuenta, el p-valor lo calculamos como pv = P (|T | > texp ),
2 2 las varianzas X y Y son desconocidas, para valorar si las podemos suponer 2 2 iguales, previamente hemos de contrastar la hiptesis H0 : X = Y . Si el o
siendo T un modelo t de Student con nX + nY 2 grados de libertad. Como
resultado de este test de hiptesis es signicativo, entonces no son aplicables o las expresiones del valor experimental y de la regin de aceptacin propuestas o o anteriormente para la diferencia de medias. En esta situacin, el valor experio mental y la regin de aceptacin admiten una formulacin ms compleja. El o o o a test resultante es conocido como test de Welch, implicando la distribucin t o de Student, y las medias y cuasivarianzas muestrales. En cualquier caso, observemos que, siguiendo un razonamiento anlogo al ana terior, podemos proponer regiones de aceptacin para las hiptesis alternativas o o unilaterales H1 : X Y > 0 y H1 : X Y < 0 . Ejemplo 9.8 Continuando con la situacin descrita en el Ejemplo 9.7, donde o hemos asumido que la dispersin en las mediciones de cada uno de los teodolitos o coinciden, contrastamos ahora la exactitud de ambos teodolitos. Para ello, o planteamos la hiptesis nula H0 : X = Y frente a la hiptesis alternativa o 2 bilateral X = Y . Como 0 = 0, x = 35.3425, y = 35.3424, sX = 0.000000031, s2 = 0.000000034 y nX = nY = 5, obtenemos como valor experimental Y texp = x y 0 = 1.414. sXY
257
ManualEs uEx
Dado que t0.95 (8) = 1.860 (ver Cuadro A.5), es mayor que el valor experimental, entonces asumimos la exactitud de los teodolitos al nivel de signicacin o = 0.1. Esta decisin es consistente con el resultado obtenido en el Ejemplo o 8.9, mediante estimacin por intervalos, donde el cero est contenido en el o a intervalo de conanza para la diferencia de medias al nivel de conanza 0.90.
9.5.2.
Los test de hiptesis expuestos para la diferencia de medias son apropiados o cuando las variables aleatorias X e Y son independientes. Sin embargo, como ya hemos comentado, existen situaciones prcticas en las que las variables a estn relacionadas y por tanto, estos test de hiptesis no son aplicables. En a o esta situacin, para contrastar la hiptesis nula H0 : X Y = 0 frente o o hacemos uso de la variable aleatoria D = X Y , de manera similar a lo a la hiptesis alternativa H1 : X Y = 0 , siendo 0 un valor conocido, o
realizado en estimacin por intervalo. Como la media de la variable aleatoria o D es D = X Y , entonces el problema planteado es equivalente a contrastar la hiptesis nula H0 : D = 0 frente a la hiptesis alternativa bilateral H1 : o o D = 0 . Si la hiptesis alternativa es unilateral, el razonamiento es anlogo. o a
De esta manera, el problema de comparar la diferencia de medias cuando las una variable aleatoria con varianza desconocida.
variables aleatorias son dependientes queda reducido a contrastar la media de
Concretamente, a partir de dos muestras aleatorias relacionadas de tamao n n, donde cada elemento de las muestras es una realizacin del vector (X, Y ), o calculamos el valor experimental como texp = d 0 n , sD
z siendo d y sD , la media y la ra cuadrada de la cuasivarianza, respectivamente, de las diferencias entre las coordenadas de los elementos de la muestra aleatoria simple. Ejemplo 9.9 Retornamos a la situacin descrita en el Ejemplo 8.10, donde un o angulo horizontal es obtenido como diferencia de dos ngulos, y . Como a las variables aleatorias X e Y describen las mediciones de los ngulos y , a respectivamente, entonces X Y representa la medicin media del ngulo o a
ManualEs uEx 258
proporcionada por el teodolito. Para contrastar si este valor coincide con el valor nominal del angulo, sea 36.4350 en notacin centesimal, planteamos la o hiptesis nula H0 : X Y = 36.4350 frente a la hiptesis alternativa bilateral o o H1 : X Y = 36.4350. A partir de la muestra aleatoria simple de tamao 4 n

cada una de las muestras aleatorias simples considerada en el Ejemplo 9.7 podemos considerarla como una muestra aleatoria simple relacionada. Para esta situacin, tenemos que n = 5 y rP = 0.260, y as el valor experimental o n2 texp = rP 2 = 0.466. 1 rP Como t0.975 (3) = 3.182 (ver Cuadro A.5) es mayor que |texp |, entonces asumimos la hiptesis de independencia lineal entre las mediciones de los dos teodoo litos, es decir, la discrepancias observadas sobre la independencia no son signiasumimos tambin independencia entre ambas variables. e cativas al nivel de signicacin de 0.05. Como rS = 0.406 y r0.05 (5) = 0.90 o
En cambio, para la situacin descrita en el Ejemplo 9.9 las discrepancias obsero vadas sobre la independencia lineal son signicativas al nivel de signicacin o de 0.05. En efecto, pues n = 4, rP = 0.951 y el valor experimental n2 texp = rP 2 = 4.328 1 rP es mayor que t0.975 (2) = 4.303 (ver Cuadro A.5). Esta dependencia de tipo lineal se maniesta tambin en la magnitud del coeciente de correlacin muese o tral de Spearman, siendo en este caso rS = 0.943, cercano a uno. Observemos que a pesar de mostrar fuerte evidencia de dependencia, el test asociado no a es signicativo, pues r0.05 (4) = 1, mayor que rS . Esto muestra el carcter conservador de este test, sobre todo si el tamao muestral es pequeo. n n
9.7.
Test de hiptesis sobre la distribucin o o
Las hiptesis planteadas hasta ahora dependen de ciertas caracter o sticas de la poblacin, usualmente la media y la varianza. Sin embargo, en ocasiones, no o estamos interesados tanto en contrastar dichas caracter sticas, sino mas bien ello que a continuacin planteamos hiptesis sobre su distribucin, distinguieno o o do entre el caso discreto y el caso continuo. Para casos discretos, la hiptesis o nula consiste en especicar la funcin de probabilidad de la variable aleatoria, o mientras que en casos continuos la hiptesis nula est en funcin de algn o a o u
259
ManualEs uEx
en describir el comportamiento probabil stico de la variable aleatoria X. Es por

modelo de probabilidad conocido, siendo el ms habitual el modelo normal. a Observemos que contrastar la hiptesis nula H0 : X sigue un modelo normal o frente a lo anterior no es cierto, es el primer paso a dar para aplicar los test de hiptesis vistos anteriormente, sobre todo aquellos que son muy sensibles a o la hiptesis de normalidad, como los relacionados con la varianza. o
9.7.1.
Caso discreto
Supongamos en primer lugar que la variable aleatoria X es discreta con espacio muestral nito, {a1 , . . . , am }. Esta situacin es apropiada para describir o el comportamiento aleatorio de una caracter stica cualitativa donde cada categor est asociada a un valor numrico. Como la funcin de probabilidad a a e o determina la distribucin de la variable aleatoria, planteamos la hiptesis nula o o H0 : P (X = a1 ) = p1 , . . . , P (X = am ) = p(0) m frente a que alguna de esas igualdades no es cierta, donde p1 , . . . , pm dene una funcin de probabilidad determinada, es decir, son valores conocidos, no o negativos y que suman uno. Para contrastar esta hiptesis, extraemos una o muestra aleatoria simple de tamao n asociada a la variable aleatoria X. Para n valor ai . Ahora bien, si la hiptesis nula es cierta, al observar n individuos o esperamos encontrarnos con npi de ellos asociados al valor ai , es decir, npi 2 (0) es la frecuencia esperada bajo la hiptesis nula. Por tanto, Oi npi o nos 2 (0) m Oi npi
i=1 (0) (0) (0) (0) (0)
cada i {1, . . . , m}, denotamos por Oi a la frecuencia absoluta asociada al
mide la discrepancia con la hiptesis nula, siendo mayor cuanto mayor sea su o magnitud. As tomamos como valor experimental ,
2 = exp
npi
(0)
ManualEs uEx 260
y la regin de rechazo al conjunto de valores mayores que 2 (m 1), siendo o 1 grados de libertad y el nivel de signicacin. Este test es vlido siempre que o a ninguna de las frecuencias esperadas sea estrictamente menor que 1 y no ms a del 20 % de ellas sean menores o iguales que 5. 2 (m 1) el cuantil de orden 1 de un modelo 2 de Pearson con m 1 1

Ejemplo 9.11 Retornamos a la situacin descrita en el Ejemplo 9.5, donde o estamos interesados en determinar el comportamiento probabil stico de la variable aleatoria X asociada al experimento de seleccionar al azar una estacin o total de las 5 existentes en el almacn del Centro Universitario de Mrida y que e e toma el valor 0 si la estacin total est mal calibrada y el valor 1 si est bien o a a calibrada. Para contrastar si 3 de las estaciones totales estn bien calibradas a planteamos la hiptesis nula o H0 : P (X = 0) = 0.4 y P (X = 1) = 0.6. Observemos que como slo dos son los valores posibles de la variables, espeo cicando la probabilidad de uno determinamos la probabilidad del otro. Por tanto, la hiptesis planteada es equivalente a la planteada en el Ejemplo 9.5. o En esta ocasin vamos a tomar una decisin a travs de la distribucin 2 o o e o de Pearson en lugar del modelo normal estndar. Dado que en la muestra a aleatoria simple de tamao 100 hemos observado 64 estaciones totales bien n calibradas, el valor experimental lo calculamos como 2 (0) m Oi npi
i=1
2 = exp
Ei
(64 60)2 2 (36 40)2 + = . 40 60 3
Como las frecuencias esperadas son 40 y 60, las condiciones de validez del test se cumplen y por tanto para tomar una decisin comparamos el valor o experimental con 2 (1) = 3.841 (ver Cuadro A.4), concluyendo que las 0.95 diferencias observadas no son signicativas.
9.7.2.
Caso continuo
Si la variable aleatoria X es discreta con espacio muestral innito o continua, el test anterior lo podemos aplicar sin ms que agrupar en un nmero nitos a u depender de la agrupacin elegida. Por ello, en estas situaciones es preferio ble aplicar otro test de hiptesis. Un test habitual es el denominado test de o Kolmogorov-Smirnov donde comparamos la funcin de distribucin del modeo o lo especicado en la hiptesis nula frente a una estimacin de la funcin de o o o de intervalos el espacio muestral. Observemos que la decisin del test, puede o
261
ManualEs uEx

modelo de probabilidad conocido, siendo el ms habitual el modelo normal. a Observemos que contrastar la hiptesis nula H0 : X sigue un modelo normal o frente a lo anterior no es cierto, es el primer paso a dar para aplicar los test de hiptesis vistos anteriormente, sobre todo aquellos que son muy sensibles a o la hiptesis de normalidad, como los relacionados con la varianza. o
9.7.1.
Caso discreto
Supongamos en primer lugar que la variable aleatoria X es discreta con espacio muestral nito, {a1 , . . . , am }. Esta situacin es apropiada para describir o el comportamiento aleatorio de una caracter stica cualitativa donde cada categor est asociada a un valor numrico. Como la funcin de probabilidad a a e o determina la distribucin de la variable aleatoria, planteamos la hiptesis nula o o H0 : P (X = a1 ) = p1 , . . . , P (X = am ) = p(0) m frente a que alguna de esas igualdades no es cierta, donde p1 , . . . , pm dene una funcin de probabilidad determinada, es decir, son valores conocidos, no o negativos y que suman uno. Para contrastar esta hiptesis, extraemos una o muestra aleatoria simple de tamao n asociada a la variable aleatoria X. Para n valor ai . Ahora bien, si la hiptesis nula es cierta, al observar n individuos o esperamos encontrarnos con npi de ellos asociados al valor ai , es decir, npi 2 (0) es la frecuencia esperada bajo la hiptesis nula. Por tanto, Oi npi o nos 2 (0) m Oi npi
i=1 (0) (0) (0) (0) (0)
cada i {1, . . . , m}, denotamos por Oi a la frecuencia absoluta asociada al
mide la discrepancia con la hiptesis nula, siendo mayor cuanto mayor sea su o magnitud. As tomamos como valor experimental ,
2 = exp
npi
(0)
ManualEs uEx 262
y la regin de rechazo al conjunto de valores mayores que 2 (m 1), siendo o 1 grados de libertad y el nivel de signicacin. Este test es vlido siempre que o a ninguna de las frecuencias esperadas sea estrictamente menor que 1 y no ms a del 20 % de ellas sean menores o iguales que 5. 2 (m 1) el cuantil de orden 1 de un modelo 2 de Pearson con m 1 1
80
60
40
20
6.985
6.990
6.995
7.000
7.005
7.010
7.015
6.990
6.995
7.000
7.005
7.010
Figura 9.10: Histograma de los datos junto a la funcin de densidad de un o modelo normal (grco de la izquierda) y qqplot (grco de la derecha) para a a la muestra considerada en el Ejemplo 9.12.
9.8.
Para obtener inferencias aplicando test de hiptesis a la situacin consideo o rada en el Ejemplo 9.1, utilizamos las sentencias: Cargar el conjunto de datos x<-c(7.001, 7.005, 6.993, 7.004) Comparar la media con varianza conocida round(mean(x),3); alpha<-0.05; mu0<-7; sigma<-0.005 zexp<-sqrt(length(x))*(mean(x)-mu0)/sigma qnorm(alpha/2); qnorm(1-alpha/2); 2*(1-pnorm(abs(zexp))) qnorm(1-alpha); (1-pnorm(abs(zexp))) Comparar la media con varianza desconocida round(mean(x),3); alpha<-0.05 t.test(x,mu=mu0,conf.level=1-alpha) t.test(x,mu=mu0,alternative="greater",conf.level=1-alpha) qt(1-alpha,length(x)-1) t.test(x,mu=mu0,alternative="less",conf.level=1-alpha) qt(alpha,length(x)-1) qt(alpha/2,length(x)-1); qt(1-alpha/2,length(x)-1)
263
ManualEs uEx

distribucin, obtenida a partir de la informacin de la muestra. Si las discreo o pancias entre ambas funciones son signicativas, rechazamos la hiptesis nula. o Cuando la distribucin a contrastar es el modelo normal, Lilliefors propuso o una modicacin, que en general obtiene mejores resultados. Sin embargo, pao ra contrastar si un conjunto de datos se ajusta a un modelo normal, existen una gran variedad de test espec cos. Por ser uno de los ms frecuentes, desa tacamos el test de Shapiro-Wilks. Se basa en comparar los cuantiles de un modelo normal con los cuantiles de la muestra, rechazando la hiptesis nula o cuando la relacin entre ambos no es descrita por una recta. Para ilustrar este o comportamiento, un grco qq-plot es apropiado, pues muestra los cuantiles a del modelo normal estndar en el eje de abscisa y los cuantiles muestrales en a el eje de ordenadas. En general, el valor experimental as como la regin de aceptacin asociados o o a estos test de hiptesis son de dif clculo, y por ello nos apoyamos en un o cil a software estad stico para aplicarlo. Observemos que si el tamao muestral es n pequeo (no menos de 10), asumiremos la normalidad de los datos, pues los n test propuestos son conservadores para rechazar la hiptesis nula. o Ejemplo 9.12 Supongamos que para comprobar la normalidad de las mediciones del distancimetro considerado en la situacin descrita en el Ejemplo o o 9.2, tomamos una muestra aleatoria simple de tamao 100. En el grco de n a la izquierda de la Figura 9.10, mostramos el histograma de los datos junto a la funcin de densidad de un modelo normal de media la media muestral y o varianza la cuasivarianza muestral. En el grco de la derecha de la Figura a 9.10 mostramos el qqplot, donde comparamos los cuantiles muestrales junto a los del modelo normal estndar. Las discrepancias observadas al ajuste por a
ManualEs uEx 264
una recta no son signicativas, como indica el test de Shapiro-Wilks, pues el p-valor es 0.5625, mayor que 0.05. Por tanto, no tenemos razones sucientes para rechazar que los datos son extra dos de una poblacin normal. Aplicando o el test de Kolmogorov-Smirnov obtenemos la misma conclusin. o

Cargar el conjunto de datos x<-c(35.3428, 35.3426, 35.3423, 35.3426, 35.3424) y<-c(35.3424, 35.3420, 35.3425, 35.3425, 35.3424) Contrastar la igualdad de varianzas var(x); var(y); alpha<-0.1 var.test(y,x,conf.level=1-alpha) qf(alpha/2,length(y)-1,length(x)-1) qf(1-alpha/2,length(y)-1,length(x)-1) Comparar la diferencia de medias mean(x); mean(y) t.test(x,y,mu=0,var.equal=T,conf.level=1-alpha) qt(1-alpha/2,length(x)+length(y)-2) qt(alpha/2,length(x)+length(y)-2) t.test(x,y,mu=0,var.equal=F,conf.level=1-alpha) Contrastar la independencia cor(x,y); alpha<-0.05 texp<-cor(x,y)*sqrt(length(x)/(1-cor(x,y)^2)) qt(alpha/2,length(x)-2); qt(1-alpha/2,length(x)-2) cor(rank(x),rank(y)); library(SuppDists) qSpearman(alpha/2,length(x)); qSpearman(1-alpha/2,length(x)) Para obtener inferencias aplicando test de hiptesis a la situacin consideo o rada en el Ejemplo 9.7, utilizamos las sentencias: Cargar el conjunto de datos x<-c(61.7814, 61.7812, 61.7805, 61.7813) y<-c(25.3457, 25.3455, 25.3452, 25.3455); d<-x-y Comparar la diferencia de medias
265
ManualEs uEx
mean(x); mean(y); alpha<-0.01; delta0<-36.4350 t.test(x,y,mu=delta0,pair=T,conf.level=1-alpha) qt(alpha/2,length(x)-1); qt(1-alpha/2,length(x)-1) t.test(d,mu=delta0,conf.level=1-alpha) Contrastar la independencia cor(x,y); alpha<-0.05 texp<-cor(x,y)*sqrt(length(x)/(1-cor(x,y)^2)) qt(alpha/2,length(x)-2); qt(1-alpha/2,length(x)-2) cor(rank(x),rank(y)); library(SuppDists) qSpearman(alpha/2,length(x)); qSpearman(1-alpha/2,length(x))
9.9.
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) En el test de hiptesis para la media de un modelo normal con varianza o conocida, si el tamao muestral aumenta y la media muestral permanece n constante, el p-valor disminuye. ii) Si 0.10 es el p-valor del test de hiptesis para contrastar la hiptesis o o hiptesis para contrastar la hiptesis H0 : 0 frente a H1 : > 0 . o o H0 : = 0 frente a H1 : = 0 , entonces 0.05 es el p-valor del test de
iii) Si el resultado de un test de hiptesis es signicativo al nivel de signio cacin 0.05, entonces podemos asegurar con una conanza del 95 % que o la hiptesis alternativa es correcta. o iv) En el test de hiptesis de la media de un modelo normal con varianza o conocida, si la varianza aumenta el p-valor tambin aumenta. e
ManualEs uEx
v) Si el resultado un test de hiptesis bilateral es signicativo al nivel de o signicacin de 0.05, entonces el resultado de uno de los dos test de o hiptesis unilaterales asociados es signicativo al nivel de signicacin o o 0.05.
266

vi) Si el resultado del test de hiptesis de igualdad de varianzas es signicatio vo al nivel de signicacin de 0.10, entonces lo es al nivel de signicacin o o de 0.05. vii) Si la media muestral de una muestra asociada a la variable aleatoria X es mayor que la media de una muestra asociada a la variable aleatoria Y entonces la hiptesis nula H0 : X Y siempre se rechaza. o 2. Sea 12.350, 12.351, 12.345, 12.342 un conjunto de mediciones expresadas en metros de cierta distancia, utilizndose para ello un distancimetro con aprea o ciacin en mil o metros. Suponemos que las mediciones proporcionadas por el distancimetro siguen una distribucin normal y las mediciones son indepeno o dientes y estn exentas de cualquier tipo de errores salvo el aleatorio. a i) Determinar si es estad sticamente signicativo al nivel de signicacin o 0.05 que el valor esperado de las mediciones sea distinto a 12.340 m. Y a 12.345 m.?. ii) Estudiar si es estad sticamente signicativo al nivel de signicacin 0.05 o que el valor de la varianza sea distinto a 0.000005 m2 . Y a 0.000025 m2 .? iii) Determinar si son estad sticamente signicativos a nivel de signicacin o 0.10 los contrastes planteados en los dos apartados anteriores. iv) Comparar los resultados con los obtenidos en el Problema 3 del Tema 8. 3. Si en 1000 mediciones realizadas de manera independiente con una estacin o total se han detectado 5 datos at picos, determinar si es estad sticamente signicativo al nivel de signicacin de 0.1 que la proporcin de datos at o o picos que genera dicha estacin total es del 1 %. Comparar el resultado con el obtenido o en el Problema 4 del Tema 8. 4. Sean 12.350, 12.351, 12.345, 12.342 y 12.356, 12.356, 12.352, 12.357 dos conjuntos de mediciones expresadas en metros de cierta distancia, utilizndose a para ello dos distancimetros con apreciacin en mil o o metros, uno para cada conjunto de datos. Suponemos que las mediciones proporcionadas por ambos
267
ManualEs uEx

siguen distribucin normal y las mediciones son independientes y estn exentas o a de cualquier tipo de errores salvo el aleatorio. i) Estudiar si es estad sticamente signicativo a nivel de signicacin 0.05 o que las mediciones realizadas con un distancimetro dependen de las o mediciones del otro. ii) Determinar si es estad sticamente signicativo a nivel de signicacin o 0.05 que el valor esperado de las mediciones depende del distancimetro. o iii) Determinar si son estad sticamente signicativos a nivel de signicacin o 0.01 los contrastes planteados en los dos apartados anteriores. iv) Comparar los resultados con los obtenidos en el Problema 5 del Tema 8. 5. Utilizando el software estad stico R: i) Generar una muestra aleatoria simple de tamao 100 de un modelo norn mal y otra de un modelo uniforme. ii) Estudiar si los modelos que generan dichas muestras estn relacionados. a iii) Determinar si podemos suponer que cada una de las muestras procede de un modelo normal.
268
ManualEs uEx
Bibliograf bsica de a a referencia

Entendemos como buena pol tica para la formacin del alumno, animarle a que o consulte libros de texto, especialmente aquellos espec camente orientados al desarrollo de mtodos matemticos en el campo de la Ingenier Teniendo e a a. en cuenta que el programa de contenidos expuestos incluye varios bloques temticos, existen en la literatura una gran variedad y cantidad de textos a apropiados para tal n. Con la intencin de facilitar al alumno la labor de o consulta, indicamos a continuacin una breve bibliograf estructurada por o a materia. Probabilidad y Estad stica Textos clsicos donde se desarrollan contenidos de Probabilidad y Estad a stica con aplicaciones a Ingenier son Ardanuy & Mart (1999), Milton & Arnold a n (2004), Montgomery & Runger (1996) y Walpole & Myers (1992), entre otros. Adems, estos contenidos se exponen desde un enfoque general y un nivel aproa piado a una ingenier en Canavos (1993), Mart & Ruiz-Maya (1997a, 1997b) a n y Pea (1993, 2005). Asimismo, listados de problemas resueltos y propuestos n con soluciones pueden encontrarse en Cuadras (1982), Ru z-Maya (1986) y Sarabia & Mat (1993). Finalmente, por su sencillez en la exposicin, recomene o
269
ManualEs uEx
damos algunos textos espec cos de otras disciplinas pero que pueden ser ultil para entender los contenidos expuestos. Entre ellos destacamos Garc (2004), a donde se proponen una gran bater de cuestiones y problemas, y Mart & a n Luna del Castillo (1990), un texto clsico en Bioestad a stica.

Teor de errores a Una exposicin de la Teor de errores aleatorios, a un nivel asequible al o a alumno, se encuentra en los textos Rabinovich (2000), Taylor (1982) y Topping (1975), que consideran el problema de los errores aleatorios del proceso de medicin en un contexto general. Textos ms espec o a cos de anlisis de errores a aleatorios en Topograf son Chueca et al. (1996), Harvey (2006), Mikhail & a Ackermann (1976), Mikhail & Gracie (1981) y Wolf (1997). Ejemplos reales en Geodesia, Topograf y Fotogrametr donde se aplica un anlisis de erroa a, a res aleatorios, pueden encontrarse en Mart (1990), Sanchz (2000a, 2000b) n e y Mikhail et al. (2001). Software informtico R a Finalmente, para familiarizarse con el software informtico R y seguir las a prcticas de laboratorio, los textos Crawley (2005) y Ugarte & Militino (2002) a pueden ser de gran ayuda, as como los manuales del programa incluidos en su instalacin, principalmente el titulado An introduction to R. o Concluimos indicando algunas pginas webs cuya consulta puede resultar de a inters para el alumno: e www.r-project.org, donde puede descargarse el software informtico R a y algunos manuales y libros de ayuda, en especial una traduccin al o castellano del manual An introduction to R. http://www.math.uah.edu/stat/, donde se encuentra ubicado el laboratorio virtual de Probabilidad y Estad stica de la Universidad de Alabama en Hunstville, que propone mltiples actividades didcticas sobre cuesu a tiones de Probabilidad y Estad stica.
270
ManualEs uEx
Apndice A e
Tablas estad sticas

A continuacin, mostramos las principales tablas a utilizar para calcular proo babilidades, cuantiles y l mites de signicacin de los principales modelos de o probabilidad. Concretamente, mostramos las siguientes Cuadro A.1: Tabulacin de la funcin de distribucin de modelos binoo o o miales. Cuadro A.2 Tabulacin de la funcin de distribucin del modelo normal o o o estndar. a Cuadro A.3 Tabulacin de cuantiles del modelo normal estndar. o a Cuadro A.4 Tabulacin de cuantiles de modelos 2 de Pearson. o Cuadro A.5 Tabulacin de cuantiles de modelos t de Student. o Cuadro A.6 Tabulacin de cuantiles de modelos F de Snedecor. o Cuadro A.7 Tabulacin de l o mites de signicacin r (n) para el coeo ciente de correlacin de Spearman. o
271
ManualEs uEx

Cuadro A.1 Tabulacin de la funcin de distribucin de modelos binomiales. o o o
n x|p 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
ManualEs uEx
0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8
0.902 0.998 1.000 0.857 0.993 1.000 1.000 0.815 0.986 1.000 1.000 1.000 0.774 0.977 0.999 1.000 1.000 1.000 0.735 0.967 0.998 1.000 1.000 1.000 1.000 0.698 0.956 0.996 1.000 1.000 1.000 1.000 1.000 0.663 0.943 0.994 1.000 1.000 1.000 1.000 1.000 1.000
0.810 0.990 1.000 0.729 0.972 0.999 1.000 0.656 0.948 0.996 1.000 1.000 0.590 0.919 0.991 1.000 1.000 1.000 0.531 0.886 0.984 0.999 1.000 1.000 1.000 0.478 0.850 0.974 0.997 1.000 1.000 1.000 1.000 0.430 0.813 0.962 0.995 1.000 1.000 1.000 1.000 1.000
0.722 0.978 1.000 0.614 0.939 0.997 1.000 0.522 0.890 0.988 0.999 1.000 0.444 0.835 0.973 0.998 1.000 1.000 0.377 0.776 0.953 0.994 1.000 1.000 1.000 0.321 0.717 0.926 0.988 0.999 1.000 1.000 1.000 0.272 0.657 0.895 0.979 0.997 1.000 1.000 1.000 1.000
0.640 0.960 1.000 0.512 0.896 0.992 1.000 0.410 0.819 0.973 0.998 1.000 0.328 0.737 0.942 0.993 1.000 1.000 0.262 0.655 0.901 0.983 0.998 1.000 1.000 0.210 0.577 0.852 0.967 0.995 1.000 1.000 1.000 0.168 0.503 0.797 0.944 0.990 0.999 1.000 1.000 1.000
0.563 0.938 1.000 0.422 0.844 0.984 1.000 0.316 0.738 0.949 0.996 1.000 0.237 0.633 0.896 0.984 0.999 1.000 0.178 0.534 0.831 0.962 0.995 1.000 1.000 0.133 0.445 0.756 0.929 0.987 0.999 1.000 1.000 0.100 0.367 0.679 0.886 0.973 0.996 1.000 1.000 1.000
0.490 0.910 1.000 0.343 0.784 0.973 1.000 0.240 0.652 0.916 0.992 1.000 0.168 0.528 0.837 0.969 0.998 1.000 0.118 0.420 0.744 0.930 0.989 0.999 1.000 0.082 0.329 0.647 0.874 0.971 0.996 1.000 1.000 0.058 0.255 0.552 0.806 0.942 0.989 0.999 1.000 1.000
0.422 0.877 1.000 0.275 0.718 0.957 1.000 0.179 0.563 0.874 0.985 1.000 0.116 0.428 0.765 0.946 0.995 1.000 0.075 0.319 0.647 0.883 0.978 0.998 1.000 0.049 0.234 0.532 0.800 0.944 0.991 0.999 1.000 0.032 0.169 0.428 0.706 0.894 0.975 0.996 1.000 1.000
0.360 0.840 1.000 0.216 0.648 0.936 1.000 0.130 0.475 0.821 0.974 1.000 0.078 0.337 0.683 0.913 0.990 1.000 0.047 0.233 0.544 0.821 0.959 0.996 1.000 0.028 0.159 0.420 0.710 0.904 0.981 0.998 1.000 0.017 0.106 0.315 0.594 0.826 0.950 0.991 0.999 1.000
0.302 0.797 1.000 0.166 0.575 0.909 1.000 0.092 0.391 0.759 0.959 1.000 0.050 0.256 0.593 0.869 0.982 1.000 0.028 0.164 0.442 0.745 0.931 0.992 1.000 0.015 0.102 0.316 0.608 0.847 0.964 0.996 1.000 0.008 0.063 0.220 0.477 0.740 0.912 0.982 0.998 1.000
0.250 0.750 1.000 0.125 0.500 0.875 1.000 0.062 0.313 0.687 0.938 1.000 0.031 0.187 0.500 0.812 0.969 1.000 0.016 0.109 0.344 0.656 0.891 0.984 1.000 0.008 0.063 0.227 0.500 0.773 0.938 0.992 1.000 0.004 0.035 0.145 0.363 0.637 0.855 0.965 0.996 1.000
(*) Por ejemplo, dado n = 6, x = 1, p = 0.25, tenemos que P (X 1) = 0.534, siendo X un modelo binomial B(6, 0.25).
272

Cuadro A.2 Tabulacin de la funcin de distribucin del modelo normal o o o estndar. a
F(z)
0.000
0.010
0.020
0.030
0.040
0.050
0.060
0.070
0.080
0.090
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998
0.504 0.544 0.583 0.622 0.659 0.695 0.729 0.761 0.791 0.819 0.844 0.867 0.887 0.905 0.921 0.934 0.946 0.956 0.965 0.972 0.978 0.983 0.986 0.990 0.992 0.994 0.995 0.997 0.998 0.998
0.508 0.548 0.587 0.626 0.663 0.698 0.732 0.764 0.794 0.821 0.846 0.869 0.889 0.907 0.922 0.936 0.947 0.957 0.966 0.973 0.978 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.512 0.552 0.591 0.629 0.666 0.702 0.736 0.767 0.797 0.824 0.848 0.871 0.891 0.908 0.924 0.937 0.948 0.958 0.966 0.973 0.979 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.516 0.556 0.595 0.633 0.670 0.705 0.739 0.770 0.800 0.826 0.851 0.873 0.893 0.910 0.925 0.938 0.949 0.959 0.967 0.974 0.979 0.984 0.987 0.990 0.993 0.994 0.996 0.997 0.998 0.998
0.520 0.560 0.599 0.637 0.674 0.709 0.742 0.773 0.802 0.829 0.853 0.875 0.894 0.911 0.926 0.939 0.951 0.960 0.968 0.974 0.980 0.984 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.524 0.564 0.603 0.641 0.677 0.712 0.745 0.776 0.805 0.831 0.855 0.877 0.896 0.913 0.928 0.941 0.952 0.961 0.969 0.975 0.980 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.528 0.567 0.606 0.644 0.681 0.716 0.749 0.779 0.808 0.834 0.858 0.879 0.898 0.915 0.929 0.942 0.953 0.962 0.969 0.976 0.981 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.999
0.532 0.571 0.610 0.648 0.684 0.719 0.752 0.782 0.811 0.836 0.860 0.881 0.900 0.916 0.931 0.943 0.954 0.962 0.970 0.976 0.981 0.985 0.989 0.991 0.993 0.995 0.996 0.997 0.998 0.999
0.536 0.575 0.614 0.652 0.688 0.722 0.755 0.785 0.813 0.839 0.862 0.883 0.901 0.918 0.932 0.944 0.954 0.963 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.996 0.997 0.998 0.999
(*) Por ejemplo, dado z = 2.00, tenemos que P (Z 2.00) = 0.977, siendo Z un modelo normal estndar. a
273
ManualEs uEx

Cuadro A.3 Tabulacin de cuantiles del modelo normal estndar. o a
zp
0.000
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0.50 0.60 0.70 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
0.000 0.253 0.524 0.842 0.878 0.915 0.954 0.994 1.036 1.080 1.126 1.175 1.227 1.282 1.341 1.405 1.476 1.555 1.645 1.751 1.881 2.054 2.326
0.003 0.256 0.527 0.845 0.882 0.919 0.958 0.999 1.041 1.085 1.131 1.180 1.232 1.287 1.347 1.412 1.483 1.563 1.655 1.762 1.896 2.075 2.366
0.005 0.259 0.530 0.849 0.885 0.923 0.962 1.003 1.045 1.089 1.136 1.185 1.237 1.293 1.353 1.419 1.491 1.572 1.665 1.774 1.911 2.097 2.409
0.008 0.261 0.533 0.852 0.889 0.927 0.966 1.007 1.049 1.094 1.141 1.190 1.243 1.299 1.359 1.426 1.499 1.580 1.675 1.787 1.927 2.120 2.457
0.010 0.264 0.536 0.856 0.893 0.931 0.970 1.011 1.054 1.098 1.146 1.195 1.248 1.305 1.366 1.433 1.506 1.589 1.685 1.799 1.943 2.144 2.512
0.013 0.266 0.539 0.860 0.896 0.935 0.974 1.015 1.058 1.103 1.150 1.200 1.254 1.311 1.372 1.440 1.514 1.598 1.695 1.812 1.960 2.170 2.576
0.015 0.269 0.542 0.863 0.900 0.938 0.978 1.019 1.063 1.108 1.155 1.206 1.259 1.317 1.379 1.447 1.522 1.607 1.706 1.825 1.977 2.197 2.652
0.018 0.272 0.545 0.867 0.904 0.942 0.982 1.024 1.067 1.112 1.160 1.211 1.265 1.323 1.385 1.454 1.530 1.616 1.717 1.838 1.995 2.226 2.748
0.020 0.274 0.548 0.871 0.908 0.946 0.986 1.028 1.071 1.117 1.165 1.216 1.270 1.329 1.392 1.461 1.538 1.626 1.728 1.852 2.014 2.257 2.878
0.023 0.277 0.550 0.874 0.912 0.950 0.990 1.032 1.076 1.122 1.170 1.221 1.276 1.335 1.398 1.468 1.546 1.635 1.739 1.866 2.034 2.290 3.090
(*) Por ejemplo, dado p = 0.975, tenemos que P (Z 1.960) = 0.975, siendo Z un modelo normal estndar. a
274
ManualEs uEx

Cuadro A.4 Tabulacin de cuantiles de modelos 2 de Pearson. o
2 p
n|p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
0.005
0.025
0.05
0.25
0.5
0.75
0.95
0.975
0.995
0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222
0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929
0.102 0.575 1.213 1.923 2.675 3.455 4.255 5.071 5.899 6.737 7.584 8.438 9.299 10.165 11.037 11.912 12.792 13.675 14.562 15.452 24.478 33.660 42.942 52.294 61.698 71.145 80.625 90.133
0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 29.336 39.335 49.335 59.335 69.334 79.334 89.334 99.334
1.323 2.773 4.108 5.385 6.626 7.841 9.037 10.219 11.389 12.549 13.701 14.845 15.984 17.117 18.245 19.369 20.489 21.605 22.718 23.828 34.800 45.616 56.334 66.981 77.577 88.130 98.650 109.141
3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 43.773 55.758 67.505 79.082 90.531 101.879 113.145 124.342
5.024 7.378 9.348 11.143 12.833* 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 46.979 59.342 71.420 83.298 95.023 106.629 118.136 129.561
7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 53.672 66.766 79.490 91.952 104.215 116.321 128.299 140.169
275
ManualEs uEx
(*) Por ejemplo, dado n = 5 y p = 0.975, tenemos que P (X 12.833) = 0.975, siendo X un modelo 2 de Pearson con 5 grados de libertad.

Cuadro A.5 Tabulacin de cuantiles de modelos t de Student. o
tp (n )
n|p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.6
0.7
0.8
0.9
0.95
0.975
0.995
0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256
0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750
ManualEs uEx 276
(*) Por ejemplo, dado n = 2 y p = 0.975, tenemos que P (X 4.303) = 0.975, siendo X un modelo t de Student con 2 grados de libertad.

Cuadro A.6 Tabulacin de cuantiles de modelos F de Snedecor. o
Fp(n, m)
m|n p = 0.95 1 2 3 4 5 6 7 8 p = 0.975 1 2 3 4 5 6 7 8 p = 0.995 1 2 3 4 5 6 7 8
161.45 18.510 10.130 7.710 6.610 5.990 5.590 5.320
199.50 19.000 9.550 6.940 5.790 5.140 4.740 4.460
215.71 19.160 9.280 6.590 5.410 4.760 4.350 4.070
224.58 19.250 9.120 6.390 5.190 4.530 4.120 3.840
230.16 19.300 9.010 6.260 5.050 4.390 3.970 3.690
233.99 19.330 8.940 6.160 4.950 4.280 3.870 3.580
236.77 19.350 8.890 6.090 4.880 4.210 3.790 3.500
238.88 19.370 8.850 6.040 4.820 4.150 3.730 3.440
647.79 38.510 17.440 12.220 10.010 8.810 8.070 7.570
799.50 39.000 16.040 10.650 8.430 7.260 6.540 6.060
864.16 39.170 15.440 9.980 7.760 6.600 5.890 5.420
899.58 39.250 15.100 9.600 7.390 6.230 5.520 5.050
921.85 39.300 14.880 9.360 7.150 5.990 5.290 4.820
937.11 39.330 14.730 9.200 6.980 5.820 5.120 4.650
948.22 39.360 14.620 9.070 6.850 5.700 4.990 4.530
956.66 39.370 14.540 8.980 6.760 5.600 4.900 4.430
(*) Por ejemplo, dado n = 8, m = 6 y p = 0.975, tenemos que P (X 5.600) = 0.975, siendo X un modelo F de Snedecor con 8 y 6 grados de libertad.
277
ManualEs uEx
16210 198.50 55.552 31.333 22.785 18.635 16.236 14.688
19999 199.00 49.799 26.284 18.314 14.544 12.404 11.042
21614 199.17 47.467 24.259 16.530 12.917 10.882 9.596
22499 199.25 46.195 23.155 15.556 12.028 10.050 8.805
23055 199.30 45.392 22.456 14.940 11.464 9.522 8.302
23437 199.33 44.838 21.975 14.513 11.073 9.155 7.952
23714 199.36 44.434 21.622 14.200 10.786 8.885 7.694
23925 199.38 44.126 21.352 13.961 10.566 8.678 7.496

Cuadro A.7 Tabulacin de l o mites de signicacin r (n) para el coeciente o de correlacin de Spearman. o
n| 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 0.1 0.05 1.000 0.900 0.943 0.821 0.762 0.700 0.648 0.618 0.587 0.560 0.538 0.521 0.503 0.485 0.472 0.458 0.447 0.435 0.425 0.415 0.406 0.398 0.389 0.382 0.01 0.001 n| 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 0.1 0.05 0.01 0.001
0.800 0.800 0.829 0.732 0.667 0.617 0.576 0.536 0.507 0.484 0.464 0.446 0.431 0.417 0.404 0.391 0.380 0.371 0.362 0.353 0.345 0.338 0.331 0.324
1.000 1.000 1.000 0.929 0.881 0.833 0.782 0.755 0.720 0.692 0.670 0.645 0.626 0.610 0.593 0.579 0.564 0.551 0.539 0.528 0.516 0.506 0.497 0.488
1.000 1.000 1.000 1.000 0.976 0.933 0.891 0.864 0.839 0.813 0.789 0.768 0.747 0.730 0.713 0.696 0.681 0.668 0.654 0.642 0.630 0.619 0.609 0.598
0.318 0.312 0.307 0.301 0.297 0.292 0.287 0.283 0.279 0.275 0.271 0.268 0.264 0.261 0.258 0.254 0.251 0.248 0.246 0.243 0.240 0.238 0.235 0.233
0.375 0.368 0.362 0.356 0.350 0.345 0.339 0.334 0.329 0.325 0.320 0.316 0.312 0.308 0.305 0.301 0.298 0.294 0.291 0.288 0.285 0.282 0.279 0.276
0.479 0.471 0.464 0.456 0.449 0.443 0.436 0.430 0.424 0.419 0.413 0.408 0.403 0.398 0.393 0.389 0.385 0.380 0.376 0.372 0.369 0.365 0.361 0.358
0.589 0.580 0.571 0.563 0.555 0.547 0.540 0.533 0.526 0.519 0.513 0.507 0.501 0.495 0.490 0.485 0.479 0.474 0.470 0.465 0.460 0.456 0.452 0.447
(*) Por ejemplo, dado n = 4 y = 0.05, obtenemos que r0.05 (4) = 1.
278
ManualEs uEx
Apndice B e
Variaciones y combinaciones
El clculo de probabilidades a travs de la regla de Laplace se basa en el a e conocimiento del nmero de casos favorables y el nmero de casos posibles. u u Esto implica un proceso de conteo que puede simplicarse mediante el empleo del clculo combinatorio. El objetivo del clculo combinatorio es determinar a a cuntos subconjuntos se pueden formar con los elementos de un conjunto dado, a distinguindose entre clculo combinatorio con repeticin y clculo combinatoe a o a rio sin repeticin, segn se permita o no que los elementos se repitan. Por otro o u lado, surgen las variaciones o combinaciones segn importe o no el orden de u los elementos que forman los subconjuntos. Por tanto, en el clculo combinaa torio distinguimos entre variaciones sin repeticin, variaciones con repeticin, o o combinaciones sin repeticin y combinaciones con repeticin. o o Para ilustrar las diferentes situaciones, en lo que sigue, suponemos que en el almacn del Centro Universitario de Mrida disponemos de 5 estaciones e e totales para la realizacin de las prcticas de campo de cierta asignatura. Si las o a estaciones totales las enumeramos por ET 1, ET 2, ET 3, ET 4, ET 5, el conjunto existen dos grupos de prcticas y que cada uno de ellos elige una estacin a o total para la realizacin de las prcticas. Un posible resultado de la eleccin o a o es cuando el grupo uno escoge ET 3 y el grupo dos ET 1. Esta asignacin, o desde el punto de vista de los grupos, es distinta a la que sucede cuando el
279
ManualEs uEx
a considerar est constituido por cinco elementos. Supongamos tambin que a e

grupo uno escoge ET 1 y el grupo dos ET 3, a pesar de intervenir las mismas estaciones totales. Por tanto, en el reparto importa el orden. Adems, como la a estacin total que elige el grupo uno no puede ser seleccionada por el grupo dos, o entonces en la asignacin en los dos grupos no hay repeticin. En este contexto, o o tenemos que 20 es el nmero de posibles asignaciones, teniendo en cuenta los u grupos, pues al grupo uno puede seleccionar las 5 estaciones, mientras que una vez que este ha elegido, el grupo dos slo puede seleccionar las 4 estaciones o totales restantes. Este nmero es conocido como variaciones sin repeticin de u o cinco elementos tomados de dos en dos. En general, dado un conjunto de n elementos, el n mero de subconjuntos formado por r (r n) elementos sin u repeticin donde el orden importa lo denominamos variaciones sin repeticin o o de n elementos tomados de r en r y lo calculamos como n(n 1) (n r + 1). Cuando n = 5 y r = 2 tenemos que las variaciones sin repeticin de 5 elementos o tomados de 2 en 2 son 20, como ya hemos comentado. Desde el punto de vista del control de las estaciones totales en uso, el orden no es de inters, es decir, si ET 1 y ET 3 estn siendo utilizada, la asignacin e a o de las estaciones totales a cada grupo es indiferente. Obviamente el nmero de u posibles resultados es menor que el obtenido en el contexto de variaciones sin repeticin. En esta situacin tenemos que el nmero de posibles resultados es o o u 10 y es conocido como combinaciones sin repeticin de cinco elementos tomados o de dos en dos. En general, dado un conjunto de n elementos, el n mero de u subconjuntos formado por r (r n) elementos sin repeticin donde no importa o el orden lo denominamos combinaciones sin repeticin de n elementos tomados o de r en r y lo calculamos como n(n 1) (n r + 1) . r(r 1) 1 Como ya hemos comentado, cuando n = 5 y r = 2, las combinaciones sin repeticin de 5 elementos tomados de 2 en 2 son 10. o Supongamos ahora que las prcticas de campo se realizan en dos sesiones a distintas en las que cada grupo de prctica tiene que elegir una estacin total. a o Un posible resultado de la eleccin es cuando el grupo uno escoge ET 3 en la o primera sesin y ET 1 en la segunda sesin. Esta asignacin, desde el punto de o o o asignacin por sesin, es distinta a la que sucede cuando el grupo uno escoge o o
280
ManualEs uEx

ET 1 en la primera sesin y ET 3 en la segunda sesin, a pesar de intervenir o o las mismas estaciones totales. Por tanto, en la asignacin importa el orden de o la sesin. Puede ocurrir que en las dos sesiones la misma estacin total sea o o asignada al grupo uno y por tanto repeticin es permitida. En este contexto, o tenemos que veinticinco es el nmero de posibles asignaciones, teniendo en u cuenta que cinco es el nmero de estaciones totales disponibles en cada sesin u o para el grupo uno. Este nmero es conocido como variaciones con repeticin u o de cinco elementos tomados de dos en dos. En general, dado un conjunto de n elementos, el nmero de subconjuntos formado por r (r n) elementos con u repeticin donde importa el orden lo denominamos variaciones con repeticin o o de n elementos tomados de r en r y lo calculamos como nr . Cuando n = 5 y r = 2 tenemos que las variaciones con repeticin de 5 elementos tomados de 2 o en 2 son 25, como ya hemos comentado. Finalmente, supongamos que en la situacin anterior el orden de la asignacin o o en las dos sesiones no es de inters. En este caso slo tenemos 10 combinae o ciones posibles. En general, dado un conjunto de n elementos, el n mero de u subconjuntos formado por r elementos con posible repeticin donde el orden o no importa lo denominamos combinaciones con repeticin de n elementos too mados de r en r y lo calculamos como las combinaciones de n+r 1 elementos tomados de r en r. Cuando n = 5 y r = 2 tenemos que las combinaciones con repeticin de 5 elementos tomados de 2 en 2 son 10. o
281
ManualEs uEx
Apndice C e
Cifras signicativas
En lo que sigue introducimos el concepto de cifras signicativas, util para representar un nmero real en un computador. Es sabido que cualquier nmero u u real a lo podemos representar en forma decimal de manera unica con un nmero u nito o innito de cifras, sean {0, 1, . . . , 9}, mediante la expresin o a=

j 10j ,
j=m
donde j {0, 1, . . . , 9}, m = 0 y m es un nmero entero. Teniendo en cuenta u esta descomposicin, diremos que una cifra j del nmero real a es signicativa o u si es no nula o si es nula verica que o bien j 0 bien existe otro d o gito k cifras signicativas de algunos nmeros reales. u Observemos que el nmero de cifras signicativas de un nmero real puede u u ser nito o innito. Ahora bien, como la memoria de un computador o calculadora es limitada, a cada nmero real slo le asociamos un nmero nito de u o u cifras, digamos n, usando para ello notacin cient o ca. As el nmero real con , u un nmero menor o igual de cifras signicativas que n no sufre variacin. En u o entonces un proceso de redondeo es requerido. Una regla usual es la siguiente. Si mn es menor de 5 entonces nos quedamos con las primeras n cifras signicativas del nmero, es decir, m , . . . , mn+1 . Si mn es mayor de 5 entonces u el nmero es representado por las cifras m , . . . , mn+1 + 1. Finalmente, si u
no nulo tal k < j. Como ejemplo, en el Cuadro C.1 mostramos el nmero de u
283
ManualEs uEx
cambio, si el n mero de cifras signicativas de un nmero real es mayor que n, u u
Nmero real u
N mero de cifras signicativas u
Notacin cient o ca con 7 cifras
23 200 23.50002 456.78375 456.78385 56442.8644
2 3 7 8 8 9
23 200 2350002 102 4567838 103 4567838 103 5644286 105 3141593 101
Cuadro C.1: Nmero de cifras signicativas. u u u mn es 5 y el nmero de cifras signicativas del nmero es mayor de n + 1, entonces lo representamos como m , . . . , mn+1 + 1. Cuando mn es 5 y el nmero de cifras signicativas del nmero es n + 1, entonces es representado u u por m , . . . , mn+1 si mn+1 es par y por m , . . . , mn+1 + 1 si mn+1 es impar. En el Cuadro C.1 mostramos la notacin cient o ca con 7 cifras signicativas para algunos nmeros reales. Notemos que usualmente los computadores u utilizan 7 cifras signicativas, aunque se puede ampliar. En el caso del software estad stico R utilizamos para ello el comando options(digits=n). Adems, a en los resultados intermedios que intervienen en cualquier clculo se utiliza un a nmero doble de cifras signicativas. u Notemos que despus de aplicar el proceso de redondeo, el nmero representado e u mn+1 . En general decimos que una y el nmero original no dista ms de 0.510 u a aproximacin al nmero a tiene n cifras signicativas exactas si la distancia o u entre ambos valores no dista ms de 0.5 10mn+1 . Observando el proceso de a redondeo, deducimos que esto no signica que la aproximacin tiene todas sus o cifras signicativas iguales.
284
ManualEs uEx
Indice alfabtico e
clculo combinatorio, 281 a carcter a cualitativo, 3 cuantitativo, 3 continuo, 4 discreto, 4 cifras signicativas, 285286 coeciente de correlacin, 125 o de asimetr 103 a, muestral, 33 de correlacin o de Pearson muestral, 54 de Spearman muestral, 55 de variacin, 100 o muestral, 31 combinaciones con repeticin, 283 o sin repeticin, 282 o contraste de hiptesis, vase test o e covarianza, 123 muestral, 52 cuantil, 99 muestral, 24 cuartil, vase cuantil e cuasidesviacin t o pica muestral, 29 cuasivarianza muestral, 29 datos at picos, 21 desigualdad de Tchebychev, 101 desviacin t o pica, 100 muestral, 28 diagrama de barras, 17 agrupadas, 46 apiladas, 47 de caja, 31 de dispersin, 49 o de Pareto, 17 de sectores, 17 de tallo-hoja, 17 qq-plot, 264 distribucin o F de Snedecor, 165 2 de Pearson, 161 t de Student, 163 binomial, 143 de Bernoulli, 141 en el muestreo de la cuasivarianza, 190 geomtrica, 147 e hipergeomtrica, 147 e multinomial, 168 normal, 153
285
ManualEs uEx
de la media, 190

estndar, 150 a multivariante, 170 uniforme continua, 149 uniforme discreta, 139 error, 1 de propagacin, 3 o de tipo I, 239 de tipo II, 239 estndar de la media, 191 a errores instrumental, 2 naturales, 2 personales, 2 escala nominal, 4 numrica, 4 e ordinal, 4 espacio muestral, 69 esperanza matemtica, 96 a estad stica descriptiva, 5 inferencial, 5, 213215, 217 estimacin, 214 o por intervalo, 215 puntual, 215 experimento, 5 aleatorio, 5 determin stico, 5 relativa, 12 acumulada, 13 condicionada, 45 marginal, 44 funcin o de densidad, 90 marginal, 119 de distribucin, 84 o de probabilidad, 87 conjunta, 116 marginal, 119 hiptesis o alternativa, 237 bilateral, 238 nula, 237 unilateral, 238 histograma, 17 individuo, 3 inferencia no paramtrica, 214 e paramtrica, 214 e intervalo de conanza para el cociente de varianzas, 226 para la diferencia de medias, 227, 229 para la media, 218, 221 para la varianza, 223 matriz de varianzas-covarianzas, 124 meda muestral, 30 media, 96 armnica, 23 o
ManualEs uEx
frecuencia absoluta, 12 acumulada, 13 marginal, 44 porcentual, 12
286

geomtrica, 23 e muestral, 21 mediana, 98 muestral, 22 medidas caracter sticas, 95 muestrales, 20 poblacional, vase medidas cae racter sticas de asociacin, 5157, 123125 o de centralizacin, 2024, 9699 o poblacin, 3 o probabilidad, 7178 condicionada, 74 rango, 100 intercuart lico, 100 muestral, 27 muestral, 27 regin o de aceptacin, 239 o de rechazo, 239
de dispersin, 20, 2732, 96, 100 regla o de Bayes, 77 102 de forma, 20, 3334, 96, 103104 de posicin, 20, 2426, 96, 99 o moda, 12 modelo, vase distribucin e o de probabilidad, 137 continuo, 148167 discreto, 138147 multidimensional, 167173 muestra, 5, 186 aleatoria relacionada, 203 aleatoria simple, 186 independiente, 187 nivel de signicacin, 239 o observacin o directa, 1 indirecta, 3 p-valor, 243 percentil, vase cuantil e pias, 2
de la multiplicacin, 75 o de Laplace, 72
resultado signicativo, 243 suceso, 69 elemental, 69 imposible, 70 independiente, 76 interseccin, 70 o unin, 70 o tabla de contingencia, 44 de frecuencias, 12 teor a de errores aleatorios, 3 de la probabilidad, 5 de muestras, 185 teorema central del l mite, 157 de la probabilidad total, 75 test de hiptesis, 214, 237244 o
287
ManualEs uEx
teor de muestras, 5 a

de igualdad de varianzas, 252255 de independencia, 259261 de Kolmogorov-Smirnov, 263 de Shapiro-Wilks, 264 de Welch, 257 para la diferencia de medias muestras independientes, 256 257 muestras relacionadas, 258259 para la media con varianza conocida, 244248 con varianza desconocida, 248 250 para la varianza, 250252 sobre la distribucin, 261264 o tipicar, 105 unidad experimental, vase individuo e valor experimental, 239 variable aleatoria, 8495 continua, 9094 discreta, 8789 variables aleatorias incorreladas, 124 independientes, 121123 variaciones con repeticin, 283 o sin repeticin, 282 o varianza, 100 muestral, 28 vector aleatorio, 114121
288
ManualEs uEx
Lista de s mbolos y notacin o

S mbolo Signicado muestra de tamao n n sumatorio, es decir, x1 + + xn media muestral, es decir, n
i=1
x1 , . . . , xn
n i=1
xi
x s2 s rP rS AB AB AB Ac
xi /n n
i=1 (xi
cuasivarianza muestral, es decir,
cuasidesviacin t o pica muestral, es decir,
x)2 /(n 1) s2
coeciente de correlacin muestral de Pearson o coeciente de correlacin muestral de Spearman o suceso unin de los sucesos A y B o suceso interseccin de los sucesos A y B o suceso imposible
suceso complementario del suceso A
289
ManualEs uEx
suceso A incluido en el suceso B

S mbolo P (A) P (A|B) X F () p() f () 2 XY XY R B(n, p) U (a, b) N (, 2 ) zp 2 (n) Signicado probabilidad asociada al suceso A probabilidad condicionada del suceso A dado el B variable aleatoria funcin de distribucin o o funcin de probabilidad o funcin de densidad o aproximacin o media de una variable aleatoria varianza de una variable aleatoria desviacin t o pica de una variable aleatoria covarianza del vector aleatorio (X, Y ) coeciente de correlacin del vector (X, Y ) o conjunto de nmeros reales u distribucin binomial de parmetros n y p o a distribucin uniforme continua de parmetros a y b o a distribucin normal de parmetros y 2 o a cuantil de orden p del modelo normal estndar a distribucin 2 de Pearson con n grados de libertad o cuantil de orden p del modelo 2 (n) distribucin t de Student con n grados de libertad o
ManualEs uEx
2 (n) p t(n)
290

S mbolo tp (n) F (n, m) Fp (n, m) X S2 H0 H1 1 pv [] Signicado cuantil de orden p del modelo t(n) distribucin F de Snedecor con n y m grados de libertad o cuantil de orden p del modelo F (n, m) media muestral de una muestra aleatoria simple cuasivarianza muestral de una muestra aleatoria simple hiptesis nula de un test de hiptesis o o hiptesis alternativa de un test de hiptesis o o nivel de signicacin de un test de hiptesis o o nivel de conanza de un intervalo de conanza p-valor de un test de hiptesis o funcin parte entera o n del ejemplo
291
ManualEs uEx
Referencias
Ardanuy, R. & Mart Q. (1999). Estad n, stica para ingenieros. Segunda edicin. Heprides. o e Canavos, G. C. (1993). Probabilidad y estad stica. Aplicaciones y mtodos. e McGraw-Hill. Chueca, M., Herraez, J., & Berne, J. L. (1996). Teor de errores e a instrumentacin. Paraninfo. o Crawley, M. J. (2005). Statistics: An introduction using R. Wiley. Cuadras, C. (1982). Problemas de Probabilidad y Estad stica. PPU. Garc A. (2004). Bioestad a, stica bsica. @becedario. a Harvey, B. R. (2006). Practical least squares and statistics for surveyors. Third edition. School of Surveying and Spatial Information Systems. Mart A. & Luna del Castillo, J. D. (1990). Bioestad n, stica para las ciencias de la salud. Ediciones Norma. Mart F. (1990). Geodesia y Cartograf matemtica. Paraninfo. n, a a Mart F. J. & Ruiz-Maya, L. (1997a). Estad n, stica I: Probabilidad. AC. Mart F. J. & Ruiz-Maya, L. (1997b). Estad n, stica II: Inferencia. AC. Mikhail, E. M. & Ackermann, F. (1976). Observations and least squares. IEP-A Dun-Donnelley Publisher. Mikhail, E. M., Bethel, J. S., & McGlone, J. C. (2001). Introduction to modern photogrammetry. John Wiley & Sons. Mikhail, E. M. & Gracie, G. (1981). Analysis and adjustment of survey Milton, J. S. & Arnold, J. C. (2004). Probabilidad y Estad stica con aplicaciones para ingenier y ciencias computacionales. McGraw-Hill. a Montgomery, D. C. & Runger, G. C. (1996). Probabilidad y Estad stica aplicadas a la ingenier McGraw-Hill. a.
293
ManualEs uEx
measurements. Van Nostrand Reinhold Company.

Pena, D. (1993). Estad stica, modelos y mtodos: Fundamentos. Alianza e Editorial. a, D. (2005). Fundamentos de estad Pen stica. Alianza Editorial. Rabinovich, S. (2000). Measurement error and uncertainties. Theory and practice. Second edition. AIP Press. Ru z-Maya, L. (1986). Problemas de Estad stica. AC. z, A. (2000a). Fundamentos tericos de los mtodos topogrcos. BeSanche o e a llisco. Sanchez, A. (2000b). Problemas de mtodos topogrcos. Bellisco. e a Sarabia, A. & Mate, C. (1993). Problemas de Probabilidad y Estad stica. ICAI. Taylor, J. R. (1982). An introduction to error analysis. The study of uncertainties in physical measurements. Oxford University Press. Topping, J. (1975). Errors of observation and their treatment. John Wiley & Sons. Ugarte, M. D. & Militino, A. F. (2002). Estad stica aplicada con S-plus. Universidad Pblica de Navarra. u Walpole, R. E. & Myers, R. H. (1992). Probabilidad y Estad stica. McGraw-Hill. Wolf, P. R. (1997). Adjustment computations. Statistics and least squares in surveying and GIS. Wiley Series.
294
ManualEs uEx

Esta Di Stica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Esta Di Stica

Caricato da

Copyright:

Formati disponibili

Estadstica Bsica

Coleccin manuales uex - 66

Rodrigo Martnez Quintana

ESTADSTICA BSICA PARA TOPOGRAFA

RODRIGO MARTNEZ QUINTANA

ESTADSTICA BSICA PARA TOPOGRAFA

lizar la informacin contenida en un conjunto de datos unidimensionales. A o

RodRigo MaRtnez quintana

RodRigo MaRtnez quintana

4.3.1. Medidas de centralizacin . . . . . . . . . . . . . . . . . o 4.3.2. Medidas de posicin . . . . . . . . . . . . . . . . . . . . o

estadstica bsica paRa topogRafa

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

Clasicacin de los errores en el proceso o de medicin o

observadas. La distancia entre la aproximacin y el verdadero valor lo denomio

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

Deniciones y conceptos bsicos a

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

cient cas sobre el experimento aleatorio en base a la informacin suministrao

RodRigo MaRtnez quintana

Estadstica inferencial Teora de la Probabilidad Estadstica descriptiva

Teora de muestras x1, , xn

Figura 1: Marco apropiado para analizar un experimento aleatorio asociado a un carcter X. a

estadstica bsica paRa topogRafa

Medidas caracter sticas

Media Mediana 1o Cuartil 3o Cuartil Cuasidesviacin t o pica Meda

36.145 36.145 36.143 36.147 0.003535 0.002

RodRigo MaRtnez quintana

Bloque Temtico I a Mtodos para la descripcin y e o anlisis de conjuntos de datos a

Tema 1 Mtodos para la descripcin y e o anlisis de conjuntos de datos a unidimensionales

carcter, as como de la escala de medida del conjunto de datos. A partir de a

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

0.20 0.50 0.30

RodRigo MaRtnez quintana

Fr. absolutas ac.

Fr. relativas ac.

0.10 0.37 0.67 0.87 0.97 1

estadstica bsica paRa topogRafa

frecuencias absolutas entre las clases.

RodRigo MaRtnez quintana

Fr. relativa acumulada

0.08 0.28 0.40 0.20 0.04

0.08 0.36 0.76 0.96 1

estadstica bsica paRa topogRafa

El diagrama de barras y el diagrama de sectores son grcos apropiados paa

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

000 00000000 000000000 000000 000 0

36.13 36.14 36.14 36.14 36.15

78 1122333 4455566777 88880 2

siones errneas. En la Figura 1.3 mostramos dos diagramas de barras correso

RodRigo MaRtnez quintana

Medidas caracter sticas

estadstica bsica paRa topogRafa

tenemos que la media aritmtica muestral es 36.145 m. Observemos que la e

RodRigo MaRtnez quintana

estadstica bsica paRa topogRafa

media aritmtica muestral. Esto muestra la homogeneidad de los datos, hecho e

RodRigo MaRtnez quintana

donde wi > 0, con i {1, . . . , n}. A wi lo denominamos peso del dato xi ,

estadstica bsica paRa topogRafa