Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ESTADÍSTICA APLICADA
UNA VISIÓN INSTRUMENTAL
Teoría y más de 500 problemas
resueltos o propuestos con solución
© María Teresa González Manteiga y Alberto Pérez de Vargas, 2009
ISBN: 978-84-7978-913-8
Depósito legal: M. 20.883-2009
Impreso en España
A nuestras familias, a los que fueron nuestros profesores
y a los que son o serán nuestros alumnos.
ÍNDICE
1. Capítulo preliminar
1.1. Introducción ................................................................................. 1
1.2. Conceptos generales básicos ........................................................ 12
1.3. Tipos de muestreo aleatorio en poblaciones finitas ..................... 14
1.4. Tipos de caracteres ...................................................................... 17
1.4.1. Caracteres cualitativos ...................................................... 17
1.4.2. Caracteres cuantitativos .................................................... 18
1.5. Nociones básicas del Programa STATGRAPHICS Plus 5.1 para
Windows ...................................................................................... 20
1.6. Etapas de un estudio estadístico .................................................. 26
PRIMERA PARTE
ESTADÍSTICA DESCRIPTIVA
SEGUNDA PARTE
PROBABILIDAD. DISTRIBUCIONES DE PROBABILIDAD
4. Probabilidad
4.1. Introducción ............................................................................... 155
4.2. Experimentos aleatorios ............................................................. 157
4.3. Álgebra de sucesos y σ – álgebra .............................................. 159
4.4. Frecuencia relativa de un suceso. Probabilidad en espacios
muestrales finitos ....................................................................... 162
ÍNDICE XI
TERCERA PARTE
INFERENCIA ESTADÍSTICA
CUARTA PARTE
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
Y A LA GEOESTADÍSTICA
APÉNDICE I
Tabla I. Áreas bajo la curva normal .......................................................... 685
Tabla II. Áreas bajo la curva de densidad de la χ 2n a la izquierda de χ 2α;n ... 686
Tabla III. Áreas bajo la curva de densidad de la tn a la izquierda de tα;n .... 687
Tabla IV. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,05................................................................................... 688
Tabla V. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,01 ................................................................................. 689
Tabla VI. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,025 ................................................................................ 690
Tabla VII. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,005 ................................................................................ 691
Tabla VIII. Números aleatorios .............................................................. 692
Tabla IX. Valores críticos Hα;[k,n–1] del contraste de Hartley de homoge-
neidad de las varianzas ........................................................................ 693
Tabla X. Valores críticos Dn;α del contraste de Kolmogorov-Smirnov para
una muestra .......................................................................................... 694
APÉNDICE II
1
STATGRAPHICS es una marca registrada por Manugistics Inc. and Statistical Graphics Cor-
poration. USA.
2
Excel es una marca registrada por Microsoft Corporation.
3
DERIVE es una marca registrada por Texas Instruments Incorporated.
4
SURFER y GRAPHER son marcas registradas por Golden Software, Inc.
PRÓLOGO XXIII
LOS AUTORES
Capítulo preliminar
1
1.1. INTRODUCCIÓN
La estadística es una rama de las matemáticas con origen remoto y en conti-
nua evolución y desarrollo. Hasta el siglo XVII se entendía por estadística la re-
copilación de datos para la administración del Estado. Ya en el Imperio Romano
se hizo enumeración y recuento de soldados, medios de transporte, riquezas... y se
tiene constancia de que en tiempos de César Augusto se realizó un censo de la po-
blación. De status, o estado de las cosas, parece derivarse la palabra estadística.
Aquí se encuentra el origen de la estadística descriptiva.
Vivimos inmersos en un mundo de cifras: evolución del paro, variaciones en
los índices de precios (IPC), gastos familiares, índice de la bolsa, IBEX-35, coti-
zaciones bursátiles, número de accidentes de circulación, censo electoral, por-
centaje de personas que padecen una enfermedad, predicción del tiempo, resul-
tados de unas elecciones, porcentaje de hogares que utilizan Internet, eficacia de
una campaña publicitaria, prospecciones petrolíferas y de minas, relación entre el
número de hijos nacidos con Síndrome de Down y la edad de la madre, frecuen-
cias genotípicas en una población y frecuencias fenotípicas que son objeto de es-
tudio de la genética de poblaciones, gasto por usuario de teléfono móvil, etc. Hay
dos formas de ver los datos, la del periodista, que se ocupa de la anécdota, y la del
estadístico, que está interesado por la regularidad.
En la prensa escrita, en los medios audiovisuales, en los textos aparecen re-
cuentos y porcentajes.
En la Figura 1.1 se puede observar doble información. En los sectores se re-
presenta el número de habitantes que eran usuarios de Internet en 2006, en cabe-
za está Asia. Además, se refleja el porcentaje de usuarios de Internet en relación
al número total de habitantes de cada una de las poblaciones examinadas; en este
aspecto Asia baja al quinto lugar de las siete porciones en las que se ha dividido la
población mundial.
1
2 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
FIGURA 1.7. Comparación del rendimiento escolar en España con los países
de la Unión Europea.
6 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Las gráficas de las Figuras 1.7 y 1.8 hacen referencia a la educación en los pa-
íses de la Unión Europea.
Se observan en la Figura 1.7 los porcentajes de alumnos que fracasan en la en-
señanza obligatoria en algunos países de la Unión Europea, las puntuaciones
medias obtenidas por los alumnos españoles en pruebas que miden diversas ca-
pacidades y el lugar que ocupa España en relación con los 27 países estudiados en
el dominio de diversas competencias.
En la Figura 1.8, se compara el estado de la educación en los distintos países
de la Unión Europea.
Se indica, en la Figura 1.8, el porcentaje de alumnos que no continúan
estudiando después de la enseñanza obligatoria, el porcentaje de la población
con edades comprendidas entre 25 y 64 años con estudios superiores y el
porcentaje del PIB dedicado a educación en cada país, según datos de Eu-
rostat.
Los polígonos de frecuencias también sirven para comparar y representar
datos de muestras distintas. Así, en la Figura 1.9, se compara la incidencia de la
gripe en España según los diferentes grupos de edad.
En los cartogramas se reflejan sobre un mapa características que no se distri-
buyen uniformemente.
En la Figura 1.10 se compara el número de periódicos comprados por cada
mil habitantes en las distintas CC AA de España y los comprados en los diferen-
tes países de la Unión Europea.
La estadística, además de ser necesaria como parte de la cultura general, es
una herramienta imprescindible para la investigación científica. Las gráficas re-
presentadas en las Figuras 1.11 y 1.12 relacionan dos variables entre sí.
En la Figura 1.11, la latitud, en km, con la diferencia de concentración del isó-
topo oxígeno-18 en el agua de lluvia.
Se observa que hay una relación inversa entre ambas variables. Al aumentar la
latitud disminuye el oxígeno-18 presente en el agua de lluvia.
aguas de lluvia
OXÍGENO 18 (SMOW)
FIGURA 1.11. Relación entre la presencia del isótopo oxígeno-18 en el agua de lluvia
y la latitud.
CAPÍTULO PRELIMINAR 9
la misma muestra y en el segundo, no. Si las muestras se extraen sin ningún cri-
terio, se dice que se ha realizado un muestreo errático o sin norma; si se eligen
por un criterio de selección personal del agente que realiza el muestreo se dice que
el muestreo es opinático o intencional; si las muestras se extraen de forma regu-
lar en el espacio, o en el tiempo, se dice que el muestreo es sistemático; mientras
que si las muestras se seleccionan mediante un procedimiento aleatorio previa-
mente definido estamos ante un muestreo aleatorio o probabilístico.
Una forma de seleccionar elementos de una población de forma aleatoria es
haciendo uso de una tabla de números aleatorios o seleccionando números al azar
en el ordenador.
En el Apéndice I se presenta la Tabla VIII de números aleatorios formada por
700 números de dos cifras seleccionados al azar que se puede utilizar para elegir
los elementos de la población que compongan una muestra aleatoria.
Por ejemplo, para elegir de una población de 8.000 personas una muestra de
tamaño 10, en primer lugar se asocia a cada elemento de la población un número
del 0001 al 8000, se elige al azar un punto de comienzo en la tabla, se leen dos co-
lumnas a la vez para conseguir números de cuatro cifras. Se puede leer de arriba
abajo, de izquierda a derecha, de abajo arriba o de derecha a izquierda. Así, si se
comienza en el tercer grupo y en la segunda fila en el séptimo número de dos ci-
fras y se eligen los números de cuatro cifras de esa fila formados por las columnas
7 y 8, 11 y 12, 15 y 16, 19 y 20, 23 y 24, y los de esas mismas columnas en la fila
cuarta de este grupo se obtienen:
7267, 3445, 1827, 1675, 9584, 2416, 8438, 0027, 2981, 7021
Como hay que descartar los números que se obtengan mayores de 8000, se
pasa al grupo cuarto y se eligen dos números más en la fila segunda formados por
los que aparecen en las columnas 7 y 8 y en las 11 y 12 que son: 1779 y 2240. De
esta forma tendríamos la siguiente selección:
7267, 3445, 1827, 1675, 2416, 0027, 2981, 7021, 1779 y 2240
Aceptar. Pulsando el botón derecho del ratón, se abren las Opciones de análisis
que permiten establecer los límites inferior y superior, 1 y 8.000 respectiva-
mente, de la distribución uniforme discreta y se introducen pulsando Aceptar. Se
escoge, entre las Opciones tabulares que se abren, pulsando en el icono amarillo,
Números aleatorios y se pulsa Aceptar. De nuevo pulsando el botón derecho del
ratón sobre la ventana correspondiente a Números Aleatorios se elige Opciones
de ventana para indicar el tamaño de la muestra, en este caso 10 y se pulsa de
nuevo Aceptar. El cuarto icono empezando por la izquierda, Guardar resultados,
permite grabar Números aleatorios para Dist.1 y elegir el nombre de la columna
en la que aparecerán los diez números seleccionados. Por defecto esta columna se
indicará por ALEAT1 y se pulsa Aceptar. Una muestra seleccionada por STAT-
GRAPHICS es:
5178, 6566, 2328, 2869, 5468, 6843, 7520, 2807, 4475, 3766
n
ni = , ∀i = 1, 2, ..., k
k
n1 n n n
= 2 = ... = k =
N1 N 2 Nk N
Escala de Mohs:
También es una escala ordinal la escala de Richter, que desde 1935 se usa
para clasificar la intensidad de los terremotos de 0, que corresponde a los de me-
nor intensidad, a la clase 8, de máxima intensidad.
Otra escala ordinal sería la que permite ordenar ciertos electrodomésticos según
el fallo: 0 = «no fallo», 1 = «fallo leve», 2 = «fallo moderado», 3 = «fallo grave».
Es frecuente encontrar variables de tipo ordinal en economía para evaluar las
preferencias de los consumidores y en psicología para comparar test de aptitud.
• Una variable continua procede de realizar medidas. Entre dos valores dados
de la variable son posibles todos los intermedios.
Son variables continuas las medidas de longitud, las tallas, los pesos, la altura de
un estrato, el diámetro de un cráter, la altitud de un lugar sobre el nivel del mar, la tem-
peratura en grados centígrados, °C, o grados Celsius, la temperatura en grados Kelvin.
Se pueden distinguir dos tipos de variables continuas según se midan en es-
cala de intervalos o en escala de razón.
a) Si los valores se pueden comparar, ordenar y se pueden establecer igual-
dades de intervalos o diferencias entre ellos, se dice que se miden en es-
cala de intervalos. Un incremento de una unidad en el valor de la variable
representa el mismo cambio en la magnitud de la variable con indepen-
dencia del lugar en la escala.
Por ejemplo, la medida de la temperatura en grados centígrados por
medio del termómetro. La escala de temperaturas en grados centígrados es
una escala de intervalos, 0 °C representa la temperatura de congelación del
agua y 100 °C es la temperatura a la que se evapora el agua y existen en
esta escala temperaturas bajo cero. La escala de temperaturas en grados
Celsius es relativa porque el cero se fijó arbitrariamente.
También se miden en escala de intervalos las horas del día, los
días del año, etc.
Otro ejemplo de escala de intervalos es la medida del pH, que es el lo-
garitmo cambiado de signo de la concentración de iones hidrógeno de
una solución. El pH se mide con el papel tornasol o con más exactitud con
el pHmetro que permite leer hasta 0,01 unidades de pH. En esta escala los
valores de 0 a 7 indican que la solución es ácida, tanto más ácida cuanto
más próximo a 0, de 7 a 14 que es alcalina o básica, más básica cuanto
más alto sea el valor y el pH = 7 es neutro.
Para las variables en escala de intervalo se pueden calcular estadísticos
como la media, la mediana y la desviación típica.
b) Si además de poder comparar, ordenar y establecer igualdades de dife-
rencias también hay un cero absoluto que representa la ausencia completa
de la variable medida, se dice que la variable se mide en escala de razón o
proporcional. En una escala de razón los valores se pueden comparar, or-
denar, comprobar la igualdad de diferencias y la igualdad de razones o de
cocientes. Por ejemplo 80 kg/40 kg es lo mismo que 60 kg/30 kg.
20 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Para introducir nuevos datos se deben seguir los pasos siguientes: Se parte de
la hoja de datos de STATGRAPHICS Plus 5.1 que tiene por título <SinNom-
bre> en la que el cursor aparece situado en la casilla 1 de la primera columna
Col_1. Cada columna de esta hoja de cálculo representa una variable.
Al señalar la columna con el botón izquierdo del ratón, aparece esta columna
en negro y, si ahora se pulsa en el botón derecho del ratón, se despliega un menú
en el que se puede elegir: Cortar, Copiar, Pegar, Insertar, Borrar, Modificar Co-
lumna, Generar Datos, Recodificar Datos,…, Guardar Fichero de Datos, etc.
La opción Modificar Columna conduce a una ventana que permite definir esa
columna según se necesite. Se introduce el nombre de la variable, con 32 carac-
teres como máximo, se selecciona el ancho de la columna y el tipo de datos a in-
troducir, se pasa a la columna siguiente, se repite el proceso y cuando no se re-
quieran más columnas, al aparecer la siguiente, se pulsa el botón Cancelar.
Desde este momento se trabaja sobre el fichero de la misma forma en que se tra-
baja sobre cualquier hoja de cálculo en el entorno Windows. Para modificar in-
formación lo primero que hay que hacer es seleccionarla.
Para seleccionar una variable basta con pulsar con el botón izquierdo del ratón
sobre su título. Para seleccionar dos o más variables adyacentes se pulsa con el
botón izquierdo del ratón sobre el título de la primera y se arrastra el ratón sin sol-
tarlo por los títulos de las diferentes variables a considerar. Para seleccionar toda
la hoja de cálculo se pulsa con el botón izquierdo del ratón en la celda de inter-
sección de los títulos de las columnas con los números de filas.
Para modificar datos previamente hay que seleccionarlos. Si no se han selec-
cionado anteriormente los datos, ni siquiera se iluminan las opciones de los menús
de STATGRAPHICS referentes a las modificaciones.
Para introducir datos se pulsa con el botón izquierdo del ratón sobre el nom-
bre Col_1, se observa que toda la columna se ensombrece; si ahora se pulsa en el
botón derecho del ratón y se elige Modificar Columna, en el campo Nombre se es-
cribe el nombre de la variable, en el campo Comentario se puede introducir una
información sobre el contenido de la variable y en el campo Tipo se elige el
tipo de variable que se quiere introducir:
Con la opción Fórmula también se puede generar una nueva variable a partir
de otras existentes seleccionándolas previamente, introduciendo en el campo
Expresiones la fórmula que la defina utilizando operadores, del siguiente modo:
una vez rellena convenientemente la caja de diálogo de Generar Datos se pulsa
el botón Aceptar y se obtiene la nueva variable. Pero así los valores de la nueva
variable sustituyen a los de la antigua en su misma columna de la hoja de cálcu-
lo y sin cambiar el nombre. De este modo, al guardar el fichero se perderán los
valores de la variable antigua. Para evitar este problema, antes de abrir Generar
Datos se sitúa el ratón en una columna en blanco de la hoja de cálculo para se-
leccionarla, así una vez generados los valores de la nueva variable se incorpora-
rán al fichero de datos en la columna en blanco seleccionada. De este modo, ten-
dremos en el fichero tanto la variable inicial como la nueva variable generada. Se
puede aceptar el nombre que aparece por defecto o cambiarlo con Modificar Co-
lumna.
Se dispone de los siguientes operadores:
• Operadores aritméticos:
Adición x+y
Sustracción x-y
Multiplicación x*y
División x/y
Potencia x^y
• Operadores de relación:
Igualdad x=y
Desigualdad x<>y
Mayor que x>y
Mayor o igual que x>=y
Menor que x<y
Menor o igual que x<=y
Operadores lógicos:
Conjunción x&y
Disyunción x|y
Negación ~x
• Operadores de generación:
COUNT (a,b,p) da un vector numérico secuencial empezando con a, termi-
nando en b y con paso p.
24 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
FIRST (n) genera el valor 1 para las primeras n filas en el fichero y cero para
el resto.
LAST (n) genera el valor 1 para las últimas n filas en el fichero y cero para el resto.
ROWS (n,m) genera el valor 1 para las filas desde la n hasta la m en el fi-
chero y cero para el resto.
RANDOM (n) genera el valor 1 para n filas del fichero seleccionadas alea-
toriamente y cero para el resto.
• Operadores de selección:
Para generar una columna mediante una fórmula se coloca el cursor con el ra-
tón sobre la nueva columna a construir y pulsando en el botón izquierdo se se-
lecciona la columna. Se pulsa, con la columna seleccionada, el botón derecho del
ratón y se elige Modificar Columna eligiendo en la ventana emergente 䉺 Fórmula
y pulsando el botón Definir se ve una ventana que permite escribir la expresión
para generar la columna. Para ello se pueden utilizar como variables las columnas
ya incluidas y los operadores que aparecen en una lista, además de un teclado nu-
mérico con las operaciones aritméticas.
Una vez construida la expresión, si se pulsa el botón Mostrar se ven las pri-
meras celdas de la nueva columna. Pulsando el botón Aceptar dos veces, se ve la
ventana de Modificar Columna completa, y pulsando de nuevo Aceptar se rellena
la nueva columna.
En los capítulos siguientes, se verán distintos modos de hacer uso de un ar-
chivo de datos grabado.
26 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
STATGRAPHICS1 Plus para Windows, Versión 5.1, cuyo uso está muy difundido,
e interpretar correctamente los resultados que ofrece el programa Excel, Versión
2003, SURFER, Versión 8, y GRAPHER, Versión 4. No se pretende pues, hacer
hincapié en demostraciones ni tampoco hacer una presentación exhaustiva de
todas las técnicas estadísticas.
En los siguientes capítulos, que se han agrupado en cuatro partes, se presentan
estas técnicas. Los capítulos de la primera parte se refieren a la estadística des-
criptiva unidimensional y bidimensional, los de la segunda a la probabilidad y las
distribuciones de probabilidad necesarias, para abordar la tercera parte que se de-
dica a la inferencia estadística. Una introducción a los procesos estocásticos, a la es-
tadística espacial y a las técnicas geoestadísticas constituye la cuarta parte del libro.
1
STATGRAPHICS es una marca registrada por Manugistics Inc. and Statistical Graphics Cor-
poration. USA.
Primera parte
Estadística descriptiva
Estadística descriptiva
unidimensional 2
2.1. INTRODUCCIÓN
Todas las ciencias comienzan por una fase descriptiva. No se pueden analizar
causas, ni hacer predicciones antes de describir con exactitud el campo de estudio.
El objeto de este tema es estudiar cómo realizar un análisis descriptivo uni-
dimensional.
La primera fase de un estudio estadístico consiste en ordenar y resumir los
datos obtenidos en la muestra elegida de la población objeto de estudio y
presentarlos en tablas, gráficas y, si es posible, dar características numéricas
que los resuman o permitan comparar esos datos con los obtenidos por otros
investigadores. La estadística descriptiva se limita a sintetizar y describir los
datos recogidos en las observaciones de los individuos, o unidades estadísticas
que componen la muestra. Cuando se observa en cada unidad estadística un
solo carácter recibe el nombre de unidimensional. Si el carácter que se obser-
va es cualitativo, el trabajo descriptivo termina con la organización de los re-
sultados en tablas y representaciones gráficas. Si se observan caracteres cuan-
titativos, que son los más interesantes, la descripción se amplía con el cálculo
de algunos valores que sintetizan el conjunto de datos recogidos. Los valores
que se observan en una muestra originan el concepto de variable estadística
que se indicará con una letra minúscula x, y, z,... Los valores de la variable es-
tadística x, es decir, x1, x2,…, xn son los resultados de la observación de la va-
riable x en los n elementos que constituyen la muestra. Se reservan las letras
mayúsculas X, Y, Z,… para las variables aleatorias cuyos valores son todos los
resultados de la observación de la variable en los N elementos que componen
la población.
Por ejemplo, el primer paso para seleccionar materiales idóneos para la extracción
de aluminio de los residuos de explotaciones mineras consiste en la recogida de
muestras y análisis geoquímico de éstas. Así, E. Solano Oria extrajo 29 «muestras
de material» en la zona minera de la sierra de Cartagena y obtuvo el % de Alú-
31
32 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
mina (Al2O3) en cada una de ellas. Cada una de estas extracciones es una unidad
estadística de este estudio y el % de Alúmina es la variable que se observa en cada
unidad. Los resultados obtenidos son los siguientes:
42,50 19,10 32,67 18,88 25,10 24,50 6,60 17,10 16,12 10,48 11,30
15,02 10,80 8,46 6,10 10,48 23,54 17,37 10,33 15,91 19,12 16,05
6,65 7,52 13,20 19,76 18,25 13,05 13,32
Análisis Unidimensional-Alúmina
Resumen de procedimiento.
Datos: Alúmina.
29 valores comprendidos desde 6,1 hasta 42,5.
Gráfico de dispersión
0 10 20 30 40 50
Alúmina
Gráfico de dispersión
0 10 20 30 40 50
Alúmina
Como no son muchos los valores observados, se pueden realizar los cálculos
sin necesidad de utilizar el programa STATGRAPHICS, pero si el número de
observaciones es grande ahorrará mucho esfuerzo, además de proporcionar en
poco tiempo los cálculos sin error.
Se tratará a continuación de explicar cómo dar un resumen gráfico y numéri-
co, en los casos en que sea posible, para las distribuciones estadísticas unidi-
mensionales.
a) Caracteres cualitativos
Modalidades ni
A1 n1
A2 n2
M M
Am nm
m
n = ∑ ni
i =1
EJEMPLO 2.1.
La siguiente tabla, que representa el mineral más abundante en cada uno de 150
fragmentos de rocas de la corteza terrestre:
ni
Modalidades ni fi =
n
Fe 57 0,3800
Al 64 0,4267
Ti 18 0,1200
Mn 11 0,0733
4
n =150 ∑ fi = 1
i=1
ni
Incluye también los cocientes fi = , es decir, las frecuencias relativas de
n
cada modalidad, que proporcionan la tabla de frecuencias relativas o de tantos por
uno. Las frecuencias relativas también se pueden presentar como porcentajes ob-
servados de cada una de las modalidades.
EJEMPLO 2.2.
La composición del accionariado de una sociedad que cotiza en bolsa es la si-
guiente:
Modalidades fi
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
M M M M M
xr nr fr Nr = n Fr = 1
r r
∑ ni = n ∑ fi = 1
i =1 i =1
número de clases que no difiera mucho de n. Otra regla muy utilizada es la de-
terminada por la fórmula de Sturges. Designando por k el número de intervalos en
los que se van a agrupar los n datos recogidos
k = 1 + 3.322 log10 n
Por comodidad se suelen elegir los intervalos de la misma amplitud. Para de-
terminar ésta se divide el recorrido de la variable estadística, diferencia entre el ma-
yor y el menor de los datos recogidos, o la longitud de un segmento un poco más
amplio que los contenga, entre el número de clases. El cociente da la amplitud de
las clases. Se eligen los intervalos cuidando que el primero de ellos contenga el dato
más pequeño y que el último cubra al mayor de todos los registrados. Para evitar
ambigüedades en el recuento de los datos que caen en cada clase, se consideran in-
tervalos semiabiertos [Li–1, Li) que contienen el extremo inferior y no el superior. La
frecuencia absoluta ni de la clase [Li–1, Li) es el número de datos recogidos que per-
tenecen a ese intervalo. Se llama marca de clase al punto medio del intervalo, así
L + Li
xi = i −1 es la marca de la i-ésima clase.
2
Las tablas de frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas en este caso son de la siguiente forma:
Clases Marcas ni fi Ni Fi
[L0, L1) x1 n1 f1 N1 F1
[L1, L2) x2 n2 f2 N2 F2
M M M M M M
[Li–1, Li) xi ni fi Ni Fi
M M M M M M
[Lk–1, Lk) xk nk fk Nk = n Fk = 1
k k
∑ ni = n ∑ fi = 1
i =1 i =1
Los extremos de estas clases se llaman límites reales porque coincide el extremo
superior de cada una de ellas con el extremo inferior de la siguiente. Con los límites
reales no hay ambigüedad al hacer el recuento de los datos, pues no hay nunca
duda sobre la elección de la clase que incluye cada dato, al ser intervalos semia-
biertos que incluyen el extremo inferior pero no el superior.
Si los datos ya se presentan agrupados en clases que no vienen definidas por
sus límites reales, por ejemplo, si las clases son:
10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 37
EJEMPLO 2.3.
En la siguiente tabla se recoge la duración, en millones de años, de las eras ge-
ológicas:
EJEMPLO 2.4.
Se dispone de los datos sobre equipamiento de tecnologías de información y co-
municaciones de 3.200 hogares españoles:
100
% hogares
80
60
40
20
0
Fijo Móvil TV pago Internet
EJEMPLO 2.5.
En el siguiente cartograma, que indica el porcentaje de ahorro sobre la renta fa-
miliar bruta disponible, se distinguen tres modalidades: Porcentaje superior al 16%,
entre el 13% y el 16% o inferior al 13%.
40 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 2.6.
La siguiente tabla recoge información sobre el número de personas que ocupan
85 viviendas seleccionadas:
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 41
xi ni Ni fi Fi
1 15 15 0,1765 0,1765
2 35 50 0,4118 0,5883
3 18 68 0,2118 0,8001
4 10 78 0,1176 0,9177
5 5 83 0,0588 0,9765
6 2 85 0,0235 1
6
n = 85 ∑ fi = 1
i=1
Polígono de frecuencias
ni 40
30
N.º viviendas
20
10
0
1 2 3 4 5 6
N.º personas
Diagrama de barras
ni 100
80
60
40
20
0
1 2 3 4 5 6
N.º personas
50
85
15
85
xi
0 1 2 3 4 5 6
ni +1
formando así con el eje de abscisas un polígono que recibe el nombre
xi +1 , c ,
i +1
de polígono de frecuencias absolutas, cuya área es aproximadamente la del histo-
grama homólogo.
Si en el eje de ordenadas se representan las frecuencias relativas se obtienen
gráficas similares a las anteriores que se denominan histograma de frecuencias re-
lativas y polígono de frecuencias relativas.
EJEMPLO 2.7.
Se define el pH de abrasión como el valor del pH de una suspensión de suelo fi-
namente triturado en agua. Esta medida tiene interés geológico por estar relaciona-
da con la mineralogía y la composición química elemental del suelo.
M. Martín Barca, R. García Giménez, A. Gutiérrez Maroto y R. Jiménez Ba-
llesta han determinado los pHs de abrasión de «muestras» de horizontes superfi-
ciales de suelos situados dentro de cada una de las cuadrículas de 10 × 10 km en
que dividieron el Sistema Central. Cada una de estas cuadrículas representa una
unidad estadística en este trabajo. Los resultados que obtuvieron son los si-
guientes:
8,0 5,9 5,3 5,6 8,5 8,5 8,0 6,1 5,2 5,9 6,0 6,8 5,4 5,0 6,9
5,7 6,4 5,5 5,7 5,0 8,7 6,2 7,7 7,6 6,6 6,0 5,7 5,2 6,8 8,4
7,6 7,7 4,8 5,9 5,9 6,4 8,4 8,2 7,6 8,2 7,6 4,9 6,1 6,0 6,0
6,0 6,0 5,8 6,0 6,4 5,8 6,4 6,9 7,7 5,9 6,0 6,1 4,8 7,7 6,4
6,2 6,6 8,2 6,5 6,0 6,2 5,5 5,8 6,0 5,7 6,0 5,7 5,7 6,0 6,0
6,2 6,5 5,6 6,6 4,6 4,6 6,5 5,6 4,8 4,5 4,9 5,1 6,4 6,7 6,1
6,1 6,1 6,5 6,5 5,5 6,2 6,4 4,9 6,4 5,5 6,3 6,5 6,9 6,0 4,6
5,9 4,9 5,6 5,5 3,3 5,6 5,9 6,3 5,5 5,4 6,3 6,3 4,9 5,6 6,2
6,7 6,4 6,4 5,7 7,0 6,4 6,4 7,0 6,9 4,6 5,6 4,6 4,6 4,1 6,2
5,7 4,5 5,9 5,6 5,0 4,8 5,7 5,2 5,6 5,2 6,4 5,0 5,2 5,7 6,2
5,9 6,9 5,3 5,2 5,2 5,6 5,5 5,9 6,3 6,3 5,7 5,3 6,1 5,0 5,1
5,3 5,8 6,4 6,4 6,1 6,1 6,8 6,3 6,5 7,2 6,2 5,9 6,0 5,0 6,2
6,1 5,7 7,3 4,9 6,3 5,8 5,4 5,8 5,4 6,1 6,1 6,0 6,1 6,1 6,3
6,4 5,7 5,7 5,0 6,1 6,3 6,3 5,8 5,8 5,8 6,0
44 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
30
Porcentaje
20
10
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
Histograma
40
30
Porcentaje
20
10
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 45
60
40
20
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
Histograma
100
80
Porcentaje
60
40
20
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
46 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Gráfico de sectores %
%
25,36% 28,48% PrivN
Ext
SPN
ASoc
29,59% 16,57%
Diagrama de barras
Mn
Ti
Al
Fe
0 20 40 60 80
Frecuencias absolutas
EJEMPLO 2.8.
Las siguientes medidas representan las longitudes en cm de 25 fósiles trilobites:
3,8; 3,3; 3,9; 4,1; 4,4; 3,6; 4,3; 4,4; 4,4; 4,1; 4,3; 3,9; 3,8; 4,5; 3,6; 3,5; 4,3; 4,7; 3,6; 4,2;
4,3; 3,8; 3,6; 3,8; 3,9.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 47
Histograma
Frec. absoluta 8
0
3,2 3,5 3,8 4,1 4,4 4,7 5
Longitudes
Polígono de frecuencias
8
Frec. absoluta
6
4
2
0
3,2 3,6 4 4,4 4,8
Longitud
Polígono de frecuencias
Frec. abs. acumulada
8
6
4
2
0
3,2 3,6 4 4,4 4,8
Longitud
Polígono de frecuencias
100
80
Porcentaje
60
40
20
0
3,2 3,6 4 4,4 4,8
Longitud
r
∑ xi ni
i=1
x=
n
s
∑ xi ni
i=1
x= s
∑ ni
i =1
50 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
pues es así como se obtiene en el numerador la suma de los valores de las s mues-
tras y en el denominador el total de los valores recogidos.
1 r
log mg = ∑ n log xi
n i=1 i
r
∑ ni
i=1
ma = r 1
∑ ni
i =1 xi
r 1
∑ ni
1 i =1 xi
Es por tanto = r , es decir, la media armónica es el recíproco de la
ma
∑ ni
i =1
media aritmética de los recíprocos de los valores de la variable.
Su aplicación es limitada. Es útil para calcular promedios de velocidades y de
tasas.
r
∑ xi2 ni
i =1
mc = r
∑ ni
i =1
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 51
• Relación entre los valores de las medias. Si se pueden definir las cuatro me-
dias para un conjunto de datos, se verifica siempre que ma ≤ mg ≤ x$ ≤ mc, siendo
ciertas las igualdades sólo si todos los datos tienen el mismo valor.
EJEMPLO 2.9.
Calcular las medias aritmética, geométrica, armónica y cuadrática de las si-
guientes calificaciones de un examen final de estadística:
15
∑ xi 91, 2
i=1
La media aritmética es: x = = = 6, 08.
15 15
La media geométrica es: mg = 15 x1 x 2 ... x15 = 15 165188991690 . 5, 60.
15 15
La media armónica es: ma = 15
= . 5, 04.
1 2, 974825940
∑
i =1 x i
15
∑ xi2
626, 96
La media cuadrática es: mc = i=1
. 6, 48.
=
15 15
Como se puede comprobar, se verifica la relación
ma = 5, 04 ≤ mg = 5, 60 ≤ x = 6, 08 ≤ mc = 6, 48
2.4.1.2. Cuantiles
Los cuantiles, también llamados centiles, son valores que dividen la distribu-
ción en partes de igual frecuencia. Las más importantes son la mediana, los cuar-
tiles, los deciles y los percentiles.
EJEMPLO 2.10.
Calcular la mediana de las notas del Ejemplo 2.9.
EJEMPLO 2.11.
Calcular la mediana de los datos siguientes:
8, 3, 0, 4, 7, 6, 1, 1, 6, 0
0, 0, 1, 1, 3, 4, 6, 6, 7, 8
la mediana es la media aritmética de los valores que ocupan los lugares quinto y
3+ 4
sexto, por tanto Me = = 3, 5.
2
Para determinar la mediana, es decir, el punto del intervalo [Li–1, Li) que co-
jn
rresponde a la frecuencia absoluta acumulada se utiliza el polígono de fre-
4
cuencias absolutas acumuladas. Éste asigna a cada punto una frecuencia acumu-
lada, distribuyendo la frecuencia de la clase uniformemente en el intervalo. Así se
n
puede calcular la Me, o abscisa del punto de ordenada , del siguiente modo:
2
Ni D
n B
2
A
Ni – 1 E
C
0
L0 L1 … Li – 1 Me Li Clases
n
− Ni −1
Me = Li −1 + 2 ci
ni
䊏 Deciles. Los deciles son nueve valores que dividen la distribución en diez
partes de igual frecuencia.
Colocados los datos en orden creciente Dj, el decil j-ésimo, deja por debajo las
j partes de las observaciones.
10
Para datos agrupados en intervalos, primero se determina la clase [Li–1, Li)
que lo contiene y, como en los casos anteriores, se obtiene:
n
j − Ni −1
Dj = Li −1 + 10 ci
ni
EJEMPLO 2.12.
Calcular la mediana, los cuartiles, el D9 y el P80 para la siguiente distribución de
datos agrupados en intervalos:
Clases ni
[0,20) 8
[20,40) 23
[40,60) 30
[60,80) 84
[80,100) 27
[100,120) 4
n = 176
[Li–1, Li) xi ni Ni
[0,20) 10 8 8
[20,40) 30 23 31
[40,60) 50 30 61
[60,80) 70 84 145
[80,100) 90 27 172
[100,120) 110 4 176
n = 176
132 − 61
Q3 = 60 + 20 . 76, 90
84
158, 4 − 145
D9 = 80 + 20 = 89, 93
27
140, 8 − 61
P80 = 60 + 20 = 79
84
La moda (las modas) es (son) el valor (los valores) que tiene (tienen) fre-
cuencia máxima.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 57
EJEMPLO 2.13.
En el Ejemplo 2.10. la distribución es bimodal, pues tiene dos modas que son
6 y 9.
EJEMPLO 2.14.
El tiempo que tardan en realizarse 34 trabajos por un ordenador son: 1,86;
3,49; 2,63; 3,49; 1,69; 1,83; 0,81; 0,85; 4,70; 4,24; 3,49; 2,75; 1,65; 0,92; 0,62; 0,41;
3,23; 4,13; 3,23; 1,89; 2,66; 3,52; 2,39; 1,60; 1,88; 0,36; 11,85; 0,87; 3,10; 0,70;
3,23; 2,64; 1,69 y 0,41 Calcular la mediana, la moda y los cuartiles.
ni A D
C
H R
ni + 1
E
ni – 1 B
0
L0 L1 Li – 1 Mo Li Clases
CR DE L − Mo n − ni +1
= , es decir, i = i
CH AB Mo − Li−1 ni − ni −1
por tanto
Li − Mo n − ni+1
+1= i +1
Mo − Li−1 ni − ni−1
es decir,
Li − Mo + Mo − Li −1 ni − ni +1 + ni − ni−1
=
Mo − Li−1 ni − ni −1
ni − ni−1
Mo = Li−1 + c
( i i−1 ) + ( ni − ni+1 ) i
n − n
Si en una distribución hay más de una clase con frecuencia máxima o más de
una clase cuya frecuencia no es inferior a la de sus dos clases contiguas, cada una
de ellas es una clase modal y la distribución tiene tantas modas como clases
modales. En cada clase se calcula el valor modal utilizando la fórmula anterior.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 59
EJEMPLO 2.15.
Calcular la moda de la distribución de datos del Ejemplo 2.12.
84 − 30
Mo = 60 + 20 = 69, 73
(84 − 30 ) + ( 84 − 27 )
EJEMPLO 2.16.
En el siguiente histograma se observa que hay dos clases cuya frecuencia ab-
soluta es superior a la de las dos contiguas.
Histograma
18
Frecuencias absolutas
15
12
9
6
3
0
45 55 65 75 85
Peso en kg
Esto significa que en la muestra hay datos de dos poblaciones o que en la po-
blación hay diferencia sexual en el peso.
Para las distribuciones unimodales que no son muy asimétricas se verifica que
x$ – Mo, es aproximadamente igual a 3 (x$ – Me).
EJEMPLO 2.17.
Comprobar si se verifica esta aproximación para la siguiente distribución.
[Li–1, Li) ni
[0,10) 8
[10,20) 23
[20,30) 30
[30,40) 21
[40,50) 5
[Li–1, Li) xi ni xi ni
[0,10) 5 8 40
[10,20) 15 23 345
[20,30) 25 30 750
[30,40) 35 21 735
[40,50) 45 5 225
n = 87 2.095
6
∑ xi ni
2.095
La media es x = i =1
. 24, 08.
=
n 87
43, 5 − 31
La mediana es Me = 20 + 10 . 24,17.
30
30 − 23
La moda es Mo = 20 + 10 . 24, 38.
( 30 − 23) + ( 30 − 21)
x − Mo = 24, 08 − 24, 38 = − 0, 30.
Muestra 1: 0, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 10.
Muestra 2: 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5.
Muestra 3: 0, 0, 0, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 10,
10, 10.
R = M x − mx
El rango se mide en las mismas unidades que los datos. Se usa en el control de
calidad.
62 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 2.18.
Calcular el rango para las tres muestras del Apartado 2.4.1.5.
Rint = Q3 − Q1
EJEMPLO 2.19.
¿Cuál es el recorrido intercuartílico para los datos del Ejemplo 2.12.
Como se sabe que la suma de las diferencias a la media es nula en todas las dis-
tribuciones, al compensarse las diferencias positivas con las negativas, pues la me-
dia es el centro de gravedad de la distribución, una medida de la dispersión puede ser
la media de las diferencias a la media en valor absoluto, o la media de las diferencias
a la media elevadas al cuadrado. Se definen así otras medidas de dispersión.
En las fórmulas que se dan a continuación, si los datos no están agrupados, xi
son los distintos valores de la variable y ni la frecuencia correspondiente. Si los
datos están agrupados en clases, xi representan las marcas de clase y ni la fre-
cuencia absoluta de la clase correspondiente.
• Desviación media o desviación absoluta media. Es la media aritmética de
los valores absolutos de las desviaciones a la media.
k
∑ xi − x ni
i =1
Dm =
n
k 2
∑ ( xi − x ) ni
i =1
S = DT ( x ) =
n
Es frecuente usar en lugar de la varianza y desviación típica muestrales la cuasiva-
rianza y la cuasidesviación típica o desviación estándar, por ser mejores estimadores de
la varianza poblacional y de la desviación típica poblacional respectivamente, como se
verá en la inferencia estadística. Éstas se indicarán con las letras minúsculas para dis-
tinguirlas de la varianza y desviación típica para las que se utilizarán las mayúsculas.
n
• Cuasivarianza muestral. Es el producto de la varianza por , es decir,
n −1
k
2
∑ ( xi − x ) ni
s2 = i =1
n −1
2 c2
Scorregida = S2 −
12
Pero al comparar las observaciones surge un nuevo problema, las medidas de-
finidas hasta ahora están dadas en las mismas unidades que los datos, salvo la va-
rianza y la cuasivarianza, que se miden en esas unidades al cuadrado.
Se necesita definir una medida adimensional que permita la comparación.
Esto lo resuelve el coeficiente de variación de Pearson.
EJEMPLO 2.20.
Se dispone de dos muestras. En la primera se ha medido el perímetro del cráneo, en
cm, de 100 individuos de una especie y se ha obtenido: x1$ = 60 cm y S1 = 0,32 cm. En la
segunda se han medido los diámetros, en micrómetros, de 1.000 hematíes, examinando al
microscopio gotas de sangre diluidas en agua, la media y la desviación típica de los diá-
metros es: x$ = 7,13 µm y S2 = 0,618 µm. ¿Qué muestra presenta mayor variabilidad?
EJEMPLO 2.21.
La siguiente tabla recoge las puntuaciones de 1.140 aspirantes a cubrir una
plaza, que realizan una prueba de selección, agrupadas en seis intervalos.
Clases ni
0,5-1,9 20
2,0-3,4 100
3,5-4,9 380
5,0-6,4 520
6,5-7,9 110
8,0-9,4 10
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 65
6
∑ xi ni
5733
La media x = i =1
= 5, 0289 . 5, 03.
=
n 1140
Para hallar la moda, primero se busca la clase modal, que es la cuarta, por tanto
520 − 380
Mo = 4, 95 + 1, 5 . 5, 33
(520 − 380 ) + (520 − 110 )
La clase mediana es la primera que tiene frecuencia absoluta acumulada su-
perior o igual a n/2 = 570, por tanto es también la cuarta. Aplicando la fórmula de
la mediana para datos agrupados en intervalos:
570 − 500
Me = 4, 95 + 1, 5 . 5, 15
520
La varianza
6 6
2
∑ ( xi − x ) ni ∑ xi2 ni 30815, 1
S 2 = Var ( x ) = i =1
= i=1
− x2 = − 5, 02892 . 1, 7410
n n 1140
n 2 1140
La cuasivarianza s 2 = S = 1, 7410 = 1, 7425.
n −1 1139
66 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2.4.3. Momentos
2.4.3.1. Momentos respecto del origen
k
∑ xir ni
i=1
ar =
n
Casos particulares:
a0 = 1
a1 = x
k
∑ xi2 ni
i =1
a2 =
n
etc.
A partir de los momentos respecto del origen se pueden definir las medias con
una sola fórmula, la fórmula de Foster, que es la siguiente:
k
∑ xir ni
r i =1 k
Mr = r ar = = r ∑ xir fi
n i =1
k
∑ xi2 ni
i=1
Para r = 2 se obtiene M 2 = a2 = que es la media cuadrática mc.
n
k r
∑ ( xi − x ) ni
i=1
mr =
n
m0 = 1
m1 = 0
k k k k k
2
∑ ( xi − x ) ni ∑ xi2 ni − 2∑ xi xni + x 2 ∑ ni ∑ xi2 ni
i =1
m2 = Var ( x ) = = i =1 i =1 i=1
= i=1
−
n n n
−2 x 2 + x 2 = a2 − a12
m3 = a3 − 3a2 a1 + 2a13
m4 = a4 − 4a3 a1 + 6a2 a12 − 3a14
etc.
m3 m3
g1 = 3 =
S3
( Var ( x ) )
68 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
x − Mo x − Mo
AP1 = =
Var ( x ) S
También
3 ( x − Me ) 3 ( x − Me )
AP2 = =
Var ( x ) S
EJEMPLO 2.22.
Calcular los coeficientes de asimetría de Pearson para la siguiente distribución
que representa el número de hijos por familia para una muestra de 5.264 familias en-
cuestadas.
N.o de hijos 0 1 2 3 4 5 6 7
xi ni xini xi2ni
0 750 0 0
1 2.100 2.100 2.100
2 1.610 3.220 6.440
3 425 1.275 3.825
4 225 900 3.600
5 125 625 3.125
6 25 150 900
7 4 28 196
n = 5.264 8.298 20.186
8
∑ xi ni 8.298
La media x = i =1
= = 1, 5764 . 1, 6.
n 5.264
La moda es 1 hijo.
La mediana es la media aritmética de los dos valores centrales que son los que
ocupan los lugares 2.632 y 2.633 cuando los datos están ordenados. Ambos valores
x + x 2633 1 + 1
son 1, por tanto Me = 2632 = = 1 hijo.
2 2
8
∑ xi2 ni 20.186 2
La varianza S 2 = Var ( x ) = i =1
− x2 = − (1, 5764 ) = 1, 3497.
n 5.264
La desviación típica es: S = DT ( x ) = 1, 3497 . 1, 1618.
m4 m4
g2 = −3= −3
( Var ( x ) )
4
S4
EJEMPLO 2.23.
Calcular el coeficiente de asimetría de Fisher y el de curtosis para la siguiente
distribución:
xi 10 20 30 40
ni 14 21 23 12
1.730
La media es x = . 24, 7.
70
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 71
2
49.700 1.730
2
La varianza es S = Var ( x ) = m2 = a2 − a = − 2
. 99, 20.
70 70
1
k r k r
∑ ( yi − y ) ni ∑ ( xi − x ) ni
( mr ) y = i=1 = i=1
= ( mr ) x
n n
k k
∑ y ni i
∑ hxi ni
i =1 i =1
y= = = hx
n n
k r k r
∑ ( yi − y ) ni ∑ ( hxi − hx ) ni
( mr ) y = i=1 = i=1
= h r ( mr ) x
n n
x−a
x = by + a ⇔ y =
b
k r k r
∑ ( xi − x ) ni ∑ ( byi + a − ( by + a )) ni
( mr ) x = i=1 = i=1
= b r ( mr ) y
n n
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 73
DT ( x ) = bDT ( y) ⇔ Sx = bSy
1 1
DT ( y) = DT ( x ) ⇔ Sy = Sx
b b
x−x
z=
Sx
x−x 1
Esta nueva variable tiene media z = = 0 y desviación típica Sz = Sx = 1.
Sx Sx
Los valores de la variable z se dice que son los valores de x tipificados o es-
tandarizados.
EJEMPLO 2.24.
Las calificaciones de tres alumnos en dos pruebas objetivas son las siguientes:
Prueba 1 Prueba 2
Sabiendo que la media del grupo en la primera prueba es 5,4 y la desviación tí-
pica es 2,1 y para la prueba 2 la media es 37,5 y la desviación típica es 10,3 ¿qué
alumno tiene mejor puntuación global? Ordenarlos según las calificaciones de am-
bas pruebas.
74 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Puntuaciones Calificación
Prueba 1 Prueba 2
tipificadas global
Alumno 1 0,667 – 1,359 – 0,692
Alumno 2 – 0,905 1,175 0,270
Alumno 3 – 0,571 – 0,019 – 0,590
0 2 4 6 8 10
En el gráfico anterior además aparece una cruz en el interior de la caja que in-
dica la posición de la media correspondiente.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 75
䉺 Fórmula
De esta forma se pueden calcular los estadísticos que interesen para cada
variable.
También el programa permite realizar un análisis numérico a partir del fichero
de datos del siguiente modo:
Se escoge en el menú:
Descripción → Datos numéricos → Análisis unidimensional
Aparece una pequeña ventana en la que se indica la columna de los datos de la
variable y pulsando Aceptar el programa STATGRAPHICS proporciona los re-
sultados del análisis en el que se incluyen por defecto:
EJEMPLO 2.25.
Se define el pH de abrasión como el valor del pH de una suspensión de suelo fi-
namente triturado en agua. Esta medida tiene interés geológico por estar relaciona-
da con la mineralogía y la composición química elemental del suelo.
M. Martín Barca, R. García Giménez, A. Gutiérrez Maroto y R. Jiménez Ba-
llesta han determinado los pHs de abrasión de muestras de horizontes superficiales
de suelos situados dentro de cada una de las cuadrículas de 10 × 10 km en que di-
vidieron el Sistema Central. Los resultados son los siguientes:
8,0 5,9 5,3 5,6 8,5 8,5 8,0 6,1 5,2 5,9 6,0 6,8 5,4 5,0 6,9
5,7 6,4 5,5 5,7 5,0 8,7 6,2 7,7 7,6 6,6 6,0 5,7 5,2 6,8 8,4
7,6 7,7 4,8 5,9 5,9 6,4 8,4 8,2 7,6 8,2 7,6 4,9 6,1 6,0 6,0
6,0 6,0 5,8 6,0 6,4 5,8 6,4 6,9 7,7 5,9 6,0 6,1 4,8 7,7 6,4
6,2 6,6 8,2 6,5 6,0 6,2 5,5 5,8 6,0 5,7 6,0 5,7 5,7 6,0 6,0
6,2 6,5 5,6 6,6 4,6 4,6 6,5 5,6 4,8 4,5 4,9 5,1 6,4 6,7 6,1
6,1 6,1 6,5 6,5 5,5 6,2 6,4 4,9 6,4 5,5 6,3 6,5 6,9 6,0 4,6
5,9 4,9 5,6 5,5 3,3 5,6 5,9 6,3 5,5 5,4 6,3 6,3 4,9 5,6 6,2
6,7 6,4 6,4 5,7 7,0 6,4 6,4 7,0 6,9 4,6 5,6 4,6 4,6 4,1 6,2
5,7 4,5 5,9 5,6 5,0 4,8 5,7 5,2 5,6 5,2 6,4 5,0 5,2 5,7 6,2
5,9 6,9 5,3 5,2 5,2 5,6 5,5 5,9 6,3 6,3 5,7 5,3 6,1 5,0 5,1
5,3 5,8 6,4 6,4 6,1 6,1 6,8 6,3 6,5 7,2 6,2 5,9 6,0 5,0 6,2
6,1 5,7 7,3 4,9 6,3 5,8 5,4 5,8 5,4 6,1 6,1 6,0 6,1 6,1 6,3
6,4 5,7 5,7 5,0 6,1 6,3 6,3 5,8 5,8 5,8 6,0
Aparece una ventana para introducir los datos. Se indica la columna que los
contiene y pulsando Aceptar el programa STATGRAPHICS proporciona un resu-
men numérico. Los resultados de este análisis se presentan a continuación:
Resumen de Procedimiento
Datos: pH de abrasión
Gráfico de dispersión
Frecuencia = 206
Media = 6,02913
Mediana = 6,0
Moda = 6,0
Media geométrica = 5,96765
Varianza = 0,762074
Desviación típica = 0,872969
Mínimo = 3,3
Máximo = 8,7
Rango = 5,4
Asimetría = 0,612549
Curtosis = 1,21314
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 81
Suma = 1242,0
El StatAdvisor
--------------
Esta tabla muestra el resumen estadístico para pH de abrasión. In-
cluye las medidas de tendencia central, medidas de variabilidad, y medi-
das de forma.
1,0% = 4,5
5,0% = 4,8
10,0% = 5,0
25,0% = 5,6
50,0% = 6,0
75,0% = 6,4
90,0% = 7,0
95,0% = 7,7
99,0% = 8,5
El StatAdvisor
--------------
Este cuadro muestra los percentiles de la muestra para pH de abra-
sión. Los percentiles son valores bajo los cuales se encuentran porcen-
tajes específicos de datos.
82 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
El StatAdvisor
--------------
Esta opción realiza una tabulación de frecuencias dividiendo el ran-
go de pH de abrasión en intervalos de igual anchura y contando el número
de valores de los datos en cada intervalo. Las frecuencias muestran el
número de valores en cada intervalo, mientras que las frecuencias rela-
tivas muestran las proporciones en cada intervalo.
Puede cambiar la definición del intervalo pulsando el botón alterna-
tivo del ratón y seleccionando Opciones de Ventana. Puede ver los resul-
tados de la tabulación gráficamente seleccionando Histograma de Frecuen-
cias de la lista de Opciones Gráficas.
Diagrama de Tallo y Hojas para pH: unidad = 0,1 1|2 representa 1,2
ALTO |7,7 7,7 7,7 7,7 8,0 8,0 8,2 8,2 8,2 8,4 8,4 8,5 8,5 8,7
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 83
EJEMPLO 2.26.
La siguiente tabla la proporciona STATGRAPHICS al pedir que agrupe los va-
lores del Ejemplo 2.25. en 10 intervalos.
La amplitud de cada intervalo es 0,58.
Tabla de Frecuencias para pH de abrasión
Límite Límite Frecuen- Frecuencia Frecuen-
Frecuen-
Clase infe- supe- Marca cia Rela- Acumu- cia Acum.
cia
rior rior tiva lativa Rel
menor o igual 3,1 0 0,0000 0 0,0000
1 3,1 3,68 3,39 1 0,0049 1 0,0049
2 3,68 4,26 3,97 1 0,0049 2 0,0097
3 4,26 4,84 4,55 12 0,0583 14 0,0680
4 4,84 5,42 5,13 30 0,1456 44 0,2136
5 5,42 6,0 5,71 68 0,3301 112 0,5437
6 6,0 6,58 6,29 59 0,2864 171 0,8301
7 6,58 7,16 6,87 15 0,0728 186 0,9029
8 7,16 7,74 7,45 10 0,0485 196 0,9515
9 7,74 8,32 8,03 5 0,0243 201 0,9757
10 8,32 8,9 8,61 5 0,0243 206 1,0000
mayor 8,9 0 0,0000 206 1,0000
10
∑ xi ni
1.236
i=1
a) La media es x = = = 6.
n 206
La clase mediana es la quinta ya que 112 es la primera frecuencia absoluta
acumulada superior a 103, que es la mitad del número de datos.
103 − 44
Me = 5, 42 + 0, 58 . 5, 89
68
La clase modal es también la quinta, porque la frecuencia máxima es 68.
68 − 30
Mo = 5, 42 + 0, 58 . 5, 92
( 68 − 30 ) + (68 − 59 )
La varianza es:
10
∑ xi2 ni 7.572, 5242 2
S 2 = Var ( x ) = i =1
− x2 = − 6 . 0, 7602
n 206
n 206
La cuasivarianza es s 2 = Var ( x ) = 0, 7602 = 0, 7639.
n −1 205
La cuasidesviación típica o desviación estándar es:
s = s 2 . 0, 8740
S 0, 8719
CV = = = 0, 1453
x 6
䊏 Índice cefálico, que se suele expresar en tanto por ciento, es el cociente en-
tre la máxima anchura del cráneo y su longitud máxima.
䊏 Índice de asociación que se obtiene dividiendo el número de parcelas de un
terreno en las que aparece una de las especies entre el número de las que habitan
las dos especies.
䊏 Ley de un mineral, o proporción en peso de la parte aprovechable del mi-
neral en una explotación minera, es el cociente entre el peso de la mena y el peso
total del mineral.
䊏 Índice de diversidad, que es el cociente entre el número de especies y el nú-
mero de individuos de una comunidad.
86 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
100 s − 60 d
Im =
n
Anchura de la nariz
I nasal = × 100
Altura de la narizz
En odontoantropología se usa, entre otros, el siguiente:
䊏 Índice coronario que es el cociente entre el diámetro mesiodistal y el diá-
metro vestíbulolingual, multiplicado por 100, esto es,
Diámetro mesiodistal
Icoronario = × 100
Diámetro vesttibulolingual
Los índices más sencillos, los llamados índices simples, se refieren a la va-
riación de una sola magnitud.
Un índice simple mide la variación en tanto por uno, o en tanto por ciento, de
una sola magnitud.
Así, por ejemplo, el precio de la gasolina súper en Madrid el 1 de enero de
1976 era de 21 ptas/litro y la súper el 20 de agosto de 2007 costaba 1,056 €/litro
que equivale a (1,056 €/litro)(166,386 ptas/€) = 175,7036 ptas/litro.
El cociente
P2007 175, 7036
I 0t = = = 8, 3668
P1976 21
䊏 Índice de Sauerbeck
npit
∑
i =1 pi 0
SP =
n
䊏 Índice de Laspeyres
n pit n
∑ pi 0 qi 0 ∑ pit qi 0
i =1 pi 0 i=1
LP = n = n
∑ pi 0 qi 0 ∑ pi 0 qi 0
i=1 i =1
gallina, que se consume menos que el pollo, la leche fresca y las alubias, entre
otros.
A continuación se indican las ponderaciones de los distintos grupos de artí-
culos de la cesta de la compra para los años 2005 y 2006.
En ellas se observa el cambio de hábitos de los consumidores en España.
Los datos del IPC publicados el 11 de septiembre de 2008 también con base
2006 = 100 son los siguientes:
䊏 Índice de Paasche
n pit n
∑ p q ∑ pit qit
i =1 pi 0 i 0 it i=1
PP = n = n
∑ pi 0 qit ∑ pi 0 qit
i =1 i =1
es el cociente entre el valor actual de los artículos y el valor real (el valor con los
precios del año base). Es una media aritmética ponderada de los índices simples,
tomando como pesos wi = pi0qit , es decir, el valor de la cantidad consumida qit del
artículo i-ésimo en el periodo actual con el precio del periodo base o de referencia.
Se utiliza para transformar valores actuales en reales (deflación)1.
1
Deflación: disminución de la circulación fiduciaria por reducción del papel moneda y limita-
ción de los créditos.
Inflación: excesiva emisión de billetes en reemplazo de moneda.
Definiciones tomadas del Diccionario Ideológico de la Lengua Española de Julio Casares.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 91
n n
∑ pit qi 0 ∑ pit qit
i=1 i=1
FP = LP PP = n n
∑ pi 0 qi 0 ∑ pi 0 qit
i=1 i =1
Clases ni
[0; 1,5) 120
[1,5; 3,0) 243
[3,0; 4,5) 116
[4,5; 6,0) 317
[6,0; 7,5) 204
Calcular:
a) Moda, mediana y percentil 85.
b) Haciendo un cambio de variable conveniente, la media, la desviación
típica y el coeficiente de variación.
c) ¿Qué fracción de los tiempos de atención no pasan de un minuto?
2.9.2. Calcular las medias aritmética, geométrica, armónica y cuadrática de los si-
guientes valores: 7, 4, 2, 3, 8, 12.
Clases ni
[5, 15) 1
[15, 25) 2
[25, 35) 3
[35, 45) 6
[45, 55) 5
[55, 65) 4
[65, 75) 3
[75, 85) 2
[85, 95) 1
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 93
2.9.4. Calcular las medias aritmética, geométrica, armónica y cuadrática de los si-
guientes valores: 17, 2, 8, 3, 8, 2, 12, 3, 8, 12, 12.
Clases ni
[0, 1) 5
[1, 2) 11
[2, 3) 6
[3, 4) 4
[4, 5) 9
[5, 6) 14
[6, 7) 9
[7, 8) 7
[8, 9) 9
[9, 10) 4
2.9.6. Un automovilista viaja 100 km por autopista a 90 km/h y otros 100 km por ca-
rreteras a 60 km/h. Calcular la velocidad media del recorrido.
2.9.7. Un automóvil rojo recorre tres trayectos de igual longitud, a, a las velocidades
v1, v2, v3 respectivamente y otro blanco recorre en tres intervalos de tiempo, de am-
plitud t constante, trayectos a las velocidades anteriores.
a) ¿Cuál es la velocidad media de cada automóvil?
b) ¿Qué automóvil alcanza mayor velocidad media?
c) Calcular las velocidades medias de ambos automóviles para
a = 10 km, t = 30 min, v1 = 80 km/h,v2 = 100 km/h y v3 = 110 km/h.
2.9.9. Se conocen las medias de tres muestras de tamaños diferentes n1, n2, n3 ¿es la
media de la muestra formada por todos los valores de las tres muestras la media arit-
mética de las tres medias?
2.9.10. Un comercial elige una muestra de cinco artículos y observa que sus precios
son 240%, 104%, 116%, 112% y 120% del precio de hace un año. Calcular el por-
centaje medio.
94 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Pesos g [70, 80) [80, 90) [90, 100) [100, 110) [110, 120)
ni 8 15 40 10 7
Calcular:
a) La media y la desviación media.
b) La mediana, la moda y el percentil 27.
c) La desviación típica.
d) Los coeficientes de variación, de asimetría de Fisher y de curtosis.
2.9.12. Los pesos en gramos de 80 cangrejos de río se han agrupado en clases obte-
niendo la siguiente tabla:
Pesos g [20, 30) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80)
ni 10 12 20 17 13 8
Calcular:
a) La media, la mediana, la moda y el tercer decil.
b) La desviación media.
c) La desviación típica.
d) Los coeficientes de variación, de asimetría de Fisher y de curtosis.
2.9.13. En una máquina trabajan tres personas distintas, se eligen ocho muestras de
la producción de cada uno de ellos y se anota el porcentaje de piezas desechadas; los
resultados obtenidos se presentan en la siguiente tabla:
P1 22 25 22 23 25 20 23 24
P2 27 14 20 25 30 28 20 20
P3 35 23 24 20 19 18 22 23
Calcular:
a) La media, la mediana y la moda de la producción de cada persona.
b) La varianza y la desviación típica de las tres muestras.
c) ¿Cuál de las tres personas presenta una mayor regularidad? ¿Por qué?
Tiempo min 10-18 20-28 30-38 40-48 50-58 60-68 70-78 80-88 90-98
ni 3 14 29 22 14 10 4 2 2
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 95
Calcular:
a) La media, la mediana y la moda.
b) La varianza y la desviación típica.
c) El coeficiente de variación.
d) Los cuartiles.
e) El cuarto decil.
f) Los coeficientes de asimetría de Fisher y de curtosis.
2.9.15. Los diámetros de los troncos de una tala, medidos en cm, proporcionan la si-
guiente tabla:
Clases cm [20, 24) [24, 28) [28, 32) [32, 36) [36, 40) [40, 44) [44, 48) [48, 52) [52, 56) [56, 60)
ni 2 2 3 7 9 10 8 6 4 5
Tiempo
[85, 90) [90, 95) [95, 100) [100, 105) [105, 110) [110, 115) [115, 120) [120, 125) [125, 130) [130, 135)
min
ni 2 2 6 7 12 7 7 2 2 3
Clases [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10) [10, 11) [11, 12) [12, 13)
ni 2.145 1.520 840 955 1.110 2.342 610 328 150
Calcular:
a) El gasto medio por hogar.
b) El valor que deja por debajo de él el 75%, el 40%, la mitad y el 91% de los
hogares.
c) La varianza y la desviación típica.
d) El coeficiente de asimetría.
e) El coeficiente de curtosis.
96 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2.9.18. Las calificaciones, sobre 100 puntos, obtenidas en una prueba por un grupo
de universitarios son:
Clases 0- 9 10- 19 20-29 30- 39 40- 49 50-59 60- 69 70- 79 80- 89 90- 99
ni 2 3 8 8 13 16 12 7 5 3
Calcular:
a) La media aritmética, la mediana y la moda.
b) El primer y el tercer cuartil.
c) La desviación media.
d) La desviación típica.
e) El coeficiente de variación.
f) El coeficiente de asimetría de Fisher y el coeficiente de curtosis.
Clases [15, 25) [25, 35) [35, 45) [45, 55) [55, 65) [65, 75) [75, 85)
ni 2 15 23 22 19 5 4
3.1. INTRODUCCIÓN
En el estudio estadístico de una población cualquiera, puede resultar conveniente
valorar para cada elemento de la muestra simultáneamente dos caracteres. Si los dos
caracteres son cuantitativos, se obtiene una variable estadística que asigna a cada ele-
mento de la población un par de números (xi, yi). Se obtiene así una variable estadística
bidimensional. Al par de números (xi, yi) se le denomina observación bidimensional.
La primera componente es la medida de la observación realizada para una de las
magnitudes, x, que se refiere al primer carácter observado, y la segunda es la medida de
la observación referente al segundo carácter, y. Por ejemplo, se puede observar el peso
y la talla de un mismo individuo; la altura de un árbol y su diámetro a 1,30 m del sue-
lo; los años de antigüedad y el salario de un trabajador; para un atleta el número de pul-
saciones en reposo y después de realizar una hora de ejercicio físico; el precio de una
cajetilla de tabaco y el número de cajetillas que han vendido en un día en un estanco, etc.
Los valores xi que constituyen la primera componente se pueden considerar
como los de una variable estadística simple, unidimensional x, y lo mismo puede
decirse de los yi observados para la segunda componente, que son los valores de
otra variable estadística y. Pero si lo que interesa es la consideración conjunta de
los pares decimos que (xi, yi) es un resultado elemental de la observación.
El conjunto formado por los n pares observados (x1, y1), (x2, y2), …, (xn, yn)
constituye una distribución bidimensional. Dos observaciones son iguales si están
representadas por el mismo punto del plano.
Las variables estadísticas bidimensionales pueden ser discretas o continuas.
Una variable estadística bidimensional es discreta, si las dos variables unidi-
mensionales x e y son discretas y si x e y son ambas continuas, se dice que la va-
riable estadística bidimensional es continua. Ejemplo, si x = «edad en años» e y =
«n.o de respuestas acertadas de un test de 100 preguntas», la variable bidimen-
sional (x, y) es discreta. Pero si x representa la talla e y el peso de una persona, la
variable bidimensional (x, y) es continua.
99
100 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Si todos los pares observados (xi, yi) son diferentes, la representación de cada
par como un punto del plano proporciona una nube de puntos o diagrama de dis-
persión.
Por ejemplo, para la distribución bidimensional
x 1,1 2,4 1,3 2,1 1,5 1,0 2,7 1,9 3,4 2,5 1,7 1,2 1,6 2,3 2,4 1,3 1,5 2,0 2,3 2,5
y 7,5 8,3 7,6 7,1 6,9 5,8 8,6 7,2 9,1 8,2 7,4 8,5 7,8 9,3 9,1 7,5 6,8 9,6 9,2 8,4
Plot of Y vs X
Y 9,8
8,8
7,8
6,8
5,8
1 1,4 1,8 2,2 2,4 3 3,4
tinua, para facilitar el manejo de los datos, tal como se hizo en las variables uni-
dimensionales, se agrupan estos en clases.
Así, si los recorridos de las variables x e y son: [ mx , M x ] y my , M y se pueden
dividir en r y k subintervalos respectivamente.
Los subintervalos en que se divide el recorrido de la variable x en general se eligen
iguales y análogamente los de la variable y, aunque también se pueden elegir de distinta
)
amplitud, [ mi−1 , mi ) para i = 1,2, ... , r y l j −1 , l j para j = 1,2, ... , k , tales que:
m0 ≤ m x y M x ≤ mr
l0 ≤ my y M y ≤ lk
y y1 y2 y3 yj yk Total
… …
x filas
x1 n11 n12 n13 … n1j … n1k n1•
x2 n21 n22 n23 … n2j … n2k n2•
x3 n31 n32 n33 … n3j … n3k n3•
⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗
xi ni1 ni2 ni3 … nij … nik ni•
⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗
xr nr1 nr2 nr3 … nrj … nrk nr•
Total n•1 n•2 n•3 … n•j … n•k n•• = n
columnas
102 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
r k r k
Es evidente que ∑ ∑ nij = ∑ ni • = ∑ n• j = n
i=1 j =1 i =1 j =1
nij
y1 y
x1
2 y3 y
4y
5 y6
x2
y
x3
nij
60
50
40
30
n43
20
l5
10 l4
l3
y3
m0 m1 l2
m2 m3 x4 m4 l1
m5 m6 m7 l0
k
ni• = ∑ nij = ni1 + ni 2 + ... + nik
j =1
xi ni• yj n•j
x1 n1• y1 n•1
x2 n2• y2 n•2
⯗ ⯗ ⯗ ⯗
xr nr• yk n•k
r k
Total n = ∑ ni • Total n = ∑ n• j
i =1 j =1
ni5 n3 j
xi /y = y5 yj /x = x3
n•5 n3•
x1 n15 y1 n31
n•5 n3•
x2 n25 y2 n32
n•5 n3•
⯗ ⯗ ⯗ ⯗
xi ni5 yj n3 j
n•5 n3•
⯗ ⯗ ⯗ ⯗
xr nr5 yk n3k
n•5 n3•
Total 1 Total 1
r r k k
∑ xi ni• ∑ xi ni • ∑ y j n• j ∑ y j n• j
i=1 i =1 j =1 j =1
x= = r , y= = k
n n
∑ ni• ∑ n• j
i=1 j =1
Si cada observación (xi, yi) se representa por un punto del plano, se dibuja la
nube de puntos o diagrama de dispersión y el punto del plano (x$, y$) es el centro de
gravedad o baricentro de la distribución.
Las varianzas marginales se definen:
r k 2
∑ ( y j − y ) n• j
2
∑ ( xi − x ) ni•
j =1
Sx2 = i=1
, Sy2 =
n n
r k 2
∑ ( y j − y ) n• j
2
∑ ( xi − x ) ni•
j =1
sx2 = i =1
, s y2 =
n −1 n −1
r k
∑ ∑ xi h y j h nij
1 2
i =1 j =1
ah1h2 =
n
Momentos respecto del baricentro (x$, y$) o momentos centrales para una dis-
tribución bidimensional:
El momento central de h1 orden para x y h2 para y, es
r k h1 h2
∑ ∑ ( xi − x )
i =1 j =1
(y j −y ) nij
mh1 h2 =
n
2
a01 = y , m02 = Sy2 = a02 − ( a01 )
r k
∑ ∑ ( xi − x ) ( y j − y ) nij
i =1 j =1
Sxy = m11 =
n
Sxy = a11 − x . y
Sxy
r=
Sx Sy
n
∑x
x 1 i =1 i
y = n n
y
∑
i =1
i
Sx 2 Sxy
MCov =
Sxy Sy 2
2
1 n ( xi − x ) ( xi − x ) ( yi − y )
MCov = ∑
n i =1 ( x − x ) ( y − y )
i i ( yi − y )2
es decir,
1 n xi − x
MCov = ∑ .[ x − x yi − y ]
n i =1 yi − y i
180
Talla en cm
170
160
150
34 44 54 64 74 84
Peso en kg
En la Figura 3.6 los puntos de la nube están dispersos, en este caso no hay re-
lación lineal entre las variables x e y.
80
60
40
Y
20
0
0 10 20 30 40
X
FIGURA 3.6. Nube de puntos, más dispersa que la anterior, proporcionada
por STATGRAPHICS.
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 109
En estos casos se dice que hay una dependencia aleatoria entre las va-
riables. Esta dependencia puede ser más o menos fuerte. La teoría de la co-
rrelación se ocupa de estudiar el grado de dependencia o de asociación entre
las variables. El grado de dependencia es mínimo si las variables son inde-
pendientes y será máximo si existe entre ellas una dependencia funcional. La
teoría de la regresión se ocupa de ajustar una curva a la nube de puntos, que
se denominará curva de regresión. Se trata de descubrir si la variación de los
valores de una de las variables influye en la variación de los valores de la
otra variable con el objetivo de formular hipótesis sobre la relación entre
ellas.
El propósito no es afirmar una relación de causa-efecto, sino buscar si existe
una función que exprese un cierto grado de dependencia entre ambas, una fun-
ción cuya gráfica se ajuste lo mejor posible a los datos.
La teoría de la regresión y de la correlación tiene su origen en los trabajos de
Francis Galton (1822-1911) sobre la herencia, relacionando la estatura de los pa-
dres y la de sus hijos adultos. Galton observa que, en media, los hijos de padres
altos tienen menor estatura que sus padres y los hijos de padres bajos tienen ma-
yor estatura que sus padres. En la herencia de la estatura hay una regresión hacia
la media. De aquí el nombre de regresión.
A partir de la nube de puntos que representa una variable estadística bidimen-
sional cuantitativa, se trata ahora de seleccionar el tipo de función cuya gráfica sea
la que mejor se ajusta a la nube de puntos, puede ser una función lineal, cuadrá-
tica, potencial, exponencial, hiperbólica, etc., y una vez seleccionado el tipo de
función dar un procedimiento para obtener la curva que mejor se ajuste a la nube
de puntos.
110 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Si la nube de puntos no está dispersa sino que los puntos aparecen concen-
trados y tiene una configuración lineal, como en la representación de la Figura
3.5, se puede ajustar una función lineal. Estamos ante un problema de regresión li-
neal. La función a ajustar es una recta de regresión. Esta recta se determina ha-
ciendo que sean mínimas las diferencias entre los pares observados y los puntos
de la recta. Si estas diferencias se miden para cada valor de xi en la vertical se en-
cuentra la recta de regresión de y sobre x, en este caso la variable y se considera
la variable respuesta, o variable dependiente y x la variable predictora, la variable
controlada, variable explicativa o variable independiente. Si para cada valor de yi
las diferencias se miden en la horizontal, se determina la recta de regresión de x
sobre y, en este caso la variable dependiente es x y la independiente es y.
y = a + bx
(xi,yi)
yi
δi
y*i
G
(x,y )
O xi x
De todas las rectas y = a + bxi se busca la recta que hace mínima la suma de
los cuadrados de las desviaciones δi, que representan la distancia vertical de los
datos (xi, yi) a los puntos (xi, y*i = a + bxi) de la recta, es decir, la que hace mínima
n n 2 n 2 n 2
2
U = ∑ δ i = ∑ yi − y
i =1 i =1
( ∗
i ) i=1
( )
= ∑ yi − ( a + bxi ) = ∑ ( yi − a − bxi )
i =1
El sistema simplificado:
n n
i=1 i ∑ y = an + b ∑ xi
i =1
n n n
∑ xi yi = a∑ xi + b ∑ x i2
i =1 i =1 i=1
n n n n
n 2
∑ xi yi ∑ xi ∑ xi2 ∑ xi yi ∑
xi
i =1
= ( y − bx ) i=1 + b i=1 ⇒ i =1
= x y + b i =1 − x 2 ⇒
n n n n n
n
∑ xi yi
1
i=1
−x y
⇒b= n
n
∑ xi2
i=1
− x2
n
n
∑ xi2
Se sabe que Sx2 = i=1
− x 2 es la varianza de la variable x y que la covarianza
n
de las variables x e y es:
n n
∑ ( xi − x ) ( yi − y ) ∑ xi yi
i=1 i=1
Sxy = = −x y
n n
esta medida, que indica la variación conjunta de las dos variables, tiene en cuen-
ta los valores de las variables x e y a la vez. Como se dijo anteriormente, por ser el
numerador una suma de productos de números positivos o negativos puede ser po-
sitiva, negativa o incluso nula. La covarianza es positiva si a valores de x mayores
que su media x$ le corresponden valores de y también mayores que su media y$ o a
valores de x menores que su media le corresponden valores de y también menores
que su media. La covarianza es negativa si a valores de x mayores que su media x$
le corresponden valores de y menores que su media y$ y a valores de x menores
que su media le corresponden valores de y mayores que su media.
Los coeficientes de la recta de regresión de y sobre x en función de los mo-
mentos de x e y son:
Sxy Sxy
b= 2 Ä y a= y− x
S x Sx2
Sxy Sxy
y= y− 2 x + x
Sx Sx2
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 113
o bien:
Sxy
y−y = (x − x)
Sx2
n n 2 n 2 n 2
(
U = ∑ δ i 2 = ∑ xi − xi∗
i=1 i=1
) i =1
( )
= ∑ xi − ( c + dyi ) = ∑ ( xi − c − dyi )
i=1
Sxy
x−x = (y − y)
Sy2
que pasa también por el punto G = (x$, y$), centro de gravedad de la nube.
S
El coeficiente de y, C xy = xy2 , que recibe el nombre de coeficiente de regre-
Sy
sión de x sobre y, representa la pendiente de la recta de regresión de x sobre y con
respecto al eje de ordenadas, es decir, la tangente del ángulo que forma la recta de
regresión de x sobre y con la parte positiva del eje de ordenadas.
114 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
x = c + dy
(xi,yi) δi
yi
G
(x,y )
O xi x*i x
Sxy
y – y = —— (x – x )
S 2x
Sxy
x – x = —— (y – y )
S 2y
γ
β
G
Luego las dos rectas de regresión son crecientes o decrecientes a la vez. El án-
gulo γ entre las dos rectas de regresión, que es el menor de los dos ángulos su-
plementarios que forman, es agudo o como máximo recto.
En el siguiente apartado, se explica que cuanto menor sea el ángulo que forman
las dos rectas de regresión mayor será la relación lineal entre las variables x e y.
n n n Sxy n Sxy n
∑ δi = ∑ ( yi − yi∗ ) = ∑ yi − y − ( x i − x ) = ∑
i=1 ( yi − y ) + ∑ ( xi − x ) = 0
i=1 i =1 i=1 Sx2 Sx2 i =1
2
n n
n Sxy
∑ δ i2 ∑ ( yi − y ∗ 2
) ∑ yi − y + 2 ( xi − x )
2 i=1 i=1
i i =1 Sx
S =
δ = = =
n n n
2
n Sxy
∑ ( yi − y ) − 2 ( xi − x )
i=1 S x
=
n
será:
2
n Sxy
∑ ( yi − y ) − 2 ( xi − x )
i =1 S x
2 S2 n
r = 1 − δ2 = 1 − =
Sy Sy2
116 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
∑ ( yi − y ) − 2 ( x − x ) ( yi − y ) + 2 ( xi − x )
(S )
n 2 Sxy Sxy2 2
i =1 S2 i 2
= 1− 2 =
1 x x
Sy n
n
∑ ( − ) ∑ ( − ) ( − ) Sxy i =1 ( x i − x )
∑
2
n n
1 i =1
2
y y x x y y
( )
= 1− 2 −2 2 + =
2
i Sxy i =1 i i
Sy n Sx n Sx2
2
n
2 Sxy2 Sxy2
1 2 2
( )
= 1− − + x = 1− 2 Sy − 2 = 2 2
Sxy2 Sxy2 1
Sy2 Sx Sx Sy
S 2 S
y
Sx2 2 2 S
Sx y
r2 =
Sxy2
Sx2 Sy2
Sy2 − Sδ2
De la definición del coeficiente de determinación r 2 = Sδ2 se
= 1−
Sy2 Sy2
puede obtener la acotación de este coeficiente. Por ser las varianzas positivas o
nulas, r2 tiene como máximo el valor 1, en el caso en que Sδ2 = 0, y como mínimo
el valor 0, en el caso en que Sδ2 = Sy2. Por tanto 0 ≤ r2 ≤ 1.
El coeficiente de determinación es un número sin dimensión que mide la calidad
del ajuste de la nube de puntos a la recta de regresión. El valor de r2 se suele ex-
presar como un porcentaje. Así, si r2 = 0,8345 = 83,45% significa que el 83,45% de
la variación de y queda explicada por la recta de regresión de y sobre x.
x=x r=0
π
γ = —rad
2
γ
y=y
G
Sxy
y−y = ( x − x ) ⇔ Sx2 ( y − y ) = Sxy ( x − x )
Sx2
y la de x sobre y es:
Sxy
x−x = 2 ( y − y ) ⇔ Sxy ( y − y ) = Sy2 ( x − x )
S y
Sx2 S xy
2
Sx Sxy 2 2 2 2 2 2
S xy
2
2
rango 2 =1⇔ 2
=0⇔S S −S = 0⇔S =S S ⇔
x y xy xy x y 2 2
=1⇔ r =1
S xy Sy Sxy Sy Sx Sy
Por coincidir ambas rectas de regresión, el ángulo entre las dos rectas es el mí-
nimo, γ = 0. Ver Figura 3.11.
Sxy
y – y = —— (x – x )
S 2x
Sxy
x – x = —— (y – y )
S 2y
G
β
α
䊏Si 0 < r2 < 1, hay una dependencia aleatoria entre las variables x e y, y el
ajuste de la nube de puntos a la recta de regresión será tanto mejor cuanto más
próximo a 1 esté el coeficiente de determinación y el ángulo entre las dos rectas
de regresión será pequeño.
Sxy
y – y = —— (x – x )
S 2x
γ 0<r<1
Sxy
G x – x = —— (y – y )
β S 2y
Cuanto más próximo a cero esté r2 mayor será el ángulo entre las dos rectas y
peor el ajuste de la nube de puntos a ellas.
Sxy
y – y = —— (x – x )
S 2x
0<r<1
γ
β
Sxy
x – x = —— (y – y )
G S 2y
FIGURA 3.13. Nube de puntos con coeficiente de determinación próximo a cero y sus
rectas de regresión.
entre los que teníamos en la muestra, la predicción será más fiable que si se hace
una extrapolación calculando valores de y para valores de x mayores que el mayor
registrado en la muestra, o menores que el menor valor de x en la muestra, y esta
extrapolación es tanto menos fiable cuanto mayor sea la diferencia entre el valor
que se dé a x y el máximo, o el mínimo, de los registrados en la tabla.
S2 S S
Se observa que r 2 = 2xy 2 = xy2 xy2 = C yx C xy , es decir, que el coeficiente de
S x Sy S x S y
determinación es el producto de los coeficientes de regresión de y sobre x y de x
sobre y.
Sxy
r=
Sx Sy
la covarianza Sxy = 0, las dos rectas de regresión pasan por G = (x$, y$) y son
perpendiculares entre sí. En este caso el ángulo que forman las dos rectas de
regresión es máximo, un ángulo recto, las variables se dice entonces que es-
tán incorrelacionadas o incorreladas, es decir, no existe relación lineal entre
ellas.
Guilford interpreta el coeficiente de correlación lineal r de Pearson, también
llamado «coeficiente de correlación momento producto de Pearson», del si-
guiente modo:
bdSuv
Sx = bSu , Sy = dSv , Sxy = bdSuv ⇒ rxy = = ruv
bSu dSv
EJEMPLO 3.1.
Para una distribución de frecuencias de una variable bidimensional se han obte-
nido las rectas de regresión 8x + y = 1 y 2x + 4y = 3. Razónese si la primera es o no es
la recta de regresión de y sobre x y calcúlese el coeficiente de correlación de x e y.
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 121
1 1 1
x = − y + ⇒ Cxy = −
8 8 8
del mismo modo, por ser 2x +4y = 3 la recta de regresión de y sobre x, se tiene:
1 3 1
y = − x + ⇒ C yx = −
2 4 2
1 1 1
de lo que se deduce que r 2 = Cyx C xy = − − = .
2 8 16
1 1
r=− =−
16 4
EJEMPLO 3.2.
La siguiente tabla representa las distancias x, en metros, a un filón y el porcen-
taje, y, de mena encontrado en 15 fragmentos de roca arrastrados por la corriente de
un río.
x 340 450 610 650 670 700 810 920 1020 1130 1210 1240 1260 1290 1370
y 67,0 68,0 68,5 70,0 71,0 71,2 71,3 71,3 71,4 71,3 71,5 71,9 72,0 72,1 72,5
Sxy
y−y = (x − x )
Sx2
122 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
13.670 1.061
x= . 911, 3 y= . 70, 7
15 15
15
∑ xi2 2 14.001.700 13.670
2
Sx2 = i =1
−(x) = − . 102.918, 2
15 15 15
15
∑ yi2 2 75.085, 24 1.061
2
Sy2 = i =1
− (y) = − . 2, 48
15 15 15
Sx . 320, 8 Sy . 1, 6
15
∑ xi yi 973.546 13.670 1.061
Sxy = i=1
−(x y) = − . 441, 4
15 15 15 15
Sxy 441, 4
r= = . 0, 8741 ⇒ r 2 = 0, 7640
Sx Sy (320, 8) (1, 6 )
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 123
441, 4
y − 70, 7 = ( x − 911, 3)
102.918, 2
es decir,
y = 0, 004 x + 66, 8
El coeficiente de correlación lineal es 0,8741 y el de determinación lineal es
0,7640, que significa que el 76,40% del porcentaje de mena de los fragmentos de
roca viene explicado por la distancia al filón.
EJEMPLO 3.3.
Se ha observado que la presencia en el suelo de iones Al3+ es responsable de su
acidez de cambio, Ac C. El aluminio residual que contribuye a la acidez de cambio
se denomina Al C, aluminio de cambio.
En la siguiente tabla se recogen los valores de Al C, fracciones medidas en mi-
liequivalente por cada 100 g de suelo, meq/100g, y de Ac C, pH, correspondientes a
quince observaciones en la Sierra de Guadarrama:
AlC 0,99 0,03 0,03 1,65 1,32 3,52 5,39 0,61 0,50 0,44 3,62 1,43 2,64 2,09 0,61
AcC 1,13 0,26 0,36 2,26 2,50 4,40 6,71 1,87 0,88 3,52 4,51 1,98 3,12 3,54 0,91
15 15
∑ yi2 = 141, 2321; ∑ xi yi = 98, 2988
i =1 i=1
124 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Gráfico de Ac C frente a Al C
Ac C
4
0
0 1 2 3 4 5 6
Al C
FIGURA 3.14. Nube de puntos correspondiente a los datos del Ejemplo 3.3.
De donde
2, 3585
La recta de regresión de y sobre x es y − 2, 53 = ( x − 1, 66), simplificando
2, 2220
y = 0, 77 + 1, 06 x
Se calcula ahora el coeficiente de determinación para ver la calidad del ajus-
te de esta recta a la nube de puntos
Sxy2 2, 35852
r2 = = = 0, 8304
Sx2 Sy2 ( 2, 2220 ) (3, 0146 )
El coeficiente de correlación es
r = 0, 8304 = 0, 9113
por ser este valor próximo a la unidad el ajuste de la recta de regresión a la nube
de puntos es muy bueno.
El valor del coeficiente de determinación indica que el 83,04% de la variabi-
lidad de la acidez de cambio se puede explicar por la presencia en el suelo del alu-
minio de cambio.
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 125
La recta de regresión permite valorar la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100g
( yˆ ) x =5 = 0, 77 + (1, 06) 5 = 6, 07
( yˆ ) x =6 = 0, 77 + (1, 06 ) 6 = 7, 13
Para el valor de 5 meq/100g se obtiene un pH ligeramente ácido y para 6
meq/100g un valor del pH casi neutro. De los dos valores obtenidos es más fiable
el primero porque el valor de x = 5 está comprendido entre los recogidos en la ta-
bla, es una interpolación, mientras que el valor para x = 6 es una extrapolación.
EJEMPLO 3.4.
Se han medido, en cm, los diámetros, x, de cien árboles a 1,30 m del suelo, es
decir, los diámetros normales, y las alturas, y, en metros de estos árboles. Los re-
sultados obtenidos después de agrupar en clases son:
y
[5,7) [7, 9) [9, 11) [11, 13) [13, 15) [15, 17) [17, 19)
x
[20, 30) 1 1 0 0 0 0 0
[30, 40) 2 10 8 5 0 0 0
[40, 50) 0 1 14 13 15 1 0
[50, 60) 0 0 3 9 6 5 0
[60, 70) 0 0 0 1 2 2 1
126 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Calcular:
a) Las medias y desviaciones típicas de las distribuciones marginales.
b) La covarianza.
c) La media y la desviación típica para la distribución de alturas condicionadas
a un diámetro normal de 55 cm.
d) La media y la desviación típica para la distribución de diámetros normales
condicionada a una altura de 16 m.
e) La ecuación de la recta de regresión de y (alturas) sobre x (diámetros)
f) Los coeficientes de correlación y de determinación de x e y.
25 2 –2 –4 8
35 25 –1 –25 25
45 44 0 0 0
55 23 1 23 23
65 6 2 12 24
Totales n =100 6 80
Para la variable x:
xi − 45
Siendo ui = ⇒ xi = 45 + 10 ui
10
5
∑ ui ni• 6
i =1
u= = = 0, 06; x = 45 + 10 u = 45, 6 cm
n 100
5
∑ ui2 ni• 80
Su2 = i =1
− u2 = − (0, 06) 2 = 0, 7964 ⇒ Su = 0, 7964 = 0, 8924
n 100
Análogamente para y:
y j − 12
Siendo v j = ⇒ y j = 12 + 2v j
2
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 127
6 3 –3 –9 27
8 12 –2 –24 48
10 25 –1 –25 25
12 28 0 0 0
14 23 1 23 23
16 8 2 16 32
18 1 3 3 9
7
∑ v j n• j
j =1 −16
v= = = −0, 16; y = 12 + 2v = 11, 68 m
n 100
7
∑ v 2j n• j
j =1 164
sv2 = − v2 = − (−0,16)2 = 1, 6144 ⇒ Sv = 1, 6144 = 1, 2706
n 100
Sy2 = 22 Sv2 = 6, 4576 y Sy = 2Sv = 2, 5412
yj 6 8 10 12 14 16 18
vj 7 7
xi –3 –2 –1 0 1 2 3 ∑ v j nij ui ∑ v j nij
ui j= 1 j= 1
–3 –2 0 0 0 0 0
25 –2 –5 10
1 1 0 0 0 0 0
–6 –20 –8 0 0 0 0
35 –1 –34 34
2 10 8 5 0 0 0
0 –2 –14 0 15 2 0
45 0 1 0
0 1 14 13 15 1 0
0 0 –3 0 6 10 0
55 1 13 13
0 0 3 9 6 5 0
0 0 0 0 2 4 3
65 2 9 18
0 0 0 1 2 2 1
75
128 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
5 7
∑ ui ∑ v j nij
i =1 j =1 75
Suv = ( m11 )uv = −u v = − ( 0, 06)(−0, 16) = 0, 7596
n 100
Sxy = 20 Suv = 15,1920 cm m
c)
[5, 7) 0 6 0 0
[7, 9) 0 8 0 0
[9, 11) 3 10 30 300
[11, 13) 9 12 108 1.296
[13, 15) 6 14 84 1.176
[15, 17) 5 16 80 1.280
[17, 19) 0 18 0 0
7
∑ y j n4 j
j =1 302
y / ( x = 55) = = = 13,1304 m
n4• 23
7
∑ y2j n4 j
j =1 4.052
Sy2/( x=55) = − ( y / ( x = 55)) 2 = − (13, 1304) 2 = 3, 7665 ⇒
n4• 23
d)
[20, 30) 0 25 0 0
[30, 40) 0 35 0 0
[40, 50) 1 45 45 2.025
[50, 60) 5 55 275 15.125
[60, 70) 2 65 130 8.450
n•6 = 8 450 25.600
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 129
5
∑ xi ni 6 450
i=1
x / ( y = 16) = = = 56,25 m
n•6 8
5
∑ xi2 ni 6 25.6000
Sx2/( y=16 ) = i =1
− ( x / ( y = 16)) 2 = − (56, 25)2 = 35, 9375 ⇒
n•6 8
15, 1920
y − 11, 68 = ( x − 45, 6) ⇔ y − 11, 68 = 0, 1908( x − 45, 6)
79, 64
15, 1920
rxy = = 0, 6699
(8, 924) (2, 5412)
0, 7596
ruv = = 0, 6699 = rxy
(0, 8924)(1, 2706)
y el de determinación es:
2
2
Sxy2 15, 1920
r = 2 2 = = 0, 4488
Sx Sy ( 8, 924 ) ( 2, 5412)
xy
ln y = ln a + x ln b
Llamando z = ln y; A = ln a; B = ln b se tiene z = A + Bx .
Por tanto, calculando los valores de z = ln y se determina la ecuación de la rec-
ta de regresión de z sobre x. Se obtienen así los valores de A y B.
Como A = ln a ⇒ a = e A y B = ln b ⇒ b = e B ya se tienen los valores de a y b
y con ellos la línea de regresión exponencial.
Se utilizan, como se ha explicado, los valores originales de x y el logaritmo
neperiano de los de y, es decir, z = ln y. Por esta razón, a esta transformación se le
denomina semilogarítmica.
Si se dibujan los valores de la variable bidimensional en papel semilogarít-
mico, con escala logarítmica en el eje de ordenadas y escala ordinaria en el de
abscisas, la gráfica de y = abx es una línea recta.
Lógicamente sólo se puede ajustar una curva exponencial si la variable y
sólo toma valores positivos.
Un caso particular de regresión exponencial es la de ecuación y = aemx.
Tomando logaritmos neperianos en los dos miembros:
ln y = ln a + mx
Llamando z = ln y; A = ln a; se tiene z = A + mx.
Se calcula la ecuación de la recta de regresión de z sobre x, el coeficiente de x
será el valor de m buscado y el valor de a se obtiene del valor de A = ln a ⇒ a = eA.
Ejemplos de este tipo de ajuste son:
EJEMPLO 3.5.
La siguiente tabla representa la medida, en mm, de la longitud, la anchura y el
espesor de una muestra de braquiópodos.
y = 1, 1952 x − 0, 7390
y = 1,1489x – 3,6571
ln y = ln a + x ln b
z = 1,5305 + 0,0894x
De donde
y = 4, 62 ⋅1, 04 x
1
(ax + b) y = 1 ⇒ = ax + b
y
1
Llamando z = se obtiene una recta de regresión, por tanto los valores de y
y
deben ser todos distintos de cero.
Esa recta da directamente los valores de a y b que determinan la curva.
x
Para ajustar una curva del tipo: y = teniendo en cuenta que:
kx + m
1 kx + m 1 1
= ⇔ =k+m
y x y x
1 1
llamando u = y v = tenemos la ecuación de una recta, siempre que los valores
y x
de las variables x e y sean todos distintos de cero.
Calculando la ecuación de la recta de regresión de u sobre v se obtienen di-
rectamente los valores de k y m buscados.
136 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
y = b0 + b1 x + b2 x 2 + ... + bm x m
los coeficientes de esa ecuación se determinan con la condición de que sea míni-
ma la suma:
n n 2 n 2
U = ∑ δ i2 = ∑ yi − yi∗
i =1 i =1
( ) (
= ∑ yi − b0 − b1 x − b2 x 2 − .... − bm x m
i=1
)
es decir, resolviendo el sistema de (m +1) ecuaciones que se obtienen igualando a
cero las derivadas parciales de S respecto de los (m +1) coeficientes a determinar.
Estas ecuaciones reciben el nombre de ecuaciones normales.
n n 2 n 2
U = ∑ δ i2 = ∑ yi − yi∗
i =1 i =1
( ) (
= ∑ yi − b0 − b1 xi − b2 xi2
i=1
)
Las condiciones necesarias para que esta suma sea mínima son:
∂U ∂U ∂U
= 0, =0 y =0
∂b0 ∂b1 ∂b2
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 137
Por tanto:
∂U n n
= 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi2 ( −1) = 0 ∑ yi − b0 − b1 xi − b2 xi2 = 0
( ) ( )
∂b0 i =1
i=1
∂U n n
( ) (
= 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi ( − x i ) = 0 ⇒ ∑ xi yi − b0 xi − b1 xi − b2 xi = 0 ⇒
2 2 3
)
∂b1 i =1 i =1
∂U n n
( )( ) 2 2
( 3 4
= 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi2 − xi2 = 0 ∑ xi yi − b0 xi − b1 xi − b2 x i = 0
)
∂b2 i=1 i=1
n n n n
n n n
∑ yi − ∑ b0 − ∑ b1 x i − ∑ b2 xi2 = 0 ∑ yi = b0 n + b1 ∑ xi + b2 ∑ xi2
i =1 i =1 i =1 i =1 i =1 i =1 i =1
n n n n
n n n n
⇒ ∑ x i yi − ∑ b0 xi − ∑ b1 xi2 − ∑ b2 xi3 = 0 ⇒ ∑ xi yi = b0 ∑ xi + b1 ∑ x i2 + b2 ∑ xi3
i=1 i =1 i =1 i =1 i=1 i =1 i =1 i =1
n n n n n n n n
2 2 3 4 2 2 3 4
∑ xi yi − ∑ b0 x i − ∑ b1 xi − ∑ b2 x i = 0 ∑ xi yi = b0 ∑ xi + b1 ∑ xi + b2 ∑ x i
i=1 i =1 i =1 i =1 i =1 i =1 i =1 i =1
El sistema de ecuaciones
n n n
i=1 ∑ y i = b0 n + b1 ∑ x i + b2 ∑ xi2
i =1 i =1
n n n n
2 3
∑ x i yi = b0 ∑ x i + b1 ∑ xi + b2 ∑ xi
i =1 i =1 i = 1 i = 1
n 2 n n n
∑ x i yi = b0 ∑ xi2 + b1 ∑ x i3 + b2 ∑ xi4
i=1 i =1 i =1 i =1
n 2
∑ ( yi − yi∗ ) n 2
i=1
n
∑ ( yi − ( b0 + b1 xi + b2 xi2 ) )
R2 = 1 − n
= 1− i=1
n
=
2 2
∑ ( yi − y ) ∑ ( yi − y )
i=1
n i =1
n n
n 2
∑ ( yi − b0 − b1 xi − b2 xi2 )
i=1
= 1−
n 2
yi
∑
n i =1 − y 2
n
n 2
∑ ( yi − b0 − b1 xi − b2 xi2 )
R2 = 1 − i=1
n 2
∑
yi
n i =1 − y 2
n
EJEMPLO 3.6.
En un estudio de los sedimentos de un estuario se ha observado que al aumen-
tar la profundidad el contenido en agua resultante de drenar los sedimentos dismi-
nuye. Se ha obtenido la siguiente tabla de datos.
x 0,0 0,3 0,5 0,7 1,0 1,3 1,5 1,7 2,0 2,3 2,5 2,7 3,0 3,3 3,5
y 10,0 9,5 9,0 8,5 8,0 7,3 7,0 6,7 6,3 5,8 5,5 5,3 5,0 4,8 4,5
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 139
10,5
Contenido de agua
9,5
8,5
7,5
6,5
5,5
4,5
0 1 2 3 4
Profundidad (m)
n n
i=1 ∑ yi = an + b ∑ xi
i =1
n n n
∑ xi yi = a∑ xi + b ∑ x i2
i =1 i =1 i=1
Organizando los datos en una tabla se calculan con facilidad los coeficientes
del sistema, como se observa a continuación.
Las dos primeras columnas recogen los datos, la tercera y la quinta están for-
madas por los cuadrados de los valores de la primera y segunda columna, res-
pectivamente y la cuarta por los productos de las dos primeras. En la última fila se
reflejan los totales de cada una de las columnas:
140 ESTADÍSTICA APLICADA, UNA VISIÓN INSTRUMENTAL
y = 9, 6 − 1, 6 x
como es muy próximo a la unidad, indica que el ajuste es muy bueno. El 97,96%
de la variación del porcentaje de agua se puede explicar por la profundidad.
El coeficiente de correlación es
Sxy
r= = −0, 9898
Sx ⋅ Sy
15
∑ 26,3 103,2 63,63 173,267 503,4267 153,27 344,011
i=1
142 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
n n n
∑
i =1 iy = b 0 n + b1 ∑ x i + b 2 ∑ xi2
i =1 i =1
n n n n
2 3
∑ xi yi = b0 ∑ x i + b1 ∑ x i + b2 ∑ x i
i =1 i =1 i=1 i =1
n 2 n
2
n
3
n
∑ x
i=1 i i y = b 0 ∑ x i + b 1 ∑ x i + b 2 ∑ x i4
i =1 i=1 i=1
y = 10,1 − 2, 4 x + 0, 2 x 2
15 2
∑ ( yi − yi∗ ) 15 2
i =1
∑ ( yi − b0 − b1 xi − b2 xi2 ) 0, 0511
R2 = 1 − 15 = 1− i=1
= 1− = 0, 9989
15 2 15 2
∑ ( yi − y ) ∑ yi2 − 15 y 2 103, 2
754, 64 − 15
i =1 i =1 15
15
x 6 8 10 15 20 21 15 31 23 22
y 10 15 16 21 28 11 24 42 13 12
3.10.3. ¿Pueden ser y = 15x – 17 y x = –3y + 21 el resultado del cálculo de las rectas
de regresión de una distribución bidimensional?
3.10.4. Para una distribución bidimensional ¿son compatibles los siguientes valores:
Sx2 = 16, Sy2 = 49, Sxy = 624 y r = 0,88?
Gasto elect.
65 80 100 150 300
€/mes
Ingresos
1.000 1.500 1.600 2.100 3.700
€/mes
5x + 3y = 1 y x + 2y = 3
3.10.7. Se han cortado treinta árboles de la misma especie. Las edades en años, x, y
los diámetros máximos correspondientes, y, en cm están recogidos en la siguiente ta-
bla de frecuencias de la variable bidimensional (x, y):
y
5 6 10 12 15
x
20 1 2 1 0 0
30 0 1 4 0 0
40 0 1 6 4 0
50 0 0 2 7 1
Se pide:
a) Calcular las medias y varianzas marginales.
b) Hallar la covarianza.
c) Determinar la ecuación de la recta de regresión de los diámetros máximos so-
bre las edades.
d) Los coeficientes de determinación y de correlación.
Estad.
[0, 5) [5, 7) [7, 9) [9, 10]
Matem.
[0, 5) 29 4 6 8
[5, 7) 67 83 52 42
[7, 9) 31 60 42 25
[9, 10] 7 8 15 21
Se pide:
a) El número de alumnos que tienen calificación entre 7 y 9 en matemáticas.
b) El número de alumnos con calificación entre 0 y 5 en estadística.
c) El número de alumnos que tienen calificación entre 5 y 7 en matemáticas y
entre 7 y 9 en estadística.
d) La frecuencia relativa de los alumnos con calificación más baja en matemá-
ticas entre los que tienen calificación más alta en estadística.
e) Calcular las medias marginales de las calificaciones de matemáticas y esta-
dística y las correspondientes desviaciones típicas.
f) ¿Qué notas tienen mayor dispersión?
g) Calcular la covarianza.
h) Hallar la ecuación de la recta de regresión de y sobre x.
i) Calcular el coeficiente de correlación lineal.
146 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Temp. media °C 25 21 28 31 30 26 12 18
N.o de helados
330 320 635 790 710 480 210 260
vendidos
3.10.10. En la tabla siguiente se recoge información para 200 empleados sobre su sa-
lario mensual y los días de ausencia en un año:
Días de
ausencia [1, 10) [10, 20) [20, 30) [30, 40) [40, 50)
Ingresos
[1.000, 1.500) 25 40 20 13 3
[1.500, 2.000) 12 17 12 7 2
[2.000, 2.500) 20 6 14 8 1
Se pide:
a) Dar la distribución marginal correspondiente al ingreso entre 2.000 y 2.500 €
al mes, su media y su desviación típica.
b) La distribución marginal para el número de días de ausencia de 10 a 20 días
y también la correspondiente media y la desviación típica.
c) Las medias marginales de x y de y, sus desviaciones típicas y la covarianza.
d) El coeficiente de determinación lineal. ¿Es bueno el ajuste de una recta de re-
gresión a la nube de puntos de esta distribución bidimensional?
x Gasto
0,5 6,0 5,0 0,0 5,5 1,5 2,5 4,0 2,0 4,0
1.er mes
y Gasto
0,0 5,5 5,5 0,8 5,0 1,5 0,0 5,0 1,0 3,0
2.o mes
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 147
Se pide:
a) Calcular el gasto medio y la varianza de cada mes, la covarianza y el coefi-
ciente de correlación lineal.
b) ¿Hay dependencia lineal entre el gasto de los dos meses?
c) Determinar la recta de regresión de y sobre x
d) Dar la recta de regresión de x sobre y
e) Para un gasto de 3,6 € en el primer mes, ¿qué gasto se podría esperar en el
segundo?
f) Para un gasto de 4,5 € en el segundo mes, ¿qué gasto esperado habrá tenido
en el primero?
3.10.12. Para controlar la eficacia de cierto pesticida se prueban sus efectos en 10 ro-
sales. El porcentaje de hojas enfermas antes del tratamiento, x, y el porcentaje de ho-
jas enfermas pasado un año de tratamiento y, para los 10 rosales son los siguientes:
x 50 40 70 90 40 60 80 80 50 70
y 30 10 45 60 5 25 40 50 20 30
t 2 4 6 8 10 12 14
N 19 37 72 140 295 584 990
Ajustar una curva de la forma N = a · ebt para el crecimiento del cultivo y expli-
car si es bueno el ajuste.
y
[16,5; 17,5) [17,5; 18,5) [18,5; 19,5) [19,5; 20,5) [20,5; 21,5)
x
[14,5; 15,5) 1 1 0 0 0
[15,5; 16,5) 0 2 1 0 0
[16,5; 17,5) 0 1 4 2 0
[17,5; 18,5) 0 0 1 3 4
148 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Se pide calcular:
a) Las medias y desviaciones típicas marginales.
b) La covarianza.
c) La ecuación de la recta de regresión de las alturas medias sobre las alturas
dominantes.
d) Los coeficientes de determinación y de correlación. ¿Es bueno el ajuste?
Ajustar una curva de la forma indicada por el método de los mínimos cuadrados.
Se pide:
a) Ajustar una curva de la forma x = a · yb y dar una medida de la correlación
entre las variables.
b) ¿Qué peso se espera que tendrá una balda de 130 cm de longitud y de la mis-
ma anchura que los anteriores? Ídem para una balda de 170 cm. ¿cuál de las
dos predicciones es la más fiable? ¿Por qué?
x 2.500 2.800 4.500 6.100 6.500 12.000 30.500 45.000 60.000 75.000 80.000
y 8 9 10 9 10 11 15 17 16 17 16
x años 1 2 3 4 5 6
y 46 66 94 133 189 273
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 149
Se pide:
a) Ajustar una curva de mínimos cuadrados de la forma y = a · bx y explicar si
es bueno el ajuste.
b) Estimar el número de efectivos de la población al cabo de 7 años y a los 4
años y medio.
t meses 0 2 4 6 8 10 12 14
n n.o indiv. 2 5 16 20 40 100 200 320
xi 7 11 16 18 20 22
yi 15 27 45 75 95 96
3.10.22. Los beneficios de cinco grandes bancos, en millones de euros, desde el año
2002 al 2007 se reflejan en la siguiente tabla:
Tiempo en años x 1 2 3 4 5 6
Beneficios y 8.701 9.898 11.002 11.598 13.875 15.350
Ajustar a los datos una parábola de segundo grado, por el método de mínimos
cuadrados, y dar una medida del grado de ajuste.
3.10.23. En la siguiente tabla se recogen las rentas, en miles de euros, en cinco años
consecutivos:
Años t 1 2 3 4 5
Rentas R 14 15 18 24 38
Se pide:
a) Ajustar a estos datos el modelo de Harrod-Domar: Rt = R0 · eat, en el que Rt
representa la renta en el periodo t, R0 la renta inicial, a es una constante y la
variable t representa el tiempo en años. Dar una medida del grado de ajuste.
b) Determinar la renta inicial.
c) ¿Cuál sería la renta estimada para el sexto año?
x años 1 2 3 4 5 6 7 8
y 34,4 46 77,4 125,6 135,8 199,7 261,4 418,2
Se pide:
a) Ajustar a los datos una función de la forma y = k · edx y dar el valor de la tasa
de crecimiento de la madera.
b) Dar una medida de la correlación. ¿Es satisfactorio el ajuste? ¿Por qué?
3.10.25. Se han pesado por un lado los cuerpos, x, de seis centollos sin pinzas y por
otro lado sus pinzas respectivas, y. Los pesos, en gramos, se recogen en la siguiente
tabla:
x 1 3 7 9 10 13 19 21
y 170 150 63 52 25 15 7 3
Se pide ajustar a estos datos una curva de regresión potencial y = a · xm. ¿Es bue-
no el ajuste?
3.10.28. En una zona boscosa regular se han medido las alturas totales, en metros, de
ocho árboles y sus diámetros normales, diámetro a 1,30 m del suelo, en centímetros.
Los datos obtenidos son los siguientes:
xm 9 10 15 20 25 34 45 50
y cm 7 9 11 12,7 16 18 20 18
Ajustar a esos datos una parábola de segundo grado y = ax2 + bx + c y dar una
medida del grado de ajuste.
Segunda parte
Probabilidad.
Distribuciones de probabilidad
Probabilidad
4
4.1. INTRODUCCIÓN
La segunda parte del libro está dedicada a la probabilidad y a los modelos de
probabilidad discretos y continuos, que nos permitirá abordar en la tercera parte la
inferencia estadística: estimación y contrastes de hipótesis. Se comienza estu-
diando la probabilidad y los modelos de probabilidad discretos y a continuación se
presentan los modelos de probabilidad continuos.
La orientación del tema de probabilidad se hará desde el punto de vista clási-
co, sin entrar en el enfoque bayesiano.
Decidir si se perfora o no un pozo de agua en un terreno, aceptar enfrentarse
o no a un rival en una partida de ajedrez, invertir en acciones que cotizan en la
Bolsa de Madrid y ganar a final de año, tener éxito en un negocio o en una em-
presa de nueva creación, estimar la proporción de mineral aprovechable en una
mina en explotación a partir del examen de una muestra, tener un hijo sano un
matrimonio en el que uno de los progenitores es portador de una enfermedad, etc.,
son situaciones en las que el resultado está sujeto a incertidumbre, como también
lo son: obtener suma ocho al lanzar dos dados sobre una mesa, la nota media de
un grupo de quince alumnos en un examen de estadística, acertar la cifra de las
unidades del primer premio de la Lotería Nacional del próximo sorteo, acertar el
caballo ganador de una carrera, etc.
En situaciones como las anteriores y en muchas más, en las que la decisión com-
porta un riesgo, el tener información sobre la probabilidad del resultado en el que se está
interesado conduce a acertar más veces que si no se tiene en cuenta esta información.
El concepto de probabilidad tiene su origen a mediados del siglo XVII en la co-
rrespondencia entre Blaise Pascal (1623-1662) y Pierre de Fermat (1601-1665),
con un problema propuesto a Pascal por el Caballero de Méré, jugador francés
profesional que intentaba lograr superioridad en el juego con dados. El problema
propuesto es el siguiente: ¿Es más fácil obtener al menos un as al lanzar cuatro
dados o por lo menos un par de ases en veinticuatro lanzamientos de un par de da-
155
156 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
dos? Unos años después, en 1657, Christian Huygens (1629-1695) publicó el pri-
mer texto de probabilidad titulado De Ratiociniis in Ludo Aleae, es decir, Sobre
los juegos de azar, un tratado en el que se introduce el concepto de grados de pro-
babilidad. No se puede olvidar la influencia de Gottfried Wilhelm Leibniz (1646-
1716) filósofo, físico y matemático alemán de repercusión universal; su amistad
con Huygens, Pierre R. de Montmort (1678-1719), Jacques Bernoulli (1654-
1705) y Nicolas Bernoulli (1662-1716) inspiró los trabajos de estos en la
formalización de la probabilidad. El pensamiento de Séneca: «Rationes non esse
numerandas sed ponderandas» («Las razones no deben ser numeradas, o contadas,
sino ponderadas») le lleva a intentar descubrir toda la verdad posible que
encierran los datos, a determinar al menos su grado de probabilidad. Dice Leibniz
en 1679 «Si, como hacen los geómetras, ordenamos y demostramos los
principales axiomas y si las experiencias estuvieran bien ordenadas y ligadas
con los axiomas, creo que podríamos distinguir lo verdadero, lo probable y lo
dudoso, y en las materias en que no se puede rebasar la probabilidad, bastaría con
demostrar el grado de probabilidad y hacer ver de qué lado debe inclinarse
necesariamente la balanza de las apariencias». Aquí está el germen de la teoría de
la probabilidad. En 1713 apareció publicada póstumamente la obra de Jacques
Bernoulli Ars Conjectandi o El arte de la conjetura, que se considera la primera
gran obra sobre probabilidad.
El origen de la teoría de la probabilidad está relacionado con problemas de in-
genio atractivos como los juegos de azar o pasatiempos. Con la influencia del cál-
culo, de la geometría y otras ramas de las matemáticas, se desarrolla la nueva te-
oría, beneficiándose de las ya existentes y aportando nuevos puntos de vista
útiles para afrontar nuevos retos. Más tarde, aparecen las aplicaciones en la propia
matemática y también otras de interés en la ciencia o en la técnica. En la actuali-
dad se utiliza en genética, física, medicina, meteorología, zoología, ecología,
epidemiología, petrología, geoquímica, técnica, sociología, psicología, pedagogía,
etc. Incluso es un término frecuente en nuestro lenguaje coloquial.
Entre las múltiples aplicaciones que podríamos citar de la teoría de la proba-
bilidad y de los procesos estocásticos, basados en ella destacamos tres: el estudio
del tráfico en las autopistas, es decir, en recorridos en que los vehículos circulan
en un solo sentido; la estereología, conjunto de métodos que tratan de la deter-
minación de estructuras tridimensionales a partir del conocimiento de secciones
bidimensionales o proyecciones sobre planos, que se desarrolló a partir de 1961 y
se aplica en metalurgia y mineralogía para averiguar la composición de aleacio-
nes, rocas o minerales a partir de secciones planas, en botánica en el estudio de los
tejidos de las maderas a partir de cortes planos, etc., y la tomografía axial com-
puterizada por rayos X, TAC, que es fruto de los progresos de la electrónica y de
las investigaciones en estadística, física e ingeniería con uso innovador en medi-
cina y que permite la reconstrucción del interior del cuerpo humano, indicando la
posición de cada punto en el espacio y la densidad de su materia. Mediante este
método se localizan irregularidades o tumores. Tomografía es un término deri-
vado de la palabra griega tomos, que significa corte o sección.
PROBABILIDAD 157
EJEMPLOS
1. Un geólogo que recoge muestras de rocas sedimentarias en el campo y las
clasifica según el tamaño modal del sedimento: grosero (G), medio (M), fino (F) o
muy fino (MF); el espacio muestral es: E = {G, M, F, MF}.
2. Un biólogo observa el fenotipo de la primera generación filial resultante del
cruce de dos individuos heterocigóticos respecto de un carácter diploide con domi-
nancia completa; el espacio muestral es: E = {A (dominante), a (recesivo)}. Si se
observa el genotipo, entonces el espacio muestral sería E = {AA, Aa, aa}.
3. Se lanzan dos dados distinguibles y se observan los números obtenidos en
cada uno de ellos. El espacio muestral está formado por todos los pares (a, b), sien-
do a, b ∈{1, 2, 3, 4, 5, 6}. Es el conjunto de las variaciones con repetición de orden
dos formadas con los elementos del conjunto A = {1, 2, 3, 4, 5, 6}, es decir, el es-
pacio muestral está formado por los treinta y seis pares siguientes:
158 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
9. Se lanza una moneda tantas veces como sea necesario hasta obtener la pri-
mera cara y se anotan los resultados obtenidos. El espacio muestral es:
E = {C, XC, XXC, XXXC, …}
Para definir la probabilidad hay que conocer el álgebra de sucesos del expe-
rimento aleatorio.
¿Qué se entiende por álgebra de sucesos y qué es suceso en estadística?
1. E ∈A.
2. S∈ A ⇒ S∈ $ A.
3. S1, S2∈ A ⇒ S1 ∪ S2∈A.
(
S1 ∩ S2 = S1 ∪ S2 )
y por las propiedades 2 y 3 del álgebra también S1 ∩ S2 ∈A, es decir, toda álgebra
es además cerrada respecto de la formación de intersecciones finitas.
Suceso elemental es un suceso que es subconjunto unitario del espacio mues-
tral E. Los sucesos elementales no se pueden descomponer en otros más simples.
Un suceso que no es elemental se dice que es compuesto.
Si A y B son dos sucesos correspondientes a un mismo experimento aleatorio,
se llama suceso unión de A y B, y se escribe A ∪ B al suceso que se verifica si se
verifica A o se verifica B o se verifican ambos a la vez, es decir, se verifica A ∪ B
si se verifica al menos uno de los dos sucesos.
El suceso intersección de A y B, se escribe A ∩ B, y es el suceso que se veri-
fica si se verifican simultáneamente A y B. n
La unión de los sucesos A1, A2, …, An, se escribe U Ai y es el suceso que se
verifica si se verifica al menos uno de los Ai. i =1
n
La intersección de los sucesos se escribe I Ai y es el suceso que se verifica si
se verifican todos los Ai a la vez. i =1
EJEMPLO 4.1.
En los sorteos ordinarios de la Lotería Nacional el conjunto de las extracciones
posibles en el bombo de las unidades es E = {1, 2, 3, 4, 5, 6, 7, 8, 9, 0} que es el es-
pacio muestral del experimento que consiste en extraer una bola del bombo de las
unidades y anotar el resultado. Para el álgebra formada por todos los subconjuntos
de E, es decir, P (E), un posible suceso es «obtener cifra impar», esto es, S = {1, 3,
5, 7, 9} y el 5 es un punto muestral que no es {5}, pues este subconjunto unitario se-
ría un suceso elemental. Si se extrae un 4 no se verifica el suceso S, sí se verifica
cuando se extrae una cifra impar.
Si una persona juega diez décimos y todos con distinta cifra de las unidades para
un sorteo, entonces es seguro que obtiene premio, al menos tres reintegros, el que
coincida con la cifra de las unidades del primer premio y los dos reintegros especiales.
Si una persona no juega ningún décimo para el sorteo es imposible que obtenga
ningún premio, su suceso sería ∅.
Si juega décimos terminados en 1, 3, 5, 7 le son favorables las cifras del suceso
–
S = {1, 3, 5, 7}y no las de S = {2, 4, 6, 8, 9, 0}.
Si es A = {0, 1, 2} y B = {2, 4, 6} es A ∪ B = {0, 1, 2, 4, 6} y A ∩ B = {2}.
Los sucesos A y B son compatibles.
En cambio si S1 = {1, 2, 3} y S2 = {7, 8} es S1 ∩ S2 = ∅ y por tanto son incom-
patibles.
Un suceso y su contrario son siempre incompatibles.
( )
fr A = 1 − fr ( A )
fr ( A ∪ B) = fr ( A ) + fr ( B)
fr ( A ∪ B) = fr ( A ) + fr ( B) − fr ( A ∩ B)
n1
fr ( B A ) =
n1 + n2
n1 n1 + n2 n1
fr ( A ∩ B) =
n
=
n
·
n1 + n2
( )
= fr ( A ) · fr B A
n1 n1 + n3 n1
fr ( A ∩ B) =
n
=
n
·
n1 + n3
( )
= fr ( B) · fr A B
Es decir, los fenómenos aleatorios de manera aislada son imprevisibles pero pre-
sentan regularidades estadísticas cuando se repiten un número elevado de veces.
Richard von Mises (1883-1953), admitiendo como hipótesis la Ley del azar,
dio la primera definición de probabilidad del siguiente modo:
nA
P( A) = lim fr ( A ) = lim
n→ ` n→` n
Regla de Laplace
Si E es el espacio muestral de un cierto experimento aleatorio, que es finito y
se puede considerar unión de n sucesos incompatibles dos a dos y equiprobables,
dado un suceso S que sea la unión de m de los sucesos elementales de E,
n m
E = U Si y S = U Si
i =1 i =1
m
entonces P ( S ) = .
n
n n
P U Ai = ∑ P ( Ai )
i=1 i =1
P U Ai = ∑ P ( Ai )
i∈I i∈I
Los axiomas elegidos para espacios muestrales finitos establecen a nivel for-
mal los aspectos más esenciales contemplados en la ley del azar, y se observa un
paralelismo con las propiedades de las frecuencias relativas.
Se denomina espacio probabilístico a un espacio muestral E en el que se ha
definido una σ-álgebra A y sobre ella una probabilidad P. Se escribe (E, A, P).
Los elementos de una σ-álgebra A se dice que son medibles.
La probabilidad permite determinar distintos grados de incertidumbre desde
P(S) = 0, que significa que S es imposible, hasta P(S) = 1, es decir, que S se veri-
fica siempre. Para todos los demás casos es 0 < P(S) < 1. Cuanto más próximo a
la unidad esté el valor de P(S) la incertidumbre será menor, con más confianza se
apuesta a la obtención del suceso S en la realización del experimento.
Es conveniente observar que sobre un mismo espacio muestral se pueden de-
finir varias aplicaciones de probabilidad. Basta con que cada aplicación definida
cumpla los axiomas anteriores.
166 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 4.2.
Se cargan las bolas impares de un bombo, que contiene diez bolas nume-
radas del 0 al 9, de tal forma que las impares tienen doble probabilidad de sa-
lir que los pares. a) ¿Cuál es la probabilidad de que al extraer una bola se ob-
tenga cifra par? b) ¿Es la misma en un bombo en el que no hay ninguna bola
cargada?
1
5p + 5⋅ 2p = 1 ⇒ p =
15
1 1
P ({0, 2, 4, 6, 8}) = 5 · =
15 3
Propiedades de la probabilidad
A partir de los tres axiomas de la definición de probabilidad se pueden de-
mostrar con facilidad las siguientes propiedades:
–
1. Probabilidad del suceso contrario: P(S ) = 1 – P(S).
2. Probabilidad del suceso imposible: P(∅) = 0.
3. Si S1 ⊂ S2 entonces P(S1) ≤ P(S2).
4. Probabilidad de la unión de dos sucesos compatibles:
P ( S1 ∪ S2 ) = P ( S1 ) + P ( S2 ) − P ( S1 ∩ S2 )
P ( S1 ∪ S2 ∪ S3 ) = P ( S1 ) + P ( S2 ) + P ( S3 ) − P ( S1 ∩ S2 ) −
− P ( S1 ∩ S3 ) − P ( S2 ∩ S3 ) + P ( S1 ∩ S2 ∩ S3 )
PROBABILIDAD 167
n n
( )
P ∪ Si = ∑ P ( Si ) − ∑ P Si ∩ S j + ∑ P Si ∩ S j ∩ Sk −
i =1 i =1 i≠ j i ≠ j ≠k
( )
n
P ∩ Si
n+1
−... + ( −1)
i =1
n n
P U Si ≤ ∑ P ( Si )
i=1 i =1
— Lanzar un dado sin peso en ninguna de las caras y observar el número que
aparece en la cara superior.
— Extraer una bola de un bombo en el que hay cien bolas numeradas que tie-
nen el mismo tamaño y el mismo peso y anotar el número de la bola ex-
traída.
— Elegir una carta de un mazo nuevo de cuarenta cartas en el que ninguna
esté señalada, etc.
3 1
P ({1}) = P ({1, 3, 5}) = =
6 2
1
P ({2}) = P ({2}) =
6
2 1
P ({ X }) = P ({4, 6}) = =
6 3
EJEMPLO 4.3.
a) ¿Cuál es la probabilidad de que al lanzar un dado dos veces la suma de las
puntuaciones obtenidas sea seis? b) ¿Es la misma al lanzar tres dados?
E = VR6,3 = 63 = 216
De los sucesos elementales serán favorables para que la suma sea 6 aquellas
ternas cuyos elementos son: 1,1,4, o bien, 1,2,3, ó 2,2,2. En total:
PR32 ,1 + P3 + 1 = 3 + 6 + 1 = 10
PROBABILIDAD 169
P(S1 ) = =
10 5
. 0, 0463 que es menor que al lanzar dos dados.
216 108
Una buena ayuda para contar los casos favorables y los posibles en éste y en
muchos ejercicios de probabilidad es hacer uso de las fórmulas de combinatoria.
Para ver este tema con detalle, se puede consultar González Manteiga [24].
EJEMPLO 4.4.
¿Cuál es la probabilidad de que al lanzar tres monedas se obtenga al menos una
cruz?
i=0
exactamente i cruces», entonces el suceso S = «obtener al menos una cruz»
= U Si , pero no es cierto que P ( S ) = , al no ser los sucesos Si equiprobables
3
3
i =1 4
puesto que la probabilidad de que se verifique S1 = «obtener exactamente una
cruz» es mayor que la de que se verifique S3 = «obtener tres cruces». Sólo se ve-
rifica S3 si salen tres cruces seguidas, en cambio se verifica S1 si al lanzar las mo-
nedas se obtiene:
P ( S ) = P U Si =
3 7
i =1 8
170 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1 7
)
P ( S ) = 1 − P ( S = 1 − P ({CCC }) = 1 − =
8 8
EJEMPLO 4.5.
En un laboratorio hay muestras de 50 rocas endógenas y otras tantas rocas
exógenas, cada par de ellas (una endógena y otra exógena) están recogidas por un
alumno diferente y la muestra se identifica con un número del 1 al 50. Si se eligen al
azar dos de las cien muestras de roca del laboratorio, calcular la probabilidad de que
sean:
a) Dos endógenas.
b) Una de cada clase.
c) Las dos rocas que recogió el mismo alumno.
C50 ,2 49
P ( S1 ) = =
C100 ,2 198
C50,1 .C50 ,1 50
P ( S2 ) = =
C100,2 99
C50 ,1 1
P ( S3 ) = =
C100 ,2 99
fr ( A ∩ B) = fr ( A ) ⋅ fr ( B A )Ä Ä y Ä Ä fr ( A ∩ B) = fr ( B ) ⋅ fr ( A B )
PROBABILIDAD 171
fr ( A ∩ B) f ( A ∩ B)
fr ( B A ) = Ä Ä y Ä Ä fr ( A B ) = r
fr ( A ) fr ( B )
P( A ∩ B)
P ( B A) =
P ( A)
P( A ∩ S)
P ( S A) =
P ( A)
Se comprueba con facilidad que esta aplicación verifica los tres axiomas de
toda probabilidad.
P( A ∩ B)
P ( A B) =
P ( B)
P ( A ∩ B)
䊏 Si P ( A B ) = ≠ P ( A ) entonces P ( A ∩ B) ≠ P ( A ) ⋅ P ( B ) y en con-
P ( B)
P( A ∩ B)
secuencia P ( B A ) = ≠ P ( B) . En este caso se dice que los sucesos A y B
P ( A)
son dependientes, o también que A y B son sucesos estocásticamente dependientes.
172 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 4.6.
Al extraer una carta de una baraja española (40 cartas), ¿cuál es la probabilidad
de obtener un siete sabiendo que no es una figura?
P(S ∩ F ) 4 40 1 4 1
P (S F ) = = = ≠ P (S) = =
P(F) 28 40 7 40 10
por tanto los sucesos «sacar siete» y «no sacar figura» son dos sucesos depen-
dientes.
P( A ∩ B)
䊏 Si P ( A B) = = P ( A ) entonces P ( A ∩ B) = P ( A ) ⋅ P ( B) y por tanto
P ( B)
P ( A ∩ B)
P ( B A) = = P ( B) y se dice que los sucesos A y B son independientes o
P ( A)
estocásticamente independientes.
P ( A ∩ B) = P ( A ) ⋅ P ( B )
• Tres sucesos S1, S2 y S3, son independientes si y sólo si se verifican las cua-
tro igualdades siguientes:
P ( S1 ∩ S2 ) = P ( S1 ) ⋅ P ( S2 ) ,Ä Ä P ( S1 ∩ S3 ) = P ( S1 ) ⋅ P ( S3 )
P ( S2 ∩ S3 ) = P ( S2 ) ⋅ P ( S3 ) y también P ( S1 ∩ S2 ∩ S3 ) = P ( S1 ) ⋅ P ( S2 ) ⋅ P ( S3 )
• En general una colección finita de sucesos S1, S2, ..., Sn son independientes
si y sólo si se verifica:
( ) ( )
P Sk1 ∩ ... ∩ Sk j = P Sk1 ⋅ ... ⋅ P Sk j ( )
para 2 ≤ j ≤ n y 1 ≤ k1 < ... < k j ≤ n. En total hay que verificar que son ciertas
n n
∑ = 2n − n − 1 igualdades.
j=2 j
P ( S1 ∩ S2 ∩ S3 ) = P ( S1 ) ⋅ P ( S2 ) ⋅ P ( S3 )
3
El recíproco no es cierto, porque puede ocurrir que: P ( S1 ∩ S2 ∩ S3 ) = ∏ P ( S1 )
i =1
( ) ( )
y no verificarse P Si ∩ S j = P ( Si ) ⋅ P S j para algún ( i, j ) ∈{1, 2, 3} × {1, 2, 3} , i ≠ j.
EJEMPLO 4.7.
En el experimento de lanzar un dado y observar el número que aparece en la
cara superior al reposar sobre la mesa, ¿son independientes los sucesos:
S1 = «obtener cifra menor que 4», S2 = «obtener cifra menor que 3» y S3 = «ob-
tener cifra mayor que 1 y menor que 4»?
1 1 1
P ( S1 ∩ S2 ∩ S3 ) = P ({2}) = Ä y Ä P(S1 ) = , P(S2 ) = P(SS3 ) = ,
6 2 3
1 1
(
pero P ( S1 ∩ S2 ) = P {1, 2} = ) 3
≠ P(S1 ) · P(S2 ) = y en consecuencia no son in-
6
dependientes.
P( A ∩ B) = P ( A ) ⋅ P ( B A )
P ( A ∩ B ∩ C ) = P ( A ) ⋅ P ( B A ) ⋅ P (C A ∩ B)
En general:
( ) ( ) (
P ( S1 ∩ S2 ∩ ... ∩ Sn ) = P ( S1 ) ⋅ P S2 S1 ⋅ P S3 S1 ∩ S2 ⋅ ... ⋅ P Sn S1 ∩ S2 ∩ ... ∩ Sn−1 )
174 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 4.8.
Se extraen tres cartas sucesivamente y sin reemplazamiento de una baraja es-
pañola (40 cartas), ¿cuál es la probabilidad de que sean tres oros?
V10 ,3 10 ⋅ 9 ⋅ 8 3
P( S ) = = =
V40 ,3 40 ⋅ 39 ⋅ 38 247
( ) (
P ( O1 ∩ O2 ∩ O3 ) = P ( O1 ) . P O2 O1 .P O3 O1 ∩ O2 =)
10 9 8 3
= ⋅ ⋅ =
40 39 38 247
Se considera una colección de sucesos S1, S2,..., Sn que forman una partición
del espacio muestral E de un experimento aleatorio, es decir U Si = E y además
n
i=1
Si ∩ S j = ∅, para i ≠ j.
FIGURA 4.1.
PROBABILIDAD 175
n
P ( S ) = ∑ P ( Si ) ⋅ P ( S Si )
i=1
EJEMPLO 4.9.
En una estantería de una biblioteca hay dieciocho libros, ocho libros de botánica
y diez libros de paleontología; en otra hay nueve libros, cuatro de botánica y cinco
de paleontología. Se saca uno de la primera estantería y sin mirarlo se deja en la se-
gunda. Hallar la probabilidad de que un libro elegido al azar de la segunda estante-
ría sea de paleontología.
8 5 10 6 5
P ( S ) = P ( B) ⋅ P ( S B ) + P ( L ) ⋅ P ( S L ) = ⋅ + ⋅ =
18 10 18 10 9
Bi ∩ Bj = ∅, para i ≠ j. i =1
176 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Verosimilitudes
Probabilidades Probabilidades
o probabilidades
«a priori» «a posteriori»
de las causas
P(B1) P(S | B1) P(B1 | S)
M M M
P(Bn) P(S | Bn) P(Bn | S)
P( Bi ∩ S) P( Bi ) ⋅ P ( S Bi )
(
P Bi S = ) P( S )
= n
∑ P( Bi ) ⋅ P ( S Bi )
i =1
EJEMPLO 4.10.
Un zahorí con conocimientos de geología detecta la presencia de agua subte-
rránea en una zona en el 95% de los casos, y si no la hay da negativo en el 98% de
los casos. El 17% de los sondeos en ese terreno han encontrado agua. Calcular la
probabilidad de que:
a) Se encuentre agua en un sondeo en la zona si el zahorí ha detectado la pre-
sencia de agua.
b) Se encuentre agua si el zahorí ha dado resultado negativo.
Si se designa por:
B1 el suceso: «Hay agua subterránea en el terreno».
B2 el suceso: «No hay agua subterránea en el terreno».
S el suceso: «El zahorí afirma que hay agua en el terreno».
(
P ( B1 ) ⋅ P S B1 )
(
P B1 S = ) ( ) (
P ( B1 ) ⋅ P S B1 + P ( B2 ) ⋅ P S B2 )
=
=
( 0,17 )( 0, 95) . 0, 91
( 0,17 )( 0, 95) + ( 0, 83)( 0, 02 )
( )
Como P B1 S . 0, 91 @ 0,17, la afirmación del zahorí de que hay agua en el
terreno aumenta considerablemente la probabilidad de encontrar agua en el son-
deo del terreno.
b) La probabilidad de que se encuentre agua si el zahorí ha dado resultado ne-
gativo:
(
P B1 S = )
(
P ( B1 ) ⋅ P S B1 ) =
( ) (
P ( B1 ) ⋅ P S B1 + P ( B2 ) ⋅ P S B2 )
=
( 0,17 )(1 − 0, 95) . 0, 01
( 0,17) (1 − 0, 95) + ( 0, 83)( 0, 98)
Esto significa que es muy poco probable encontrar agua en el caso en que el
zahorí dé resultado negativo.
EJEMPLO 4.11.
Un matrimonio que espera su primer hijo decide que se le realice una ecografía
a la madre para que se les informe del sexo de su bebé. Pero la prueba la realizan en
una clínica con un equipo muy antiguo que no da el resultado con seguridad. En las
muchas ecografías que se han realizado con ese aparato se sabe que se acierta en el
80% de los casos si el bebé es niño y en el 90% si es una niña. Teniendo en cuenta
que el 51% de los recién nacidos son niños y que después de realizada la ecografía
en esa clínica les dicen a los padres que esperan una niña, ¿cuál es la probabilidad
de que el primer hijo sea varón?
Se designa por:
P(B2) = P(M) = 1 – 0,51 = 0,49 P(S | B2) = P(EM | M) = 0,90 P(B2 | S) = P(M | EM)
) ( (
P( B1 ) ⋅ P S B1 ) P(V ) ⋅ P EM V( )
(
P V EM = P B1 S = ) 2
=
( )
P(V ) ⋅ P EM V + P( M ) ⋅ P EM M ( )
=
∑ P( Bi ) ⋅ P ( S Bi )
i=1
=
( 0, 51)( 0, 20 ) =
0,102
= 0,1878. 0,19
( 0, 51)( 0, 20 ) + ( 0, 49 )( 0, 90 ) , 543
0
La probabilidad de que el primer hijo sea varón entre los que esperan una niña
por la información de la clínica es 0,19, mucho menor que 0,51.
Esto significa que el 18,78% de los padres que esperan una hija por el resul-
tado de esa clínica se llevan la sorpresa en el momento del parto de que el bebé es
un varón.
Resultado prueba
Positiva T+ Negativa T–
Paciente
–
Sano E error acierto
Padece la enfermedad E acierto error
EJEMPLO 4.12.
Se aplica una prueba para detectar un tipo de alergia en una población que tie-
ne prevalencia del 12%. La prueba no es segura, se sabe que la sensibilidad de esta
prueba es del 96% y la especificidad del 99%. Aplicada la prueba a un paciente da
resultado positivo. ¿Cuál es la probabilidad de que esa persona padezca esa pato-
logía?
+
P( E) ⋅ P(T + E )
P( E T ) = =
P( E) ⋅ P(T + E ) + P( E) ⋅ P(T + E )
=
( 0,12 )( 0, 96 ) =
0,1152
= 0, 929. 0, 93
( 0,12 )( 0, 96 ) + ( 0, 88)( 0, 01) 0,1240
La probabilidad de que ese paciente padezca ese tipo de alergia es muy alta 0,93.
93 95 97 92 k −1
(
P ( B ) = P {4, 6, 8,..., 2k ,...} = ) + +
10 4 10 6 10 8
+ ... +
10 2 k
+ ... =
93
4 729
= 10 2 = . 0, 38
9 1900
1−
10
(
P ( A ∩ B) = P {4,10,16, 22,..., 6k + 4,...} siendo k ∈N = )
3 9 15 6 k +3
9 9 9 9
= 4
+ 10 + 16 + ... + 6 k+4 + ... =
10 10 10 10
3
9
4 72900
= 10 6 = . 0,16
9 468559
1−
10
EJEMPLO 4.13.
Tres personas A, B y C lanzan, por este orden, alternativamente un dado y gana
el juego la persona que obtiene el primer as, es decir, la cara con un punto. ¿Cuál de
ellos tiene mayor probabilidad de ganar?
(
P( A) = P {n ∈N / n = 3k + 1} , k ∈N ∪ {0} = )
3 6 3k
1 5 5 5 36
=+ 4 + 7 + ... + 3 k +1 + ... =
6 6 6 6 91
(
P( B) = P {n ∈N / n = 3k + 2} , k ∈N ∪ {0} = )
5 54 53 k +1 30
= 2
+ 5
+ ... + 3k + 2
+ ... =
6 6 6 91
P(C ) = P ({n ∈N / n = 3k } , k ∈N) =
52 55 53 k−1 25
= 3 + 6 + ... + 3k + ... =
6 6 6 91
182 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto, el jugador que tira el dado en primer lugar es el que tiene mayor
probabilidad de ganar.
EJEMPLO 4.14.
Antes de terminar el capítulo, se dará solución al problema que se planteó en la In-
troducción y que fue propuesto a Pascal por Antoine Gombaud, el Caballero de Méré.
Designando por S1 el suceso «Obtener al menos un as al lanzar cuatro dados de
poker» y S2 «Obtener por lo menos doble as en veinticuatro lanzamientos de un par
de dados», la pregunta formulada por el Caballero de Méré es equivalente a la si-
guiente: ¿qué probabilidad es mayor P(S1) o P(S2)?
–
Para calcular P(S1) se puede utilizar el suceso contrario S1 = «No obtener nin-
gún as al lanzar cuatro dados»
VR5,4 54
P(S1 ) = 1 − P( S1 ) = 1 − = 1− . 0, 52
VR 6,4 64
P ( S1 ) = P U Ai = ∑ P ( Ai ) =
4 4
i=1 i =1
VR5,3 ⋅ PR41,3 + VR5,2 ⋅ PR42,2 + VR5,1 ⋅ PR43,1 + 1 671
= = . 0, 52
VR 6,4 1.296
–
Para calcular P(S2) es más sencillo utilizar el suceso contrario S2 = «No obte-
ner ningún doble as al lanzar dos dados veinticuatro veces»
24
35
P( S2 ) = 1 − P( S2 ) = 1 − . 0, 49
36
4.12.1. En un juego que consiste en formar palabras, a partir de unas letras dadas, se
colocan en una caja las letras de la palabra AZAR y en otra cuatro aes, dos zetas y
dos erres. Se elige una caja y se extraen cuatro letras sucesivamente y sin reempla-
zamiento. Si se consigue la palabra AZAR, se gana. ¿Con qué caja hay más proba-
bilidad de ganar?
4.12.3. Una persona escribe seis cartas distintas y sus sobres correspondientes y se
los da a otra persona para que los envíe, ésta los embucha sin comprobar los nombres
y los cierra. ¿Cuál es la probabilidad de que al menos una de las cartas no vaya en el
sobre correspondiente?
4.12.4. Con una sola apuesta en la lotería primitiva, es decir, eligiendo seis de los
cuarenta y nueve números que aparecen en el boleto,
a) ¿Cuál es la probabilidad de acertar al menos tres de los números en el próxi-
mo sorteo?
b) ¿Cuál es la probabilidad de no acertar ninguno de los números del próximo
sorteo?
4.12.5. En un examen tipo test que consta de 15 preguntas, las respuestas son Ver-
dadero o Falso.
a) ¿De cuántas maneras distintas puede contestar al examen un estudiante si lo
hace al azar?
b) ¿Cuál es la probabilidad de que un alumno que contesta al azar acierte todas
las preguntas?
c) Si el alumno sabe que diez son verdaderas y cinco falsas y las señala al
azar, porque no ha estudiado, ¿cuál es la probabilidad de que responda todas
correctamente?
4.12.6. Quince geólogos van a hacer un trabajo de campo y se reparten las tareas.
Tres se encargan de la tarea T1, cinco de la T2 y el resto de la T3. Si se eligen al azar
las personas, ¿cuál es la probabilidad de que les toque hacer juntos la tarea T1 a los
tres que son más amigos?
4.12.7. Una cerradura de una caja fuerte se abre con una «combinación» que es un
número de cinco cifras.
a) ¿Cuál es la probabilidad de abrir la caja fuerte en el primer intento si se
prueba en primer lugar el número 31.407?
b) ¿Sería la misma probabilidad si no hubiera claves con cifras repetidas?
184 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
4.12.10. De la caja completa de fichas del juego del dominó se eligen cuatro al azar,
¿qué es más probable: que no haya ninguna doble, que al menos una sea doble o que
las cuatro sean dobles?
4.12.14. Un ladrón roba una tarjeta 4B y va a un cajero para sacar dinero sin conocer
la clave que sabe que tiene cuatro cifras:
a) ¿Cuál es la probabilidad de que acierte antes de que se quede bloqueada la
tarjeta al fallar la tercera vez consecutiva?
b) Responder la misma pregunta si el ladrón sabe que todas las cifras son iguales.
c) Ídem si sabe que todas las cifras son distintas.
d) Responder a la misma pregunta si sabe el ladrón que la clave tiene dos treses,
un cuatro y un cinco.
4.12.16. El consejo de dirección de una empresa está formado por cuatro varones y
cuatro mujeres, de ellos hay que elegir dos como directivos con la misma categoría.
Se desea saber cuál es la probabilidad de que al elegirlos al azar sean:
a) dos varones,
b) un varón y una mujer,
c) dos personas del mismo sexo.
PROBABILIDAD 185
4.12.18. Un alumno tiene que realizar 11 exámenes, cuatro de los cuales son de prác-
ticas, ¿cuál es la probabilidad de que no vayan seguidos dos de prácticas?
(
a) A ∪ A ∩ B . )
b) A ∩ ( A ∩ B ).
( ( ))
c) S1 ∪ ( S2 ∩ S3 ) ∪ ( S2 ∪ S3 ) ∩ S1 ∪ S2 .
4.12.22. Suponiendo que la probabilidad de que una persona nazca un día determi-
nado es la misma para todos los días del año, sin contar el 29 de febrero en los años
bisiestos, calcular la probabilidad de que:
a) En un grupo de 15 amigos dos tengan la misma fecha de nacimiento.
b) Ídem en un grupo de 25 amigos.
4.12.23. Sabiendo que en una facultad, en la que el 60% de los matriculados son mu-
jeres, terminó el curso pasado con al menos una matrícula de honor el 15% de los va-
rones y el 21% de las mujeres, se pide:
a) Calcular la probabilidad de que un estudiante, elegido al azar, de los que aca-
baron el curso pasado en esa facultad tenga al menos una matrícula de honor.
b) Si el estudiante elegido al azar tiene al menos una matrícula de honor, ¿cuál
es la probabilidad de que sea mujer?
186 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
4.12.24. Se dispone de una moneda trucada en la que sale cara, C, la mitad de las ve-
ces que sale cruz, X. Se lanza la moneda tantas veces como sea necesario hasta que
salga cara y se anota el número de tiradas que han sido necesarias. Calcular la pro-
babilidad de que:
a) Se obtenga cara en la vigésima tirada.
b) Se obtenga cara antes de la tirada vigésima.
c) Haya que lanzarla al menos veinte veces para obtener cara.
4.12.25. En el experimento del ejercicio anterior una persona propone a otra apostar
la misma cantidad a obtener cara antes del vigésimo lanzamiento frente a lo contra-
rio. ¿Tienen igual probabilidad de ganar los dos jugadores?
4.12.26. En un despacho hay un armario que guarda muestras recogidas en dos te-
rrenos distintos. Se sabe que el 17% de las muestras del terreno T1 y el 26% de las
muestras del terreno T2 contienen fósiles. Se están haciendo obras en el edificio y se
trasladan las muestras a otras dependencias en cajas idénticas a simple vista. En el
traslado se pierden las etiquetas que las distinguen. Se elige una caja al azar y de ella
una muestra; examinada esta muestra se ve que contiene fósiles, ¿cuál es la proba-
bilidad de que pertenezca al terreno T2?
4.12.29. Una persona tiene dos ordenadores, uno fijo de la marca O1 y otro portátil
de la marca O2 que funcionan de forma independiente. Se sabe que el 30% de los or-
denadores de la marca O1 y el 25% de los de la marca O2 se estropean en periodo de
garantía, ¿cuál es la probabilidad de que alguno se estropee en periodo de garantía?
4.12.31. Los billetes de metrobús en Madrid están numerados con números de seis
cifras y una letra delante que indica la serie. Si se elige uno al azar de los corres-
pondientes a la misma serie, se pide:
a) ¿Cuál es la probabilidad de que su número sea un capicúa?
b) ¿Cuál es la probabilidad de que sea un capicúa de seis cifras significativas, es
decir, que no empiece por cero?
4.12.32. Un examen de quince preguntas tipo test tiene cuatro respuestas posibles
cada una A, B, C, D, de las cuales sólo una es verdadera.
a) ¿Cuál es la probabilidad de que cinco tengan la respuesta A, cinco la B, tres la
C y dos la D?
b) ¿Cuál es la probabilidad de que un alumno, que no ha estudiado y tiene la in-
formación de que cinco tienen respuesta A, cinco la B, tres la C y dos la D,
acierte todas las respuestas, contestando al azar?
4.12.33. Sabiendo que la probabilidad de que una familia tenga un hijo varón es
0,51, calcular la probabilidad de que una familia de cinco hijos tenga:
a) Todos varones.
b) Dos varones y tres mujeres.
4.12.34. Los cupones ordinarios de la ONCE se forman con números de cinco cifras.
Se pide:
a) ¿Cuál es la proporción de capicúas?
b) ¿Qué porcentaje acaban en 2?
c) ¿Cuál es la probabilidad de encontrar en los de un día determinado un capicúa
que acabe en 2?
d) ¿Son compatibles los sucesos «obtener capicúa» y «obtener un número aca-
bado en 2»?
e) ¿Son independientes los sucesos «obtener capicúa» y «obtener un número
acabado en 2»?
f) Calcular la probabilidad de obtener un capicúa o un cupón acabado en 2.
4.12.35. Bajo la hipótesis de que la probabilidad de que un hijo sea varón o mujer es
la misma, para una familia de tres hijos ¿qué es más probable: que tenga todos los hijos
del mismo sexo o de diferentes sexos?
4.12.36. De un grupo de ocho mujeres y seis varones hay que elegir una represen-
tación de cuatro personas. Calcular la probabilidad de que haya:
a) Dos varones y dos mujeres.
b) Mayoría de varones.
c) Mayoría de mujeres.
188 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
4.12.39. Se lanza un dado y se anota el número de veces que hay que lanzarlo hasta
obtener un número menor que cinco.
a) Determinar las probabilidades de los sucesos elementales.
b) Calcular las probabilidades de los siguientes sucesos: A, el número de veces
hasta obtener el primer cinco es par, B, el número de veces hasta obtener el
primer cinco es un múltiplo de tres, la del suceso A ∩ B y la de C, el experi-
mento se acaba antes del décimo lanzamiento.
4.12.43. Una empresa necesita cubrir dos puestos de trabajo y se presentan cincuenta
aspirantes. Treinta de los aspirantes están afiliados y el resto no. Si se eligen dos per-
sonas al azar, calcular la probabilidad de que:
a) ninguno de los elegidos esté afiliado,
b) uno de los dos esté afiliado,
c) los dos estén afiliados.
1 2 3 4
2 3 4 1
3 4 1 2
4 1 2 3
5.1. INTRODUCCIÓN
xi 0 1 2 3
4
ni 15 50 25 10
fi = ∑ fi = 1
n 100 100 100 100 i=1
correspondiente es E = {CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX} .
tinguibles y observar si se obtiene en cada una de ellas C o X. El espacio muestral
E X
→R
CCC → 3
CCX → 2
CXC → 2
XCC → 2
CXX → 1
XCX → 1
XXC → 1
XXX → 0
Los conjuntos formados por los elementos de E que tienen la misma imagen son:
son los cuatro sucesos que permiten asociar a cada uno de los valores de X una
probabilidad.
El conjunto de valores de X es C = {0,1,2,3}, un conjunto finito.
E X→R
e → X ( e) ∈R
Esta variable aleatoria discreta se dice que es finita porque el conjunto de va-
lores C = {0,1,2,3} es un conjunto finito.
Se designarán las variables aleatorias por letras mayúsculas X, Y, Z,...
Una variable aleatoria discreta X hace corresponder a cada elemento del es-
pacio muestral E un número real:
E X
→R
e → X ( e ) ∈R
EJEMPLO 5.1.
Para el experimento de lanzar tres veces una moneda, o tres monedas distin-
guibles a la vez, y anotar los resultados en el orden en que se obtienen, se define la
variable aleatoria discreta finita:
E X
→R
e → X ( e ) = «número€ de€ caras€ de€ e»
EJEMPLO 5.2.
En una exposición hay 215 muestras de rocas, de las que 70 son ígneas, 103 se-
dimentarias y 42 metamórficas. Se elige una al azar y se observa si es sedimentaria
o no. El espacio muestral es E = {I, S, M}. Una variable aleatoria que codifica las
rocas sedimentarias es:
1 si€ € e = S
X (e) =
0 € si€ € e ≠ S
EJEMPLO 5.3.
Se lanza un dado dos veces seguidas y se anotan los resultados obtenidos en los
dos lanzamientos. El espacio muestral está formado por todas las variaciones con re-
petición de orden 2 formadas con los elementos 1,2,3,4,5,6, esto es,
{ }
E = (1, 1) , (1, 2) , (1, 3) ,..., ( 5, 6) , ( 6, 6) . Una variable aleatoria definida sobre E es:
X ( e = ( a, b )) = a + b
EJEMPLO 5.4.
En una zona montañosa se ha instalado un aparato para detectar incendios
que utiliza cuatro sensores que actúan de forma independiente. Los sensores es-
tán conectados a una alarma que se activa si al menos uno de los cuatro sensores
detecta una temperatura superior o igual a 80 °C. Si se observan en un panel para
–
cada sensor si detecta, D, o no detecta, D, una temperatura superior o igual a
80 °C, el espacio muestral E es el conjunto de las variaciones con repetición de
–
orden cuatro de los elementos de {D,D}, el orden indica el sensor o sensores que
activan la alarma:
M M M M
– – – –
D D D D
E X
→R
e → X ( e ) = «número€ de€ sensores€ que€ activan
n la€ alarma»
EJEMPLO 5.5.
Se lanza un dado tantas veces como sea necesario hasta obtener el primer cinco
–
y se anota en cada tirada si sale cinco, C, o si sale otro resultado, C . El espacio
muestral de este experimento aleatorio es infinito-numerable:
{
E = C, CC , CCC, CCCC , CCCCC,... }
196 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
La variable aleatoria:
E X
→R
e → X ( e ) = «n o € de€ tiradas€ hasta € obtener€ el primer€ cinco»
E Y
→R
e → Y ( e ) = «no € de€ tiradas€ antes € de€ obtener el€ primer€ cinco»
EJEMPLO 5.6.
De una urna que contiene seis bolas numeradas con las cifras 4,5,6,7,8 y 9 se
extraen dos bolas simultáneamente; el espacio muestral, E, estará formado por todas
las combinaciones de orden 2 formadas con los elementos de {4,5,6,7,8,9}. Una va-
riable aleatoria (v.a.) definida sobre E puede ser:
E X
→R
e → X ( e ) = «mayor€ de€ los€ dos€ números€ obteenidos»
E Y
→ R
e = {a, b} → Y ( {a, b}) = a + b
mentos del espacio muestral E que tienen por imagen xi mediante esa variable
aleatoria, la aplicación X.
De aquí en adelante la abreviatura v.a. se utilizará para indicar variable alea-
toria.
El conjunto de todos los sucesos Axi, que es finito o infinito-numerable, for-
man una partición de E, ya que Ax ∩ Ax = ∅ € si€ € i ≠ j y además:
i j
i
i=1
o bien
` `
b) Si X es discreta infinito-numerable, será ∑ f ( xi ) = ∑ P( X = xi ) = 1,
i =1 i =1
siendo C = {x1, x2, x3,..., xn,...} el conjunto de valores de X.
EJEMPLO 5.7.
Para la variable aleatoria discreta finita, X del Ejemplo 5.3. el conjunto de va-
lores es C = {2,3,4,5,6,7,8,9,10,11,12}, los sucesos Axi son:
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
f ( x ) = P ( X = x ) = P( A x )
36 36 36 36 36 36 36 36 36 36 36
que se comprueba fácilmente que verifica las dos propiedades de las funciones de
probabilidad.
La representación gráfica de esta función de probabilidad es la siguiente:
6/36
5/36
4/36
y = f(x)
3/36
2/36
1/36
2 3 4 5 6 7 8 9 10 11 12
R F
→R
x → F ( x ) = P( X ≤ x )
n
F ( x n ) = P( X ≤ x n ) = ∑ f ( x i ) = 1
i =1
n `
lim F( x n ) = lim ∑ f ( xi ) = ∑ f ( xi ) = 1
n→` n→` i =1 i =1
( ) (
P7. P X > x j = 1 − P X ≤ x j = 1 − F x j . ) ( )
P8. P(x i ) ( )
< X ≤ x j = P X ≤ x j − P ( X ≤ xi ) = F x j − F ( x i ) .( )
200 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 5.8.
Para la variable aleatoria discreta finita, X, del Ejemplo 5.3. el conjunto de valores
es C = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} , y su función de probabilidad acumulada:
X F ( x ) = P( X ≤ x )
x<2 0
2≤x<3 1/36
3≤x<4 3/36
4≤x<5 6/36
5≤x<6 10/36
6≤x<7 15/36
7≤x<8 21/36
8≤x<9 26/36
9 ≤ x < 10 30/36
10 ≤ x < 11 33/36
11 ≤ x < 12 35/36
12 ≤ x 1
Gráficamente:
1
35/36
33/36
30/36
26/36
y = f(x)
21/36
15/36
10/36
6/36
3/36
1/36
2 3 4 5 6 7 8 9 10 11 12
` `
µ = E ( X ) = ∑ x i P( X = x i ) = ∑ x i f ( x i )
i =1 i =1
si la serie es convergente.
202 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 5.9.
Para la v.a. del Ejemplo 5.7. la esperanza matemática es:
11 11
µ = E ( X ) = ∑ x i P ( X = xi ) = ∑ xi f ( x i ) =
i=1 i =1
1 2 3 4 5 6 5 4 3 2 1
=2 +3 +4 +5 +6 +7 +8 +9 + 10 + 11 + 12 =7
36 36 36 36 36 36 36 36 36 36 36
E (Y ) = a + b ⋅ E ( X )
E( aX + bY ) € = aE ( X ) + bE(Y )
E ( Y ) = E ( X − µ ) = ∑ ( x i − µ ) f ( xi ) = ∑ x i f ( xi ) − ∑ µ f ( x i ) = µ − µ = 0
i i i
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 203
n
r
∑ ( xi − x ) ni n r ni n r
mr = i=1
= ∑ ( xi − x ) = ∑ ( xi − x ) fi
n i =1 n i =1
n
∑ xir ni n ni n r
ar = i =1
= ∑ xir =∑x f .
n i =1 n i =1 i i
r r r
µ r = E ( x i − µ ) = ∑ ( x i − µ ) f ( x i ) = ∑ ( x i − µ ) P ( X = x i )
i i
σ = Var ( X ).
Propiedades de la varianza
P1. Si X e Y son dos variables aleatorias, Y = aX + b, siendo a y b constantes,
a, b ∈R, es€ € σ Y2 = a2σ X2 , es decir,
Var ( aX + b) = a 2Var ( X )
En consecuencia σ aX +b = a σ X .
X µ X µ 1 µ µ µ
E ( Z ) = E − = E − = E( X ) − = − = 0
σ σ σ σ σ σ σ σ
X µ 1 σ2
Var ( Z ) = Var − = 2 Var ( X ) = 2 = 1 ⇒ σ Z = 1
σ σ σ σ
( )
α r = E X r = ∑ xir f ( x i ) = ∑ xir P ( X = xi )
i i
( )
Casos particulares: α 0 = 1, € α1 = E ( X ) , α 2 = E X 2 , etc.
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 205
2. Para r = 3
µ3 = α 3 − 3α 2α1 + 2α13
3. Para r = 4
2 4
µ4 = α 4 − 4α 3α1 + 6α 2 (α1 ) − 3 (α1 )
4. En general, se puede demostrar por inducción que también se verifica la si-
guiente igualdad:
k k
x
µk = ∑ ( −α1 ) α k − x
x =0 x
2 2 x
µ2 = ∑ ( −α1 ) α 2− x =
x =0 x
2 0 2 2 2
= ( −α1 ) α 2 + ( −α1 ) α1 + ( −α1 ) α 0 =
0 1 2
= α 2 − 2α12 + α12 = α 2 − α12
206 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 5.10.
Para la v.a. del Ejemplo 5.7. la varianza es:
2 11 2 11
σ 2 = µ2 = E ( X − 7 ) = ∑ ( xi − 7 ) f ( x i ) = α 2 − 72 = ∑ xi2 f ( xi ) − 49 =
i =1 i=1
1 2 3 4 5 6 5 4 3
= 22 + 32 + 42 + 52 + 62 + 72 + 82 + 92 + 10 2 +
36 36 36 36 36 36 36 36 36
2 1 1974 329 35
+ 112 + 122 − 49 = − 72 = − 49 = . 5, 8333
36 36 36 6 6
35
Y por tanto la desviación típica es: σ = . 2, 4152.
6
σ
Cv =
µ
El coeficiente de variación es una buena medida de dispersión para comparar
distribuciones, ya que no depende de las unidades en que se midan las variables.
Este coeficiente se expresa también en tanto por ciento, multiplicando el cocien-
te anterior por 100.
• La moda de la variable aleatoria discreta X es el valor de esta variable que tiene
probabilidad máxima. Como P ( X = xi ) = f ( x i ) la moda es el valor xk para el que
f ( xi ) ≤ f ( xk ) ∀i
Si hay más de un valor de la variable con probabilidad máxima, se dice que la va-
riable es multimodal y cada uno de los valores con probabilidad máxima es una moda.
• La mediana de la variable aleatoria discreta X es el menor valor κ2 tal
que F(κ 2 ) = 0, 5. Es decir, P ( X ≤ κ 2 ) = 0, 5 y por tanto κ2 es el valor para el que
P ( X ≤ κ 2 ) = P ( X > κ 2 ) , es decir, el valor que deja por debajo la misma probabi-
lidad que por encima.
• Los cuartiles de la variable aleatoria discreta X son tres, κ1, κ2 y κ3 y son los
valores que verifican: F(κ1) = 0,25, F(κ2) = 0,5, el segundo cuartil es la mediana,
y F(κ3) = 0,75.
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 207
µ3
γ1 =
σ3
µ4
γ2 = −3
σ4
EJEMPLO 5.11.
Para la v.a. del Ejemplo 5.7. calcular los coeficientes de sesgo y de curtosis e in-
terpretarlos.
208 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Para calcular estos coeficientes, en primer lugar se calculan los momentos res-
329
pecto del origen hasta el orden 4 inclusive. Se sabe que α1 = 7 € y que α 2 = ,
véanse Ejemplos 5.9. y 5.10. 6
El momento de orden 3 respecto del origen es:
11 16.758 931
α 3 = ∑ xi3 f ( xi ) = = = 465, 5
i =1 36 2
Y el de orden 4 es:
11 151.074 8.393
α 4 = ∑ xi4 f ( xi ) = = = 4.196, 5
i =1 36 2
Por tanto:
931 329
µ3 = α 3 − 3α 2α1 + 2α13 = −3 7 + 2 ⋅ 73 = 0
2 6
2 4 8.393 931 329 2
µ4 = α 4 − 4α 3α1 + 6α 2 (α1 ) − 3 (α1 ) = −4 7+6 7 − 3 ⋅ 74 = 80, 5
2 2 6
µ3
El coeficiente de sesgo γ 1 = = 0. Esta distribución es simétrica.
σ3
Y el coeficiente de curtosis es:
µ4 80, 5
γ2 = 4
−3= 2
− 3 = −0, 6343 < 0, es decir, la distribución es platicúrtica.
σ 35
6
1
P( X = x ) = ∀x ∈C
n
1
si€ x ∈C
f ( x ) = P( X = x ) = n
0 € si€ x ∉C
0 si x < 1
1 si 1 ≤ x < 2
n
2
si 2 ≤ x < 3
n
F ( x ) = P( X ≤ x ) = 3
n si 3 ≤ x < 4
...
n -1
si n - 1 ≤ x < n
n
1 si x ≥ n
n n 1 1 1 (1 + n ) n n + 1
µ = E ( X ) = ∑ x i P( X = x i ) = ∑ x i = (1 + 2 + ... + n ) = =
i =1 i =1 n n n 2 2
y la varianza:
n 2 2
1 n + 1 1 n + 1
( )
σ 2 = E X 2 − µ 2 = ∑ xi2
i =1 n
−
2
n
(
= 12 + 22 + ... + n 2 −
2
)=
2
1 n ( n + 1) ( 2n + 1) ( n + 1) ( n + 1) ( n − 1) = n 2 − 1
€ = − =
n 6 4 12 12
n2 − 1
De donde, la desviación típica es: σ = .
12
EJEMPLO 5.12.
䊏 El modelo teórico correspondiente al lanzamiento de un dado que no esté ses-
gado es un ejemplo de distribución discreta uniforme con parámetro n = 6.
7 62 − 1 35
Su esperanza matemática es µ = = 3, 5 y su varianza σ 2 = = .
2 12 12
䊏 La extracción de una bola de un bombo con 10 bolas idénticas numeradas
con las cifras del 0 al 9 es una distribución discreta uniforme de parámetro n =10.
X :E→R
1 si€ e ∈ S
e → X (e) =
0 € si€ e ∉ S
q = 1 − p € si€ x = 0
f ( x ) = P( X = x ) = p € si€ x = 1
0 € si€ x ∉C = {0,1}
La gráfica siguiente, proporcionada por STATGRAPHICS, representa la fun-
ción de probabilidad, para la v.a. de Bernoulli de parámetro p = 0,1,
0, 9 si€ x = 0
f ( x ) = 0,1€ si€ x = 1
0 € si€ x ∉C = {0,1}
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 211
Distribución de Bernoulli
1 Probabilidad
del suceso
0,8 0,1
Probabilidad
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
x
0 si€ x < 0
F ( x ) = P( X ≤ x ) = q € si€ 0 ≤ x < 1
1 si€ x ≥ 1
F(x)
1
0,9
x
–3 –2 –1 0 1 2 3
2
µ = E ( X ) = ∑ xi P ( X = xi ) = 0 ⋅ q + 1 ⋅ p = p
i =1
La varianza:
2
( )
σ 2 = E X 2 − µ 2 = ∑ xi2 P( X = xi ) − µ 2 = 0 ⋅ q + 1 ⋅ p − p 2 = p(1− p) = pq
i =1
212 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
P( X =x ) =P(SS...S S S... S ) =
= PR nx ,n- x P(S1 ∩ S2 ∩ ... ∩ Sx ∩ Sx +1 ∩ Sx + 2 ∩ ... ∩ Sn ) =
n! n
= p x qn− x = p x qn− x
x !(n − x )! x
n x n − x
p q si€ x ∈C = {0, 1, 2, ..., n}
f ( x ) = P ( X = x ) = x
0 sii x ∉C
n n n n n
∑ f ( x i ) = ∑ P( X = x ) = ∑ p x q n − x = ( p + q ) = 1
i=0 x =0 x
x =0
Precisamente por ser cada valor de f(x) uno de los términos del desarrollo del
binomio (p + q)n es por lo que a la distribución de la v.a. así definida se le deno-
mina distribución binomial de parámetros n y p.
La función de probabilidad acumulada es:
n
F ( x ) = P( X ≤ x ) = ∑ p k q n − k
0≤ k ≤ x k
n
Se puede expresar la v.a. X = ∑ Yi , siendo Yi variables aleatorias de Bernoulli,
i =1
independientes y del mismo parámetro p.
La esperanza matemática, o media, de la v.a. X es:
n n
E ( X ) = E ∑ Yi = ∑ E ( Yi ) = np
i =1 i =1
n n
Var ( X ) = Var ∑ Yi = ∑ Var ( Yi ) = npq
i=1 i=1
Distribución binominal
0,25 Prob. del suceso; n
0,5;10
0,2
Probabilidad
0,15
0,1
0,05
0
0 2 4 6 8 10
x
F(x)
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
214 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Distribución binominal
1 Prob. del suceso; n
0,5;10
0,8
Probabilidad
acumulada
0,6
0,4
0,2
0
0 2 4 6 8 10
x
sólo se indican los saltos de la función de probabilidad acumulada y hay que ima-
ginar que la función toma el valor cero hasta x = 0, es constante en los intervalos
[x, x + 1) para x ∈{0,1,2,..., n}, como se observa en la representación anterior re-
alizada con DERIVE, y toma el valor 1 para x∈[10, + ⬁).
A continuación, se presentan también las gráficas de las funciones de pro-
babilidad para las variables aleatorias binomiales de parámetros n = 10 y p = 0,1,
n = 60 y p = 0,1, n = 60 y p = 0,5 y n = 70 y p = 0,8.
Probabilidad
Probabilidad
EJEMPLO 5.13.
Tras largos años de experiencia se ha comprobado que al tratar con el producto
A árboles enfermos, sanan en el 75% de los casos. Se tratan veinticinco árboles en-
fermos con la sustancia A. Calcular la probabilidad de que sobrevivan:
a) Veinte de los veinticinco tratados.
b) Al menos quince de los veinticinco.
c) Por lo menos diez y no más de veinte.
d) A lo sumo dieciocho.
e) No sobrevivan diez.
f) No sobrevivan como máximo diez.
19 25 x 25− x
c) P(10 ≤ X < 20) = ∑
( 0, 75) ( 0, 25) . 0, 6217.
x =10 x
25 25 x 25−x
d) P ( X ≤ 18) = 1 − P ( X > 18) = 1 − ∑ ( 0, 75) ( 0, 25) . 0, 4389.
x =19 x
25 10 15
10 ( 0, 25) ( 0, 75) . 0, 0417 = P ( X = 15) .
e) P(Y = 10) =
10 25 x 25− x
f) P(Y ≤ 10) = ∑ ( 0, 25) ( 0, 75) . 0, 9703 = P ( X ≥ 15) .
x =0 x
Por tanto
Distribución geométrica
0,2 Prob. del suceso
0,2
0,16
Probabilidad
0,12
0,08
0,04
0
0 10 20 30 40
x
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 217
k −1 k −1 x
Ya que si x ≥ 1, F ( x ) = ∑ f (k ) = ∑ q p = p ∑ q = 1 − q , porque
k≤ x k≤x k≤x
1
La esperanza matemática, o media, de esta distribución es µ = y la va-
1− p q p
rianza es σ 2 = 2 = 2 .
p p
EJEMPLO 5.14.
Se lanza una moneda tantas veces como sea necesario hasta conseguir por pri-
mera vez cara y se anotan los resultados obtenidos. El espacio muestral es:
0,03
0,02
,0,01
0
0 20 40 60 80 100
x
r + x − 1 r x
La distribución se llama binomial negativa porque P( X = x ) = pq
r − 1
−r
corresponden a los términos del desarrollo de la serie binomial 1 − q .
Se puede demostrar que: p p
y que
para y = r, r + 1, r + 2,...
Para r = 1 la v.a. de Pascal sólo depende del parámetro p y ésta coincide con
la distribución geométrica o de Pascal de parámetro p.
EJEMPLO 5.15.
Un aprendiz de gemología talla correctamente un diamante con probabilidad 0,9.
Hallar la distribución de probabilidad del número de tallas defectuosas antes de
completar diez tallas perfectas. Calcular las probabilidades de que tenga que realizar
trece tallas para completar diez perfectas y la de que tenga que realizar al menos ca-
torce para entregar las diez perfectas.
Si tiene que realizar trece tallas para completar diez perfectas, es que tres son
defectuosas:
Para que tenga que realizar al menos catorce tallas para entregar las diez
perfectas, tallará al menos cuatro defectuosas, por tanto:
o bien
Si de la urna que contiene N bolas de las que N1 son verdes, se extraen suce-
sivamente y sin reemplazamiento n bolas, la v.a. X = «número de bolas verdes de
las n extraídas» ya no sigue una distribución binomial sino otra distribución, la
distribución hipergeométrica, porque la probabilidad de obtener bola verde aho-
ra no es la misma en cada una de las n extracciones.
Si n = 2, el conjunto de valores de la v.a. X = «número de bolas verdes entre
las dos extraídas» es C = {0,1,2}, siempre que n = 2 < N1, es decir, que haya al
menos dos bolas verdes y 2 < N – N1, es decir, también haya al menos dos bolas
no verdes.
Si N = 100, N1 = 10 y se extraen n = 9, el conjunto de valores de la v.a. X,
«número de bolas verdes de las 9 extraídas», es C = {0,1,2,...,9}.
Si N = 100, N1 = 10 y se extraen n = 15, el conjunto de valores de la v.a. X,
«número de bolas verdes de las 15 extraídas», es C = {0,1,2,...,10} ya que es im-
posible obtener once o más bolas verdes.
Si N = 100, N1 = 85 y se extraen n = 20, el conjunto de valores de la v.a. X,
«número de bolas verdes de las 20 extraídas», es C = {5,6,7,...,20} ya que es im-
posible obtener veinte bolas no verdes porque sólo hay 15 en la urna que no son
verdes.
En general, se considera una población de N elementos clasificados en dos
–
categorías S, con N1 elementos y S con N – N1, y se eligen n elementos de esa
población sucesivamente y sin reemplazamiento. Se define la v.a. X «número de
elementos de S entre los n elegidos» se observa que cada valor x de la v.a. X ha
de ser:
222 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
o bien
como todos los cocientes anteriores tienen el mismo valor, P (X = x) también re-
presenta la probabilidad de encontrar x elementos de S al elegir simultáneamente
n de una población de N elementos de los que N1 son de S.
La función de probabilidad de las variables aleatorias definidas del siguiente
modo en una población de N elementos de los que N1 son del tipo A
o también
es:
{ }
Siendo C = x ∈N / máx{0,n − ( N − N1 ) ≤ x ≤ mín { N1 , N}} .
N1
Llamando p = = P( S), probabilidad de elegir un elemento de S en la pri-
N
mera extracción, se puede escribir:
0,2
0,15
0,1
0,05
0
0 2 4 6 8 10
x
224 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
y hay que imaginar que vale cero para x < máx {0,n − ( N − Np )} , que la función toma
Np Nq
x y n − y
el valor F( x ) = ∑ constante en cada intervalo [x, x + 1)
y = máx{0,n −( N − Np )} N
n
para todos los valores de x que verifican máx {0,n − ( N − Np )} ≤ x ≤ mín { Np, n} y
que vale 1 para x ≥ mín { Np, n}.
EJEMPLO 5.16.
Una fábrica de cerámica que realiza sus trabajos en verde y blanco tiene alma-
cenados 1.755 sacos de polvo blanco y 45 de polvo verde. A un empleado se le pide
que traslade 60 sacos y los elige sin fijarse en el color.
a) ¿Cuál es la probabilidad de que x de ellos sean de polvo verde?
b) ¿Qué valores puede tomar x?
c) Si X representa el número de sacos de polvo verde de los 60 elegidos, calcular
la media y varianza de X.
d) Calcular la probabilidad de que lleve exactamente 25 sacos de polvo verde.
e) ¿Cuál es la probabilidad de que no lleve ninguno verde?
f) ¿Y la de que lleve sólo uno verde?
g) ¿Cuál es la probabilidad de que lleve sólo cinco verdes?
45 1755
x 60 − x
a) P( X = x ) = x = 0,1, 2,..., 45
1800
60
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 225
es decir.
45
c) µ = E ( X ) = 60 = 1, 5.
1.800
45 1.755 1.740
σ 2 = 60 ⋅ ⋅ ⋅ . 1, 4145.
1.800 1.800 1.799
45 1.755
25 35
d) P( X = 25) = . 8, 3938€ 10 −28 , prácticamente nula.
1 . 800
60
45 1.755
0 60
e) P( X = 0) = . 0, 2133.
1.800
60
45 1.755
1 59
f) P( X = 1) = . 0,3396
1.800
60
Por tanto, es más probable que lleve uno verde a que no lleve ninguno verde.
45 1.755
5 55
g) P( X = 5) = . 0, 0121
1.800
60
número n de elementos que se eligen. Esto significa que, cuando la población tie-
ne un tamaño muy grande, la probabilidad de obtener x de S entre los n elegidos si
el muestreo se realiza sin reemplazamiento es casi la misma que si se realiza con
reemplazamiento, es decir, se puede aproximar la distribución hipergeométrica de
parámetros N, n y p por la distribución binomial de parámetros n y p. En la
n
práctica se acepta como buena esta aproximación si la tasa de sondeo < 0, 1.
N
Probabilidad
acumulada
0,3 1 0,8 1
0,2 0,6
0,4
0,1 0,2
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
Probabilidad
acumulada
0,3 5 0,8 5
0,2 0,6
0,4
0,1 0,2
0 0
0 3 6 9 12 15 18 0 3 6 9 12 15 18
x x
228 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Probabilidad
acumulada
0,12 10 0,8 10
0,09 0,6
0,06 0,4
0,03 0,2
0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
Probabilidad
acumulada
0,04 70 0,8 70
0,03 0,6
0,02 0,4
0,01 0,2
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
x x
EJEMPLO 5.17.
Para estudiar las ágatas de una región, se considera ésta dividida en diez mil cua-
drados de igual área. Si por término medio, se encuentran tres piezas de ágata mus-
gosa, con inclusiones verdosas de asbesto, la v.a. X = «número de ágatas musgosas en
un cuadrado» se puede suponer que sigue una distribución de Poisson de media 3.
a) Escribir la función de probabilidad de la v.a. X.
b) ¿Cuál es la probabilidad de no encontrar ninguna en un cuadrado?
c) ¿Cuál es la probabilidad de encontrar cuatro en un cuadrado?
d) ¿Cuál es la probabilidad de encontrar al menos cuatro en un cuadrado?
e) ¿Cuál es el número de cuadrados en los que probablemente se encontrarán cuatro?
f) ¿Cuál es el número de cuadrados en los que probablemente no se encontra-
rán ninguna?
3x −3
e si€ x = 0,1, 2,..., n,...
a) f ( x ) = P( X = x ) = x !
0 € si€ x ∉C = {0, 1, 2,..., n,...}
30 −3 −3
b) f (0) = P( X = 0) = e = e . 0, 0498
0!
34 − 3
c) f (4) = P( X = 4) = e . 0,1680
4!
3 3x
d) P( X ≥ 4) = 1 − F (3) = 1 − ∑ e −3 = 1 − 13e −3 . 0, 3528
x=0 x !
EJEMPLO 5.18.
En una zona sísmica el número de terremotos de intensidad mayor que 5 en la es-
cala de Richter durante un año sigue aproximadamente una distribución de Poisson de
media 9. Calcular la probabilidad de que haya en un año: a) ninguno, b) dos terre-
motos, c) al menos uno, d) más de diez.
90 −9
a) P ( X = 0 ) = e . 1, 2341 ⋅ 10 −4
0!
9 2 −9
b) P ( X = 2) = e . 4, 9981 ⋅ 10 −3
2!
c) P ( X ≥ 1) = 1 − P ( X = 0 ) = 1 − 0, 0001234 . 0, 9999
10 9 x −9
d) P ( X > 10 ) = 1 − P ( X ≤ 10 ) = 1 − ∑ e . 0, 2940
x =0 x !
EJEMPLO 5.19.
Calcular las mismas probabilidades del Ejemplo 5.18. para una distribución de
Poisson de media 2.
2 0 −2
a) P ( X = 0 ) = e . 0,1353
0!
2 2 −2
b) P ( X = 2 ) = e . 0, 2707
2!
c) P ( X ≥ 1) = 1 − P ( X = 0 ) = 1 − 0,1353 . 0, 8647
10 2 x −2
d) P ( X > 10 ) = 1 − P ( X ≤ 10 ) = 1 − ∑ e . 1 − 0, 9999 . 0
x =0 x !
Comparando estos resultados con los del Ejemplo 5.18., se comprueba que al
disminuir el valor del parámetro en la distribución de Poisson aumenta la proba-
bilidad de que la variable tome valores pequeños.
En el Capítulo 14 se incluyen los Procesos Estocásticos de Poisson.
230 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
lo que significa que esta distribución es asimétrica hacia la derecha, es decir, tie-
ne sesgo positivo. Considerando λ = np, se observa que
EJEMPLO 5.20.
Sabiendo que el número medio de jeringuillas defectuosas de las que fabrica un
laboratorio es de una entre mil, ¿cuál es la probabilidad de que entre las 8.000 que
se reciben en un hospital el número de defectuosas sea:
a) al menos uno,
b) un número comprendido entre 3 y 10,
c) menos que 9.
Así:
80 −8
a) P ( X ≥ 1) = 1 − P ( X < 1) = 1 − f (0) . 1 − e = 0, 9997
0!
9 8 x −8
b) P ( 3 < X < 10 ) . ∑ e = 0, 6742
x=4 x !
8 8x −8
c) P ( X < 9 ) = P ( X ≤ 8) . ∑ e = 0, 5925
x =0 x !
EJEMPLO 5.21.
El propietario de un vivero ha comprobado que no germina el 2% de las semi-
llas de cierta especie. Las semillas se venden en paquetes de 200 semillas y el dis-
tribuidor que se las suministra afirma que germinan al menos el 90%.
a) Calcular el valor esperado de las semillas que no germinan en un paquete.
b) ¿Cuál es la probabilidad de que un paquete elegido al azar no cumpla la ga-
rantía dada por el distribuidor?
n 1
Discreta Uniforme si xi ∈C n +1 n2 − 1 n2 − 1
U(n)
C = {1, 2, 3,...,n} f ( xi ) = n µ= σ2 = σ=
n ∈N 0 si xi ∉C 2 12 12
q = 1 − p si x = 0
p = P(S) µ= p
Bernoulli ß(p) C = {0,1} f ( x) = p si x = 1 σ 2 = pq σ= pq
0< p<1 0 sii x ∉C = {0,1}
n, p = P(S) n x n − x
p q si x ∈C
µ = np
Binomial B (n, p) C = {0,1, 2, 3,..., n} n ∈N f ( x ) = x σ 2 = npq σ = npq
0< p<1 0
si x ∉C
Geométrica G(p) p q x −1 p si x ∈C 1 q q
C = {1, 2, 3,..., n,...} f ( x) = µ= σ2 = σ=
o de Pascal 0< p<1 p p2 p
0 si x ∉C
r, p r + x − 1 r x
Binomial negativa p q si x ∈C r
σ2 =
rq rq
C = {0,1, 2,..., n,...} 0< p<1 f ( x ) = r − 1 µ= σ=
BN(r, p) p p2 p
r ∈N 0
si x ∉C
N1 N − N1
DISTRIBUCIONES DE PROBABILIDAD DISCRETA
C = { x ∈N m ≤ x ≤ M } x n − x si x ∈C
Hipergeométrica N1 f ( x) = N
siendo N , n, p =
N N n µ = np N−n N −n
σ 2 = npq σ = npq
H N , n, p = 1 n<N N −1 N −1
N m = máx {0, n − ( N − N1 )}
0 si x ∉C
0 < p <1
M = mín { N1 , n}
N1 = Np
N − N1 = Nq
233
λ x −λ
λ f ( x) = P ( X = x ) = e si x ∈C
Poisson P (λ) C = {0,1, 2,..., n,...} x! µ=λ σ2 = λ σ= λ
λ>0
f ( x) = 0 si x ∉C
234 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
5.8.1. Razonar si es posible que la función definida por la siguiente tabla sea una
función de probabilidad
X –3 -2 –1 0 1 2 3
5.8.2. Para estimular el interés en la venta un empresario que paga un sueldo men-
sual de 1.200 €/mes, decide pagar al empleado una cantidad adicional de 200 € por
cada cuadro que venda. El empresario ha estimado la probabilidad de que venda en
un mes x cuadros, y se indica en la siguiente tabla:
X
0 1 2 3 4 5 6 7 8
núm. de cuadros
P(X = x) 0,01 0,20 0,20 0,15 0,15 0,11 0,10 0,05 0,03
En el anuncio que pone para buscar empleados asegura que puede ganar más de
2.600 €/mes.
a) ¿Cuál es la probabilidad de que esto ocurra?
b) Calcular el número de cuadros esperado que venderá en un mes.
c) ¿Qué cantidad mensual cobrará de media el empleado?
d) Calcular la probabilidad de que cobre al mes más de 1.500 € y menos de
2.600 €.
1
5.8.5. Calcular la probabilidad de que una variable de Poisson de parámetro
tome un valor mayor que 6. 2
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 235
5.8.6. Una gran empresa invita a sus mejores clientes a un concierto. Por experiencias an-
teriores sabe que acudirá el 60% de los invitados. Ningún invitado conoce la lista de per-
sonas seleccionadas y acude al concierto independientemente de que vaya o no otro invi-
tado. Se eligen al azar quince personas de las invitadas. Calcular la probabilidad de que:
a) Sólo acudan cinco al concierto.
b) Acudan al menos diez al concierto.
c) Si sólo hay 1.200 localidades disponibles, ¿a cuántas personas deberán man-
dar invitación para asegurar que no quede ninguna localidad vacía?
5.8.7. En una zona sísmica Z1, el número de terremotos de intensidad mayor que 7 en
la escala de Richter durante un año sigue aproximadamente una distribución de Pois-
son de media 1, y en otra zona Z2 el número de terremotos de intensidad mayor que 4
en la escala de Richter durante un año sigue otra distribución de Poisson de media 5.
¿En qué zona es mayor la probabilidad de que haya más de diez terremotos en un año?
5.8.8. Un tirador de tiro al plato con probabilidad 0,8 de dar en el blanco realiza cua-
tro disparos. Se designa por X el número de aciertos.
a) ¿Cuál es la función de probabilidad de X?
b) Calcular la probabilidad de obtener como mínimo dos aciertos.
5.8.9. Se cruza una cobaya albina aa con un heterocigoto Aa. ¿Cuál es la probabili-
dad de que dos de los seis descendientes sean albinos?
5.8.10. El director de una aseguradora de automovilistas desea saber cuál debe ser la
cuota que tiene que cobrar por un seguro de 30.000 € en caso de accidente mortal,
supuesto que se mantenga la proporción de accidentes mortales en el 7% de los ase-
gurados. Determinar la cuota.
5.8.11. Una distribución de Poisson tiene dos modas que son x = 3 y x = 4. Calcular
la probabilidad de que la variable tome el valor x = 5.
5.8.12. Los árboles de una cierta especie que se someten a un determinado trata-
miento son muy resistentes a la enfermedad E, se puede asegurar que la probabilidad
de que un árbol tratado padezca dicha enfermedad es 0,01. Se designa por X la va-
riable aleatoria cuyos valores son el número de árboles tratados que padecen la en-
fermedad E. En una parcela en la que hay plantados 150 árboles de dicha especie,
a) Dar la función de probabilidad de la variable aleatoria X.
b) ¿Cuál es el número de árboles de la parcela con mayor probabilidad de estar
enfermos?
5.8.13. La probabilidad de que se produzca un apagón en una gran ciudad un día la-
borable es 0,015. a) Calcular la función de probabilidad de que en 250 días labora-
bles falle el suministro de energía x días. b) ¿Cuál es la probabilidad de que el nú-
mero de días sin corte de energía sea inferior a 245?
236 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
5.8.15. Se sabe que el 40% de las 1.000 cobayas de un laboratorio se han tratado con
un medicamento en experimentación. Se eligen al azar 20 cobayas.
a) ¿Cuál es la probabilidad de que haya x en la muestra de las que han sido tra-
tadas con ese medicamento?
b) Calcular la probabilidad de que haya al menos 3 cobayas tratadas en la mues-
tra.
5.8.16. Se tienen mezcladas 200 semillas de una variedad con 300 de otra y no son
distinguibles a simple vista. Si se eligen al azar 20 de las 500 semillas y X represen-
ta el número de las que son de la primera variedad, se pide:
a) La distribución de la variable X, indicando su función de probabilidad.
b) La media y la desviación típica de X.
c) La probabilidad de que en la muestra haya 20 semillas de la primera variedad,
que haya 3, que haya 15, que haya 5, que no haya ninguna.
5.8.17. La probabilidad de que una sucursal bancaria abra una cuenta con un saldo
inicial superior o igual a 90.000 € es 10–4. Si durante un año abren 1.200 nuevas
cuentas, calcular la probabilidad de que tengan saldo inicial superior o igual a
90.000 €
a) dos cuentas,
b) al menos una cuenta,
c) como máximo dos cuentas.
5.8.20. Se consideran dos caracteres genéticos con dominancia completa cuyos ge-
nes alelos son (A, a) y (B, b). Se cruza un individuo raza pura dominante respecto de
ambos caracteres con otro raza pura recesiva de los que se obtiene la generación F1.
Se cruzan ahora dos individuos de la generación F1 de los que se obtienen 10 indi-
viduos que forman la generación F2. Calcular la probabilidad de que:
a) Sea x el número de individuos de F2 que pertenecen a los dos fenotipos do-
minantes.
b) Por lo menos uno de los individuos de F2 tenga los dos fenotipos dominantes.
c) Exactamente tengan los dos fenotipos dominantes la mitad de los indivi-
duos de F2.
5.8.21. En una fábrica tienen tres máquinas eléctricas que funcionan de forma indepen-
diente cuyas potencias respectivas son: 1 kw, 2 kw y 3 kw. La probabilidad de que estén
en marcha en una jornada laboral cada una de ellas es, p1 = 0, 6, € p2 = 0, 8 y p3 = 0, 3,
respectivamente. Se considera la variable aleatoria cuyo valor es la suma de las potencias
de las máquinas que están en funcionamiento en un instante dado. Se pide:
a) La función de probabilidad de la variable aleatoria X.
b) La esperanza matemática de X.
5.8.22. Las semillas de una leguminosa se envasan en bolsas de 200 unidades cada
una y se ha comprobado que el 2% de las semillas son infértiles. Se indica por X el
número de semillas que no germinan por bolsa.
a) ¿Cuál es la función de probabilidad de X?
b) Hallar el valor esperado del número de semillas que no germinan y la varianza.
c) ¿Se puede aproximar esta distribución por una de Poisson? Razonar la respuesta.
d) Calcular, si es posible, utilizando la aproximación anterior, la probabilidad de
que el número de la infértiles de una bolsa sea 7.
e) Ídem la probabilidad de que sea menor que 6 el número de las infértiles por bolsa.
5.8.23. En un vivero hay 20 plantas de la misma especie, de las cuales 5 son del eco-
tipo E1 y el resto del ecotipo E2. Se eligen para plantar ocho de esas plantas. Se de-
signa por X el número de las elegidas que son del ecotipo E1.
a) Hallar la función de probabilidad de X, indicando su recorrido.
b) Calcular la media, la varianza y la desviación típica de X.
5.8.24. Una centralita recibe una media de 300 llamadas por hora. No puede esta-
blecer más de 12 conexiones en un minuto. Calcular la probabilidad de que:
a) Quede bloqueada en un minuto dado.
b) Reciba en un minuto una sola llamada.
238 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
5.8.25. El promedio de piezas de mármol defectuosas de las cortadas por una má-
quina es de una entre dos mil. Se elige un lote de 9.000 de las piezas cortadas por di-
cha máquina. Calcular la probabilidad de que el número de defectuosas sea:
a) Al menos una.
b) Menor que 10.
c) Mayor que 5 y menor que 10.
5.8.27. Una compañía aseguradora comienza una campaña telefónica con el objeto
de aumentar el número de asegurados. Se sabe que una de cada 20 personas que con-
testan la llamada decide aceptar la oferta. En un día se habla por teléfono con 25 per-
sonas:
a) ¿Cuál es la probabilidad de que por lo menos dos de ellas se aseguren en esa
compañía?
b) ¿Cuál es la probabilidad de que ninguna se asegure?
c) ¿Cuál es el número esperado de pólizas nuevas?
5.8.29. Un bibliotecario presta libros a 40 personas por término medio en una jor-
nada de ocho horas. Sale quince minutos a tomar café. En ese intervalo de tiempo:
a) ¿Cuál es el número esperado de personas que no le encontrarán en la biblioteca?
b) ¿Cuál es la probabilidad de que al menos una persona no le encuentre?
5.8.30. Se considera una variable aleatoria discreta X con valores estrictamente po-
sitivos y función de probabilidad de la forma:
1 1
− si€ 1 ≤ x ≤ 5a, € € siendo€ a ∈ Z +
P( X = x ) = a 5
0 si€ € x > 5a
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 239
a) Calcular el valor de a para que esa función sea una función de probabilidad.
b) Determinar la función de probabilidad acumulada de X.
c) Calcular la esperanza matemática de X.
d) ¿Qué relación han de tener a y b para que la función de probabilidad de Y sea:
1 1
− si 1 ≤ y ≤ ab, siendo€ a, b ∈ Z +
P(Y = y) = a b
0 si x > ab
5.8.31. Se trata contra determinada enfermedad el 40% de los árboles de una parce-
la. Se sabe que la probabilidad de que un árbol tratado enferme es 0,02 y que la pro-
babilidad de que sufra la enfermedad un árbol no tratado es 0,30.
a) Calcular la probabilidad de que no enferme un árbol cualquiera de la parcela.
b) ¿Cuál es la probabilidad de que haya sido tratado un árbol que no enfermó?
c) Si se sabe que el tratamiento aplicado a cada árbol costó k €, y que se han
vendido todos los árboles de la parcela al precio de 3k € los sanos y a k € los
enfermos, calcular la ganancia esperada por árbol.
Distribuciones de probabilidad
continuas 6
x
X–1
X(e)
0 P(Bx) 1 R
241
242 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
P6. lim F ( x ) = 0.
x →− `
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 243
EJEMPLO 6.1.
Representar la función
0 si x < 2
x−2
si 2 ≤ x < 4
10
1
F( x ) = si 4 ≤ x < 5
5
4 x − 19
5 si 5 ≤ x < 6
1 si x ≥ 6
y comprobar que es una función de distribución para una variable aleatoria continua.
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
d
P2. Por ser f ( x ) = F( x ), es decir, la función de densidad es la derivada de
dx
la función de distribución, también se puede escribir una nueva relación
entre las funciones de densidad de probabilidad y de distribución, que es
consecuencia del Teorema Fundamental del Cálculo:
+`
P4. ∫ f ( x )dx =1, es decir, el área limitada por el eje real y la función de den-
−`
sidad es la unidad.
x
Esta propiedad se obtiene de la expresión ∫ f (t )dt = F( x ) tomando lí-
mite cuando x → + `, pues −`
EJEMPLO 6.2.
Hallar la función de densidad de probabilidad de la variable aleatoria continua X
cuya función de distribución es la del Ejemplo 6.1. y representarla.
F(x)
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
Como consecuencia de ser nula la probabilidad asociada a un punto para las va-
riables aleatorias continuas, se verifica que cualquiera que sea la v.a. X continua:
igualdad que significa que la probabilidad de que una v.a. continua X tome valo-
res en el intervalo [a, b] es el área limitada por el eje de abscisas, la función de
densidad y las ordenadas x = a y x = b. Y esta probabilidad es la misma tanto si el
intervalo es cerrado, abierto o semiabierto.
EJEMPLO 6.3.
Hallar la función de densidad de la v.a. X que tiene por función de distribución:
0 si x ≤ 0
1
F ( x ) = 5 x si 0 < x ≤
5
1
1 si x >
5
y representar las funciones de distribución y de densidad.
2
y = F(x)
1
x
–4 –3 –2 –1 1/5 1 2 3 4
–1
–2
–3
–4
y su gráfica es la siguiente:
5
y = f(x)
0 1/5
EJEMPLO 6.4.
La función de densidad de una v.a. X es de la forma:
a) Determinar el valor de k.
b) Calcular la probabilidad P(X < 0,7).
EJEMPLO 6.5.
x − 1 si 1 ≤ x ≤ 2
a) Comprobar que la función f ( x ) = 3 − x si 2 < x ≤ 3 es una función de
0 para el resto
densidad.
b) Determinar la función de distribución correspondiente.
c) Calcular la P(1,5 < X ≤ 2,5).
+`
a) La función f(x) ≥ 0, ∀ x ∈⺢, falta comprobar que ∫ f ( x )dx = 1.
−`
c)
EJEMPLO 6.6.
Hallar la esperanza matemática de la variable aleatoria X con función de den-
x − 1 si 1 ≤ x ≤ 2
sidad f ( x ) = 3 − x si 2 < x ≤ 3
0 para el resto
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 251
P2. Si X es una variable aleatoria y a y b son constantes reales, por las pro-
piedades de la integral definida:
P3.
y que
252 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Propiedades:
P1. Var (aX + b) = a2 Var ( X ), y en consecuencia σ aX +b = a σ X .
P2. Si a la v.a. X que tiene E(X) = µ y desviación típica σ se le resta la media
y se divide el resultado por la desviación típica, se obtiene otra variable,
X−µ
Z= , que tiene E( Z ) = 0 y desviación típica 1. Se dice que se ha
σ
tipificado la variable X.
EJEMPLO 6.7.
Calcular la varianza de la variable aleatoria X con función de densidad:
x − 1 si 1 ≤ x ≤ 2
f ( x ) = 3 − x si 2 < x ≤ 3
0 para el resto
EJEMPLO 6.8.
Para cualquier variable aleatoria X, discreta o continua, de media µ y desviación
típica σ, se puede asegurar que:
1
P ( X − µ < 2, 5 σ ≥ 1 −
) = 0, 840
2, 52
que indica que la probabilidad de que la variable diste de su media al menos k veces
1
la desviación típica es como máximo 2 .
k
EJEMPLO 6.9.
La distribución de la variable aleatoria X es desconocida. Se sabe que su media
es 3,2 y la varianza 4. Calcular: a) P(−4, 8 < X < 11, 2), Ä b) P ( X − 3, 2 > 4 ) .
256 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 6.10.
De la variable aleatoria X sólo se conoce que su media es 7 y su varianza 9.
a) ¿Qué se puede afirmar sobre las probabilidades siguientes?
9 1
a) P ( X − 7 > 4, 5) = 1 − P X − 7 ≤ ≤ 1 − 1 − = 4 .
2 9 9
4
4
La P ( X − 7 > 4, 5) es como máximo . 0, 4444.
9
4 5
Teniendo en cuenta el resultado anterior, P ( X − 7 ≤ 4, 5) ≥ 1 − = .
9 9
5
La P ( X − 7 ≤ 4, 5) es al menos . 0, 5556.
9
r = 3k
b) P ( X − 7 > r ) ≤ 0, 04 ⇒ 2
1 Por tanto k = 25 y r = 5 ⋅ 3 = 15.
0, 04 =
k 2
+` b
pero como ha de cumplirse que ∫ f ( x )dx = 1 ⇒ ∫ kdx = 1 ⇒ k (b − a) = 1 ⇒ k = 1 .
−` a b−a
Por tanto:
y la varianza:
258 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Densidad
0,3
0,12 Típ. Típ.
0,2
0,08 5,2 5,1
0,04 0,1
0 0
–5 –1 3 7 11 15 0 2 4 6 8 10
x x
−` −` σ 2π
σ 2π
.
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 259
Probabilidad
acumulada
acumulada
0,8 Desv. 0,8 Desv.
0,6 Típ. 0,6 Típ.
0,4 –5,2 0,4 –5,1
0,2 0,2
0 0
–5 –1 3 7 11 15 0 2 4 6 8 10
x x
y la varianza es:
se tiene:
Típ.
0,2 0,1
0,1
0
–5 –3 –1 1 3 5
x
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 261
Típ.
0,6
–0,1
0,4
0,2
0
–5 –3 –1 1 3 5
x
y también que:
EJEMPLO 6.11.
Para una variable aleatoria X que sigue una distribución normal N(µ = 30, σ = 2)
calcular las siguientes probabilidades:
262 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 6.12.
Se embolsa por kg arena recogida en un río. Se sabe que el porcentaje de hu-
medad X, por kg de arena sigue una distribución N(µ = 15, σ = 0,3), sólo se aceptan
los sacos con porcentaje de humedad menor del 18%, ¿qué porcentaje de los sacos
no se aceptarán? ¿Qué porcentaje tienen más del 12% y menos del 18%?
El 68,26% de los sacos tienen más del 12% de humedad y menos del 18%.
EJEMPLO 6.13.
La longitud X de las piezas de mármol, en metros, cortadas por una máquina si-
gue una distribución N(µ = 0,5, σ = 0,01). Para una obra especial sólo se aceptan
las piezas de longitudes comprendidas entre 0,495 m y 0,505 m. ¿Qué probabilidad
hay de aceptar una pieza elegida al azar? ¿Qué proporción de piezas se pueden en-
tregar?
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 263
EJEMPLO 6.14.
Si X ~ N(5,2) determinar un intervalo centrado en la media tal que la probabili-
dad de que X pertenezca al intervalo sea 0,95.
Para determinar el intervalo con probabilidad 0,95 hay que dar un número r
positivo tal que P ( X − 5 < r ) = 0, 95.
Pero
r
De la tabla de la N(0,1) se obtiene que = 1, 96, de donde r = 3,92. Por tanto
2
el intervalo pedido es { x ∈R / x − 5 < 3, 92} = { x ∈R / 1, 08 < x < 8, 92} = (1, 08; 8, 92)).
siendo k una constante que determina con la condición de que f(x) sea una función
de densidad de probabilidad de una variable continua, por tanto k ≥ 0 y además
Normal tipificada 1 − z2 2
Z ~ N(0,1)
— f (z ) = e 0 σ2 =1
2π
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 265
f ( x ) = α ( x − 2) (10 − x )
β x2 si 0 < x ≤ 2
f ( x ) = β ( 6 − x ) sii 2 < x ≤ 6
0 en el resto
Se pide:
a) Calcular el valor de β para que f(x) sea su función de densidad.
b) Hallar la correspondiente función de distribución.
c) Calcular el valor esperado de X
d) Se eligen cinco valores al azar de X, ¿cuál es la probabilidad de que exacta-
mente dos de ellos estén comprendidos entre 2 y 4?
0 si x < 0
f ( x ) = kx si 0 ≤ x ≤ 5
0 si x > 5
0 si x<3
4 x − 12 si 3 ≤ x < 3, 5
6.12.5. Dada la función f ( x ) =
−4 x + 16 si 3, 5 ≤ x < 4
0 si x>4
266 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
3Kx 3 si 0 < x ≤ 1
f ( x ) = K (4 − x ) si 1 < x ≤ 4
0 en el resto
Se pide:
a) Calcular el valor de K.
b) Hallar la función de distribución de la variable X.
c) Calcular la media de X.
0 si t ≤ 0
f (t ) = −kt
β e 4 si t > 0
0 si x ≤ 0
f ( x ) = cx 2 si 0 < x < 2
2− x
ce si x ≥ 2
a) Determinar el valor de c.
b) Hallar la función de distribución de la variable aleatoria X.
c) Calcular la probabilidad del suceso A ∪ B, siendo
A = { x ∈R x ≤ 1, 5} y B = { x ∈R x > 1, 5}
−x 4
f ( x ) = β xe si x ≥ 0
0 para cualquier otro valor
6.12.12. Para la variable aleatoria Z ~ N(0,1), hallar el área bajo la curva de su función
de densidad y que está comprendida entre –z y z, para los siguientes valores de z:
z = 1; z = 1, 96; z = 2; z = 2, 33; z = 2, 58; z = 3
6.12.13. Hallar el valor de la variable aleatoria Z ~ N(0,1) que verifica cada una de
las siguientes condiciones:
a) La probabilidad entre 0 y z es 0,4505.
b) El valor de z deja a su derecha probabilidad 0,9292.
c) El valor de z deja a su izquierda probabilidad 0,0307.
d) La probabilidad por debajo de z es 0,6480.
e) El valor de z deja a su derecha probabilidad 0,0392.
f) La probabilidad comprendida entre –z y z es 0,5934.
6.12.14. Una variable aleatoria tiene una distribución normal de media 57,4 y
desviación típica 8,4 ¿cuál es la probabilidad de que esta variable aleatoria tome un
valor:
268 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
6.12.15. En una bolsa de trabajo hay 80.000 personas cuyo cociente intelectual,
expresado en tanto por ciento, está distribuido según una normal con media 107 y
desviación típica 12. Si cierto trabajo sólo lo pueden realizar las personas con un co-
ciente intelectual de al menos 100 y los que tienen un cociente intelectual superior a
120 se cansan pronto y se aburren con dicha tarea, determinar cuántas personas de la
bolsa de trabajo serán idóneas para realizar esa tarea teniendo en cuenta sólo la in-
formación proporcionada por el cociente intelectual.
6.12.16. Los gastos anuales por familia en una determinada Comunidad Autónoma
siguen una distribución normal de media 17.655 € y desviación típica 2.730 €. Para
esa población
a) ¿Qué porcentaje de familias gastan anualmente menos de 12.500 €?
b) ¿Qué porcentaje de familias tienen un gasto anual superior a 18.000 €?
c) Calcular el percentil 90 para la distribución de los gastos anuales en esa Co-
munidad Autónoma.
6.12.17. Una población formada por cinco millones de insectos de la misma especie
tiene el 52% de hembras. La longitud de los machos, en mm, sigue una distribución
normal de media 1,68 y desviación típica 0,2, determinar cuántos machos miden
a) Menos de 1,75 mm.
b) Más de 1,60 mm.
c) Menos de 2,05 mm.
d) Más de 1,20 mm.
K
3
si x≥0
f ( x ) = (1 + x )
0 si x<0
a) Determinar el valor de K.
b) Hallar la función de distribución.
c) Calcular la media, la mediana y el primer cuartil.
6.12.19. El tratamiento de un gran pinar atacado por una plaga de procesionaria tie-
ne una duración normal de media 8 días y desviación típica 3 días. Calcular la pro-
babilidad de que el tratamiento de ese pinar:
a) Sea inferior a siete días.
b) Sea superior a tres días.
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 269
f ( x ) = ax 3 (1 − x ) , a > 0
6.12.21. La venta anual de la producción de una fábrica es una variable aleatoria X con
valores comprendidos entre cero y diez millones de euros. Se ha ajustado a la función
de densidad de X un modelo de la forma f ( x ) = K (10 − x )2 siendo x ∈[ 0, 10 ] y K
una constante.
a) Calcular el valor de K.
b) Dar la función de distribución.
c) Calcular el valor esperado de la venta anual.
d) Calcular la probabilidad de que fabricando por valor de µ + σ en un año no se
puedan atender todos los pedidos de ese año.
A; A ∩ B; A ∪ B; B ∩ A; B ∪ C; B ∩ C ; D ∩ E; C ∩ ( D ∪ E ) ; C ∩ E
6.12.23. Se sabe que X es una variable aleatoria normal, que P(X ≤ 3,5) = 0,4872 y
que P(X ≤ 7,5) = 0,7540. Determinar los parámetros de la distribución de X.
a) Determinar el valor de M.
b) Hallar la función de distribución.
c) Calcular la media, el primer cuartil y la mediana.
6.12.26. La probabilidad de que una variable aleatoria continua X tome un valor menor
o igual que cualquier x de su recorrido, [a, b], es lineal en x. Hallar:
a) La función de distribución de X.
b) La función de densidad de X.
c) El valor esperado, la moda y la mediana de X.
d) La varianza de X.
e) Los coeficientes de asimetría y de curtosis.
0 si x≤0
f ( x ) = α x 3 si 0 < x <1
1− x
α e si x ≥1
a) Determinar el valor de α.
b) Dar la función de distribución de X
c) {
Calcular P ( 0, 5 < X < 2 ) ; P ( X > 2 X > 1) ; P( A) siendo A = x ∈R / x ≤ 1 .
2 }
d) Hallar la media y la varianza de la distribución.
e) Calcular el coeficiente de asimetría.
6.12.28. Una máquina corta piezas cuyo grosor es una variable aleatoria continua X con
función de densidad f ( x ) = K ( 3 − x ) ( x − 1, 5) siendo 1, 5 < x < 3, midiendo x en cm.
a) Calcular el valor de K.
b) Hallar la función de distribución.
c) Se rechazan las piezas con grosor menor que 1,7 cm o mayor que 2,8 cm,
¿cuál es la probabilidad de que no se rechace una pieza tomada al azar de las
cortadas por la máquina?
d) Si las piezas se empaquetan en cajas de 10, hallar la probabilidad de que en
una caja elegida al azar haya menos de dos piezas no admisibles.
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 271
0 si x≤0
F( x ) = x si 0< x <1
1 si x ≥1
273
274 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
formado por todos los elementos del espacio muestral E × E que se transforman
en (x, y) por la aplicación (X, Y), es un suceso del espacio muestral, es decir, un
elemento de la σ-álgebra de sucesos de E × E.
A cada par ( x , y ) ∈ CX × CY de la variable aleatoria bidimensional (X, Y), o
vector aleatorio bidimensional V = (X, Y) es decir, a cada uno de los valores
( x, y ) ∈CX × CY se le puede asociar un suceso del espacio muestral E × E.
EJEMPLO 7.1.
Se lanza un dado dos veces seguidas. Si (X, Y) representa el resultado de las dos
tiradas, C X = CY = {1, 2, 3, 4, 5, 6} .
La función de probabilidad conjunta de X e Y es:
Para el par (6,6), o para los pares (x, y) en los que x ≥ 6 e y ≥ 6, la función de
probabilidad acumulada conjunta toma el valor 1
O también
276 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
La varianza de la v.a. X
La varianza de la v.a. Y
EJEMPLO 7.2.
Las funciones de probabilidad marginales para la función de probabilidad del
Ejemplo 7.1.
Y
1 2 3 4 5 6 f1(x)
X
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Las distribuciones marginales son iguales, se dice que las variables aleatorias X
e Y son idénticamente distribuidas.
La esperanza matemática de la v.a. X es:
O también
DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES 277
EJEMPLO 7.3.
En el Ejemplo 7.1. la función de probabilidad de Y condicionada a X = 3 es:
Y también
X e Y son independientes, si y sólo si se verifica que ∀x ∈CX es:
f2 ( y X = x ) = f2 ( y) cualquiera que sea el valor de y ∈ Cy
EJEMPLO 7.4.
En el Ejemplo 7.1. 1as variables X e Y son independientes porque
DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES 279
EJEMPLO 7.5.
Sea X el número que aparece en la cara superior de un dado al lanzarlo sobre
una mesa e Y una variable de Bernoulli, independiente de X, que toma el valor 1 si
se obtiene bola blanca al sacar una bola al azar de una bolsa que contiene 100 bolas
de las que 20 son blancas y el resto rojas. Dar la función de probabilidad conjunta de
X e Y y las marginales para X e Y.
y la de Y es:
Y
1 2 3 4 5 6
X
4 4 4 4 4 4
0
30 30 30 30 30 30
1 1 1 1 1 1
1
30 30 30 30 30 30
EJEMPLO 7.6.
Para el Ejemplo 7.1. precisar la función de probabilidad de la variable aleatoria X2
y de la variable W = X + Y.
Propiedades:
1.
2.
3.
EJEMPLO 7.7.
Para el Ejemplo 7.1. calcular la esperanza matemática de la variable aleatoria X2.
que recibe el nombre de función generatriz de momentos respecto del origen para
la variable aleatoria X, siempre que la serie sea convergente.
( ) ( ) ( )
3. Si Y = X + b entonces E (e tY ) = E e t( X +b ) = E e bt .e tX = e bt E etX .
4. Si X e Y son dos variables aleatorias independientes, la función generatriz
de la v.a. X + Y es el producto de las funciones generatrices de las varia-
bles X e Y.
5. Teniendo en cuenta el desarrollo en serie de la función exponencial etX, es
decir,
EJEMPLO 7.8.
Hallar la función generatriz de momentos para la distribución de Poisson de pa-
rámetro λ y calcular a partir de ella la esperanza matemática y la varianza.
284 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 7.9.
Hallar la función generatriz de momentos respecto del origen para la distri-
bución binomial de parámetros n y p, y demostrar que la distribución binomial
converge a la de Poisson cuando p es pequeña y el número de pruebas tiende a in-
finito.
ceso S, éxito, en las n pruebas. En cada una de las n repeticiones del experimento se
–
puede obtener éxito (se verifica S) o fracaso (se verifica el suceso S ).
Si se consideran dos variables aleatorias X1 y X2 que cuentan en las n pruebas
el número de éxitos y el número de fracasos respectivamente, los valores de am-
bas variables siempre sumarán n, no serán por tanto independientes, y la función
de probabilidad conjunta será:
siendo
EJEMPLO 7.10.
Se cruzan dos individuos heterocigóticos Aa, calcular la probabilidad de que en
la primera generación filial se obtengan:
a) Ocho individuos de los que sean 4 de raza pura recesiva, 2 dominantes y el
resto híbridos.
b) Diez individuos de los que sean 2 dominantes, 2 recesivos y el resto híbridos.
b) Ahora n = 10, x1 = 2, x 2 = 6, x 3 = 2.
R Y
Bxy
e(e1,e2)
e2
V = (X,Y)
E
Y(e2) = y
e1 (x,y)
–1
V
(X(e1),Y(e2))
Y(e2)
X
P(Bxy)
0 X(e1) X(e1) = x R
0 1R
1. 0 ≤ F ( x , y ) ≤ 1, ∀ ( x , y ) ∈R × R.
2. lim F ( x, y) = 1.
x →+ `
y →+ `
∂2
La función f ( x , y) = F( x , y) recibe el nombre de función de densidad de
∂x ∂y
probabilidad conjunta de X e Y. Esta función es no negativa, es decir,
y verifica:
La función de densidad conjunta f(x, y) representa una superficie que está si-
tuada por encima del plano XY y que determina con él una figura en el espacio ⺢3
de volumen unidad.
Dos variables X e Y para las que se pueda definir una función de densidad
conjunta se dice que tienen una distribución bidimensional continua.
10
8
(x1,y2) (x2,y2)
6
2 (x1,y1) (x2,y1)
–4 –2 2 4 6 8 10
–2
EJEMPLO 7.11.
Determinar el valor de k para que la función:
k ( x + y) si 0 ≤ x ≤ 4, 0 ≤ y ≤ 4
f ( x , y) =
0 para lo
os restantes valores
+` +`
Para determinar k se iguala ∫ − ` ∫− ` f ( x , y)dxdy = 1.
z
y
x
0,50
0,25
0
4
0 y
x
4 0
Si
entonces F( x , y) = P( X ≤ x , Y ≤ y) = ∫ x dx ∫ y f ( x , y)dy =
−` −`
x y 1 x y 1
= ∫0 ∫ 0 ( x + y)dydx = ∫ 0 ∫0 (u + v ) dvdu =
64 64
x
1 x y2 1 u2 y2 1
= ∫
64 0
uy +
2 du =
64 2
y + u =
2 0 128
x 2 y + y2 x( )
Por tanto, la función de distribución es:
La siguiente gráfica,
z
y x 3
0
5
5 x
y
0 0
EJEMPLO 7.12.
Las distribuciones marginales correspondientes al Ejemplo 7.11. se comprueba
con facilidad que son:
si la integral es convergente.
La varianza de la v.a. X
La varianza de la v.a. Y
Análogamente, si f1(x) ⫽ 0,
Y también:
EJEMPLO 7.13.
Hallar las funciones de probabilidad condicionadas para la distribución bidi-
mensional del Ejemplo 7.11.
4
Se comprueba sin dificultad que ∫0 f2 ( y X = x ) dy =1.
A partir de lo ya explicado es fácilmente comprensible la generalización de
los conceptos de distribuciones conjuntas, marginales y condicionadas para dis-
tribuciones multidimensionales, sustituyendo el vector bidimensional V = (X, Y)
por un vector n-dimensional X = (X1,X2,..., Xn).
EJEMPLO 7.14.
¿Son independientes las variables aleatorias del Ejemplo 7.11.?
1 x +2 y+2
Como f ( x , y) = ( x + y) ≠ f1 ( x ) f2 ( y) = , las variables X e Y son
64 16 16
dependientes.
Las variables aleatorias X1 , X2 ,..., Xn son independientes, si y sólo si se veri-
fica que la función de densidad conjunta es el producto de las marginales:
Observaciones:
• Dos variables aleatorias X e Y que proceden de dos experimentos aleatorios
independientes y distintos son independientes.
• También en el caso en que la función de densidad conjunta f (x, y) de las variables
X e Y se pueda escribir como el producto de una función de x, g1(x), por una fun-
ción de y, g2(x), es decir, si f ( x , y) = g1 ( x )g2 ( y), entonces las variables X e Y
son independientes y sus funciones de densidad marginales son proporcionales a
g1(x) y g2(x) respectivamente. La constante de proporcionalidad se determina con
la condición de que la probabilidad total sea 1 en ambos casos, es decir:
7.3.4. Covarianza
Además de los momentos de las variables unidimensionales interesa estudiar
los momentos conjuntos que explican si hay o no relación entre las variables.
De los momentos conjuntos el más utilizado es la covarianza.
Se define la covarianza de las variables aleatorias X e Y de medias E ( X ) = µ X
y E(Y ) = µY , y, tanto si son discretas como si son continuas, como
Propiedades de la covarianza:
• Si Y = X , entonces σ XY = σ XX = Var ( X ) = σ X2 .
• X e Y son independientes ⇒ σ XY = 0.
De donde:
EJEMPLO 7.15.
Para las variables aleatorias X e Y, independientes, se sabe que µ X = E ( X ) = 5;
µY = E ( Y ) = 7; σ X2 = 2; σ Y2 = 3. Calcular:
a) E ( X + Y ) = µ x + µY = 12.
b) E ( 2 X + 3Y ) = 2 E ( X ) + 3 E (Y ) = 31.
c) E ( 3 X − Y ) = 3E ( X ) − E ( Y ) = 8.
298 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
( )
e) Para calcular E(X2), teniendo en cuenta que σ 2X = E ( X − µ X )2 = E X 2 − µ X2
( )
( )
se deduce que E X 2 = σ X2 + µ X2 = 27.
f) Análogamente E ( Y ) = σ 2 2
Y + µY2 = 52.
EJEMPLO 7.16.
( ) ( )
b) E X 2 , E Y 2 y E ( XY ) .
a) E ( 2 X − Y ) = 2 E ( X ) − E ( Y ) = 8
Var ( 2 X − Y ) = 22 σ X2 − 2σ 2 XY + σ Y2 = 4σ X2 − 4σ XY + σ Y2 = 1, 0921
E ( X + Y ) = E ( X ) + E ( Y ) = 37
Var ( X + Y ) = σ X2 + 2σ XY + σ Y2 = 0, 2221
b) E X 2 = σ 2 + µ 2 = 225, 25
( ) X X
E (Y ) = σ
2 2
Y + µY2 = 484, 0121
es decir,
es decir,
y, por ser eitx = cos tx + i sen tx y en consecuencia | eitx | =1, esta suma es siempre
una serie absolutamente convergente porque
302 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2. ϕ ( t ) ≤ 1.
3. ϕ ( t ) = ϕ ( −t ) .
4. Si X e Y son dos variables aleatorias independientes entonces ϕ X +Y ( t ) =
ϕ X (t ) ⋅ ϕ Y ( t ) .
5. Si Y = a + bX entonces ϕ Y ( t ) = e iatϕ X ( bt ) .
EJEMPLO 7.17.
Para la función de densidad de probabilidad del Ejemplo 7.11.
1
( x + y ) si 0 ≤ x ≤ 4, 0 ≤ y ≤ 4
f ( x, y) = 64
0 para los restantes valores
x
0 4 5
304 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
4
u–v=0 u+v=8
2
u
–4 0 4 8
–2
u+v=0 u–v=8
–4
–6
–8
EJEMPLO 7.18.
Teniendo en cuenta el resultado del ejemplo anterior, determinar la función de
densidad de probabilidad de la variable suma X + Y y comprobar que es efectiva-
mente una función de densidad.
Que es una función de densidad por ser siempre positiva o cero y además
¿La función de densidad de una variable aleatoria bidimensional tiene que estar de-
finida necesariamente en un conjunto acotado? No, a continuación se presenta la dis-
tribución normal bidimensional que está definida en todos los puntos del plano × .
jeto, sintetizando las dos dimensiones en una sola distribución, que permite estudiar
la relación entre ambas y también como modelo de distribución de una variable
normal en dos personas de la misma familia o para dos variables relacionadas.
Dadas dos variables aleatorias continuas X e Y se dice que tienen una distri-
bución conjunta normal bidimensional si su función de densidad conjunta está de-
finida para todo (x, y) ∈ × por:
coincide con:
x 0,25
y
–2,5
–0,25
–2,5
y
x
2,5 2,5
x 0,25
y
–3
–0,25
–3
y x
3 3
y varianza:
siendo µ1, µ2,..., µn constantes, así como cij , ∀i = 1, 2,..., n, ∀j = 1, 2,..., m y Z1,
Z2,..., Zm m variables aleatorias independientes y con distribución N(0, 1), cada una
m
de las variables Xi , N µi , σ i = ∑ cij2 y se dice que el conjunto X1, X2,..., Xn sigue
j =1
una distribución normal multidimensional.
DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES 309
Y
3 6
X
0 0,1 p
1 0,5 p
a) Determinar el valor de p.
b) Dar las funciones de probabilidad marginales.
c) Calcular las medias y las varianzas marginales.
d) Hallar la covarianza.
e) Calcular el coeficiente de correlación de X e Y.
f) Dar la función de probabilidad acumulada conjunta.
g) ¿Son independientes X e Y?
7.8.2. En una población respecto de un carácter diploide, el 30% son de genotipo do-
minante, el 42% son híbridos y el resto son de genotipo recesivo. Se selecciona al
azar una muestra de 15 individuos de la población, ¿cuál es la probabilidad de que
sean 5 dominantes, 7 híbridos y 3 recesivos?
7.8.3. Se lanzan un par de dados veinte veces y se anota la suma de las puntuaciones
obtenidas en cada lanzamiento. Calcular la probabilidad de que se obtenga una vez
las sumas 2,3,4,5,10,11 y 12, tres veces la suma 6, cinco veces la suma 7, dos veces
suma 8 y tres veces suma 9.
7.8.4. Para la variable bidimensional discreta cuya distribución está definida por la
siguiente tabla:
Y
1 3 5
X
2 0,06 0,18 0,12
3 0,10 0,08 0,14
4 0,04 0,12 0,16
Calcular:
a) Las medias y las varianzas marginales.
b) La covarianza de X e Y.
c) La distribución de X condicionada a Y = 5.
d) La distribución de Y condicionada a X = 3.
e) La media y la varianza de la distribución del apartado c).
310 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Y
6 8 10 12 14 16 18
X
25 0,01 0,01 0 0 0 0 0
35 0,02 0,10 0,08 0,05 0 0 0
45 0 0,01 0,14 0,13 0,15 0,01 0
55 0 0 0,03 0,09 0,06 0,05 0
65 0 0 0 0,01 0,02 0,02 0,01
Calcular:
a) Las medias y las desviaciones típicas de las distribuciones marginales.
b) La covarianza de X e Y.
c) La media y la desviación típica de Y condicionada a X = 65.
d) La media y la desviación típica de X condicionada a Y = 16.
7.8.9. De un cruce de dos individuos heterocigóticos respecto del mismo carácter con
dominancia completa se obtiene una descendencia de 40 individuos. Calcular la
probabilidad de que sean:
a) 11 dominantes, 19 heterocigóticos y 10 recesivos.
b) 2 dominantes, 36 heterocigóticos y 2 recesivos.
c) 9 dominantes, 22 heterocigóticos y 9 recesivos.
d) 10 dominantes, 20 heterocigóticos y 10 recesivos.
DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES 311
Y
0 1 2 3
X
0 0,20 0,03 0,01 0,01
1 0,01 0,15 0,01 0,01
2 0,01 0,01 0,10 0,01
3 0,07 0,05 0,02 0,20
4 0,01 0,01 0,02 0,06
Calcular:
a) Las distribuciones marginales de X y de Y.
b) El número medio de hijos por familia en esa ciudad y la media de películas
alquiladas en un mes por familia.
c) ¿Son independientes X e Y?
d) Calcular la probabilidad de que una familia elegida al azar alquile al menos
una película y tenga como mínimo tres hijos.
7.8.12. Dos ejecutivos deciden viajar en helicóptero y quedan en ir cada uno por su
cuenta al mismo helipuerto entre las 9.00 h. y las 10.00 h. de la mañana de determi-
nado día y no esperarse más de ocho minutos, ¿cuál es la probabilidad de que se en-
cuentren?
x + y
, si 0 ≤ x ≤ 1, 1 ≤ y ≤ 3
f ( x, y ) = M
0 para el resto
a) Calcular el valor de M.
b) Determinar las distribuciones marginales de X e Y.
c) ¿Son independientes X e Y?
d) Hallar la distribución de Y | X = 0,5.
e) Obtener la media de Y y la varianza de X.
a) Determinar el valor de α.
b) Hallar la función de distribución conjunta de X e Y.
c) Obtener las funciones de densidad marginales.
d) Dar las funciones de distribución marginales.
e) ¿Son independientes X e Y?
f) Calcular el valor esperado de X y su varianza.
g) Calcular P ( X < 1, 5, Y < 2 ) .
2 x + 3y
si 0 ≤ x ≤ 1, 0 ≤ y ≤ 3
f ( x, y ) = K
0 para cualquier otro par ( x , y )
a) Hallar el valor de K.
b) Hallar las funciones de densidad y de distribución marginales de X.
c) Ídem para la variable Y.
d) Determinar las funciones de distribución de Y condicionada a X y de X con-
dicionada a Y.
e) Calcular P(Y ≤ 2 | X = 0,5).
7.8.21. La probabilidad de que una lámpara se estropee antes de 1.000 días es 0,5 y
la de que dure más de 1.500 días es 0,2. Hallar la probabilidad de que de 10 lámparas
que se vendan de esa clase exactamente cinco se estropeen antes de 1.000 días y sólo
tres duren más de 1.500 días.
f ( x, y ) =
(
β 2 xy + x 2 ) si 0 < x <1 y 0 < y <1
0 o par ( x , y )
para cualquier otro
314 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
a) Calcular el valor de β.
b) Hallar la función de distribución conjunta.
c) Dar las funciones de densidad marginales de X y de Y.
d) Determinar las funciones de distribución marginales.
e) Calcular P(X ≤ Y).
7.8.25. En una población en la que el porcentaje de cada grupo sanguíneo es 41% del
tipo A, 46% del tipo 0, 9% del tipo B y el resto del tipo AB, se eligen doce indivi-
duos al azar. Calcular la probabilidad de que sean:
a) Cuatro del grupo A, uno del grupo AB, cinco del grupo 0 y los restantes del B.
b) Seis del grupo A y seis del grupo 0.
e ( )
− x+y
si x > 0, y > 0
f ( x, y ) =
0 para cualquier otro parr ( x , y )
2 −x
( x + y) e si x > 0, 0 < y < 1
f ( x, y ) = 3
0 para cualquier otro par ( x , y )
0 si x≤0 ó y≤0
F ( x , y ) = α xy ( x + y) si 0 < x < 1, 0 < y < 1
1 si x >1 ó y >1
8.1. INTRODUCCIÓN
Dada una población E de cardinal | E | = N, finito, todas las muestras con re-
emplazamiento de tamaño n que se pueden elegir en esa población son cada uno
(n
de los elementos del producto cartesiano E × E × ...× E = E n y por tanto hay
VRN ,n = N n . El producto cartesiano En es la población de las muestras con reem-
plazamiento de tamaño n que se pueden elegir de la población E. Una muestra de
tamaño n es un elemento cualquiera de la población En.
Antes de abordar el estudio de la estimación de los parámetros de una po-
blación, se resolverán unos ejercicios que facilitarán la introducción de ese es-
tudio.
EJEMPLO 8.1.
Se considera una bolsa en cuyo interior hay cuatro bolitas del mismo tamaño y
que están numeradas con las cifras 1, 2, 3, 4, y el experimento aleatorio que consiste
en elegir una bolita de la bolsa y anotar su número. Hallar la media y la varianza de
la v.a. discreta finita X cuyo conjunto de valores es C = {1,2,3,4} con distribución
uniforme, es decir, que tiene como función de probabilidad:
1 4 si x ∈ C = {1, 2, 3, 4}
f ( x ) = P( X = x ) =
0 si x ∉C
La varianza:
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 321
EJEMPLO 8.2.
Se consideran ahora todas las muestras aleatorias de tamaño n = 2 con reem-
plazamiento que se pueden extraer de la población anterior, y la v.a.
2
∑ Xi
i=1
X=
2
–
Calcular para todas las muestras anteriores los valores de la variable X y dar su
distribución.
Todas las muestras de tamaño 2 con reemplazamiento son las variaciones con
repetición de orden 2 formadas con los elementos de C = {1,2,3,4}, es decir:
2.a
1 2 3 4
1.a
1 (1,1) (1,2) (1,3) (1,4)
2 (2,1) (2,2) (2,3) (2,4)
3 (3,1) (3,2) (3,3) (3,4)
4 (4,1) (4,2) (4,3) (4,4)
–
X 1 2 3 4
1 1 1,5 2 2,5
2 1,5 2 2,5 3
3 2 2,5 3 3,5
4 2,5 3 3,5 4
–
Desde el punto de vista probabilístico, se puede decir que esta v.a. X es una
v.a. discreta finita con conjunto de valores C = {1, 1,5, 2, 2,5, 3, 3,5, 4} y con fun-
ción de probabilidad:
– 1 2 3 4 3 2 1
P(X = x$i)
16 16 16 16 16 16 16
Obsérvese que µ X = µ X = µ = 2, 5.
La varianza es:
σ 2X
Se tiene que Var ( X ) = σ X2 = .
n
σ2 –
Que Var ( X ) = ≠ 0 significa que el estadístico X tiene fluctuaciones en el
n
muestreo.
n
∑ Xi
¿Qué se puede afirmar de la distribución de la media X = i =1 de n variables
n
aleatorias independientes Xi , N ( µ, σ ) ∀i = 1, 2,..., n, todas con la misma media
µ y desviación típica σ?
Si Xi , N ( µ , σ ) ∀i = 1, 2,..., n y son variables aleatorias independientes, en-
tonces:
EJEMPLO 8.3.
Se han encontrado en rocas sedimentarias del Terciario restos de Turritellas,
gasterópodos muy abundantes en esa Era. Si las longitudes se distribuyen según una
N( µ = 3, 5 cm, σ = 1 cm ) y se seleccionan al azar 100 Turritellas, calcular la pro-
babilidad de que
324 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Las longitudes de cada uno de los 100 fósiles que se van a elegir serán, por
tanto, Xi , N ( µ = 3, 5, σ = 1) e independientes.
La media de las longitudes de 100 de estos fósiles será pues:
a)
b)
y varianza
n
∑ Xi 1 1
d) Como X = i =1
, N µ = 3, 5, σ = = hay que determinar el valor
n n n
de n para que P( X − 3, 5 ≤ 0,1) = 0, 99, tipificando P( Z ≤ 0, 1 n ) = 0, 99, pero
2
P( Z ≤ 0, 1 n ) = 0, 99 ⇒ 0, 1 n ≥ 2, 33 y despejando n ≥ ( 23, 3) = 542, 89
así si n es al menos 543 la media de las longitudes de la muestra diferirá de
3,5 como máximo un milímetro con probabilidad 0,99
Esto significa que, cualesquiera que sean las distribuciones de las variables
aleatorias Xi, independientes, tanto si son discretas como si son continuas, si n es
n
suficientemente grande la distribución de la variable aleatoria X = ∑ Xi es asin-
i=1
n n
2 2
tóticamente normal de media µ = ∑ µi y varianza σ = ∑ σ . i
i =1 i=1
n
Es decir, la distribución de la variable aleatoria X = ∑ Xi , converge cuando
i=1
n n
n → ` a la N µ = ∑ µi , σ = ∑ σ i2 .
i=1 i =1
Dicho de otra forma, cualesquiera que sean las distribuciones de las v.a. Xi, in-
dependientes, tanto para variables aleatorias discretas como continuas, si n es su-
n
ficientemente grande la v.a. X = ∑ Xi , sigue aproximadamente una distribución
i=1
normal de media la suma de las medias y de varianza la suma de las varianzas.
La aproximación será tanto mejor cuanto mayor sea n, especialmente si la dis-
tribución que se aproxima no es simétrica. En la práctica se acepta la aproxima-
ción para valores de n ≥ 30 si la distribución de X no es muy asimétrica, como por
ejemplo una binomial B(n, p) para valores de p próximos a 0,5 Cuanto más asi-
métrica sea la distribución de las variables aleatorias Xi mayor tiene que ser el va-
lor de n para que la aproximación sea aceptable.
Este teorema explica por qué muchas variables aleatorias en las que influyen
un gran número de factores de forma aditiva tienen distribuciones próximas a la
normal.
Los teoremas siguientes son casos particulares del teorema central.
n
Dicho de otra forma: La variable aleatoria X = ∑ Xi , B ( n, p ) es asintótica-
(
mente N µ = np, σ = npq . ) i =1
Probabilidad
suceso; n 0,15 suceso; n
0,3
0,12
0,2 0,6;5 0,09 0,6;25
0,06
0,1 0,03
0 0
0 1 2 3 4 5 0 5 10 15 20 25
x x
Probabilidad
0,1 suceso; n 0,08 suceso; n
0,08 0,06
0,06 0,6;50 0,6;100
0,04
0,04
0,02 0,02
0 0
0 10 20 30 40 50 0 10 20 30 40 50
x x
N(np,√npq)
a
a – 0,5 a + 0,5
Tipificando
EJEMPLO 8.4.
a) Calcular la probabilidad de que una variable binomial de parámetros n = 10
y p = 0,5 tome el valor 5 y la aproximación utilizando la distribución
normal.
b) Calcular para una variable binomial de parámetros n = 100 y p = 0,5 la pro-
babilidad de que tome el valor 50 y la aproximación utilizando la distribu-
ción normal. ¿Es mejor la aproximación que la del apartado anterior?
10
a) P ( X = 5) = f ( 5) = (0, 5)5 (0, 5)5 = 0, 2461.
5
Si es X , B ( n = 10, p = 0, 5) Ä esÄ E ( X ) = 5 y Var ( X ) = 2, 5.
100
b) P ( X = 50 ) = f ( 50 ) = (0, 5)50 ( 0, 5)50 = 0, 0796.
50
Si X , B ( n = 100, p = 0, 5) Ä es Ä E ( X ) = 50 y Var ( X ) = 25.
EJEMPLO 8.5.
( )
se puede aproximar la distribución B(30, 0,3) por la N µ = 9, σ = 6, 3 y por in-
cluirse los dos extremos del intervalo:
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 331
(
Aproximando por la N µ = 15, σ = 7, 5 . )
Por tanto, la precisión mejora para el mismo valor de n si p es más próximo a 0,5.
c) Si X ~ B(60, 0,5).
(
Aproximando por la N µ = 30, σ = 15 . )
En el caso a)
que es peor aproximación que 0,4159, la que tenía en cuenta la corrección de con-
tinuidad.
En el caso b)
Este valor 0,4779 se aleja más del verdadero valor de esta probabilidad,
0,5575, que 0,5581, obtenido aplicando la corrección de continuidad.
(
tóticamente N nλ , nλ . )
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 333
X − nλ
En consecuencia, para valores grandes de n la variable Z = sigue
aproximadamente una distribución N(0,1). nλ
Con el programa STATGRAPHICS se puede observar la forma de la función
de probabilidad de la distribución de Poisson y cómo al aumentar el valor del pa-
rámetro λ se va haciendo más simétrica con respecto a la recta vertical x = λ.
Las gráficas, para los valores de λ = 1, λ = 10, λ = 50 y λ = 100 que propor-
ciona STATGRAPHICS se pueden observar en la Figura 8.3.
Probabilidad
0,3 1 0,12 10
0,09
0,2
0,06
0,1 0,03
0 0
0 1 2 3 4 5 6 0 5 10 15 20 25 30
x x
Probabilidad
0,05 50 100
0,03
0,04
0,03 0,02
0,02
0,01
0,01
0 0
0 10 20 30 40 50 60 70 80 90 100 0 30 60 90 120 150
x x
EJEMPLO 8.6.
En un centro de salud se ha observado que acude una media de tres personas
diarias a consulta médica que no tienen cita previa y quieren ser atendidas.
a) Calcular la probabilidad de que no acuda a consulta ninguna persona sin cita
previa en un día.
b) Calcular la probabilidad de que en una semana, más de tres días de los cinco
que está abierto el ambulatorio acuda al menos una persona sin cita previa.
c) Si en un año el centro de salud está abierto 250 días, calcular la probabilidad
de que en ese año acudan menos de 800 personas para ser atendidas sin tener
cita previa.
d) ¿Cuál es la probabilidad de que en un año acudan más de 798 personas sin
cita previa?
e) ¿Cuál es la probabilidad de que en un año acudan sin cita previa 799 personas?
c) Como el número de personas que acuden en un día sin cita previa es Xi = P(λ = 3)
independientemente de los que llegan cualquier otro día, el número de los que lle-
gan sin cita previa en ese año es
e) P ( Sanual = 799 ) = P ( 798, 5 < Sanual < 799, 5) = P (1, 77 < Z < 1, 81) = 0, 0033
– PARA
8.5. DISTRIBUCIÓN DE LA VARIABLE ALEATORIA X
MUESTRAS DE TAMAÑO n EN POBLACIONES
NO NORMALES
EJEMPLO 8.7.
En un restaurante se ha observado que el tiempo medio de espera para ser
atendido en una mesa a la hora de la comida es de 15 minutos, con una varianza de
12 minutos. ¿Cuál es la probabilidad de que el tiempo medio de espera para los 50
próximos clientes sea como máximo de 14,5 minutos?
Designando por X «el tiempo medio que espera una persona en una mesa
para ser atendida» se conoce que µ = E ( X ) = 15 y Var ( X ) = 12, por tanto
σ = 12 = 3, 4641.
Como la muestra es de tamaño n = 50 > 30 se puede aceptar que la variable
50
∑ Xi σ
aleatoria X = i =1
, N µ = 15, = 0, 4899 , por tanto
50 50
X
La variable Y = tiene media
n
Y su varianza es
EJEMPLO 8.8.
La proporción en España de la infección VIH en personas con un país de origen
distinto de España es del 18,8% Calcular la probabilidad de que en una muestra ele-
gida al azar de 315 extranjeros haya menos de 60 enfermos de sida.
–
En los Ejemplos 8.1. y 8.2. se ha observado que el estadístico X es una varia-
ble en el muestreo y por tanto su valor dependerá de la muestra extraída de la po-
blación. Así, estimaciones posibles de µ, que conocemos que vale 2,5, pues se ha-
bía calculado en el Ejemplo 8.1, son: 1, 1,5, 2, 2,5, 3, 3,5 y 4, y por tanto puede
ocurrir que la estimación coincida con el valor real de µ = 2,5, o se obtenga una
estimación inferior a ese valor o superior a él y que difiera más o menos de él.
–
La varianza de la v.a. X es
–
y por tanto, los valores de X se concentrarán más en torno a µ cuanto mayor sea el
tamaño n de la muestra. Esto significa que se obtendrán estimaciones más preci-
–
sas de µ con el mismo estadístico X aumentando el tamaño de la muestra, pero
–
siempre tendrá X fluctuaciones en el muestreo, pues la varianza, que disminuye al
aumentar n, tamaño de la muestra, no es nunca nula.
En la Figura 8.4. se observa que para un carácter cuantitativo, los estadísticos,
calculados en los temas de estadística descriptiva, se utilizan para estimar pará-
metros que permiten describir algún aspecto de la población.
Población
Parámetros
Muestra
μ, σ, …
Estadísticos
Caracteres
X, S, …
Modalidades Valores
Tablas Tablas
y gráficas y gráficas
FIGURA 8.4. Proceso inductivo para estimar los parámetros de una población.
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 339
8.8.2. Aceptando que el peso de un recién nacido en determinada región sigue una
distribución aproximadamente N(µ = 3.350 g, σ = 484 g), calcular la probabilidad de
que el peso medio de 100 niños nacidos en esa zona sea inferior a 3.500 g
8.8.3. El grosor de las piezas cortadas por una máquina se distribuye según una
N(µ = 18,5 cm, σ = 0,4 cm). Las piezas se venden en lotes de 50.
–
a) ¿Cómo se distribuye la media X del grosor de los tablones de cada lote?
b) Calcular la probabilidad de que el grosor medio de uno de estos lotes esté
comprendido entre 18,4 cm y 18,6 cm.
c) Si se venden 200 lotes de 50 piezas, ¿en cuántos lotes se puede esperar que el
grosor medio esté comprendido entre los límites indicados en el apartado b)?
8.8.5. En una urna hay cinco bolas que se distinguen sólo por su número 1,2,5,6,8.
a) Se elige una bola al azar y se designa por X el número de dicha bola. Calcular
la media y la desviación típica de la variable X.
b) Observadas todas las muestras posibles de tamaño dos que se pueden obtener
–
eligiendo las bolas al azar con reemplazamiento y designando por X la media
de los números obtenidos, calcular el valor esperado de la media muestral y
su varianza.
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 341
1
8.8.6. Si X , B n = 160, p = , calcular las siguientes probabilidades:
2
a) P(X = 85); b) P(X ≤ 75); c) P(75 ≤ X ≤ 85).
8.8.8. En una fundición se fabrican piezas cuyos pesos se distribuyen según una
N(305 kg, 45 kg). Se transportan en camiones con una tara máxima autorizada de
8,1 tm.
Si se cargan 25 de esas piezas por camión y se efectúa el control de carga de uno
de los camiones elegido al azar, ¿cuál es la probabilidad de que su tara supere la má-
xima autorizada?
8.8.10. Se lanza un dado dos veces seguidas y se anotan los resultados. Se pide:
a) ¿Cuál es el valor esperado de la media muestral?
b) ¿Cuál es la varianza de la media muestral?
c) ¿Cuál es el valor esperado de la varianza muestral?
8.8.11. Los diámetros normales de 300 árboles de una misma especie y edad se dis-
tribuyen según una normal de media 68 cm y desviación típica de 3 cm. Se eligen
muestras de 25 árboles.
a) Calcular la media y la desviación típica esperada de la distribución de la me-
dia muestral para el muestreo con reemplazamiento.
342 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
8.8.12. En dos aserraderos cortan tableros cuyo grosor en mm sigue una N(145; 0,9)
utilizan métodos diferentes para el control de los grosores de la partida de table-
ros. En el primero eligen tres tableros al azar y se rechaza la partida si alguno de
ellos tiene grosor fuera del segmento [143,8 mm, 146,8 mm]. En el segundo se
eligen cinco tableros y se rechaza la partida si la media de sus grosores no está
comprendida en el segmento [144 mm, 146 mm]. ¿Qué método es más exigente y
por qué?
8.8.15. El 40% de una población de 1.000 conejos se inyecta con un virus para de-
sarrollar anticuerpos y obtener una vacuna. Se seleccionan al azar 50 conejos. Se in-
dica por X la variable que representa el número de conejos de la muestra que fueron
inyectados.
a) ¿Qué tipo de distribución sigue la variable X?
b) Calcular la probabilidad de encontrar 6 ≤ X ≤ 12.
8.8.16. Una emisora de radio afirma que el 36% de la población de cierta ciudad es-
cucha su programa los sábados de 2 a 4 de la madrugada. Si esto es cierto, ¿cuál es la
probabilidad de que de 500 personas, elegidas al azar en dicha ciudad, a las que se les
encuesta el domingo, más de 150 lo hubieran escuchado?
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 343
8.8.17. Se plantan 1.600 plantas de una especie de la que se acepta que el 80% so-
breviven al cabo de un año.
a) Escribir la función de probabilidad de la variable aleatoria cuyos valores
son el número de plantas de dicha especie que sobreviven al cabo de un
año.
b) Calcular la probabilidad de que haya como máximo 1.100 plantas que so-
brevivan al cabo del año.
c) ¿Qué valor debería tener el parámetro p de la distribución para que la proba-
bilidad de que sobrevivan más de 1.400 plantas sea 0,5?
8.8.18. El 40% de los clientes de unos grandes almacenes pagan con tarjetas de cré-
dito del propio centro. Calcular la probabilidad de que entre 5.000 clientes paguen
con ese tipo de tarjetas de crédito:
a) Más de 2.000.
b) Menos de 4.000 y más de 1.000.
c) Al menos 1.500.
d) Hallar dos valores x1 y x2 equidistantes de la media y tales que P(x1 < X < x2) = 0,90.
8.8.20. Si se lanza 500 veces una moneda de un euro, calcular las siguientes proba-
bilidades:
a) Que salgan entre 230 y 270 caras.
b) Que se obtengan más de 150 caras.
c) Que el número de caras sea mayor de 489.
8.8.21. De 100.000 moscas adultas de las que dispone un laboratorio, sólo el 70%
son aptas para realizar un experimento. ¿Cuál es la probabilidad de que de 1.800
moscas elegidas al azar al menos 1.200 sean aptas para realizar la prueba?
8.8.22. Se sabe que el 80% de los árboles de una determinada especie sobrepasan los
3,5 metros de altura a los diez años de su plantación. Se plantan 700 árboles de dicha
especie.
a) ¿Cuál es el número esperado de árboles que superarán dicha altura a los
diez años?
b) Calcular la probabilidad de que a los diez años haya más de 600 árboles con
la altura mínima de 3,5 metros.
c) ¿Cuál debería ser el porcentaje de los que sobrepasarán 3,5 m a los diez
años de su plantación para que la probabilidad de que a los diez años haya
más de 600 árboles con una altura mínima de 3,5 metros sea 0,5?
Estimación de los parámetros
de una población 9
–
El estadístico X es una v.a. cuya esperanza matemática es el valor del pará-
–
metro, es decir, E( X ) = µ. Por tanto, X es un estimador centrado o insesgado del
parámetro µ, media poblacional.
n 2
∑ ( Xi − X )
i=1
Sin embargo, la varianza muestral Var ( X ) = no es un estimador
n
centrado de la varianza poblacional σ 2, pues
σ ε n 1 σ2
si k
n
=ε ⇒k=
σ
(
, entonces P X n − µ ≤ ε ≥ 1 −
ε n
2 = 1 − )
ε 2n
y por
σ
tanto
por ser independientes las variables Xi, ∀i = 1, 2,..., n. Esta función es la función
de masa de probabilidad de la muestra aleatoria, si las variables X1, X2,..., Xn son
discretas, o función de densidad de probabilidad, si las variables X1, X2,..., Xn
son continuas. Cuando se dan los valores x1, x2,..., xn de una muestra, la función de
verosimilitud es sólo función del parámetro θ.
Como la función log L alcanza su valor máximo para el mismo valor de θ que
la función L, por ser L una función positiva, para calcular el valor que maximiza
L se resuelve la ecuación:
EJEMPLO 9.1.
Determinar el estimador de máxima verosimilitud de µ = E( X ) siendo
X , N (µ, σ ) de la que se desconocen los parámetros µ y σ.
Si (x1, x2,..., xn) es una muestra aleatoria simple de esa población la función de
verosimilitud de la muestra es:
EJEMPLO 9.2.
Determinar el estimador de máxima verosimilitud para σ 2, siendo X , N ( µ, σ )
de la que se desconocen los parámetros µ y σ.
y como
EJEMPLO 9.3.
Determinar el estimador de máxima verosimilitud para p = P(S).
Tomando logaritmos:
es decir,
y
De forma que la frecuencia relativa del suceso S en las n pruebas p̂ = es el
estimador de máxima verosimilitud de la probabilidad p = P(S). n
–
Un valor x$ de la v.a. X es una estimación puntual del parámetro µ.
352 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
–
El estadístico X es además un estimador centrado, porque E( X ) = µ, y con-
σ2
sistente ya que su varianza Var ( X ) = , como se explicó en el capítulo anterior,
n
Epígrafe 8.3., si el muestreo se realiza con reemplazamiento y es tanto más pe-
queña cuanto mayor sea el tamaño de la muestra. La precisión del estimador au-
menta al aumentar el tamaño muestral, pues esto hace disminuir la varianza.
– σ
La raíz cuadrada de la varianza del estimador X, es decir, recibe el nombre
– n
de error de muestreo o error típico del estimador X.
Si el muestreo se realiza sin reemplazamiento, se puede demostrar que la va-
– N −n σ2
rianza del estimador X es Var ( X ) = .
N −1 n
N−n
El coeficiente se denomina factor de corrección para poblaciones fi-
N −1
nitas. Si la población tiene un tamaño N muy grande frente al tamaño muestral n,
de modo que se pueda considerar infinita, este factor es muy próximo a 1, y en este
– σ2
caso la varianza del estimador X es aproximadamente Var ( X ) = .
n
EJEMPLO 9.4.
De una población muy extensa de estudiantes cuya estatura se distribuye según una
normal de media 170 cm y desviación típica 7 cm, se elige una muestra de 100 individuos.
a) ¿Cuál es la distribución de la media muestral?
b) Calcular la probabilidad de que la media muestral esté comprendida entre
168,6 cm y 171,4 cm.
c) Calcular los extremos de un intervalo cuyo centro sea 170 cm en el que se pue-
da asegurar que se encuentra la media muestral del 99,73% de las muestras.
que son n v.a. de Bernoulli del mismo parámetro p = P(S) independientes, por
n
realizar el muestreo con reemplazamiento, la variable Y = ∑ Xi será una variable
binomial de parámetros n y p. i=1
Y i =1
∑ Xi –
Por tanto, p̂ == y se puede considerar un caso particular de X.
n n
Su esperanza matemática es:
EJEMPLO 9.5.
Un economista estima que el 20% de las letras de cierta Comunidad Autónoma
Y
se devuelven por impagadas. Sobre una muestra de n letras se indica por po = la
proporción de ellas devueltas en esa muestra. n
a) Dar la distribución en el muestreo de la proporción observada p0.
b) ¿Cuál es la distribución en el muestreo de la diferencia p0 – 0,2 reducida?
c) Sobre una muestra de 120 letras, calcular la probabilidad de que la propor-
ción de devueltas esté comprendida entre el 10% y el 35%.
d) Con riesgo α = 5% dar los límites del valor esperado para p0.
354 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
( )
porque E s 2 = σ 2 .
Para dar respuesta a esa pregunta, a partir de una muestra aleatoria con re-
–
emplazamiento de la población se obtiene el valor del estadístico (X para µ, s2
para σ 2) que sirve para estimar ese parámetro. De esta forma se obtiene una esti-
mación puntual. Pero sólo con el valor de una estimación puntual no se tiene in-
formación sobre la precisión de la estimación.
Con el objeto de mejorar la información del estimador, se darán los intervalos de
confianza y los contrastes de hipótesis paramétricos, pero esto exige conocer la distri-
bución del estadístico correspondiente y para ello se necesitan, además de la distribu-
ción normal, otras distribuciones continuas relacionadas con ella como son las distri-
buciones χ2 de Pearson, la t de Student y la distribución F de Snedecor-Fisher.
Propiedades:
1. Γ(1) = 1.
2. Si n ∈ Z+ , entonces Γ (n) = ( n − 1) !
3. Γ (n) = ( n − 1) Γ (n − 1), ∀n ∈R + y n > 1.
Por esta propiedad se suele llamar a la función gamma el factorial gene-
ralizado.
4. En consecuencia, si se dispone de los valores de Γ(n) para n ∈[1, 2 ] , se
puede calcular Γ(n) ∀n > 1.
Por esta razón hay tablas de la función gamma para n ∈[1, 2].
356 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1
5. Γ = π .
2
EJEMPLO 9.6.
` 2 −x 3
Calcular ∫0 2 x e dx.
EJEMPLO 9.7.
Hallar la esperanza matemática y la varianza de la v.a. X cuya función de den-
sidad es
2
2 xe − x si x > 0
f (x) =
0 en el resto
que tiene E( X ) = β y σ 2X = β 2 .
Una v.a. continua X sigue una distribución exponencial de parámetro λ > 0, si
tiene por función de densidad:
siendo r∈⺞.
Como Γ (r + 1) = r Γ (r ), se obtiene para el momento de orden 1:
Y la varianza:
9.2.4. Distribución χ2
n
Es un caso particular de la distribución gamma para α = y β = 2.
2
La variable aleatoria continua que tiene por función de densidad:
se dice que es una variable con distribución χn2 de Pearson, que se lee ji-cuadrado
con n grados de libertad y también Chi-cuadrado con n grados de libertad.
Karl Pearson (1857-1936) hizo interesantes contribuciones en la aplicación de
las técnicas estadísticas a la Teoría de la Evolución. En el año 1900 publicó el
contraste χ2 con el que se puede comprobar si resultados experimentales se ajus-
tan o no a un modelo teórico. Estas pruebas se explicarán más adelante.
A continuación aparecen representadas con STATGRAPHICS las funciones de
densidad y de distribución para n = 1, n = 5, n = 15 y n = 60.
Se observa que las gráficas de las funciones de densidad de la v.a. χn2 son asi-
métricas y que sólo están definidas para x > 0.
Si n > 2 alcanzan un máximo para el valor de x = n – 2.
1,5
acumulada
1,2 0,6
0,9 1 1
0,6 0,4
0,3 0,2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
x x
libertad libertad
Densidad
0,8 0,12
0,6 5 0,08 5
0,4
0,2 0,04
0 0
0 4 8 12 16 20 24 0 4 8 12 16 20 24
x x
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 359
Probabilidad
acumulada
libertad 0,8 libertad
Densidad
0,06
15 0,6 15
0,04
0,4
0,02 0,2
0 0
0 10 20 30 40 50 0 10 20 30 40 50
x x
Probabilidad
acumulada
libertad 0,8 libertad
Densidad
0,03
60 0,6 60
0,02
0,4
0,01 0,2
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
x x
EJEMPLO 9.8.
1. El conjunto de n variables aleatorias independientes X1, X2,..., Xn tiene n gra-
dos de libertad.
2. Si X e Y son dos variables aleatorias e Y = X + 5, el conjunto formado por las
dos variables X e Y tiene 2-1=1 grado de libertad.
3. Si X1, X2,..., Xn son n variables aleatorias independientes y su media es la va-
–
riable aleatoria X, el conjunto X1 − X , X 2 − X ,..., X n − X tiene n-1 grados de
n
libertad porque hay una relación entre ellas ∑ ( Xi − X = 0.
i=1
)
y varianza
360 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
La distribución χn2, que está definida para todo valor real y positivo de n, se
utilizará en la práctica para valores naturales de n.
Propiedades:
1. Si X , χ n21 e Y , χ n22 son dos variables aleatorias independientes, enton-
ces, X + Y , χ n21 +n2 .
2. Si X1 , X2 ,..., X k son k variables aleatorias independientes con distribucio-
k
nes Xi , χ n2 , entonces la v.a. X = ∑ Xi sigue también una distribución
i
i=1
k
2
χ , siendo n = ∑ ni .
n
i=1
EJEMPLO 9.9.
Obtener los siguientes valores críticos utilizando la tabla de la distribución χ2:
EJEMPLO 9.10.
2
a) Determinar el valor de α que verifica P α < χ13 (
= 0, 90. )
(
b) Calcular el valor de β para que P χ 2 < β = 0, 025.
27 )
( )
a) P α < χ132 = 0, 90 ⇒ α = χ 02,90 ;13 = 7, 042.
b) P(χ 2
27 < β ) = 0, 025 ⇒ β = χ 2
0 ,975;27 = 14, 573.
EJEMPLO 9.11.
Hallar a y b con la condición de:
(2
1.o) P a < χ60 ) 2
< b = 0, 95, Ä siendoÄ P( χ60 2
≤ a) = P( χ60 ≥ b).
2
2.o) Ídem para una distribución χ11 .
( 2
3.o) P a < χ 24 ) 2
< b = 0, 99 Ä siendoÄ P( χ 24 2
≤ a) = P( χ 24 ≥ b).
Si X y Z son dos variables aleatorias independientes y tales que X ~ χn2 y Z ~ N(0, 1),
la v.a.
Probabilidad
libertad libertad
acumulada
Densidad
0,3 0,8
1 0,6 1
0,2
0,4
0,1 0,2
0 0
–5 –3 –1 1 3 5 –5 –3 –1 1 3 5
x x
Probabilidad
libertad libertad
acumulada
Densidad
0,3 0,8
10 0,6 10
0,2
0,4
0,1 0,2
0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6
x x
libertad libertad
acumulada
Densidad
0,3 0,8
100 0,6 100
0,2
0,4
0,1 0,2
0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6
x x
Desv. típica
acumulada
Desv. típica
Densidad
0,3 0,8
0;1 0;1
0,2 0,6
0,4
0,1 0,2
0 0
–5 –3 –1 1 3 5 –5 –3 –1 1 3 5
x x
EJEMPLO 9.12.
Obtener los siguientes puntos críticos utilizando la tabla de la distribución:
σ X−µ
Ya que si X , N ( µ, σ ) entonces X , N µ, y por tanto σ , N ( 0, 1)
n
n
X−µ
σ (X − µ) n
( n − 1) s 2 n X−µ
y como , χ n2−1 , entonces = σ = , tn−1 por ser
σ2 ( n − 1) s 2 s s
σ2 σ n
n −1
2
cociente de una Z ~ N(0, 1) dividida entre la raíz cuadrada de una χ n−1 dividida por
n-1, el número de grados de libertad correspondientes.
Si X1 , N ( µ1 , σ ) y X2 , N ( µ2 , σ ) son dos variables aleatorias independien-
tes y con la misma varianza, entonces la v.a.
F[n1 ,n2 ];α =0,05 , F[ n1 ,n2 ];α =0,01 , F[n1 ,n2 ];α =0 ,025 , F[ n1 ,n2 ];α =0 ,005 respectivamente, que dejan a
( )
su izquierda probabilidad P F[n1 ,n2 ] ≤ F[ n1 ,n2 ];α = 1 − α para diferentes valores
de n1 y n2.
366 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Probabilidad
num;denom num;denom
acumulada
Densidad
0,3 0,8
5;10 0,6 5;10
0,4
0,4
0,2 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
Probabilidad
acumulada
num;denom num;denom
Densidad
0,3 0,8
10;5 0,6 10;5
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
num;denom num;denom
Densidad
0,3 0,8
100;5 0,6 100;5
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
num;denom num;denom
Densidad
0,3 0,8
100;100 0,6 100;100
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
EJEMPLO 9.13.
Obtener los siguientes puntos críticos utilizando la tabla de la distribución F[n1, n2]:
a) F[5,1];0,01 ; b) F[12,3];0,025 ; c) F[ 7,2];0,05 ; d ) F[15,17];0,005 ; e) F[30,20];0,05 ;
f ) F[ 20,30];0,01 ; g) F[15,20];0,005
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 367
que deja probabilidad α por encima, es decir, los valores de F[ n1 ,n2 ];α que verifican
se tiene:
y también:
EJEMPLO 9.14.
Calcular el valor crítico F[15, 12]; 0,95.
1 1
en la Tabla IV se obtiene = 2, 48 ⇒ a = = 0, 4032.
a 2, 48
368 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto,
EJEMPLO 9.15.
Calcular los valores críticos F 3,6 ;0.95 Ä yÄ F 9,15 ;0.975 .
[ ] [ ]
EJEMPLO 9.16.
Utilizando las tablas de la distribución F, hallar los valores de a y b que ve-
( ) ( ) ( )
rifican P a < F[ 5,8] < b = 0, 90, siendo P F[5,8] ≤ a = P F[ 5,8] ≥ b . Y también para
(
que se cumpla P a < F[ 7,12 ] < b ) = 0, 95,
siendo P ( F[ ] ≤ a) = P ( F[
7 ,12 7 ,12 ] ≥b . )
(
De las condiciones exigidas se deduce que P 0 ≤ F[5,8] ≤ a = P F[5,8] ≥ b = 0, 05
por tanto a = F[5,8];0 ,95 y b = F[5,8];0 ,05 .
) ( )
Directamente en la Tabla IV del Apéndice I se lee b = F[5,8];0 ,05 = 3, 69.
1 1
Para calcular a = F[5,8];0 ,95 = = = 0, 2075 . 0, 21.
F[8,5];0 ,05 4, 82
( ) ( )
En el segundo caso P 0 ≤ F[ 7,12] ≤ a = P F[ 7,12] ≥ b = 0, 025, por tanto, utili-
zando la Tabla VI del Apéndice I
EJEMPLO 9.17.
Utilizando las tablas de la distribución F, hallar los valores críticos
Observación:
Se puede comprobar en las tablas las siguientes relaciones entre los valores
críticos de las distribuciones F, t, χ2 y Z ~ N(0,1).
EJEMPLO 9.18.
Comprobar que se verifican las siguientes igualdades:
2
a) F[1,13]; α =0,05 = tα
2 = 0,025;13
2
b) F[1,50 ]; α = 0,05 = tα
2 =0,025;50
370 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2
c) F[1,`]; α =001 = Z α
2 =0,005
χα2 =0,05;15
d) F[15,` ]; α = 0,05 =
15
2
e) F[1,10]; α =0,01 = tα
2 = 0,005;10
a) F[1,13]; α =0 ,05 = 4, 67
2
2
t α =0,025;13 = ( 2,160 ) = 4, 6656 . 4, 67
2
b) F[1,50]; α =0,05 = 4, 03
2
2
t α =0 ,025;50 = ( 2, 009 ) = 4, 036
2
c) F[1,` ]; α =0,01 = 6, 63
2
2
=0,005 = ( 2, 576 ) = 6, 635776
Z α
2
d) F[15,`]; α =0,05 = 1, 67
χα2 =0 ,05;15 1
= ⋅ 24, 996 = 1, 6664 . 1, 67
15 15
e) F[1,10 ]; α =0 ,01 = 10, 04
2
2
tα =0,005;10 = ( 3,169 ) = 10, 042561 . 10, 04
2
La distribución F se aplicará en la inferencia estadística en poblaciones nor-
males con varianzas desconocidas ya que si X1 , X 2 ,..., Xn1 , Y1 , Y2 ,..., Yn2 son varia-
bles aleatorias independientes y tales que:
entonces la v.a.
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 371
Este programa también permite el cálculo de la probabilidad que deja por de-
bajo el valor x para una distribución conocida.
INVSTUDENT (p, g) halla el punto t, o valor de la variable, que deja por de-
bajo probabilidad p para una variable aleatoria T de Student con g grados de li-
bertad. Esto es, el valor de t para el que:
deran en la práctica las que tienen tamaño N > 20 n, siendo n el tamaño de las
muestras que se extraigan de esa población,
–
X es un estimador centrado para el parámetro µ
p̂ es un estimador centrado para p
s2 es un estimador centrado para σ 2
Se estudian a continuación las distribuciones de estos estadísticos en el mues-
treo con reemplazamiento: n
∑ Xi
• Como consecuencia del teorema de Lindeberg-Lévy, la v.a. X = i=1 se
n
σ
distribuye según una N µ , siempre que el tamaño de la muestra sea grande,
n
cualquiera que sea la distribución de la v.a. X en la población. En la práctica, si n ≥ 30.
–
La desviación típica de la v.a. X, y en general de cualquier estimador, se co-
noce como error típico del estimador.
σ
El error típico del estimador X es .
n
n
∑ Xi
i=1
• Por ser pˆ = , siendo Xi variables aleatorias de Bernoulli de parámetro p
n –
e independientes, la v.a. p̂ es un caso particular de X y por ello, también como
n
∑ Xi
i =1
consecuencia del teorema de Lindeberg-Lévy, la v.a. p̂ = se distribuye según
n
pq
una N p, siempre que el tamaño n de la muestra sea grande y p no sea
n
demasiado grande ni demasiado pequeño. En la práctica si np ≥ 5 y nq ≥ 5. El
pq
error típico del estimador pˆ es .
n
• Si la variable aleatoria X , N ( µ, σ ), por ser el muestreo con reemplaza-
miento Xi , N ( µ, σ ), ∀i = 1, 2,..., n y son independientes, ¿qué distribución en el
muestreo seguirá entonces la variable aleatoria s2?
Teniendo en cuenta que:
374 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
n 2
X − µ
Como las variables Xi , N ( µ, σ ), ∀i = 1, 2,..., n son independientes, ∑ i
i=1 σ
es suma de n cuadrados de variables aleatorias N(0,1) e independientes y, en conse-
cuencia, sigue una distribución χn2.
2
X − µ sigue una distribución χ12, ya que es el cuadrado de una v.a. N(0,1).
σ
n
n 2
2 ∑ ( Xi − X )
Por tanto, la v.a. ( n − 1) s = i=1 2
seguirá una distribución χ n−1 y se
σ2 σ 2
2
( n − 1) s ( n − 1) s 2
puede afirmar que E n 1 y Var
σ 2 = − σ 2 = 2(n − 1).
( n − 1) s 2 (n − 1)
Por ser E
σ
2
= n −1⇒
σ 2 ( ) ( )
E s 2 = n − 1 ⇒ E s 2 = σ 2 , lo que
2σ 4
y el lim Var ( s 2 ) = lim = 0, al aumentar n, tamaño de la muestra, disminuye
n→` n→` n − 1
X , pˆ y
( n - 1) s 2 permite determinar intervalos de probabilidad para estos esta-
σ2
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 375
dísticos con riesgo α siempre que se conozcan los valores de los parámetros de la
población, es decir, el conjunto de valores más probables de cada uno de esos es-
tadísticos en el muestreo.
A continuación se van a construir intervalos de probabilidad para distintos es-
–
tadísticos θ̂ , por ejemplo: µ̂ = X, media de una muestra de tamaño n, p̂ = p0, pro-
porción observada en una muestra de tamaño n, σ̂ 2 = s2, cuasivarianza muestral,...
Si se conocen los parámetros que determinan la distribución del estadístico θ̂ en el
muestreo, y se fija el riesgo α de equivocarse, la probabilidad de que el estadísti-
co θ̂ pertenezca al intervalo de probabilidad con riesgo α será 1 – α. El intervalo
de probabilidad con riesgo α para el estadístico θ̂ es un intervalo en el que se
apuesta con probabilidad de acertar 1 – α que estará el valor de θ̂ que se obtenga
de una muestra de tamaño n. Se podría también denominar intervalo de apuesta,
«intervalle de pari» para Pascal.
µ x
–
El intervalo de probabilidad con riesgo α para X será un intervalo simétrico,
–
por la simetría de la distribución de X en el muestreo, centrado en µ y tal que
P ( X ∈ IPα ) = 1 − α .
Si IPα = [ µ − r, µ + r ] se ha de verificar que P ( µ − r ≤ X ≤ µ + r ) = 1 − α tipi-
–
ficando la v.a. X, queda:
376 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
α
Se indica por z α el valor de una v.a. Z , N (0, 1) que deja probabilidad por
2 2
α
encima o, lo que es lo mismo, el que verifica P Z ≤ z α = 1 − . El valor de z α
2
2 2
se determina con la tabla de la N(0,1).
Por ejemplo, si α = 0, 05 es z α = 1, 96, ya que P( Z ≤ 1, 96) = 0, 975, como
2
se puede comprobar en la tabla de la función de distribución de la N(0,1).
Z ~ N (0,1)
–zα/2 0 zα/2
r σ
Igualando = zα ⇒ r = zα , de donde el intervalo de probabilidad con
σ n
2 2
n
–
riesgo α para X es:
–
El significado del IPα para X es el siguiente: si se extrae una muestra de ta-
maño n de una población en la que está definida la v.a. X ~ N(µ, σ), se puede afir-
–
mar, con riesgo de equivocarse α, que la media de la muestra X estará compren-
σ σ
dida entre µ − z α y µ + zα .
2
n 2
n
EJEMPLO 9.19.
En una población de personas adultas el CI es una variable X con media µ = 100
y σ = 15. Si se escoge una muestra de 40 personas de esa población, hallar:
–
a) P(98 < X < 103), b) probabilidad de que la media de la muestra difiera de la
media poblacional en menos de 3.
Por tanto,
EJEMPLO 9.20.
La longitud de los listones de madera que corta una máquina sigue una distri-
bución normal de media 2,5 m y desviación típica 0,02 m.
a) Hallar un intervalo de probabilidad para α = 0,05 para la longitud de los lis-
tones cortados por la máquina.
b) Ídem para α = 0,01.
c) Se compran 100 listones, con error α = 0,05 ¿entre qué valores se puede es-
perar que estará comprendida la longitud media de la muestra?
d) Responder a la pregunta anterior para una muestra de 1.000 listones.
e) Hallar el IPα para α = 0,01 para la media de las muestras de tamaño 1.000.
d) IPα =0 ,05 = 2, 5 − 1, 96 ⋅ 0, 02 =
, 2, 5 + 1, 96 ⋅ 0, 02 [ 2, 499; 2, 501]
1.000 1.0000
378 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Se observa que para el mismo error α = 0,05 tiene menor amplitud el intervalo
correspondiente a las muestras de mayor tamaño.
EJEMPLO 9.21.
En un gran almacén el peso de las cajas de envíos se distribuyen según una
N(300 kg, 25 kg).
Se tienen que transportar las cajas en camiones con carga máxima autorizada de
8,1 toneladas. Si se cargan 40 cajas por camión,
a) ¿qué probabilidad hay de que el control de carga de uno de ellos, tomado al
azar, detecte que la carga supera la autorizada?
b) ¿cuál es la probabilidad de que esta carga supere las 12 t?
pq
pˆ ~ N (p,√——)
n
np ≥ 5
y
nq ≥ 5
α/2 1–α α/2
EJEMPLO 9.22.
Se ha comprobado en los años que lleva trabajando una secretaria que la pro-
porción de hojas que tiene que repetir por error es 35%.
a) Con riesgo α = 0,05, ¿entre qué valores se espera encontrar la proporción de
hojas con error entre 50 elegidas al azar? ¿Y con riesgo α = 0,02?
b) Responder de nuevo a ambas preguntas, si se eligen 100 hojas al azar.
c) ¿Cuál es la probabilidad de que de 100 hojas elegidas al azar haya al menos
36 con error?
d) Con riesgo α = 0,05 dar los límites para el valor esperado de p0 para un
trabajo de 1.000 páginas.
b)
1 1
Para determinar un IPα = 0,05 se iguala 1 − 2 = 1 − α ⇒ 1 − 2 = 0, 95
y se des-
k k
peja el valor de k, en este caso k = 20 y el
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 381
(n – 1)s2
———— ~ χ2n–1
σ2
α/2
1–α
α/2
0
a = χ2(1– —);n–1
α b = χ2—;n–1
α
2 2
Para concretar un IPα para s2 hay que determinar dos valores a y b de una v.a.
α α
2
χ n−1 (
que verifiquen P χ n2−1 ≤ a =
2
) ( )
y P χ n2−1 ≤ b = 1 − . Estos valores, que se
2
2
obtienen de la tabla de la distribución χ n−1 , se indican por: a = χ 2 α y b = χ α2
1− ;n−1 ;n −1
2 2
α 2
pues a es el valor que deja por encima probabilidad 1 − , en una χ n−1 , y b es el valor
2
2
α
de una χ n−1 que deja por encima probabilidad .
2
Se obtiene así un intervalo que ya no está centrado en el valor del parámetro,
como en los dos casos anteriores. Todos los valores del intervalo son ahora posi-
tivos y se verifica que
aσ 2 bσ 2
se obtiene ≤ s2 ≤ y por tanto, el IPα para s 2 es:
( n − 1) ( n − 1)
382 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Los extremos de este intervalo son los valores esperados de los límites inferior
y superior de las cuasivarianzas muestrales de muestras de tamaño n con riesgo de
equivocarse igual a α.
EJEMPLO 9.23.
El fabricante de una máquina de precisión asegura que las piezas que salen de la
máquina tienen diámetro en media 2,5 cm con desviación típica de 1 mm. Aceptan-
do como cierta la afirmación del fabricante, si se eligen 15 piezas al azar de la pro-
ducción de la máquina y se miden los diámetros, dar los límites entre los que se pue-
de esperar la media de los diámetros y la cuasivarianza muestral con riesgo α = 0,05.
9.5.5. Intervalo de
– probabilidad
– con riesgo α para la diferencia
de medias X1 – X2
Se parte ahora de dos poblaciones y en cada una de ellas se considera una va-
riable aleatoria Xi , N ( µi , σ i ) , i = 1, 2. Se eligen con reemplazamiento sendas
muestras aleatorias independientes de tamaños n1 y n2 respectivamente.
Como se indicó en el Capítulo 8, Epígrafe 8.3., si Xi , N ( µ, σ ) ∀i = 1, 2,..., n
son variables aleatorias independientes, entonces:
por ello, para las muestras independientes elegidas se puede asegurar que la di-
σ2 σ2
ferencia X1 − X 2 , N µ1 − µ 2 , 1 + 2 si las distribuciones de las variables Xi
n1 n2
son normales. Y en cualquier otro caso la distribución de la diferencia de medias
también es aproximadamente normal siempre que n1 ≥ 30 y n2 ≥ 30.
σ2 σ2
Es importante advertir que para asegurar que X1 − X2 , N µ1 − µ2 , 1 + 2
n1 n2
han de ser las dos muestras independientes.
Por ejemplo, no son muestras independientes los resultados correspondientes a ano-
tar el número de pulsaciones por minuto de una muestra aleatoria de 40 deportistas an-
tes y después de realizar una carrera de 1.000 m.
384 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 9.24.
Si el cociente intelectual medio de los estudiantes de ingeniería es 122 con des-
viación típica 6 y el de los estudiantes de ciencias es 118 con desviación típica 5,
¿cuál es la probabilidad de que el cociente intelectual medio de una muestra alea-
toria de 36 estudiantes de ingeniería sea al menos 6 puntos más alto que el cocien-
te intelectual medio de una muestra aleatoria de 49 estudiantes de ciencias?
pero al desconocer el valor de σ se puede estimar la varianza común por s2, media
ponderada de las cuasivarianzas típicas muestrales, esto es:
(X 1 − X2 ) − ( µ1 − µ 2 )
¿Qué distribución tiene en el muestreo el estadístico ?
1 1
s +
n1 n2
La distribución ya no es N (0,1) sino una t de Student como se verá a continuación:
– –
En este caso el IPα para la diferencia de medias X1 – X2 será:
Se parte de dos poblaciones y en cada una de ellas está definida una variable
aleatoria Xi , N ( µi , σ i ) , i = 1, 2 con σi desconocida. Se elige una muestra aleato-
ria con reemplazamiento de tamaño n1 en la primera población y otra de tamaño
n2 en la segunda, ambas independientes.
( n − 1) s 2 ( n − 1) s 2
Se sabe que 1 2 1 , χ n2 −1 y que 2 2 2 , χ n22 −1 y además las varia-
σ1 1
σ2
( n − 1) s
bles aleatorias 1 2 1 y
2
( n2 − 1) s2 son independientes, por tanto la variable
2
σ1 σ 22
aleatoria
F~F[n1–1,n2–1]
α/2
1–α α/2
0
a = F[n1–1,n2–1];(1– —)
α b = F[n1–1,n2–1];—
α
2 2
y por b = F[n −1,n −1];α 2 el valor crítico que deja a su derecha probabilidad α/2, se tiene:
1 2
s12
y así el intervalo de probabilidad con riesgo α para es:
s22
pq
se puede afirmar que la distribución de p̂1 es aproximadamente N p1 , 1 1 y
n1
pq
análogamente p̂2 sigue aproximadamente una N p2 , 2 2 . Por tanto:
n2
388 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1
Gamma α x α −1e− x β si x > 0
α > 0, β > 0 f ( x ) = β Γ (α ) µ = αβ σ 2 = αβ 2
Γ (α , β )
0 si x ≤ 0
−λ x
Exponencial λ e si x ≥ 0 1 1
λ>0 f ( x) = µ= σ2 =
E(λ) 0 si x < 0 λ λ2
n
1 −1
x 2 e− x 2 si x > 0
Ji-cuadrado n
n>0 f ( x ) = 2n 2 Γ n 2n
χn2 2
0 si x ≤ 0
n + 1 n +1
Γ − n
t de Student 1 2 t2 2 σ2 =
n>0 fn (t ) = µ = 0 si n > 1 n−2
tn n
nπ 1 + n
Γ si n > 2
2
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN
n +n n +n
2 Γ 1 2 n1 − 1 2
F de n n1 2 −1 n1 2 n2 2n22 ( n1 + n2 − 2)
1 x 2 si x > 0 µ= σ2 =
Snedecor_Fisher 2
n1 > 0, n2 > 0 f ( x ) = n2 n n 1 + n x
2 n2 − 2 n1 ( n2 − 2) ( n2 − 4 )
Γ 1 Γ 2
Fn1,n2 2 2 si n2 > 2
si n2 > 4
0 si x ≤ 0
389
390 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
9.6.1. En una población compuesta por 10.000 niños menores de siete años se sabe
que la proporción de los que padecen tuberculosis es del 3%.
a) Se elige al azar una muestra de 60 niños, dar con riesgo 5% los extremos de
un intervalo en el que se espera encontrar la proporción de los que padecen
esa enfermedad en la muestra.
b) Ídem para una muestra de tamaño 200.
9.6.2. Un ingeniero forestal estima que el 30% de los pinos de un gran pinar están
afectados por la procesionaria. Se examinan 150 pinos y se representa por p0 la pro-
porción de pinos con procesionaria.
a) ¿Cuál es la distribución en el muestreo de p0?
b) ¿Cuál es la distribución en el muestreo de la diferencia reducida entre p0 y 0,30?
c) ¿Cuál es la probabilidad de encontrar entre los examinados un porcentaje de
afectados entre el 20% y el 45%?
d) Dar los límites de los valores esperados de p0 con riesgo del 5%
9.6.5. El peso de los recién nacidos no prematuros en una Comunidad Autónoma si-
gue una N (3.100 g, 200 g). Se elige una muestra de 16 niños de esa población.
a) ¿Cuál será la distribución del peso medio de los niños de la muestra?
b) Dar los valores mínimo y máximo del peso medio de los niños de la muestra
con riesgo α = 0,05.
c) Ídem con riesgo α = 0,01.
9.6.6. En una gran ciudad se conoce que la proporción de personas que utilizan a dia-
rio transporte privado es del 57%. Se elige una muestra al azar de tamaño 100 entre
los habitantes de esa ciudad.
a) ¿Qué distribución sigue la proporción de las personas de la muestra que uti-
lizan a diario el transporte privado?
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 391
b) Dar los valores mínimo y máximo, con error α = 0,05, del número de perso-
nas de la muestra que utilizan a diario el transporte privado.
c) ¿Cuál debería ser el tamaño de la muestra para que la amplitud del intervalo
de probabilidad con riesgo α = 0,05 sea 0,10? Ídem para que la amplitud sea
0,01, y 0,005.
9.6.7. De 100 árboles tratados con un fungicida se observa que 35 siguen con hon-
gos. Se quiere evaluar la eficacia del fungicida con un riesgo del 5%.
a) ¿Cuál debería ser el mínimo número de observaciones para asegurar una
precisión del 5%.
b) Ídem para tener precisión del 1%.
9.6.10. Utilizando la tabla de la distribución χ2, obtener los siguientes puntos críticos:
( 2
1.o ) P a < χ16 < b = 0, 95 ) (
2
2.o ) P a < χ80 < b = 0, 99 )
9.6.12. Utilizando la tabla de la distribución χ2, determinar los valores de a y b tales
que:
( 2
1.o ) P a < χ 20 = 0, 70 ) 2
2.o ) P χ 29(< b = 0, 025)
9.6.13. Hallar, utilizando la tabla de la distribución χ2, las siguientes probabilidades:
(
a) P χ92 < 5 ) (2
b) P 8 < χ16 < 10 )
9.6.14. Hallar los siguientes puntos críticos, utilizando las tablas de la distribución F:
9.6.15. Se sabe que la longitud de unas vigas de acero sigue una distribución normal
de media 5 m y desviación típica 0,02 m.
a) Hallar un intervalo de probabilidad con error 0,05 para la longitud de las vigas.
b) Ídem para α = 0,01.
c) Se elige una muestra de 100 vigas, ¿entre qué valores se puede esperar que
esté comprendida la longitud media de la muestra con error α = 0,05?
d) Responder de nuevo al apartado c) para muestras de tamaño 1.000.
e) Hallar un intervalo de probabilidad con error α = 0,01para la media muestral
si las muestras son de tamaño 1.000.
9.6.20. Con los datos del problema 9.6.19, a) dar un intervalo de probabilidad del
95% para la cuasivarianza muestral y para la cuasidesviación típica. b) Ídem con pro-
babilidad del 99%
9.6.21. Una variable que permite tener una medida relacionada con el sobrepeso es
el Índice de Masa Corporal, IMC, que se define como el cociente entre la masa en kg
y el cuadrado de la altura en metros. En un estudio realizado con niños de 13 años se
obtuvo que el IMC de los niños sigue una N(19,1, 3,7) y para las niñas de la misma
edad el IMC sigue una N(19,5, 3,0). Se elige una muestra de 16 niños y otra de 20 ni-
ñas independiente de la anterior.
a) Dar un intervalo de probabilidad para la diferencia de medias con riesgo del 5%.
b) Dar un intervalo de probabilidad para el cociente de cuasivarianzas con
riesgo del 5%.
Intervalos de confianza
de los parámetros de una población 10
10.1. INTRODUCCIÓN
–
Por ejemplo, si θ es la media poblacional µ, es θ̂ = X y el ICα para µ es:
395
396 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Pero:
Por tanto:
Gráficamente:
σ
X ~ N (µ,——)
√n
α/2 α/2
x
σ
µ – zα/2—— µ σ
µ + zα/2——
√n √n
ICα para µ
σ
x – zα/2—— σ
x + zα/2——
√n √n
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 397
–
Para cada valor de X se obtendrá un intervalo de confianza para µ diferente.
σ
X ~ N (µ,——)
√n
α/2 α/2
x x
σ
µ – zα/2—— µ σ
√n µ + zα/2——
√n
IPα para X ICα para µ ICα para µ
–
Es importante observar que el intervalo de probabilidad para X es un intervalo
σ σ
IPα = µ − z α , µ + zα con extremos fijos, conocidos µ y σ y fijado α.
2
n 2
n
σ σ
Sin embargo, el intervalo de confianza para µ, ICα = X − z α , X + zα ,
2 n 2 n
es un intervalo con extremos que son variables aleatorias en el muestreo, ya
–
que X depende de la muestra elegida. Si se conoce la varianza poblacional,
fijados α y el tamaño muestral, la amplitud del intervalo de confianza ICα es
σ
constante 2 z α .
2
n
Es incorrecto decir que P ( µ ∈ ICα ) = 1 − α , ya que µ no es una variable alea-
toria sino un parámetro fijo (aunque sea desconocido y se tenga que estimar). Se
puede afirmar que la proporción de ICα para µ que incluyen el valor de este pa-
rámetro es (1 – α)%. Este es el significado del ICα para µ.
–
Sí es correcto decir que P ( X ∈ IPα ) = 1 − α , porque X es una v.a. en el muestreo.
EJEMPLO 10.1.
Las medidas de longitud de ciertos fósiles crustáceos se sabe que siguen una distri-
bución normal de varianza σ 2 = 2,34. Si de una muestra aleatoria de tamaño 15 se obtie-
ne media 8,65 cm, construir un intervalo de confianza al 95% para la media poblacional.
Por ser una muestra de una población normal de tamaño n = 15, un intervalo
con confianza del 95% será:
Se afirma que, con confianza del 95%, la media poblacional estará compren-
dida entre 7,88 cm y 9,42 cm.
EJEMPLO 10.2.
En quince fragmentos de un mineral ferro-magnesiano se ha medido el por-
centaje de hierro obteniéndose de media 65,39% y una cuasidesviación típica de
3,47%. Determinar intervalos con confianza del 95% y del 99% para el porcentaje
medio de hierro de ese mineral.
Un intervalo con confianza del 95% por ser una muestra de tamaño n = 15 y
la varianza desconocida será:
Se concluye que, con confianza del 95%, el porcentaje medio de hierro de ese
mineral está comprendido entre 63,47% y 67,31% y, con confianza del 99%, los
límites que se obtienen son 62,72% y 68,06%.
400 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto
Por tanto
zα2 2 zα2 2
Si n, tamaño de la muestra, es grande, se pueden despreciar , así
y
n 4n 2
para muestras de tamaño grande un intervalo de confianza para la proporción po-
blacional es:
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 401
EJEMPLO 10.3.
Para estimar la proporción de votantes que elegirán al candidato A en unas elecciones
en las que se presentan tres candidatos A, B y C, se realiza una encuesta en la que se pide
a cien personas censadas que introduzcan en una bolsa un papel con un SÍ en el caso en
que le piensen votar o con un NO si no le votarán. El resultado de la encuesta dice que 37
de ellas sí le votarán. Con estos datos se pide dar un intervalo con confianza del 95% para
la proporción de votantes que el día de las elecciones votarán al candidato A.
Con confianza del 95% se espera que voten al candidato A entre el 27,5% y el
46,5% de los electores.
Ahora se comprueban a posteriori las condiciones de normalidad
2 2
Si se designa por χ α el valor de una v.a. χ n−1 que deja por encima pro-
;( n−1)
2
babilidad α y por χ α
2 2
el valor de una χ n−1 que deja por encima probabilidad
1− ;( n −1)
2 2
α
1 − se puede afirmar que
2
EJEMPLO 10.4.
Suponiendo que la concentración de calcio en el agua de un río en número de
partes por millón es una variable aleatoria normal de parámetros desconocidos, para
estimar la varianza se elige una muestra de 6 mediciones que han dado los si-
guientes resultados: 9,48, 9,54, 9,70, 9,26, 9,32 y 9,61. Determinar un intervalo de
confianza para la varianza con coeficiente de confianza 0,90.
50 1, 962 50 2
b) 1, 96 ≤4⇒n≥ = 600, 25 ⇒ n ≥ 601.
n 16
50 1, 962 50 2
c) Para que 1, 96 ≤ 3⇒ n ≥ = 1067, 11 ⇒ n ≥ 1.068.
n 9
EJEMPLO 10.6.
Un investigador desea estimar la media de una característica poblacional, de la
que no se conoce la distribución a que se ajusta, de tal modo que la probabilidad de
que la media muestral no difiera de ella en más de la cuarta parte de la desviación tí-
pica de la variable sea al menos 90%, ¿cuál debe ser el tamaño de la muestra para
conseguir su propósito?
Igualando 10 σ = σ ⇒ n = 4 10 ⇒ n = 160.
n 4
verifica esta desigualdad cualquiera que sea el valor de p, se tiene en cuenta que la
2
1 1
función f ( p) = pq = p(1 − p) es máxima para p = , y por tanto pq ≤ . De
2 2
esta forma
EJEMPLO 10.7.
Se desea estimar la proporción de albinos en una población. Calcular el tamaño
de la muestra para que la estimación de la proporción difiera del verdadero valor
a) En menos de un 5% con probabilidad 0,95.
b) En menos de un 1% también con probabilidad 0,95.
a) Como P pˆ − p ≤ zα 2 pq . 1 − α , Ä si 1 − α = 0, 95 ⇒ α = 0, 05 y en
n
)
consecuencia z α / 2 = 1,96. Para que P ( pˆ − p ≤ 0, 05 = 0, 95 ha de ser
2
(1, 96 )
n≥ 2 = 384, 16. Por tanto n tiene que ser al menos 385.
4 ( 0, 05)
)
b) Para conseguir P ( pˆ − p ≤ 0, 01 = 0, 95 tendrá que verificarse
al exigir mayor precisión con la misma confianza hay que aumentar considera-
blemente el tamaño de la muestra.
EJEMPLO 10.8.
Con el objeto de comprobar si la ingesta de vitamina A influye en el tiempo que las
ratas emplean en recorrer un laberinto, se divide un grupo de ellas de la misma edad al
azar en dos subgrupos de 50 y 36 ratas respectivamente. A las del primer grupo se les da
una dieta rica en vitamina A y al otro grupo una dieta que no contiene esa vitamina. El
tiempo empleado por las del primer grupo tiene media 5,2 min, con desviación típica 0,4
min, y para el segundo grupo se obtiene una media de 6 min. con desviación típica de 0,5
min. En el supuesto de que se pueda aceptar que las varianzas poblacionales son iguales,
dar un intervalo de confianza, con coeficiente de confianza del 95% para la diferencia de
los tiempos medios en las dos poblaciones. ¿Qué conclusión se puede sacar?
Si se designa por Xi el tiempo que tarda en recorrer el laberinto una rata del
grupo i, i = 1, 2.
Tenemos
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 409
y el estadístico
Por tanto, el
Esto significa que con confianza del 95% se puede afirmar que la diferencia
Por tanto, con esa confianza se puede afirmar que las ratas del segundo grupo,
con dieta sin vitamina A, tardan más tiempo en recorrer el laberinto.
Como en los casos anteriores, a partir del intervalo de probabilidad para la di-
ferencia de las proporciones muestrales se obtiene el intervalo de confianza para
la diferencia de proporciones poblacionales, con confianza (1 – α), que será:
EJEMPLO 10.9.
Se quiere probar la eficacia del tratamiento con estatinas en la lucha contra el
sida. Se eligen 200 pacientes y se dividen al azar en dos grupos de 100. Al primer
grupo se les administra estatinas durante un mes y al otro grupo se les trata con la
terapia antirretroviral combinada. Se comprueba que disminuye la carga viral
del VIH en sangre en 75 pacientes seropositivos del primer grupo y en 60 del se-
gundo. Dar un intervalo de confianza al 95% para la diferencia en la proporción de
los pacientes portadores del VIH para los que disminuye la carga viral del sida en
las células.
simplificando, se obtiene:
es decir, con esa confianza se afirma, a partir de los datos experimentales, que el
tratamiento con estatinas es más eficaz en la lucha contra el sida.
412 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
σ 12 σ 12 s12
El ICα para 2 = 2 2 ∈ IPα
σ 2 σ 2 s2
σ 12
Es decir, si a = F[ n −1, n −1];(1−α 2 ) Ä yÄ b = F[ n −1, n −1]; α 2 Ä ell Ä ICα para es:
1 2 1 2
σ 22
EJEMPLO 10.10.
En el Ejemplo 10.8., se hacía la suposición de igualdad de varianzas poblacio-
nales para la construcción del intervalo de confianza para la diferencia de medias.
Con los datos de las muestras de ese ejemplo, ¿se puede aceptar la igualdad de va-
rianzas poblacionales para α = 0,10 ?
2
El intervalo de confianza para σ 12 es:
σ2
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 413
σ 12
Como 1 ∈ ICα =0 ,1 para se puede aceptar
σ 22
θ̂
θ θ E(θ̂
θ) σθˆ Distribución θ
IPα para θ̂ ICα para θ
σ X−µ • Si n < 30
• Si X , N (µ ,σ ) ⇒ , tn−1
n s s s
n X − tα , X + tα
con σ desconocida ;n −1 n ;n −1 n
– s s
2 2
X µ µ µ − tα , µ + tα
;n −1 n ;n −1 n • Si n ≥ 30
2 2
s s
X − zα , X + zα
2
n 2
n
Si np ≥ 5 y nq ≥ 5, entonces pq pq
p − zα , p + zα ˆˆ
pq ˆˆ
pq
pq pˆ − p n pˆ − z α , pˆ + z α
pq pˆ , N p, ⇒ , N ( 0,1) 2 2
n n
p̂ p p 2 2
n
n n pq
ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Siendo np ≥ 5 y nq ≥ 5 en los
n extremos del intervalo
Si X , N (µ ,σ ) y n ≥ 100, entonces
σ σ σ s s
s σ σ σ σ − z α ,σ + z α s − zα , s + zα
2n s , N σ , aproximadamente 2n 2n
2n 2 2
2n 2 2
2n
TABLA DE INTERVALOS DE CONFIANZA (DISTRIBUCIÓN DE LOS ESTADÍSTICOS EN EL MUESTREO)
θ̂
θ θ E(θ̂
θ) σθˆ Distribución θ
IPα para θ̂ ICα para θ
• Si X , N ( µ, σ ), entonces Como
( n − 1) s2
( n − 1) s 2 P a < < b = 1− α
2 , χ n2−1 σ2 ( n − 1) s 2 ( n − 1) s 2
s2 σ2 σ2 σ2 σ2 ,
n −1 b a
Llamando a = χ 2
α y b = χ α2
1− ;n −1 ;n −1 σ 2a σ 2 b
2 2 IPα para s2 es ,
n − 1 n − 1
( X1 − X2 ) − ( µ1 − µ2 ) , t
n1 + n2 − 2
1 1
s +
n1 n2
415
2 ( n1 − 1) s12 + ( n2 − 1) s22
siendo s =
n1 + n2 − 2
TABLA DE INTERVALOS DE CONFIANZA (DISTRIBUCIÓN DE LOS ESTADÍSTICOS EN EL MUESTREO)
θ̂
θ θ E(θ̂
θ) σθˆ Distribución θ
IPα para θ̂ ICα para θ
416
son independientes pero los tamaños de las s12 s22 s12 s22
muestras no son grandes, es decir, no son ( µ1 − µ2 ) 7t α ,g + ( X1 − X2 ) 7 t α ,g +
2
n1 n2 n1 n2
ambos mayores o iguales a 30 2
σ 12 σ 22 entonces
( X1 − X2 ) − ( µ1 − µ2 ) , t
+ g
n1 n2 s12 s22
– – +
X1 – X2 µ1 – µ2 µ1 – µ2 σ1 y σ2 n1 n2
son desconocidas siendo g el entero más próximo a
y no se pueden 2
suponer iguales s12 s22
n +
1 n2
h= 2 2
−2
s12 s22
n1 n2
+
n1 + 1 n2 + 1
Si X1 , N ( µ1 , σ 1 ) , X2 , N ( µ 2 , σ 2 ) s12
σ 12
s12 como P a ≤ 2 ≤ b = 1 − α
σ2 s2
s12 σ 12 2 1 s12 1 s12
son independientes F = 12 , F n −1,n −1
1 2 σ 2 2,
s2 2
s22 σ 22 El b s2 a s 2
2
σ2
Si a = Fn −1,n −1;1−α 2 y b = F n −1,n −1;α s12 aσ 2 bσ 2
1 2 1 2 2 IPα para 2
es 21 , 21
s2 σ2 σ2
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 417
c1) Dar un intervalo de confianza del 90% para la media de X, si se conoce la des-
viación típica de la población de esta especie de coníferas, que es de dos meses.
c2) Dar un intervalo de confianza del 99% para la media de X si no se tiene co-
nocimiento de la desviación típica de la población.
c3) Dar un intervalo de confianza del 95% para la varianza de X y para la des-
viación típica de X.
10.11.5. Se acepta que el tiempo que tarda una rata en recorrer un determinado la-
berinto sigue una distribución normal. Se realiza un experimento con dos ratas. La
primera recorre el laberinto 35 veces en un tiempo medio de 9 minutos con cuasiva-
rianza 3,6 y la segunda en 40 recorridos da una media de 8 minutos con cuasiva-
rianza 1,6. Hallar un intervalo con confianza del 95% para la diferencia de los tiem-
pos medios.
10.11.7. Se quiere comparar la variación de cierta sustancia tóxica en dos ríos, cuyas
aguas sufren contaminación industrial, con el fin de vigilar la calidad del agua para la
cría de peces. Se eligen 10 muestras de agua del primer río y 7 del segundo. Los ni-
veles de la sustancia tóxica determinados en el laboratorio, en ppm, se recogen en la
siguiente tabla:
Río 1 9 8 10 12 13 12 10 14 10 12
Río 2 7 10 8 8 9 10 8
a) Dar un intervalo con confianza del 99% para la media de X suponiendo que la
desviación típica de X sea de 500 individuos.
b) Dar un intervalo con confianza del 95% para la media de X si no se tiene co-
nocimiento de la desviación típica de X.
c) Dar un intervalo con confianza del 90% para la varianza de X y para la des-
viación típica de X.
10.11.9. Para comparar las varianzas de las dimensiones de los pies ambulacrales de
astéridos procedentes de distinta zona litoral se elige una muestra aleatoria de 21 es-
trellas de mar de la primera zona y 16 de la segunda. Se admite que las longitudes de
los podios, medidas en mm, se distribuyen según una normal en ambas zonas. Las
muestras proporcionan varianzas 0,61 y 0,937 respectivamente.
a) Determinar un intervalo con confianza del 95% para el cociente de las varianzas.
b) ¿Se puede suponer que las varianzas en las dos zonas son iguales?
10.11.11. Se sabe que la distribución del peso de mazorcas de maíz de una especie
enana sigue una distribución normal con desviación típica 4,5 g. Se eligen al azar 20
mazorcas de una gran plantación, el peso medio de éstas es de 19 g y la cuasides-
viación típica es de 4 g.
a) Dar un intervalo de confianza del 95% para el peso medio de las mazorcas.
b) ¿Cuál sería el intervalo de confianza si los datos anteriores correspondieran a
una muestra aleatoria de 100 mazorcas?
c) Determinar el intervalo de confianza para la media a partir de la muestra de
tamaño 20 si no se tiene información sobre la varianza poblacional.
d) Dar un intervalo de confianza al 95% para la varianza de la población.
10.11.13. Para estimar el número medio de accidentes mortales de tráfico que ocu-
rren en la Comunidad de Madrid en fines de semana, se observan diez fines de se-
mana elegidos al azar y se obtiene una media de 60 accidentes con desviación típica
de 9,5. Dar una estimación por intervalo de confianza al 95%.
420 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
10.11.15. Los árboles frutales vigorosos de cierta especie admiten una carga máxi-
ma, X, en kg sin que se rompan sus ramas. Se acepta que la carga de fruta sigue una
distribución normal. Se pesa la carga de fruta de cinco árboles de esa especie, elegi-
dos al azar. Los resultados obtenidos son los siguientes:
265 kg, 235 kg, 220 kg, 250 kg, 260 kg
a) Hallar un intervalo de confianza al 90% de la media de las cargas.
b) ¿A partir de qué valor de X se puede esperar que se rompan el 80% de las ramas?
10.11.16. En una oficina hay dos impresoras, el tiempo que tarda la primera en
imprimir un folleto es una variable aleatoria X de la que una muestra de 100 folletos
ha dado media de 12,5 seg. por unidad, con desviación típica 2 seg. por unidad. La
variable aleatoria Y correspondiente a la segunda impresora para una muestra de im-
presión de otros 100 ejemplares del mismo folleto dio una media de 10,5 seg. por
unidad, con desviación típica 1,5 seg. por unidad.
a) Calcular un intervalo de confianza con coeficiente de confianza 0,9 para la di-
ferencia de los tiempos medios en imprimir un folleto.
b) Ídem con coeficiente de confianza del 99%.
c) Suponiendo que la calidad de impresión es la misma, ¿qué impresora produ-
ce un mejor rendimiento?
10.11.17. Los postes de madera de pino torneada para cerramiento de fincas se tra-
tan con sales hidrosolubles cobre-cromo-arsénico para protegerlos contra hongos, ter-
mitas y xilófagos. Se examinan 100 postes que llevan colocados 50 años y se en-
cuentran 89 en buen estado. Estimar el porcentaje de postes que siguen en buen
estado después de 50 años con coeficiente de confianza 0,95.
10.11.18. Se ha repoblado una gran extensión con árboles de la misma especie. Se eli-
gen 100 árboles al azar pasados siete años desde que se plantaron. Las medidas, en cm,
de los diámetros a 1,30 m del suelo para estos árboles se recogen en la siguiente tabla:
Diámetro 25 35 45 55 65
ni 9 18 38 29 6
a) Hallar un intervalo con confianza 0,90 para el diámetro medio de los árboles
de esa especie al cabo de siete años.
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 421
b) Aceptando que los diámetros se distribuyen según una normal, dar un inter-
valo con confianza 0,90 para la varianza.
10.11.19. Una máquina que corta piezas de ágata con un grosor fijo produce piezas
de grosor que sigue una distribución normal de varianza 1 mm.
a) Sabiendo que de una muestra de tamaño 60 elegida al azar de las cortadas por
esa máquina se ha obtenido un grueso medio de 8,5 mm, determinar un in-
tervalo con confianza 0,90 para la media de toda la producción.
b) Si sólo se conoce que la media de una muestra de tamaño 5 es 8,2 mm, dar un
intervalo con confianza 0,90 para la media de la producción.
11.1. INTRODUCCIÓN
423
424 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 11.1.
Según las leyes de Mendel, al cruzar individuos heterocigóticos Aa, en el su-
puesto de dominancia completa, en la primera generación filial se espera encontrar
una proporción p = 1/4 de individuos de genotipo aa. Se cruzan un gran número de
individuos heterocigóticos y se quiere contrastar si en esa población se puede acep-
tar que la proporción de individuos de genotipo aa es p = 1/4. Se elige una muestra
aleatoria de tamaño n en esa población y en ella se observa una proporción p0 de in-
dividuos aa. Como ya se ha explicado anteriormente, p0 tiene fluctuaciones en el
muestreo y por tanto es bastante improbable que coincida exactamente con el valor
teórico propuesto, de modo que se necesita introducir un procedimiento de decisión
que tenga en cuenta las fluctuaciones en el muestreo de los estadísticos muestrales.
es decir, está formada por los valores del estadístico que son menores o iguales
que –zα/2 o bien mayores o iguales a zα/2.
H : µ = µ0
Del mismo modo, para el contraste de hipótesis bilateral: 0 la re-
H1 : µ ≠ µ 0
X − µ0
gión de aceptación al nivel α para el estadístico, Z = es:
σ
n
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 427
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ ≠ µ0 σ/√n
α/2 α/2
( )
y por tanto, la región crítica es RCα = − `, − zα 2 ∪ zα 2 , + ` , que está formada
por los valores del estadístico menos probables en el caso en que la hipótesis nula
sea cierta.
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ ≠ µ0 σ/√n
Para los contrastes unilaterales de la media de una población con varianza co-
nocida, las regiones de aceptación de la hipótesis nula y las regiones críticas se re-
presentan a continuación:
H : µ = µ0
Para la prueba 0 la región crítica es la semirrecta [ zα , + ` ) .
H1 : µ > µ 0
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ > µ0 σ/√n
RAα 0 zα RCα
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ < µ0 σ/√n
)
éste que pertenecen a 0, χ(21−α 2 );n−1 ∪ χα2 2;n −1 , + ` , como se observa en la gráfica
siguiente:
H0; σ2 = σ02
H1; σ2 ≠ σ02 (n – 1)s2
———— ~ χ2n–1si H0 es cierta
σ02
α/2
1–α
RCα α/2
0
χ2(1– —);n–1
α χ2α RCα
2 —;n–1
2
Es importante observar que los contrastes de hipótesis, una de las más im-
portantes aplicaciones de la inducción estadística a las ciencias experimentales, a
la técnica, a la economía, a la industria, etc., no proporcionan conclusiones cate-
góricas sobre la certeza o falsedad de la hipótesis H0 formulada, pero sí permiten
tomar decisiones decidiendo el riesgo que se está dispuesto a consentir; esto es,
tomar decisiones con probabilidad alta de acertar.
La regla de decisión asumida, si se repite el procedimiento para un gran nú-
mero de muestras, proporcionaría un porcentaje de aciertos de 100 (1 – α)%,
como en los intervalos de confianza.
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 429
Para aceptar o no una hipótesis se contrasta con los datos obtenidos en una muestra
elegida al azar en la población. Si el valor del estadístico en la muestra es uno de los
más probables, en el supuesto que H0 sea cierta se mantiene como válida la hipótesis
nula, pero si el valor del estadístico en la muestra es poco probable se admite la hipó-
tesis alternativa. Esto no significa que H0 sea falsa, pues sólo se podría asegurar que no
es cierta examinando todos los elementos de la población y esto es inviable en general.
frente a la alternativa:
Sujeto
Inocente Culpable
Hipótesis
H0 cierta H0 falsa
Z=
X − µ0
σ (
, es: Ä RAα = − zα , zα .
2 2
)
n
La probabilidad de cometer el error de tipo I es la probabilidad de que el es-
tadístico pertenezca a la región crítica, conjunto de valores del estadístico con pro-
babilidad α, en el supuesto que la hipótesis H0 sea cierta.
la probabilidad del error de tipo I es, por tanto, el nivel de significación de la prueba.
El error de tipo II se origina porque la variable aleatoria en el muestreo, en
X − µ0
este caso Z = , puede pertenecer a la región de aceptación siendo falsa H0.
σ
n
Se indica por β la probabilidad de cometer el error de tipo II.
H : µ = µ0
En la siguiente gráfica se representan, para el contraste 0 , la pro-
H
1 : µ ≠ µ 0
babilidad del error de tipo I y para una hipótesis alternativa también el de tipo II.
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 431
X – µ0
Distribución de Z = ——— si H0 es cierta
σ/√n
H0; µ = µ0
H1; µ ≠ µ0 X – µ0
Distribución de ——— si H1 es cierta
σ/√n
α/2 β α/2
0
RCα –zα/2 RAα zα/2 RCα
X–µ
Distribución de Z = ———0 ~ N(0,1) si H0 es cierta
σ/√n
H0; µ = µ0
H1; µ ≠ µ0 X – µ0
Distribución de ——— para H1 cierta
σ/√n
α/2 β α/2
α/2 β α/2
Para un valor fijo de α se puede disminuir el riesgo de cometer el error de tipo II,
es decir, disminuir β, aumentando el tamaño de la muestra.
Distribución Distribución
X – µ0 X – µ0
de Z = ——— de Z = ———
σ/√n σ/√n
si H0 es cierta si H1 es cierta
α/2 β α/2
Al tomar una decisión en un problema concreto para una hipótesis nula de-
terminada, no se cometen a la vez los dos tipos de error. Si la hipótesis nula es
verdadera, sólo se puede cometer el error de tipo I, y si la hipótesis H0 es falsa,
sólo es posible incurrir en el error de tipo II.
Los valores más usados para α son:
α = 0,10, α = 0,05, α = 0,01, α = 0,001
H : µ = µ0 X µ
En el ejemplo 0 la región de aceptación del estadístico Z = − 0 ,
σ
H1 : µ ≠ µ0
n
(
es: RAα = − zα , zα
2 2
) y las regiones críticas correspondientes a los valores de α
más habituales son:
EJEMPLO 11.2.
a) n = 36 y µ = 20.
por tanto,
b) Análogamente, si n = 36 y µ = 18.
434 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
c) n = 400 y µ = 20.
d) n = 400 y µ = 18.
Se observa:
Si n = 400 es
EJEMPLO 11.3.
El límite máximo de colesterol total en sangre varía entre 200 mg/100 ml de
sangre y 250 mg/100 ml. A partir de esta cantidad se considera hipercolesterolemia.
Con el fin de contrastar la eficacia de un nuevo fármaco para reducir el nivel de
colesterol en sangre, se han tomado muestras de sangre de 10 personas con hiper-
colesterolemia, obteniéndose: x$1 = 260 mg/100 ml, s1 = 8,47 mg/100 ml. Se les so-
mete al nuevo tratamiento durante seis meses y se controla de nuevo el nivel de co-
lesterol en sangre. Los resultados obtenidos fueron: x$2 = 255,8 mg/100 ml, s2 =
14,32 mg/100 ml.
Se pretende poner de manifiesto que este tratamiento reduce la presencia de co-
lesterol en sangre. ¿Cuántos pacientes deberían seguir el tratamiento para poder ase-
gurar que la diferencia de 4,2 mg/100 ml se manifieste en el 95% de los casos a un
nivel de significación α = 0,01, suponiendo que la varianza de la diferencia sea de
36 mg/100 ml?
)
región de aceptación del contraste es: RAα =0 ,01 = ( − `, zα =0 ,01 = ( − `, 2, 33) .
436 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
d d
Z = ——— ~N(0,1) ——— ~N(4,2, 1)
σD/√n σD/√n
si H0 es cierta si H1 es cierta
α = 0,01
β
RAα = 0,01 = (–∞, 2,33) 0 zα = 0,01 = 2,33 4,2 RCα = 0,01 = [2,33, +∞)
Se pretende calcular el valor de n para que la potencia del contraste sea 0,95,
( )
por tanto 1 − β = 0, 95 ⇒ β = 0, 05 ⇒ P aceptar H0 H0 es falsa = 0, 05. Para poder
calcular β se necesita una hipótesis alternativa. Suponiendo que la diferencia es de
4,2 mg/100 ml, entonces será cierta la hipótesis alternativa H1 : D > 0 y por tanto
H0 es falsa y para esta diferencia
Tipificando
11.4. EL P-VALOR
1. Si el contraste es bilateral:
Al contrastar la hipótesis H0 : µ = µ 0 frente a la alternativa H1 : µ ≠ µ0 , si H0
X − µ0
es cierta, el estadístico Z = , N (0,1).
σ
n
Para este contraste la región crítica es una región bilateral formada por la
unión de dos semirrectas, lo que significa que los valores del estadístico muy ale-
jados de µ0, tanto a la derecha como a la izquierda, son los menos probables si es
cierta la hipótesis nula.
En este caso si el valor del estadístico para la muestra elegida es:
Gráficamente:
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ ≠ µ0 σ/√n
1 – valor)
—(P 1 – valor)
—(P
2 2
α/2 1–α α/2
( )
que es RCα =0 ,05 = − `, − zα ∪ zα , + ` , como se observa en la gráfica anterior.
2
2
2. Si el contraste es unilateral:
H : µ = µ0
2.1. Si se realiza el siguiente contraste unilateral 0 los valores
H1 : µ > µ0
muy grandes del estadístico dan indicio en contra de la hipótesis nula y a favor de
la alternativa y no así los restantes valores posibles, incluidos los muy pequeños.
Por tanto el P-valor es:
H0; µ = µ0
X – µ0
H1; µ > µ0 Z = ——— ~ N(0,1) si H0 es cierta
σ/√n
1–α P – valor = P(Z > zmuestra)
α
RAα zα zmuestra RCα
H : µ = µ0
2.2. Si se realiza el contraste unilateral contrario 0 los valores
H1 : µ < µ0
muy pequeños del estadístico conducen a aceptar la hipótesis alternativa pero no
los demás valores posibles, incluidos los muy grandes. En este caso el P-valor es:
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ < µ0 σ/√n
α 1–α
z
–zα muestra RAα
P – valor = P(Z < zmuestra)
tica, es decir, el valor de α para el que la región crítica tenga en la frontera el va-
lor del estadístico Zmuestra, obtenido con los datos observados. Esto es, el menor va-
lor de α que haría que con los datos observados se rechazase la hipótesis nula. Por
esto se llama también el nivel crítico de la prueba.
El P-valor es menor cuanto mayor es la diferencia entre la hipótesis admitida
y el valor obtenido de la muestra. Por tanto, cuanto menor es el P-valor mayor es
la sospecha de que la hipótesis H0 es falsa.
Para valores muy pequeños del P-valor, es decir, si P-valor < 0,001 se recha-
za la hipótesis nula, H0, por considerar que hay una diferencia muy significativa
entre el valor observado y el esperado de ser cierta H0.
pˆ − p0
Se elige como estadístico de contraste Z =
p0 q0
n
Fijado α se determina la región de aceptación de la hipótesis H0, que es un in-
tervalo de probabilidad para el estadístico de contraste con probabilidad 1-α.
440 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
pˆ − p0
Para el estadístico Z =
p 0 q0
(
Ä es Ä RAα = − zα 2 , zα 2 )
n
Esto significa que fijado α se acepta H0 si:
EJEMPLO 11.4.
De 9.390 alumnos matriculados en la universidad se sabe que 4.875 son muje-
res, ¿se puede aceptar que la proporción de varones y mujeres es la misma? Dar la
respuesta para α = 0,05. ¿Cuál es el P-valor para este contraste?
H : p = 1 2
Las hipótesis a contrastar son: 0 y como claramente se cum-
H1 : p ≠ 1 2
1
plen las condiciones de normalidad pues 9.390 = 4.695 ≥ 5, el estadístico
2
1
pˆ −
Z= 2 , N ( 0, 1) . La región de aceptación del contraste para α = 0,05 es:
12
9390
RAα =0 ,05 = ( −1,96, 1,96 ) .
4.875
Como pˆ = = 0, 5192, el valor del estadístico de contraste para la muestra
9.390
0, 5192 − 0, 5
proporcionada es z = = 3, 72 ∉ RAα =0 ,05 y en consecuencia se rechaza la
0, 5
9.390
hipótesis nula para α = 0,05. Es decir, no se acepta la igualdad de la proporción de
matriculados para ambos sexos.
Para determinar el P-valor del contraste se sabe que:
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 441
por tanto, el P-valor = 0,0002. Esto significa que se sigue rechazando la hipótesis
nula formulada para α = 0,01 y α = 0,001. La disconformidad entre la hipótesis H0
y los datos observados es muy significativa.
EJEMPLO 11.5.
Se quiere probar si un tratamiento con polvo cicatrizante de colágeno de origen
bovino es más eficaz que un tratamiento convencional para la cicatrización de úlceras
de decúbito que era efectivo en el 65% de los casos. Para ello se han tratado 60 per-
sonas con úlceras crónicas, elegidas al azar, con el tratamiento con colágeno que ha
dado resultado positivo en 48 pacientes. Realizar el contraste para α = 0,05.
H : p = 0, 65
En este caso se trata de contrastar 0
H1 : p > 0, 65
Como np0 > nq0 = 60 (0, 35) = 21 ≥ 5, se cumplen las condiciones de normali-
dad en el supuesto de que la hipótesis nula sea cierta. Por tanto, el estadístico
442 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
y como este valor cae en la región crítica para α = 0,05, se rechaza la hipótesis
nula para α = 0,05.
Esto significa que, con los datos de esta muestra, hay razones para afirmar que
el tratamiento con colágeno de origen bovino es más eficaz que el tradicional para
la curación de ese tipo de lesiones en la piel.
EJEMPLO 11.6.
En una población de individuos con intolerancia a la leche de vaca, un alimen-
to, en cuya preparación se utiliza este tipo de leche, provoca una reacción alérgica
en el 20% de los que lo toman. Se experimenta con un nuevo producto sin lactosa
que se espera sea mejor tolerado. Para ello se elige una muestra aleatoria de cien
personas de los que padecen dicha intolerancia y se les da a comer el nuevo ali-
mento.
a) Escribir las hipótesis nula y alternativa y construir la región crítica para α = 5%.
b) ¿Cuál es la distribución en el muestreo de p̂ bajo la hipótesis H0? ¿Y bajo la
hipótesis H1?
c) ¿Qué conclusión se puede sacar si de una muestra de cien personas que to-
maron el producto sin lactosa 12 también sufrieron una reacción alérgica?
0, 2 ⋅ 0, 8 pˆ − 0, 2
b) Si H0 es cierta pˆ , N 0, 2, ⇔Z= , N ( 0,1) .
100 0, 04
p⋅q
Si H1 es cierta pˆ , N p, .
100
c) Si p̂ = 0,12, entonces z = −2 ∈ RCα =0,05 . Por tanto se rechaza la hipótesis
nula a este nivel. Esto significa que se puede admitir para α = 0,05 que el nuevo
alimento es mejor tolerado.
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 443
X − µ0
Por tanto para el estadístico Z = la región de aceptación de la hipótesis
σ
n
( )
nula, fijado α, es RAα = − zα 2 , zα 2 .
444 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
• Si se desconoce el valor de σ 2
Siempre que X , N ( µ, σ ) , si es cierta la hipótesis nula H0 : µ = µ0 la distri-
bución del estadístico
• Si σ 2 es desconocida
X − µo
Por ser la distribución del estadístico T = , en el supuesto que la hi-
s
n
pótesis nula H0 : µ = µ0 sea cierta y que X , N ( µ , σ ) , una tn–1 se rechazará la hi-
pótesis nula, fijado α, si el valor del estadístico pertenece a la región crítica:
X − µ0
• Si se conoce σ 2 utilizando el estadístico Z = la región crítica para
σ
un valor fijado α será:
n
446 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
X − µo
• Si no se conoce σ 2 se utiliza T = . En este caso la región crítica para
el valor de α dado es: s
n
EJEMPLO 11.7.
Un fabricante de monitores para ordenador asegura que la vida media de sus
monitores es de 3.000 horas, con desviación típica de 48,6. Aceptando como válido
el valor de la desviación típica, se quiere contrastar si la vida media es de 3.000 ho-
ras o menor. Se controla la duración de 45 monitores elegidos al azar de su pro-
ducción y se obtiene una vida media de 2.960 horas. A la vista de estos resultados
¿qué se puede concluir?
X − 3.000
El estadístico Z = , N (0,1) en el supuesto que H0 sea cierta. Por
48, 6
45
tanto, la región crítica para α = 0,05 es RCα =0,05 = ( − `, −1, 645] .
Para la muestra observada el valor del estadístico es:
2
se distribuye según una χ n−1 , se pueden realizar pruebas para confirmar o rechazar
hipótesis sobre la varianza σ2. Si se trata de contrastar un valor se realiza un con-
traste bilateral, y si lo que se pretende es saber si se puede aceptar que la varian-
za es mayor o menor que una cantidad, se efectúa una prueba unilateral.
(n – 1)s2
———— ~ χ2n–1
σ02
α/2
1–α
RCα α/2
0
χ2(1– —);n–1
α χ2—;n–1
α RCα
2 2
448 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
En consecuencia, se acepta H0 si
pues esto significa que s2 no es muy grande ni muy pequeño en comparación con σ 02.
Se utiliza el estadístico χ 2 =
( n − 1) s 2 que en el supuesto que sea cierta la hi-
σ 02
2
pótesis nula sigue una distribución χ n−1 y rechazaremos la hipótesis H0 si s2 es muy
2
grande en comparación con σ 0 , es decir, la región crítica fijado el valor de α será:
(n – 1)s2
———— ~ χ2n–1
σ02
α
0
χ2α;n–1 RCα
nula si ese estadístico pertenece a la región crítica, fijado el valor de α, que para
esta prueba es: RCα = 0, χ(21−α );n−1 , representada en la siguiente gráfica
(n – 1)s2
———— ~ χ2n–1
σ02
α
RCα
0
χ2(1– α);n–1
EJEMPLO 11.8.
El peso indicado en las latas de jamón cocido de una marca determinada es de
500 g, pero todas las latas no tienen el mismo peso. Para la exportación es admisible
como máximo una varianza de 25 g2. Para inspeccionar un pedido se eligen 30 latas
al azar y al pesarlas se obtiene varianza de los pesos de 42 g2. ¿Se puede aceptar el
pedido para la exportación tomando α = 0,05?
H : σ 2 = 25
Se trata de contrastar 0
2
H1 : σ > 25
Suponemos que la distribución de los pesos de las latas es normal. Si la hi-
29 s 2
pótesis H0 es cierta el estadístico χ 2 = , χ 29
2
y por tanto, la región crítica
será: 25
El valor del estadístico para los datos de la muestra elegida al azar es:
Con los datos de la muestra, hay razones para suponer que la varianza es ma-
yor que la admitida para la exportación y por tanto, se rechazará el pedido.
450 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Xi
Si pˆ í =, i = 1, 2 son las proporciones observadas en muestras independientes
ni
de tamaños n1 y n2 grandes, para asegurar que se verifican las condiciones de nor-
malidad, el estadístico
rechazándola a ese nivel en caso contrario, es decir, si el valor del estadístico cae
en la región crítica a ese nivel
EJEMPLO 11.9.
En un estudio sobre las causas de la cirrosis hepática, se eligen al azar 200 per-
sonas que no padecen la enfermedad y se comprueba que de ellas 40 no toman be-
bidas alcohólicas; y entre 150 enfermos de cirrosis, también elegidos al azar, se ob-
serva que 12 de ellos no consumen alcohol. ¿Es significativa la diferencia entre las
proporciones observadas? Interpretar el resultado.
40 12
De los datos observados se deduce que pˆ 1 = = 0, 20 Ä Ä yÄ Ä pˆ 2 = = 0, 08 y
el valor del estadístico es: 200 150
Por tanto, se rechaza al nivel α = 0,01 la hipótesis de igualdad entre las pro-
porciones en los dos colectivos, enfermos de cirrosis y personas que no padecen
esta enfermedad. La diferencia entre las proporciones de personas que no consu-
men alcohol entre los que no padecen cirrosis y los que sí la padecen es signifi-
cativa.
formado por valores del estadístico Z positivos, muy grandes y poco probables si
la hipótesis cierta es H0.
Análogamente, para contrastar la hipótesis de que p1 < p2 se plantean las hi-
pótesis
EJEMPLO 11.10.
En un estudio del Ejemplo 11.9. sobre las causas de la cirrosis hepática se elige al azar
200 personas que no padecen la enfermedad y se comprueba que de ellas 40 no toman be-
bidas alcohólicas y entre 150 enfermos de cirrosis, también elegidos al azar, se observa que
12 de ellos no consumen alcohol. ¿Es significativamente mayor la proporción de los que no
consumen alcohol entre los que no padecen la enfermedad? Interpretar el resultado.
por ser cociente de dos variables independientes χ2 divididas entre sus grados de
libertad.
F ~ F[n1–1,n2–1]
α/2
1–α α/2
2
Se rechaza H0 si s12 ≥ F α
pues en ese caso s12 es demasiado grande con re-
s2 [ n1 −1,n2 −1]; 2
s2
lación a s22 si es cierta la hipótesis nula y también se rechaza H0 si 0 ≤ 12 ≤ F α
s2 [n1 −1,n2 −1];1− 2
pues esto significa que s12 es muy pequeño en relación con s22 en el supuesto de que
sea cierta H0.
Por ello, la región crítica al nivel α es 0, F α ∪ F α , + ` .
[ n1 −1,n2 −1];1− 2 [n1 −1,n2 −1]; 2
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 455
EJEMPLO 11.11.
Se quiere contrastar si se pueden suponer iguales las varianzas de las longitudes
de las truchas de dos ríos de cuencas distintas. Se supone que las longitudes siguen
distribuciones normales y se pescan 16 truchas al azar en uno de los ríos y 21 en el otro.
Las varianzas de las muestras son 0,2344 y 0,1524 respectivamente. Realizar el con-
traste al nivel α = 0,05.
2 2
Las hipótesis del contraste son: H0 : σ 1 = σ 2 . Se supone cierta la hipótesis
2 2
H1 : σ 1 ≠ σ 2
s2
nula y en este caso el estadístico de contraste F = 12 , F[15,20 ] .
La región crítica al nivel α = 0,05 es: s2
16
0, 2344 0, 25
s12 15
Se calcula f = 2 = = = 1, 5623 ∉ RCα =0 ,05 y por tanto se acepta,
s2 21 0, 1524 0, 16
20
al nivel α = 0,05, la igualdad de varianzas en las dos poblaciones.
s21
—2 ~ F[n1–1,n2–1]
s2
1–α α
0 F[n1–1,n2–1];α
456 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
s21
—2 ~ F[n1–1,n2–1]
s2
α
1–α
pues en esos casos s21 es muy pequeño con relación a s22 y por ello se acepta
H1 : σ 12 < σ 22 .
H : µ = µ2
Se formulan las hipótesis: 0 1 y se supone cierta H0.
H1 : µ1 ≠ µ2
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 457
X1 − X2 − ( µ1 − µ2 )
La variable aleatoria Z = , N ( 0, 1) y al suponer cierta la
hipótesis nula: σ 12 σ 22
+
n1 n2
σ2 σ2
Como se sabe que X1 − X2 , N µ1 − µ2 , 1 + 2 y se ha aceptado
n1 n2
X − X2 − ( µ1 − µ2 )
σ 12 =σ 22 = σ 2 se tiene ahora que Z = 1 , N ( 0, 1) , pero como se
1 1
σ +
n1 n2
desconoce el valor de la varianza común se estima por la media ponderada de las
cuasivarianzas muestrales:
1 1
Dividiendo numerador y denominador por σ + se tiene:
n1 n2
De ahí que la región crítica al nivel α para este contraste bilateral sea:
2 2
X − X 2 − ( µ1 − µ2 )
Como X1 − X 2 , N µ1 − µ2 , σ 1 + σ 2 ⇔ 1 , N ( 0,1) pero
n1 n2 σ 12 σ 22
+
n1 n2
al desconocer las varianzas y no poder suponerlas iguales se estiman σ i2 por si2 para
i = 1, 2.
X − X2 − ( µ1 − µ 2 )
La distribución de la v.a. 1 es una t de Student cuyo número
2 2
s1 s2
+
n1 n2
de grados de libertad sólo se puede calcular de forma aproximada, por desconocerse
el valor de los parámetros σ 21 y σ 22.
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 459
2
s12 s22
n + n
1 2
siendo g el entero más próximo a h = 2 2 −2
(s2
1 n1 ) + (s 2
2 n2 )
n1 + 1 n2 + 1
Y la región crítica al nivel α será ahora:
y la región de rechazo de la hipótesis nula al nivel α es: RCα = tα ;n1 +n2 −2 , + ` . )
• Si no se conocen σ 12 y σ 22 y no se puede aceptar que σ 12 = σ 22
X1 − X 2
Se utiliza, como estadístico de contraste: T = , tg , siendo g el entero
s12 s22
+
n1 n2
2
s12 s22
n + n
1 2
más próximo a h = 2 2 − 2 y la región crítica será:
(s2
1 n1 ) + (s
2
2 n2 )
n1 + 1 n2 + 1
462 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
son en los dos casos distribuciones t de Student con un número de grados de li-
bertad grande y, por tanto, se pueden aproximar ambas por la N(0,1) lo que sim-
plifica mucho la determinación de las regiones críticas.
sigue aproximadamente una distribución N(0,1) y por ello se pueden aplicar los
contrastes bilaterales y unilaterales de comparación de dos medias con varianzas
conocidas explicados anteriormente.
EJEMPLO 11.12.
Las cantidades de Fe, en mg, en diferentes muestras de mineral de dos yaci-
mientos distintos son las siguientes:
Yacimiento 1 91 90 84 83 88 89 85 89 90 85
Yacimiento 2 89 91 88 92 85 91 93
H : σ 2 = σ 22
a) Se trata de contrastar las hipótesis 0 1
2 2
H1 : σ 1 ≠ σ 2
s2
El estadístico de contraste, en el supuesto que sea cierta H0, es F = 12 , F[9,6]
y la región crítica al nivel α = 0,01 es: s2
El valor del estadístico t = −1, 7682 ∈ RCα =0 ,05 , por tanto se rechaza H0 al nivel
α = 0,05, pero no al nivel α = 0,01, pues t = −1, 7682 ∉ RCα =0 ,01 .
La diferencia observada es casi significativa, pero no es significativa. Sólo se
puede aceptar la hipótesis de que la media del segundo yacimiento es mayor al
nivel α = 0,05.
El programa abre una ventana en la que hay que indicar la variable que co-
rresponde a los datos y se pulsa Aceptar, y se toma nota de los valores de los es-
tadísticos y del tamaño de la muestra.
Se pulsa
EJEMPLO 11.13.
Realizar con STATGRAPHICS los contrastes de los ejemplos 11.4., 11.5.,
11.7. y 11.8.
Contraste de Hipótesis
———————————————————————————————
Proporción de la Muestra = 0,8
Tamaño de la Muestra = 60
Aproximado 95,0% inferior límite de confianza para p: [0,69619]
Hipótesis Nula: proporción = 0,65
Alternativa: mayor que
p-Valor = 0,00860258
Rechazar la hipótesis nula para alpha = 0,05.
Contraste de Hipótesis
———————————————————————————————
Media de la Muestra = 2960,0
Desviación Típica de la Muestra = 48,6
Tamaño de la Muestra = 45
95,0% superior límite de confianza para la media: 2960,0 + 12,1731
[2972,17]
Hipótesis Nula: media = 3000,0
Alternativa: menor que
Estadístico t calculado = –5,52116
p-Valor = 8,48524E-7
Rechazar la hipótesis nula para alpha = 0,05.
Contraste de Hipótesis
———————————————————————————————
Desviación Típica de la Muestra = 6,4807
Tamaño de la Muestra = 30
Dentro del fichero que contiene los datos se eligen las columnas que los
contienen y se pulsa
El programa abre una ventana en la que hay que indicar la variable que co-
rresponde a los datos, se elige la primera, se pulsa Aceptar y se toma nota de los
valores de los estadísticos y del tamaño de la muestra. Se repite el proceso para la
segunda.
Se pulsa a continuación:
EJEMPLO 11.14.
Realizar con STATGRAPHICS los contrastes de los ejemplos 11.9., 11.10.,
11.12.a), 11.12.b) y 11.12.c).
Contraste de Hipótesis
———————————————————————————————
Proporciones de la Muestra = 0,2 y 0,08
Tamaños de la Muestra = 200 y 150
Aproximado 95,0% intervalo de confianza para la diferencia entre propor-
ciones: [0,0495865;0,190414]
Hipótesis Nula: diferencia entre proporciones = 0,0
Alternativa: no igual
Estadístico z calculado = 3,12368
p-Valor = 0,0017862
Rechazar la hipótesis nula para alpha = 0,05.
Para el Ejemplo 11.10. Sobre el resultado del contraste del Ejemplo 11.9., ya que
se refiere a los mismos datos que aquél, se pulsa con el botón derecho del ratón y se
elige Opciones del Análisis. En la nueva ventana que se abre en Hipótesis Alternati-
va se escoge Mayor que y se deja la opción por defecto α = 0,05. Pulsando Aceptar
el resultado que se obtiene es:
Contraste de Hipótesis
———————————————————————————————
Proporciones de la Muestra = 0,2 y 0,08
Tamaños de la Muestra = 200 y 150
Aproximado 95,0% inferior límite de confianza para la diferencia entre
proporciones: [0,0609071]
Hipótesis Nula: diferencia entre proporciones = 0,0
Alternativa: mayor que
Estadístico z calculado = 3,12368
p-Valor = 0,000893098
Rechazar la hipótesis nula para alpha = 0,05.
Contraste de Hipótesis
———————————————————————————————
Desviaciones Típicas de la Muestra = 2,87518 y 2,73426
Tamaños de la Muestra = 10 y 7
95,0% intervalo de confianza para el ratio de varianzas:
[0,20019;4,77646]
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 469
Contraste de Hipótesis
———————————————————————————————
Medias de la Muestra = 87,4 y 89,8571
Desviaciones Típicas de la Muestra = 2,87518 y 2,73426
Tamaños de la Muestra = 10 y 7
95,0% intervalo de confianza para la diferencia entre medias: –2,4571
+/- 2,96175
[-5,41885;0,504646]
Hipótesis Nula: diferencia entre medias = 0,0
Alternativa: no igual
Estadístico t calculado = –1,76828
p-Valor = 0,0973411
No rechazar la hipótesis nula para alpha = 0,05.
(Se asumen varianzas iguales).
Contraste de Hipótesis
———————————————————————————————
Medias de la Muestra = 87,4 y 89,8571
Desviaciones Típicas de la Muestra = 2,87518 y 2,73426
Tamaños de la Muestra = 10 y 7
95,0% superior límite de confianza para la diferencia entre medias:
–2,4571 + 2,43594 [-0,0211571]
Hipótesis Nula: diferencia entre medias = 0,0
Alternativa: menor que
Estadístico t calculado = –1,76828
p-Valor = 0,0486706
Rechazar la hipótesis nula para alpha = 0,05.
(Se asumen varianzas iguales).
Para realizar el mismo contraste para α = 0,01, basta con pulsar sobre el re-
sultado que se acaba de obtener con el botón derecho del ratón y cambiar el valor
de α. El resultado es ahora:
Contraste de Hipótesis
———————————————————————————————
Medias de la Muestra = 87,4 y 89,8571
Desviaciones Típicas de la Muestra = 2,87518 y 2,73426
Tamaños de la Muestra = 10 y 7
99,0% superior límite de confianza para la diferencia entre medias:
–2,4571 + 3,61626 [1,15916]
Hipótesis Nula: diferencia entre medias = 0,0
Alternativa: menor que
Estadístico t calculado = –1,76828
p-Valor = 0,0486706
No rechazar la hipótesis nula para alpha = 0,01.
(Se asumen varianzas iguales).
Como se puede comprobar, las conclusiones coinciden todas con las obtenidas
anteriormente sin hacer uso de STATGRAPHICS, y además se han obtenido los
intervalos de confianza para los parámetros correspondientes a los contrastes
para el valor de α elegido.
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 471
pˆ − p0
p ≠ p0 ( − `, − z
α 2 ∪ zα 2 , + ` )
Z=
p = p0 p0 q0 p > p0 zα , + ` )
n
p < p0 ( − `, − zα
X − µ0
µ ≠ µ0 ( − `, − z
α 2 ∪ zα 2 , + ` )
Z=
µ = µ0 σ µ > µ0 zα , + ` )
n
µ < µ0 ( − `, − zα
µ ≠ µ0 − `, − t α ;n−1 ∪ t α ;n−1 , + `
X − µ0 2 2
T=
µ = µ0 s
n
µ > µ0 tα ;n−1 , + ` )
µ < µ0 ( − `, −tα ;n−1
σ 2 ≠ σ 02 0, χ 2 α ∪ χ α2 , + `
1 − ;n −1 2 ;n −1
2
( n − 1) s2
σ 2 = σ 02 χ2 =
σ 02 σ 2 > σ 02 χα2 ;n−1 , + `
)
σ 2 < σ 02 0, χ12−α ;n−1
p01 − p02
p1 ≠ p2 ( − `, − z
α 2 ∪ zα 2 , + ` )
Z=
p1 = p2 p01q01 p02 q02 p1 > p2 zα , + ` )
+
n1 n2
p1 < p2 ( − `, − zα
σ 12 ≠ σ 22 0, F α ∪ F α , + `
n1−1,n2 −1;1− 2 n1−1,n2 −1; 2
s12
σ 12 = σ 22 F=
s22 σ 12 > σ 22 F
n1 −1,n2 −1;α
, +` )
σ 12 < σ 22 0, F
n1−1,n2 −1;1−α
472 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
X1 − X2
µ1 ≠ µ 2 ( − `, − z
α 2 ∪ zα 2 , + ` )
Z=
µ1 = µ2 σ 12 σ 22 µ1 > µ 2 zα , + ` )
+
n1 n2
µ1 < µ 2 ( − `, − zα
µ1 ≠ µ 2 − `, − tα ∪ t α , + `
;n + n − 2 ;n + n − 2
2 1 2 2 1 2
X1 − X2
T=
µ1 = µ2 s
1
+
1 µ1 > µ 2 tα ;n + n − 2 , + `
1 2 )
n1 n2
Siendo
s2 =
( n1 − 1) s12 + ( n2 − 1) s22 µ1 < µ 2 ( − `, −t
α ;n1 + n2 − 2
n1 + n2 − 2
µ1 ≠ µ 2 − `, − tα ∪ t α , + `
;g ;g
2 2
X1 − X2
T=
s12 s22
+
n1 n2
µ1 > µ 2 tα ;g , + `
)
µ1 = µ2
Siendo g el entero más próximo
2
s12 s22
n +n
1 2
a h= 2 2
−2 µ1 < µ 2 ( − `, −t α ;g
(s
2
1 n1 ) + (s 2
2 n2 )
n1 + 1 n2 + 1
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 473
11.12.2. Si se ha rechazado una hipótesis nula al nivel α = 0,01, ¿se podrá aceptar
para α = 0,05? ¿Por qué?
11.12.4. El tenista Rafael Nadal, en su mejor racha de triunfos seguidos, hasta ahora
81 partidos consecutivos sin perder, ha dado prueba de su gran constancia y trabajo.
Su esfuerzo en remontar situaciones adversas en los partidos es indicio de la valía del
adversario y del coraje de Nadal para superarse. Se ha observado que en los últimos
cien golpes en situaciones en las que él no iba por delante en el partido ha superado
93, ¿se puede aceptar con estos datos, para α = 0,05, que mantiene un porcentaje de
golpes ganadores en situaciones adversas para él del 95%? Ídem para α = 0,01.
11.12.6. Para el control en un laboratorio de una medida que se distribuye según una
N(14 mm, 0,6 mm) se puede seguir uno de los siguientes criterios:
1.o Se toma una muestra de tres medidas y se rechaza el conjunto si alguna de
ellas no pertenece al intervalo (13, 15).
2.o Se elige una muestra de cinco medidas y se rechaza si la media de éstas no
pertenece al intervalo (13,5, 14,5).
¿Cuál de los dos criterios es más exigente?
11.12.7. En una muestra de 250 personas elegidas al azar de una población sólo 45
leen al menos un libro al mes. ¿Se puede admitir que la proporción de personas que
leen por lo menos un libro al mes es 0,30? ¿Y 0,20?
11.12.8. Los errores de medida de las balanzas fabricadas en un taller son normales
con desviación típica 1,3 g e independientes. Se pesa una masa desconocida µ en diez
balanzas de ese taller y se obtienen los siguientes resultados, en gramos: 227,1,
226,8, 224,8, 228,2, 225,6, 229,7, 228,4, 228,8, 225,9, 229,6.
a) ¿Son conformes estos datos con la hipótesis µ = 226?
b) ¿Se puede admitir µ = 227?
c) ¿Para qué valores de µ el nivel de significación será exactamente del 5%?
d) ¿Para qué valores de µ el nivel de significación será al menos el 5%?
11.12.11. Una máquina corta piezas de ágata para utilizar en joyería, unas de un gro-
sor entre 8 mm y 11 mm y otras entre 13 mm y 16,5 mm. Se acepta que la distribu-
ción del grosor en los dos casos es normal y se sospecha que la varianza no es igual
en los dos casos. Para contrastarlo se elige una muestra de 51 piezas elegidas al azar
entre las más delgadas y 121 de las de mayor grosor. Los resultados obtenidos se re-
cogen en las siguientes tablas:
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 475
¿Se puede aceptar que no son iguales las varianzas al nivel α = 0,05?
a) Aceptando que las varianzas poblacionales son iguales, ¿hay diferencia sig-
nificativa en la producción de madera en los dos robledales?
b) Comparar el resultado con el que se deduce del intervalo de confianza para la
diferencia de medias con coeficiente de confianza 1 – α = 0,999.
11.12.16. Se anuncia que una nueva dieta alimenticia logra reducir el peso de una
persona un promedio de 4,5 kg en un periodo de dos semanas. Siete personas que si-
guieron esta dieta dieron los siguientes pesos antes y después de someterse a la dieta:
476 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
11.12.19. Con el objeto de comparar los cocientes intelectuales, C.I., de los gorilas y
los chimpancés se eligen aleatoriamente 40 chimpancés que dan una media de C.I. 62
con desviación típica 14 y 50 gorilas, también elegidos al azar, que proporcionan una
media de 73 y desviación típica 7,5. A la vista de estos resultados, ¿se puede suponer
que el C.I. de los chimpancés es inferior al de los gorilas en más de 9 unidades?
11.12.21. La hembra cuclillo pone sus huevos en los nidos de otras especies, peti-
rrojo, chochín, carnicero común, etc. Cada hembra pone todos los huevos en nidos de
la misma especie, pero uno en cada nido, tirando uno de los que encuentra en ese
nido para evitar que lo descubra el pájaro que los incuba. Se han encontrado once
huevos en nidos de petirrojo y 17 huevos en nidos de carnicero. Se ha medido la lon-
gitud de los huevos, obteniéndose los siguientes resultados:
H : µ = 100
11.12.22. En un contraste de hipótesis para la media poblacional 0 de
H1 : µ > 100
una variable para la que se ha aceptado que tiene por varianza σ 2 = 9, calcular el ta-
maño de la muestra para que se detecte un aumento de la media poblacional de 2 uni-
dades en un 95% de los casos a un nivel de significación α = 0,001.
Contrastes no paramétricos
12
12.1. INTRODUCCIÓN
Hasta ahora se han estudiado contrastes que hacen referencia a parámetros po-
blacionales, contrastes paramétricos. Para poder aplicar estos contrastes se nece-
sita trabajar con variables aleatorias con distribución normal. ¿Cómo se puede sa-
ber a partir de los datos de una muestra si la variable aleatoria de la que proceden
sigue una distribución normal? Este es uno de los objetivos de los contrastes de
bondad de ajuste, o pruebas χ2, que se estudiarán en este capítulo. Estas pruebas,
que no hacen referencia a los parámetros poblacionales sino al tipo de distribu-
ción, son contrastes no paramétricos.
El contraste χ2 de bondad de ajuste no sólo sirve para verificar la normalidad,
se puede aplicar tanto para distribuciones continuas como para distribuciones
discretas. Se trata de averiguar si las frecuencias absolutas de los valores de una
variable observados en una muestra son consistentes con los esperados en el
caso en que la muestra fuese representativa de una variable aleatoria con la dis-
tribución de probabilidad prefijada en la población.
A partir de una muestra de tamaño n elegida en la población, se trata de
ajustar a estas observaciones un modelo teórico, por ejemplo una distribución bi-
nomial, de Poisson, multinomial, normal… Es decir, se formula una hipótesis so-
bre el modelo o distribución de probabilidad de la variable aleatoria de la que se
han recogido al azar las n observaciones, y una vez fijada esta distribución se con-
trasta la bondad del ajuste mediante una prueba χ2.
Los contrastes no paramétricos son contrastes que no necesitan conoci-
miento de la distribución de la variable en la población objeto de estudio, por
tanto no precisan el requisito de normalidad de las variables aleatorias que in-
tervienen en el contraste, ni tampoco hacer suposiciones sobre la distribución de
la variable en la población de la que se ha extraído la muestra. Siempre que no
se pueda aplicar una prueba paramétrica porque fallan las hipótesis previas, o
requisitos necesarios para poderla aplicar, se puede utilizar un contraste no pa-
479
480 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 12.1.
Se cruzan individuos heterocigóticos, Aa, respecto de un carácter. De 70 des-
cendientes elegidos al azar se observan 20 individuos aa. Según las leyes de Mendel
1
la proporción esperada de individuos, aa, es p = . ¿A partir de los datos de la
1 4
muestra se puede admitir que p = ?
4
CONTRASTES NO PARAMÉTRICOS 481
EJEMPLO 12.2.
Con el objeto de comprobar experimentalmente las proporciones fenotípicas de
la segunda generación filial en el cruce dihíbrido de dos individuos, uno dominante
AABB y otro recesivo aabb, con dominancia completa, es decir, las proporciones
de todos los fenotipos posibles al cruzar dos híbridos AaBb, como afirman las leyes de
Mendel, se han realizado cruces de guisantes heterocigóticos respecto de dos ca-
racteres, AvLr (Amarillo, verde, Liso, rugoso. A domina sobre v y L sobre r) y se
han obtenido los siguientes resultados:
Fenotipo AL Ar vL vr Total
Número de guisantes 253 102 97 28 480
¿Se puede aceptar que estos datos corresponden a las proporciones esperadas?
Clases A1 A2 … Ak Total
k
Frecuencias
O1 = n1 O2 = n2 … Ok = nk ∑ ni = n
observadas i =1
Frecuencias k
E1 = np1 E2 = np2 … Ek = npk ∑ npi = n
esperadas i =1
–
Clases A1 = A A2 = A Total
Frecuencias 2
observadas O1 = n1 O2 = n2 ∑ ni = n
i =1
Frecuencias
E1 = np E2 = nq np + nq = 1
esperadas
k ( Oi − npi )2 , χ 2
El estadístico ∑ k −1 si H0 es cierta siempre que se verifique
i =1 npi
que npi ≥ 5, • ∀i = 1, 2,..., k.
k (Oi − npi )2
Se acepta H0 si el valor de ∑ para los datos de la muestra es menor
i =1 npi
que el valor crítico χα2 ;k−1 , ya que si el estadístico toma el valor 0 o valores pró-
ximos a cero significa que el ajuste a esa distribución teórica es bueno. Sólo si se
k
(Oi − npi )2 , y poco probable en
obtiene un valor muy grande del estadístico ∑ npi
i =1
el supuesto de que H0 sea cierta, se rechazará H0.
Por tanto se acepta H0 si el estadístico pertenece a RAα = 0, χα2 ;k−1 , la región)
de aceptación. En consecuencia la región crítica será RCα = χα2 ;k −1 , + ` . )
Ya se puede dar respuesta a las preguntas planteadas al comienzo de este epí-
grafe en los Ejemplos 12.1. y 12.2.
frente a la alternativa:
El estadístico
)
La región crítica al nivel α = 0,05 es: RCα =0 ,05 = χα2 =0 ,05;1 , + ` = [ 3, 841, + ` ) .
Calculando
Por tanto se acepta H0, lo que significa que se puede admitir al nivel α = 0,05
1
que p = P( A1 ) = .
4
Fenotipo AL Ar vL vr Total
Número de guisantes 253 102 97 28 480
¿Se puede aceptar que estos datos corresponden a las proporciones esperadas?
486 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
8
AvLr
7
gametos
AL Ar vL vr
gametos
Esto significa que las proporciones esperadas de cada uno de los fenotipos po-
sibles en la primera generación filial, según las leyes de Mendel, son:
Designando por:
O1 = «n.o de descendientes de fenotipo AL»
O2 = «n.o de descendientes de fenotipo Ar»
O3 = «n.o de descendientes de fenotipo vL»
O4 = «n.o de descendientes de fenotipo vr»
Fenotipo AL Ar vL vr
Se quiere contrastar si con los datos de esta muestra se puede aceptar la hi-
pótesis nula:
frente a la alternativa:
H1 : E(Oi ) ≠ 480 pi al menos para un valor de i.
El estadístico
)
La región crítica al nivel α = 0,05 es: RCα =0 ,05 = χα2 =0,05;3 , + ` = [ 7, 815, + ` ) .
Calculando
Por tanto se acepta H0, es decir, los datos no contradicen las proporciones es-
peradas según las leyes de Mendel.
o bien
488 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 12.3
Se han examinado 100 hojas de cerezo afectado de pulgón verde y se ha conta-
do el número de pulgones por hoja. Los resultados obtenidos son los siguientes.
N.o de pulgones
0 1 2 3 4 5 6 7 ó más
por hoja
N.o de hojas 39 21 18 9 5 4 3 1
pi = P( X = xi ) =
xi ni = Oi Ei = npi Oi2
1, 49 xi −1,49 Oi2
= e npi
xi !
8 5 Oi2
n = 100 ∑ pi = 1 ∑ = 126, 3619
i =1 i =1 npi
Como no son mayores o iguales a 5 todas las frecuencias esperadas, se agrupan va-
lores de la variable hasta conseguir todas las Ei = npi ≥ 5, en este caso esto se consigue
agrupando los valores de la variable desde 4 en adelante; quedan por tanto cinco clases.
El estadístico del contraste:
Como 26, 3619 ∈ RCα =0 ,05 = [ 7, 815, + ` ) se rechaza la hipótesis nula al nivel
α = 0,05.
Además, 26, 3619 ∈ RCα =0 ,01 = [11, 345, + ` ) y también 26, 3619 ∈ RCα =0 ,001 =
= [16, 268, + ` ) y por tanto se rechaza la hipótesis H0 al nivel α = 0,001, los datos
de la muestra no se ajustan a la distribución P(λ = 1, 49).
EJEMPLO 12.4
Se viene aceptando la hipótesis de que la distribución del diámetro máximo X,
en cm, de pinos en un gran bosque sigue una distribución N (40,8). Después de va-
rios años de sequía, se elige una muestra aleatoria de 100 pinos. Al medir sus diá-
metros máximos se han obtenido los siguientes resultados:
¿Se puede admitir que sigue siendo válida la hipótesis sobre la distribución de
los diámetros? Razónese la respuesta y explíquese la conclusión obtenida.
Para realizar este contraste hay que determinar las probabilidades pi correspon-
dientes a cada una de las clases [ Li −1 , Li ) y para esto primero hay que hallar los lími-
)
tes reales de las clases. La probabilidad de cada clase es pi = P ( X ∈[ Li −1 , Li ) y tipi-
ficando la variable X:
Oi Ei
L − 40 Oi 2
Li −1 , Li ) o zi = i P( Z < zi ) pi o Oi 2
8 npi
ni npi
Hasta 27,5 3 –1,56 0,05938 0,05938 5,938 9 1,5157
[27,5, 32,5) 10 –0,94 0,17361 0,11423 11,423 100 8,7543
[32,5, 37,5) 18 –0,31 0,37828 0,20467 20,467 324 15,8304
[37,5, 42,5) 27 0,31 0,62172 0,24344 24,344 729 29,9458
[42,5, 47,5) 22 0,94 0,82639 0,20467 20,467 484 23,6478
[47,5, 52,5) 15 1,56 0,94062 0,11423 11,423 225 19,6971
Desde 52,5 5 +⬁ 1 0,05938 5,938 25 4,2102
7
7 Oi2
100
∑ =
∑ pi = 1 i =1 npi
i=1
= 103, 6013
La región crítica es
EJEMPLO 12.5
La distribución de frecuencias de los diámetros normales en cm, es decir, los
diámetros de los árboles a 1,30 m del suelo, de 100 alcornoques elegidos al azar es:
a) En este caso lo primero que hay que hacer es estimar los parámetros de la
distribución Normal: µˆ = x y σˆ = s.
Li −1 , Li ) xi ni xi ni xi2 ni
b) Se va a contrastar la hipótesis:
pues al haber estimado dos parámetros a partir de los datos de la muestra se han
perdido dos grados de libertad.
Para averiguar el valor de k se necesita conocer las frecuencias esperadas de
las clases.
Para ello, se construye la siguiente tabla:
Oi2
[ Li −1, Li ) ni zi P( Z < zi ) pi npi Oi2
npi
6
4 Oi2
n = 100 ∑ =
∑ pi = 1 i =1 npi
i =1
= 102, 6085
El estadístico ∑
4 (Oi − npi )2 =
Oi2 4
− n , χ 42−2−1 si H0 es cierta, ya que se han
∑
i =1 npi i =1 npi
agrupado las dos primeras clases y también las dos últimas para conseguir que
Ei = npi ≥ 5, ∀i.
La región crítica del contraste es:
al nivel α = 0,05.
EJEMPLO 12.6
Se ha observado en 100 familias españolas con cinco hijos el número de muje-
res y se han obtenido los siguientes resultados:
xi = N.o de hijas 0 1 2 3 4 5
ni = N.o de familias 1 9 28 33 26 3
del estadístico de contraste n es el tamaño de la muestra y por tanto n = 100 y las pro-
5 5− x
babilidades pi = P( X = xi ) = 0, 566 xi (1 − 0, 566 ) i , ∀i = 1, 2..., 6.
x
i
Oi2
xi Oi = ni pi Ei = npi Oi2
npi
0 1 0,0154 1,54
10 11, 58 100 8,6356
1 9 0,1004 10,04
5 Oi2
n =100 ∑ = 102, 3632
i =1 npi
j =1
valores observados de la variable aleatoria bidimensional (X, Y) se dice que per-
( )
tenece a la clase Cij = ( Ai , E2 ) ∩ E1 , Bj , si x i ∈ Ai e y j ∈ Bj . El número de pares
observados que pertenecen a la clase Cij se indicará por nij. Así se pueden ordenar los
datos en una tabla de doble entrada, como la siguiente, que recibe el nombre de tabla
de contingencia
Y
B1 B2 … Bk ni•
X
… … … … … …
k r r k r k
Donde ni• = ∑ nij ; n• j = ∑ nij ; n = ∑ ∑ nij = ∑ ni• = ∑ n• j
j =1 i=1 i =1 j =1 i =1 j =1
(
se verifica que pij = P ( Ai , E2 ) ∩ E1 , Bj ( )) = P ( A , E ) ⋅ P ( E , B ) = p
i 2 1 j i• ⋅ p• j
Para contrastar pues la independencia de las variables X e Y se plantean las hi-
pótesis:
ni• n
Del mismo modo p̂í • = verifica que E ( pˆ i• ) = E i• = pi• ⇔ E ( ni• ) = npi• .
n n
n n
( )
y también p̂• j = • j verifica que E pˆ • j = E • j = p• j ⇔ E n• j = np• j .
n n
( )
Si H0: pij = pi• p• j ∀i = 1, 2,..., r, ∀j = 1, 2,..., k es cierta, entonces las frecuen-
( )
cias esperadas de cada clase Cij, es decir, Eij = E nij = npij = npi• p• j se estiman a
partir de los datos de la muestra por:
EJEMPLO 12.7.
Se desea contrastar si hay dependencia entre la edad y los trastornos derivados
de la exposición a altas temperaturas ambientales en una gran ciudad. Para ello se
han seleccionado 2.000 personas de diferentes edades, elegidas al azar, y se ha lo-
grado examinar a 1.969. La siguiente tabla recoge los resultados:
frente a la alternativa:
Como todas las frecuencias esperadas son mayores o iguales a cinco, el esta-
2
2
dístico ∑ ∑
(O4
ij − Eij ) , χ 32 y la región crítica del contraste al nivel α = 0,05 es:
j =1 i=1 Eij
También se puede contrastar con una prueba χ2 si los datos recogidos de va-
rias muestras se puede aceptar que pertenecen a la misma población o que las dis-
tribuciones de la variable observada es la misma en todas las poblaciones.
Se observa una variable aleatoria X organizada en r clases, o que presenta r
modalidades, A1 , A2 ,..., Ar en k poblaciones independientes B1 , B2 ,..., Bk y se pre-
tende contrastar la hipótesis:
H0: La distribución de la variable aleatoria X es la misma en las k poblaciones.
frente a la alternativa.
H1: La distribución de la variable aleatoria X no es la misma en las k poblaciones.
CONTRASTES NO PARAMÉTRICOS 501
Para ello se toma una muestra de tamaño ni en cada una de las poblaciones y
se recogen las frecuencias de cada una de las clases o modalidades:
Poblaciones
Clases B1 B2 … Bk Totales
… … … … … …
Tamaños muestrales n1 n2 … nk n
k r r r k
Donde ni• = ∑ n ij ; n j = ∑ nij ; n = ∑ ni• = ∑ ∑ nij
j =1 i =1 i=1 i=1 j =1
Si se designa por:
En el supuesto que H0 es cierta, las frecuencias esperadas de cada una de las clases
en las diferentes poblaciones son Eij = n j P ( X ∈ Ai ) = n j pi . Como se desconoce el
ni • n n j ni •
valor de pi, se estima por pˆ i = . Así, Eij = n j pˆ í = n j i• = . Si todas las fre-
n n n
cuencias esperadas Eij ≥ 5, ∀i = 1, 2,..., r, ∀j = 1, 2,..., k el estadístico de contraste, que es:
502 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto
esto significa que se rechazará la hipótesis nula al nivel α si el valor del estadís-
tico para los datos recogidos pertenece a la región crítica que es:
EJEMPLO 12.8.
Zonas Z1 Z2 Z3 Z4
Enebros 56 60 62 59
Otros arbustos 44 40 38 41
o árboles
¿Se podría afirmar con probabilidad del 95% que la proporción de enebros es
igual en las cuatro zonas?
Se plantea la hipótesis nula:
frente a la alternativa
CONTRASTES NO PARAMÉTRICOS 503
Se rechaza la hipótesis nula para los valores muy grandes del estadístico. Es
un contraste unilateral a la derecha.
Si se designa por Dn;α el valor crítico que verifica:
es decir, que deja por encima probabilidad α, la región crítica para el nivel α es:
)
Dn;α , + ` .
Si para los datos dados es el valor de Dn < Dn; α no hay razones para rechazar
la hipótesis nula, y en caso contrario se rechaza dicha hipótesis.
En la Tabla X del Apéndice I, se recogen los valores críticos para distintos ni-
veles de significación y diferentes tamaños muestrales.
En el caso en que la hipótesis nula es cierta, Smirnov dedujo la distribución de
Dn, que no depende de F0, y que verifica que
De donde se deduce que el valor crítico Dn; α, que deja por encima probabili-
dad α, para valores grandes de n es
Así se han calculado los valores que aparecen en la tabla en la última fila para
valores de n mayores que 100.
EJEMPLO 12.9.
¿Se puede aceptar al nivel α = 0,05 que los 20 decimales siguientes: 0,9085
0,8078 0,1424 0,6289 0,4961 0,6768 0,6680 0,9349 0,7523 0,9405 0,9808 0,4743
0,5525 0,2126 0,7611 0,6501 0,1322 0,7925 0,2726 0,4124 corresponden a una dis-
tribución uniforme continua en el intervalo (0,1)?
Si X es la variable aleatoria cuyos valores observados son los dados, se trata de con-
trastar la hipótesis nula H0 : X , U ( 0, 1) frente a la alternativa H1: X no sigue U(0,1).
506 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
x(i ) ( )
F20 x(i ) ( )
F0 x(i ) F20 ( xi ) − F0 ( xi ) F20 ( xi −1 ) − F0 ( xi )
0,9085
0,8078
0,1424
0,6289 Histograma para Col_1
0,4961 8
0,6768
0,6680
0,9349 6
Frecuencia
0,7523
0,9405 4
0,9808
0,4743
0,5525 2
0,2126
0,7611
0,6501 0
0,1322 0 0,3 0,6 0,9 1,2 1,5
0,7925 Col_1
0,2726
0,4124
En los resultados numéricos del análisis se observa que se ajusta a una distri-
bución uniforme en el intervalo [0,1322, 0,9808]
Datos: Col_1
Estos resultados indican que no hay razones para rechazar la hipótesis de que
los datos proceden de una distribución uniforme.
Los valores del estadístico de contraste no coinciden con los calculados an-
teriormente porque se ajustaron a una distribución uniforme en el intervalo (0,1)
y el STATGRAPHICS determina el intervalo de la distribución uniforme con los
valores mínimo y máximo de la muestra.
EJEMPLO 12.10.
Aplicando la prueba de Kolmogorov-Smirnov, ¿se puede admitir que las
medidas de X, diámetro máximo de los troncos de pinos en cm, para la siguiente
muestra
Para realizar este contraste, como no tenemos la información de las 100 ob-
servaciones, se determinan los límites reales de las clases y para los límites reales
CONTRASTES NO PARAMÉTRICOS 509
superiores, a los que se les asigna la frecuencia acumulada hasta esa clase, se cal-
cula el estadístico de la prueba
Tipificando los valores Li, en el supuesto que la hipótesis nula sea cierta, se
L − 40
obtiene la columna F0 ( Li ) = P Z < i .
8
Oi
Li − 40 F0 ( Li ) =
Li −1 , Li ) o Fn ( Li ) zi = F100 ( Li ) − F0 ( Li )
8 = P( Z < zi )
ni
Hasta 27,5 3 0,03 –1,56 0,05938 0,02938
[27,5, 32,5) 10 0,13 –0,94 0,17361 0,04361
[32,5, 37,5) 18 0,31 –0,31 0,37828 0,06828
[37,5, 42,5) 27 0,58 0,31 0,62172 0,04172
[42,5, 47,5) 22 0,80 0,94 0,82639 0,02639
[47,5, 52,5) 15 0,95 1,56 0,94062 0,00938
Desde 52,5 5 1,00 +⬁ 1 0
n = 100
materia en clase o antes y después del uso de determinado software, antes o des-
pués de un debate en TV, etc. El objetivo de la prueba χ2 de McNemar es evaluar
la significación de los cambios. Las dos observaciones están apareadas, o empa-
rejadas, porque corresponden a los mismos elementos e1,e2,...,en en las dos situa-
ciones.
Para los datos registrados se considera una variable aleatoria discreta de Ber-
noulli. X = 0 representa en los ejemplos anteriores: nivel de colesterol LDL en
sangre menor que 160, suspenso, no está a favor del candidato C1, … y X = 1 lo
contrario: nivel de colesterol LDL en sangre mayor o igual a 160, aprobado,
está a favor del candidato C1, etc.
Con los datos recogidos se rellena la tabla de doble entrada de frecuencias ob-
servadas, contando los que están en la situación X = 0 antes y después, los que pa-
san de X = 0 a X = 1, los que cambian de X = 1 a X = 0 y los que antes y después
repiten la información X = 1.
Después
X=0 X=1
Antes
X=0 n1 n2
X=1 n3 n4
4
siendo n = ∑ ni .
i =1
Después
X=0 X=1
Antes
n2 + n3
X=0 n1
2
n2 + n3
X=1 n4
2
n2 + n 3
que sigue una distribución χ12 siempre que Ei = ≥ 5.
2
Utilizando la corrección de Yates, pues se aproxima una distribución discre-
ta por una continua, cuando las frecuencias esperadas son pequeñas, se mejora la
aproximación. El estadístico después de aplicar la corrección de Yates es:
EJEMPLO 12.11.
La siguiente tabla recoge las frecuencias observadas al encuestar sobre su in-
tención de voto por el candidato C1 a cuarenta personas elegidas al azar, antes y des-
pués de un debate en TV. Se indica por X = 0 «No vota al candidato C1» y por X = 1
«Vota al candidato C1».
Después
X=0 X=1
Antes
X=0 n1 = 5 n2 = 2
X=1 n3 = 18 n4 = 15
H :Ä np = np2
Las hipótesis del contraste son: 0 1
H1 :Ä np1 ≠ np2
Es decir, la hipótesis nula es que las frecuencias esperadas de las casillas de la fila 1
columna 2 y de la fila 2 columna 1 son iguales y la alternativa la negación de ésta.
2
Como Ei =
2 + 18
= 10 ≥ 5 el estadístico ∑
2 (O − E )
i i
2
(=
)
n2 − n3 − 1
, χ12
2 i =1 Ei n2 + n3
y para α = 0, 01Ä Ä laÄ Ä RCα =0 ,01 = [ 6, 635, + ` ) .
512 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Con los datos observados el valor del estadístico de contraste es 11, 25 ∈ RCα =0,01 =
= [ 6, 635, + ` ) . Por tanto, se rechaza la hipótesis nula con confianza del 99%,
esto indica que los cambios son significativos. El valor obtenido es muy alto,
mucho mayor que el valor crítico correspondiente a α = 0,005, por tanto se pue-
de afirmar que los cambios observados son muy significativos.
H0: las medianas de las dos poblaciones de las que proceden las muestras
son iguales.
H1: las medianas de las dos poblaciones correspondientes a las muestras son
diferentes.
CONTRASTES NO PARAMÉTRICOS 513
Si es cierta H0, las diferencias entre los resultados de las dos muestras se po-
drían considerar como una muestra de una población con mediana cero.
La suma de los valores absolutos de los rangos positivos y de los rangos ne-
gativos es:
Si n1 ≥ 25, el estadístico:
eligiendo +0,5 ó –0,5 de forma que disminuya el valor absoluto del estadístico de
contraste.
Para el contraste bilateral presentado, si el valor del estadístico de contraste
pertenece a la RCα = − `, − z α ∪ z α , + ` se rechaza la hipótesis nula con con-
2
2
fianza 1 – α y en caso contrario no hay razones para sospechar que esa hipótesis
no sea cierta.
Análogamente, se pueden dar las reglas de decisión para los contrastes unila-
terales, teniendo en cuenta las regiones críticas correspondientes.
514 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 12.12.
Se ha elegido al azar un grupo de 25 alumnos y se les han aplicado dos pruebas
que se califican de 0 a 10. Los resultados obtenidos por cada alumno se presentan a
continuación como un par en el que el primer elemento es la calificación de la pri-
mera prueba y el segundo la de la segunda prueba:
(Continúa)
CONTRASTES NO PARAMÉTRICOS 515
(Continuación)
( )
Si los datos recogidos apoyan la hipótesis P Xi > Yj ≠ 0, 5, se concluye que las
dos variables no tienen la misma distribución.
Se comienza por ordenar de menor a mayor en la primera fila de una tabla to-
dos los valores de las muestras, indicando en la segunda fila la muestra de la que
procede cada valor. Se les asigna así a cada uno de ellos un rango. Si hubiera al-
gún empate, se les da a todos los valores iguales el mismo rango que es la media
aritmética de los rangos que les corresponderían si los valores fueran algo dife-
rentes.
Se calcula ahora R1, la suma de los rangos de la muestra de tamaño n1, y R2, la
suma de los rangos de la muestra de tamaño n2.
n ( n + 1)
A partir de estos valores se calcula U1 = n1 ⋅ n2 + 2 2 − R2 , que repre-
2
senta el número de veces que uno de los valores de la primera muestra supera a un
n ( n + 1)
valor de la segunda muestra, y U2 = n1 ⋅ n2 + 1 1 − R1 con significado aná-
2
logo para la segunda muestra, es decir, coincide con el recuento del número de ve-
ces que uno de los valores de la segunda muestra supera a uno de los de la pri-
mera. Siempre se verifica que U1 + U2 = n1 ⋅ n2 .
Se utiliza como estadístico de contraste en la prueba de Mann-Whitney
( )
U = min {U1 , U2 } que sirve para estimar la P Xi > Yj , siendo Xi e Yj valores de
las variables X e Y elegidos al azar. El menor valor posible de U es cero y el ma-
yor es n1 · n2.
n1 n2 1Ä Ä siÄ Ä Xi > Yj
Se puede expresar U = ∑ ∑ Zij , siendo Zij = de donde se deduce,
i =1 j =1 0 Ä Ä siÄ Ä X i ≤ Yj
n1 ⋅ n 2
de ser cierta la hipótesis nula, que E ( U ) = .
2
Si es cierta la hipótesis nula y al menos una de las dos muestras es de tamaño
20, Mann y Whitney probaron que la distribución del estadístico U converge a
n ⋅n n ⋅ n ⋅ ( n + n + 1)
una normal de media µU = 1 2 y varianza σ U2 = 1 2 1 2 .
2 12
De ahí que se utilice como estadístico de contraste, si n1 ≥ 20 Ä oÄ n2 ≥ 20,
eligiendo +0,5 ó –0,5 de forma que disminuya el valor absoluto del estadístico de
contraste.
Los valores muy pequeños o muy grandes del estadístico de contraste indican
( )
que los datos recogidos apoyan la hipótesis H1:Ä P Xi > Yj ≠ 0, 5, y por tanto la
región crítica para el contraste bilateral es:
EJEMPLO 12.13.
Los resultados conjuntos, valorados de 0 a 100, de una prueba de comprensión
lectora y de otra de resolución de problemas matemáticos para dos grupos inde-
pendientes de 20 y 15 estudiantes respectivamente son los siguientes:
G1 75 91 93 86 88 78 95 86 85 90 94 97 85 93 72 81 77 80 86 90
G2 74 65 94 69 76 85 59 87 92 75 60 68 77 70 88
Las hipótesis del contraste bilateral, designando por X las calificaciones para
la población P1, de la que procede el primer grupo, y por Y las correspondientes a
la población P2 de la que procede el grupo G2, son:
15 ⋅ 16 20 ⋅ 21
Por tanto U1 = 20 ⋅ 15 + − 189 = 231Å Å yÅ Å U2 = 20 ⋅ 15 + − 441 = 69.
2 2
El valor de U = min {U1 = 231, U2 = 69} y el estadístico de contraste:
En los dos casos el valor del estadístico de contraste pertenece a la región crí-
tica para α = 0,01, que es:
Para ello, se ordenan los datos en una tabla del siguiente modo:
e1 0 1 … 1 F1 F12
e2 1 1 … 1 F2 F22
M M M M M M M
en 0 0 … 0 Fn Fn2
k
C = ∑ Cj =
n
j =1
Total n C1 C2 … Ck
n
∑ Fi2
i =1
= ∑ Fi
i =1
520 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Indicando por:
Fi la suma de los valores de la i-ésima fila, es decir, el total de éxitos del in-
dividuo ei.
Cj la suma de la columna j-ésima, es decir, el total de éxitos en la prueba j-ésima
k n
C = ∑ C j = ∑ Fi es la suma de las filas y de las columnas
j =1 i =1
–
C la media de los totales de las columnas.
Si en alguna fila todos los resultados son 0, o todos son 1, se elimina ésta de la
tabla. Se indica n1 por el número de filas que quedan después de suprimir las que
tienen todos los resultados iguales.
Cochran probó que si n1 · k > 24 el estadístico
2
sigue una distribución χ k−1 .
Otra forma más sencilla de calcular el valor del estadístico la proporciona la
fórmula, equivalente a la anterior, que se indica a continuación:
EJEMPLO 12.14.
Se aplica una prueba objetiva de 6 ítems a un grupo de 12 alumnos. Los resul-
tados obtenidos están reflejados en la siguiente tabla:
Ítem
1 2 3 4 5 6
Alumnos
A1 1 1 1 1 1 1
A2 0 1 1 1 1 0
A3 0 0 1 1 0 1
A4 0 0 0 1 1 1
A5 0 1 0 1 0 1
A6 1 0 1 0 1 0
A7 0 0 0 0 0 0
A8 0 1 0 1 0 0
A9 1 0 0 0 1 0
A10 0 0 0 0 0 0
A11 0 1 0 1 0 1
A12 1 0 0 0 0 0
¿Se puede afirmar que todos los ítems presentan la misma dificultad?
Eliminando las filas que tienen todos los resultados iguales quedan n1 = 9 ≥ 4
y como n1 ⋅ k = 9 ⋅ 6 = 54 > 24 el estadístico Q , χ 52 . El valor del estadístico de
contraste es:
Por tanto, no hay razones para afirmar que los ítems tienen distinto nivel de
dificultad.
Para preparar el contraste, se presentan los datos en una tabla de doble entra-
da de n filas y k columnas:
Muestras
1 2 … k
X1 x11 x12 … x1k
M M M M M
Xn xn1 xn2 … xnk
Friedman sustituye los valores de las observaciones por números que indican
el rango. En cada fila se sustituyen los valores por los números 1,2, …, k que in-
dican el orden del menor valor al mayor.
Muestras
Totales
1 2 … k
k ( k + 1)
Xn Rn1 Rn2 … Rnk
2
k k ( k + 1) n
Totales n R1 R2 … Rk ∑ Rj =
j =1 2
CONTRASTES NO PARAMÉTRICOS 523
2
sigue aproximadamente una χ k−1 . Se acepta la aproximación para n ≥ 8.
)
Si el valor del estadístico de contraste no cae en la región crítica RCα = χα2 ;k −1 , + `
se acepta la hipótesis nula, y se concluye que las muestras proceden de la misma
población, y en caso contrario se rechaza H0 con confianza 1 – α.
Si hay empates para asignar los rangos se procede como se explicó en los con-
trastes anteriores y se aplica una corrección al estadístico de contraste:
n
∑ ∑ eil ( eil2 − 1)
siendo c = 1 − l i =1 y eil el número de empates para un rango r en la ob-
(
n ⋅ k k2 −1 )
servación i.
524 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 12.15.
La valoración de un trabajo, puntuado de 0 a 50, por tres especialistas para cada
uno de diez investigadores se recoge en la tabla siguiente:
Especialistas
E1 E2 E3
Investigadores
1 15 25 18
2 20 16 22
3 17 20 15
4 6 15 20
5 25 7 30
6 33 42 40
7 12 8 15
8 11 30 26
9 10 15 20
10 47 25 38
¿Hay diferencias significativas en las valoraciones?
Como χ 2 =
(
12 162 + 20 2 + 24 2 ) − 3 ⋅10 ⋅ 4 = 3, 2 ∉ RC
α = 0 ,05 = [ 5, 991, + ` ) ,
no
10 ⋅ 3 ⋅ 4
se puede afirmar que haya diferencias significativas entre las calificaciones
de los tres evaluadores.
EJEMPLO 12.16.
Se han recogido muestras independientes de semillas de girasol en cuatro regio-
nes distintas. Los resultados de los pesos en gramos de las semillas recogidas son:
1,14 1,25 1,29 1,05 1,19
1,26 1,08 1,23 1,10 1,18 1,14
0,98 1,08 1,19 0,93 1,23 1,18
1,31 1,14 1,12 1,19 1,12
¿Se puede afirmar, a la vista de esos datos, que hay diferencias en el peso de las
semillas en las cuatro regiones?
0,93 0,98 1,05 1,08 1,08 1,10 1,12 1,12 1,14 1,14 1,14
1,18 1,18 1,19 1,19 1,19 1,23 1,23 1,25 1,26 1,29 1,31
4+5
Se observa que hay 6 empates, por ello se le asigna rango = 4, 5 al 1,08,
2
9 + 10 + 11
análogamente 7,5 al 1,12, rango = 10 al valor 1,14, rango 12,5 al valor
3
1,18, rango 15 al valor 1,19 y rango 17,5 al valor 1,23
En la tabla siguiente se indica el rango de cada uno de los datos de las muestras:
c
Como había empates, se calcula el factor de corrección: fc = 1 − 3
.
n − nT
T
En consecuencia, con los datos dados, no hay razones para sospechar que
existen diferencias en el peso de las semillas de girasol en las regiones en las que
se han recogido las muestras.
Se introducen los datos en dos columnas, en la primera los pesos de las se-
millas y en la segunda la muestra a la que corresponde cada uno de estos pesos:
Col_1 Col_2
1,14 M1
1,25 M1
1,29 M1
1,05 M1
1,19 M1
1,26 M2
1,08 M2
1,23 M2
1,10 M2
1,18 M2
1,14 M2
0,98 M3
1,08 M3
528 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1,19 M3
0,93 M3
1,23 M3
1,18 M3
1,31 M4
1,14 M4
1,12 M4
1,19 M4
1,12 M4
Señaladas las dos columnas, pulsamos con el botón derecho del ratón:
1,23
Col_1
1,13
1,03
0,93
Z1 Z2 Z3 Z4
Col_2
El StatAdvisor
———————
El test de Kruskal-Wallis prueba la hipótesis nula de igualdad de las media-
nas dentro de cada una de las 4 columnas. Los datos de todas las columnas pri-
mero se combinan y se ordenan de menor a mayor. Entonces se calcula el rango
medio para los datos en cada columna. Puesto que el P-valor es superior o
igual a 0,05, no hay diferencia estadísticamente significativa entre las medianas
a un nivel de confianza del 95,0%.
que es lo mismo que decir que el valor del estadístico para los valores dados no
pertenece a la región crítica para α = 0,05.
530 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
12.13.4. Se cruzan perros de raza Labrador homocigóticos de pelo color crema con
homocigóticos de pelo negro. La generación F1 son todos de pelo negro y en la ge-
neración F2 nacieron 372 cachorros negros, 109 color chocolate y 143 de pelo crema.
a) ¿Se puede aceptar que hay codominancia, es decir, que las proporciones de
los fenotipos son 1:2:1?
b) ¿Se puede aceptar que hay epistasia simple recesiva, esto es, proporciones
9:3:4?
12.13.5. Se han repoblado cuatro parcelas forestales con tres especies diferentes de
árboles. Se plantan 150 árboles en cada parcela y al cabo de un año se cuentan el nú-
mero de árboles que siguen vivos. Los resultados obtenidos fueron:
Parcela
I II III IV
Especie
E1 140 120 128 100
Estación
P V O I
Vacuna
Sí 50 49 53 44
No 71 84 82 67
12.13.7. En el cruzamiento de tomates altos con hoja tipo patata, AAPP, y tomates
enanos de hoja hendida, eehh, se observan los siguientes fenotipos en la segunda ge-
neración filial: 280 AP, 100 Ah, 80 eP, 20 eh. ¿Son estos resultados compatibles con
la hipótesis de Mendel de dominancia completa, es decir, con la hipótesis de pro-
porciones esperadas 9:3:3:1?
Región
Tipo I II III IV V
de árbol
F 62 38 25 38 57
–
F 1.715 1.520 960 1.315 1.270
¿Se puede admitir que la proporción de frutales es la misma en todas las regio-
nes? Plantear las hipótesis y contrastarlas para α = 0,05.
12.13.9. En un monte se ha observado una rara enfermedad que afecta a algunos ár-
boles. Se divide el monte en parcelas cuadradas y se eligen al azar 120 de ellas. Se
considera la variable aleatoria X, número de árboles afectados por esa enfermedad en
cada parcela. Los resultados obtenidos se recogen en la siguiente tabla:
N.o de árboles
0 1 2 3 4 5 ó más
afectados/parcela
N.o de parcelas 50 28 20 15 7 0
Ajustar a los datos una distribución de Poisson y contrastar la bondad del ajuste.
532 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Árboles
Sanos Enfermos
Fungicida
Tipo I 40 10
Tipo II 55 15
No tratados 60 40
a) Se puede admitir que el número de eritrocitos sigue, pasados los cuatro años,
la distribución anterior a la contaminación radiactiva, que era N(5, 1,2).
b) Calcular el porcentaje de la población que tiene 4,5 < X < 5,5, siendo X el nú-
mero de eritrocitos por milímetro cúbico de sangre pasados los cuatro años.
12.13.13. En una finca hay 500 árboles que están afectados por una enfermedad.
Para contrastar la eficacia de un tratamiento se aplica a 400 de los árboles enfermos
y los otros 100 se dejan sin tratar. Pasados dos meses desde la aplicación del trata-
miento se observaron los siguientes resultados:
¿Hay dependencia entre el número de árboles curados y el que hayan sido tratados?
CONTRASTES NO PARAMÉTRICOS 533
12.13.14. Se siembran con bacterias 100 cultivos de agar-agar, que contienen el an-
tibiótico A. Pasadas 48 horas se observa el número, X, de colonias resistentes en cada
cultivo. Los resultados obtenidos son:
X 0 1 2 3 4
N.o de cultivos 48 25 14 7 6
Clases < 72,5 [72,5, 77,5) [77,5, 82,5) [82,5, 87,5) [87,5, 92,5) >92.5
ni 2 45 113 160 100 80
12.13.16. Se han utilizado cuatro métodos diferentes para tratar una gran plantación
de perales jóvenes. Se cuenta el número de peras por rama después de aplicado el tra-
tamiento. La tabla de contingencia recoge los resultados:
N.o peras/rama
0 1 2 ó más
Tratamiento
T1 211 103 3
T2 223 144 8
T3 258 125 11
T4 193 154 17
12.13.19. Se presentan cinco copas de vino a siete catadores y se les pide que asig-
nen un número del 1, el que creen que es mejor, al 5, el de peor calidad. Los resul-
tados se muestran en la tabla siguiente
Catador
C1 C2 C3 C4 C5 C6 C7
Vino
V1 1 4 4 1 1 5 5
V2 3 5 1 3 2 1 1
V3 4 1 3 2 3 3 4
V4 2 2 5 5 4 2 3
V5 5 3 2 4 5 4 2
Parcela
1 2 3 4
Abono
I 10 45 50 30
II 15 30 35 20
III 19 26 30 25
¿Se puede aceptar la homogeneidad de las alturas con los tres tipos de abono?
CONTRASTES NO PARAMÉTRICOS 535
¿Se puede aceptar la normalidad de las longitudes de las acículas? Dar la res-
puesta para α = 0,01.
X 0 1 2 3 4 5 6
o 6 16 20 13 3 2 2
N. de días
Artículos
A B C D E F G
Clientes
1 1 0 0 0 1 0 0
2 0 0 1 0 1 0 0
3 0 0 1 0 1 1 0
4 1 0 0 0 1 1 1
5 1 1 1 0 1 1 0
6 1 1 0 1 1 0 0
7 0 1 1 0 1 0 0
8 0 1 0 1 1 1 0
9 0 1 1 0 1 0 0
10 1 0 1 1 1 0 0
12.13.24. Las calificaciones, de 0 a 10, para quince alumnos en tres pruebas, una de
matemáticas, otra de comprensión lectora, y la tercera, una prueba física, son las si-
guientes:
Pruebas
Mat. C. L. P. F.
Alumnos
1 6 10 7
2 4 3,5 9,5
3 1 10 6
4 2 4 10
5 5 8 6
6 4 9 6
7 8,5 9,5 5
8 6,5 7,5 9
9 7 9,5 7,5
10 4 8,5 9
11 1,5 2 9
12 10 10 4
13 8,5 7 9,5
14 1 1,5 10
15 2 10 9,5
¿Hay diferencias significativas entre las calificaciones obtenidas por los quince
alumnos en las tres pruebas?
12.13.25. Para contrastar los niveles de mercurio en el agua de un río en dos lugares
separados del cauce, uno de ellos próximo a una fábrica, se hacen observaciones en
cada uno de ellos en doce días no consecutivos y se obtuvieron los siguientes resul-
tados en microgramos por litro
L1 1,5 0,8 0,9 2,3 0,4 0,6 0,2 2,1 0,3 0,1 0,2 0,4
L2 1,3 1,2 6,9 1,6 1,5 0,9 2,3 1.9 2,1 2,2 1,8 0,6
12.13.26. Para estudiar si la implantación del carnet por puntos ha influido en el nú-
mero de infracciones de tráfico, se han elegido al azar 40 conductores con más de dos
años de experiencia y se ha anotado para cada uno de ellos un par ordenado. Los re-
sultados obtenidos fueron:
(0, 0), (0, 1), (1, 0), (1, 1), (1, 0), (0, 0), (1, 1), (1, 1), (1, 1), (0, 0), (0, 1), (1, 0), (1, 0), (1, 0),
(1, 1), (0, 0), (0, 0), (0, 0), (0, 0), (1, 0), (1, 0), (0, 0), (1, 0), (1, 0), (1, 0), (1, 0), (0,1),
(0, 0), (0, 0), (1, 1), (1, 0), (0, 1), (0, 0), (1, 0), (0, 0), (0, 0), (0, 0), (1, 0), (1, 1), (1, 0),
Los dos elementos del par reflejan con un «0» si no cometió infracción de tráfi-
co y con «1» si realizó al menos una infracción de tráfico, un año antes de la im-
plantación del carnet por puntos y después de implantado ese tipo de carnet, respec-
tivamente. Contrastar si el cambio es significativo.
12.13.27. En una gran ciudad el 50% de los pacientes que solicitan la primera con-
sulta de Urología tienen que esperar al menos 60 días para ser examinados por el es-
pecialista. Se quiere probar si la puesta en funcionamiento de tres nuevos hospitales
públicos reduce la espera. Se eligen al azar treinta personas que han solicitado la pri-
mera consulta antes de la apertura de los nuevos hospitales y se registra para cada
uno de ellos el número de días que tienen que esperar hasta ser atendidos:
64, 50, 48, 55, 75, 88, 92, 38, 104, 95, 97, 58, 90, 67, 70,
105, 93, 62, 81, 77, 110, 35, 80, 50, 88, 58, 62, 15, 27, 73,
Con esta información, ¿hay razones para aceptar que se ha reducido el tiempo de
espera para esos pacientes? ¿La diferencia es significativa?
Zona
A la vista de estos resultados, ¿se puede afirmar que hay diferencias en el peso
de los frutos para las cuatro zonas?
Análisis de la varianza
y análisis de la regresión 13
539
540 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
aplicando la prueba t de Student para comparar las medias de dos en dos, con un
nivel se significación a en cada uno, ¿cuál sería el nivel de significación total?
5
Si se acepta en cada uno de los = 10 contrastes la correspondiente hipó-
2
tesis nula: µi = µj con el nivel α que es la probabilidad de rechazar la hipótesis
nula cuando es cierta, entonces en cada una de estas diez pruebas independientes
la probabilidad de aceptar la hipótesis nula siendo cierta es 1 – α. Por tanto, el ni-
vel de significación total sería:
Así, en el caso en que se aceptaran todas las pruebas t de Student para cada dos
muestras al nivel α = 0,05, el nivel de significación final sería 1 − (1 − 0, 05)10 =
= 1 − 0, 59874 = 0, 40126 que es demasiado grande como error de Tipo I.
Por ello, R.A. Fisher (1890-1962) estudiando el efecto de distintos trata-
mientos en Agricultura desarrolló, en 1930, un método que es fundamental para el
Diseño de Experimentos y que proporciona importantes aplicaciones de la Esta-
dística a la Biología, a la Geología, a la Medicina, a la Química, a la Industria, etc.
Se trata del Análisis de la Varianza, una técnica que permite contrastar la igualdad
de las medias de k poblaciones, siendo k > 2. Este método también se conoce
como ANOVA, nombre que formó J.W.Tukey (1915-2000) con las iniciales del
nombre en inglés «ANalysis Of VAriance».
En la terminología del Análisis de la Varianza se observa la influencia del pri-
mer campo de aplicación en la experimentación agrícola. Así, se habla de parce-
la como unidad experimental a la que se aplica un tratamiento, entendiendo por
tratamiento el proceso cuyos efectos se quieren comparar, también denominado
factor. Los factores se presentan a distintos niveles, categorías o estados del
factor. El tratamiento o factor es un carácter cualitativo, cuyas modalidades o ca-
tegorías determinan los niveles a experimentar, como, por ejemplo, el tipo de te-
rreno, o una variable cuantitativa para la que los niveles serán determinados va-
lores de esa variable, como pueden ser diferentes dosis de abono. Se denomina
rendimiento a la variable cuantitativa cuyas medidas se obtienen al experimentar
en una parcela un tratamiento. El conjunto de parcelas o unidades experimentales
con ciertas características comunes se denomina bloque.
Si se considera la variable aleatoria asociada a una característica poblacional,
por ejemplo X:«el rendimiento en toneladas por ha de una cosecha de cierto ce-
real», que tiene por distribución N(µ, σ) cuando todos los factores se mantienen
constantes, en un mismo estado o nivel, puede ocurrir que al variar el nivel de uno
o más de uno de los factores la variable aleatoria siga la misma distribución u otra
distinta.
La finalidad del ANOVA es examinar y analizar la homogeneidad de las
distribuciones, igualdad de las medias poblacionales, al variar los niveles del factor
o de los factores que interesen. Si sólo se varía un factor, se habla de ANOVA 1 o
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 541
xi fi yi fi
5 1 15 1
15 1 25 1
n1 = 2 n2 = 2
zi fi zi . fi zi2 . fi
5 1 5 25
15 2 30 450
25 1 25 625
k ni
∑ ∑ Yij
siendo µ = E ( Y ) = E ( Y•• ) , donde Y•• es la variable aleatoria Y•• = i=1 j =1
;
n
α i = µi − µ, para i fijo, donde µi = E ( Yi ) = E ( Yi• ) , entendiendo que Yi• es
ni
∑ Yij
j =1
otra variable aleatoria definida por Yi• = ; εij la parte de Yij no explicada
ni
ni por la media general ni por la media del nivel. Se supone que esta com-
ponente aleatoria es una variable aleatoria ε con E ( ε ) = 0.
Esto significa que la diferencia entre los valores de la variable respuesta Y y la
media general esperada se descompone en dos partes:
una α, debida al cambio de nivel del factor, y otra εij, aleatoria y con esperanza
nula.
En este caso las hipótesis del contraste se pueden escribir así:
Los únicos datos de que se dispone son los de las muestras seleccionadas y a
partir de ellos se tienen que estimar los parámetros µ y α i , ∀i = 1, 2,..., k , para el
modelo lineal Yij = µ + α i + ε ij .
Se toma como estimador insesgado de µ la media de la muestra total, es decir:
544 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Y como estimador de cada αi, la media del nivel i-ésimo menos la media glo-
bal, esto es:
será:
ya que
k ni 2 k ni 2 k
2
Por tanto, ∑ ∑ yij − y••
i=1 j =1
( ) = ∑ ∑ yij − yi•
i=1 j =1
( ) + ∑ ni ( y•• − yi• ) .
i =1
las posibles observaciones Yij y las medias de cada nivel Yi• . Proporciona una me-
dida de la variabilidad de los datos atribuida a las fluctuaciones en el muestreo den-
tro de cada nivel. Es la suma de cuadrados residual o intranivel.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 545
k ni k
2 2
QN = ∑ ∑ ( Y•• − Yi• ) = ∑ ni ( Yi• − Y•• ) la suma de los cuadrados de las diferen-
i=1 j =1 i =1
cias entre las medias de los niveles y la media global Y•• . Proporciona una medi-
da de la variabilidad atribuida a los distintos niveles que intervienen en el expe-
rimento. Es la suma de cuadrados interniveles.
Estas tres variables aleatorias verifican la igualdad:
y que
Q Q
sea cierta, se tiene que E R = σ 2 y también E N = σ 2 .
n− k k − 1
En consecuencia, el estadístico
Sumas Medias ni
Niveles Muestras n Productos
i observaciones
Tamaño y = S = i y
∑ ij
S
yi • = i g.l. SCi = ∑ yij2 yi • . Si
i• i j =1
j =1 ni
S1
N1 y11 y12 ... y1n1 n1 y1• = S1 y1• = n1 – 1 SC1 y1• .S1
n1
S2
N2 y21 y22 ... y2 n2 n2 y2• = S2 y2• = n2 – 1 SC2 y2• .S2
n2
M M M M M M M M
Sk
Nk yk1 yk 2 ... yknk nk yk • = Sk yk • = nk – 1 SCk yk • .Sk
nk
k k k k
S
Totales n = ∑ ni y•• = S = ∑ Si y•• = n – k SC = ∑ SCi ∑ yi • .Si
i =1 i =1 n i =1 i =1
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
k 2 k QN
Entre niveles QN = ∑ ni ( yi• − y•• ) = ∑ yi• .Si − y•• .S k–1 QN
i =1 i =1 k −1
Fo = − 1
k
k ni 2 k QR
QR
Residual QR = ∑ ∑ yij − yi •
i =1 j =1
( ) = SC − ∑ yi • .Si
i =1
n–k
n−k
n−k
k ni 2
Total Q = ∑ ∑ yij − y••
i =1 j =1
( ) n–1
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 547
Antes de aplicar el ANOVA, hay que confirmar que se cumplen los requisitos
o suposiciones para el ANOVA:
1. Las variables Yi son independientes entre sí.
2. Las variables Yi siguen distribuciones normales N ( µi , σ i ), ∀i = 1, 2,..., k .
3. Homogeneidad de las varianzas σ 12 = σ 22 = ... = σ k2 = σ 2 , hipótesis de ho-
mocedasticidad.
o bien, que al menos se puede aceptar estadísticamente que se cumplen con un
grado de confianza alto, 1 – α.
¿Cómo se puede contrastar que se cumplen estos supuestos o condiciones ne-
cesarias para poder aplicar el ANOVA?
1. Para elegir las muestras se reparten al azar las n observaciones entre los k
niveles del factor. Se pueden elegir todos los tamaños muestrales ni iguales
entre sí o no. Dentro de cada nivel las observaciones también se eligen al
azar.
2. Para contrastar la normalidad de las variables Yi se podrá aplicar la prueba
χ2 de bondad de ajuste si el tamaño de las muestras es grande, o si no la
prueba de Kolmogorov-Smirnov, presentadas en el tema anterior.
3. Si se puede aceptar que las variables Yi siguen distribuciones N ( µi , σ i )
∀i = 1, 2,..., k , hay varias pruebas para el contraste de homogeneidad de las
varianzas. Se explican a continuación dos de ellas: el contraste de Hartley y
el de Bartlett. Si no se puede aceptar la igualdad de las varianzas, tampoco
se puede aplicar el ANOVA y, como en el caso en que no se puede aceptar
la normalidad de las variables Yi, habría que recurrir a la prueba no para-
métrica de Kruskal-Wallis, también explicada en el capítulo anterior.
( )
a) log Yij, o bien log Yij + c , con c > o, en el caso en que hubiera algún valor
negativo o nulo, si los valores de Yij son muy grandes, como recuento de
bacterias o células en la sangre. Es frecuente el uso de logaritmos deci-
males o naturales.
b) Yij o también Yij + c , con c > 0 para datos de pequeños recuentos.
548 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1 1
c) o , en el caso que algún valor de Yij sea cero, para datos como
Yij Yij + 1
tiempo de respuesta.
d) arcsen Yij si los datos corresponden a proporciones o porcentajes, etc.
se calculan las cuasivarianzas muestrales para los k niveles del factor s12 , s22 ,..., sk2
y se toma la mayor máx si2 y la menor mín si2 de estas cuasivarianzas.
1≤i ≤k 1≤i ≤k
Hartley determinó el estadístico del contraste
y los valores críticos Hα ;[k ,n −1] , que dejan por encima probabilidad α, en el su-
puesto de que la hipótesis nula sea cierta.
máx si2
Si el valor del estadístico, Ho = 1≤i ≤k 2 para los datos recogidos, es menor que
mín si
1≤i ≤k
el valor crítico Hα ;[k ,n −1] , siendo k el número de niveles considerados y n el número
de observaciones en cada nivel, se acepta al nivel α la igualdad de las k varianzas.
Si el valor del estadístico para los datos es mayor que el valor crítico, se re-
chaza la hipótesis nula, pues esto significa que es significativamente mayor la cua-
sivarianza máxima que la cuasivarianza mínima.
Los valores críticos Hα ;[k ,n−1] para este contraste se encuentran en la Tabla IX
del Apéndice I para k desde 2 hasta 12 y para diferentes valores de n – 1 que es el
número de grados de libertad.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 549
si s12 , s22 ,..., sk2 son las cuasivarianzas muestrales para los k niveles del factor, y en
el supuesto de que la hipótesis nula sea cierta, se puede tomar como estimador de
la varianza común, σ 2, la media ponderada de las cuasivarianzas muestrales,
siendo los pesos ni – 1, los grados de libertad correspondientes a cada una de ellas,
que se designa por s2, es decir:
k k
y se calcula V = ∑ ( ni − 1) ln s 2 − ∑ ( ni − 1) ln si2 , que será próximo a cero en el
i=1 i =1
caso en que la hipótesis nula sea cierta.
Bartlett elige como estadístico de contraste:
2
y demuestra que sigue una distribución χ k−1 .
Por tanto la regla de decisión en este caso es:
V
Si el valor del estadístico para los datos recogidos χ o2 = > χα2 ;k −1 , se rechaza
C
la hipótesis nula al nivel α. No se acepta entonces la igualdad de las varianzas, con
confianza 1 – α.
V
Por el contrario, si el valor del estadístico χ o2 =
< χα2 ;k −1 , concluimos que los
C
datos recogidos no contradicen la hipótesis nula y, en consecuencia, se acepta la
igualdad de las k varianzas.
550 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 13.1.
En un estudio sobre contaminación de las aguas fluviales se pretende contrastar
si la cantidad media de fosfatos varía en tres lugares diferentes en el curso de un río.
Para ello, se toman diez observaciones independientes de una determinada cantidad
de agua en cada uno de los tres lugares y se determina la cantidad de fosfatos, en
mg/l. Los resultados obtenidos son los siguientes:
mg/l
Li
)
α = 0,05 es: Hα =0 ,05;[k =3,n−1=9 ] , + ` = [5, 34, + ` ) .
máx si2
Calculando: Ho = 1≤i ≤k 2 = 544, 2667 = 2, 6990 ∉[5, 34, + ` ) .
mín si 201, 6556
1≤i ≤k
y por tanto no hay razones para rechazar la hipótesis nula al nivel α = 0,05. Se
acepta pues la igualdad de varianzas y, verificados todos los supuestos del análi-
sis de la varianza, ya se puede contrastar la igualdad de las medias.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 551
Sumas Medias ni
ni S g.l. Productos
Niveles i Tamaño ni yi • = Si = ∑ yij yi • = i ni – 1
SCi = ∑ yij2 yi • . Si
j =1 ni j =1
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
3
QN
Entre niveles QN = ∑ yi• .Si − y•• .S = 626, 0667 2 = 313, 0333
i =1 2
F = 0,9793
3
QR
Residual QR = SC − ∑ yi • .Si = 8.630, 9000 27 = 319, 6630
i =1 27
3 ni 2
Total
i =1 j =1
(
Q = ∑ ∑ yij − y•• ) = 9.256, 9667 29
La región crítica para este contraste es: RCα =0 ,05 = Fα =0 ,05;[ 2,27 ] , + ` .
)
En la Tabla IV del Apéndice I se encuentran los valores: Fα =0 ,05;[ 2,20 ] = 3, 49 y
Fα =0,05;[2,30 ] = 3, 32. Interpolando, se obtiene Fα =0 ,05;[2,27] . 3, 371. Por tanto, la región
)
crítica es: RCα =0 ,05 = Fα =0 ,05;[ 2,27] , + ` . [ 3, 371, + ` ) y como el estadístico del con-
traste Fo = 0, 9793 ∉ RCα = 0,05 = [ 3, 371, + ` ) se acepta la hipótesis nula al nivel α = 0,05.
Es decir, con los datos recogidos no hay razones para suponer que las medias
de la cantidad de fosfatos difieren en los tres lugares del curso del río.
552 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 13.2.
Se ha medido, en cm, la longitud de los trilobites, fósiles muy frecuentes en el
Ordovícico, de cuatro muestras procedentes de otras tantas regiones.
R1 9,6 8,8 8,9 9,0 9,4 8,5 8,6 9,2 8,8 8,6
R2 9,1 8,9 9,0 9,1 8,8 9,2 9,3 9,1 8,6 8,6 9,0 8,8 8,7
R3 9,9 9,8 9,4 9,6 9,7 9,6 9,8
R4 8,7 9,4 8,6 8,6 9,3 9,3 9,0
Aceptando que las longitudes siguen distribuciones normales, ¿se puede acep-
tar que la longitud media es la misma en las cuatro regiones?
Por ser las cuatro muestras de distinto tamaño, se aplicará el contraste de Bartlett.
Para probar:
5, 4490
Como χ o2 = = 5,1635 ∉ RCα = 0 ,05,3 = [ 7, 815, + ` ) , se acepta la igualdad
1, 0553
de las varianzas en las cuatro regiones.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 553
Sumas Medias ni
ni S g.l. Productos
Regiones Tamaño ni yi • = Si = ∑ yij yi • = i ni – 1
SCi = ∑ yij2 yi • .Si
j =1 ni j =1
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
3
QN
Entre niveles QN = ∑ yi• .Si − y•• .S = 3, 0830 3 = 1, 0277
i =1 3
F0 = 12,517
3
QR
Residual QR = SC − ∑ yi • .Si = 2, 7093 33 = 0, 0822
i =1 33
3 ni 2
Total Q = ∑ ∑ yij − y••
i =1 j =1
( ) = 5, 7923 36
)
crítica es: RCα =0,01 = Fα =0,01;[3,33] , + ` . [ 4, 45, + ` ) y como el estadístico del con-
traste: Fo = 12, 517 ∈ RCα = 0,01 = [ 4, 45, + ` ) se rechaza la hipótesis nula al nivel α =0,01.
Se concluye que hay diferencias significativas entre las longitudes de los tri-
lobites procedentes de esas cuatro regiones.
554 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
116
96
76
L1 L2 L3
Col_2
Análisis de la varianza
Suma Cuadrado
Fuente GL Cociente-F P-Valor
de cuadrados medio
Entre grupos 626,067 2 313,033 0,98 0,3885
Intra grupos 8630,9 27 319,663
Total (Corr.) 9256,97 29
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 555
El StatAdvisor
——————————————
La tabla ANOVA descompone la varianza de Fosfatos en dos componentes:
un componente entre grupos y un componente dentro de los grupos.
El F-ratio, que en este caso es igual a 0,979261, es el cociente de la
estimación entre grupos y la estimación dentro de los grupos. Puesto que
el p-valor del test F es superior o igual a 0,05, no hay diferencia
estadísticamente significativa entre las Fosfatos medias de un nivel de
Lugares a otro para un 95,0%.
Como este valor es mayor que 0,05, significa que el valor del estadístico
para las muestras dadas no pertenece a la región crítica para α = 0,05 y la con-
clusión es la misma que la obtenida manualmente.
L1
Lugares
L2
L3
Contraste de Varianza
Contraste de Hartley: 2,69899
y se calcula:
El estadístico de contraste:
1 k 1 1 11 1 1 1
siendo C = 1 + ∑ − k = 1 + + + − = 1, 0494
3 ( k − 1) i =1 ni − 1 6 9 9 9 27
∑ ( ni − 1)
i =1
V 3, 0078
de donde χ o2 = = = 2, 8662.
C 1, 0494
)
La región crítica para el nivel α = 0,05 es χα2 =0 ,05;k−1=2 , + ` = [ 5, 991, + ` )
que no contiene el valor del estadístico del contraste para los datos recogidos.
Como el valor de χ o2 = 2, 8662 < 5, 991, se acepta la igualdad de las varianzas en
los tres niveles. La misma conclusión que se obtuvo aplicando el contraste de
Hartley.
EJEMPLO 13.3.
Con los datos del Ejemplo 13.2. explicar para qué medias las diferencias son sig-
nificativas.
xi − x j
El estadístico de estos contrastes es T =
1 1
sR +
ni n j
y la región de aceptación para α = 0,01 es:
Los valores críticos de estos contrastes obtenidos con los valores de las me-
dias muestrales del Ejemplo 13.2. y σˆ 2 = s 2R = 0, 0822 son:
• Para la primera y segunda región:
)
t . 0, 01277 ∈ RAα = 0,01 = ( −t0,005;33 , t0,005;33 = ( −2, 736, 2, 736 ) , se acepta H0: µ1 = µ2
para α = 0,01. No hay diferencia significativa entre µ1 y µ2.
• En la primera y tercera región:
)
t . −5, 2785 ∉ RAα = 0 ,01 = ( − t0 ,005;33 , t0 ,005;33 = ( −2, 736, 2, 736 ) , no se acepta
H0: µ1 = µ3 para α = 0,01. Hay diferencia significativa entre µ1 y µ3.
• Para la primera y cuarta región:
t . −0, 3256 ∈ RAα =0,01 = ( −2, 736, 2, 736) , se acepta H0: µ1 = µ4 para α = 0,01. No
hay diferencia significativa entre µ1 y µ4.
• En la segunda y tercera región:
t . −5, 5602 ∉ RAα =0,01 = ( −2, 736, 2, 736) , no se acepta H0: µ2 = µ3 para α = 0,01.
Hay diferencia significativa entre µ2 y µ3.
• Para la segunda y cuarta región:
t . −0, 3516 ∈ RAα =0,01 = ( −2, 736, 2, 736) , se acepta H0: µ2 = µ4 para α = 0,01. No
hay diferencia significativa entre µ2 y µ4.
• En la tercera y cuarta región:
t . 4, 5683 ∉ RAα =0 ,01 = ( −2, 736, 2, 736 ) , no se acepta H0: µ3 = µ4 para α = 0,01.
Hay diferencia significativa entre µ3 y µ4.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 559
Y1
x1
Y2
x2
Y3
x3
Yi
…
xi
…
Yr
xr
µY|X=x = α + βx
Estos estimadores son los que hacen mínima la suma de los cuadrados de los
n n 2
errores δi, es decir, ∑ δ i2 = ∑ ( yi − (α + β xi )
i=1 i=1
) y, por tanto, como se explicó en el
n
suma ∑ δ i2 está sometida a dos restricciones lineales, las ecuaciones normales, y
i =1
por tanto tiene (n – 2) grados de libertad.
Se puede facilitar el cálculo del estimador de la varianza común teniendo en
cuenta lo explicado en el Apartado 3.7.3,
EJEMPLO 13.4.
Con los datos recogidos en la siguiente tabla:
Precipitación mensual
Latitud norte grados media en l/m2
42 68,6
47 71,9
46 73,1
44 64,6
43 55,1
45 54,9
44 56,2
46 55,6
32 37,7
35 42,8
41 55,9
36 46,0
y que representan la latitud norte, en grados, de 12 estaciones meteorológicas y la
precipitación media mensual, medida en litros por metro cuadrado, estimar los co-
eficientes de la recta de regresión.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 563
σ
Teniendo en cuenta la distribución del estadístico b = βˆ , N β , se podría
Sx n
utilizar como estadístico del contraste z = b que sigue, si H0 es cierta, una distri-
σ
bución N(0,1). Sx n
n
∑ δˆi2
Pero como no se conoce la varianza, al estimarla por s 2 = σˆ 2 = i =1 , se ob-
tiene el estadístico: n−2
n n 2 n 2
∑ ( xi − x ) ( yi − y ) ∑ ( xi − x ) ∑ ( yi − y )
donde SXY = i =1
; S2x = i =1
; S2y = i =1 y por tanto,
n n n
se puede estimar ρ por
EJEMPLO 13.5.
Con los datos y resultados del Ejemplo 13.4., a) dar una estimación del coefi-
ciente de correlación lineal. b) Realizar el contraste de hipótesis para β, aceptando
que la precipitación media mensual en cada latitud sigue una distribución normal y
se verifican las hipótesis previas para poder aplicar el análisis de la regresión.
σ xy
a) El coeficiente de correlación entre las variables X e Y, ρ = , que
σ xσ y
mide el grado de ajuste de los pares (x, y) a la recta de regresión se estima por el
coeficiente de correlación de la muestra:
b
El estadístico del contraste es: T = , tn− 2 .
s
Sx n
Se necesita calcular, por tanto:
Utilizando la Tabla III del Apéndice I, se determinan los valores críticos para
α = 0,05, para α = 0,01 y α = 0,001.
Como el valor del estadístico para los datos dados pertenece a la región críti-
ca del contraste para α = 0,05,
Las regiones críticas del contraste para α = 0,01y para α = 0,001 son:
ambas incluyen el valor del estadístico para los datos de la muestra, por ello
hay fuerte evidencia para rechazar con esos datos la hipótesis nula H0 : β = 0.
Es decir, los datos de la muestra dan un valor del estadístico muy significati-
vo. Por tanto, se acepta la hipótesis alternativa H1 : β ≠ 0 con confianza 99,9%, y
en consecuencia se acepta a partir de los datos de la muestra que hay una relación
lineal entre la latitud y las precipitaciones.
H : β = 0
Este contraste es equivalente a contrastar 0 pues si se acepta β = 0
H1 : β ≠ 0
se aceptará que todas las medias µi = αˆ + βˆ xi = µ y recíprocamente.
Para realizar el contraste planteado se descompone la varianza de la variable
aleatoria Y, o la suma de cuadrados de las diferencias de yi a su media y$ en dos su-
mandos, uno debido a la regresión lineal, αˆ + βˆxi respecto de y$, que mide la va-
riación de Y explicada por la variación de X, y otro debido al error de ajuste de los
valores observados a esta recta, yi − αˆ − βˆ x i .
Como se vio anteriormente, la suma de cuadrados de las diferencias de yi a su
media y$ es
Y por tanto
Q ∑ ( yi − y ) Q
distribuciones χ2 independientes: Y2 = i=1 2 , χ n2−1 Ä yÄ δ2 = i=1 2 , χ n−
2
2.
σ σ σ σ
Y como consecuencia de la independencia de los sumandos de la descompo-
sición de la suma de cuadrados QY = QRL + Qδ , si la hipótesis H0 es cierta el esta-
dístico
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
2
Debida a la n 2 ( )
n Sxy
regresión lineal QRL = ∑
i =1
( αˆ + βˆ xi − y ) =
Sx2
1 QRL
QRL
Fo =
Qδ
2
Error de ajuste
a la recta de
n
Qδ = ∑ δˆi2 = n Sy2 −
Sxy ( ) n–2
Qδ n−2
QRL
Los valores grandes del estadístico de contraste Fo = indican que
Qδ
(n − 2)
una parte grande de la varianza de la v.a. Y es explicada por la recta de regresión
de Y sobre X, y valores pequeños del estadístico revelan que la varianza de los
errores de ajuste es mayor que la explicada por la recta de regresión, de ahí que la
región crítica del contraste para el valor de α fijado es:
y, por tanto, se rechaza la hipótesis nula H0 : β = 0. Esto significa que existe una
asociación estadísticamente significativa entre las variables X e Y, se acepta la recta
de regresión de Y sobre X, Y = α + β X , como relación lineal entre las variables.
EJEMPLO 13.6.
Realizar el contraste de significación de la regresión lineal para los datos de la-
titud y precipitación del Ejemplo 13.4.
Se trata de contrastar:
RL Q
Debida a la
regresión lineal
QRL = 952,1785 1 QRL = 952,1785 Fo = Qδ = 22, 2415
10
Error de ajus-
Qδ
te a la recta de Qδ = 428,1083 10 = 42, 81083
regresión 10
Total de Y QY = 1.380,2868 11
Utilizando las Tablas IV, V y VII del Apéndice I, se obtienen las regiones crí-
ticas para el contraste, que son:
F0 = 22,2415 pertenece a la región crítica RCα =0 ,005 = [12, 83, + ` ) y por tanto
con los datos de la muestra se puede rechazar la hipótesis nula
EJEMPLO 13.7.
Realizar con STATGRAPHICS y con Excel el contraste de significación de
la regresión lineal para los datos de Longitud y ln(Anchura) del Ejemplo 3.5.
para el que se puede aceptar que se verifican las hipótesis previas del modelo de
regresión lineal simple. Comparar los resultados.
con lo que se abre una nueva ventana para la entrada de datos. En esta ventana se
indica que la variable x es la Longitud y la variable y es ln (Anchura). Pulsando
Aceptar se obtienen los resultados, que se presentan a continuación, redondeados
con cuatro decimales.
Se trata de contrastar:
Análisis de la varianza
Suma Cuadrado
Fuente GL Cociente-F P-Valor
de cuadrados medio
Modelo 0,3014 1 0,3014 71,23 0,0000
Residuo 0,1185 28 0,0042
Por tanto, se puede aceptar la regresión lineal entre las variables X e Y, y esta
asociación es estadísticamente significativa, pues α < 0,01. Se acepta, en conse-
cuencia, este modelo de regresión lineal ajustado para la población de la que se ha
extraído la muestra de los 30 fósiles.
El estadístico r2 = 71,78% indica que el modelo explica un 71,78% de la va-
riabilidad en ln (Anchura).
El coeficiente de correlación r = 0,8472 indica una relación moderadamente
fuerte entre las variables. El error estándar de la estimación muestra la desviación
típica de los residuos que es 0, 0042 . 0,065, que se puede usar para construir
límites de la predicción para otras observaciones.
Con el programa Excel, a partir del archivo de datos, se elige en el menú:
Herramientas → Análisis de Datos → Regresión
se pulsa Aceptar y aparece la ventana emergente que se ve en la siguiente figura
en la que se indica el rango de entrada de los datos de las dos variables.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,8472
Coeficiente de determinación R^2 0,7178
Observaciones 30
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 573
ANÁLISIS DE VARIANZA
Total 29 0,4199
µ1 µ2 µ3 µi µr
Y1
x1
y11 y1j y1n1
Y2
x2
Y3
x3
Yi
…
xi
yi1 yij yini
…
Yr
xr
yr1 yrj yrnr
µY|X=x = α + βx
574 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Y que
r ni
De donde se deduce que la suma de cuadrados de las desviaciones Qδ = ∑ ∑ δˆij2
i =1 j =1
es suma de QD, que representa la suma de los cuadrados de los errores dentro de
los grupos, es decir, de las observaciones yij a su media y$i (variabilidad de yij, para
cada xi fijo) y de QE, que representa la suma de los cuadrados de los errores en-
tre grupos, desviación de la media y$i, para cada xi, respecto del valor α̂ + βˆxi, en
la recta de regresión.
Si la hipótesis H0 es cierta, el estadístico
Si el valor del estadístico para los datos recogidos es muy grande, signi-
fica que la suma de los cuadrados de ajuste a la recta de regresión es mucho
mayor que la suma de los cuadrados de los errores de las observaciones a su
media dentro de los grupos.
Por tanto, fijado el nivel de significación α, se rechaza la hipótesis nula,
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
Entre grupos r 2 QE
µ y = αˆ + βˆ x i =1
(
QE = ∑ ni yi − αˆ − βˆ xi ) r–2
r−2
QE
r ni
Fo = − 2
r
2
Residual dentro
de los grupos
QD = ∑ ∑ yij − yi ( ) = QD
i =1 j =1 QD
yi 1 , yi 2 , ... yini 2 n–r n−r
r ni r 1 ni n−r
i = 1, 2,..., r = ∑ ∑ yij 2 − ∑ ∑ yij
i =1 j =1 i =1 ni i =1
ir n 2
Total
i =1 j =1
(
Qδ = ∑ ∑ yij − αˆ − βˆ xi ) n–2
EJEMPLO 13.8.
Los siguientes pares representan 40 observaciones de una variable bidimensio-
nal en la que el primer valor indica la edad, en años, del paciente, y el segundo una
medida de la tensión sistólica, en mm de Hg. Se mide la tensión a cuatro pacientes
para cada edad considerada.
(19, 109), (19,111), (19, 115), (19, 119), (21, 112), (21, 124), (21, 122), (21,123),
(24, 122), (24,121), (24, 122), (24, 126), (30, 125), (30, 126), (30, 123), (30,133),
(43, 134), (43,136), (43, 137), (43, 135), (53, 138), (53, 139), (53, 145), (53,165),
(55, 146), (55,149), (55, 147), (55, 137), (65, 156), (65, 157), (65, 159), (65,156),
(75, 165), (75,166), (75, 167), (75, 175), (85, 176), (85, 174), (85, 178), (85,180).
2 2
xi yi αˆ + βˆ xi yi − αˆ − βˆ xi ( y − αˆ − βˆ x )
i i (
ni ⋅ yi − αˆ − βˆ xi )
19 113,5 115,905075 –2,405074808 5,784384832 23,13753933
21 120,25 117,715427 2,534573393 6,424062283 25,69624913
24 122,75 120,430954 2,319045693 5,377972928 21,51189171
30 126,75 125,86201 0,887990295 0,788526764 3,154107057
43 135,5 137,629296 –2,129296401 4,533903164 18,13561266
53 146,75 146,681055 0,068944602 0,004753358 0,019013432
55 144,75 148,491407 –3,741407198 13,99812782 55,99251128
65 157 157,543166 –0,543166195 0,295029515 1,180118061
75 168,25 166,594925 1,655074808 2,73927262 10,95709048
85 177 175,646684 1,353315811 1,831463684 7,325854735
Total 167,1099879
578 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
10 ni 2
También hay que calcular: ∑ ∑ yij − yi
i =1 j =1
( ) = 874, 5.
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
QE =
QE
Entre grupos r 2 =
µ y = 98, 7067 + 0, 9052 x
i =1
(
= ∑ ni yi − αˆ − βˆ xi ) = r–2=8 r−2
= 20, 8887
Fo =
QE
= 167,1099879
= −2 =
r
Residual dentro QD = QD
QD n−r
de los grupos r ni 2
yi 1 , yi 2 , ... yini = ∑ ∑ yij − yi
i =1 j =1
( ) = n – r = 30 n−r = 0, 7166
= 29,15
i = 1, 2, ..., 10 = 874, 5
Qδ =
r ni 2
Total
i =1 j =1
(
= ∑ ∑ yij − αˆ − βˆ xi ) = n – 2 = 38
= 1041,609988
Por tanto, se acepta la hipótesis nula para α = 0,05, es decir, el ajuste a la rec-
ta de regresión es bueno.
No hay razones con los datos recogidos para rechazar el ajuste de los valores
dados a la recta de regresión µi = 98,7067 + 0,9052 x i , ∀ i = 1, 2,...,10.
En la fórmula se advierte que cuanto mayor sea la varianza de los valores de la va-
riable X la estimación de β será más precisa porque será menor la amplitud del intervalo.
De aquí se deduce que es conveniente elegir los valores de X en todo el in-
tervalo de variación, pero más valores en los extremos que centrales para au-
mentar la precisión de las estimaciones sin cambiar el porcentaje de confianza.
EJEMPLO 13.9.
Con los datos y resultados del Ejemplo 13.4. dar el intervalo de confianza al
95% para β.
Como s 6, 5430
= = 0, 4056, el intervalo de confianza pedido es:
Sx n 21, 6875 12
Y − µY X = x
Por tanto el estadístico del contraste Z = X=x
, N ( 0,1) , pero como
2
1 (x − x)
σ +
n nSx2
n
∑ δˆi2
2 i=1
se desconoce el valor del parámetro σ, al estimarlo por s = el estadístico
n−2
EJEMPLO 13.10.
Con los datos y resultados del Ejemplo 13.4. dar intervalos de confianza al 95%
para µY = α + β x para los valores de x de la muestra.
Análisis de la Varianza
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Suma de Cuadrado
Fuente GL Cociente-F P-Valor
cuadrados medio
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Modelo 952,18 1 952,18 22,24 0,0008
Residuo 428,107 10 42,8107
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Total (Corr.) 1380,29 11
El StatAdvisor
———————————————
La salida muestra los resultados del ajuste al modelo lineal para des-
cribir la relación entre Publiometría y Latitud. La ecuación del modelo
ajustado es
Publiometría = –22,9917 + 1,91278*Latitud
67
Publiometría
57
47
37
32 35 38 41 44 47
Latitud
Valores predichos
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
95,00%
Predicho
Límites de Confianza
X Y Inferior Superior
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
32,0 38,2171 28,4525 47,9817
47,0 66,9087 60,5667 73,2508
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
El StatAdvisor
———————————————
Esta tabla muestra los valores predichos para Publiometría usando el mo-
delo ajustado. Además de las mejores predicciones, la tabla muestra:
13.4.1. Si X1, X2 y X3, son tres variables aleatorias normales, y se dispone de una
muestra de cada una de ellas de tamaños n1 = 15, n2 = 9 y n3 = 22 con cuasivarianzas
135, 70 y 124 respectivamente, contrastar la hipótesis de homogeneidad de sus va-
rianzas.
Fechas de siembra P1 P2 P3 P4
2 abril 2,44 1,49 2,44 3,35
2 mayo 2,71 2,18 1,95 3,86
2 junio 2,89 2,13 1,99 1,68
13.4.3. ¿Se puede admitir, a partir de los datos recogidos en la tabla, que hay diferencia
significativa en el peso medio, en kg, de la lana limpia de carneros adultos nacidos de tres
sementales, aceptando que el peso de la lana sigue una distribución normal?
A1 38 31 30 39 32 35 34 25 31 21
A2 39 35 24 52 40 36 39 28
A3 21 18 4 36 28 14 16 5 24 19
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 585
a) ¿se puede aceptar α = 0,05 para, que la producción media es la misma con los
tres tipos de abono?
b) ¿Hay diferencia significativa entre los abonos A1 y A2? ¿Y entre los abonos
A2 y A3?
13.4.7. Se plantan tres nuevas variedades de maíz, M1, M2 y M3, en parcelas bajo
las mismas condiciones. Las producciones obtenidas es tm/ha son las siguientes:
Muestras
Variedad maíz
M1 15 18 20 17
M2 16 15 21 22
M3 10 8 19 23
A 171 174 180 177 186 180 180 171 177 183
B 174 183 168 174 171 168 183 180 171 174
C 195 201 201 225 225 213 201 210 228 204
D 174 177 174 183 171 168 174 171 171 177
E 186 198 195 189 192 186 195 195 186 201
586 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Aceptando que el peso en gramos de los tomates en los cinco tipos de terreno si-
guen distribuciones normales y que las muestras se han elegido de forma indepen-
diente, ¿se puede asegurar que la producción es igual en los cinco tipos de terreno?
13.4.9. Para poder comparar el rendimiento medio de trigos de ciclo largo plantados
en secano de baja montaña se siembran semillas de las variedades Marius, Rodrigo y
Cezanne en terrenos de las mismas características y en la misma zona. Los rendi-
mientos obtenidos en kg/ha son los siguientes:
3.287,3
4.393
4.967,1
Contrastar si hay diferencia significativa entre los resultados obtenidos por los
tres laboratorios, suponiendo que el contenido de nicotina por cigarrillo sigue una dis-
tribución normal y que las determinaciones de los tres laboratorios son independientes.
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 587
Parcela 1 2 3 4 5 6 7 8
Abono I 2,8 3,5 2 2,3 2 2,3 4,2 3,3
Abono II 2,4 2,2 2,7 3,2 2,4 3 2,1 2,2
Suponiendo que las distribuciones de los pesos de las cosechas son normales, se
pide:
a) Contrastar si se puede admitir la igualdad de varianzas de ambas distribu-
ciones.
b) Si es posible, realizar el ANOVA y explicar el significado.
13.4.12. Para comprobar la eficacia de tres tipos distintos de fungicidas para tratar
semillas de maíz de invernadero infectadas con Puccinia sorghi, se eligen al azar tres
muestras de plantas tratadas cada una con un tipo de fungicida y se anota el porcen-
taje de semillas infectadas. Los resultados obtenidos son los siguientes:
F1 21 22 17 18 19 20 21 22 18 19
F2 17 16 19 18 18 21 20 17
F3 2 3 7 1 1 2 3 6 1
P1 3,6 3,3 3,6 3,6 3,6 3,7 3,5 3,7 3,4 3,7 3,5 3,6
P2 3,5 3,6 3,5 3,7 3,3 3,4 3,6 3,5 3,6 3,3
P3 3,5 3,4 3,5 3,6 3,4 3,5 3,5 3,3 3,5 3,4 3,3
13.4.14. Se han medido la longitud del ala, X en mm, y de la cola, Y también en mm,
de quince Parus ater vieirae (Carbonero garrapinos) en la sierra madrileña. Los re-
sultados obtenidos son los siguientes:
X semanas 0 1 2 3 4 5 6 7
Y altura en cm 4,5 5 6,3 7,9 9,3 11,8 14,7 17,6
X mm 28 15 25 17 12 24 8 10 2 7
Yg 8 3,5 6 5 3 4 2,5 1.5 1 2
U = ln X 7,8 7,9 8,4 8,7 8,8 9,4 10,3 10,7 11,0 11,2 11,3
V = ln Y 2,1 2,2 2,3 2,2 2,3 2,4 2,7 2,8 2,8 2,9 2,9
X Y
Taber Cezanne
4 5,5
3,2 5,07
2,95 5,93
3,6 5,31
3,3 5,13
3,5 5,23
4,1 5,62
3,5 5,26
4,2 5,68
Con los datos recogidos se quiere averiguar si existe relación lineal entre la
producción media de trigo de las variedades Cezanne y Taber en terreno de secano.
Realizar el análisis de la regresión.
13.4.20. Se quiere contrastar si las alturas de las matas de tomillo, medidas en mm,
varían de unas zonas a otras. Se eligen tres zonas y en cada una de ellas muestras al
azar de matas de tomillo. Las alturas observadas son:
Aceptando que las alturas en las tres zonas siguen distribuciones normales, ¿se
puede afirmar que hay diferencias significativas entre las plantas de las tres zonas?
L1 21 31 35 31 30 25 38 32 39 34
L2 36 35 28 24 39 40 52 39
L3 24 4 19 18 14 5 21 28 36 16
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 591
(9,6, 12,4), (9,6, 12,4), (9,6, 12,1), (9,6, 12,1), (9,6, 12,5), (9,8, 12,7), (9,8, 12,4),
(9,8, 12,4), (9,8, 12,7), (9,8, 12,7), (11,4, 14,5), (11,4, 14,8), (11,4, 14,7), (11,4, 14,7),
(11,4, 14,5), (12,5, 15,6), (12,5, 15,8), (12,5, 15,8), (12,5, 15,9), (12,5, 15,6),
(13,4, 16,7), (13,4, 17,1), (13,4, 17,1), (13,4, 16,9), (13,4, 16,7), (14,5, 18,2),
(14,5, 17,9), (14,5, 18), (14,5, 18,2), (14,5, 18), (14,3, 17,9), (14,3, 17,8), (14,3, 17,7),
(14,3, 17,8), (14,3, 17,9), (14,8, 18,7), (14,8, 18,9), (14,8, 18,6), (14,8, 18,6),
(14,8, 18,4), (15,1, 18,7), (15,1, 18,9), (15,1, 18,9), (15,1, 18,9), (15,1, 18,6),
(13,9, 17,1), (13,9, 17,6), (13,9, 17,4), (13,9, 17,1), (13,9, 17,5).
14.1. INTRODUCCIÓN
595
596 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
EJEMPLO 14.1.
Dos especies animales A1 y A2 luchan a diario por ocupar un territorio que está divi-
dido en cuatro parcelas idénticas. Cada mañana se enfrentan para ocupar una parcela en la
que encuentran alimento y en cada enfrentamiento la especie A1 gana con probabilidad
2 Inicialmente la especie A sólo ocupa una de las parcelas. Si X(t) representa el número
⋅ 1
3
de parcelas que logra ocupar la especie A1 el día t-ésimo, X (t ) ∈ {0, 1, 2, 3, 4} y el tiem-
po aquí se considera discreto t ∈{0, 1, 2,..., n,...} , pues se observa las parcelas que logra
ocupar la especie A1 cada día, { X (t )}t ∈T es un proceso estocástico temporal discreto.
EJEMPLO 14.2.
Si X(t) representa el número de llamadas recibidas en la centralita de un hotel hasta el
instante t, X (t ) ∈{0, 1, 2,..., n,...} . Si se considera el tiempo a partir de un instante dado
y t ∈R+ ∪ {0} , { X (t )}t∈T es un proceso estocástico temporal continuo.
Muchos datos de los que se recogen para su estudio en biología, geología, me-
dicina, economía, astronomía, ingeniería, medio ambiente, etc., tienen caracte-
rísticas temporales o espaciales.
Una sucesión de observaciones realizadas para una variable ordenadas en el
tiempo constituye una serie temporal o serie cronológica. Se presentan algunos
ejemplos a continuación:
1
En la dirección http://cg.ensmp.fr/Presentation/Matheron/Matheron_en.shtml se puede en-
contrar un resumen de la biografía del profesor Matheron.
598 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1. 0 ≤ pij ≤ 1.
r
2. ∑ pij = 1, ∀i = 1, 2,..., r. Es decir, la suma de los elementos de cada co-
j =1
lumna es igual a 1. Por tanto sus columnas son vectores de probabilidad.
Por esto se dice que la matriz de transición, M, es una matriz estocástica
por columnas.
Como consecuencia de las dos propiedades anteriores se obtienen las si-
guientes:
3. El producto de dos matrices estocásticas por columnas es otra matriz es-
tocástica por columnas.
4. Las potencias de matrices estocásticas por columnas son también matrices
estocásticas por columnas.
600 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
v1
v
5. Si v = es un vector de probabilidad, esto es, si 0 ≤ vi ≤ 1, ∀i = 1, 2,..., r
2
...
vr
r
con ∑ ν i = 1 y Mrxr es una matriz estocástica por columnas, entonces Mrxr . v es otro
i=1
vector de dimensión r × 1 que también es un vector de probabilidad.
Se dice que una matriz es estocástica por filas si sus filas son vectores de pro-
babilidad. La matriz transpuesta de M, Mt, es estocástica por filas.
Una matriz que es estocástica por filas y por columnas a la vez se dice que es
biestocástica.
La función de probabilidad en n etapas se define por:
Si n = 2:
p1 ( 0)
p ( 0)
3. El vector de probabilidad inicial P( 0) = 2 siendo pi (0) = P( X0 = i ),
...
pr (0)
probabilidad de que proceso se encuentre en el estado i, para i ∈{1, 2,..., r } en el
instante inicial.
Con los datos anteriores se puede deducir la ley de probabilidad para cualquier
etapa n. Así, teniendo en cuenta el teorema de la probabilidad total, la ley de pro-
babilidad pasada una etapa es:
se tiene
p1
p
El vector de probabilidades estable P = 2 es un autovector asociado al auto-
M
pr
r
valor λ = 1 que verifica ∑ pi = 1.
i =1
EJEMPLO 14.3.
En una población diploide se clasifican los individuos según su genotipo en tres
grupos AA, Aa y aa, es decir, raza pura dominante, híbrido y raza pura recesiva. Si
en cada generación se cruzan siempre las hembras, cualquiera que sea su genotipo,
con machos híbridos y no se producen mutaciones, ni hay selección o esterilidad, ni
emigración o inmigración y en el instante inicial la tercera parte de las hembras son
de cada uno de los genotipos, ¿cuál será la composición de la población después de
dos cruces?, ¿y después de diez cruces?, ¿y de cien cruces?
También es una cuarta parte de la población raza pura dominante, otra cuarta
parte es raza pura recesiva y la mitad híbridos.
604 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Esto significa que después de 100 cruces la mitad de la población será híbri-
do, la cuarta parte dominante y la otra cuarta parte recesiva.
1 4
La distribución de probabilidad determinada por el vector P = 1 2 es, es-
1 4
1 4 1 4
tacionaria, porque M ⋅ 1 2 = 1 2 .
1 4 1 4
1 4
¿La distribución de probabilidad P = 1 2 es también estable?
1 4
1
Como los autovalores de la matriz M son 1, y 0, el único vector de proba-
2
bilidad que es autovector asociado al autovalor 1 da la distribución de probabili-
dad estable.
Con objeto de precisar la expresión de ft (x), por ser el tiempo t una variable
d f ( x ) − ft ( x )
continua, se determina ft ( x ) = lim t +h
dt h→ 0 h
Para calcular ft+ h (x), es decir, la probabilidad de que se produzcan x cambios
en el intervalo [0, t + h], para h suficientemente pequeño, se descompone el suceso
Sx = «se producen X(t) = x cambios en el intervalo [0, t + h]» en la unión de los su-
cesos S1 y S2, siendo:
Entonces:
606 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto:
De ahí que:
2
Por tanto, ft ( 2 ) = λ 2 t + C ⋅ e − λt y con la condición inicial f0 ( 2 ) = 0, se
2
obtiene C = 0 y, así,
λ 3 t3
Por tanto, ft ( 3) = + C e − λt y con la condición inicial, f0 (3) = 0, se ob-
2! 3
tiene C = 0 y, así,
ft ( x − 1) =
( λ t ) x−1 e− λt y a partir de ésta se prueba que la expresión también
( x − 1)!
es cierta para x.
d
Como f ( x ) = λ ft ( x − 1) − λ ft ( x ) y por la hipótesis de inducción
dt t
x −1
( λt )
ft ( x − 1) = e − λt se tiene:
( x − 1)!
λx tx
Integrando, se obtiene C (t ) = + C . Así, la solución general de la
( x − 1)! x
λx tx
ecuación completa es ft ( x ) = + C ⋅ e − λt y con la condición inicial
( x − 1)! x
f0 ( x ) = 0, se tiene C = 0 y, en consecuencia,
EJEMPLO 14.4.
La centralita de un ambulatorio recibe los lunes llamadas de 11.00 a 13.00 h.
con una media de dos llamadas por minuto.
a) ¿Cuál es la probabilidad de que reciba más de una llamada en un minuto?
b) ¿Cuál es la probabilidad de que reciba al menos una llamada en un minuto?
c) ¿Cuál es la probabilidad de que reciba al menos una llamada en un interva-
lo de tres minutos?
d) ¿Cuál es la probabilidad de que reciba más de siete llamadas en un interva-
lo de tres minutos?
e) ¿Cuál es la probabilidad de que reciba a lo sumo dos llamadas en un inter-
valo de tres minutos?
20 −2
b) P( X ≥ 1) = 1 − P( X < 1) = 1 − P( X = 0) = 1 − e . 1 − 0, 1353 = 0, 8647.
0!
6x
c) En un intervalo de tres minutos es P( X = x ) = f3 ( x ) = ⋅ e −6 , x = 0, 1, 2,...
por tanto: x!
7 6 x −6
d) P( X > 7) = 1 − P( X ≤ 7) = 1 − ∑ e . 1 − 0, 7440 = 0, 2560.
x=0 x !
2 6 x −6
e) P( X ≤ 2) = ∑ e . 0, 0620.
x =0 x !
EJEMPLO 14.5.
Se sabe que la tecnología de la que se disponía en la primera mitad del siglo xx
no permitía localizar puntos concretos desde el aire. Por ello, los lugares de impac-
to producidos por bombas aéreas explosivas lanzadas desde aviones se podían con-
siderar como puntos distribuidos de forma aleatoria en el mapa.
Suponiendo que en una guerra, con bombardeo aéreo, el número medio de
impactos por km2 era λ = 0,12 , el número x de impactos en una ciudad de 500 km2
sería
El número más probable de impactos en esta ciudad es 60 y 59, pues hay dos
modas, por ser:
EJEMPLO 14.6.
En una cuenca de 30 ha de superficie se recogen valores de las cotas Z(x) en
puntos determinados por sus coordenadas geográficas. Una muestra de la variable
{
regionalizada Z(x) es el conjunto de valores z ( x j ) } j =1,2,...,n
donde z(xj) es un valor
de la variable aleatoria Z(xj) y representa la cota, altura sobre el nivel del mar, en el
punto Xj para j = 1,2,3,...,n.
EJEMPLO 14.7.
Se puede considerar Z(X) como suma de tres componentes
Z(X ) = µ ( X ) + α ( X ) + ε
EJEMPLO 14.8.
Otra forma de descomponer el modelo estocástico Z(X) definido por la variable
regionalizada Z(x) es la siguiente:
Z ( x) = µ Z ( x ) + σ Z ( x ) ⋅ ε
En este caso la variable ε, que representa una variable error, tiene media 0 y
desviación típica 1 porque se tienen que verificar las igualdades:
EJEMPLO 14.9.
Si x es el vector de posición del punto X del plano, modelos posibles po-
drían ser:
䊏 Z ( x ) = Z ( x1 , x 2 ) = α1 + α 2 x1 + α 3 x 2 + ε ( x1 , x 2 ) .
Si k = 0, m( x) = α1 .
Si k = 1 se tiene m( x) = α1 + α 2 x1 + α 3 x 2 .
Para k = 2 sería m(x) = α1 + α 2 x1 + α 3 x 2 + α 4 x12 + α 5 x1 x 2 + α 6 x 22 .
M
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 617
Al ajustar estos modelos a los datos recogidos, algunos de los coeficientes po-
drán tomar el valor cero.
EJEMPLO 14.10
Son datos distribuidos espacialmente, que dan lugar a procesos estocásticos de
variable continua, los siguientes:
— La variación espacial de reservas de diferentes tipos de materias primas mi-
nerales.
— La evaluación de recursos hídricos superficiales o subterráneos en una
cuenca.
— Los parámetros de calidad de un mineral en una zona determinada.
— La variación de la concentración de material radiactivo en un terreno.
— La concentración de determinadas sustancias tóxicas en una región.
— El análisis de la concentración de metales pesados en el agua de un río o de
partículas de polen en el aire en una ciudad.
— La variación de la conductividad hidráulica del suelo arenoso en una región,
provocada por el uso del tipo de agua de riego. La conductividad es un pa-
rámetro interesante en la conservación del suelo.
— La exposición de la población a determinado ruido en un distrito.
— La porosidad del terreno en una demarcación determinada.
— La distribución espacial de plagas de insectos en una plantación.
— El nivel piezométrico a lo largo de un acuífero. Un acuífero es una forma-
ción geológica que encierra una cantidad de agua, o que permite la circula-
ción del agua por sus poros o grietas. En los acuíferos libres, por encima del
agua, no hay capas impermeables. Los acuíferos encerrados por materiales
impermeables se denominan confinados o cautivos. El nivel piezométrico se
define como la altura de la superficie libre del agua sobre el nivel del mar, si
el acuífero está en contacto directo con el aire, o la altura que alcanzaría el
agua en el interior de un sondeo hasta equilibrarse con la presión atmosfé-
rica, si es un acuífero confinado.
— La medida de la fertilidad del suelo en una zona de cultivo hortícola.
— La altitud de los árboles en una zona forestal.
— La variación del número de personas afectadas por una determinada enfer-
medad en una zona alrededor del lugar del foco detectado.
— La distribución espacial de variables ecológicas o medioambientales o la
densidad de árboles en una región.
— La densidad de peces en una zona de pesca.
— La temperatura del agua del mar en una zona costera, etc.
䊏 Uno de los extremos del segmento de centro X y longitud 2|h| para una re-
gión lineal.
䊏 Un punto de la circunferencia de centro X y radio |h| si se trata de una re-
gión plana.
䊏 Un punto de la superficie esférica de centro X y radio |h| si el estudio se
hace sobre una región del espacio tridimensional.
Una vez recogidos los datos muestrales, en primer lugar se realiza un análisis
descriptivo de la muestra unidimensional formada por los valores recogidos de
Z(x), sin tener en cuenta la localización geográfica, es decir, las coordenadas de los
puntos x en los que se ha realizado el sondeo. Se calculan los estadísticos para esta
muestra y se interpretan los resultados.
Si los valores recogidos tienen acusada asimetría se realiza alguna transfor-
mación de los datos para obtener una muestra que se pueda aceptar que procede
de una distribución normal.
EJEMPLO 14.11.
Se han realizado 51 mediciones de la concentración en ppb, 10–12 de un disolvente,
Cl2C = CCl2 , tetracloroetileno, disuelto en el agua de un acuífero. Este disolvente in-
coloro, también conocido como percloroetileno, es peligroso para el medio ambiente.
0 1 2 3 4
(x10.000)
Tetracloroetileno en ppb
Diagrama correspondiente a los valores de z(x), concentración en ppb
Las regiones críticas, interpolando en la Tabla X del Apéndice I, para los va-
lores de α = 0,10, α = 0,05, α = 0,01 son, respectivamente:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 621
Como D51 = 0, 3413 ∈ RCα =0,01 , los datos difieren muy significativamente de
la normalidad. No se puede aceptar que proceden de una distribución normal.
EJEMPLO 14.12.
Transformar los datos del ejemplo anterior considerando en lugar de los valores
recogidos de la concentración en ppb de tetracloroetileno, los logaritmos neperianos
de esos valores.
Realizar un análisis descriptivo unidimensional de los valores transformados.
¿Se puede aceptar que los nuevos valores proceden de una distribución normal?
Para estos nuevos datos el diagrama de caja y bigotes, que se presenta a con-
tinuación, refleja mayor simetría que el anterior y que se han corregido todos los
valores atípicos.
Gráfico de caja y bigotes
0 2 4 6 8 10 12
In TCE
Diagrama correspondiente a los valores de ln z(x)
622 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Como D51 = 0, 0882 ∉ RCα =0 ,10 , se puede aceptar que estos datos se ajustan a
una distribución normal, que confirma lo observado en el diagrama de caja y bigotes.
Si existe la varianza para todas las variables Z(x), también existirá la cova-
rianza de las variables Z(x) y Z(x + h), que será una función de las localizaciones
determinadas por los vectores de posición x y x + h.
䊏 Para cuantificar la estructura de correlación espacial de una variable re-
gionalizada, Matheron define la función estructural denominada función va-
riograma, que designa por 2γ ( x, x + h ) , como la varianza de la diferencia
Z ( x ) − Z ( x + h ) , es decir:
n
si se han realizado sondeos en n puntos xi , ∀i = 1, 2,..., n, se tendrán pares de
2
puntos.
Se calcula la distancia euclídea h entre ellos, que es:
䊏
( ) ( )
dist xi , x j = dist x i , x j = xi − x j si el soporte geométrico es lineal.
2 2
䊏
( ) ( (
dist x i , x j = dist ( x i , yi ) , x j , y j )) = ( x − x ) + ( y − y )
i j i j
si el soporte
geométrico de la variable regionalizada es una región del plano.
2 2 2
䊏
( ) ( (
dist x i , x j = dist ( xi , yi , zi ) , x j , y j , z j )) = ( x − x ) + ( y − y ) + ( z − z )
i j i j i j
siendo n(h) el número de pares de puntos separados entre sí una distancia h = |h|.
El semivariograma experimental o muestral es una línea quebrada que une
( )
cada punto h, γ ∗ ( h ) con el siguiente para valores crecientes de h.
EJEMPLO 14.13.
Dibujar el semivariograma experimental para los siguientes datos de una fun-
ción aleatoria con soporte lineal:
xi z(xi)
1 4
2 10
3 15
4 20
5 17
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 625
n( h)
2
1 ∑ ( z ( x i ) − z ( x i + h ))
Para estimar el valor del semivariograma γ ∗ ( h ) = i =1
2 n (h)
para las distintas distancias posibles 0,1,2,3,4 se tienen que utilizar respectiva-
mente n(0) = 5 pares de puntos, n (1) = 4, n ( 2) = 3, n (3) = 2, n ( 4 ) = 1.
100
80
60
40
20
0
0 1 2 3 4
Semivariograma experimental
EJEMPLO 14.14.
En una región en la que hay un acuífero confinado se han practicado 20 sondeos
para determinar su nivel piezométrico. Los resultados obtenidos se presentan en la
siguiente tabla:
xi yi Nivel xi yi Nivel
5 5 500 30 5 601
5 10 510 30 20 645
10 15 560 35 10 544
10 20 570 35 15 560
15 10 670 40 20 680
15 25 650 40 25 700
20 20 525 45 10 568
20 30 550 45 30 490
25 10 530 50 20 600
25 35 570 50 35 600
[530,565)
Leyenda [565,575)
[600,650)
[650,700)
40
35
30
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50 55 60
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 627
6.000
5.000
4.000
3.000
2.000
1.000
0
0 5 10 15 20 25 30 35 40 45 50 55 60
Distancia h
Semivariograma experimental
γ(h)
2,5
1,5
0,5
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Distancia h
628 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Para valores muy grandes de h = |h| , esto es, para puntos muy separados, la
covarianza será nula por ser independientes las variables Z(x) y Z(x + h) y a me-
dida que disminuye h = |h| las variables serán más dependientes.
Si h = 0 la covarianza
Var(Z)
h
0
Porque
Var(Z(x))
h
0
Semivariograma para funciones estacionarias
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 631
Una función aleatoria Z(x) se dice que es intrínseca si verifica las dos condi-
ciones siguientes:
1.o) E ( Z ( x + h ) − Z ( x) ) = µ ( h ) , ∀x ∈G.
( )
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z ( x)) = 2γ (h), ∀x ∈G.
2
Por tanto, se puede suponer que la deriva µ (h) es nula utilizando como fun-
ción aleatoria W ( x ) = Z ( x ) − µ ( x ) .
1
La función γ (h) = Var Z ( x ) − Z ( x + h ) es el semivariograma que también
2
se llama función intrínseca. Representa la semivarianza para la distancia h = |h|.
Una función aleatoria intrínseca está caracterizada por su semivariograma o
por su variograma.
Toda función estacionaria de segundo orden es intrínseca, pero el recíproco no
es cierto.
Si la función aleatoria Z(X) verifica la hipótesis de estacionariedad de segundo
orden es intrínseca, y en este caso es γ ( h ) = C (0) − C (h).
Conviene observar que el semivariograma de una función aleatoria estacionaria de
segundo orden está necesariamente acotado. No todo semivariograma está acotado.
n
Porque si Z v = ∑ λi Z ( xi ) tiene que tener varianza positiva
i =1
Por tanto:
n
Y como ∑ λ j = 0 se ha de verificar que
j =1
γ(h)
h
0
634 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
γ(h)
h
0
γ(h)
m = 3/2
m=1
m = 1/2
h
0
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 635
γ(h)
15
k 10
–3 0 3 6 9 12 15 18 21
a
γ(h)
h
0 a
γ(h)
h
0 a
siendo a > 0.
γ(h)
h
0 a
para h = a.
La pendiente en el origen para este modelo es 3 k y la del modelo esférico
a
del mismo alcance es 3k .
2a
Por tanto, el semivariograma exponencial tiene mayor pendiente que el esfé-
rico en el origen, esto significa que el exponencial crece más rápidamente para va-
lores pequeños de h.
siendo a > 0.
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 639
γ(h)
h
0 a
γ(h)
h
0 a
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 641
El mínimo valor de este índice es cero, si no hay efecto pepita y el máximo valor es
1, que significa que el semivariograma es del tipo efecto pepita puro. Valores de IDE
comprendidos de 0 a 0,25 indican fuerte dependencia espacial, si 0,25 < IDE < 0,75 se
dice que hay moderada dependencia espacial y si 0,75 ≤ IDE ≤ 1 la dependencia espa-
cial de la variable es débil.
El semivariograma permite detectar la parte de la varianza de la variable
Z(x) que refleja la variación espacial.
En los semivariogramas experimentales correspondientes a variables regiona-
lizadas, especialmente si tienen soporte plano o tridimensional, puede ocurrir que se
observe anisotropía, es decir, dependencia direccional, en este caso hay que estu-
diar la variación del semivariograma en las distintas direcciones. Si el semivario-
grama es isotrópico, la variación espacial es independiente de la dirección y basta
con construir uno para observar la variabilidad espacial de la función aleatoria. Los
metales presentan isotropía, al calentarlos se produce una dilatación del metal
igual en todas las direcciones.
Hay semivariogramas que no alcanzan el valor de la meseta para una distan-
cia finita, por ejemplo los modelos gaussiano y exponencial. Para éstos, a partir de
la distancia h = a, para la constante a de la fórmula correspondiente, práctica-
mente hay independencia espacial.
A partir del semivariograma experimental y de su análisis se busca el modelo
teórico que mejor se ajuste a los valores observados. Será mejor aquel para el que
la suma de los cuadrados de los errores sea mínima. El coeficiente de determina-
ción correspondiente indica el mayor o menor grado de ajuste al modelo elegido.
Una vez calibrado o validado un modelo teórico de semivariograma a partir del ex-
perimental, se puede abordar el krigeado, que es un método de interpolación espacial.
Tipos de krigeado
El krigeado es una técnica que no se puede abordar globalmente para
cualquier variable regionalizada. Necesita información sobre la correlación es-
pacial del fenómeno objeto de estudio y sólo se tiene información en unos
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 643
䊏 El krigeado puntual tiene como objetivo la estimación del valor de una va-
riable regionalizada Z(x) en un punto x a partir de las medidas en n puntos
determinados por sus coordenadas.
Tanto los valores desconocidos z(x) de la variable Z(x) como los datos
z ( xi ) , ∀i = 1, 2,..., n son valores de la variable aleatoria regionalizada Z(X).
El krigeado puntual es un método de interpolación exacto en el sentido de
que, si se calcula la estimación para uno de los puntos observados, el valor que
proporciona coincide con el recogido y por tanto la varianza del error de estima-
ción en estos puntos es nula. Esto significa que la interpolación por krigeado es
mejor que la que se obtiene por ajuste a los datos por el método de mínimos cua-
drados
Si E ( Z ( x )) = µ ( x ) , el modelo que se considera para la función aleatoria
Z(X) es el siguiente:
( )
Es decir, la media de los errores de estimación debe ser cero: E Zˆ ( x ) − Z ( x ) = 0.
n
)
El estimador Ẑ ( x ) = µ + ∑ λ i ( Z ( xi ) − µ del krigeado simple es centrado
i=1
porque:
De este modo se reduce el problema del krigeado simple a determinar los va-
lores λ1 , λ 2 ,..., λn que minimizan la función
La condición necesaria para que la varianza del error de estimación sea mí-
nima es que sus derivadas parciales respecto de λ1 , λ 2 ,..., λn sean cero:
Derivando:
Simplificando:
Este sistema se conoce como las ecuaciones del krigeado simple y se suele
presentar en forma matricial para facilitar su solución haciendo uso del ordenador.
Las ecuaciones del krigeado simple en forma matricial son:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 647
Obsérvese que la matriz de los coeficientes del sistema tiene como elementos
( )
los valores de la Cov xi , x j ∀i, j ∈{1, 2,..., n} y es una matriz simétrica.
Resolviendo este sistema de n ecuaciones lineales, se obtienen los valores de
n
)
λ1 , λ2 ,..., λ n que determinan el estimador Ẑ ( x ) = µ + ∑ λ i ( Z ( x i ) − µ del valor
i =1
de la variable regionalizada en la localización x a partir de los valores observados.
Este método proporciona a la vez la varianza del error de estimación.
n
( )
Como se verifica que ∑ λ j Cov xi , x j = Cov ( x i , x ) , ∀i = 1, 2,..., n, la varianza
j =1
del error de estimación es:
EJEMPLO 14.15.
Se ha medido el pH del suelo en cuatro puntos en una zona en la que el valor
medio del pH es de 6,5. Las coordenadas en el mapa de la zona y el pH correspon-
diente se presentan en la siguiente tabla:
xi pH
(5, 5) 6,3
(10, 30) 7,6
(20, 25) 8
(30, 5) 4,8
−h
Sabiendo que la covarianza del pH en la zona es, Cov ( x, x + h ) = e 2 , estimar
el valor del pH en el punto de coordenadas (25, 10).
4
)
El estimador es Ẑ ( x ) = µ + ∑ λ i ( Z ( x i ) − µ siendo λi , i = 1, 2, 3, 4 la solución
i =1
del sistema matricial:
648 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Para obtener los valores de la covarianza se necesitan las distancias entre los
puntos. La distancia entre los puntos x1 de coordenadas (x1, y1) y x2 de coordenadas
(x2, y2) es d ( x1 , x 2 ) = ( x1 − x2 )2 + ( y1 − y2 )2 .
Distancias x1 x2 x3 x4
x1 0
x2 5 17 0
x3 25 5 5 0
x4 25 10 8 10 5 0
x 5 17 15 2 5 10 5 2
−h
Como Cov ( x, x + h ) = e 2 se tiene que:
Cov ( xi , x i ) = e 0 = 1 ∀i = 1, 2, 3, 4
−5 17
Cov ( x1 , x 2 ) = e 2
Calculando del mismo modo las demás covarianzas, se obtienen las ecuacio-
nes del krigeado:
EJEMPLO 14.16.
Con los datos del Ejemplo 14.15. estimar el valor del pH en el punto de coor-
denadas (15, 25) y también en el punto de coordenadas (10, 25).
1.o) Si x es el punto de coordenadas (15, 25) las ecuaciones del krigeado co-
rrespondientes son:
2.o) Para el punto de coordenadas (10, 25) las ecuaciones del krigeado son:
y su solución es: λ1 = 0, λ2 = 1, λ3 = 0, λ4 = 0.
4
)
En este caso la estimación del pH en el punto Zˆ ( x ) = 6, 5 + ∑ λ i ( Z ( xi ) − 6, 5 =
i =1
= 6, 5 + (7, 6 − 6, 5) = 7, 6 que coincide con el valor observado en ese punto.
La varianza del error de estimación σ e2 = 0.
Como se indicó en el planteamiento general, el krigeado puntual es un méto-
do de interpolación exacto.
Hay muchas funciones aleatorias, como se comentó anteriormente, en las
que no se puede aceptar la hipótesis de estacionariedad, bien porque aunque se
pueda aceptar que E ( Z ( x )) = µ, ∀x ∈G, no se conoce el valor de µ o porque la media
cambia de un punto a otro de la región E ( Z ( x )) = µ ( x ) . En estos casos no se
pueden aplicar las ecuaciones del krigeado simple.
( )
será centrado, o insesgado, si E Ẑ ( x ) = µ . Como
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 651
1.o) E ( Z ( x + h ) − Z (x)) = µ ( h ) , ∀x ∈ G.
( 2
)
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z (x)) = 2γ (h), ∀x ∈ G.
n
con la condición de que la suma de los pesos ∑ λ i = 1, condición de universalidad.
i=1
Por ello, Matheron formula las ecuaciones del krigeado ordinario, conside-
rando funciones aleatorias Z(x) que verifican las dos condiciones:
1.o) E ( Z ( x + h ) − Z (x)) = 0, ∀x ∈ G.
( 2
)
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z ( x) ) = 2γ (h), ∀x ∈G.
n
con la condición de universalidad ∑ λ i = 1 y determina los valores de λi , ∀i = 1, 2,..., n,
i =1
para los que la varianza del error de estimación sea mínima.
Para que la varianza del error de estimación sea mínima:
n n
Teniendo en cuenta que Ẑ ( x ) = ∑ λ i Z ( xi ) y que debe ser ∑ λ i = 1, se puede
i =1 i=1
expresar la varianza del error en función de la covarianza:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 653
Pero, como se explicó en el Epígrafe 14.8, para las funciones aleatorias esta-
cionarias de segundo orden, la covarianza está relacionada con el semivariograma:
o bien,
En consecuencia,
Se puede así escribir la varianza del error de estimación en función del semi-
variograma del siguiente modo:
n
Sujeta a la restricción ∑ λ i = 1.
i =1
Este problema se puede resolver utilizando los multiplicadores de Lagrange.
1.o) Se forma el Lagrangiano en el que en lugar de ν, como multiplicador de
Lagrange, aparece 2ν para simplificar el cálculo posterior. Así, se escribe:
Por tanto:
Simplificando:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 655
Este sistema se conoce como las ecuaciones del krigeado ordinario que en
forma matricial queda así:
Obsérvese que la matriz de los coeficientes del sistema tiene como elementos
en sus n primeras filas y sus n primeras columnas los valores de la función semi-
( )
variograma γ xi − x j ∀i, j ∈{1, 2,..., n} y que en la diagonal principal de esta
( )
submatriz aparecen ceros porque γ xi − x i = γ ( 0 ) = γ ( 0 ) = 0.
EJEMPLO 14.17.
De la variable regionalizada Z(x), que define una función aleatoria unidimen-
3 + h para h > 0
sional, con semivariograma teórico γ (h) = , se dan dos valores en
0 si h = 0
los puntos x1 = 0, x 2 = 4, que son Z ( x1 ) = 10, 30 y Z ( x 2 ) = 9, 70 y se quiere esti-
mar el valor de la variable en el punto x = 3, comprendido entre los anteriores.
2
El estimador es Ẑ ( x ) = ∑ λ i Z ( x i ) = λ1 Z ( x1 ) + λ2 Z ( x 2 ) siendo λ1 y λ2 la solu-
i =1
ción del sistema matricial:
2
Así, el estimador es Zˆ ( 3) = ∑ λ i Z ( xi ) = 0, 3571 ⋅ Z ( x1 ) + 0, 6429 ⋅ Z ( x 2 ) .
i =1
Y, teniendo en cuenta los valores observados en los puntos muestreados, la es-
timación del valor de la variable en el punto x = 3 es:
EJEMPLO 14.18.
La variable regionalizada Z(x) representa la cota sobre el nivel del mar. Se conoce la
cota en metros para tres localizaciones dadas por las coordenadas, también medidas en
metros, desde un punto de referencia. Los datos se presentan en la siguiente tabla:
Z(x) = Z((x, y))
x en metros y en metros
Cota en metros
20 10 525
30 20 640
35 15 510
3
El estimador es Zˆ ( x ) = ∑ λ i Z ( xi ) .
i =1
Para calcular las ponderaciones λi, para i = 1,2,3 hay que resolver las ecua-
ciones del krigeado:
Se necesitan para las matrices del sistema los valores del semivariograma y,
para determinarlos, hay que calcular en primer lugar los módulos de los vectores
correspondientes:
Análogamente, se calculan:
658 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
La solución es:
De donde
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 659
Es decir,
De ahí que:
Las ecuaciones del krigeado ordinario para variables regionalizadas Z(x) que
tienen como soporte una región del espacio tridimensional son las mismas que las
utilizadas en las dimensiones 1 y 2. Para el cálculo de la distancia entre las loca-
lizaciones, que es la distancia euclídea, se usa la fórmula:
Variable regularizada
Dada una variable regionalizada Z(x), la variable regularizada Z R(x) es la va-
riable cuyos valores son los valores medios de Z(x) en la región R y se define por
Semivariograma regularizado
Dada una variable regionalizada Z(x) estacionaria de segundo orden y con se-
mivariograma:
siendo:
η 2j , j = 1 los pesos asociados a los puntos del bloque B2 con la condición de que
n2
∑ η 2j = 1.
j =1
Para aquellas variables regionalizadas para las que un valor puntual puede ser
poco representativo del fenómeno, se utilizan valores medios de la variable re-
gionalizada en una zona o bloque que puede ser un segmento, un área plana o un
volumen, según se trabaje en dimensión 1, 2 ó 3.
Para estimar el valor de la variable en un bloque a partir de observaciones
puntuales, hay que trabajar con variables y semivariogramas regularizados.
El método de krigeado para variables regularizadas se conoce como krigeado
por bloques.
n
Para minimizar σ 2e, sujeta a la restricción ∑ λ i = 1, se utiliza el Lagrangiano:
i =1
Éstas son las ecuaciones del krigeado por bloques que permiten estimar la
media de n observaciones puntuales de la variable regionalizada.
En forma matricial son las siguientes:
La matriz de los coeficientes del sistema tiene como elementos en sus n pri-
meras filas y sus n primeras columnas los valores de la función semivariograma
( )
γ xi , x j ∀i, j ∈{1, 2,..., n} para la variable Z(x) y en la matriz del segundo
miembro aparecen los valores del semivariograma regularizado de la variable Z(x)
entre el punto y el bloque B.
Resolviendo este sistema de n + 1 ecuaciones lineales, se obtienen los valores
de λ1 , λ2 ,..., λ n que determinan para el punto x el valor del estimador
n
Ẑβ ( B) = ∑ λ i Z ( xi ) a partir de los valores observados.
i =1
n
utiliza el estimador Ẑβ ( B) = ∑ λ i Z ( Bi ) con la condición de universalidad
i =1
n
∑ λ i = 1. En este caso, las ecuaciones del krigeado por bloques tendrían la forma:
i=1
Observación:
Las ecuaciones del krigeado por bloques si se limitan a bloques puntuales, esto es,
si cada bloque es un solo punto conducen a las ecuaciones del krigeado ordinario, te-
niendo en cuenta que si el bloque Bi se reduce al punto xi y el bloque B es el punto x,
( ) ( )
entonces γ Bi , B j = γ xi , x j , γ ( Bi , Bi ) = γ ( x i , xi ) = 0, γ ( xi , B) = γ ( x i , x ) y
γ ( B, B) = γ ( x, x ) = 0.
La varianza del error de estimación quedaría reducida a:
EJEMPLO 14.19.
En una primera aproximación de batimetría en un lago se mide la profundidad
en la dirección lineal N-S. En la siguiente tabla se recogen los resultados obtenidos
a tres distancias y la profundidad media entre los puntos de esa dirección situados
entre 50 y 100 metros de la orilla Norte:
Si se designa por B el intervalo [0, 100] se pide calcular el valor del estimador
En primer lugar hay que calcular los valores del semivariograma regularizado:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 667
se necesita el valor de γ ( B, B) .
668 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Sustituyendo, se tiene:
EJEMPLO 14.20.
Con los datos del Ejemplo 14.19. y aceptando que el calado medio en el intervalo de
0 a 100 metros de la orilla Norte sigue una distribución normal, dar un intervalo con con-
fianza del 95% para el calado medio en dicho intervalo.
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 669
20
555
580
16 580
530
14 555
555
12
10
20 22 24 26 28 30 32 34
600
550 34
32
20 30
18 28
16 26
14 24
12 22
10 20
0 1 2 3 4
(x10.000)
Tetracloroetileno en ppb
0 2 4 6 8 10 12
In TCE
El siguiente paso consiste en crear una red sobre el mapa de la zona. La matriz
de datos no es visible, pero la utiliza el programa para estimar los valores de la va-
riable a partir de los datos proporcionados. Para ello se abre una hoja de dibujo
con la opción:
Window → Plot1
A continuación se elige en el menú de dibujo la opción:
Grid → Data
y se busca el archivo guardado que contiene los datos.
En el cuadro de diálogo que aparece se pueden cambiar los extremos mínimo
y máximo de los ejes. Una vez elegidos los valores de los extremos pulsando en el
cuadro OK, el programa crea el archivo con los datos de la red y las estimaciones
que utilizará para dibujar todas las gráficas.
Así, con la opción:
Map → Contour Map → New Contour Map
para datos del nivel piezométrico de un acuífero se ha obtenido como resultado la
siguiente gráfica:
35
30 620
25
20
620
15
10
520
5
0
0 5 10 15 20 25 30 35 40 45 50
700
600
50
500 45
40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
Mediante la opción
Map → Surface → Open Gris
y abriendo el archivo que ha construido el programa a partir de los datos introduci-
dos y de las estimaciones de la variable objeto de estudio, para todos los puntos de
la red dibujada en el plano de la región, se obtiene una superficie suave y en escala
de color, de la que se incluye a continuación una copia en escala de grises.
700
600 50
500 45
35 40
30 35
30
25
25
20
20
15
15
10 10
5 5
0 0
EJEMPLO 14.21.
Utilizando los datos de los Ejemplos 14.11. y 14.12. para los logaritmos nepe-
rianos de la concentración en ppb de tetracloroetileno en el agua de un acuífero, con
el programa SURFER, se obtiene el siguiente resumen estadístico:
xi yi ln (z(xi, yi))
Number of values 51 51 51
Minimum 0 0 2,4
Maximum 30 5 10.43
Range 30 5 8,03
Como el valor del estadístico de contraste 0,088 es menor que el valor crítico
para α = 0,10, es decir, no pertenece a la región crítica RCα=0,10 = [0,168,+⬁], se
acepta la normalidad de los datos.
El mapa de curvas de nivel para los logaritmos neperianos de la concentración
de TCE en el agua del acuífero es:
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 675
10
9 4
5
9
4
0
4
–5
–5 0 5 10 15 20 25 30 35
35
10 30
25
20
0
15
10 10
5 5
0 0
–5 –5
35
10 30
25
0 20
10 15
10
5
5
0
0
–5 –5
676 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
14.22.3. En una ciudad sólo hay dos grandes aparcamientos, A1 en las proximidades del
centro comercial y A2 en las afueras. La zona comercial está abierta las veinticuatro ho-
ras del día. Los coches no se pueden dejar en la calle. Cada día a las 8.00 h los coches
de A2 salen hacia el centro comercial y los de A1 hacia las afueras, y a las 20.00 h los que
están en A1 van a A2 y recíprocamente. Sólo se producen movimientos cada doce horas.
a) Dar la matriz de transición de la Cadena de Markov que describe la situación.
b) ¿Esta matriz tiene vector fijo?, ¿qué significa?
c) ¿Tiene distribución estable la cadena? Razónese.
E T P
a) Un fallo en un mes.
b) Menos de dos fallos en el mes.
c) Al menos dos fallos en el mes.
a) siete
b) cinco
c) seis
d) al menos una y no más de tres
e) al menos dos
f) como máximo cinco
g) más de cinco.
14.22.8. Una nueva marca promociona un yogur desnatado y enriquecido con trozos
visibles de frutas tropicales. La media de trozos de fruta por yogur es de 3,5. Calcu-
lar la probabilidad de que uno de esos yogures
14.22.9. En una gran plantación se observa una plaga que afecta a una media de 0,2
plantas por área. Calcular la probabilidad de que en una hectárea estén afectadas:
a) diecinueve plantas
b) ninguna
c) al menos 20.
14.22.12. Se conocen los siguientes valores de la función aleatoria Z (X) con soporte
lineal:
xi Z(xi)
2 25
3 53
5 34
9 47
10 51
14.22.13. Se conoce el valor en dos puntos de una variable regionalizada Z(x) que
define una función aleatoria unidimensional, con semivariograma teórico corres-
pondiente:
0, 24 h para h ≤ 5
γ (h ) =
1,2 si h > 5
14.22.15. La función aleatoria intrínseca Z(X) tiene soporte lineal, está definida en el
h
intervalo [10 m, 20 m] y su semivariograma teórico es: γ ( h ) = , ∀h ≥ 0. Estimar el
2
valor de la variable para x = 17 m y dar la varianza del error de estimación.
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 681
h h 3
15 3 − si 0 ≤ h ≤ 10
γ ( h ) = 10 10
30 si h > 10
14.22.18. Estimar el valor de la función aleatoria intrínseca Z(X) sin deriva en el seg-
mento [3,4] sabiendo que Z (1) = 37; Z ( 2) = 40; Z ( 3) = 43 y Z ( 4 ) = 59 y que el se-
mivariograma teórico de Z(x) es γ ( h ) = h, ∀h ≥ 0.
14.22.19. Estimar el valor de la función aleatoria intrínseca y sin deriva del ejercicio
anterior si el semivariograma teórico de Z(x) es γ ( h ) = 1, ∀h ≥ 0. ¿Hay diferencia
con el resultado del problema anterior?
F(z)
0 z
z 1 − z2 / 2
La tabla da el valor de F( z ) = ∫ e dz , función de distribución de la N(0,1)
−`
2π
para los valores 0 ≤ z ≤ 3,59. Así F(1,15) = 0,8749. Por la simetría de f(z) respecto del eje de
ordenadas también se puede utilizar la tabla para calcular probabilidades de los valores
−3, 59 ≤ z < 0, así F (−2, 21) = P ( Z < −2, 21) = P ( Z > 2, 21) = 1 − 0, 9864 = 0, 01336.
z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8116 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
686 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
χ2n
P(χ2n ≤ χ2α;n)
0 χ2α;n
) )
Así, χα2 =0,05;n =17 = 27, 587, es decir, P ( χ172 ≤ 27, 587 = 0, 95 ⇔ P ( χ172 > 27, 587 = 0, 05.
El valor χα2 =0,99;n=1 = 157 E − 06 = 0, 000157 es el valor que verifica:
1-α
n 0,005 0,01 0,025 0,05 0,10 0,50 0,90 0,95 0,975 0,99 0,995
1 393E-07 157E-06 982E-06 393E-05 158E-04 0,455 2,706 3,841 5,024 6,635 7,879
2 0,0100 0,0201 0,0506 0,103 0,211 1,386 4,605 5,991 7,378 9,210 10,597
3 0,0717 0,115 0,216 0,352 0,584 2,366 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 3,357 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 4,351 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 5,348 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 6,346 12,017 14,067 16,013 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 7,344 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 8,343 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 9,342 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 10,341 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 11,340 18,549 21,026 23,337 26,217 28,300
13 3,565 4,107 5,009 5,892 7,042 12,340 19,812 22,362 24,736 27,688 29,619
14 4,075 4,660 5,629 6,571 7,790 13,339 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 14,339 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 15,338 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 16,338 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 17,338 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 18,338 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 19,337 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 20,337 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 21,337 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,688 13,091 14,848 22,337 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 23,337 33,196 36,415 39,364 42,980 45,558
25 10,520 11,524 13,120 14,611 16,473 24,337 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 25,336 35,563 38,885 41,923 45,642 48,290
27 11,808 12,879 14,573 16,151 18,114 26,336 36,741 40,113 43,194 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 27,336 37,916 41,337 44,461 48,278 50,993
29 13,121 14,256 16,047 17,708 19,768 28,336 39,087 42,557 45,722 49,588 52,336
30 13,787 14,953 16,791 18,493 20,599 29,336 40,256 43,773 46,979 50,892 53,672
40 20,706 22,164 24,433 26,509 29,051 39,335 51,805 55,759 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 49,335 63,167 67,505 71,420 76,154 79,490
60 35,535 37,485 40,482 43,188 46,459 59,335 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 69,334 85,527 90,531 95,023 100,425 104,215
80 51,171 53,539 57,153 60,391 64,278 79,334 96,578 101,880 106,629 112,329 116,321
90 59,196 61,754 65,646 69,126 73,291 89,334 107,565 113,145 118,136 124,116 128,299
100 67,327 70,065 74,222 77,929 82,358 99,334 118,498 124,342 129,561 135,807 140,170
APÉNDICE I 687
tn
P(t ≤ tα;n)
0 tα;n
1-α
n 0,600 0,700 0,750 0,800 0,900 0,950 0,975 0,990 0,995 0,999 0,9995
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 1,337 1,746 2,120 2,583 2,921 3,686 4,015
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
30 0,256 0,530 0,683 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
40 0,255 0,529 0,681 0,851 1,303 1,684 2,021 2,423 2,704 3,307 3,551
50 0,255 0,528 0,679 0,849 1,298 1,676 2,009 2,403 2,678 3,262 3,495
60 0,254 0,527 0,679 0,848 1,296 1,671 2,000 2,390 2,660 3,232 3,460
80 0,254 0,527 0,678 0,846 1,292 1,664 1,990 2,374 2,639 3,195 3,415
100 0,254 0,526 0,677 0,845 1,290 1,660 1,984 2,365 2,626 3,174 3,389
200 0,254 0,525 0,676 0,843 1,286 1,653 1,972 2,345 2,601 3,131 3,339
500 0,253 0,525 0,675 0,842 1,283 1,648 1,965 2,334 2,586 3,106 3,310
n > 500 0,253 0,524 0,674 0,842 1,282 1,645 1,960 2,326 2,576 3,090 3,291
Tabla IV. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
688
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
La siguiente tabla proporciona el valor de F
n , n ; α = 0,05
1 2
1 2 1 2
(
que deja a su izquierda probabilidad P F[ n ,n ] ≤ F[ n ,n ];α =0,05 = 1 − 0, 05 = 0, 95 )
para distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
( ) (
Así, F[15,13];α =0.05 = 2, 53, es decir, P F[13,15] ≤ 2, 53 = 0, 95 ⇔ P F[13,15] > 2, 53 = 0, 05. )
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 246,0 248,0 250,1 251,1 251,8 252,2 253,3 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,46 19,47 19,48 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,62 8,59 8,58 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,75 5,72 5,70 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,50 4,46 4,44 4,43 4,40 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,81 3,77 3,75 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,38 3,34 3,32 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,08 3,04 3,02 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,86 2,83 2,80 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,70 2,66 2,64 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,57 2,53 2,51 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,47 2,43 2,40 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,38 2,34 2,31 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,31 2,27 2,24 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,25 2,20 2,18 2,16 2,11 2,07
ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,19 2,15 2,12 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,15 2,10 2,08 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,11 2,06 2,04 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,07 2,03 2,00 1,98 1,95 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,04 1,99 1,97 1,95 1,90 1,84
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,84 1,79 1,76 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,74 1,69 1,66 1,64 1,58 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,69 1,63 1,60 1,58 1,51 1,44
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,65 1,59 1,56 1,53 1,47 1,30
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,55 1,50 1,46 1,43 1,35 1,25
⬁ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,46 1,39 1,35 1,32 1,22 1,00
Tabla V. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
(
La siguiente tabla proporciona el valor de Fn1,n2 ;α = 0,01 que deja a su izquierda probabilidad P F[ n1 ,n2 ] ≤ F[ n1, n2 ];α =0,01 = 1 − 0, 01 = 0, 99 para )
distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
3 , 17 3 , 17
Así, F[ 3,17];α =0,01 = 5, 18, es decir, P ( F[ ] ≤ 5, 18 ) = 0 , 99 ⇔ P ( F[ ] > 5, 18) = 0, 01.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 4.052 4.999 5.403 5.625 5.764 5.859 5.928 5.981 6.022 6.056 6.083 6.106 6.157 6.209 6.261 6.287 6.302 6.313 6.339 6.366
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,41 99,42 99,43 99,45 99,47 99,47 99,48 99,48 99,49 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,13 27,05 26,87 26,69 26,50 26,41 26,35 26,32 26,22 26,13
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,20 14,02 13,84 13,75 13,69 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,72 9,55 9,38 9,29 9,24 9,20 9,11 9,02
APÉNDICE I
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,56 7,40 7,23 7,14 7,09 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,31 6,16 5,99 5,91 5,86 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,52 5,36 5,20 5,12 5,07 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 4,96 4,81 4,65 4,57 4,52 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,56 4,41 4,25 4,17 4,12 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,25 4,10 3,94 3,86 3,81 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,01 3,86 3,70 3,62 3,57 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,82 3,66 3,51 3,43 3,38 3,34 3,25 3,17
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,66 3,51 3,35 3,27 3,22 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,52 3,37 3,21 3,13 3,08 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,41 3,26 3,10 3,02 2,97 2,93 2,84 2,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,31 3,16 3,00 2,92 2,87 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,23 3,08 2,92 2,84 2,78 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,15 3,00 2,84 2,76 2,71 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,09 2,94 2,78 2,69 2,64 2,61 2,52 2,42
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,70 2,55 2,39 2,30 2,25 2,21 2,11 2,01
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,52 2,37 2,20 2,11 2,06 2,02 1,92 1,80
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,42 2,27 2,10 2,01 1,95 1,92 1,81 1,68
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,35 2,20 2,03 1,94 1,88 1,84 1,73 1,60
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,41 2,34 2,19 2,03 1,86 1,76 1,71 1,66 1,53 1,35
689
⬁ 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,18 2,04 1,88 1,70 1,59 1,52 1,47 1,32 1,00
Tabla VI. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
690
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
(
La siguiente tabla proporciona el valor de Fn1,n2 ;α = 0,025 que deja a su izquierda probabilidad P F[ n ,n ] ≤ F[ n ,n ];α =0, 025 = 1 − 0, 025 = 0, 975
1 2 1 2
)
para distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
4 ,1 4 ,1
Así, F[1,4 ];α = 0,025 = 12, 22, es decir, P ( F[ ] ≤ 12, 22 ) = 0, 975 ⇔ P ( F[ ] > 12, 22 ) = 0, 025.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6 972,6 976,7 984,9 993,1 1.001,0 1.006,0 1.008,0 1.010,0 1.014,0 1.018,0
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,40 39,41 39,43 39,45 39,46 39,47 39,50 39,48 39,49 39,50
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,38 14,34 14,25 14,17 14,08 14,04 14,00 13,99 13,95 13,90
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,79 8,75 8,66 8,56 8,46 8,41 8,38 8,36 8,31 8,26
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,57 6,52 6,43 6,33 6,23 6,18 6,14 6,12 6,07 6,02
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,41 5,37 5,27 5,17 5,07 5,01 4,98 4,96 4,90 4,85
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,71 4,67 4,57 4,47 4,36 4,31 4,28 4,25 4,20 4,14
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,24 4,20 4,10 4,00 3,89 3,84 3,81 3,78 3,73 3,67
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,91 3,87 3,77 3,67 3,56 3,51 3,47 3,45 3,39 3,33
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,66 3,62 3,52 3,42 3,31 3,26 3,22 3,20 3,14 3,08
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,47 3,43 3,33 3,23 3,12 3,06 3,03 3,00 3,94 2,88
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,32 3,28 3,18 3,07 2,96 2,91 2,87 2,85 2,79 2,72
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,20 3,15 3,05 2,95 2,84 2,78 2,75 2,72 2,66 2,60
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,10 3,05 2,95 2,84 2,73 2,67 2,64 2,61 2,55 2,49
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 3,01 2,96 2,86 2,76 2,64 2,59 2,56 2,52 2,46 2,40
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,94 2,89 2,79 2,68 2,57 2,51 2,48 2,45 2,38 2,32
ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,87 2,82 2,72 2,62 2,50 2,44 2,41 2,38 2,32 2,25
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,82 2,77 2,67 2,56 2,44 2,38 2,35 2,32 2,26 2,19
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,77 2,72 2,62 2,51 2,39 2,33 2,30 2,27 2,20 2,13
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,72 2,68 2,57 2,46 2,35 2,29 2,25 2,22 2,16 2,09
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,46 2,41 2,31 2,20 2,07 2,01 1,97 1,94 1,87 1,79
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,34 2,29 2,18 2,07 1,94 1,88 1,83 1,80 1,72 1,64
50 5,36 3,99 3,40 3,07 2,85 2,69 2,57 2,47 2,39 2,33 2,28 2,23 2,12 2,01 1,88 1,81 1,77 1,74 1,65 1,56
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,22 2,17 2,06 1,94 1,82 1,74 1,70 1,67 1,58 1,48
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,11 2,05 1,94 1,82 1,69 1,61 1,57 1,53 1,43 1,31
⬁ 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 2,00 1,94 1,83 1,71 1,57 1,48 1,44 1,39 1,27 1,00
Tabla VII. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
La siguiente tabla proporciona el valor de F[ n1,n2 ];α =0,005 que deja a su izquierda probabilidad P ( F[ n ,n ] ≤ F[ n , n ];α =0 ,005 ) = 1 − 0, 005 = 0, 995 para
1 2 1 2
distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
Así, F[ 2,15];α = 0, 005 = 7, 70, es decir, P ( F[ 2,15] ≤ 7, 70 ) = 0, 995 ⇔ P ( F[ 2,15] > 7, 70 ) = 0, 005.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 16.211 20.000 21.615 22.500 23.056 23.437 23.715 23.925 24.091 24.224 24.325 24.426 24.630 24.836 25.044 25.148 25.201 25.253 25.359 25.465
2 198,5 199,0 199,2 199,2 199,3 199,3 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,5 199,5 199,5 199,5 199,5 199,5
3 55,55 49,80 47,47 46,19 45,39 44,84 44,43 44,13 43,88 43,69 43,54 43,39 43,08 42,78 42,47 42,31 42,23 42,15 41,99 41,83
4 31,33 26,28 24,26 23,15 22,46 21,97 21,62 21,35 21,14 20,97 20,84 20,70 20,44 20,17 19,89 19,75 19,68 19,61 19,47 19,32
5 22,78 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77 13,62 13,50 13,38 13,15 12,90 12,66 12,53 12,47 12,40 12,27 12,14
APÉNDICE I
6 18,63 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39 10,25 10,14 10,03 9,81 9,59 9,36 9,24 9,18 9,12 9,00 8,88
7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51 8,38 8,28 8,18 7,97 7,75 7,53 7,42 7,36 7,31 7,19 7,08
8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 7,11 7,01 6,81 6,61 6,40 6,29 6,23 6,18 6,06 5,95
9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,33 6,23 6,03 5,83 5,62 5,52 5,46 5,41 5,30 5,19
10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,75 5,66 5,47 5,27 5,07 4,97 4,91 4,86 4,75 4,64
11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,32 5,24 5,05 4,86 4,65 4,55 4,49 4,44 4,34 4,23
12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,99 4,91 4,72 4,53 4,33 4,23 4,17 4,12 4,01 3,90
13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,73 4,64 4,46 4,27 4,07 3,97 3,92 3,87 3,76 3,65
14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,52 4,43 4,25 4,06 3,86 3,76 3,71 3,66 3,55 3,44
15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,33 4,25 4,07 3,88 3,69 3,58 3,52 3,48 3,37 3,26
16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 4,19 4,10 3,92 3,73 3,54 3,44 3,38 3,33 3,22 3,11
17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 4,06 3,97 3,79 3,61 3,41 3,31 3,26 3,21 3,10 2,98
18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,95 3,86 3,68 3,50 3,30 3,20 3,15 3,10 2,99 2,87
19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,85 3,76 3,59 3,40 3,21 3,11 3,05 3,00 2,89 2,78
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,76 3,68 3,50 3,32 3,12 3,02 2,96 2,92 2,81 2,69
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,25 3,18 3,01 2,82 2,63 2,52 2,46 2,42 2,30 2,18
40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 3,03 2,95 2,78 2,60 2,40 2,30 2,23 2,18 2,06 1,93
50 8,66 5,93 4,85 4,25 3,87 3,59 3,39 3,24 3,11 3,01 2,92 2,84 2,67 2,49 2,29 2,18 2,12 2,07 1,94 1,80
60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,82 2,74 2,57 2,39 2,19 2,08 2,01 1,96 1,83 1,69
120 8,18 5,54 4,50 3,92 3,55 3,28 3,09 2,93 2,81 2,71 2,62 2,54 2,37 2,19 1,98 1,87 1,80 1,75 1,61 1,43
691
⬁ 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,44 2,36 2,19 2,00 1,79 1,67 1,59 1,53 1,36 1,00
692 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
51 55 88 69 58 28 99 35 07 44 75 41 93 22 53 64 39 07 10 63 76 35 87 03 04
79 88 08 13 85 34 57 72 69 78 13 58 54 74 92 38 70 96 92 52 06 79 85 45 82
63 18 44 69 66 09 23 68 35 01 26 00 99 53 93 61 28 52 70 05 48 34 56 65 05
61 86 90 92 10 70 15 39 25 70 99 93 86 52 77 65 15 33 59 05 28 22 87 26 07
47 86 96 98 29 06 58 71 96 30 24 18 46 23 34 27 85 13 24 44 49 18 09 79 49
74 39 60 59 81 48 50 86 54 48 22 06 34 72 52 82 21 15 65 20 33 29 71 11 15
91 29 12 03 61 96 48 95 03 07 16 66 98 56 79 77 21 30 27 12 90 49 22 23 62
36 93 89 41 26 29 70 83 51 99 74 20 52 36 87 09 41 15 09 98 60 16 03 18 87
00 42 31 57 90 12 02 07 15 23 47 37 17 31 54 08 01 88 63 39 41 88 92 10 88
56 53 27 59 33 35 72 67 47 77 34 45 70 08 18 27 38 90 16 75 09 72 95 84 29
49 41 31 06 70 42 18 64 84 73 31 65 52 53 37 97 15 12 03 17 31 65 19 69 24
64 51 12 85 94 57 24 16 92 09 84 38 76 22 00 27 69 85 29 81 94 78 70 21 90
12 38 59 98 67 62 44 72 00 41 86 79 63 22 55 40 76 26 84 57 32 08 58 37 40
13 64 81 07 83 02 17 79 28 14 22 40 98 95 17 82 06 53 31 51 72 51 39 35 76
22 42 96 40 90 60 73 96 53 97 86 26 29 13 15 38 26 61 77 80 20 75 82 72 82
32 63 95 73 89 73 44 99 05 18 77 31 91 58 24 16 74 11 53 44 10 13 85 57 61
65 61 88 54 93 43 69 64 07 34 04 35 56 27 09 24 86 61 85 53 83 45 12 99 11
18 48 13 93 55 34 91 97 27 37 83 28 71 67 11 52 97 86 21 78 58 76 17 80 69
92 06 34 13 59 71 74 17 32 27 55 56 33 53 77 57 68 93 22 03 91 87 14 77 43
96 45 60 33 01 07 17 21 85 93 85 86 88 72 87 08 62 40 53 10 07 02 90 80 44
92 21 46 88 67 63 93 95 17 80 35 73 53 38 18 15 89 79 54 30 12 73 86 74 51
69 89 74 39 82 15 94 51 41 67 98 83 71 94 22 52 08 52 85 87 06 65 31 91 51
44 10 58 21 66 72 84 29 31 98 84 06 59 73 98 23 65 09 29 75 63 47 56 10 08
88 84 27 83 42 29 72 23 19 66 56 45 65 79 20 71 53 20 25 22 85 61 64 02 64
12 95 44 91 06 01 82 77 45 12 67 43 93 12 83 41 16 25 25 89 67 07 02 40 05
23 53 43 37 15 26 27 62 50 96 72 79 46 14 05 14 53 40 65 39 73 85 28 90 34
25 33 78 88 75 62 17 11 69 84 63 22 32 98 65 87 08 13 63 04 23 54 57 91 13
52 19 94 30 94 65 42 86 28 55 80 74 00 55 98 78 10 70 49 20 95 46 53 15 32
APÉNDICE I 693
La tabla proporciona los valores de Hα ;[ k ,n−1] que dejan a la izquierda probabilidad 1-α,
esto es, P ( H ≤ Hα ;[ k , n−1] ) = 1 − α ⇔ P ( H > Hα ;[ k ,n−1] ) = α para distintos valores de k y de n-1, los
grados de libertad, siendo n el número de observaciones, fijo en los k niveles.
Los valores para α = 0,05 están en la parte superior de las casillas y para α = 0,01 en
la parte inferior
( )
Así, Hα = 0,05;[ k =9,n−1=7] = 13, 5, es decir, P Hα = 0,05; k =9,n−1= 7 > 13, 5 = 0, 05.
[ ]
(
El valor Hα = 0,01;[ k =9,n−1= 7] = 23 significa que P Hα =0,01;[ k =9,n−1=7] > 23 = 0, 01. )
k 2 3 4 5 6 7 8 9 10 11 12
n-1
α = 0,05 39,0 87,5 142 202 266 333 403 475 550 626 704
2
α = 0,01 199 448 729 1036 1362 1705 2063 2432 2813 3204 3605
α = 0,05 15,4 27,8 39,2 50,7 62,0 72,9 83,5 93,9 104 114 124
3
α = 0,011 47,5 85 120 151 184 21(6) 24(9) 28(1) 31(0) 33(7) 36(1)
α = 0,05 9,60 15,5 20,6 25,2 29,5 33,6 37,5 41,1 44,6 48,0 51,4
4
α = 0,01 23,2 37 49 59 69 79 89 97 106 113 120
α = 0,05 7,15 10,8 13,7 16,3 18,7 20,8 22,9 24,7 26,5 28,2 29,9
5
α = 0,01 14,9 22 28 33 38 42 46 50 54 57 60
α = 0,05 5,82 8,38 10,4 12,1 13,7 15,0 16,3 17,5 18,6 19,7 20,7
6
α = 0,01 11,1 15,5 19,1 22 25 27 30 32 34 36 37
α = 0,05 4,99 6,94 8,44 9,70 10,8 11,8 12,7 13,5 14,3 15,1 15,8
7
α = 0,01 8,89 12,1 14,5 16,5 18,4 20 22 23 24 26 27
α = 0,05 4,43 6,00 7,18 8,12 9,03 9,78 10,5 11,1 11,7 12,2 12,7
8
α = 0,01 7,50 9,9 11,7 13,2 14,5 15,8 16,9 17,9 18,9 19,8 21
α = 0,05 4,03 5,34 6,31 7,11 7,80 8,41 8,95 9,45 9,91 10,3 10,7
9
α = 0,01 6,54 8,5 9,9 11,1 12,1 13,1 13,9 14,7 15,3 16,0 16,6
α = 0,05 3,72 4,85 5,67 6,34 6,92 7,42 7,87 8,28 8,66 9,01 9,34
10
α = 0,01 5,85 7,4 8,6 9,6 10,4 11,1 11,8 12,4 12,9 13,4 13,9
α = 0,05 3,28 4,16 4,79 5,30 5,72 6,09 6,42 6,72 7,00 7,25 7,48
12
α = 0,01 4,91 6,1 6,9 7,6 8,2 8,7 9,1 9,5 9,9 10,2 10,6
α = 0,05 2,86 3,54 4,01 4,37 4,68 4,95 5,19 5,40 5,59 5,77 5,93
15
α = 0,01 4,07 4,9 5,5 6,0 6,4 6,7 7,1 7,3 7,5 7,8 8,0
α = 0,05 2,46 2,95 3,29 3,54 3,76 3,94 4,10 4,24 4,37 4,49 4,59
20
α = 0,01 3,32 3,8 4,3 4,6 4,9 5,1 5,3 5,5 5,6 5,8 5,9
α = 0,05 2,07 2,40 2,61 2,78 2,91 3,02 3,12 3,21 3,29 3,36 3,39
30
α = 0,01 2,63 3,0 3,3 3,4 3,6 3,7 3,8 3,9 4,0 4,1 4,2
α = 0,05 1,67 1,85 1,96 2,04 2,11 2,17 2,22 2,26 2,30 2,33 2,36
60
α = 0,01 1,96 2,2 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,7
α = 0,05 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
⬁
α = 0,01 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
1
Los números de esta fila que tienen la cifra de las unidades entre paréntesis indican que pueden tener
error de una o más unidades en esa cifra.
694 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Deshaciendo el cambio
c)
Por tanto, el 8% de los tiempos de atención son inferiores o iguales a un
minuto.
2.9.2. Se verifica
2.9.3. x . 49, 2593; Me = 48; Mo = 42, 5. Hay una ligera asimetría hacia la iz-
quierda porque la mediana es menor que la media.
2.9.4.
Se verifica ma ≤ mg ≤ x ≤ mc .
2.9.5. Esta distribución es trimodal, las modas son 2,2, 5,5 y 8,2857 ⯝ 8,29. Esta
clase no es homogénea en cuanto a los resultados de este examen.
697
698 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2.9.6. 72 km/h.
2.9.9. La media de esa muestra no es la media aritmética de las tres medias, es la me-
dia aritmética ponderada, tomando como pesos los tamaños de cada muestra, es decir,
2.9.10. 131,2%.
c) Como los tres tienen la misma media es más regular el que tiene menor
desviación típica. Por tanto, el primero presenta mayor regularidad.
2.9.15. a)
Histograma
10
8
Frecuencia
0
20 30 40 50 60
Diámetros
2.9.16.
c) Dm = 16, 96;
d) Sx = 21, 07;
e) CV = 0, 4079 = 40, 79%;
f) g1 = –0,6294, distribución asimétrica hacia la izquierda y g2 = – 0,4386,
platicúrtica.
3.10.3. No, porque los coeficientes de regresión de ambas rectas tienen el mismo sig-
no que la covarianza de las variables y si éstas fueran las dos rectas de regresión una
tendría coeficiente de regresión positivo y el otro negativo.
Sxy 624
3.10.4. No son compatibles porque tendría que ser r 2 = 2 2 = . 0, 7959 y
Sx Sy 16 ⋅ 49
también r 2 = 0, 882 = 0, 7744.
8
3.10.8. a) 158; b) 134; c) 52; d) . 0, 0833;
96
e) x = 6, 66; Sx = 1, 7971; y = 6, 194; Sy = 2, 5529;
f) Tienen mayor dispersión las notas de estadística porque
3.10.9. a) No es posible determinar una relación funcional entre estas dos varia-
bles, pero designando por x la temperatura media en grados centígrados y
por y el número de helados vendidos en la semana, la ecuación de la recta
de regresión de y sobre x es: y = 30, 68 x − 265, 62, que expresa una depen-
dencia estocástica entre ambas variables.
b) Una medida del grado de asociación entre las variables la proporciona el coe-
ficiente de determinación r 2 . 0, 8139. Indica que el 81,39% de la cantidad
de helados vendidos viene explicado por la temperatura media de la semana.
c) ( yˆ )
x =23 º C
. 440 helados.
d) La temperatura de 5 °C está muy alejada de los valores recogidos en la ta-
bla, y por tanto no se puede utilizar la recta de regresión ajustada a la nube
de puntos para dar la información.
y
1-10 10-20 20-30 30-40 40-50
x
2.000-2.500 20 6 14 8 1 n3. = 49
702 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
y
10-20
x
1.000-1.500 40
1.500-2.000 17
2.000-2.500 6
n.2 = 63
3.10.11. a)
b) Como el coeficiente de correlación lineal es alto, existe dependencia li-
neal entre el gasto en los dos meses.
c)
d)
e)
f)
3.10.14. a)
b) c)
d) r 2 = 0, 6913; r = 0, 8315, la correlación entre las variables es muy alta,
es bueno el ajuste.
3.10.20. La curva ajustada a los datos de la tabla es: n = 2, 5149 ⋅ e 0.3581t y el ajuste es
bueno porque el coeficiente de correlación entre las variables t y ln n es r = 0,9934.
( )
4.12.3. P ( S ) = 1 − P S = 1 − 0, 0014 = 0, 9986.
4.12.7. a) P ( S1 ) = 10 −5 ; b ) P ( S2 ) = 3, 3 ⋅ 10 −5 no es la misma.
4.12.13. P( R) = P( M ∪ F ) = 6 . 0, 8571.
7
4.12.14. a) P ( A ) = 0, 0003; b ) P ( A ) = 0, 3; c ) P ( A ) = 0, 0006; d ) P ( A ) = 0, 2500.
7
4.12.18. P ( S ) = .
33
4.12.19. a) A ∪ B; b ) A ∪ B = A ∩ B; c ) S1 ∪ S3 .
( )
c ) P Ro = 0, 48.
V365,15
( )
4.12.22. a) P(S) = 1 − P S = 1 −
VR365,15
= 1 − 0, 7417 = 0, 2529;
V
( )
b) P(S) = 1 − P S = 1 − 365,25 = 1 − 0, 4313 = 0, 5687.
VR365,25
706 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
( )
c ) P ( S ) = 1 − P S = 0, 0005.
4.12.25. No, el que apuesta a obtener cara antes del vigésimo lanzamiento tiene pro-
babilidad de acertar 0,9995, gana pues casi con seguridad.
4.12.28. 0,4889.
4.12.29. 0,475.
4.12.30. a) Designando por Ti que funcione la toma i, el conjunto de todas las si-
{
tuaciones posibles es el espacio muestral: E = T1 ∩ T 2, T 1 ∩ T 2, T1 ∩ T 2, T1 ∩ T 2 }
( ) ( ) (
P ( T1 ∩ T 2 ) = 0, 81; P T1 ∩ T 2 = 0, 09; P T1 ∩ T 2 = 0, 09; P T1 ∩ T 2 = 0, 01; )
( )
b) P T1 ∩ T 2 = 0, 01.
4.12.34. 1 1
a) P ( C ) = = 0, 01 = 1%; b ) P( D) = = 0, 1 = 10%; c) P ( C ∩ D ) = 0, 001;
100 10
d ) sí son compatibles porque P ( C ∩ D ) = 0, 001 ≠ 0;
e) sí son independientes porque P ( C ∩ D ) = P ( C ) ⋅ P ( D ) ;
f ) P ( C ∪ D ) = P ( C ) + P ( D ) − P ( C ∩ D ) = 0, 109.
2
4.12.39. a) P ({n}) = , ∀n ∈N;
3n
b) P( A) = 0, 25; P( B) = 0, 0769; P( A ∩ B) = 0, 0027; P ( C ) = 0, 999983.
4.12.40. 0,6667.
4.12.42. 0,6585.
4.12.46. 2/5.
5.8.1. a) Sí, es una función de probabilidad de una variable aleatoria discreta porque
7
f ( x ) ≥ 0, ∀x ∈{−3, −2, −1, 0, 1, 2, 3} y además ∑ f ( xi ) = 1.
i=1
b) P( X ≤ 1) = 0, 7.
c) P(−1 ≤ X ≤ 2) = 0, 6.
5.8.3. a)
708 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
si x=1
b) si x=3
si x=5
si x=7
si x<1
si 1≤x<3
c) si 3≤x<5
si 5 ≤ x < 7
si x ≥ 7
5.8.8. a)
b) 0,9728.
5.8.9. 0,2344.
5.8.11. 0,1563.
APÉNDICE II 709
5.8.12. a)
5.8.13. a)
b) 0,3225.
5.8.14. a)
b) E(X) = 0,375.
5.8.15. a)
b) 0,9964.
x 10 − x
10 9 7
5.8.20. a) P( X = x ) = parra x = 0, 1, 2,..., 10;
x 16 16
b) 0,9997; c) 0,2275.
5.8.21. a)
x 0 1 2 3 4 5 6
P(X = x) 0,056 0,084 0,224 0,360 0,036 0,096 0,144
b) µ = 3,1.
200
5.8.22. a) f ( x ) = P( X = x ) = 0, 02 x 0, 98200− x , x = 0, 1, 2,..., 200;
x
b) µ = 4; σ 2 = 3, 92;
c) Como n ≥ 50 y p ≤ 0, 1 se puede aproximar esta distribución binomial
por una distribución de Poisson de parámetro λ = np = 4.
d) 0,0595.
e) P( X < 6) . 0, 7851.
5 15
x 8 − x si 0 ≤ x ≤ 5
5.8.23. a) f ( x ) = 20
8
0 para los restantes valores de x
El recorrido de X es C = {0, 1, 2, 3, 4, 5} .
b) µ = 2, σ 2 . 0, 9473, σ . 0,9733.
150
5.8.26. a) f ( x ) = ( 0, 01) x ( 0.99)150− x , x = 0, 1, 2,..., 150.
x
b) µ = 1,5; c) La moda es 1; d) 0,9991.
5.8.28. 0,1709
5.8.30. a) a = 4.
0 si x < 1
1
si 1 ≤ x < 2
20
b) P( X ≤ x ) = 2
si 2 ≤ x < 3
20
M
1 si x ≥ 20
c) µ = 10,5.
d) b – a = 1.
e) a = 7 y b = 8.
6.12.1. a) α = 3
256 .
6.12.3. a) β = 3 .
32
0 si x < 0
3
x si 0 < x ≤ 2
b) F( x ) = 32
− 3 x 2 + 9 x − 11 si 2 < x ≤ 6
64 16 16
1 si x > 6
c) µ = 2,875.
d) 0,2650.
0 si x < 0
2
2 x
6.12.4. k = y la función de distribución es: F( x ) = si 0 ≤ x ≤ 5
25 25
1 si x > 5
712 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
6.12.6. a) K = 4 .
21
0 si x < 0
4
x si 0 < x ≤ 1
b) F ( x ) = 7
− 2 x 2 + 16 x − 11 si 1 < x ≤ 4
21 21 21
1 si x > 4
c) µ = 64 .
35
6.12.7. a) β = k .
4
0 si t ≤ 0
b) F ( t ) = − kt
1 − e 4 si t > 0
c) 0,0067; d) 0,00665.
6.12.8. a) c = 3 .
11
0 si x ≤ 0
3
b) F ( x ) = x si 0 < x < 2
11
3 2− x
1 − 11 e si x ≥ 2
6.12.10. a) β = 1 ;
16
APÉNDICE II 713
0 si x < 0
b) F ( x ) = x −x4
1 − 1 + 4 e si x ≥ 0
c) P ( X ≤ 12) = 0, 8009; P ( 0 ≤ X ≤ 8) = 0, 5940;
P ( 0 ≤ X ≤ 12 X ≥ 8) =0,5095.
d) µ = 8, σ 2 = 32.
b) P (1, 18 < Z < 1, 39) = 0, 0367; P ( −1, 84 < Z < −0, 44 ) =0,29971.
6.12.18. a) K = 2.
0 si x < 0
b) F ( x ) = 1
1 − (1 + x )2 si x ≥ 0
714 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
2 3 −3
c) µ = 1; κ 2 = 2 − 1 . 0, 4142; κ 1 = . 0, 1547.
3
6.12.20. a) a = 20.
0 si x < 0
4
b) F ( x ) = x ( 5 − 4 x ) si 0 < x < 1
1 si x ≥ 1
2 2
c) µ = ; σ 2 = ; d) 0,8125; e) 0,1595.
3 63
6.12.21. a) K = 3 · 10–3
0 si x ≤ 0
−3 3
b) F( x ) = 1 − 10 (10 − x ) si 0 < x < 10
1 si x ≥ 10
c) E(X) = 2,5 millones de euros.
d) 0,8278.
( ) ( )
6.12.22. P( A) = 0; P A ∩ B = 1; P A ∪ B = 1; P ( B ∩ A = 0; P ( B ∪ C ) = 1; )
1 2 1
P ( B ∩ C) =
2 3
)
; P ( D ∩ E = ; P ( C ∩ ( D ∪ E )) = ; P C ∩ E = 1.
2
( )
6.12.23. µ = 3,678 y σ = 5,5617.
6.12.24. a) M = 3.
0 si x < 0
b) F ( x ) = −3
1 − (1 + x ) si x ≥ 0
1 4
c) µ = ; κ1 = 3 − 1 . 0, 1006; κ 2 = 3 2 − 1 . 0, 2599.
2 3
6.12.26. 0 si x<a
1
a) F ( x ) = ( x − a) si a ≤ x ≤ b
b − a
1 si x>b
APÉNDICE II 715
0 si x < a
1
b) f ( x ) = si a ≤ x ≤ b
b−a
0 si x > b
b+a
c) E( X ) = ; todo punto del segmento [a, b] es moda; la mediana κ2
2
coincide en este caso con la media.
d) σ 2 =
( b − a )2 .
12
e) γ1 = 0, la distribución de X es simétrica. El coeficiente de curtosis es
µ 6
γ 2 = 44 − 3 = − < 0, la distribución es platicúrtica.
σ 5
6.12.27. a) α = 4/5.
0 si x ≤ 0
4
x
b) F ( x ) = si 0 < x < 1
5
4 1− x
1 − 5 e si x ≥ 1
6.12.28. a) K = 16
9
0 si x ≤ 1, 5
16 x 3
b) F ( x ) = − + 4x2 − 8x + 5 si 1, 5 < x < 3
27
1 si x ≥ 3
c) 0,9028.
d) 0,7469.
1 4
6.12.30. µ = ; σ X2 = .
3 45
716 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
7.8.1. a) 0,2.
b)
X f1(x) Y f2(y)
0 0,3 3 0,6
1 0,7 6 0,4
c) µ X = 0, 7; µY = 4, 2; σ X2 = 0, 21; σ Y2 = 2, 16
d) σ XY = −0, 24
e) ρ . −0, 3563
0 si x < 0 ó y < 3
0, 1 si ( 0 ≤ x < 1) y (3 ≤ y < 6 )
f) F ( x , y ) = 0, 3 si ( 0 ≤ x < 1) e ( y ≥ 6)
0, 6 si (1 ≤ x ) y ( 3 ≤ y < 6 )
1 si (1 ≤ x ) e ( 6 ≤ y )
7.8.2. 0,0443.
2 2/7
3 1/3
4 8/21
d)
Y f2(y |X = 3)
1 5/16
3 1/4
5 7/16
e) µ X Y =5 = 3, 0952; σ X Y =5 . 0, 6576.
2
APÉNDICE II 717
7.8.6. a) La función de probabilidad conjunta f(x1, x2) y las dos marginales están
definidas en la siguiente tabla:
X2
0 1 2 3 4 f1(x1)
X1
X1 f(xi |X2 = 3)
0 0,0576
1 0,2400
2 0,3747
3 0,2600
4 0,0677
4
∑ f ( xi X2 = 3) = 1
i= 0
7.8.7. 0,2023.
7.8.10. 1/ 9 si 0 ≤ x ≤ 3 y 0 ≤ y ≤ 3
a) f ( x , y) =
0 para cualquier otro par ( x , y )
718 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1 / 3 si 0 ≤ x ≤ 3 1 / 3 si 0 ≤ y ≤ 3
b) f1 ( x ) = ; f2 ( y ) =
0 en el restto 0 en el resto
c) Son independientes X e Y, porque
f ( x , y ) = f1 ( x ) ⋅ f2 ( y ) , ∀x ∈[ 0, 3] , ∀y ∈[ 0, 3]
7.8.11. a)
X f1(x) Y f2(y)
0 0,25 0 0,30
1 0,18 1 0,25
2 0,13 2 0,16
3 0,34 3 0,29
4 0,10
56
7.8.12. P(S) = .
225
Y
7.8.13. a) N(150, 3); b) Sxy = 3; c) X = + 100; d) 0,7572.
3
10 10 10
(
7.8.14. a) 1 − p2 ) ; b) 67.200 p (1 − p ) ; c) p = 1 / 2.
2
7.8.15. a) F( x ) =
π
( )
arctg e 2 x ∀x ∈R; b) 0,0428; c) 0,0856.
7.8.16. a) M = 5;
1
( 2 x + 4 ) si 0 ≤ x ≤ 1
b) 1 ( ) 5
f x =
0 en el resto
1
(1 + 2 y ) si 1 ≤ y ≤ 3
f2 ( y ) = 10
0 en el resto
1 1
d) f ( y x = 0, 5) = 10 5
+ y si 1≤ y ≤3
0 en el resto
e) µY = ; σ X2 =
32 37
15 450
2 si x + y ≤ 1, x ≥ 0, y ≥ 0
a) f ( x , y ) =
7.8.17.
0 para los restantes valores de x e y
0 si x < 0 ó y < 0
b) F ( x , y ) = 2 xy si x + y ≤ 1, x ≥ 0, y ≥ 0
1 si x + y > 1
0 si x < 0
c) F1 ( x ) = 2 x − x si 0 ≤ x ≤ 1
2
1 si x > 1
d) P ( X < 0, 5) = 3 4 ; P ( X < Y ) = 1 2 ; P ( X < 0.5 Y < 0, 5) = 2 3 ;
P ( X + Y < 0, 5) = 1 4 .
7.8.18. a) α = 1 5 .
0 si x < 1 ó y < 1
( )
1
b) F ( x, y ) = 3 x 2 y − xy2 − 3 x 2 + y2 + x − 3 y + 2 si 1 < x < 2, 1 < y < 3
10
1 si x > 2 ó y > 3
( )
si
1
d) F1 ( x ) = 3 x 2 − 4 x + 1 si 1 < x < 2
5
1 si x≥2
0 si y ≤ 1
( )
1
F2 ( y ) = − y 2 + 9 y − 8 si 1 < y < 3
10
1 si y ≥ 3
e) No son independientes X e Y, porque
f (1, 8, 2, 5) = 0, 58 π f1 (1, 8) ◊ f2 ( 2, 5) = 0, 544.
720 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
f) E ( X ) = 1, 6; σ X2 = 347 . 2, 3133.
150
g) 0,225.
7.8.20. a) 33/2.
1
( 4 x + 9) si 0 ≤ x ≤ 1
b) f1 ( x ) = 11
0 en el resto
0 si x < 0
1
F1 ( x ) = (
11
2x2 + 9x )
si 0 ≤ x ≤ 1
1 si x > 1
1
( 2 + 6 y ) si 0 ≤ y ≤ 3
c) f2 ( y ) = 33
0 en el resto
0 si y<0
1
F2 ( y ) = ( 3 y2 + 2 y ) si 0≤ y≤3
33
1 si y>3
0 si y < 0
4 xy + 3 y 2
d) F ( y X = x ) = si x0 ≤ y ≤ 3
3 ( 4 x + 9)
1 si y > 3
0 si x < 0
2 x 2 + 6 xy
F ( x Y = y) = si 0 ≤ x ≤ 1
2 + 6y
1 si x > 1
e) 0,3137.
7.8.21. 0,0612.
7.8.22. a) β = 6 .
5
0 si x ≤ 0 ó y ≤ 0
2 3
b) F ( x , y ) = x 3 y + x 2 y 2 si 0 < x < 1, 0 < y < 1
5 5
1 si x > 1 ó y > 1
APÉNDICE II 721
6 2
(
x +x
c) f1 ( x ) = 5
) si 0 < x < 1
0 en el resto
2 6
+ y si 0 < y < 1
f2 ( y ) = 5 5
0 en el resto
0 si x ≤ 0
1
d) F1 ( x ) = ( )
2 x 3 + 3 x 2 si 0 < x < 1
5
1 si x ≥ 1
0 si y ≤ 0
1
F2 ( y ) =
5
(
2 y + 3 y2 ) si 0 < y < 1
1 si y ≥ 1
e) 2
5
7.8.23. a) 12
7
12 2 x
x + si 0 < x < 1
b) f1 ( x ) = 7 2
0 en el resto
1
( 4 + 6 y ) si 0 < y < 1
f2 ( y ) = 7
0 en el resto
5 23
c) µ X = ; σ X2 =
7 490
4 2 23
d) µY = ; σ Y =
7 294
e) ρ = – 0,0561. No son independientes X e Y.
7.8.26. −x
e si x > 0
a) f1 ( x ) =
0 en el reesto
0 si x ≤ 0
F1 ( x ) = −x
1 − e si x > 0
722 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
−y
e si y > 0
b) f2 ( y ) =
0 en el ressto
0 si y ≤ 0
F2 ( y ) = −y
1 − e si y > 0
0 si y ≤ 0
c) F ( y X = x ) = −y
1 − e sii y > 0
0 si x ≤ 0
F ( x Y = y) = −x
1 − e sii x > 0
d) Sí son independientes X e Y, porque F ( x Y = y) = F1 ( x ), ∀x ∈R.
−1
7.8.27. a) σ XY = ; ρ = −0, 0951.
27
7.8.28. a) α = 1
2
x+y si 0 < x < 1 y 0 < y < 1
b) f ( x , y ) =
0 para cualquier otro par ( x , y )
2 ( x + y)
si 0 ≤ x ≤ 1
c) f ( x Y = y ) = 1 + 2 y
0 en el resto
1 3 1
d) P ( X < 0, 5, Y < 0, 5) = ; P ( X < 0, 5) = ; P ( X < 0, 5 Y < 0, 5) =
8 8 3
) )
8.8.1. a) µ = 6, σ = 10 ; b) µ = E ( X = 6, σ 2X = 5; c) µ = E ( X = 6, σ 2X = 3, 75.
σ
8.8.2. Si X , N ( µ = 3.350, σ = 484) ⇒ X , N ( µ = 3.350, = 48, 4) por tanto
10
3.500 − 3.350
)
P ( X < 3.500 = P Z <
48, 4 = P ( Z < 3, 09 ) = 0,999.
8.8.5. a) µ = 4, 4, σ = 2, 5768.
)
b) E ( X = 4, 4; Var ( X = 3, 32.)
c) E ( X ) = 4, 4; Var ( X ) = 2, 49.
8.8.8. 0,0174.
8.8.10. a) E ( X = µ = 3, 5;
)
σ2
b) Var ( X = ) n
= 1,4583.
n −1 2
c) E S ( )
2
=
n
σ = 1, 4583.
8.8.11. a) µ = E ( X = 68 cm y σ = 0, 6 cm.
) X
)
b) µ = E ( X = 68 cm y σ = 0, 5754 cm.
X
8.8.13. 600
a) f ( x ) = ( 0, 95) x ( 0, 05)600− x x = 0, 1, 2, ..., 600.
x
b) E ( X ) = µ = 570, σ 2 = 28, 5; c) 1; d) 0,5; e) 0,1515
8.8.16. 0,9974.
724 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
1.600
8.8.17. a) f ( x ) = ( 0, 8) x ( 0, 2)1600− x , x = 0, 1, 2,..., 1.600; b) cero;
x
c) 0,875.
8.8.19. 0,9857.
8.8.21. 0,999.
9.6.17. a) Para los varones N(65 cm, 2,5 cm) y para las mujeres N(60 cm, 2 cm).
b) Para los varones:
) )
P ( X ≤ 60 = 0, 0228; P ( 60 < X ≤ 65 = 0, 4777; P ( X > 65 = 0, 5. )
Para las mujeres:
) )
P ( X ≤ 60 = 0, 5; P ( 60 < X ≤ 65 = 0, 4938; P ( X > 65 = 0, 01. )
c) Para los varones IPα =0,10 = [ 60, 89 cm, 69, 13 cm ] .
Para las mujeres IPα =0,10 = [ 56, 71 cm, 63, 29 cm ] .
d) Para los varones IPα =0,05 = [ 60, 10 cm, 69, 9 cm ] .
Para las mujeres IPα =0,05 = [ 56, 08 cm, 63, 92 cm ] .
9.6.18. a) X1 − X 2 , N ( 5 cm, 3, 20 cm ) .
b) IPα =0,05 = [ −1, 272 cm, 11, 272 cm ] .
9.6.19. a) E ( X ) = 7 g/dl.
b) 1
( )
Var X = 0,1; Error típico =
10
. 0, 316.
c) IP
α = 0 ,05 = [ 6,38 g/dl, 7,62 g/dl ] .
σ2
10.11.2. a) E ( X = µ, media poblacional de X, Var ( X =
) ) , siendo σ 2 la varianza
25
σ
poblacional de X, la desviación típica σ X = .
5
– σ
b) La distribución de X es N µ, .
5
c1) ICα = 0,10 = [ 4, 79, 6, 106 ] .
c2) ICα = 0,01 = [ 4, 6067, 6, 2893] .
c3) Para la varianza ICα = 0,05 = [1, 3790, 4, 3773] .
10.11.3. a) IC
α = 0 ,05 = [ 9, 06 cm, 11,14 cm ] .
b)
ICα =0,01 = 1,42 cm 2 , 11,82 cm 2 .
c) ICα =0,05 = [ 9, 94 cm, 10,26 cm ] .
10.11.14. a) Para σ 2 el ICα = 0,01 = [ 0, 50, 10, 19 ] y para σ el ICα = 0,01 = [ 0, 705, 3, 193] .
b) Para σ 2 el ICα = 0,05 = [ 0, 63, 5, 96 ] y para σ el ICα = 0,05 = [ 0, 793, 2, 442 ] .
10.11.17. ICα = 0,05 = [ 0, 829, 0, 951] . Se puede afirmar con confianza del 95% que el
porcentaje está comprendido entre el 82,9% y el 95,1%
10.11.20. a) pˆ = 0, 74.
b) 0,062.
c) ICα =0,05 = [ 0, 618, 0, 862 ] . Se verifican las condiciones de normalidad
en los extremos del intervalo.
11.12.1. H : p = 0, 25
a) 0 La RCα = 0,05 = ( − `, −1, 645] .
H1 : p < 0, 25
p.q
b) Si H0 es cierta N(0,25, 0,0433). Si es cierta H1 será N p, .
100
c) z = −2, 3094 ∈ RCα =0,05 . En consecuencia, no se acepta la hipótesis nula
a ese nivel. Se acepta, para α = 0,05 que el nuevo tratamiento T1 disminuye la
tasa de alergia.
11.12.2. Si el valor del estadístico pertenece a la RCα =0,01 , entonces también perte-
nece a la RCα =0,05 y por tanto también se rechaza al nivel α = 0,05 y a cualquier otro
nivel que verifique α > 0,01.
σ
11.12.3. a) N 1.110 kg/día , .
n
H : µ = 1.110
b) Hipótesis de contraste: 0
H1: µ < 1.110
x − 1.110
El estadístico a utilizar es T =
s
n
APÉNDICE II 729
(
La región crítica pedida es RCα = 0,05 = − `, −tα =0,05;n−1
c) Se acepta H0 al nivel α = 0,05. Con los datos de esta muestra y para el valor
de α dado no se puede aceptar que el promedio ha bajado en el último año.
d) Se rechaza H0 al nivel α = 0,05. Con los datos de la muestra de tamaño 256
se puede aceptar que el promedio ha bajado en el último año para α = 0,05 y
también para α < 0,001.
H : p = 0, 95
11.12.4. Las hipótesis de contraste son 0 . Las regiones críticas para los
H1 : p < 0, 95
valores dados de α son RCα = 0,05 = ( − `, −1, 645] , RCα =0,01 = ( − `, −2, 33] .
El valor del estadístico del contraste es z = – 0,9177 que no pertenece a ninguna
de las regiones críticas. Por tanto, con los datos proporcionados, no hay razones para
rechazar la hipótesis nula para los dos niveles de significación.
11.12.5. Como RCα = 0,001 ⊂ RCα =0,005 puede ocurrir que el valor del estadístico per-
tenezca a RCα =0,005 y no a la RCα =0,001 . En estos casos no se podría rechazar la hipó-
tesis nula para RCα =0,001 .
11.12.9. a) No se puede admitir a ese nivel. Hay diferencia entre las proporciones
de los que viven en ciudades y los que residen en pueblos.
b) Se acepta que es mayor la proporción de los que residen en los pueblos
al nivel α = 0,05 y también al nivel α = 0,01.
11.12.16. Con los datos recogidos no hay razones para suponer que la diferencia de
medias de los pesos antes y después de seguir la dieta no es de 4,5 kg.
11.12.17. Con los datos observados, no hay razones para suponer que la proporción
es diferente según el sexo.
11.12.19. Con los datos proporcionados, no hay razón para suponer que la media del co-
ciente intelectual de los chimpancés es inferior a la de los gorilas en más de 9 unidades.
11.12.21. El valor del estadístico de contraste pertenece a la RCα =0,05 y por tanto no
se puede aceptar a este nivel con los datos proporcionados la igualdad de las longi-
tudes medias de los huevos que deposita el cuclillo en nidos de carnicero y los que
deja en nidos de petirrojo.
Por tanto,
Con estos datos no se puede aceptar la hipótesis dada. El valor del estadístico es
muy alto, la diferencia es significativa, esto indica ligamiento de los dos caracteres
observados.
2
Oi − npi )
12.13.4. a) El valor del estadístico ∑ (
3
= 432, 240 ∈ RCα =0,005 = [10, 597, + ` ) .
i =1 npi
No se puede aceptar la codominancia.
2
3 ( O − np )
b) El valor del estadístico ∑ i i
= 2, 886 ∉ RCα =0,05 = [ 5, 991, + ` ) .
i =1 npi
Con estos datos no hay razones para rechazar que se presenta epistasia simple
recesiva.
2
12.13.6. Como ∑ ∑
2 4 (O ij − Eij )
= 5, 926 ∉ RCα = 0,05 = [ 7, 815, + ` ) , con estos datos
Eij
i=1 j =1
no hay razones para suponer que hay dependencia entre la época de vacunación y la in-
cidencia de la enfermedad.
2
12.13.7. Como ∑ ∑
(O 2 4 ij − Eij )
= 5, 926 ∉ RCα =0,05 = [ 7, 815, + ` ) , los resultados
Eij
i =1 j =1
H : p = pi• ⋅ p• j ∀i = 1, 2, ∀j = 1, 2,..., 5
12.13.8. Las hipótesis del contraste son: 0 ij
H1: pij ≠ pi• ⋅ p• j para algún i, j
2
Como ∑ ∑
2 5 (O ij − Eij )
= 10, 2877 ∈[9, 488, + ` ) se rechaza la hipótesis nula
Eij
i =1 j =1
para α = 0,05. No se acepta α = 0,05 para que la proporción es la misma en todas las
regiones.
12.13.13. Como ∑ ∑
2 2 (O
ij − Eij )
= 266, 1123 ∈[ 7, 879, + ` ) se rechaza la hipótesis
i =1 j =1Eij
nula para α = 0,005. Se concluye que la curación depende de que hayan sido tratados
o no. Ese tratamiento es eficaz.
12.13.14. El valor del estadístico de contraste es 11,295 ∈ RCα =0,005 = [10, 597, + ` )
y por tanto no se acepta, con estos resultados, que la variable X sigue una distribución
de Poisson.
b) Como ∑
6 (O ij − Eij ) = 15, 776 ∈[ 7, 815, + ` ) se rechaza la hipótesis
j =1 Eij
nula para α = 0,05. No se acepta, para α = 0,05, que los datos recogi-
dos se ajusten a la distribución normal indicada.
12.13.16. El valor del estadístico de contraste es 23, 798 ∈ RCα = 0,005 = [18, 548, + ` ) .
En consecuencia, se rechaza la hipótesis nula para α = 0,005. Sí influye el tra-
tamiento en la producción.
734 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Por tanto, no hay razones para rechazar la normalidad de la muestra para α = 0,10 o
lo que es lo mismo, con confianza del 90%.
12.13.18. El valor del estadístico de contraste es 54,70 que pertenece a la región crí-
tica RCα =0,01 = [13, 277, + ` ) y también a la RCα = 0,005 = [14, 860, + ` ) . Se rechaza la
independencia con confianza del 99,5%.
12.13.22. Sí, se acepta que X , P ( λ = 2, 08) porque el valor del estadístico de con-
traste es 1, 977 ∉ RCα = 0,05 = [ 7, 815, + ` ) .
12.13.24. Aplicando la prueba de Friedman, como el valor que se obtiene del esta-
dístico de contraste es: 11, 03 ∈ RCα =0,01 = [ 9, 210, + ` ) , se puede afirmar que hay di-
ferencias significativas entre las calificaciones de las tres pruebas.
El valor del estadístico de contraste es −2, 17 ∈ RCα =0,05 = ( − `, −1, 645] y por
tanto la diferencia del tiempo de espera es casi significativa. Pero a partir de estos da-
tos no se puede concluir que la reducción del tiempo de espera en Urología sea sig-
nificativa porque −2, 17 ∉ RCα =0,01 = ( − `, −2, 33] .
13.4.2.
Suma Cuadrados Estadístico
Variación g.l.
de cuadrados medios de contraste
QN
Entre fechas QN = 0,5051 2 = 0, 2526
2
Fo = 0,4838
QR
Residual QR = 4,6988 9 = 0, 5221
9
Total Q = 5,2039 11
Con los datos recogidos no se puede afirmar que hay diferencia en la producción me-
dia de algodón, porque el valor del estadístico de contraste es F = 0, 4838 ∉ RCα =0 ,05 =
= [ 4, 26, + ` ) .
E
160 180 200 220 240
Total Q = 5,9174 15
Como 0, 7541 ∉ RCα =0,05 = [ 4, 54, + ` ) no se rechaza la hipótesis nula. Los dos
abonos son igualmente efectivos en la producción del tomate.
Por tener que contrastar sólo dos tipos de abono, se puede verificar también la
igualdad de varianzas utilizando el estadístico
738 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
13.4.12. a) En primer lugar, se comprueba que se puede aceptar que las tres muestras
proceden de poblaciones normales. Como son de tamaño pequeño, se calculan los co-
eficientes de asimetría y de curtosis para las tres y se observa que en todas ambos coe-
ficientes están comprendidos entre –2 y 2 que es el rango esperado para las distribu-
ciones normales. Como las tres muestras son independientes, falta contrastar la igualdad
de las varianzas. El contraste de Bartlett permite aceptar la igualdad de varianzas. Por
darse los tres supuestos, se plantea el contraste de igualdad de las medias. El valor del
estadístico del ANOVA es Fo = 218, 875 ∈ RCα = 0,005 = [ 6, 734, + ` ) . Las diferencias
entre los resultados para los tres tipos de fungicidas son muy significativas.
b) Realizando las comparaciones múltiples, se observan diferencias significativas
entre F1 y F3 y entre F2 y F3, pero no entre las dos primeras para las que el valor del
estadístico es t . 1, 3327 ∉ RCα =0,01 = ( − `, −2, 787 ] ∪ [ 2, 787, + ` ) . Se puede afir-
mar, a partir de los datos recogidos, que los dos primeros fungicidas son igualmente
eficaces. El tercero da un porcentaje medio de semillas infectadas mucho menor. De
los tres fungicidas el más eficaz es el tercero.
b) ρˆ = 0, 998.
APÉNDICE II 739
por tanto, no hay diferencia significativa entre las varianzas. Se puede aplicar el
ANOVA. El valor del estadístico para el contraste de igualdad de medias es:
Se acepta la igualdad del contenido medio de EPA para las dos primeras marcas.
APÉNDICE II 741
Total Qδ = 1,4677 48
no hay razones para rechazar el ajuste de los datos dados a la recta de regresión
µi = 1,0669 + 1,1767 Li. Esta recta de regresión se puede utilizar para estimar los va-
lores medios de la anchura a partir de la longitud de los esqueletos.
742 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
14.22.1. 0 0 0
a) M = 1 1 / 2 0 .
0 1 / 2 1
0
b) El vector estacionario es P = 0 .
1
0
c) lim P ( n ) = P = 0 . A la larga todos los descendientes serán recesivos.
n →`
1
14.22.2. 0, 4 0, 6 0, 2
a) M = 0, 3 0, 1 0, 8 .
0, 3 0, 3 0
11 / 26 0, 4231
b) P = 9 / 26 . 0, 3462 .
6 / 26 0, 2307
11 / 26
c) lim P ( n ) = P = 9 / 26 porque la matriz tiene un solo autovalor de
n→ `
6 / 26
módulo uno. Los autovalores de M son –0,3, –0,2 y 1. La distribución
lim P ( n ) no depende de P(0).
n →`
0 1
14.22.3. a) M = .
1 0
1 / 2
b) P = , si un día determinado la mitad de los coches están en A1 y
1 / 2
la otra mitad en A2 y cada 12 horas se desplazan de la forma indicada,
siempre se dejarán el 50% en cada aparcamiento.
c) Esta cadena no tiene distribución estable, porque la matriz de transición
tiene dos autovalores de módulo 1, que son 1 y –1.
1 0 1
Si P ( 0 ) = ⇒ P (1) = ⇒ P ( 2 ) = ⇒ .... El comportamiento es cíclico.
0
1
0
APÉNDICE II 743
14.22.4. 1 0, 1 0, 01 0, 01
0 0, 7 0, 3 0, 14
a) M = .
0 0, 2 0, 5 0, 25
0 0 0, 19 0, 6
1
0
b) P = .
0
0
1
0
c) lim P ( n ) = P = . A la larga todos serían funcionarios.
n→ ` 0
0
14.22.5. 5 / 11
a) P = 4 / 11 .
2 / 11
b) Como la matriz tiene por autovalores 1, 0,6732 y 0,3268 sí hay vector
5 / 11
de probabilidad estable: lim P ( n ) = P = 4 / 11 independientemente de
n→ `
2 / 11
la situación inicial.
Este vector da la proporción de empresarios, 5/11, de trabajadores por cuenta
ajena, 4/11 y de parados, 2/11, a la larga cualquiera que sea la situación inicial.
0
0
que tiene por vector de probabilidad estable P = .
0
1
A la larga todos los parques y jardines quedan impracticables.
Aplicando el plan de conservación, la matriz de transición de la cadena que mo-
deliza la situación de los parques y jardines es:
0, 655
0, 146
El vector de probabilidad estable en este caso es: P = .
0, 04
0, 159
A la larga el 65,5% estarán en buen estado, el 14,6% poco deteriorados, el 4%
deteriorados y el 15,9% intransitables.
c) Antes de aplicar el plan, el índice de conservación es 4 y después de aplicar el
plan y alcanzar la situación estable es 4,025
d) 30 €/m2.
e) 0,8118 €/m2.
0, 7122
0, 1583
14.22.11. a) El vector de probabilidad estable en este caso es: P = . Con el
0, 0432
0, 0863
nuevo plan, a la larga el 71,22% de los parques y jardines estarán en buen estado, el
15,83% poco deteriorados, el 4,32% deteriorados y el 8,63% impracticables.
b) 6,722.
c) 0,0687 €/m2. Mejora el índice de conservación considerablemente con un li-
gero aumento del coste por metro cuadrado.
APÉNDICE II 745
h g*(h)
0 0
1 200
2 80,5
3 40,5
4 84,5
5 144,5
6 18
7 122
8 338
400
300
200
100
0
0 2 4 6 8
http://www.rsme.es/
Real Sociedad Matemática Española.
http://www.mat.ucm.es/IMI/
Instituto de Matemática Interdisciplinar.
http://www.kuleuven.ac.be/ucs/java/
Colección de applets en Java que permiten representar conceptos estadísticos.
http://www.stat.vt.edu/~sundar/java/applets/
Un entorno interactivo en Java para la enseñanza de la Estadística.
http://www.du.edu/psychology/methods/concepts/
Portal con enlaces a páginas Web que permiten mostrar applets de probabilidad, dis-
tribuciones, regresión y correlación, inferencia.
http://e-stadistica.bio.ucm.es/
Aula Virtual de Bioestadística. Dpto. Matemática Aplicada (Biomatemática) Facultad
de CC. Biológicas de la UCM.
http://www.statgraphics.net/
Portal de STATGRAPHICS®
http://www.ai-geostats.org/
Web con información de Geoestadística y Estadística Espacial.
http://www.goldensoftware.com/
Portal de SURFER® y GRAPHER®
http://epp.eurostat.ec.europa.eu/
EUROSTAT. Servicio de información estadística de la Unión Europea.
http://geologia.co.uk/paleopag/index.php
Página de geología, paleontología, medio ambiente…
http://www.gslib.com/
Página de información de Geostatistical Software Library.
http://freestatistics.altervista.org/en/data.php
Fuente de datos estadísticos proporcionada por los institutos nacionales de todo el
mundo.
http://freestatistics.altervista.org/en/stat.php
Software estadístico de libre acceso.
http://freestatistics.altervista.org/en/comp.php
Comparación de software estadístico de libre acceso y tipo de análisis que realizan.
ÍNDICE ANALÍTICO