2009 3ST4D15T1C4 4PL1C4D4 Un4 V1510N 1nstrum3nt4l PDF

ESTADÍSTICA APLICADA
UNA VISIÓN INSTRUMENTAL

MARÍA TERESA GONZÁLEZ MANTEIGA
ALBERTO PÉREZ DE VARGAS
ESTADÍSTICA APLICADA
UNA VISIÓN INSTRUMENTAL
Teoría y más de 500 problemas
resueltos o propuestos con solución
© María Teresa González Manteiga y Alberto Pérez de Vargas, 2009
Reservados todos los derechos.
«No está permitida la reproducción total o parcial de este libro,

ni su tratamiento informático, ni la transmisión de ninguna
forma o por cualquier medio, ya sea electrónico, mecánico,
por fotocopia, por registro u otros métodos, sin el permiso
previo y por escrito de los titulares del Copyright.»
Ediciones Díaz de Santos

E-mail: ediciones@diazdesantos.es
Internet://http:www.diazdesantos.es
ISBN: 978-84-7978-913-8
Depósito legal: M. 20.883-2009
Diseño de cubierta: Ángel Calvete

Fotocomposición e impresión: Fernández Ciudad
Encuadernación: Rústica - Hilo
Impreso en España
A nuestras familias, a los que fueron nuestros profesores
y a los que son o serán nuestros alumnos.
ÍNDICE
POR QUÉ Y PARA QUÉ SE HA ESCRITO ESTE LIBRO ..................... XIX
PRÓLOGO .................................................................................................. XXI
1. Capítulo preliminar
1.1. Introducción ................................................................................. 1
1.2. Conceptos generales básicos ........................................................ 12
1.3. Tipos de muestreo aleatorio en poblaciones finitas ..................... 14
1.4. Tipos de caracteres ...................................................................... 17
1.4.1. Caracteres cualitativos ...................................................... 17
1.4.2. Caracteres cuantitativos .................................................... 18
1.5. Nociones básicas del Programa STATGRAPHICS Plus 5.1 para
Windows ...................................................................................... 20
1.6. Etapas de un estudio estadístico .................................................. 26
PRIMERA PARTE
ESTADÍSTICA DESCRIPTIVA
2. Estadística descriptiva unidimensional

2.1. Introducción ................................................................................. 31
2.2. Tablas de frecuencias ................................................................... 33
2.3. Representaciones gráficas ............................................................ 37
2.3.1. Caracteres cualitativos ...................................................... 37
2.3.2. Caracteres cuantitativos discretos ..................................... 40
2.3.3. Caracteres cuantitativos continuos ................................... 42
2.4. Análisis numérico ........................................................................ 48
2.4.1. Medidas de posición ......................................................... 48
IX
X ÍNDICE
2.4.2. Medidas de dispersión ...................................................... 61

2.4.3. Momentos ......................................................................... 66
2.4.4. Características de forma ................................................... 67
2.5. Transformaciones lineales de una variable estadística ................ 71
2.6. Diagrama de caja y bigotes .......................................................... 74
2.7. Cálculo de los estadísticos con STATGRAPHICS ....................... 75
2.8. Números Índices. Breves nociones .............................................. 85
2.9. Problemas propuestos .................................................................. 92
3. Estadística descriptiva bidimensional

3.1. Introducción ............................................................................... 99
3.2. Tablas de frecuencias de una distribución bidimensional ......... 100
3.3. Distribuciones marginales y condicionadas ............................... 103
3.4. Momentos bidimensionales: medias y varianzas marginales, co-
varianza ...................................................................................... 104
3.5. Vector de medias y matriz de covarianza .................................. 106
3.6. Regresión y correlación ............................................................. 108
3.7. Regresión lineal mínimo cuadrática. Rectas de regresión. Coe-
ficiente de correlación lineal ...................................................... 110
3.7.1. Recta de regresión de y sobre x ...................................... 110
3.7.2. Recta de regresión de x sobre y ...................................... 113
3.7.3. Coeficiente de determinación lineal ............................... 115
3.7.4. Coeficiente de correlación lineal .................................... 119
3.8. Otras regresiones reducibles a lineales ...................................... 129
3.8.1. Línea de regresión de tipo exponencial y = abx .............. 130
3.8.2. Línea de regresión de tipo potencial y = axm .................. 134
3.8.3. Línea de regresión de tipo homográfica o hiperbólica ... 135
3.9. Otras curvas de regresión mínimo-cuadrática. Regresión para-
bólica. Coeficiente de determinación parabólico ....................... 136
3.9.1. Ajuste a una parábola de grado 2 por el método de míni-
mos cuadrados ................................................................ 136
3.9.2. Coeficiente de determinación parabólico ....................... 137
3.10. Problemas propuestos ................................................................ 144
SEGUNDA PARTE
PROBABILIDAD. DISTRIBUCIONES DE PROBABILIDAD
4. Probabilidad
4.1. Introducción ............................................................................... 155
4.2. Experimentos aleatorios ............................................................. 157
4.3. Álgebra de sucesos y σ – álgebra .............................................. 159
4.4. Frecuencia relativa de un suceso. Probabilidad en espacios
muestrales finitos ....................................................................... 162
ÍNDICE XI
4.5. Axiomática para la probabilidad. Propiedades de la probabilidad ... 164

4.6. La probabilidad condicionada .................................................... 170
4.7. Sucesos dependientes e independientes ..................................... 171
4.8. Probabilidad de la intersección de dos o más sucesos ............... 173
4.9. El teorema de la probabilidad total ............................................ 174
4.10. El teorema de Bayes .................................................................. 175
4.11. Probabilidades en espacios infinito-numerables ........................ 179
5. Distribuciones de probabilidad discretas

5.1. Introducción ................................................................................. 191
5.2. Definición de variable aleatoria discreta ..................................... 192
5.3. Función de probabilidad de una variable aleatoria discreta ......... 197
5.4. Función de probabilidad acumulada de una variable aleatoria dis-
creta .............................................................................................. 199
5.5. Características de una variable aleatoria discreta ........................ 201
5.5.1. Esperanza matemática ...................................................... 201
5.5.2. Momentos para variables aleatorias ................................. 203
5.5.3. Otros parámetros de interés para variables aleatorias dis-
cretas ................................................................................. 206
5.5.4. Características de forma para variables aleatorias discretas .. 207
5.6. Principales distribuciones para variables aleatorias discretas ..... 208
5.6.1. Distribución discreta uniforme ......................................... 208
5.6.2. Distribución de Bernoulli ................................................. 210
5.6.3. Distribución binomial ....................................................... 212
5.6.4. Distribución geométrica ................................................... 215
5.6.5. Distribución binomial negativa ........................................ 218
5.6.6. Distribución hipergeométrica ........................................... 220
5.6.7. Distribución de Poisson .................................................... 226
5.7. Aproximación de una distribución binomial por una de Poisson ...... 230
Tablas de distribuciones discretas ....................................................... 233
6. Distribuciones de probabilidad continuas

6.1. Definición de variable aleatoria continua .................................. 241
6.2. Función de distribución de una variable aleatoria continua ...... 242
6.3. Probabilidad asociada a un punto .............................................. 243
6.4. Función de densidad de probabilidad de una variable aleatoria
continua ...................................................................................... 244
6.5. Probabilidad asociada a un intervalo ......................................... 246
6.6. Esperanza matemática o valor esperado de una variable aleatoria
continua ...................................................................................... 250
6.7. Momentos de una variable aleatoria continua ........................... 251
6.8. Otros parámetros de interés para variables aleatorias continuas ...... 253
XII ÍNDICE
6.9. Características de forma ............................................................ 254

6.10. Acotación de Chebyshev ........................................................... 255
6.11. Algunas distribuciones continuas .............................................. 257
6.11.1. Distribución continua uniforme .................................... 257
6.11.2. Distribución normal o de Laplace-Gauss ..................... 258
Tabla 6.1 de distribuciones continuas .................................................. 264
7. Distribuciones bidimensionales y multidimensionales

7.1. Distribuciones bidimensionales y multidimensionales discretas ... 273
7.1.1. Distribuciones marginales ................................................ 275
7.1.2. Distribuciones condicionadas ........................................... 277
7.1.3. Independencia de variables aleatorias discretas ............... 278
7.1.4. Distribución de probabilidad para funciones de las varia-
bles aleatorias discretas X e Y ........................................... 280
7.1.5. Esperanza de una función de X. Función generatriz de
momentos respecto del origen .......................................... 282
7.2. Distribución multinomial ............................................................. 285
7.3. Distribuciones bidimensionales y multidimensionales continuas ..... 287
7.3.1. Distribuciones marginales continuas ................................ 292
7.3.2. Distribuciones condicionadas continuas ........................... 294
7.3.3. Independencia de variables aleatorias continuas .............. 295
7.3.4. Covarianza ........................................................................ 296
7.3.5. Varianza de la suma de variables aleatorias ..................... 298
7.3.6. Coeficiente de correlación lineal ...................................... 299
7.3.7. Esperanza de una función de X. Función generatriz de
momentos respecto del origen .......................................... 300
7.4. Función característica de una variable aleatoria X ...................... 301
7.5. Función de probabilidad de funciones de X e Y. Cambio de variable... 302
7.6. Distribución normal bidimensional ............................................. 305
7.7. Distribución normal multidimensional ........................................ 308
TERCERA PARTE
INFERENCIA ESTADÍSTICA
8. Inferencia estadística. Teoremas del límite

8.1. Introducción ................................................................................. 319
8.2. Población de las muestras ............................................................ 320
8.3. La distribución normal y la inferencia estadística ....................... 322
8.4. Teoremas del límite ..................................................................... 325
8.4.1. El teorema central ............................................................. 325
8.4.2. Teorema de Lindeberg-Lévy ............................................ 326
ÍNDICE XIII
8.4.3. Teorema de De Moivre ..................................................... 327

8.4.4. Aproximación de la distribución binomial por la normal ... 327
8.4.5. Aproximación de la distribución de Poisson por la normal .... 332
–
8.5. Distribución de la variable aleatoria X para muestras de tamaño n
en poblaciones no normales ......................................................... 335
8.6. Distribución de una proporción observada p̂ ............................... 336
8.7. Estimadores y estimaciones ......................................................... 337
9. Estimación de los parámetros de una población

9.1. Estimación puntual de un parámetro de una población ............... 345
9.1.1. Clases de estimadores ....................................................... 345
9.1.2. Métodos de obtención de estimadores .............................. 348
9.1.3. Estimación de la media µ ................................................. 351
9.1.4. Estimación de una proporción p ....................................... 353
9.1.5. Estimación de la varianza σ 2 ............................................ 354
9.2. Principales distribuciones teóricas asociadas al proceso de mues-
treo ............................................................................................... 355
9.2.1. Función gamma ................................................................ 355
9.2.2. Distribución gamma ......................................................... 356
9.2.3. Distribución exponencial .................................................. 357
9.2.4. Distribución χ2 .................................................................. 358
9.2.5. Distribución t de Student .................................................. 361
9.2.6. Distribución F de Snedecor-Fisher .................................. 365
9.3. Las funciones de distribución y el programa STATGRAPHICS .. 371
9.4. Distribuciones de los estadísticos en el muestreo ........................ 372
9.5. Intervalos de probabilidad ........................................................... 375
–
9.5.1. Intervalo de probabilidad con riesgo α para X ................. 375
9.5.2. Intervalo de probabilidad con riesgo α para p̂ .................. 378
9.5.3. Intervalo de probabilidad con riesgo α para s2 ................. 381
9.5.4. Intervalo de probabilidad con riesgo α para la cuasides-
viación típica s .................................................................. 382
9.5.5. Intervalo de probabilidad con riesgo α para la diferencia
– –
de medias X1 – X2 .............................................................. 383
9.5.6. Intervalo de probabilidad con riesgo α para el cociente de
s2
cuasivarianzas 12 ............................................................... 386
s2
p̂1 – p̂2 de proporciones muestrales ..................................... 387
Tabla II. Distribuciones continuas asociadas al proceso de muestreo.... 389
XIV ÍNDICE
10. Intervalos de confianza de los parámetros de una población

10.1. Introducción ............................................................................. 395
10.2. Intervalo de confianza para µ en una población normal con σ2
conocida ................................................................................... 396
10.3. Intervalo de confianza para µ en una población normal con σ2
desconocida .............................................................................. 398
10.4. Intervalo de confianza para la proporción p ............................ 400
10.5. Intervalo de confianza para σ2 en una población normal ........ 401
10.6. Intervalo de confianza para σ en una población normal .......... 403
10.7. Relación entre la precisión y el tamaño de la muestra ............. 403
10.7.1. ¿Cuál debe ser el tamaño de la muestra que se necesita
para estimar µ con confianza fijada, 1 – α, y con precisión
–
| X – µ | ≤ d? .......................................................................... 404
10.7.2. ¿Cuál debe ser el tamaño de la muestra que se necesi-
ta para estimar p con confianza 1 – α , y con precisión
| p̂ – p | ≤ d?......................................................................... 405
10.8. Intervalo de confianza para la diferencia de medias µ1 – µ2 .... 406
10.8.1. Si se conocen las varianzas poblacionales σ12 y σ22 ...... 407
10.8.2. Si no se conocen las varianzas poblacionales pero se
pueden suponer iguales ............................................... 407
10.8.3. Si no se conocen las varianzas poblacionales σ12 y σ22 y
no se pueden suponer iguales ...................................... 408
10.9. Intervalo de confianza para la diferencia de proporciones p1 – p2 .. 409
10.10. Intervalo de confianza para el cociente de varianzas ............... 412
Tabla de intervalos de confianza (distribución de los estadísticos en el
muestreo) ..................................................................................... 414
10.11. Problemas propuestos .............................................................. 417
11. Contrastes de hipótesis paramétricos

11.1. Introducción ............................................................................. 423
11.2. Etapas a seguir en un contraste paramétrico ............................ 424
11.3. La noción de riesgo. Errores .................................................... 429
11.4. El P-valor ................................................................................. 437
11.5. Prueba de conformidad con una proporción teórica (binomial) ..... 439
11.5.1. Prueba bilateral para p ................................................. 439
11.5.2. Pruebas unilaterales para p .......................................... 441
11.6. Prueba de conformidad con una media teórica ........................ 443
11.6.1. Pruebas bilaterales para µ ............................................ 443
11.6.2. Pruebas unilaterales para µ .......................................... 445
11.7. Prueba de conformidad con una varianza teórica .................... 447
11.7.1. Prueba bilateral para σ 2 ............................................... 447
11.7.2. Pruebas unilaterales para σ 2 ........................................ 448
11.8. Prueba de comparación de dos proporciones ........................... 450
11.8.1. Contraste bilateral ....................................................... 450
ÍNDICE XV
11.8.2. Contrastes unilaterales ................................................. 452

11.9. Prueba de comparación de dos varianzas ................................ 453
11.9.1. Contraste bilateral ....................................................... 454
11.9.2. Contrastes unilaterales ................................................. 455
11.10. Prueba de comparación de dos medias .................................... 456
11.10.1. Contrastes bilaterales ................................................. 456
11.10.2. Contrastes unilaterales ............................................... 460
11.11. ¿Cómo hacer los contrastes con STATGRAPHICS? ................ 464
Tablas de contrastes de hipótesis paramétricos ................................... 471
12. Contrastes no paramétricos

12.1. Introducción ............................................................................. 479
12.2. Prueba χ 2 de bondad de ajuste para el contraste de proporcio-
nes. Ajuste a un modelo multinomial ...................................... 480
12.3. Prueba χ 2 de bondad de ajuste de una distribución observada a
una teórica ................................................................................ 487
12.3.1. El modelo especifica completamente la distribución a
ajustar ........................................................................... 487
12.3.2. El modelo sólo especifica el tipo de distribución a ajus-
tar, pero no se conocen los valores de los parámetros
del modelo .................................................................... 488
12.4. Prueba χ 2 de independencia de dos variables .......................... 496
12.5. Prueba χ 2 de homogeneidad .................................................... 500
12.6. Prueba de Kolmogorov-Smirnov para una muestra ................. 503
12.6.1. ¿Cómo hacerlo con STATGRAPHICS? ....................... 507
12.7. Contraste χ 2 de McNemar para dos muestras apareadas ......... 509
12.8. Prueba de los rangos con signo de Wilcoxon para dos muestras
apareadas .................................................................................. 512
12.9. Contraste U de Mann-Whitney ................................................ 515
12.10. Prueba Q de Cochran para k ≥ 3 muestras apareadas .............. 519
12.11. Contraste de rangos de Friedman para k ≥ 3 muestras apa-
readas ............................................................................... 521
12.12. Prueba de Kruskal-Wallis para más de dos muestras indepen-
dientes ...................................................................................... 524
12.12.1. ¿Cómo hacerlo con STATGRAPHICS ? .................... 527
13. Análisis de la varianza y análisis de la regresión

13.1. Introducción al ANOVA ............................................................ 539
13.2. ANOVA con un factor de variación .......................................... 542
Tabla ANOVA con un factor de variación .......................................... 546
13.2.1. Contraste de Hartley ...................................................... 548
13.2.2. Prueba de Bartlett .......................................................... 549
XVI ÍNDICE

13.2.4. Comparaciones múltiples .............................................. 556
13.3. Análisis de la regresión lineal simple ........................................ 559
13.3.1. Contraste de hipótesis para el parámetro β ................... 563
13.3.2. Contraste de significación de la regresión lineal simple ..... 566
Tabla de contraste de significación de la regresión lineal simple ....... 567
13.3.3. Análisis de la regresión lineal simple con varias medidas
de la variable Y para un mismo valor de X .................... 573
Tabla para análisis de la regresión lineal simple ................................. 576
13.3.4. Intervalos de confianza para β ...................................... 578
13.3.5. Intervalos de confianza para µY|X = x = α + βx ............ 579
CUARTA PARTE
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS
Y A LA GEOESTADÍSTICA
14. Una introducción a los procesos estocásticos y a la estadística espacial:

Métodos geoestadísticos
14.1. Introducción ............................................................................. 595

14.2. Un modelo de proceso estocástico temporal en tiempo discreto.
Cadenas de Markov finitas ...................................................... 598
14.3. Un modelo de proceso estocástico temporal en tiempo conti-
nuo. Proceso de Poisson temporal ........................................... 604
14.4. Un modelo de proceso estocástico espacial. Proceso espacial de
Poisson ..................................................................................... 610
14.5. Estadística espacial. Métodos geoestadísticos ......................... 612
14.6. Funciones aleatorias. Variables regionalizadas ....................... 614
14.7. Análisis exploratorio de los datos ............................................ 619
14.8. Análisis estructural. Variograma y semivariograma ............... 622
14.9. Semivariograma experimental ................................................. 623
14.10. Funciones aleatorias estacionarias ........................................... 628
14.11. Funciones aleatorias intrínsecas .............................................. 631
14.12. Modelos teóricos de semivariograma ...................................... 632
14.12.1. Modelo efecto pepita puro ........................................ 633
14.12.2. Modelo lineal ............................................................ 634
14.12.3. Modelo potencial ....................................................... 634
14.12.4. Modelo lineal acotado ............................................... 635
14.12.5. Modelo esférico ......................................................... 636
14.12.6. Modelo esférico con efecto pepita ............................ 636
ÍNDICE XVII
14.12.7. Modelo gaussiano ..................................................... 637

14.12.8. Modelo exponencial .................................................. 638
14.12.9. Modelo exponencial con pepita ................................ 638
14.13. Análisis estructural de los datos .............................................. 640
14.14. Estimación espacial. Krigeado ................................................. 641
14.15. Krigeado simple ....................................................................... 644
14.16. El krigeado ordinario ............................................................... 650
14.17. Regularización. Variables regularizadas ................................. 660
14.18. Ecuaciones del krigeado por bloques ...................................... 663
14.19. Intervalos de confianza para las estimaciones ......................... 668
14.20. Representaciones gráficas con el programa SURFER para or-
denador personal ...................................................................... 669
14.21. ¿Cómo hacer representaciones gráficas con SURFER? .......... 671
14.22. Problemas propuestos ............................................................... 677
APÉNDICE I
Tabla I. Áreas bajo la curva normal .......................................................... 685
Tabla II. Áreas bajo la curva de densidad de la χ 2n a la izquierda de χ 2α;n ... 686
Tabla III. Áreas bajo la curva de densidad de la tn a la izquierda de tα;n .... 687
Tabla IV. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,05................................................................................... 688
Tabla V. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,01 ................................................................................. 689
Tabla VI. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,025 ................................................................................ 690
Tabla VII. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de
F[n1, n2];α , α = 0,005 ................................................................................ 691
Tabla VIII. Números aleatorios .............................................................. 692
Tabla IX. Valores críticos Hα;[k,n–1] del contraste de Hartley de homoge-
neidad de las varianzas ........................................................................ 693
Tabla X. Valores críticos Dn;α del contraste de Kolmogorov-Smirnov para
una muestra .......................................................................................... 694
APÉNDICE II
Soluciones a los problemas propuestos ................................................... 697

Bibliografía ................................................................................................ 747
Índice de materias ..................................................................................... 753
POR QUÉ Y PARA QUÉ SE HA
ESCRITO ESTE LIBRO
¿Un libro más de Estadística? No, un libro distinto. No es un libro teórico, no

se hace hincapié en las demostraciones, no es un manual de un programa esta-
dístico. Se trata de dar una visión instrumental que combina el método de reso-
lución manual con el uso de software de estadística.
Para muchas personas que necesitan utilizar la estadística ésta es un misterio.
Recurren al software estadístico que les proporciona resultados. Al desconocer la
materia, creen en la información que obtienen sin entender cómo se ha llegado a
ella ni si es correcto ni apropiado el análisis realizado. Esta situación es similar a
la de quien no conoce una escritura jeroglífica y pretende traducir e interpretar un
texto en ese lenguaje.
En este libro se presentan los temas de forma gradual y secuenciada, especi-
ficando las hipótesis necesarias y razonando los procedimientos. Se intercalan
ejemplos y ejercicios resueltos, conjugando los métodos de resolución manual con
el uso de programas de estadística para ordenador. De esta forma se ayuda a com-
prender el procedimiento estadístico y a valorar las ventajas de los programas que
facilitan los cálculos y el manejo de grandes cantidades de datos.
¿Por qué ahora? Los nuevos planes de estudio, como consecuencia de la ade-
cuación de las titulaciones a las nuevas exigencias derivadas de la Declaración de
Bolonia, que sienta las bases para la Construcción de un Espacio Europeo de Edu-
cación Superior, EEES, hacen hincapié en la competencia. Los futuros titulados,
para abrirse camino en el campo profesional tanto en España como en el resto del
mundo globalizado en el que vivimos, han de demostrar ser expertos, conocedo-
res de las materias no sólo de forma teórica sino también acreditar ser capaces de
aplicar los conocimientos adquiridos.
Otra de las exigencias de la Convergencia Europea es que el alumno ha de ser
sujeto activo y responsable en su formación, es decir, el alumno universitario tie-
ne que ser cada vez más gestor de su aprendizaje. Unido esto a la reducción del
número de horas lectivas dedicadas a la explicación por parte del profesor, re-
fuerza la importancia de los libros y demás herramientas útiles para el aprendizaje.
XIX
XX ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
El profesor tendrá un papel más de tutor que de transmisor de conocimientos y ha

de proporcionar al alumno una visión práctica e interdisciplinar.
Especialmente útiles y necesarios son los métodos y las técnicas estadísticas
tanto en las ciencias experimentales, como en la medicina, en las ciencias socia-
les, en economía, en la ingeniería o en la industria. La estadística es una materia
fundamental en la Ciencia y en la Técnica que permite dar informaciones objeti-
vas en todos los campos.
Este libro contiene más de 500 problemas entre los resueltos con detalle y los
propuestos, de los que se incluye la solución de todos en el Apéndice II. Los
ejemplos y los problemas tratan de hacer más sencilla la comprensión de la teoría,
de hacer visible lo que es abstracto y más ameno y atractivo el aprendizaje, a la
vez que proporcionan aplicaciones que pueden sugerir otras en el lector.
¿A quién va dirigido? A todas aquellas personas que necesiten hacer uso de la
estadística, alumnos de grado y postgrado de las facultades y escuelas técnicas, in-
vestigadores y a todos aquellos que sientan curiosidad por las técnicas estadísticas
y sus aplicaciones. Esperamos que a todos les anime y les haga disfrutar al obte-
ner resultados que pueden interpretar en su campo de trabajo.
PRÓLOGO
El propósito principal de esta obra es presentar la estadística desde el punto de

vista de sus aplicaciones, sin detenerse en demostraciones ni profundizar en temas
muy especializados. Como dice Mood: «La estadística es la tecnología de la in-
vestigación científica».
En el siglo XXI no se puede concebir una investigación en las ciencias expe-
rimentales, en medicina, en las ciencias sociales, en la técnica, en la industria, que
no utilice la estadística y el ordenador, que ha facilitado el cálculo y el manejo de
gran cantidad de datos. El estudiante y el investigador de hoy necesitan analizar
los datos que recogen en su campo de trabajo y se encuentran, en numerosas oca-
siones, en situaciones de incertidumbre, lo que hace necesaria la utilización de
métodos estadísticos para sacar de su estudio mejores conclusiones.
Los métodos estadísticos son de dos tipos: descriptivos e inductivos. El obje-
to de los descriptivos es ordenar, resumir y analizar los datos recogidos, mientras
que los inductivos tratan de obtener conclusiones a partir de los datos de la
muestra analizada, es decir, a partir del conocimiento de una muestra se estable-
cen inferencias sobre la población de la que se ha obtenido dicha muestra y se
contrastan.
Este libro está dividido en cuatro partes. La primera se dedica a la estadística
descriptiva, unidimensional, si de cada elemento de la muestra se recoge infor-
mación de una sola característica, bidimensional, si se analizan dos características
de cada elemento observado. En la segunda parte se introduce la probabilidad y se
presentan distribuciones de probabilidad, para estudiar en la tercera parte la infe-
rencia estadística que permite hacer estimaciones, formular hipótesis y contras-
tarlas. La cuarta y última parte del libro se dedica a una introducción de los pro-
cesos estocásticos, la estadística espacial y la geoestadística. La geoestadística
estudia las variables numéricas Z(x) distribuidas en el espacio, o variables regio-
nalizadas, porque a cada valor observado o desconocido se asocia una posición en
el espacio. La geoestadística es una técnica relativamente reciente que tiene su ori-
gen en el estudio de las explotaciones mineras, y que hoy ha encontrado aplica-
XXII ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
ciones en la biología, en la medicina, en hidrología, en edafología, y en otros cam-

pos muy diversos, dando lugar a una rama de investigación fascinante y en con-
tinuo desarrollo.
Los catorce temas de los que se compone el libro están ordenados de forma
secuencial. Es conveniente, y recomendable, seguir el orden presentado y hacer un
razonable esfuerzo por comprender los ejemplos. Los capítulos se ilustran con
ejercicios y problemas resueltos tomados de diferentes campos, y al final de cada
uno se insertan problemas propuestos cuya solución se incluye en el Apéndice II.
Se comienza con ejercicios sencillos para pasar a resolver otros más compli-
cados o que requieren hacer uso del ordenador para facilitar los cálculos. Son mu-
chos los programas que se pueden utilizar para el análisis estadístico en un orde-
nador personal, de entre ellos hemos elegido STATGRAPHICS™1 Plus para
Windows, Versión 5.1, cuyo uso está ampliamente extendido, por ser ésta la
versión del programa más empleada en la actualidad, por su facilidad de manejo
y por los resultados gráficos que ofrece; Excel™2, Versión 2003, porque permite
formar tablas detalladas de los cálculos; DERIVE™3, Versión 6.10, para efectuar
cálculos y para el dibujo de algunas gráficas, SURFER™4, Versión 8, y la Ver-
sión 4 de GRAPHER™, para la geoestadística.
Agradecemos al analista del Departamento de Apoyo a Investigación de los
Servicios Informáticos de Apoyo a la Docencia e Investigación, Área de Infor-
mática y Comunicaciones de la UCM, Dr. D. Santiago Cano Alsúa, su continua
orientación y asesoramiento en la elección y uso del software.
Los ejercicios se resuelven a mano, haciendo uso de calculadora, hojas de cál-
culo y tablas, que se incluyen en el Apéndice I, y también, si es posible, con
STATGRAPHICS. El conjugar ambos procedimientos ayuda, entre otras cosas, a
comprender mejor el método para obtener la solución, a interpretar los resultados
que proporcionan los programas, a valorar la ayuda que supone poder hacer uso de
software, que ahorra tiempo facilitando los cálculos y que permite manejar grandes
cantidades de datos, y a desarrollar el espíritu crítico fomentando el hábito de no
aceptar sin justificación ningún resultado. Familiarizarse con la utilización de algún
programa estadístico e interpretar la salida facilita la comprensión de cualquier sa-
lida de otro programa y esto es hoy en día imprescindible en el trabajo científico.
Queremos agradecer a todas las personas que han contribuido a que este libro
se haya podido escribir, a nuestros profesores que nos han ayudado a formarnos,
a los compañeros principalmente de las facultades de Ciencias Biológicas y de
Ciencias Geológicas de la UCM por animarnos a redactarlo y por sus comenta-
rios, a los compañeros que nos han proporcionado datos, en especial a la Dra. D.a
Paloma Sevilla García y al Dr. D. Sergio Rodríguez García, ambos profesores del
1
STATGRAPHICS es una marca registrada por Manugistics Inc. and Statistical Graphics Cor-
poration. USA.
2
Excel es una marca registrada por Microsoft Corporation.
3
DERIVE es una marca registrada por Texas Instruments Incorporated.
4
SURFER y GRAPHER son marcas registradas por Golden Software, Inc.
PRÓLOGO XXIII
Departamento de Paleontología de la Facultad de Ciencias Geológicas, a los an-

tiguos alumnos que nos han alentado en esta tarea, a la Editorial Díaz de Santos,
por haber confiado de nuevo en nuestro trabajo, a la Imprenta Fernández Ciudad
por su esmero en la fotocomposición y por su saber hacer, mejorando la presen-
tación y el resultado final de esta obra, a nuestras familias por el tiempo que les
hemos sustraído durante la elaboración de este libro.
Gracias al Dr. D. Benjamín Fernández Ruiz, catedrático del Departamento de
Biología Celular, al Dr. D. Antonio Tormo Garrido, actual Decano de la Facultad
de Ciencias Biológicas, al Dr. D. Eduardo de Juana Aranzana, Presidente de la
Sociedad Española de Ornitología (SEO), y al Dr. D. Carlos Vicente Córdoba, ca-
tedrático del Departamento de Biología Vegetal I (Botánica y Fisiología Vegetal)
por su generosidad al cedernos las fotografías que ilustran la portada del libro.
Nuestro agradecimiento muy especial al Dr. D. Francisco José Cano Sevilla,
catedrático de Estadística e Investigación Operativa de la UCM y asesor del
Consejo de Coordinación Universitaria, por su valiosa colaboración en la lectura
y corrección del original. Sus acertadas observaciones nos han servido de gran
ayuda.
Queremos hacer constar nuestro homenaje póstumo y nuestra gratitud a dos
catedráticos: D. Rafael García Aráez, fallecido el pasado 28 de mayo, que fue ca-
tedrático de Matemáticas de Instituto y de la E.U.I.T. Forestal de la UPM, donde
ocupó también el cargo de Jefe de Estudios desde 1975 hasta 1986, y D. Sixto
Ríos García, el Padre de la Estadística en España, fallecido el pasado 8 de julio,
que fue catedrático de Estadística en la Facultad de Matemáticas de la UCM, Aca-
démico numerario de la Real Academia de Ciencias Exactas, Físicas y Naturales
desde 1961, Fundador y Director del Instituto de Estadística e Investigación
Operativa del CSIC y de la primera Escuela de Estadística de España. Los que he-
mos tenido la suerte de conocerlos y de trabajar con ellos no los podemos olvidar
y les estaremos siempre agradecidos.
Se lo dedicamos a todos ellos, a los futuros alumnos, a los investigadores que
necesiten hacer uso de la estadística y a todos aquellos que precisen aplicarla, para
los que hemos hecho esta obra de un modo especial, con el deseo de que les ayu-
de en su formación y en sus trabajos.
Si a las personas que utilicen este libro les resulta provechoso habremos lo-
grado nuestro objetivo y nos sentiremos satisfechos. También estaremos muy
agradecidos a todos los que nos remitan sus opiniones, sugerencias o comentarios
a la siguiente dirección: mtgmant@bio.ucm.es
LOS AUTORES
Capítulo preliminar
1
1.1. INTRODUCCIÓN
La estadística es una rama de las matemáticas con origen remoto y en conti-
nua evolución y desarrollo. Hasta el siglo XVII se entendía por estadística la re-
copilación de datos para la administración del Estado. Ya en el Imperio Romano
se hizo enumeración y recuento de soldados, medios de transporte, riquezas... y se
tiene constancia de que en tiempos de César Augusto se realizó un censo de la po-
blación. De status, o estado de las cosas, parece derivarse la palabra estadística.
Aquí se encuentra el origen de la estadística descriptiva.
Vivimos inmersos en un mundo de cifras: evolución del paro, variaciones en
los índices de precios (IPC), gastos familiares, índice de la bolsa, IBEX-35, coti-
zaciones bursátiles, número de accidentes de circulación, censo electoral, por-
centaje de personas que padecen una enfermedad, predicción del tiempo, resul-
tados de unas elecciones, porcentaje de hogares que utilizan Internet, eficacia de
una campaña publicitaria, prospecciones petrolíferas y de minas, relación entre el
número de hijos nacidos con Síndrome de Down y la edad de la madre, frecuen-
cias genotípicas en una población y frecuencias fenotípicas que son objeto de es-
tudio de la genética de poblaciones, gasto por usuario de teléfono móvil, etc. Hay
dos formas de ver los datos, la del periodista, que se ocupa de la anécdota, y la del
estadístico, que está interesado por la regularidad.
En la prensa escrita, en los medios audiovisuales, en los textos aparecen re-
cuentos y porcentajes.
En la Figura 1.1 se puede observar doble información. En los sectores se re-
presenta el número de habitantes que eran usuarios de Internet en 2006, en cabe-
za está Asia. Además, se refleja el porcentaje de usuarios de Internet en relación
al número total de habitantes de cada una de las poblaciones examinadas; en este
aspecto Asia baja al quinto lugar de las siete porciones en las que se ha dividido la
población mundial.
1
2 ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
FIGURA 1.1. Usuarios de Internet en 2006.
Se advierte que las cantidades absolutas dan una información importante,

pero más pobre que los porcentajes, si se pretende comparar resultados.
También se hace referencia a estadísticos como medias, medianas, cuar-
tiles, etc., como se observa en las Figuras 1.2. y 1.3 que aparecen a conti-
nuación.
Figura 1.2. Datos históricos de pluviometría.

CAPÍTULO PRELIMINAR 3
FIGURA 1.3. Mediana y cuartiles para retribución por cargos.
Son también frecuentes las representaciones gráficas, pues la información

se transmite mejor, y de forma más rápida y clara, con tablas y gráficos esta-
dísticos.
Los gráficos de sectores reflejan los porcentajes de las distintas modalidades
que intervienen en el estudio.
En la Figura 1.4 se representan los porcentajes de propiedad de acciones de la
Compañía Logística de Hidrocarburos (CLH), antigua CAMPSA, antes y después
de un nuevo proceso de segregación que ha permitido que participen en ella una
compañía canadiense (Enbridge), una china (China Aviation) y otra portuguesa
(Galpenergía).
FIGURA 1.4. Variación de porcentajes de propiedad de acciones.

FIGURA 1.5. Variación anual de PIB mundial y de las exportaciones de mercancías.
Los diagramas de barras permiten ver diferentes resúmenes y compararlos. En

el de la Figura 1.5 se relaciona el PIB mundial y las exportaciones de mercancías
en el comercio mundial.
FIGURA 1.6. Comparación de las precipitaciones en mm en las cuencas españolas.

En el mapa de la Figura 1.6, elaborado por el Instituto Nacional de Meteorolo-

gía y disponible en su página Web, http://www.inm.es/, se representa para cada una
de las cuencas españolas la precipitación, en mm, de los últimos cinco años.
Se observa un importante aumento de precipitación en las cuencas del Tajo,
Guadiana, Guadalquivir y Sur Mediterráneo respecto del año anterior.
En el año 2006 las precipitaciones acumuladas proporcionaron una precipi-
tación media anual de 664,06 mm. Fueron más abundantes en la vertiente atlán-
tica, con una media de 793,12 mm, que en la mediterránea, cuya media fue de 535
mm, valores que se consideran, según el INM, de carácter normal.
FIGURA 1.7. Comparación del rendimiento escolar en España con los países
de la Unión Europea.
FIGURA 1.8. Comparación del estado de la educación en la Unión Europea.

Las gráficas de las Figuras 1.7 y 1.8 hacen referencia a la educación en los pa-
íses de la Unión Europea.
Se observan en la Figura 1.7 los porcentajes de alumnos que fracasan en la en-
señanza obligatoria en algunos países de la Unión Europea, las puntuaciones
medias obtenidas por los alumnos españoles en pruebas que miden diversas ca-
pacidades y el lugar que ocupa España en relación con los 27 países estudiados en
el dominio de diversas competencias.
En la Figura 1.8, se compara el estado de la educación en los distintos países
de la Unión Europea.
Se indica, en la Figura 1.8, el porcentaje de alumnos que no continúan
estudiando después de la enseñanza obligatoria, el porcentaje de la población
con edades comprendidas entre 25 y 64 años con estudios superiores y el
porcentaje del PIB dedicado a educación en cada país, según datos de Eu-
rostat.
Los polígonos de frecuencias también sirven para comparar y representar
datos de muestras distintas. Así, en la Figura 1.9, se compara la incidencia de la
gripe en España según los diferentes grupos de edad.
En los cartogramas se reflejan sobre un mapa características que no se distri-
buyen uniformemente.
En la Figura 1.10 se compara el número de periódicos comprados por cada
mil habitantes en las distintas CC AA de España y los comprados en los diferen-
tes países de la Unión Europea.
La estadística, además de ser necesaria como parte de la cultura general, es
una herramienta imprescindible para la investigación científica. Las gráficas re-
presentadas en las Figuras 1.11 y 1.12 relacionan dos variables entre sí.
En la Figura 1.11, la latitud, en km, con la diferencia de concentración del isó-
topo oxígeno-18 en el agua de lluvia.
FIGURA 1.9. Comparación de la incidencia de la gripe en España por grupos de edad.

FIGURA 1.10. Venta de periódicos e índices de difusión por Comunidades Autónomas

en España y en diferentes países de la Unión Europea.
Se observa que hay una relación inversa entre ambas variables. Al aumentar la
latitud disminuye el oxígeno-18 presente en el agua de lluvia.
aguas de lluvia
OXÍGENO 18 (SMOW)
LATITUD (KM) (DISTANCIA AL PARALELO CORTIJO DE LA TORRE - CARCAMO)
FIGURA 1.11. Relación entre la presencia del isótopo oxígeno-18 en el agua de lluvia
y la latitud.
FIGURA 1.12. Relación entre la presencia de los isótopos oxígeno-18 y deuterio

en aguas de lluvia y en manantiales
En la Figura 1.12, se refleja la relación entre los isótopos oxígeno-18 y deuterio,

o hidrógeno pesado, medidos en tanto por mil, en aguas de lluvia y en manantiales.
En este caso, la relación entre las variables observadas es directa, al aumentar
el oxígeno-18 también aumenta el hidrógeno pesado.
La estadística trata de dar respuesta a cuestiones como las siguientes:
1. ¿Son homogéneas las muestras de minerales recogidos en terrenos dis-
tintos?
2. Estimar, a partir de muestras extraídas en una cuenca minera, el porcen-
taje de carbono y la proporción de materias minerales como arcilla, car-
bonato cálcico, sílice, óxidos de hierro que forman las cenizas en la
combustión del carbón.
3. Comparar los resultados de cruces de individuos heterocigóticos obteni-
dos en laboratorio con los valores esperados según las leyes de Mendel.
4. Contrastar si la venta de billetes de avión es homogénea en los distintos
fines de semana del año.
5. Comparar las proporciones de personas del grupo sanguíneo O (+) en dos
poblaciones aisladas geográficamente y ver si se puede aceptar que la
proporción es la misma en ambas poblaciones.
6. A partir de los datos recogidos en el último año en una comunidad autó-
noma, ¿es aceptable formular la hipótesis de equiprobabilidad de naci-
miento de varones y hembras en dicha comunidad?
7. Contrastar si se puede aceptar que los datos recogidos en una muestra ale-
atoria de una población se ajustan a una distribución normal.
8. Decidir si un medicamento es eficaz para el tratamiento de una determi-
nada enfermedad.
9. Comparar los rendimientos medios de dos grupos de trabajadores que re-

alizan la misma tarea y decidir si se puede aceptar que uno de los grupos
da mayor rendimiento.
10. ¿Es uniforme la composición química de las muestras obtenidas en dis-
tintos lugares del suelo marciano?
11. ¿El rendimiento medio de una semilla es el mismo para diferentes ferti-
lizantes, basándose en la evidencia experimental proporcionada por una
muestra para cada tipo de abono?
12. ¿Es significativamente diferente la proporción de óxidos de hierro en
las muestras del suelo de Marte de la proporción observada en una zona
desértica de la corteza terrestre?
13. Comprobar si una muestra proviene de una población dada frente a todas
las posibles alternativas, estudiando las diferencias entre la distribución
empírica y la correspondiente a la hipótesis formulada.
14. Decidir en conflictos sobre esclarecimiento de la paternidad.
15. Resolver dudas en identificación de presuntos homicidas o de cadáveres
en una catástrofe.
Aunque el origen de la estadística es remoto, esta rama de las matemáticas es de

las más modernas. El cálculo de probabilidades se desarrolló en los siglos XVIII y XIX
gracias a las contribuciones de grandes matemáticos como Pierre Fermat (1601-
1665), Blaise Pascal (1623-1662), Jacques Bernoulli (1654-1705), Abraham de Moivre
(1667-1754), Thomas Bayes (1702-1761), Pierre-Simon Laplace (1749-1827), etc.
Con la aportación del cálculo de probabilidades comienza a desarrollarse la
estadística matemática que incorpora conceptos del cálculo y proporciona proce-
dimientos para la inferencia a partir de los datos de una muestra extraída de la po-
blación objeto de estudio.
Son muchos los matemáticos que han contribuido a su desarrollo. Son desta-
cables, entre otras, las aportaciones de Johann Carl F. Gauss (1777-1855), Si-
méon-Denis Poisson (1781-1840), Augustin-Louis Cauchy (1789-1857), Paf-
nuty Chebyshev (1821-1894), Hermann A. Schwarz (1843-1921), Andrei A.
Markov (1856-1922), Emile Borel (1871-1956), William S. Gosset («Student»)
(1876-1937), Karl Pearson (1857-1936), Paul P. Lévy (1886-1971), Ronald A.
Fisher (1890-1962), Harald Cramér (1893-1985), Andrej N. Kolmogorov (1903-
1987), a quien debemos la axiomática de probabilidad, que formuló en 1933, a
partir de la cual se construye el modelo matemático de los fenómenos aleatorios.
La estadística es una buena herramienta para la construcción de la ciencia. Los
modelos estocásticos o aleatorios son esquemas capaces de simbolizar, median-
te probabilidades, fenómenos que evolucionan de forma aleatoria que son fre-
cuentes en campos tan variados como las ciencias experimentales, la medicina, la
pedagogía, la psicología, las ciencias sociales, etc. La estadística se ocupa de la
construcción de los modelos estocásticos que ayudan a tomar decisiones sujetas a
incertidumbre. Los métodos estadísticos son objetivables y útiles por ello para la
investigación en todos los campos de la actividad humana.
Se entiende por estadística el conjunto de técnicas y teorías que permiten al-

canzar los siguientes objetivos:
1. Planificar la recolección de los datos necesarios y suficientes para realizar

cualquier investigación. De ello se ocupa el Diseño de Experimentos.
2. Organizar los datos recogidos presentándolos en tablas y gráficos y cal-
cular ciertas medidas descriptivas de algunas características importantes de
la muestra, llamadas estadísticos o estadígrafos. Es la finalidad de la esta-
dística descriptiva o estadística deductiva.
3. Realizar inferencias (hipótesis) aplicables a todos los elementos de la po-
blación, basadas en los resultados de una muestra extraída de ella y medir,
en términos de probabilidad, el grado de confianza que nos merecen estas
hipótesis. Este es el objetivo de la inferencia estadística o estadística in-
ductiva.
La estadística es una ciencia construida sobre la estadística descriptiva, el cál-

culo de probabilidades, la matemática y la ciencia en general, que tiene por obje-
to el estudio de colectivos o poblaciones, y las relaciones que existen entre ellos.
Trata de hallar leyes de comportamiento de la población en general y no de cada
uno de los elementos en particular.
Los principios e ideas fundamentales son idénticos cualquiera que sea el
campo de aplicación. Hay que tener en cuenta que no se puede aplicar una teoría
sin conocerla, su desconocimiento es muchas veces la causa de su mala utiliza-
ción. La estadística proporciona unos resultados a partir de los datos recogidos. La
interpretación de los resultados obtenidos pertenece al campo de aplicación y la
mayor o menor utilidad de estos viene muy influenciada por la recogida y reco-
pilación de los datos.
La finalidad de la estadística es suministrar, en términos de probabilidad, una
medida del riesgo que se corre al tomar decisiones sujetas a vacilación o indecisión
proporcionando un criterio objetivo para tomar o no una decisión particular que ser-
virá para acertar más veces que equivocarse. La estadística permite pasar del plano
subjetivo, en el que se puede mover el investigador al analizar sus experimentos, a
un nivel de objetividad que proporcionan los contrastes de hipótesis con distintos
niveles de significación.
Los modelos estadísticos son muy importantes para analizar los experimentos.
Al contrastar si los datos de una muestra responden a un modelo conocido y acep-
tarlo con un riesgo pequeño de error, se tiene una información importante sobre la
población de la que se extrajo la muestra. Es especialmente útil en experimentos
muy caros o difíciles de realizar o muy aventurados y suponen un gran ahorro
económico y de tiempo.
1.2. CONCEPTOS GENERALES BÁSICOS

La estadística trata de simplificar conjuntos numerosos que se suelen llamar
poblaciones, porque el primer campo de aplicación de la estadística fue el de la
demografía.
Se llama población, colectivo o universo, a un conjunto homogéneo y bien de-
finido que es el objeto de estudio. Estará bien definido si dado un elemento cual-
quiera se puede afirmar con certeza si éste pertenece o no al colectivo a estudiar.
Unidad estadística, individuo u objeto es cada elemento de la población.
Ejemplos de poblaciones pueden ser: todos los españoles, o todos los niños
recién nacidos en un hospital de la Comunidad de Madrid, los cereales cose-
chados en la provincia de Segovia en los últimos siete años, las personas de más
de sesenta y cinco años que viven con sus familiares, los libros que ha puesto en
el mercado una empresa editorial desde su fundación hasta el día de hoy, los ni-
ños que antes de final de este año cumplen menos de seis años y que viven en
Madrid capital, las personas que han visitado el Museo del Prado en los últimos
doce meses, los alumnos matriculados en el presente curso académico en la
UCM, las especies arbóreas presentes en el monte Abantos, los yacimientos au-
ríferos que están explotándose en la actualidad, una gran colección de fósiles tri-
lobites, etc.
La recogida de datos se puede realizar en la totalidad de elementos que com-
ponen la población, es lo que se denomina un censo, o de una parte de la pobla-
ción, que recibe el nombre de muestra. El número de elementos de una muestra es
el tamaño muestral. Se designará por N el tamaño de la población y por n el de
una muestra.
Las poblaciones pueden ser finitas o infinitas según que el número de los
elementos que las componen sea finito o no. Si el número N de elementos de la
población es muy grande se puede tratar como si fuera infinita. Para extraer da-
tos de colectivos muy numerosos no se pueden realizar siempre censos, en al-
gunos casos por ser imposible el estudio exhaustivo de la característica en la po-
blación y en otros por su alto coste y el mucho tiempo que se tardaría en
realizarlo. El primer censo que se realizó en España en el que se recogen datos
individuales de todas las personas fue en 1778. Desde entonces se han hecho re-
cuentos periódicos de viviendas y personas que se han utilizado para realizar
proyecciones de población, anticipando las necesidades futuras en educación, sa-
nidad, vivienda, comunicaciones, etc. La renovación del padrón de habitantes y
de la estadística de la población española se realiza cada cinco años. Una infor-
mación más rápida y más económica se obtiene mediante muestras extraídas de
la población a estudiar.
A partir de los datos de las muestras, la estadística matemática estima los pa-
rámetros de la población. Ordinariamente el problema de la estimación se basa en
el muestreo aleatorio. El procedimiento mediante el cual se obtienen las muestras
de una población recibe el nombre de muestreo. El muestreo se puede realizar con
o sin reemplazamiento, en el primer caso pueden aparecer elementos repetidos en
la misma muestra y en el segundo, no. Si las muestras se extraen sin ningún cri-
terio, se dice que se ha realizado un muestreo errático o sin norma; si se eligen
por un criterio de selección personal del agente que realiza el muestreo se dice que
el muestreo es opinático o intencional; si las muestras se extraen de forma regu-
lar en el espacio, o en el tiempo, se dice que el muestreo es sistemático; mientras
que si las muestras se seleccionan mediante un procedimiento aleatorio previa-
mente definido estamos ante un muestreo aleatorio o probabilístico.
Una forma de seleccionar elementos de una población de forma aleatoria es
haciendo uso de una tabla de números aleatorios o seleccionando números al azar
en el ordenador.
En el Apéndice I se presenta la Tabla VIII de números aleatorios formada por
700 números de dos cifras seleccionados al azar que se puede utilizar para elegir
los elementos de la población que compongan una muestra aleatoria.
Por ejemplo, para elegir de una población de 8.000 personas una muestra de
tamaño 10, en primer lugar se asocia a cada elemento de la población un número
del 0001 al 8000, se elige al azar un punto de comienzo en la tabla, se leen dos co-
lumnas a la vez para conseguir números de cuatro cifras. Se puede leer de arriba
abajo, de izquierda a derecha, de abajo arriba o de derecha a izquierda. Así, si se
comienza en el tercer grupo y en la segunda fila en el séptimo número de dos ci-
fras y se eligen los números de cuatro cifras de esa fila formados por las columnas
7 y 8, 11 y 12, 15 y 16, 19 y 20, 23 y 24, y los de esas mismas columnas en la fila
cuarta de este grupo se obtienen:
7267, 3445, 1827, 1675, 9584, 2416, 8438, 0027, 2981, 7021
Como hay que descartar los números que se obtengan mayores de 8000, se
pasa al grupo cuarto y se eligen dos números más en la fila segunda formados por
los que aparecen en las columnas 7 y 8 y en las 11 y 12 que son: 1779 y 2240. De
esta forma tendríamos la siguiente selección:
7267, 3445, 1827, 1675, 2416, 0027, 2981, 7021, 1779 y 2240
Se ha obtenido así una muestra de tamaño 10 en la que no aparece ningún ele-

mento repetido, pero podría haber sido seleccionado un elemento más de una vez.
Si se quiere obtener una muestra sin reemplazamiento y se obtuviera algún
número repetido, se descartaría también y se elegiría el siguiente número mante-
niendo el procedimiento de selección indicado al comienzo. Así hasta completar
los números necesarios para formar la muestra.
Utilizando el programa STATGRAPHICS, se pueden elegir diez números al
azar, del siguiente modo:
Se abre el programa, se selecciona Realizar un análisis que no requiere datos
y a continuación se pulsa Aceptar. En la nueva ventana se escoge Examinar una
distribución de probabilidad y se pulsa Aceptar. Se abre así otra ventana y entre
las opciones que aparecen se elige la Uniforme discreta y también se pulsa
Aceptar. Pulsando el botón derecho del ratón, se abren las Opciones de análisis
que permiten establecer los límites inferior y superior, 1 y 8.000 respectiva-
mente, de la distribución uniforme discreta y se introducen pulsando Aceptar. Se
escoge, entre las Opciones tabulares que se abren, pulsando en el icono amarillo,
Números aleatorios y se pulsa Aceptar. De nuevo pulsando el botón derecho del
ratón sobre la ventana correspondiente a Números Aleatorios se elige Opciones
de ventana para indicar el tamaño de la muestra, en este caso 10 y se pulsa de
nuevo Aceptar. El cuarto icono empezando por la izquierda, Guardar resultados,
permite grabar Números aleatorios para Dist.1 y elegir el nombre de la columna
en la que aparecerán los diez números seleccionados. Por defecto esta columna se
indicará por ALEAT1 y se pulsa Aceptar. Una muestra seleccionada por STAT-
GRAPHICS es:
5178, 6566, 2328, 2869, 5468, 6843, 7520, 2807, 4475, 3766
Cada vez que se repite la operación de Guardar resultados, el programa pro-

porciona una muestra distinta que se puede grabar sobre la columna ALEAT1, eli-
minando los resultados obtenidos anteriormente, o en otra columna conservando
también aquellos.
1.3. TIPOS DE MUESTREO ALEATORIO EN POBLACIONES

FINITAS
Hay distintos procedimientos aleatorios para elegir de los N elementos de una

población n que van a formar parte de una muestra:
1. Muestreo aleatorio simple. Se selecciona el primer elemento de la muestra

por un procedimiento aleatorio, se anota la característica a estudiar y se repone en
la población, por lo que podrá ser seleccionado de nuevo para la muestra con la
misma probabilidad que en la extracción anterior. Es un muestreo con reempla-
zamiento. En este tipo de muestreo las poblaciones finitas no se agotan y el re-
sultado de cada extracción es independiente de los anteriores. Se pueden extraer
muestras de tamaño n > N, tamaño de la población.
El número de muestras posibles de tamaño n de una población de N elemen-
tos que se pueden extraer por este procedimiento es el número de variaciones con
repetición de N de orden n, es decir, VRN,n = Nn. Si no interesa el orden en que se
han recogido los elementos de la muestra, el número de muestras posibles es
 N + n − 1
CRN ,n =   .
 n
2. Muestreo irrestrictamente aleatorio. Cada elemento que se elige para for-
mar parte de la muestra no se devuelve a la población. Es un muestreo sin reem-
plazamiento. En este caso en cada elección de un elemento para la muestra la pro-
babilidad de elegir un elemento determinado de la población depende de los se-

leccionados previamente.
El número de muestras posibles sin reemplazamiento de tamaño n de una po-
blación de N elementos es el número de variaciones ordinarias de N de orden n,
N!
esto es, VN ,n = . Como en el caso anterior, si sólo interesan los ele-
( N − n)!
mentos extraídos y no el orden en que se han obtenido, el número de muestras po-
 N N!
sibles es CN ,n =   = . Si el tamaño de la población es tan grande
 n  n !( N − n)!
que se puede suponer que es infinita este muestreo difiere poco del muestreo ale-
atorio simple.
3. Muestreo estratificado. Si la población que se pretende estudiar no es ho-

mogénea, igual que si se estudian poblaciones con diferentes clases de edad o de
nivel de estudios, así como si se realiza un muestreo en un corte geológico que
presenta diferentes tipos de estratos, el muestreo más indicado es el estratificado.
Para ello se divide la población objeto de estudio en capas o estratos homogéne-
os y a continuación se elige una muestra en cada una de las capas. Si la elección
de los elementos en cada estrato se realiza por muestreo aleatorio simple, se
dice que se realiza un muestreo aleatorio estratificado.
En un corte geológico es fácil observar los estratos, pero no es sencillo dar re-
glas fijas para la subdivisión en capas de una población. En general, si los estratos
están bien elegidos, la precisión aumenta con el número de ellos; pero no se
debe incrementar el número hasta tal punto que la complicación inherente al
procedimiento no compense el aumento de precisión conseguido. Por ejemplo, se
puede considerar la población dividida en clases según la edad: [0,18), [18,45),
[45,65), [65, →). Según Azorín Poch [2], el número k óptimo de estratos es:
2ncn
kopt = siendo n el tamaño de la muestra, cn el coste del muestreo por unidad
cs
de muestreo y cs el coste del muestreo por estrato. Como puede verse, el criterio
no es puramente matemático sino económico.
Una vez subdividida la población en estratos hay que determinar qué parte de
la muestra se debe extraer de cada estrato. Se entiende por afijación el procedi-
miento estadístico para repartir el tamaño de la muestra entre los diferentes es-
tratos. Designando por N el tamaño de la población N1, N2, …, Nk los tamaños de
cada uno de los estratos, n el tamaño de la muestra y n1, n2,…, nk los de las sub-
k
muestras correspondientes a cada estrato, siendo ∑ ni = n, se pueden distinguir
dos tipos de afijación: i =1
a) Afijación uniforme, si el tamaño de las submuestras correspondientes a

cada estrato es el mismo, es decir, si
n
ni = , ∀i = 1, 2, ..., k
k
b) Afijación proporcional, si el tamaño de las submuestras es proporcional al

número de elementos del estrato correspondiente, es decir, si
n1 n n n
= 2 = ... = k =
N1 N 2 Nk N
4. Muestreo por conglomerados o áreas. Se llama así al muestreo en el que

antes de seleccionar los elementos de la muestra se divide la población objeto de
estudio en superficies o áreas heterogéneas, los conglomerados o unidades de
muestreo de orden 2, y en cada una de ellas se eligen elementos para formar la
muestra.
Por ejemplo, las Comunidades Autónomas se pueden considerar conglome-
rados en los que se divide España. Las distintas naciones de la Comunidad Euro-
pea también son conglomerados o áreas en los que se puede dividir la población
de dicha comunidad.
Este muestreo es bietápico si primero se obtiene una muestra de los conglo-
merados y luego se efectúa una nueva selección dentro de los conglomerados pre-
viamente elegidos. Si de forma análoga se realiza el muestreo considerando uni-
dades de muestreo de orden superior a 2, se dice que el muestreo es polietápico.
Como explica Azorín Poch [2] en la práctica con frecuencia se usan métodos
de muestreo que son combinación de los anteriores: los denomina métodos
mixtos.
En la evaluación de depósitos minerales la toma de muestras es un proceso
muy específico. Se distinguen tres tipos de muestreo: muestreo por puntos, mues-
treo lineal y muestreo volumétrico, a los que no nos referiremos. Se pueden en-
contrar en cualquier manual de evaluación de yacimientos minerales.
Una vez elegida una muestra, cada uno de sus elementos se puede describir
mediante uno o varios caracteres como pueden ser la talla, la edad, el número de
empleados de una empresa, la profesión, el sexo, el grupo sanguíneo, el número
de hermanos, el número de personas que componen la unidad familiar, etc. En
cada unidad muestral se puede medir el porcentaje de sílice, de otros óxidos
como alúmina, trióxido de hierro, o metales que contiene, etc.
1.4. TIPOS DE CARACTERES
Un carácter que se observe en un individuo de la población a estudiar, o de

una muestra extraída de esa población, puede ser cualitativo o cuantitativo.
1.4.1. Caracteres cualitativos

Un carácter se dice que es cualitativo si no es medible, sino que presenta mo-
dalidades o categorías.
Se clasifican los individuos, o elementos de la población, utilizando una es-
cala nominal, es decir, asignándoles un nombre, un símbolo.
Los más sencillos presentan dos modalidades, es decir, son caracteres dicotó-
micos, por ejemplo el sexo; {varón, mujer}; la nacionalidad si sólo se distingue en-
tre {español, extranjero}; el factor Rh {positivo, negativo}; si un árbol supera o no
el metro de altura {1 = SÍ, 0 = NO}; los tipos de isótopos {estable, inestable}, etc.
La característica puede presentar más de dos modalidades que habrá que fijar
antes de recoger las observaciones. Por ejemplo: el fenotipo del grupo sanguíneo
{0, A, B, AB}; el estado civil {soltero, casado, viudo, divorciado, separado}; la ti-
tulación de un universitario; en etología se clasifican los animales en: {activos,
inactivos, alertas, agresios, sometidos}; el genotipo del grupo sanguíneo {OO,
OA, AA, OB, BB, AB}, el lugar de nacimiento, las zonas postales, los usos de la
tierra {BP, Sa, Hu, CC, ZDes, ZDef, ZNoH, ZU}, entendiendo por BP bosques
perennes, Sa sabanas, Hu humedales, CC campos de cultivo, ZDes zonas desér-
ticas, ZDef zonas deforestadas, ZNoH las zonas cubiertas de nieve o hielo, ZU las
zonas urbanas. Son también cualitativos los números de teléfono, etc. Las moda-
lidades deben estar bien definidas, ser excluyentes, es decir, ningún «individuo»
o «elemento» puede pertenecer a más de una categoría, y exhaustivas, esto es,
cada «individuo» o «elemento» ha de pertenecer a una de ellas, etc.
Las modalidades permiten clasificar a los individuos. Cada una de las moda-
lidades se denomina atributo. Los atributos o categorías no se pueden ordenar, se
pueden permutar y los resultados obtenidos serán los mismos. Si las modalidades
se representan por números naturales, por ejemplo 1 = «español» y 0 = «no es-
pañol» estos números hay que entenderlos como etiquetas sin poder establecer
una ordenación, ni una medida, ni se pueden calcular medias, medianas, etc.
para resumir numéricamente los resultados, sólo se pueden calcular frecuencias y
porcentajes.
La escala nominal es la forma más sencilla de escala, se utiliza para identifi-
car el nombre que se le asigna a cada elemento, sólo distingue igualdad y desi-
gualdad.
1.4.2. Caracteres cuantitativos

Un carácter se dice que es cuantitativo si es numerable o si es medible.
Por ejemplo, es numerable el número de alumnos de una clase, el número de
personas que habitan cada vivienda en Madrid capital, el número de hijos de una
familia. Son medibles: las tallas, el diámetro de un árbol a la altura de 1,30 m del
suelo, la altitud de un lugar sobre el nivel del mar, etc.
A los caracteres cuantitativos se les asocian las variables. Hay dos tipos de va-
riables: discretas y continuas.
• Una variable discreta procede de un recuento, entre dos de sus valores no

puede tomar ningún valor o sólo un número finito de ellos.
Por ejemplo: el número de hijos, entre 3 y 4 no puede tomar ningún valor y
entre 3 y 5 sólo puede tomar el valor 4. Son variables discretas el número de hijos
de una familia, la edad en años cumplidos, el número de componentes de una uni-
dad familiar.
Otras variables discretas son las que representan ordenaciones; por ejemplo el
orden de llegada a meta de los participantes en una carrera, 1,2,…,n, no se tiene
información sobre la distancia entre el primero y el segundo. Los valores de este
tipo de variables se suelen presentar ordenados de menor a mayor.
Dos valores de una variable discreta se pueden comparar para ver si son
iguales o si uno de ellos es menor o mayor que otro. Los valores de este tipo de
variables se miden en una escala ordinal que, además de distinguir entre igualdad
y desigualdad, permite una ordenación de los objetos o individuos.
En geología se utiliza una escala ordinal, la escala de Mohs, escala con diez
grados de dureza de los minerales, basada en el principio de que un mineral
duro puede rayar uno blando pero no recíprocamente. La escala comienza con el
talco al que le asigna dureza 1 y termina con el diamante, al que le hizo corres-
ponder dureza 10.
Escala de Mohs:
1. Talco, que se puede rayar fácilmente con la uña.

2. Yeso, que raya al talco y se raya con la uña con más dificultad.
3. Calcita, raya al yeso y se puede rayar con una moneda de bronce.
4. Fluorita, raya a la calcita, se puede rayar con un cuchillo.
5. Apatito, raya la fluorita.
6. Ortosa o feldespato, raya el apatito, se puede rayar con una lija de acero.
7. Cuarzo, raya la ortosa, el apatito y el vidrio.
8. Topacio, raya el cuarzo como el papel de lija.
9. Corindón, raya el topacio. Son tipos de corindón el zafiro y el rubí.
10. Diamante, el más duro de los minerales, raya todos y no es rayado por
ninguno.
También es una escala ordinal la escala de Richter, que desde 1935 se usa
para clasificar la intensidad de los terremotos de 0, que corresponde a los de me-
nor intensidad, a la clase 8, de máxima intensidad.
Otra escala ordinal sería la que permite ordenar ciertos electrodomésticos según
el fallo: 0 = «no fallo», 1 = «fallo leve», 2 = «fallo moderado», 3 = «fallo grave».
Es frecuente encontrar variables de tipo ordinal en economía para evaluar las
preferencias de los consumidores y en psicología para comparar test de aptitud.
• Una variable continua procede de realizar medidas. Entre dos valores dados
de la variable son posibles todos los intermedios.
Son variables continuas las medidas de longitud, las tallas, los pesos, la altura de
un estrato, el diámetro de un cráter, la altitud de un lugar sobre el nivel del mar, la tem-
peratura en grados centígrados, °C, o grados Celsius, la temperatura en grados Kelvin.
Se pueden distinguir dos tipos de variables continuas según se midan en es-
cala de intervalos o en escala de razón.
a) Si los valores se pueden comparar, ordenar y se pueden establecer igual-
dades de intervalos o diferencias entre ellos, se dice que se miden en es-
cala de intervalos. Un incremento de una unidad en el valor de la variable
representa el mismo cambio en la magnitud de la variable con indepen-
dencia del lugar en la escala.
Por ejemplo, la medida de la temperatura en grados centígrados por
medio del termómetro. La escala de temperaturas en grados centígrados es
una escala de intervalos, 0 °C representa la temperatura de congelación del
agua y 100 °C es la temperatura a la que se evapora el agua y existen en
esta escala temperaturas bajo cero. La escala de temperaturas en grados
Celsius es relativa porque el cero se fijó arbitrariamente.
También se miden en escala de intervalos las horas del día, los
días del año, etc.
Otro ejemplo de escala de intervalos es la medida del pH, que es el lo-
garitmo cambiado de signo de la concentración de iones hidrógeno de
una solución. El pH se mide con el papel tornasol o con más exactitud con
el pHmetro que permite leer hasta 0,01 unidades de pH. En esta escala los
valores de 0 a 7 indican que la solución es ácida, tanto más ácida cuanto
más próximo a 0, de 7 a 14 que es alcalina o básica, más básica cuanto
más alto sea el valor y el pH = 7 es neutro.
Para las variables en escala de intervalo se pueden calcular estadísticos
como la media, la mediana y la desviación típica.
b) Si además de poder comparar, ordenar y establecer igualdades de dife-
rencias también hay un cero absoluto que representa la ausencia completa
de la variable medida, se dice que la variable se mide en escala de razón o
proporcional. En una escala de razón los valores se pueden comparar, or-
denar, comprobar la igualdad de diferencias y la igualdad de razones o de
cocientes. Por ejemplo 80 kg/40 kg es lo mismo que 60 kg/30 kg.
Son variables medidas en proporción, o en escala de razón, las longitudes de

segmentos en la recta, los pesos, espesores, volúmenes, la edad, etc. También las
alturas sobre el nivel del mar, pues podemos decir que una ciudad que está a
1.000 m sobre el nivel del mar está a doble altitud que la situada a 500 m sobre
el nivel del mar.
Otras variables medidas en escala de razón son la edad de una persona o el

sueldo mensual.
Otro ejemplo de medida proporcional o en escala de razón es la escala abso-
luta de temperaturas, la escala Kelvin. En esta escala cero grados es la tempera-
tura más baja posible desde un punto de vista termodinámico. El cero absoluto de
la escala Kelvin, es – 273,15 °C, la temperatura a la cual la energía del movi-
miento molecular es nula. En la escala Kelvin no puede haber temperaturas ne-
gativas. La temperatura en grados Kelvin se obtiene sumando 273,15 a la tempe-
ratura en grados centígrados. Por tanto, la medida de la temperatura en grados
Kelvin es una medida en escala de razón o proporcional, mientras que en grados
Celsius es sólo en escala de intervalos.
1.5. NOCIONES BÁSICAS DEL PROGRAMA STATGRAPHICS

PLUS 5.1 PARA WINDOWS
Para entrar en el programa STATGRAPHICS Plus 5.1 desde el arranque del

ordenador, se pulsa el botón Inicio y se busca entre los programas instalados
STATGRAPHICS Plus 5.1. En él encontrará un icono con el nombre Sgwin.
Al pulsar sobre ese icono, se abre el programa, apareciendo una ventana con
el título <SinNombre>, delante de otra, StatFolio, que ocupa la pantalla entera y
que es la ventana principal del programa.
En la Figura 1.13. que aparece a continuación se ha copiado esta ventana en
escala de grises, aunque en pantalla sale en color.
En esa ventana se observa que en la parte superior aparece la barra del Menú
Principal: Archivo, Edición, Gráficos, Descripción, Comparación, Dependencia,
Avanzado, SnapStats!!, Ver, Ventana, Ayuda.
Colocando el puntero del ratón sobre cada una de estas palabras y, pulsando el
botón izquierdo, se despliega el submenú correspondiente.
Debajo de la línea del Menú Principal se ve una línea de iconos. Colocando el
puntero del ratón sobre cada uno de ellos indica la opción a la que conducen: Abrir
StatFolio, Guardar StatFolio, Abrir archivo de datos, Guardar archivo de datos,
Cortar, Copiar, Pegar, Deshacer, Imprimir, Vista preliminar, Gráfico de Disper-
sión, Gráfico de caja, Histograma, Resumen estadístico, Regresión múltiple, Grá-
ficos X-bar y R, Análisis de capacidad, Predicción, Abrir archivo de diseño, Análi-
sis cluster, Modelos lineales generales, StatAdvisor, StatWizard, Ayuda, Evaluar.
En la parte central se ve una ventana <SinNombre>, con una rejilla en el án-
gulo superior izquierdo, y en la parte inferior de la ventana principal, en la barra
FIGURA 1.13. Ventana del programa STATGRAPHICS para introducir datos.
de tareas hay cuatro ventanas minimizadas del corriente StatFolio: la primera, un

bloc de notas con el mismo título que la ventana abierta SinNombre, en la que se
pueden escribir observaciones o explicaciones relativas a los datos; la segunda,
StatAdvisor, en la que el programa escribe explicaciones y ayudas para interpre-
tar los resultados de los procedimientos que se utilicen, se podría decir que es la
ventana del intérprete estadístico; la tercera, StatGallery en la que el programa
volcará los resultados que vaya generando tanto texto como gráficos; y por últi-
mo, StatReporter, que es una ventana con un procesador de textos que se puede
utilizar para escribir un informe personalizado que permite incluir texto o gráficos
generados por el programa con las opciones Cortar y Pegar. El StatFolio se
puede grabar y volver a leer.
La ventana central, que aparece por defecto con el título <SinNombre>, es la
que se utiliza para introducir los datos. En esta ventana se pueden escribir direc-
tamente los datos o se puede traer a pantalla un archivo de datos del programa o
un archivo que se haya guardado con antelación.
Para abrir un archivo guardado se siguen los siguientes pasos desde la venta-
na principal, StatFolio, se pulsa:
Archivo → Abrir → Abrir Datos
Se busca el archivo deseado y, marcando éste en la ventana pequeña que apa-

rece, se pulsa el botón Abrir y se verá cómo se rellenan las celdas de la hoja de
datos.
Para introducir nuevos datos se deben seguir los pasos siguientes: Se parte de
la hoja de datos de STATGRAPHICS Plus 5.1 que tiene por título <SinNom-
bre> en la que el cursor aparece situado en la casilla 1 de la primera columna
Col_1. Cada columna de esta hoja de cálculo representa una variable.
Al señalar la columna con el botón izquierdo del ratón, aparece esta columna
en negro y, si ahora se pulsa en el botón derecho del ratón, se despliega un menú
en el que se puede elegir: Cortar, Copiar, Pegar, Insertar, Borrar, Modificar Co-
lumna, Generar Datos, Recodificar Datos,…, Guardar Fichero de Datos, etc.
La opción Modificar Columna conduce a una ventana que permite definir esa
columna según se necesite. Se introduce el nombre de la variable, con 32 carac-
teres como máximo, se selecciona el ancho de la columna y el tipo de datos a in-
troducir, se pasa a la columna siguiente, se repite el proceso y cuando no se re-
quieran más columnas, al aparecer la siguiente, se pulsa el botón Cancelar.
Desde este momento se trabaja sobre el fichero de la misma forma en que se tra-
baja sobre cualquier hoja de cálculo en el entorno Windows. Para modificar in-
formación lo primero que hay que hacer es seleccionarla.
Para seleccionar una variable basta con pulsar con el botón izquierdo del ratón
sobre su título. Para seleccionar dos o más variables adyacentes se pulsa con el
botón izquierdo del ratón sobre el título de la primera y se arrastra el ratón sin sol-
tarlo por los títulos de las diferentes variables a considerar. Para seleccionar toda
la hoja de cálculo se pulsa con el botón izquierdo del ratón en la celda de inter-
sección de los títulos de las columnas con los números de filas.
Para modificar datos previamente hay que seleccionarlos. Si no se han selec-
cionado anteriormente los datos, ni siquiera se iluminan las opciones de los menús
de STATGRAPHICS referentes a las modificaciones.
Para introducir datos se pulsa con el botón izquierdo del ratón sobre el nom-
bre Col_1, se observa que toda la columna se ensombrece; si ahora se pulsa en el
botón derecho del ratón y se elige Modificar Columna, en el campo Nombre se es-
cribe el nombre de la variable, en el campo Comentario se puede introducir una
información sobre el contenido de la variable y en el campo Tipo se elige el
tipo de variable que se quiere introducir:
— Numérica, en coma flotante, con el número de decimales que se deseen

para cada dato. Admite 20 dígitos como máximo.
— Carácter que no puede ser tratado numéricamente. Admite hasta 70 ca-
racteres de longitud.
— Entera, sin decimales. La longitud máxima es de 20 dígitos.
— Decimal con un número fijo de cifras decimales que puede ser como má-
ximo 9. Este número de cifras se introduce en el campo situado a la dere-
cha de la opción. La longitud máxima de la variable es de 20 dígitos
contando el que ocupa la coma decimal.
— Fórmula, se utiliza para introducir una fórmula que afecte a una variable
o conjunto de variables previamente seleccionadas. A continuación se
pulsa el botón Definir y se obtiene la ventana Generar Datos, en cuyo
campo Expresiones se introduce la fórmula deseada y pulsando el botón

Mostrar se obtiene el valor buscado.
Con la opción Fórmula también se puede generar una nueva variable a partir
de otras existentes seleccionándolas previamente, introduciendo en el campo
Expresiones la fórmula que la defina utilizando operadores, del siguiente modo:
una vez rellena convenientemente la caja de diálogo de Generar Datos se pulsa
el botón Aceptar y se obtiene la nueva variable. Pero así los valores de la nueva
variable sustituyen a los de la antigua en su misma columna de la hoja de cálcu-
lo y sin cambiar el nombre. De este modo, al guardar el fichero se perderán los
valores de la variable antigua. Para evitar este problema, antes de abrir Generar
Datos se sitúa el ratón en una columna en blanco de la hoja de cálculo para se-
leccionarla, así una vez generados los valores de la nueva variable se incorpora-
rán al fichero de datos en la columna en blanco seleccionada. De este modo, ten-
dremos en el fichero tanto la variable inicial como la nueva variable generada. Se
puede aceptar el nombre que aparece por defecto o cambiarlo con Modificar Co-
lumna.
Se dispone de los siguientes operadores:
• Operadores aritméticos:
Adición x+y
Sustracción x-y
Multiplicación x*y
División x/y
Potencia x^y
• Operadores de relación:
Igualdad x=y
Desigualdad x<>y
Mayor que x>y
Mayor o igual que x>=y
Menor que x<y
Menor o igual que x<=y
Operadores lógicos:
Conjunción x&y
Disyunción x|y
Negación ~x
• Operadores de generación:
COUNT (a,b,p) da un vector numérico secuencial empezando con a, termi-
nando en b y con paso p.
FIRST (n) genera el valor 1 para las primeras n filas en el fichero y cero para
el resto.
LAST (n) genera el valor 1 para las últimas n filas en el fichero y cero para el resto.
ROWS (n,m) genera el valor 1 para las filas desde la n hasta la m en el fi-
chero y cero para el resto.
RANDOM (n) genera el valor 1 para n filas del fichero seleccionadas alea-
toriamente y cero para el resto.
• Operadores de selección:
CELL (nombre, n) selecciona el valor de la fila n de la variable (nombre).

TAKE (nombre, n) selecciona los primeros n valores (desde la fila 1 hasta la
fila n) de la variable (nombre).
TAKELAST (nombre, n) selecciona los últimos n valores (las últimas n fi-
las) de la variable (nombre).
FIRSTROWS (nombre, n) selecciona los primeros n valores (desde la fila 1
hasta la fila n) de la variable (nombre), reemplazando el resto por códigos de va-
lores desaparecidos.
LASTROWS (nombre, n) selecciona los últimos n valores (las últimas n fi-
las) de la variable (nombre), reemplazando el resto por códigos de valores desa-
parecidos.
COMPRESS (nombre, cond_lógica) selecciona los valores de la variable
(nombre) que cumplen la condición lógica especificada.
SELECT (nombre, cond_lógica) selecciona los valores de la variable (nom-
bre) que cumplen la condición lógica especificada, reemplazando el resto por có-
digos de valores desaparecidos.
DROP (nombre, n) selecciona los primeros n valores (desde la fila 1 hasta la
fila n) de la variable (nombre), y los elimina, dando como resultado el resto de
valores de la variable no borrados.
DROPLAST (nombre, n) selecciona las últimas n filas de la variable (nom-
bre) y los elimina, dando como resultado el resto de valores de la variable no bo-
rrados.
El programa por defecto asigna a todas las variables el tipo Numéricas.

Una vez preparado el fichero, seleccionando el tipo de variable para cada co-
lumna se introduce cada dato en su celda correspondiente y se pulsa Enter para
escribir el siguiente. Al terminar de escribir los datos de una variable se pasa a la
columna siguiente, y completados todos, se graba el fichero pulsando
Archivo → Guardar Como → Guardar Datos Como
Y en la ventana emergente aparecerá un campo para escribir el nombre. Se es-

cribe, por ejemplo, Datos ejemplo1 y se pulsa el botón Guardar. En ese momen-
to la ventana cambia el nombre a Datos ejemplo1.sf3
FIGURA 1.14. Ejemplo de introducción de datos.
En la ventana de la Figura 1.14, se puede ver un ejemplo.

Si se graban distintos archivos para un mismo trabajo, el programa lo hace
con diferentes extensiones:
Archivo de Datos: *.sf3

StatFolio: *.sgp
StatGallery: *.sgg
StatReporter: *.rtf
Para generar una columna mediante una fórmula se coloca el cursor con el ra-
tón sobre la nueva columna a construir y pulsando en el botón izquierdo se se-
lecciona la columna. Se pulsa, con la columna seleccionada, el botón derecho del
ratón y se elige Modificar Columna eligiendo en la ventana emergente 䉺 Fórmula
y pulsando el botón Definir se ve una ventana que permite escribir la expresión
para generar la columna. Para ello se pueden utilizar como variables las columnas
ya incluidas y los operadores que aparecen en una lista, además de un teclado nu-
mérico con las operaciones aritméticas.
Una vez construida la expresión, si se pulsa el botón Mostrar se ven las pri-
meras celdas de la nueva columna. Pulsando el botón Aceptar dos veces, se ve la
ventana de Modificar Columna completa, y pulsando de nuevo Aceptar se rellena
la nueva columna.
En los capítulos siguientes, se verán distintos modos de hacer uso de un ar-
chivo de datos grabado.
1.6. ETAPAS DE UN ESTUDIO ESTADÍSTICO
En el proceso de investigación en cualquier campo se comienza con la plani-

ficación y el diseño. A continuación se organiza la recogida de datos los cuales se
procesan, se analizan, se representan en gráficas y se resumen numéricamente. La
fase siguiente es la interpretación por parte del experto en esa materia, y a conti-
nuación se procede a su publicación.
Antes de realizar un estudio estadístico se nos presenta un campo de trabajo
en el que interesa estudiar una característica particular, que se denomina un ca-
rácter. El campo de trabajo es la población objeto de estudio, generalmente un
conjunto numeroso que contiene toda la información y que no es posible analizar
exhaustivamente.
Por ello se comienza por elegir una muestra con ayuda del diseño experi-
mental. En cada una de las unidades estadísticas que componen dicha muestra se
observa el carácter, que puede ser cualitativo o cuantitativo.
Si se observa un carácter cualitativo, el estudio termina con la construcción de
tablas y el resumen gráfico.
Si se observa un carácter cuantitativo, además de construir las tablas y gráfi-
cas se pueden resumir los datos de la muestra en unos números, los estadísticos o
estadígrafos, que se utilizarán para estimar parámetros, los cuales permiten des-
cribir algún aspecto de la población y realizar inferencias, formular hipótesis, con-
trastar las hipótesis y tomar decisiones, midiendo en términos de probabilidad el
riesgo que se asume al tomar una decisión particular.
La parte de la estadística que se ocupa de ordenar, resumir gráficamente los
datos de la muestra y calcular los estadígrafos es la estadística descriptiva. La que
se ocupa de estimar los parámetros, formular y contrastar hipótesis y medir el ries-
go al aceptar o no una hipótesis formulada es la inferencia estadística.
Son tres las etapas fundamentales en todo proceso estadístico:
䊏 La descripción, o elaboración de tablas, representaciones gráficas, deter-
minación de valores característicos, los estadísticos.
䊏 El análisis, construcción de un modelo teórico que permita explicar los su-
cesos correspondientes a los fenómenos en estudio.
䊏 La predicción, es decir, la utilización de la teoría construida para anticipar
los resultados de nuevas pruebas o experiencias.
La complejidad de los fenómenos que se presentan a la investigación y la dis-

ponibilidad de ordenadores personales dotados de programas estadísticos, con la
gran ayuda que esto supone para facilitar el cálculo y realizar gráficas, hace que
hoy en día los investigadores en todos los campos del saber utilicen cada vez más
las técnicas estadísticas.
Este libro tiene como objetivo presentar los conceptos fundamentales, las
técnicas estadísticas y los métodos adecuados que, una vez conocidos, permitan
hacer un buen manejo de programas estadísticos en el ordenador, en concreto
STATGRAPHICS1 Plus para Windows, Versión 5.1, cuyo uso está muy difundido,
e interpretar correctamente los resultados que ofrece el programa Excel, Versión
2003, SURFER, Versión 8, y GRAPHER, Versión 4. No se pretende pues, hacer
hincapié en demostraciones ni tampoco hacer una presentación exhaustiva de
todas las técnicas estadísticas.
En los siguientes capítulos, que se han agrupado en cuatro partes, se presentan
estas técnicas. Los capítulos de la primera parte se refieren a la estadística des-
criptiva unidimensional y bidimensional, los de la segunda a la probabilidad y las
distribuciones de probabilidad necesarias, para abordar la tercera parte que se de-
dica a la inferencia estadística. Una introducción a los procesos estocásticos, a la es-
tadística espacial y a las técnicas geoestadísticas constituye la cuarta parte del libro.
1
STATGRAPHICS es una marca registrada por Manugistics Inc. and Statistical Graphics Cor-
poration. USA.
Primera parte
Estadística descriptiva
unidimensional 2
2.1. INTRODUCCIÓN
Todas las ciencias comienzan por una fase descriptiva. No se pueden analizar
causas, ni hacer predicciones antes de describir con exactitud el campo de estudio.
El objeto de este tema es estudiar cómo realizar un análisis descriptivo uni-
dimensional.
La primera fase de un estudio estadístico consiste en ordenar y resumir los
datos obtenidos en la muestra elegida de la población objeto de estudio y
presentarlos en tablas, gráficas y, si es posible, dar características numéricas
que los resuman o permitan comparar esos datos con los obtenidos por otros
investigadores. La estadística descriptiva se limita a sintetizar y describir los
datos recogidos en las observaciones de los individuos, o unidades estadísticas
que componen la muestra. Cuando se observa en cada unidad estadística un
solo carácter recibe el nombre de unidimensional. Si el carácter que se obser-
va es cualitativo, el trabajo descriptivo termina con la organización de los re-
sultados en tablas y representaciones gráficas. Si se observan caracteres cuan-
titativos, que son los más interesantes, la descripción se amplía con el cálculo
de algunos valores que sintetizan el conjunto de datos recogidos. Los valores
que se observan en una muestra originan el concepto de variable estadística
que se indicará con una letra minúscula x, y, z,... Los valores de la variable es-
tadística x, es decir, x1, x2,…, xn son los resultados de la observación de la va-
riable x en los n elementos que constituyen la muestra. Se reservan las letras
mayúsculas X, Y, Z,… para las variables aleatorias cuyos valores son todos los
resultados de la observación de la variable en los N elementos que componen
la población.
Por ejemplo, el primer paso para seleccionar materiales idóneos para la extracción
de aluminio de los residuos de explotaciones mineras consiste en la recogida de
muestras y análisis geoquímico de éstas. Así, E. Solano Oria extrajo 29 «muestras
de material» en la zona minera de la sierra de Cartagena y obtuvo el % de Alú-
31
mina (Al2O3) en cada una de ellas. Cada una de estas extracciones es una unidad
estadística de este estudio y el % de Alúmina es la variable que se observa en cada
unidad. Los resultados obtenidos son los siguientes:
42,50 19,10 32,67 18,88 25,10 24,50 6,60 17,10 16,12 10,48 11,30
15,02 10,80 8,46 6,10 10,48 23,54 17,37 10,33 15,91 19,12 16,05
6,65 7,52 13,20 19,76 18,25 13,05 13,32
Para resumir estos datos se pueden introducir en el programa STATGRA-

PHICS y realizar un análisis unidimensional que proporciona los siguientes re-
sultados:
Análisis Unidimensional-Alúmina
Resumen de procedimiento.
Datos: Alúmina.
29 valores comprendidos desde 6,1 hasta 42,5.
Gráfico de dispersión
0 10 20 30 40 50
Alúmina
Resumen estadístico para la Alúmina
Tamaño de la muestra n = 29.

Media = 16,1821.
Mediana = 15,91.
Moda = 10,48.
Media geométrica = 14,5188.
Varianza = 64,6607.
Desviación típica = 8,04119.
Error estándar = 1,49321.
Mínimo = 6,1.
Máximo = 42,5.
Rango = 36,4.
Primer cuartil = 10,48.
Tercer cuartil = 19,1.
Rango intercuartílico = 8,62.
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 33
Coeficiente de asimetría = 1,45443.

Asimetría tipificada = 3,19755.
0 10 20 30 40 50
Alúmina
Coeficiente de curtosis = 3,09889.

Curtosis tipificada = 3,40643.
Coeficiente de variación = 49,692%.
Suma = 469,28.
Como no son muchos los valores observados, se pueden realizar los cálculos
sin necesidad de utilizar el programa STATGRAPHICS, pero si el número de
observaciones es grande ahorrará mucho esfuerzo, además de proporcionar en
poco tiempo los cálculos sin error.
Se tratará a continuación de explicar cómo dar un resumen gráfico y numéri-
co, en los casos en que sea posible, para las distribuciones estadísticas unidi-
mensionales.
2.2. TABLAS DE FRECUENCIAS
Es éste el primer paso en la descripción de los datos recogidos en una mues-

tra: la estructuración y ordenación de estos en tablas de frecuencias, que son
distintas según que los datos recogidos correspondan a caracteres cualitativos o
cuantitativos discretos o continuos.
a) Caracteres cualitativos
Si los resultados obtenidos son los de un carácter cualitativo, se representan

las observaciones en una tabla con dos columnas y m filas, siendo m las modali-
dades del carácter y n el tamaño de la muestra. En la primera columna se indican
las modalidades y en la segunda ni, el número de veces que se ha observado cada
una de ellas y que se denomina la frecuencia absoluta del atributo o modalidad
correspondiente. Como los atributos son exhaustivos y excluyentes, la suma de la
columna de las frecuencias absolutas coincide con el tamaño de la muestra.
Modalidades ni
A1 n1
A2 n2
M M
Am nm
m
n = ∑ ni
i =1
EJEMPLO 2.1.
La siguiente tabla, que representa el mineral más abundante en cada uno de 150
fragmentos de rocas de la corteza terrestre:
ni
Modalidades ni fi =
n
Fe 57 0,3800
Al 64 0,4267
Ti 18 0,1200
Mn 11 0,0733
4
n =150 ∑ fi = 1
i=1
ni
Incluye también los cocientes fi = , es decir, las frecuencias relativas de
n
cada modalidad, que proporcionan la tabla de frecuencias relativas o de tantos por
uno. Las frecuencias relativas también se pueden presentar como porcentajes ob-
servados de cada una de las modalidades.
EJEMPLO 2.2.
La composición del accionariado de una sociedad que cotiza en bolsa es la si-
guiente:
Modalidades fi
Inversores privados españoles 28,48%

Inversores extranjeros 16,57%
Sector público español 29,59%
Propiedad de la Sociedad 25,36%
b) Caracteres cuantitativos discretos
Si los valores observados corresponden a una variable cuantitativa discreta,

para construir una tabla de frecuencias absolutas se colocan en la primera columna
los valores observados en orden creciente x1, x2, …, xr y en la segunda las fre-
cuencias absolutas correspondientes, es decir, el número ni de veces que se ha ob-
servado en la muestra cada valor xi. La frecuencia relativa del valor xi de la va-
riable estadística x es fi = ni , cociente entre la frecuencia absoluta y el número
n
total de observaciones realizadas.
Se denomina frecuencia absoluta acumulada, Ni del valor xi a la suma de las
frecuencias absolutas de los valores inferiores o iguales a xi. Como se ordenan los
datos en orden creciente, la frecuencia absoluta acumulada del último valor es n.
La frecuencia relativa acumulada, Fi del valor xi es el cociente entre la fre-
cuencia absoluta acumulada de ese valor y el total de observaciones, o también la
suma de las frecuencias relativas de los valores inferiores o iguales al valor xi.
Se pueden formar tablas de frecuencias absolutas, relativas, absolutas acu-
muladas y relativas acumuladas.
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
M M M M M
xr nr fr Nr = n Fr = 1
r r
∑ ni = n ∑ fi = 1
i =1 i =1
c) Caracteres cuantitativos continuos
Si los datos corresponden a una variable cuantitativa continua, estudiar y re-

presentar esta variable estadística como si fuera discreta no es la forma más con-
veniente, pues son muchos los valores distintos que toma la variable. En este caso
se agrupan los datos en intervalos y se asigna a cada intervalo una frecuencia ab-
soluta igual al número de observaciones que caen dentro de él. De esta forma se
simplifica el trabajo pero también se pierde información. Si el número de clases es
demasiado pequeño, la pérdida de información es muy grande y si es muy eleva-
do el agruparlos no simplificaría el trabajo.
No hay reglas fijas para determinar el número de clases que lógicamente de-
penderá de n, tamaño de la muestra. Una regla habitual es agrupar los datos en un
número de clases que no difiera mucho de n. Otra regla muy utilizada es la de-
terminada por la fórmula de Sturges. Designando por k el número de intervalos en
los que se van a agrupar los n datos recogidos
k = 1 + 3.322 log10 n
Por comodidad se suelen elegir los intervalos de la misma amplitud. Para de-
terminar ésta se divide el recorrido de la variable estadística, diferencia entre el ma-
yor y el menor de los datos recogidos, o la longitud de un segmento un poco más
amplio que los contenga, entre el número de clases. El cociente da la amplitud de
las clases. Se eligen los intervalos cuidando que el primero de ellos contenga el dato
más pequeño y que el último cubra al mayor de todos los registrados. Para evitar
ambigüedades en el recuento de los datos que caen en cada clase, se consideran in-
tervalos semiabiertos [Li–1, Li) que contienen el extremo inferior y no el superior. La
frecuencia absoluta ni de la clase [Li–1, Li) es el número de datos recogidos que per-
tenecen a ese intervalo. Se llama marca de clase al punto medio del intervalo, así
L + Li
xi = i −1 es la marca de la i-ésima clase.
2
Las tablas de frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas en este caso son de la siguiente forma:
Clases Marcas ni fi Ni Fi
[L0, L1) x1 n1 f1 N1 F1
[L1, L2) x2 n2 f2 N2 F2
M M M M M M
[Li–1, Li) xi ni fi Ni Fi
M M M M M M
[Lk–1, Lk) xk nk fk Nk = n Fk = 1
k k
∑ ni = n ∑ fi = 1
i =1 i =1
Los extremos de estas clases se llaman límites reales porque coincide el extremo
superior de cada una de ellas con el extremo inferior de la siguiente. Con los límites
reales no hay ambigüedad al hacer el recuento de los datos, pues no hay nunca
duda sobre la elección de la clase que incluye cada dato, al ser intervalos semia-
biertos que incluyen el extremo inferior pero no el superior.
Si los datos ya se presentan agrupados en clases que no vienen definidas por
sus límites reales, por ejemplo, si las clases son:
10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79
se obtienen los límites reales de las clases ampliando la primera en su extremo

superior hasta el punto medio del segmento de extremos el límite superior de la
primera y el inferior de la segunda, es decir, hasta 19,5. Análogamente se ob-
tienen los límites reales superiores de las restantes clases: 29,5, 39,5, 49,5,
59,5, 69,5 que determinan a la vez los límites reales inferiores de las clases si-
guientes, excepto para la última. Al extremo inferior de la primera se le resta la
misma cantidad que a los extremos inferiores de las restantes clases y al extre-
mo superior de la última se le suma lo mismo que a los extremos superiores de
las demás clases. En el ejemplo las clases dadas por sus límites reales son:
[ 9,5;19,5) , [19,5;29,5) , [ 29,5;39,5) , [ 39,5;49,5) , [ 49,5;59,5 ) , [59,5;69,5) , [ 69,5;79,5)
Se define la amplitud de un intervalo, que se designará por ci, como la dife-

rencia ci = Li – Li–1, es decir, entre el límite real superior de la clase y el límite real
inferior.
2.3. REPRESENTACIONES GRÁFICAS
2.3.1. Caracteres cualitativos

Para los caracteres cualitativos se pueden dibujar gráficos de sectores y dia-
gramas de rectángulos o de barras.
Grafico de sectores. Sobre un círculo que simboliza el total de la población se
dibujan sectores circulares cuyo ángulo central es proporcional a la frecuencia ab-
soluta de la modalidad que representa.
EJEMPLO 2.3.
En la siguiente tabla se recoge la duración, en millones de años, de las eras ge-
ológicas:
Eras Millones de años

Arcaico 2000
Precámbrico 1500
Primaria 360
Secundaria 160
Terciaria 72
Cuaternaria 1
Esta tabla se puede representar en una gráfica de sectores como la siguiente en

la que se han indicado los porcentajes correspondientes a la duración de cada era
geológica.
Diagrama de sectores de años
3,91%
Años 1,76% 0,02%
8,80%
Arcaico
Precámbrico
Primaria
Secundaria 48,86%
Terciaria
Cuaternaria 36,65%
Los diagramas de sectores se suelen utilizar para representar los componentes

de un total.
Diagrama de rectángulos o de barras. En un diagrama cartesiano se repre-
sentan sobre el eje de abscisas tantos segmentos como modalidades tenga el ca-
rácter observado, de la misma longitud pero no consecutivos sino separados, y en
el eje de ordenadas se representan las frecuencias absolutas. Se dibujan rectán-
gulos de bases esos segmentos y alturas iguales a las frecuencias absolutas co-
rrespondientes, o proporcionales a ellas.
EJEMPLO 2.4.
Se dispone de los datos sobre equipamiento de tecnologías de información y co-
municaciones de 3.200 hogares españoles:
Tecnología disponible % de hogares

Teléfono fijo 90,2
Teléfono móvil 75,4
TV de pago 19,2
Internet 25,4
El diagrama de rectángulos correspondiente es:

100
% hogares
80
60
40
20
0
Fijo Móvil TV pago Internet
Si se sustituyen los rectángulos por segmentos verticales de altura igual o pro-

porcional a la frecuencia absoluta de la modalidad, representada por un punto en
el eje de abscisas, se obtiene un diagrama de barras.
Uniendo los extremos superiores de estos segmentos se consigue lo que se de-
nomina un perfil rectangular. El correspondiente al ejemplo anterior es:
100
% hogares
80
60
40
20
0
Fijo Móvil TV pago Internet
Otras representaciones de caracteres cualitativos son los pictogramas y los

cartogramas.
Los pictogramas se obtienen indicando al lado de cada modalidad unos di-
bujos o figuras alusivas al carácter representado (hombres, saquitos, coches, etc.)
cuyas dimensiones, o número de veces que se repite el dibujo, son proporciona-
les a la frecuencia absoluta de la correspondiente modalidad. Se utiliza funda-
mentalmente para representar datos con carácter divulgativo dirigidos a lectores
no expertos.
Los cartogramas son diagramas que representan informaciones esta-
dísticas descriptivas en un mapa geográfico utilizando símbolos diferentes.
Se utilizan para representar características que no se distribuyen unifor-
memente sobre el terreno, como el cultivo de cereales, la lluvia caída en
los últimos doce meses, etc. Las distintas modalidades se representan con
colores diferentes, sombreado de distinta intensidad o por distintos tipos de
trama.
EJEMPLO 2.5.
En el siguiente cartograma, que indica el porcentaje de ahorro sobre la renta fa-
miliar bruta disponible, se distinguen tres modalidades: Porcentaje superior al 16%,
entre el 13% y el 16% o inferior al 13%.
2.3.2. Caracteres cuantitativos discretos

Para representar caracteres cuantitativos discretos se utilizan diagramas de ba-
rras y polígonos de frecuencias.
• Diagrama de barras. En un diagrama cartesiano se representan sobre el eje

de abscisas los valores de la variable por orden y en el eje de ordenadas las fre-
cuencias correspondientes. Se levantan sobre cada uno de los valores segmentos
iguales a sus frecuencias. Si se representan frecuencias absolutas la suma de las al-
turas da el tamaño de la muestra. Si se eligen las frecuencias relativas las alturas
son proporcionales a las anteriores y la suma de las longitudes de todos los seg-
mentos levantados es la unidad.
• Los polígonos de frecuencias absolutas se obtienen uniendo los extremos
superiores de los segmentos de los diagramas de barras, es decir, cada punto de
coordenadas (xi, ni) con el punto (xi+1, ni+1).
EJEMPLO 2.6.
La siguiente tabla recoge información sobre el número de personas que ocupan
85 viviendas seleccionadas:
xi ni Ni fi Fi
1 15 15 0,1765 0,1765
2 35 50 0,4118 0,5883
3 18 68 0,2118 0,8001
4 10 78 0,1176 0,9177
5 5 83 0,0588 0,9765
6 2 85 0,0235 1
6
n = 85 ∑ fi = 1
i=1
El polígono de frecuencias absolutas correspondiente es:
Polígono de frecuencias
ni 40
30
N.º viviendas
20
10
0
1 2 3 4 5 6
N.º personas
De forma análoga se dibujan los polígonos de frecuencias relativas.

El diagrama de barras de frecuencias absolutas acumuladas correspondiente a
los datos anteriores es:
Diagrama de barras
ni 100
80
60
40
20
0
1 2 3 4 5 6
N.º personas
Si en el eje de ordenadas se representan las frecuencias relativas acumuladas,

se obtiene un gráfico similar al anterior, pues sólo supone un cambio de escala en
el eje vertical.
En la siguiente gráfica se ha dibujado el diagrama de barras de frecuencias relativas

acumuladas y el correspondiente diagrama de frecuencias relativas acumuladas.
Fi
1
50
85
15
85
xi
0 1 2 3 4 5 6
Diagrama de barras de frecuencias relativas acumuladas y el correspondiente

diagrama de frecuencias
2.3.3. Caracteres cuantitativos continuos

Para los caracteres cuantitativos continuos, que se agrupan en intervalos o cla-
ses, se utilizan los histogramas y los polígonos de frecuencias.
• Histograma de frecuencias absolutas. En un diagrama cartesiano se re-
presentan en el eje de abscisas los límites reales de las clases, se obtienen así un
conjunto de segmentos consecutivos que pueden ser de la misma amplitud o de
amplitudes diferentes, según se haya realizado la agrupación de los datos. Sobre
cada una de las clases se levantan rectángulos de áreas proporcionales a la fre-
cuencia absoluta correspondiente, por tanto la altura de cada rectángulo es el
cociente entre la frecuencia absoluta de esa clase y la amplitud de ésta, que se de-
nomina la frecuencia media por unidad de amplitud.
El conjunto de estos rectángulos es un histograma de frecuencias absolutas.
El área del histograma así construido será:
k kni k
∑ hi ci = ∑ ⋅ ci = ∑ ni = n
i =1 i =1 ci i=1
• Polígono de frecuencias absolutas. Se señalan en las bases superiores de los

rectángulos anteriores los puntos medios y se dibujan dos clases más de la misma
amplitud, una anterior a la primera y otra a continuación de la última, a las que se las
 n
asigna frecuencia cero, es decir, se dibujan los puntos,  xi , i  , i = 0,1,2,..., k + 1,
 ci 
 n
siendo xi las marcas de clase y se unen con segmentos de línea recta  x i , i  con
 ci 
 ni +1 
formando así con el eje de abscisas un polígono que recibe el nombre
 xi +1 , c  ,
i +1
de polígono de frecuencias absolutas, cuya área es aproximadamente la del histo-
grama homólogo.
Si en el eje de ordenadas se representan las frecuencias relativas se obtienen
gráficas similares a las anteriores que se denominan histograma de frecuencias re-
lativas y polígono de frecuencias relativas.
EJEMPLO 2.7.
Se define el pH de abrasión como el valor del pH de una suspensión de suelo fi-
namente triturado en agua. Esta medida tiene interés geológico por estar relaciona-
da con la mineralogía y la composición química elemental del suelo.
M. Martín Barca, R. García Giménez, A. Gutiérrez Maroto y R. Jiménez Ba-
llesta han determinado los pHs de abrasión de «muestras» de horizontes superfi-
ciales de suelos situados dentro de cada una de las cuadrículas de 10 × 10 km en
que dividieron el Sistema Central. Cada una de estas cuadrículas representa una
unidad estadística en este trabajo. Los resultados que obtuvieron son los si-
guientes:
8,0 5,9 5,3 5,6 8,5 8,5 8,0 6,1 5,2 5,9 6,0 6,8 5,4 5,0 6,9
5,7 6,4 5,5 5,7 5,0 8,7 6,2 7,7 7,6 6,6 6,0 5,7 5,2 6,8 8,4
7,6 7,7 4,8 5,9 5,9 6,4 8,4 8,2 7,6 8,2 7,6 4,9 6,1 6,0 6,0
6,0 6,0 5,8 6,0 6,4 5,8 6,4 6,9 7,7 5,9 6,0 6,1 4,8 7,7 6,4
6,2 6,6 8,2 6,5 6,0 6,2 5,5 5,8 6,0 5,7 6,0 5,7 5,7 6,0 6,0
6,2 6,5 5,6 6,6 4,6 4,6 6,5 5,6 4,8 4,5 4,9 5,1 6,4 6,7 6,1
6,1 6,1 6,5 6,5 5,5 6,2 6,4 4,9 6,4 5,5 6,3 6,5 6,9 6,0 4,6
5,9 4,9 5,6 5,5 3,3 5,6 5,9 6,3 5,5 5,4 6,3 6,3 4,9 5,6 6,2
6,7 6,4 6,4 5,7 7,0 6,4 6,4 7,0 6,9 4,6 5,6 4,6 4,6 4,1 6,2
5,7 4,5 5,9 5,6 5,0 4,8 5,7 5,2 5,6 5,2 6,4 5,0 5,2 5,7 6,2
5,9 6,9 5,3 5,2 5,2 5,6 5,5 5,9 6,3 6,3 5,7 5,3 6,1 5,0 5,1
5,3 5,8 6,4 6,4 6,1 6,1 6,8 6,3 6,5 7,2 6,2 5,9 6,0 5,0 6,2
6,1 5,7 7,3 4,9 6,3 5,8 5,4 5,8 5,4 6,1 6,1 6,0 6,1 6,1 6,3
6,4 5,7 5,7 5,0 6,1 6,3 6,3 5,8 5,8 5,8 6,0
Agrupando estos datos en diez clases de la misma amplitud se obtiene la si-

guiente tabla:
Límite Límite Frecuencia Frecuencia

Frecuencia Frecuencia
real real Marca absoluta relativa
Clase absoluta relativa
inferior superior acumulada acumulada
Li–1 Li xi ni fi Ni Fi
1 3,1 3,68 3,39 1 0,0049 1 0,0049
2 3,68 4,26 3,97 1 0,0049 2 0,0097
3 4,26 4,84 4,55 12 0,0583 14 0,0680
4 4,84 5,42 5,13 30 0,1456 44 0,2136
5 5,42 6,0 5,71 68 0,3301 112 0,5437
6 6,0 6,58 6,29 59 0,2864 171 0,8301
7 6,58 7,16 6,87 15 0,0728 186 0,9029
8 7,16 7,74 7,45 10 0,0485 196 0,9515
9 7,74 8,32 8,03 5 0,0243 201 0,9757
10 8,32 8,9 8,61 5 0,0243 206 1,0000
El histograma de frecuencias relativas correspondiente es el siguiente:

Histograma
40
30
Porcentaje
20
10
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
El polígono de frecuencias relativas correspondiente es:
Histograma
40
30
Porcentaje
20
10
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
• Histograma de frecuencias absolutas acumuladas. Sobre cada intervalo de-

terminado por los límites reales de la clase, se levantan rectángulos de alturas
iguales a la suma de la altura del rectángulo correspondiente en el histograma de
frecuencias absolutas y las de todos los rectángulos correspondientes a las clases an-
teriores a ella, el resultado es un histograma de frecuencias absolutas acumuladas.
En él las alturas de los rectángulos siguen una sucesión monótona creciente.
Si en el eje de ordenadas se señalan las frecuencias relativas acumuladas de
cada una de las clases se obtiene el histograma de frecuencias relativas acumuladas.
Para el Ejemplo 2.7 el histograma de frecuencias relativas acumuladas es el si-
guiente:
Histograma
100
80
Porcentaje
60
40
20
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
• Polígono de frecuencias absolutas acumuladas. Representadas las clases

por sus límites reales en el eje de abscisas, se dibuja sobre el extremo superior
de cada una de ellas un segmento de altura igual a la de la clase correspondien-
te en el histograma de frecuencias absolutas acumuladas, se obtiene así una línea
poligonal creciente que se denomina polígono de frecuencias absolutas acu-
muladas.
• El polígono de frecuencias relativas acumuladas es el polígono corres-
pondiente al histograma de frecuencias relativas acumuladas, que se obtiene del
mismo modo que el polígono de frecuencias absolutas acumuladas y sólo se dis-
tingue de él en que se ha realizado un cambio de escala en el eje de ordenadas.
El polígono de frecuencias relativas acumuladas correspondiente al ejemplo
2.7 es el siguiente:
Histograma
100
80
Porcentaje
60
40
20
0
3,1 4,1 5,1 6,1 7,1 8,1 9,1
pH de abrasión
¿Cómo se pueden dibujar gráficas con el programa STATGRAPHICS Plus 5.1

para Windows?
Para dibujar un gráfico de sectores basta con introducir las modalidades del
carácter con sus correspondientes frecuencias y usar las órdenes:
Gráficos → Diagramas de presentación → Diagrama de sectores
Así, introduciendo los datos del Ejemplo 2.2, se obtiene:
Gráfico de sectores %
%
25,36% 28,48% PrivN
Ext
SPN
ASoc
29,59% 16,57%
Para variables cuantitativas discretas se pueden dibujar diagramas de barras y

polígonos de frecuencias.
Con los del Ejemplo 2.1 dibuja el siguiente diagrama de barras:
Diagrama de barras
Mn
Ti
Al
Fe
0 20 40 60 80
Frecuencias absolutas
Y para las variables cuantitativas continuas se pueden dibujar histogramas y

polígonos de frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas.
EJEMPLO 2.8.
Las siguientes medidas representan las longitudes en cm de 25 fósiles trilobites:
3,8; 3,3; 3,9; 4,1; 4,4; 3,6; 4,3; 4,4; 4,4; 4,1; 4,3; 3,9; 3,8; 4,5; 3,6; 3,5; 4,3; 4,7; 3,6; 4,2;
4,3; 3,8; 3,6; 3,8; 3,9.
Introduciendo estos datos y utilizando las órdenes:

Gráficos → Gráficos Exploratorios → Histograma
y seleccionando en Datos la columna que los contiene, al aceptar STATGRAPHICS ha
agrupado los datos en seis clases y dibujado el histograma de frecuencias absolutas.
Histograma
Frec. absoluta 8
0
3,2 3,5 3,8 4,1 4,4 4,7 5
Longitudes
Utilizando Opciones de ventana y Opciones Histogramas se puede cambiar el

número de intervalos en los que se agrupan los datos y elegir el tipo de histogra-
ma o de polígono de frecuencias que se desea.
Se pueden también cambiar los títulos de las gráficas así como los de los ejes,
entre otras cosas, en Opciones Gráficas.
8
Frec. absoluta
6
4
2
0
3,2 3,6 4 4,4 4,8
Longitud
Frec. abs. acumulada
8
6
4
2
0
3,2 3,6 4 4,4 4,8
Longitud
El polígono de frecuencias relativas acumuladas lo representa tomando en el

eje de ordenadas los porcentajes, es decir, las frecuencias relativas multiplicadas
por 100.
100
80
Porcentaje
60
40
20
0
3,2 3,6 4 4,4 4,8
Longitud
Como se puede observar, la forma de los polígonos de frecuencias absolutas

acumuladas y relativas acumuladas es la misma, pues sólo varía la escala en el eje
de ordenadas.
2.4. ANÁLISIS NUMÉRICO
Las variables cuantitativas permiten además un resumen numérico de la

muestra, es decir, obtener a partir de los datos observados un número reducido de
valores característicos, que son los estadísticos o estadígrafos.
La elección de estos valores que sintetizan los datos de la muestra no debe ser
arbitraria; Yule afirma que para que sean representativos han de cumplir ciertas
condiciones, entre las que señala:
a) ser definidos de manera objetiva,

b) tener en cuenta todas las observaciones de la muestra,
c) tener un significado concreto y fácil de comprender,
d) ser fácilmente calculables.
Se pueden distinguir tres clases de estadísticos: medidas de posición, medidas

de dispersión y características de forma.
2.4.1. Medidas de posición

Son valores que proporcionan una idea de la localización de la distribución de
los datos en la muestra. Se distinguen tres tipos: medidas de tamaño, cuantiles y
de frecuencia.
2.4.1.1. Medidas de tamaño

Son las medias aritmética, geométrica, armónica y cuadrática. Todas ellas tie-
nen la misma dimensión que los valores de la variable.
• Media aritmética. Representa el centro de gravedad de la distribución y,

para una muestra de tamaño n, se define así:
a) Si los datos no están agrupados en intervalos:
r
∑ xi ni
i=1
x=
n
Siendo xi los diferentes valores de la variable cuantitativa discreta y ni sus fre-

cuencias absolutas.
b) Si los datos están agrupados en intervalos:

k
∑ xi ni
i=1
x=
n
Siendo xi las marcas de clase y ni la frecuencia absoluta de la clase corres-

pondiente a xi.
Una propiedad importante de la media aritmética es que la media de las dife-
rencias de los datos a la media es cero, es decir,
n n n
∑ di ni ∑ ( xi − x ) ni ∑ xi ni nx
i=1 i =1 i =1
= = − =x−x=0
n n n n
Una de las desventajas de x$ es que para muestras de tamaño n pequeño se ve

muy influida por los valores extremos si los hay muy grandes o muy pequeños.
• Media aritmética ponderada. Para reflejar la importancia relativa de los da-

tos se les asigna un peso o ponderación. En las fórmulas precedentes el peso de
cada valor era su frecuencia absoluta, pero ésta no es la única forma de ponderar.
Por ejemplo, para calcular la media aritmética de las medias de s muestras de
tamaños diferentes n1, n2,…, ns, no se puede calcular la suma de esas medias di-
vidido por s, sino que se define la media global de las s muestras como una media
ponderada, considerando como pesos los tamaños de las s muestras:
s
∑ xi ni
i=1
x= s
∑ ni
i =1
pues es así como se obtiene en el numerador la suma de los valores de las s mues-
tras y en el denominador el total de los valores recogidos.
• Media geométrica. Si todos los valores de la variable son positivos, se define

su media geométrica como
mg = n x1n1 x 2n2 ... x rnr
Tomando logaritmos se ve fácilmente que
1 r
log mg = ∑ n log xi
n i=1 i
El logaritmo de la media geométrica es la media aritmética de los logaritmos

de los datos.
Se utiliza para valores en crecimiento exponencial, en progresión geométrica,
en el cálculo de índices de precios, etc.
• Media armónica. Si todos los valores de la variable son positivos, se define

la media armónica del siguiente modo:
r
∑ ni
i=1
ma = r 1
∑ ni
i =1 xi
r 1
∑ ni
1 i =1 xi
Es por tanto = r , es decir, la media armónica es el recíproco de la
ma
∑ ni
i =1
media aritmética de los recíprocos de los valores de la variable.
Su aplicación es limitada. Es útil para calcular promedios de velocidades y de
tasas.
• Media cuadrática. Se define como la raíz cuadrada de la media aritmética

de los cuadrados de los valores de la variable, es decir:
r
∑ xi2 ni
i =1
mc = r
∑ ni
i =1
• Relación entre los valores de las medias. Si se pueden definir las cuatro me-
dias para un conjunto de datos, se verifica siempre que ma ≤ mg ≤ x$ ≤ mc, siendo
ciertas las igualdades sólo si todos los datos tienen el mismo valor.
EJEMPLO 2.9.
Calcular las medias aritmética, geométrica, armónica y cuadrática de las si-
guientes calificaciones de un examen final de estadística:
2; 9; 8,5; 3,6; 5,7; 9,5; 7; 4; 7,4; 9; 3; 6; 5,5; 5; 6
15
∑ xi 91, 2
i=1
La media aritmética es: x = = = 6, 08.
15 15
La media geométrica es: mg = 15 x1 x 2 ... x15 = 15 165188991690 . 5, 60.
15 15
La media armónica es: ma = 15
= . 5, 04.
1 2, 974825940
∑
i =1 x i
15
∑ xi2
626, 96
La media cuadrática es: mc = i=1
. 6, 48.
=
15 15
Como se puede comprobar, se verifica la relación
ma = 5, 04 ≤ mg = 5, 60 ≤ x = 6, 08 ≤ mc = 6, 48
2.4.1.2. Cuantiles
Los cuantiles, también llamados centiles, son valores que dividen la distribu-
ción en partes de igual frecuencia. Las más importantes son la mediana, los cuar-
tiles, los deciles y los percentiles.
La mediana. Es la medida de tendencia central que separa la distribución en

dos partes de igual frecuencia, es decir, la mediana es el valor que deja tantos va-
lores de la variable por encima como por debajo de ella, cuando los datos están
ordenados en orden creciente o decreciente. Se designará por Me.
• Si los datos no están agrupados en intervalos:

— Si el número de datos es impar la mediana es el valor central, es decir, es
n n
el que ocupa el lugar,   + 1, parte entera de más una unidad.
2 2
EJEMPLO 2.10.
Calcular la mediana de las notas del Ejemplo 2.9.
Las notas ordenadas son
2; 3; 3,6; 4; 5; 5,5; 5;7; 6; 6; 7; 7,4; 8,5; 9; 9; 9,5
la mediana es el valor que ocupa el lugar  15  + 1 = 8, es por tanto Me = 6.

 2 
— Si el número de datos es par se define la mediana como la media aritmé-
n n 
tica de los dos valores centrales que son los que ocupan los lugares y  + 1 .
2 2 
EJEMPLO 2.11.
Calcular la mediana de los datos siguientes:
8, 3, 0, 4, 7, 6, 1, 1, 6, 0
Los diez datos ordenados son:
0, 0, 1, 1, 3, 4, 6, 6, 7, 8
la mediana es la media aritmética de los valores que ocupan los lugares quinto y
3+ 4
sexto, por tanto Me = = 3, 5.
2
• Si los datos están agrupados en intervalos:

Primero se determina la clase mediana que es aquella cuya frecuencia absoluta
n
acumulada es la primera que es igual o superior a .
2
Para determinar la mediana, es decir, el punto del intervalo [Li–1, Li) que co-
jn
rresponde a la frecuencia absoluta acumulada se utiliza el polígono de fre-
4
cuencias absolutas acumuladas. Éste asigna a cada punto una frecuencia acumu-
lada, distribuyendo la frecuencia de la clase uniformemente en el intervalo. Así se
n
puede calcular la Me, o abscisa del punto de ordenada , del siguiente modo:
2
Ni D
n B
2
A
Ni – 1 E
C
0
L0 L1 … Li – 1 Me Li Clases
Histograma y polígono de frecuencias absolutas acumuladas
Por la semejanza de los triángulos de vértices ABC y ADE, se verifica que:

n
AC BC − Ni −1
Me − L 2
= , es decir, i−1
= , de donde se deduce que
AE DE Li − Li−1 N i − N i−1
n
− Ni −1
Me = Li −1 + 2 ci
ni
䊏 Los cuartiles. Son tres valores Q1, Q2 y Q3 que dividen la distribución en

cuatro partes de igual frecuencia.
Colocados los datos en orden creciente, el primer cuartil deja por debajo la
cuarta parte de los datos, el segundo cuartil la mitad y el tercer cuartil las tres
cuartas partes. Por tanto, el segundo cuartil coincide con la mediana: Q2 = Me.
• Si los datos no están agrupados en intervalos: para calcular, Qj cuartil j-ésimo.

jn jn
— Si , no es entero, Qj es el valor que ocupa el lugar   + 1, parte entera
4 4
jn
de más una unidad.
4
jn
— Si es entero, Qj es la media aritmética de los dos valores que ocupan
4
jn  jn 
los lugares y  + 1 .
4  4 

Para determinar Qj, el cuartil j-ésimo, primero se determina la clase que lo
contiene que es aquella cuya frecuencia absoluta acumulada es la primera mayor
jn
o igual a . Si esta clase es [Li–1, Li) se determina Qj como en el caso de la me-
4
diana obteniéndose:
n
j
− Ni −1
Q j = Li −1 + 4 ci
ni
䊏 Deciles. Los deciles son nueve valores que dividen la distribución en diez
partes de igual frecuencia.
Colocados los datos en orden creciente Dj, el decil j-ésimo, deja por debajo las
j partes de las observaciones.
10
Para datos agrupados en intervalos, primero se determina la clase [Li–1, Li)
que lo contiene y, como en los casos anteriores, se obtiene:
n
j − Ni −1
Dj = Li −1 + 10 ci
ni
䊏 Centiles o percentiles. Son noventa y nueve valores. El percentil Pj es el va-

lor de la variable tal que el j % de las observaciones son inferiores o iguales a él.
Para datos agrupados en intervalos, primero se determina la clase que lo
contiene, si ésta es [Li–1, Li), como en los casos anteriores, se obtiene:
n
j − Ni −1
Pj = Li−1 + 100 ci
ni
EJEMPLO 2.12.
Calcular la mediana, los cuartiles, el D9 y el P80 para la siguiente distribución de
datos agrupados en intervalos:
Clases ni
[0,20) 8
[20,40) 23
[40,60) 30
[60,80) 84
[80,100) 27
[100,120) 4
n = 176
Para determinar la clase mediana indicamos en la siguiente tabla las frecuencias

absolutas acumuladas de las clases y además las marcas de clase de cada intervalo.
[Li–1, Li) xi ni Ni
[0,20) 10 8 8
[20,40) 30 23 31
[40,60) 50 30 61
[60,80) 70 84 145
[80,100) 90 27 172
[100,120) 110 4 176
n = 176
La clase mediana es [60,80) porque 145 es la primera frecuencia absoluta acu-

176 88 − 61
mulada superior a = 88. La mediana será Me = 60 + 20 . 66, 4 por
2 84
tanto la mitad de los datos son inferiores o iguales a 66,4.
La clase que contiene el primer cuartil es [40,60) porque 61 es la primera fre-
176
cuencia absoluta acumulada superior a = 44 y por tanto el primer cuartil es:
4
44 − 31
Q1 = 40 + 20 . 48, 67
30
El segundo cuartil es la mediana.

La clase que contiene al tercer cuartil es [60,80) porque 145 es la primera fre-
176
cuencia absoluta acumulada superior a 3 = 132. El tercer cuartil es:
4
132 − 61
Q3 = 60 + 20 . 76, 90
84
El noveno decil está en la clase [80, 100) y es:
158, 4 − 145
D9 = 80 + 20 = 89, 93
27
El percentil 80 está en la clase [60,80) y es:
140, 8 − 61
P80 = 60 + 20 = 79
84
2.4.1.3. Medidas de frecuencia
Son las modas. La moda de una distribución es el valor, o valores, de la va-

riable cuya frecuencia es la máxima.
Se presentan en la práctica casos en los que no hay un único valor con fre-
cuencia máxima e incluso distribuciones estadísticas agrupadas en intervalos en
las que más de una clase tiene frecuencia mayor que las clases contiguas, por ello
se acepta también como definición de moda la siguiente:
La moda de una distribución es todo valor de la variable cuya frecuencia ab-

soluta es la máxima. Y para datos agrupados en intervalos se llama clase modal a
toda clase cuya frecuencia es superior o igual a la de sus dos clases contiguas. Tie-
ne el inconveniente de que no puede ser moda ninguno de los dos valores extre-
mos ni clase modal ninguna de las extremas.
Si una distribución tiene una sola moda, se dice que es unimodal, si tiene dos
modas es bimodal, si tiene tres se dice que es trimodal, y si tiene más se dice que
es multimodal o plurimodal.
• Si los datos no están agrupados en intervalos:
La moda (las modas) es (son) el valor (los valores) que tiene (tienen) fre-
cuencia máxima.
EJEMPLO 2.13.
En el Ejemplo 2.10. la distribución es bimodal, pues tiene dos modas que son
6 y 9.
EJEMPLO 2.14.
El tiempo que tardan en realizarse 34 trabajos por un ordenador son: 1,86;
3,49; 2,63; 3,49; 1,69; 1,83; 0,81; 0,85; 4,70; 4,24; 3,49; 2,75; 1,65; 0,92; 0,62; 0,41;
3,23; 4,13; 3,23; 1,89; 2,66; 3,52; 2,39; 1,60; 1,88; 0,36; 11,85; 0,87; 3,10; 0,70;
3,23; 2,64; 1,69 y 0,41 Calcular la mediana, la moda y los cuartiles.
En primer lugar, se ordenan los datos de menor a mayor

0,36; 0,41; 0,41; 0,62; 0,70; 0,81; 0,85; 0,87; 0,92; 1,60; 1,65; 1,69; 1,69;
1,83; 1,86; 1,88; 1,89; 2,39; 2,63; 2,64; 2,66; 2,75; 3,10; 3,23; 3,23; 3,23; 3,49;
3,49; 3,49; 3,52; 4,13; 4,24; 4,70; 11,85
La mediana es la media aritmética de los dos valores centrales, como n/2 es 17,
1, 89 + 2, 39
los que ocupan los lugares 17 y 18 una vez ordenados, Me = = 2,14.
2
El primer cuartil es el valor que ocupa el lugar  34  + 1 = 9 una vez ordena-
 4 
dos, por tanto Q1 = 0,92.
Análogamente, el tercer cuartil es el valor que ocupa el lugar 26, es decir, Q3 = 3,23.
Los valores que más se repiten son 3,23 y 3,49, que aparecen tres veces cada
uno, por tanto hay dos modas que son 3,23 y 3,49.
En primer lugar, se determina la clase modal que es la que tiene frecuencia

máxima, o las clases modales si hay más de una clase con la máxima frecuencia,
o más de una que cumpla la condición de que su frecuencia no es inferior a la de
las clases anterior y posterior a ella.
Dentro de la clase modal, la moda es el punto al que le correspondería la fre-
cuencia máxima suponiendo que el aumento de la frecuencia ni – ni–1, de la clase
anterior a la clase modal, y la disminución de la frecuencia de esta clase a la si-
guiente ni – ni+1, se distribuyen uniformemente.
En la figura, la clase modal es [Li–1, Li), el punto más alto de esa distribución
sería el punto C correspondiente a la abscisa Mo que se considera la moda de la
distribución y se determina del siguiente modo:
ni A D
C
H R
ni + 1
E
ni – 1 B
0
L0 L1 Li – 1 Mo Li Clases
Histograma de frecuencias absolutas
Por la semejanza de los triángulos de vértices ACB y ECD, se deduce que:
CR DE L − Mo n − ni +1
= , es decir, i = i
CH AB Mo − Li−1 ni − ni −1
por tanto
Li − Mo n − ni+1
+1= i +1
Mo − Li−1 ni − ni−1
es decir,
Li − Mo + Mo − Li −1 ni − ni +1 + ni − ni−1
=
Mo − Li−1 ni − ni −1
Despejando Mo, se tiene:
ni − ni−1
Mo = Li−1 + c
( i i−1 ) + ( ni − ni+1 ) i
n − n
Si en una distribución hay más de una clase con frecuencia máxima o más de
una clase cuya frecuencia no es inferior a la de sus dos clases contiguas, cada una
de ellas es una clase modal y la distribución tiene tantas modas como clases
modales. En cada clase se calcula el valor modal utilizando la fórmula anterior.
EJEMPLO 2.15.
Calcular la moda de la distribución de datos del Ejemplo 2.12.
84 − 30
Mo = 60 + 20 = 69, 73
(84 − 30 ) + ( 84 − 27 )
EJEMPLO 2.16.
En el siguiente histograma se observa que hay dos clases cuya frecuencia ab-
soluta es superior a la de las dos contiguas.
Histograma
18
Frecuencias absolutas
15
12
9
6
3
0
45 55 65 75 85
Peso en kg
Esto significa que en la muestra hay datos de dos poblaciones o que en la po-
blación hay diferencia sexual en el peso.
En paleontología se utiliza la estadística descriptiva, por ejemplo en el estudio

de la forma de los fósiles. El resumen gráfico y numérico de la muestra aporta in-
formación sobre la población de la que se ha extraído. La moda es un estadístico
de interés para el paleontólogo. Los histogramas bimodales pueden corresponder
a poblaciones con dimorfismo sexual, a muestras en la que hay mezcla de espe-
cies, o que la población objeto de estudio es polimorfa o que entre los fósiles hay
individuos de distintas etapas del ciclo vital.
2.4.1.4. Relaciones entre media, mediana y moda.

Si los valores de la media, mediana y moda de una distribución coinciden, la
distribución es simétrica.
Las distribuciones unimodales cuya moda es más pequeña que la mediana y
ésta que la media se dice que tienen asimetría positiva, tienen datos más alejados
de la mediana por la derecha. Si es la media menor que la mediana y ésta menor
que la moda, la asimetría es negativa, hay valores más alejados de la mediana por
debajo de ella.
Para las distribuciones unimodales que no son muy asimétricas se verifica que
x$ – Mo, es aproximadamente igual a 3 (x$ – Me).
EJEMPLO 2.17.
Comprobar si se verifica esta aproximación para la siguiente distribución.
[Li–1, Li) ni
[0,10) 8
[10,20) 23
[20,30) 30
[30,40) 21
[40,50) 5
Primero se calcula la media:
[Li–1, Li) xi ni xi ni
[0,10) 5 8 40
[10,20) 15 23 345
[20,30) 25 30 750
[30,40) 35 21 735
[40,50) 45 5 225
n = 87 2.095
6
∑ xi ni
2.095
La media es x = i =1
. 24, 08.
=
n 87
43, 5 − 31
La mediana es Me = 20 + 10 . 24,17.
30
30 − 23
La moda es Mo = 20 + 10 . 24, 38.
( 30 − 23) + ( 30 − 21)
x − Mo = 24, 08 − 24, 38 = − 0, 30.
x − Me = 24, 08 − 24, 17 = −0, 09 . −0,1

Se verifica que x$ – Mo es aproximadamente igual a 3 (x$ – Me).
2.4.1.5. Insuficiencia de las medidas de tendencia central

Las medidas de tendencia central no son suficientes para resumir la informa-
ción de las muestras y distinguirlas. Por ejemplo, si sólo se utilizan estos estadís-
ticos se podría pensar que las muestras de calificaciones que se presentan a con-
tinuación son semejantes:
Muestra 1: 0, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 10.
Muestra 2: 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5.
Muestra 3: 0, 0, 0, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 10,
10, 10.
En los tres casos se obtiene x = 5, Me = 5 y Mo = 5.
Sin embargo en la clase correspondiente a la muestra 2 no hay ningún sus-

penso y entre las otras dos también hay diferencias, en la tercera hay tres alumnos
con la máxima puntuación y en la primera sólo uno, y cinco alumnos obtienen no-
table.
El objeto de las medidas de dispersión es el distinguir las muestras cuyos da-
tos están concentrados en torno a un valor central de aquellas en las que hay va-
lores más o menos alejados.
2.4.2. Medidas de dispersión

Proporcionan una idea de la mayor o menor concentración de una distribución
de frecuencias respecto de un valor central. Estas medidas son todas positivas o
nulas, y sólo son nulas si todos los datos coinciden. Son medidas de dispersión: el
rango o recorrido, la varianza, la cuasivarianza, la desviación media o desviación
absoluta media, el recorrido intercuartílico, la desviación típica, la cuasidesviación
típica, el coeficiente de variación de Pearson, que se definen a continuación:
• Rango o recorrido. Es la diferencia entre el mayor y el menor de los datos.

Sólo se puede dar si los datos no están agrupados en intervalos. También se llama
extensión. Si se designa por mx al menor valor de la variable x y por Mx al mayor
valor de esa variable,
R = M x − mx
El rango se mide en las mismas unidades que los datos. Se usa en el control de
calidad.
EJEMPLO 2.18.
Calcular el rango para las tres muestras del Apartado 2.4.1.5.
El rango es 10 para la primera y tercera y es 0 para la segunda, porque todos

los datos de ésta son iguales.
• Recorrido intercuartílico. Es la diferencia entre el tercer cuartil y el primero
Rint = Q3 − Q1
EJEMPLO 2.19.
¿Cuál es el recorrido intercuartílico para los datos del Ejemplo 2.12.
El recorrido intercuartílico es: Rint = Q3 − Q1 = 76, 90 − 48, 67 = 28, 23.
Como se sabe que la suma de las diferencias a la media es nula en todas las dis-
tribuciones, al compensarse las diferencias positivas con las negativas, pues la me-
dia es el centro de gravedad de la distribución, una medida de la dispersión puede ser
la media de las diferencias a la media en valor absoluto, o la media de las diferencias
a la media elevadas al cuadrado. Se definen así otras medidas de dispersión.
En las fórmulas que se dan a continuación, si los datos no están agrupados, xi
son los distintos valores de la variable y ni la frecuencia correspondiente. Si los
datos están agrupados en clases, xi representan las marcas de clase y ni la fre-
cuencia absoluta de la clase correspondiente.
• Desviación media o desviación absoluta media. Es la media aritmética de
los valores absolutos de las desviaciones a la media.
k
∑ xi − x ni
i =1
Dm =
n
Es un buen indicador de la dispersión de los datos de la muestra. Se mide en

las mismas unidades que los datos. Se utiliza poco en la inferencia estadística.
• Varianza. Es la media aritmética de los cuadrados de las diferencias a la media.

k
2
∑ ( xi − x ) ni
S 2 = Var ( x ) = i =1
n
Si los datos se miden en una unidad determinada, la varianza se mide en

esas unidades al cuadrado, por ello es corriente utilizar como medida de la dis-
persión su raíz cuadrada, que se medirá en las mismas unidades que los datos, y
recibe el nombre de desviación típica.
• Desviación típica. Es la raíz cuadrada positiva de la varianza, es decir,
k 2
∑ ( xi − x ) ni
i =1
S = DT ( x ) =
n
Es frecuente usar en lugar de la varianza y desviación típica muestrales la cuasiva-
rianza y la cuasidesviación típica o desviación estándar, por ser mejores estimadores de
la varianza poblacional y de la desviación típica poblacional respectivamente, como se
verá en la inferencia estadística. Éstas se indicarán con las letras minúsculas para dis-
tinguirlas de la varianza y desviación típica para las que se utilizarán las mayúsculas.
n
• Cuasivarianza muestral. Es el producto de la varianza por , es decir,
n −1
k
2
∑ ( xi − x ) ni
s2 = i =1
n −1
• Cuasidesviación típica o desviación estándar. Es la raíz cuadrada de la cuasi-

varianza muestral, s = s 2 .
• Corrección de Sheppard para la varianza de datos agrupados en intervalos.

Como al agrupar los datos en intervalos se pierde información, pues todos los datos de
cada clase se sustituyen por la marca de clase a la que se le asocia como frecuencia ab-
soluta el número de datos que caen dentro de ella, la varianza de los datos agrupados
tampoco será la misma que la que tendrían los datos originales. Sheppard estudió las di-
ferencias entre los momentos de los datos originales y los agrupados en intervalos de la
misma amplitud c para distribuciones simétricas o con baja asimetría, y concluyó que no
es necesario corregir los momentos centrales de orden 1 y 3, pero sí el de orden 2, la va-
rianza. Para distribuciones simétricas con datos agrupados en intervalos de amplitud
constante c Sheppard sugirió la siguiente corrección de la varianza para reducir el error,
2 c2
Scorregida = S2 −
12
¿Cómo comparar muestras que corresponden a las distintas unidades de medida?

Con las medidas de centralización y las de dispersión ya se pueden distinguir
las muestras que son homogéneas de las que no lo son, y entre éstas las que tienen
los datos más concentrados en torno a un valor central.
Pero al comparar las observaciones surge un nuevo problema, las medidas de-
finidas hasta ahora están dadas en las mismas unidades que los datos, salvo la va-
rianza y la cuasivarianza, que se miden en esas unidades al cuadrado.
Se necesita definir una medida adimensional que permita la comparación.
Esto lo resuelve el coeficiente de variación de Pearson.
• Coeficiente de variación de Karl Pearson. Es un coeficiente adimensional

que proporciona una buena medida de la dispersión de los datos por ser inde-
pendiente de la escala elegida para medirlos y que permite incluso comparar dis-
tribuciones estadísticas en las que los datos son de dimensiones diferentes. Se
define, siempre que la media de la variable sea distinta de cero, por el cociente
DT ( x ) S
CV = =
x x
o bien, si se expresa en tanto por ciento
S
CV = 100.
x
EJEMPLO 2.20.
Se dispone de dos muestras. En la primera se ha medido el perímetro del cráneo, en
cm, de 100 individuos de una especie y se ha obtenido: x1$ = 60 cm y S1 = 0,32 cm. En la
segunda se han medido los diámetros, en micrómetros, de 1.000 hematíes, examinando al
microscopio gotas de sangre diluidas en agua, la media y la desviación típica de los diá-
metros es: x$ = 7,13 µm y S2 = 0,618 µm. ¿Qué muestra presenta mayor variabilidad?
Los coeficientes de variación de las muestras son respectivamente:

0, 32 cm 0, 618 µ m
CV1 = . 0, 005 y CV2 = . 0, 087
60 cm 7,13 µ m
por lo que la muestra que presenta mayor variabilidad es la segunda.
EJEMPLO 2.21.
La siguiente tabla recoge las puntuaciones de 1.140 aspirantes a cubrir una
plaza, que realizan una prueba de selección, agrupadas en seis intervalos.
Clases ni
0,5-1,9 20
2,0-3,4 100
3,5-4,9 380
5,0-6,4 520
6,5-7,9 110
8,0-9,4 10
Calcular la media aritmética, moda, mediana, varianza, desviación típica, cua-

sivarianza, cuasidesviación típica y el coeficiente de variación.
Clases ni Límites reales xi Ni xini xi2ni
0,5-1,9 20 [0,45; 1,95) 1,2 20 24 28,8

2,0-3,4 100 [1,95; 3,45) 2,7 120 270 729,0
3,5-4,9 380 [3,45; 4,95) 4,2 500 1596 6703.2
5,0-6,4 520 [4,95; 6,45) 5,7 1020 2964 16894,8
6,5-7,9 110 [6,45; 7,95) 7,2 1130 792 5702,4
8,0-9,4 10 [7,95; 9,45) 8,7 1140 87 756,9
n = 1140 5733 30815,1
6
∑ xi ni
5733
La media x = i =1
= 5, 0289 . 5, 03.
=
n 1140
Para hallar la moda, primero se busca la clase modal, que es la cuarta, por tanto
520 − 380
Mo = 4, 95 + 1, 5 . 5, 33
(520 − 380 ) + (520 − 110 )
La clase mediana es la primera que tiene frecuencia absoluta acumulada su-
perior o igual a n/2 = 570, por tanto es también la cuarta. Aplicando la fórmula de
la mediana para datos agrupados en intervalos:
570 − 500
Me = 4, 95 + 1, 5 . 5, 15
520
La varianza
6 6
2
∑ ( xi − x ) ni ∑ xi2 ni 30815, 1
S 2 = Var ( x ) = i =1
= i=1
− x2 = − 5, 02892 . 1, 7410
n n 1140
La desviación típica es S = DT ( x ) = Var ( x ) = 1, 7410 . 1, 3195.
n 2 1140
La cuasivarianza s 2 = S = 1, 7410 = 1, 7425.
n −1 1139
La cuasidesviación típica es: s = s 2 = 1, 7425 = 1, 32.

S DT ( x ) 1, 3195
El coeficiente de variación es: CV = = = = 0, 2624 es decir,
x x 5, 0289
el 26,24% de la media es la desviación típica.
Otros estadísticos adimensionales y por tanto útiles para comparar distribu-

ciones de frecuencias, son las características de forma. Para definir éstas es con-
veniente dar previamente los momentos de una variable estadística respecto del
origen y respecto de su media.
2.4.3. Momentos
2.4.3.1. Momentos respecto del origen
El momento de orden r respecto del origen es:
k
∑ xir ni
i=1
ar =
n
Casos particulares:
a0 = 1
a1 = x
k
∑ xi2 ni
i =1
a2 =
n
etc.
A partir de los momentos respecto del origen se pueden definir las medias con
una sola fórmula, la fórmula de Foster, que es la siguiente:
k
∑ xir ni
r i =1 k
Mr = r ar = = r ∑ xir fi
n i =1
La media aritmética se obtiene para r = 1.

La media armónica para r = – 1.
k
∑ xi2 ni
i=1
Para r = 2 se obtiene M 2 = a2 = que es la media cuadrática mc.
n
2.4.3.2. Momentos respecto de la media
El momento central de orden r o momento de orden r respecto de la media es:
k r
∑ ( xi − x ) ni
i=1
mr =
n
Las relaciones entre los momentos de orden r respecto de la media y respec-

to del origen que son sencillas de deducir con sólo utilizar la fórmula del binomio
de Newton, facilitan el trabajo en la práctica y reducen el error de cálculo, espe-
cialmente si los datos xi son enteros y la media es decimal.
Casos particulares:
m0 = 1
m1 = 0
k k k k k
2
∑ ( xi − x ) ni ∑ xi2 ni − 2∑ xi xni + x 2 ∑ ni ∑ xi2 ni
i =1
m2 = Var ( x ) = = i =1 i =1 i=1
= i=1
−
n n n
−2 x 2 + x 2 = a2 − a12
m3 = a3 − 3a2 a1 + 2a13
m4 = a4 − 4a3 a1 + 6a2 a12 − 3a14
etc.
2.4.4. Características de forma

Son coeficientes adimensionales y por ello muy útiles para comparar distri-
buciones de frecuencias. Son características de forma los coeficientes de asimetría
o sesgo y el coeficiente de curtosis o aplastamiento.
• Coeficiente de asimetría de Fisher. También se llama coeficiente de sesgo

y se define por:
m3 m3
g1 = 3 =
S3
( Var ( x ) )
— Si g1 > 0, el sesgo es positivo, la cola más alargada de la distribución está

a la derecha.
— Si g1 = 0, la distribución tiene simetría aparente.
— Si g1 < 0, el sesgo es negativo, la cola más alargada está a la izquierda.
• Coeficiente de asimetría de Pearson. Para distribuciones unimodales, mo-

deradamente asimétricas o campaniformes, se pueden definir dos coeficientes de
asimetría de Pearson:
x − Mo x − Mo
AP1 = =
Var ( x ) S
— Si AP1 > 0, la distribución presenta asimetría a la derecha.

— Si AP1 = 0, la distribución presenta simetría.
— Si AP1 < 0, la distribución presenta asimetría a la izquierda.
También
3 ( x − Me ) 3 ( x − Me )
AP2 = =
Var ( x ) S
La interpretación es la misma que la del coeficiente anterior porque para

este tipo de distribuciones es x$ – Mo aproximadamente igual a 3( x$ – Me).
EJEMPLO 2.22.
Calcular los coeficientes de asimetría de Pearson para la siguiente distribución
que representa el número de hijos por familia para una muestra de 5.264 familias en-
cuestadas.
N.o de hijos 0 1 2 3 4 5 6 7
N.o de familias 750 2.100 1.610 425 225 125 25 4
Para calcular los coeficientes pedidos se necesitan los valores de la media,

mediana, moda y desviación típica.
xi ni xini xi2ni
0 750 0 0
1 2.100 2.100 2.100
2 1.610 3.220 6.440
3 425 1.275 3.825
4 225 900 3.600
5 125 625 3.125
6 25 150 900
7 4 28 196
n = 5.264 8.298 20.186
8
∑ xi ni 8.298
La media x = i =1
= = 1, 5764 . 1, 6.
n 5.264
La moda es 1 hijo.
La mediana es la media aritmética de los dos valores centrales que son los que
ocupan los lugares 2.632 y 2.633 cuando los datos están ordenados. Ambos valores
x + x 2633 1 + 1
son 1, por tanto Me = 2632 = = 1 hijo.
2 2
8
∑ xi2 ni 20.186 2
La varianza S 2 = Var ( x ) = i =1
− x2 = − (1, 5764 ) = 1, 3497.
n 5.264
La desviación típica es: S = DT ( x ) = 1, 3497 . 1, 1618.
Los coeficientes de asimetría son:
x − Mo 1, 5764 − 1 3 ( x − Me ) 3(1, 5764 − 1)

AP1 = = . 0, 50 > 0 y AP2 = = = 1, 49 > 0
S 1, 1618 S 1, 1618
Ambos coeficientes son positivos, la distribución presenta asimetría a la de-

recha, hay valores más alejados de la media a la derecha.
• Coeficiente de curtosis. Se aplica a distribuciones campaniformes, es decir,

unimodales y simétricas o con moderada asimetría. Sirve para medir la mayor o
menor concentración de los datos alrededor de su media. A mayor concentración
alrededor de la media la distribución es más apuntada.
Se define el coeficiente de curtosis de Fisher como:
m4 m4
g2 = −3= −3
( Var ( x ) )
4
S4
— Si g2 > 0, la distribución es leptocúrtica (más apuntada que la normal).

— Si g2 = 0, la distribución es mesocúrtica (tan apuntada como la normal).
m4
Por ser = 3 para la distribución normal y comparar la forma de las distri-
S4
buciones con ésta que se toma como patrón o norma.
— Si g2 < 0, la distribución es platicúrtica (menos apuntada que la normal, es

decir, más aplastada que ésta).
m
También se puede definir el coeficiente de curtosis como 44 y observar si es
mayor, igual o menor que 3. S
EJEMPLO 2.23.
Calcular el coeficiente de asimetría de Fisher y el de curtosis para la siguiente
distribución:
xi 10 20 30 40
ni 14 21 23 12
Para calcular estos coeficientes se necesitan los valores de la media, la des-

viación típica y los momentos de orden 3 y de orden 4 respecto de la media.
xi ni xini xi2ni xi3ni xi4ni
10 14 140 1.400 14.000 140.000

20 21 420 8.400 168.000 3.360.000
30 23 690 20.700 621.000 18.630.000
40 12 480 19.200 768.000 30.720.000
Totales n = 70 1.730 49.700 1.571.000 52.850.000
1.730
La media es x = . 24, 7.
70
2
49.700  1.730 
2
La varianza es S = Var ( x ) = m2 = a2 − a = − 2
. 99, 20.
70  70 
1
La desviación típica es S = DT ( x ) .9, 96.

El momento de orden 3 respecto de la media es:
3
1.571.000 49.700 1.730  1.730 
m3 = a3 − 3a2 a1 + 2a =3
−3 + 2 . − 7, 80
1
70 70 70  70 
El momento de orden 4 respecto de la media es:
m4 = a4 − 4 a3a1 + 6a2 a12 − 3a14 =

2 4
52.850.000 1.571.000 1.730 49.700  1.730   1.730 
= −4 +6   − 3   = 19.138, 92
70 70 70 70 70 70 
El coeficiente de asimetría de Fisher es:

m3 −7, 80
g1 = 3 = = −0, 008 < 0
S (9, 96 )3
la distribución tiene una pequeña asimetría hacia la izquierda.
El coeficiente de curtosis de Fisher es:
m4 19.138, 92
g2 = 4 −3= − 3 = −1, 06 < 0
S (9, 96)4
la distribución es platicúrtica, es decir, más aplastada que la normal.
2.5. TRANSFORMACIONES LINEALES DE UNA VARIABLE

ESTADÍSTICA
Con frecuencia se realizan transformaciones de los datos recogidos en la

muestra. Las más frecuentes son las transformaciones lineales: cambio de origen
o traslación y cambio de unidad u homotecia.
• Cambio de origen: los valores de la nueva variable yi = xi – p se obtienen a par-
tir de los primitivos restando una cantidad fija p. La media de la nueva variable es:
k k
∑ yi ni ∑ ( xi − p ) ni
i=1 i =1
y= = =x−p
n n
y se obtiene restando la misma cantidad a la media de la variable original.

En consecuencia, los momentos centrales, o respecto de la media, permanecen

invariantes por cambio de origen pues:
k r k r
∑ ( yi − y ) ni ∑ ( xi − x ) ni
( mr ) y = i=1 = i=1
= ( mr ) x
n n
En particular tienen la misma varianza y por tanto la misma desviación típica.
• Cambio de escala u homotecia: los valores de la nueva variable yi = h xi se

obtienen a partir de los primitivos multiplicando por una cantidad fija h > 0.
La media de la nueva variable es:
k k
∑ y ni i
∑ hxi ni
i =1 i =1
y= = = hx
n n
y se obtiene aplicando el mismo cambio de escala a la media de la variable anti-

gua.
En este caso los momentos respecto de la media sí varían:
k r k r
∑ ( yi − y ) ni ∑ ( hxi − hx ) ni
( mr ) y = i=1 = i=1
= h r ( mr ) x
n n
Los momentos centrales mr de la nueva variable se obtienen a partir de los co-

rrespondientes de la primitiva multiplicándolos por hr, siendo h la razón de homo-
tecia. En consecuencia, la varianza de la nueva variable es igual a h2 por la varianza
de la antigua y la desviación típica quedará multiplicada por el mismo factor.
x−a
• Cambio de origen y de escala a la vez: llamando y = ⇔ x = by + a,
siendo b > 0, la relación entre las medias será: b
x−a
x = by + a ⇔ y =
b
Para los momentos de orden r respecto de la media:
k r k r
∑ ( xi − x ) ni ∑ ( byi + a − ( by + a )) ni
( mr ) x = i=1 = i=1
= b r ( mr ) y
n n
Por tanto la relación entre las varianzas de ambas es:
Var ( x ) = b 2 Var ( y) ⇔ Sx2 = b 2 Sy2

1 2 1 2
Var ( y) = 2 Var ( x ) ⇔ S y = 2 Sx
b b
y en consecuencia las desviaciones típicas serán:
DT ( x ) = bDT ( y) ⇔ Sx = bSy
1 1
DT ( y) = DT ( x ) ⇔ Sy = Sx
b b
Al ser ( m3 ) x = b3 ( m3 ) y y ( m4 )x = b 4 ( m4 ) y los coeficientes de asimetría y

de curtosis de las variables x e y coinciden.
Las variables que se obtienen restando de una variable cualquiera su media y
dividiendo el resultado por su desviación típica se denominan variables tipificadas.
Si x es una variable de media x$ y de desviación típica Sx, la variable tipificada
correspondiente se designará por z:
x−x
z=
Sx
x−x 1
Esta nueva variable tiene media z = = 0 y desviación típica Sz = Sx = 1.
Sx Sx
Los valores de la variable z se dice que son los valores de x tipificados o es-
tandarizados.
EJEMPLO 2.24.
Las calificaciones de tres alumnos en dos pruebas objetivas son las siguientes:
Prueba 1 Prueba 2
Alumno 1 6,8 23,5

Alumno 2 3,5 49,6
Alumno 3 4,2 37,3
Sabiendo que la media del grupo en la primera prueba es 5,4 y la desviación tí-
pica es 2,1 y para la prueba 2 la media es 37,5 y la desviación típica es 10,3 ¿qué
alumno tiene mejor puntuación global? Ordenarlos según las calificaciones de am-
bas pruebas.
Las puntuaciones tipificadas de los alumnos en ambas pruebas se indican en la

tabla siguiente:
Puntuaciones Calificación
Prueba 1 Prueba 2
tipificadas global
Alumno 1 0,667 – 1,359 – 0,692
Alumno 2 – 0,905 1,175 0,270
Alumno 3 – 0,571 – 0,019 – 0,590
El alumno que obtiene mejor puntuación en la primera prueba es el primero,

en la segunda prueba es el segundo alumno, pero el alumno con mejor puntuación
global es el segundo.
Ordenados según las calificaciones de ambas pruebas, el mejor alumno es el
segundo, después el tercero y el peor el primero.
Con frecuencia acompañando al resumen estadístico, se representa un dia-
grama de caja y bigotes.
2.6. DIAGRAMA DE CAJA Y BIGOTES
El diagrama de caja y bigotes, también llamado gráfico de caja, y en la no-

menclatura inglesa boxplot o box and whisker, es una representación gráfica
para distribuciones estadísticas unidimensionales, introducida por Tukey en 1977,
que refleja cinco estadísticos de la muestra: los valores mínimo y máximo y los
tres cuartiles. Este gráfico se dibuja sobre un segmento cuyos extremos son los va-
lores mínimo y máximo de la variable en la muestra dada y consta de una caja, o
rectángulo, dividida en dos por una línea vertical y dos segmentos uno a cada lado
de ésta, que se conocen como bigotes. El extremo inferior del bigote izquierdo re-
presenta el valor mínimo de la muestra, el lado izquierdo de la caja coincide con
el primer cuartil, la línea vertical dibujada en el interior de la caja representa la
mediana, el lado derecho de la caja muestra el tercer cuartil y el extremo superior
del bigote derecho coincide con el valor máximo de la muestra.
0 2 4 6 8 10
En el gráfico anterior además aparece una cruz en el interior de la caja que in-
dica la posición de la media correspondiente.
Esta representación proporciona también información sobre dos medidas de

dispersión de los datos: el recorrido intercuartílico, Rint = Q3 – Q1, que es el ancho
del rectángulo y el rango o recorrido de la variable, que es la distancia entre los
extremos exteriores de los bigotes.
El diagrama de caja y bigotes también revela si es simétrica o asimétrica la
distribución. Si la mediana coincide con el centro de la caja, la distribución es si-
métrica, si la mediana está muy desplazada hacia el primer cuartil indica asimetría
positiva y si está más desplazada hacia el tercer cuartil, como en la gráfica ante-
rior, la distribución tiene asimetría negativa, es decir, hay datos más distantes de
la media a la izquierda de la mediana, y por ello la media es menor que la me-
diana. Esto también se observa en la longitud relativa de los bigotes, si el bigote
de la izquierda es más largo que el de la derecha, la cuarta parte más baja de los
datos está menos concentrada que la cuarta parte más alta. La correspondiente al
dibujo es pues una muestra sesgada hacia la izquierda.
En la representación anterior todos los valores de la variable están compren-
didos entre los extremos de los bigotes, pero no siempre ocurre así. Tukey define
cuatro barreras: dos interiores y otras dos exteriores.
3
La barrera interior inferior es Q1 − Rint y la barrera interior superior es
2
3
Q3 + Rint .
2
La barrera exterior inferior es Q1 – 3Rint y la barrera exterior superior es Q3 + 3Rint.
Se considera un valor atípico, en la nomenclatura anglosajona outlier, al
valor de la muestra, si existe, que está fuera de las barreras interiores. Estos
valores se representan por « ⵧ», por «°» o por «*». Si existe algún valor fuera de
las barreras exteriores se considera más atípico y se representa por un pequeño
punto. En el Ejemplo 2.25., que se verá en el apartado siguiente, hay valores atí-
picos.
La información que proporciona un diagrama de caja y bigotes se utilizará
más adelante. Se aprovechará para distinguir distribuciones simétricas y en el aná-
lisis de datos en Geoestadística para comprobar si los datos se alejan de la nor-
malidad.
2.7. CÁLCULO DE LOS ESTADÍSTICOS CON STATGRAPHICS
Para el cálculo de los estadísticos de una muestra es de gran ayuda el uso de

programas como el STATGRAPHICS Plus para Windows, sobre todo si el tama-
ño de la muestra es muy grande.
Al comenzar una nueva sesión con STATGRAPHICS, si se abre la ventana
StatWizard aparece señalada por defecto la tarea a realizar:
䉺 Analizar Datos Existentes o Introducir Nuevos Datos

Pulsando Aceptar aparece una nueva ventana para localizar el archivo de
datos. Si se quiere introducir datos, al señalar
䉺 Deseo introducir nuevos datos

Pulsando Aceptar se abre un fichero activo (icono de la ventana de aplicación
con una rejilla en el ángulo superior izquierdo con la etiqueta <sin nombre>) que
es una hoja de cálculo vacía en la que se pueden introducir los datos.
Cada columna de la hoja de cálculo representa una variable. El nombre de la
variable se introduce en la ventana Modificar Columna. Se puede también escri-
bir algún comentario sobre la variable o las unidades de medida. Se indica el an-
cho de la columna (que por defecto es de 13 caracteres) y el tipo de la variable,
como se explicó en el capítulo anterior. Al terminar de introducir las variables y
mostrar el programa la ventana de Modificar Columna para la siguiente columna
se pulsa Cancelar. Y con el fichero preparado para introducir los datos de la mis-
ma forma que sobre cualquier hoja de cálculo en el entorno Windows, se escriben
los datos.
Para modificar el nombre o el tipo de datos de una columna se selecciona esa
columna. Se observa que toda la columna se ensombrece. Se pulsa el botón de-
recho del ratón y se selecciona Modificar Columna. Se abre así la ventana en la
que se pueden hacer las correcciones, pudiendo cambiar el nombre Col_1 por el que
queramos, introducir un comentario sobre el contenido de la variable y elegir el
tipo de variable que se quiere introducir.
Existe también la posibilidad de obtener nuevas variables a partir de otra u
otras ya introducidas seleccionándolas previamente. Situado el cursor sobre una
columna vacía y seleccionada ésta, se pulsa el botón derecho del ratón para elegir
Modificar Columna. Al final de esta ventana se puede marcar
䉺 Fórmula
Pulsando Definir se obtiene la ventana Generar Datos. En su campo Expre-

siones se introduce la fórmula deseada. Pulsando el botón Aceptar se obtienen los
nuevos valores en la columna que se señaló.
Se puede aceptar el nombre que aparece por defecto en la nueva columna o
cambiarlo en la ventana Modificar Columna. Por ejemplo, se pueden calcular los
valores tipificados o estandarizados de la variable Col_1, es decir, los valores de
la variable Col_1 menos la media de estos y dividiendo el resultado por la des-
viación típica.
Abierto un archivo de datos, se selecciona una columna vacía y pulsando con
el botón derecho del ratón en la columna destacada, se abre una pequeña ventana
en la que se elige Generar Datos. Se abre así la ventana con ese nombre, como se
ve en la siguiente figura.
En el campo Expresiones se escribe la fórmula que permite generarlos utili-

zando los operadores que aparecen a la derecha, las variables del archivo que apa-
recen a la izquierda y los operadores aritméticos que ocupan el lugar central. En el
capítulo anterior se indicaron algunos de los operadores y a continuación se pre-
sentan los específicos para la estadística descriptiva.
• Operadores de estadística descriptiva:
RUNTOT (nomb) calcula los totales acumulados de la variable numérica lla-

mada nomb. Si la columna contiene frecuencias absolutas, o relativas, se pue-
de construir con este operador las columnas de las frecuencias absolutas acu-
muladas, o la de relativas acumuladas, respectivamente.
SIZE (nomb) da el total de observaciones no desaparecidas de la variable nu-
mérica nomb.
SUM (nomb) halla la suma de las observaciones de la variable nomb.
AVG (nomb) halla la media aritmética de la variable nomb.
GEOMEAN (nomb) halla la media geométrica de la variable nomb.
MEDIAN (nomb) halla la mediana de la variable nomb.
MODE (nomb) halla la moda de la variable nomb.
MIN (nomb) halla el menor valor de la variable nomb.
MAX (nomb) halla el mayor valor de la variable nomb.
PERCENTILE (nomb, n) halla el n-ésimo percentil de nomb.
Q25 (nomb) halla el cuartil inferior de nomb.
Q75 (nomb) halla el cuartil superior de nomb.
SD (nomb) halla la desviación típica de nomb.

VARIANCE (nomb) halla la cuasivarianza muestral de nomb.
SERROR (nomb) halla el error estándar de nomb.
RANGE (nomb) halla el rango de nomb.
IQR (nomb) halla el rango intercuartílico de nomb.
CV (nomb) halla el coeficiente de variación de nomb.
SKEWNESS (nomb) halla el coeficiente de asimetría de nomb.
SSKEW (nomb) halla el coeficiente de asimetría estandarizado de nomb.
KURTOSIS (nomb) halla el coeficiente de curtosis de nomb.
SKURT (nomb) halla el coeficiente de curtosis estandarizado de nomb.
STANDARDIZE (nomb) calcula los valores estandarizados de la variable
nomb, es decir, a los valores de la variable nomb les resta la media y se divide
el resultado por la desviación típica de la variable.
De esta forma se pueden calcular los estadísticos que interesen para cada
variable.
También el programa permite realizar un análisis numérico a partir del fichero
de datos del siguiente modo:
Se escoge en el menú:
Descripción → Datos numéricos → Análisis unidimensional
Aparece una pequeña ventana en la que se indica la columna de los datos de la
variable y pulsando Aceptar el programa STATGRAPHICS proporciona los re-
sultados del análisis en el que se incluyen por defecto:
Frecuencia da el total de observaciones de la variable numérica, es decir, n.

Media proporciona la media aritmética de la variable.
Mediana da la mediana de la variable.
Moda proporciona la moda de la variable.
Media geométrica indica el valor de la media geométrica de la variable.
Varianza proporciona el valor de la cuasivarianza muestral.
Desviación típica halla la desviación estándar o cuasidesviación típica.
Error estándar proporciona el valor del cociente entre la cuasidesviación tí-
pica y la raíz cuadrada de n.
Mínimo da el menor valor de la variable.
Máximo da el mayor valor de la variable.
Rango halla el rango o diferencia entre los valores máximo y mínimo.
Primer cuartil encuentra el primer cuartil de esa variable.
Tercer cuartil obtiene el tercer cuartil.
Rango intercuartílico halla el recorrido intercuartílico o rango intercuartílico.
Asimetría halla el coeficiente de asimetría de Fisher.
Curtosis halla el coeficiente de curtosis.
Coeficiente de variación halla el coeficiente de variación.
Suma da la suma de las observaciones de la variable.
Una vez realizado el resumen estadístico, pulsando en el icono amarillo de

Opciones Tabulares se pueden obtener además los percentiles, la tabla de fre-
cuencias y el diagrama de tallo y hojas.
El diagrama de tallo y hojas muestra los datos representados en filas (tallos).
Cada tallo se etiqueta utilizando los primeros dígitos de los valores que contiene y a
continuación se apuntan los datos, para cada uno se utiliza un dígito (hoja) situado a
la derecha de una línea vertical. Esta representación, que es parecida al histograma,
tiene la ventaja de que además se pueden recuperar los valores de los datos o al me-
nos dos dígitos significativos de cada valor, pues no se han perdido al agruparlos en
clases, como se hace en el histograma. Si hay valores muy extremos, en esta repre-
sentación aparecen separados en tallos bajos y altos respectivamente.
EJEMPLO 2.25.
Se define el pH de abrasión como el valor del pH de una suspensión de suelo fi-
namente triturado en agua. Esta medida tiene interés geológico por estar relaciona-
da con la mineralogía y la composición química elemental del suelo.
M. Martín Barca, R. García Giménez, A. Gutiérrez Maroto y R. Jiménez Ba-
llesta han determinado los pHs de abrasión de muestras de horizontes superficiales
de suelos situados dentro de cada una de las cuadrículas de 10 × 10 km en que di-
vidieron el Sistema Central. Los resultados son los siguientes:
8,0 5,9 5,3 5,6 8,5 8,5 8,0 6,1 5,2 5,9 6,0 6,8 5,4 5,0 6,9
5,7 6,4 5,5 5,7 5,0 8,7 6,2 7,7 7,6 6,6 6,0 5,7 5,2 6,8 8,4
7,6 7,7 4,8 5,9 5,9 6,4 8,4 8,2 7,6 8,2 7,6 4,9 6,1 6,0 6,0
6,0 6,0 5,8 6,0 6,4 5,8 6,4 6,9 7,7 5,9 6,0 6,1 4,8 7,7 6,4
6,2 6,6 8,2 6,5 6,0 6,2 5,5 5,8 6,0 5,7 6,0 5,7 5,7 6,0 6,0
6,2 6,5 5,6 6,6 4,6 4,6 6,5 5,6 4,8 4,5 4,9 5,1 6,4 6,7 6,1
6,1 6,1 6,5 6,5 5,5 6,2 6,4 4,9 6,4 5,5 6,3 6,5 6,9 6,0 4,6
5,9 4,9 5,6 5,5 3,3 5,6 5,9 6,3 5,5 5,4 6,3 6,3 4,9 5,6 6,2
6,7 6,4 6,4 5,7 7,0 6,4 6,4 7,0 6,9 4,6 5,6 4,6 4,6 4,1 6,2
5,7 4,5 5,9 5,6 5,0 4,8 5,7 5,2 5,6 5,2 6,4 5,0 5,2 5,7 6,2
5,9 6,9 5,3 5,2 5,2 5,6 5,5 5,9 6,3 6,3 5,7 5,3 6,1 5,0 5,1
5,3 5,8 6,4 6,4 6,1 6,1 6,8 6,3 6,5 7,2 6,2 5,9 6,0 5,0 6,2
6,1 5,7 7,3 4,9 6,3 5,8 5,4 5,8 5,4 6,1 6,1 6,0 6,1 6,1 6,3
6,4 5,7 5,7 5,0 6,1 6,3 6,3 5,8 5,8 5,8 6,0
Realizar con el programa STATGRAPHICS un análisis descriptivo.
Se comienza por introducir los datos del pH en un nuevo archivo de datos

como se explicó anteriormente. A continuación se escoge en el menú:
Descripción → Datos numéricos → Análisis unidimensional

Aparece una ventana para introducir los datos. Se indica la columna que los
contiene y pulsando Aceptar el programa STATGRAPHICS proporciona un resu-
men numérico. Los resultados de este análisis se presentan a continuación:
Análisis Unidimensional-pH de abrasión
Resumen de Procedimiento
Datos: pH de abrasión
206 valores comprendidos desde 3,3 hasta 8,7
3,3 4,3 5,3 6,3 7,3 8,3 9,3

pH de abrasión
Resumen Estadístico para pH de abrasión
Frecuencia = 206
Media = 6,02913
Mediana = 6,0
Moda = 6,0
Media geométrica = 5,96765
Varianza = 0,762074
Desviación típica = 0,872969
Error estándar = 0,0608226
Mínimo = 3,3
Máximo = 8,7
Rango = 5,4
Primer cuartil = 5,6

Tercer cuartil = 6,4
Rango intercuartílico = 0,8
Asimetría = 0,612549
Curtosis = 1,21314
Coeficiente de variación = 14,4792%
Suma = 1242,0
El StatAdvisor
--------------
Esta tabla muestra el resumen estadístico para pH de abrasión. In-
cluye las medidas de tendencia central, medidas de variabilidad, y medi-
das de forma.
Gráfico de caja y bigotes
3,3 4,3 5,3 6,3 7,3 8,3 9,3

pH de abrasión
Percentiles para pH de abrasión
1,0% = 4,5
5,0% = 4,8
10,0% = 5,0
25,0% = 5,6
50,0% = 6,0
75,0% = 6,4
90,0% = 7,0
95,0% = 7,7
99,0% = 8,5
El StatAdvisor
--------------
Este cuadro muestra los percentiles de la muestra para pH de abra-
sión. Los percentiles son valores bajo los cuales se encuentran porcen-
tajes específicos de datos.
Tabla de Frecuencias para pH de abrasión
Límite Límite Frecuencia Frecuencia Frecuencia

Clase Marca Frecuencia
inferior superior Relativa Acumulativa Acum. Rel
menor o igual 3,0 0 0,0000 0 0,0000
1 3,0 3,66667 3,33333 1 0,0049 1 0,0049
2 3,66667 4,33333 4,0 1 0,0049 2 0,0097
3 4,33333 5,0 4,66667 25 0,1214 27 0,1311
4 5,0 5,66667 5,33333 34 0,1650 61 0,2961
5 5,66667 6,33333 6,0 87 0,4223 148 0,7184
6 6,33333 7,0 6,66667 38 0,1845 186 0,9029
7 7,0 7,66667 7,33333 6 0,0291 192 0,9320
8 7,66667 8,33333 8,0 9 0,0437 201 0,9757
9 8,33333 9,0 8,66667 5 0,0243 206 1,0000
mayor 9,0 0 0,0000 206 1,0000
Media = 6,02913 Desviación típica = 0,872969
El StatAdvisor
--------------
Esta opción realiza una tabulación de frecuencias dividiendo el ran-
go de pH de abrasión en intervalos de igual anchura y contando el número
de valores de los datos en cada intervalo. Las frecuencias muestran el
número de valores en cada intervalo, mientras que las frecuencias rela-
tivas muestran las proporciones en cada intervalo.
Puede cambiar la definición del intervalo pulsando el botón alterna-
tivo del ratón y seleccionando Opciones de Ventana. Puede ver los resul-
tados de la tabulación gráficamente seleccionando Histograma de Frecuen-
cias de la lista de Opciones Gráficas.
Diagrama de Tallo y Hojas para pH: unidad = 0,1 1|2 representa 1,2
BAJO |3,3 4,1

2 3|
2 3|
2 4|
20 4|556666668888999999
44 5|000000011222222233334444
95 5|555555566666666667777777777777788888888899999999999
(69) 6|0000000000000000011111111111111122222222223333333333344444444...
42 6|55555556667788899999
22 7|0023
18 7|6666
ALTO |7,7 7,7 7,7 7,7 8,0 8,0 8,2 8,2 8,2 8,4 8,4 8,5 8,5 8,7
Hasta aquí los resultados que proporciona el programa STATGRAPHICS.

Ahora, el especialista debe hacer una interpretación de estos.
M. Martín Barca, R. García Giménez, A. Gutiérrez Maroto y R. Jiménez
Ballesta dan la siguiente interpretación geológica de los resultados obtenidos:
«Se observa una gran dispersión en el pH de abrasión del Sistema Central ya que
el rango es 5,4. La mediana es 6,0 lo que significa que el 50% de los pHs observados es
inferior a 6 y el otro 50% es superior o igual a 6. Son más frecuentes los valores más
altos que los más bajos. Sólo se observan dos valores muy bajos y 14 valores muy altos.
Los valores muy altos se asocian a suelos carbonatados y los más bajos se de-
tectan bajo sustrato vegetal acidificante que coincide con materiales metamórficos.
Se considera que el pH de abrasión, al reflejar indirectamente la cantidad de
bases presentes en la solución (calcio) puede utilizarse como índice válido del es-
tado de bases disponibles. De este modo, el pH se puede utilizar para evaluar la
capacidad de amortiguamiento ácido de los suelos, en el caso estudiado de los
suelos del Sistema Central».
En el ejemplo siguiente se recoge la información proporcionada por el pro-

grama STATGRAPHICS de los 206 datos del pH agrupados en 10 intervalos y se
contrastan los resultados con los que se obtienen utilizando las fórmulas para da-
tos agrupados en intervalo.
EJEMPLO 2.26.
La siguiente tabla la proporciona STATGRAPHICS al pedir que agrupe los va-
lores del Ejemplo 2.25. en 10 intervalos.
La amplitud de cada intervalo es 0,58.
Tabla de Frecuencias para pH de abrasión
Límite Límite Frecuen- Frecuencia Frecuen-
Frecuen-
Clase infe- supe- Marca cia Rela- Acumu- cia Acum.
cia
rior rior tiva lativa Rel
menor o igual 3,1 0 0,0000 0 0,0000
1 3,1 3,68 3,39 1 0,0049 1 0,0049
2 3,68 4,26 3,97 1 0,0049 2 0,0097
3 4,26 4,84 4,55 12 0,0583 14 0,0680
4 4,84 5,42 5,13 30 0,1456 44 0,2136
5 5,42 6,0 5,71 68 0,3301 112 0,5437
6 6,0 6,58 6,29 59 0,2864 171 0,8301
7 6,58 7,16 6,87 15 0,0728 186 0,9029
8 7,16 7,74 7,45 10 0,0485 196 0,9515
9 7,74 8,32 8,03 5 0,0243 201 0,9757
10 8,32 8,9 8,61 5 0,0243 206 1,0000
mayor 8,9 0 0,0000 206 1,0000
Media = 6,02913 Desviación típica = 0,872969

a) Calcular la media, mediana, moda, varianza, desviación típica, cuasivarian-

za, cuasidesviación típica o desviación estándar y el coeficiente de variación.
b) ¿Coinciden los valores de la media y de la desviación típica con los pro-
porcionados por el programa STATGRAPHICS?
Clases xi ni Ni xini xi2ni
[3,1; 3,68) 3,39 1 1 3,39 11,4921

[3,68; 4,26) 3,97 1 2 3,97 15,7609
[4,26; 4,84) 4,55 12 14 54,60 248,4300
[4,84; 5,42) 5,13 30 44 153,90 789,5070
[5,42; 6,00) 5,71 68 112 388,28 2.217,0788
[6,00; 6,58) 6,29 59 171 371,11 2.334,2819
[6,58; 7,16) 6,87 15 186 103,05 707,9535
[7,16; 7,74) 7,45 10 196 74,50 555,0250
[7,74; 8,32) 8,03 5 201 40,15 322,4045
[8,32; 8,90) 8,61 5 206 43,05 370,6605
Totales n = 206 1.236,00 7.572,5942
10
∑ xi ni
1.236
i=1
a) La media es x = = = 6.
n 206
La clase mediana es la quinta ya que 112 es la primera frecuencia absoluta
acumulada superior a 103, que es la mitad del número de datos.
103 − 44
Me = 5, 42 + 0, 58 . 5, 89
68
La clase modal es también la quinta, porque la frecuencia máxima es 68.
68 − 30
Mo = 5, 42 + 0, 58 . 5, 92
( 68 − 30 ) + (68 − 59 )
La varianza es:
10
∑ xi2 ni 7.572, 5242 2
S 2 = Var ( x ) = i =1
− x2 = − 6 . 0, 7602
n 206
La desviación típica es S = DT ( x ) . 0, 8719.

n 206
La cuasivarianza es s 2 = Var ( x ) = 0, 7602 = 0, 7639.
n −1 205
La cuasidesviación típica o desviación estándar es:
s = s 2 . 0, 8740
El coeficiente de variación de Pearson es:
S 0, 8719
CV = = = 0, 1453
x 6
b) Recuérdese que lo que STATGRAPHICS llama varianza es la cuasiva-

rianza muestral, y lo que denomina desviación típica es la desviación estándar o
cuasidesviación típica.
Además, como se puede observar, la media y la desviación típica que pro-
porciona STATGRAPHICS no coinciden con los valores obtenidos, porque el
programa repite el valor de los estadísticos obtenidos de los datos sin agrupar,
pues conserva el archivo de datos.
2.8. NÚMEROS ÍNDICES. BREVES NOCIONES
Un número índice es una medida estadística adimensional que sirve para

comparar dos magnitudes o también una misma magnitud en dos situaciones, de
las que una de ellas se toma como referencia. Esta comparación se puede efectuar
en el tiempo o en el espacio.
Los números índices se usan para hacer comparaciones en antropología, en pa-
leontología, en biometría, en economía, en psicología, en pedagogía, en meteoro-
logía, etc.
Ejemplos de números índices que comparan dos magnitudes son:
䊏 Índice cefálico, que se suele expresar en tanto por ciento, es el cociente en-
tre la máxima anchura del cráneo y su longitud máxima.
䊏 Índice de asociación que se obtiene dividiendo el número de parcelas de un
terreno en las que aparece una de las especies entre el número de las que habitan
las dos especies.
䊏 Ley de un mineral, o proporción en peso de la parte aprovechable del mi-
neral en una explotación minera, es el cociente entre el peso de la mena y el peso
total del mineral.
䊏 Índice de diversidad, que es el cociente entre el número de especies y el nú-
mero de individuos de una comunidad.
䊏Índice de natalidad, relación entre el número de personas nacidas y el total

de habitantes de una región en un periodo determinado.
䊏 Índice de mortalidad, que se suele expresar en tanto por mil, por 10.000 o
por 100.000 personas, es el cociente entre el número de personas fallecidas a cau-
sa de una determinada enfermedad y el número de personas de la población.
Se pueden calcular índices de población para comparar los habitantes de dos
Comunidades diferentes o de la misma Comunidad en dos años distintos.
䊏 Índice de producción It0, es el cociente entre la cantidad producida en el ins-
tante t y la producida en el instante 0 (referencia). Ejemplo:
2002 3.080 kg de trigo

I1950 = = 1, 975
1.562 kg de trigoo
Esto significa que la producción de trigo en 2002 es el 197,5% de la produ-

cida en 1950, es decir, que ha habido en ese periodo un incremento del 97,5%
䊏Cociente intelectual C.I., es el cociente entre la edad mental y la edad

cronológica multiplicado por 100.
E.M .
C. I . = × 100
E.C.
䊏Ratio profesor-alumno es el cociente entre el número de alumnos y el nú-

mero de profesores. Se expresa en tanto por uno.
䊏Índice de Fournier modificado para un periodo específico que caracteriza la
agresividad de la precipitación.
12 pi2
IFM = ∑
i=1 P
Siendo pi la precipitación en mm del mes i-ésimo y P la precipitación anual en mm.

Índice global de humedad se define como la diferencia entre el índice de
䊏
humedad y 0,6 por el índice de aridez, es decir:
100 s − 60 d
Im =
n
Donde s es el superavit de agua, d es el déficit y n las necesidades de agua de

la zona. Representa la proporción de la precipitación requerida por las exigencias
vegetales.
䊏 Índice nasal se define como el cociente entre la anchura de la nariz y la al-

tura de la nariz, multiplicado por 100, es decir,
Anchura de la nariz
I nasal = × 100
Altura de la narizz
En odontoantropología se usa, entre otros, el siguiente:
䊏 Índice coronario que es el cociente entre el diámetro mesiodistal y el diá-
metro vestíbulolingual, multiplicado por 100, esto es,
Diámetro mesiodistal
Icoronario = × 100
Diámetro vesttibulolingual
Los índices más sencillos, los llamados índices simples, se refieren a la va-
riación de una sola magnitud.
Un índice simple mide la variación en tanto por uno, o en tanto por ciento, de
una sola magnitud.
Así, por ejemplo, el precio de la gasolina súper en Madrid el 1 de enero de
1976 era de 21 ptas/litro y la súper el 20 de agosto de 2007 costaba 1,056 €/litro
que equivale a (1,056 €/litro)(166,386 ptas/€) = 175,7036 ptas/litro.
El cociente
P2007 175, 7036
I 0t = = = 8, 3668
P1976 21
Este índice estadístico compara los precios de la gasolina súper en el tiempo. En

este caso el instante de referencia es el 1 de enero de 1976, que se toma como base.
21
El índice I00 = = 1 = 100%. Esto significa que el índice en el instante de
21
referencia es 1 ó 100 %
El índice I0t = 836,68% significa que el precio de la gasolina súper el 20 de
agosto de 2007 es 8,36 veces el de la gasolina súper en enero de 1976.
De este índice no se puede deducir que todos los artículos hayan subido en la
misma proporción. La información económica de un índice simple es muy pobre,
por lo que se definen otros índices globales que tratan de resumir en un solo número
varios índices simples, que son los índices compuestos. Un índice compuesto es el
Índice de Precios al Consumo (IPC) o el Índice General de la Bolsa de Madrid.
El Índice de Precios al Consumo (IPC), es una medida de la variación de los
precios de unos determinados bienes y servicios de consumo respecto a un origen
o año base.
Un Índice Complejo o Compuesto mide la evolución de una magnitud com-
pleja a partir de los índices simples de las diferentes magnitudes componentes.
Entre ellos se pueden distinguir dos tipos, los ponderados y los no ponderados.
Se pueden obtener índices complejos a partir de los índices simples prome-

diando estos. Para el cálculo de índices compuestos se utilizan medias aritméticas,
geométricas, armónicas de los índices simples tanto ponderadas como no ponde-
radas.
Ejemplos de índices compuestos son los índices de precios siguientes:
䊏 Índice de Sauerbeck
npit
∑
i =1 pi 0
SP =
n
es una media aritmética no ponderada de los índices simples.
䊏 Índice de Laspeyres
n pit n
∑ pi 0 qi 0 ∑ pit qi 0
i =1 pi 0 i=1
LP = n = n
∑ pi 0 qi 0 ∑ pi 0 qi 0
i=1 i =1
es una media aritmética ponderada de los índices de precios simples, tomando

como pesos wi = pi0 qi0, es decir, el valor de la cantidad consumida qi0 del artículo
i-ésimo en el periodo base o de referencia. Es el que se utiliza en España para el
cálculo del IPC, Índice de Precios de Consumo. Cada cinco años se realiza un
cambio de base.
El índice general nacional consta en el INE desde enero de 1961. En la ac-
tualidad el IPC tiene por base 2001. Esto significa que la media aritmética de los
doce índices mensuales del año 2001 se hace igual a 100.
Hasta el año 2001 se utilizaba el índice de Laspeyres con base fija. El periodo
de referencia durante el año 2002 fue el 2001 y a partir de ese año se utiliza un ín-
dice de Laspeyres encadenado, es decir, un índice en el que varía el periodo de re-
ferencia cada año. A partir de 2002 el periodo de referencia es diciembre del úl-
timo año anterior al considerado.
En 2006 se actualizó la estructura de ponderaciones y la composición de la
cesta de la compra, teniendo en cuenta los datos de la Encuesta Continua de
Presupuestos Familiares, que refleja los cambios en los hábitos de los consumi-
dores, para ajustarse mejor a la realidad y aproximarse a los datos que utiliza Eu-
rostat en la elaboración del IPC armonizado. Entran a formar parte de la nueva
cesta de la compra, entre otros, la lubina, el salmón ahumado, los potitos, los pre-
servativos, el ron, las operaciones de cirugía estética, el precio que cobra por hora
una cuidadora de niños, las bicicletas estáticas, las cámaras de vídeo, las patatas
congeladas, los CD grabables, los artículos rebajados, y salen por ejemplo la
gallina, que se consume menos que el pollo, la leche fresca y las alubias, entre
otros.
A continuación se indican las ponderaciones de los distintos grupos de artí-
culos de la cesta de la compra para los años 2005 y 2006.
En ellas se observa el cambio de hábitos de los consumidores en España.
IPC Base 2001 IPC Base 2001

Grupos
Ponderaciones año 2005 Ponderaciones año 2006
1. Alimentos y bebidas no alcohólicas 22,60 22,28
2. Bebidas alcohólicas y tabaco 3,17 3,07
3. Vestido y calzado 9,73 9,25
4. Vivienda 10,69 10,71
5. Menaje 6,41 6,17
6. Medicina 2,68 2,72
7. Transporte 14,40 14,91
8. Comunicaciones 2,99 3,28
9. Ocio y cultura 6,76 6,78
10. Enseñanza 1,67 1,68
11. Hoteles, cafés y restaurantes 11,23 11,45
12. Otros bienes y servicios 7,67 7,70
GENERAL 100 100
Los datos publicados por el INE, el 13 de septiembre de 2007, referidos a IPC

Base 2006 = 100 del Índice General Nacional se recogen en la siguiente tabla:
Periodo Incremento relativo en %

De septiembre de 2005 a septiembre de 2006 2,9
De octubre de 2005 a octubre de 2006 2,5
De noviembre de 2005 a noviembre de 2006 2,6
De diciembre de 2005 a diciembre de 2006 2,7
De enero de 2006 a enero de 2007 2,4
De febrero de 2006 a febrero de 2007 2,4
De marzo de 2006 a marzo de 2007 2,5
De abril de 2006 a abril de 2007 2,4
De mayo de 2006 a mayo de 2007 2,3
De junio de 2006 a junio de 2007 2,4
De julio de 2006 a julio de 2007 2,2
De agosto de 2006 a agosto de 2007 2,2
Los datos del IPC publicados el 11 de septiembre de 2008 también con base
2006 = 100 son los siguientes:
Periodo Incremento relativo en %

De septiembre de 2006 a septiembre de 2007 2,7
De octubre de 2006 a octubre de 2007 3,6
De noviembre de 2006 a noviembre de 2007 4,1
De diciembre de 2006 a diciembre de 2007 4,2
De enero de 2007 a enero de 2008 4,3
De febrero de 2007 a febrero de 2008 4,4
De marzo de 2007 a marzo de 2008 4,5
De abril de 2007 a abril de 2008 4,2
De mayo de 2007 a mayo de 2008 4,6
De junio de 2007 a junio de 2008 5,0
De julio de 2007 a julio de 2008 5,3
De agosto de 2007 a agosto de 2008 4,9
Estos datos oficiales, además, de ser indicadores de la actividad económica se

utilizan, por ejemplo, para la actualización de los alquileres y las pensiones de ju-
bilación, etc.
䊏 Índice de Paasche
n pit n
∑ p q ∑ pit qit
i =1 pi 0 i 0 it i=1
PP = n = n
∑ pi 0 qit ∑ pi 0 qit
i =1 i =1
es el cociente entre el valor actual de los artículos y el valor real (el valor con los
precios del año base). Es una media aritmética ponderada de los índices simples,
tomando como pesos wi = pi0qit , es decir, el valor de la cantidad consumida qit del
artículo i-ésimo en el periodo actual con el precio del periodo base o de referencia.
Se utiliza para transformar valores actuales en reales (deflación)1.
1
Deflación: disminución de la circulación fiduciaria por reducción del papel moneda y limita-
ción de los créditos.
Inflación: excesiva emisión de billetes en reemplazo de moneda.
Definiciones tomadas del Diccionario Ideológico de la Lengua Española de Julio Casares.
䊏 Índice de Fisher es la media geométrica de los índices de Laspeyres y de

Paasche,
n n
∑ pit qi 0 ∑ pit qit
i=1 i=1
FP = LP PP = n n
∑ pi 0 qi 0 ∑ pi 0 qit
i=1 i =1
Los números índices permiten reducir grandes volúmenes de datos a números

que admiten comparaciones.
En esta pequeña muestra se observa que hay distintos tipos de números índi-
ces. Unos se refieren al tiempo, como los índices de precios. Otros se definen en
el espacio como los índices de población, que comparan el número de habitantes
de distintas Comunidades con una que se toma de referencia. Hay índices bio-
métricos, índices climáticos, etc.
STATGRAPHICS también permite el cálculo de números índices con la op-
ción Generate Data del menú Edit para introducir las fórmulas.
En paleontología, que estudia e interpreta el pasado geológico de la Tierra, el
estudio de la forma de los fósiles es fundamental. Además de medidas, también
utilizan índices, por ejemplo, en el estudio de los braquiópodos el cociente entre
la longitud y la anchura de la concha. Estos índices reflejan la variabilidad y el
cambio de forma con el crecimiento. Si el índice entre dos dimensiones no cam-
bia con la ontogenia, esto es, con el desarrollo del individuo, el crecimiento es iso-
métrico. En caso contrario, el crecimiento se dice que es anisométrico: una parte
o dimensión crece a más velocidad que la otra y esto produce un cambio de forma
con el desarrollo.
2.9. PROBLEMAS PROPUESTOS
2.9.1. Para estimar el número de cajeras que se necesitarán en los hipermercados, un

empresario pide información sobre el tiempo, en minutos, que se requiere para aten-
der a los clientes. Los tiempos para una muestra de 1.000 clientes, agrupados en in-
tervalos, son los siguientes:
Clases ni
[0; 1,5) 120
[1,5; 3,0) 243
[3,0; 4,5) 116
[4,5; 6,0) 317
[6,0; 7,5) 204
Calcular:
a) Moda, mediana y percentil 85.
b) Haciendo un cambio de variable conveniente, la media, la desviación
típica y el coeficiente de variación.
c) ¿Qué fracción de los tiempos de atención no pasan de un minuto?
2.9.2. Calcular las medias aritmética, geométrica, armónica y cuadrática de los si-
guientes valores: 7, 4, 2, 3, 8, 12.
2.9.3. Calcular la media, mediana y moda de la distribución de frecuencias dada en

la siguiente tabla y explicar si es simétrica o no.
Clases ni
[5, 15) 1
[15, 25) 2
[25, 35) 3
[35, 45) 6
[45, 55) 5
[55, 65) 4
[65, 75) 3
[75, 85) 2
[85, 95) 1
2.9.4. Calcular las medias aritmética, geométrica, armónica y cuadrática de los si-
guientes valores: 17, 2, 8, 3, 8, 2, 12, 3, 8, 12, 12.
2.9.5. Calcular la moda de la distribución siguiente que representa las calificaciones

de un grupo de 78 alumnos en un examen de estadística. ¿Es una clase homogénea en
cuanto a estos resultados?
Clases ni
[0, 1) 5
[1, 2) 11
[2, 3) 6
[3, 4) 4
[4, 5) 9
[5, 6) 14
[6, 7) 9
[7, 8) 7
[8, 9) 9
[9, 10) 4
2.9.6. Un automovilista viaja 100 km por autopista a 90 km/h y otros 100 km por ca-
rreteras a 60 km/h. Calcular la velocidad media del recorrido.
2.9.7. Un automóvil rojo recorre tres trayectos de igual longitud, a, a las velocidades
v1, v2, v3 respectivamente y otro blanco recorre en tres intervalos de tiempo, de am-
plitud t constante, trayectos a las velocidades anteriores.
a) ¿Cuál es la velocidad media de cada automóvil?
b) ¿Qué automóvil alcanza mayor velocidad media?
c) Calcular las velocidades medias de ambos automóviles para
a = 10 km, t = 30 min, v1 = 80 km/h,v2 = 100 km/h y v3 = 110 km/h.
2.9.8. Una empresa compra 16 ordenadores de 800 € cada uno, 10 de 900 € y 24 de

600 € se le hace una rebaja del 10% y pagó 6% de IVA. Calcular el costo medio por
ordenador.
2.9.9. Se conocen las medias de tres muestras de tamaños diferentes n1, n2, n3 ¿es la
media de la muestra formada por todos los valores de las tres muestras la media arit-
mética de las tres medias?
2.9.10. Un comercial elige una muestra de cinco artículos y observa que sus precios
son 240%, 104%, 116%, 112% y 120% del precio de hace un año. Calcular el por-
centaje medio.
2.9.11. La siguiente tabla representa la distribución de pesos de manzanas en gramos:
Pesos g [70, 80) [80, 90) [90, 100) [100, 110) [110, 120)
ni 8 15 40 10 7
Calcular:
a) La media y la desviación media.
b) La mediana, la moda y el percentil 27.
c) La desviación típica.
d) Los coeficientes de variación, de asimetría de Fisher y de curtosis.
2.9.12. Los pesos en gramos de 80 cangrejos de río se han agrupado en clases obte-
niendo la siguiente tabla:
Pesos g [20, 30) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80)
ni 10 12 20 17 13 8
Calcular:
a) La media, la mediana, la moda y el tercer decil.
b) La desviación media.
c) La desviación típica.
d) Los coeficientes de variación, de asimetría de Fisher y de curtosis.
2.9.13. En una máquina trabajan tres personas distintas, se eligen ocho muestras de
la producción de cada uno de ellos y se anota el porcentaje de piezas desechadas; los
resultados obtenidos se presentan en la siguiente tabla:
P1 22 25 22 23 25 20 23 24
P2 27 14 20 25 30 28 20 20
P3 35 23 24 20 19 18 22 23
Calcular:
a) La media, la mediana y la moda de la producción de cada persona.
b) La varianza y la desviación típica de las tres muestras.
c) ¿Cuál de las tres personas presenta una mayor regularidad? ¿Por qué?
2.9.14. En la siguiente tabla se recogen, agrupados en intervalos, el tiempo, en mi-

nutos, que utilizaron la conexión a Internet 100 clientes en un cibercafé
Tiempo min 10-18 20-28 30-38 40-48 50-58 60-68 70-78 80-88 90-98
ni 3 14 29 22 14 10 4 2 2
Calcular:
a) La media, la mediana y la moda.
b) La varianza y la desviación típica.
c) El coeficiente de variación.
d) Los cuartiles.
e) El cuarto decil.
f) Los coeficientes de asimetría de Fisher y de curtosis.
2.9.15. Los diámetros de los troncos de una tala, medidos en cm, proporcionan la si-
guiente tabla:
Clases cm [20, 24) [24, 28) [28, 32) [32, 36) [36, 40) [40, 44) [44, 48) [48, 52) [52, 56) [56, 60)
ni 2 2 3 7 9 10 8 6 4 5
a) Dibujar el histograma de frecuencias absolutas.

b) Calcular la media aritmética, los cuartiles, la moda, el percentil 85, la des-
viación típica, el coeficiente de asimetría y el de curtosis.
c) Se ha vendido el 65% de la tala, los de mayor diámetro, ¿cuál es el diámetro
mínimo de los vendidos?
2.9.16. Hallar la media, la mediana, la moda, los cuartiles y el recorrido intercuartí-

lico de la distribución siguiente:
Tiempo
[85, 90) [90, 95) [95, 100) [100, 105) [105, 110) [110, 115) [115, 120) [120, 125) [125, 130) [130, 135)
min
ni 2 2 6 7 12 7 7 2 2 3
2.9.17. La distribución siguiente representa el gasto anual en alimentación, en miles

de euros, de 10.000 hogares:
Clases [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10) [10, 11) [11, 12) [12, 13)
ni 2.145 1.520 840 955 1.110 2.342 610 328 150
Calcular:
a) El gasto medio por hogar.
b) El valor que deja por debajo de él el 75%, el 40%, la mitad y el 91% de los
hogares.
c) La varianza y la desviación típica.
d) El coeficiente de asimetría.
e) El coeficiente de curtosis.
2.9.18. Las calificaciones, sobre 100 puntos, obtenidas en una prueba por un grupo
de universitarios son:
Clases 0- 9 10- 19 20-29 30- 39 40- 49 50-59 60- 69 70- 79 80- 89 90- 99
ni 2 3 8 8 13 16 12 7 5 3
Calcular:
a) La media aritmética, la mediana y la moda.
b) El primer y el tercer cuartil.
c) La desviación media.
d) La desviación típica.
e) El coeficiente de variación.
f) El coeficiente de asimetría de Fisher y el coeficiente de curtosis.
2.9.19. Las ponderaciones de los grupos en el Índice de Precios al Consumo, IPC, en

el sistema vigente en 2007 en España son las siguientes:
IPC Base 2001

Grupos
Ponderaciones año 2006
1. Alimentos y bebidas no alcohólicas 22,28
2. Bebidas alcohólicas y tabaco 3,07
3. Vestido y calzado 9,25
4. Vivienda 10,71
5. Menaje 6,17
6. Medicina 2,72
7. Transporte 14,91
8. Comunicaciones 3,28
9. Ocio y cultura 6,78
10. Enseñanza 1,68
11. Hoteles, cafés y restaurantes 11,45
12. Otros bienes y servicios 7,70
GENERAL 100
Calcular el IPC en cada uno de los supuestos siguientes:
a) Si se incrementa el índice de alimentos y bebidas no alcohólicas en un 15%

permaneciendo constantes los restantes índices en su situación inicial.
b) Si sólo aumenta en un 18% el índice de vivienda permaneciendo constantes

los restantes índices en su situación inicial.
c) Si los grupos 1, 3, 4, 5 y 6 aumentan en un 5, un 20, un 12, un 25 y un 40%
respectivamente y los restantes no varían de su situación inicial.
2.9.20. Se ha observado el número de plantas afectadas por una plaga en 90 parcelas

del mismo tamaño. Los resultados, agrupados en clases, son los siguientes:
Clases [15, 25) [25, 35) [35, 45) [45, 55) [55, 65) [65, 75) [75, 85)
ni 2 15 23 22 19 5 4
Calcular, haciendo una transformación conveniente, la media, la varianza, la des-

viación típica, el coeficiente de variación y los coeficientes de asimetría y curtosis.
bidimensional 3
3.1. INTRODUCCIÓN
En el estudio estadístico de una población cualquiera, puede resultar conveniente
valorar para cada elemento de la muestra simultáneamente dos caracteres. Si los dos
caracteres son cuantitativos, se obtiene una variable estadística que asigna a cada ele-
mento de la población un par de números (xi, yi). Se obtiene así una variable estadística
bidimensional. Al par de números (xi, yi) se le denomina observación bidimensional.
La primera componente es la medida de la observación realizada para una de las
magnitudes, x, que se refiere al primer carácter observado, y la segunda es la medida de
la observación referente al segundo carácter, y. Por ejemplo, se puede observar el peso
y la talla de un mismo individuo; la altura de un árbol y su diámetro a 1,30 m del sue-
lo; los años de antigüedad y el salario de un trabajador; para un atleta el número de pul-
saciones en reposo y después de realizar una hora de ejercicio físico; el precio de una
cajetilla de tabaco y el número de cajetillas que han vendido en un día en un estanco, etc.
Los valores xi que constituyen la primera componente se pueden considerar
como los de una variable estadística simple, unidimensional x, y lo mismo puede
decirse de los yi observados para la segunda componente, que son los valores de
otra variable estadística y. Pero si lo que interesa es la consideración conjunta de
los pares decimos que (xi, yi) es un resultado elemental de la observación.
El conjunto formado por los n pares observados (x1, y1), (x2, y2), …, (xn, yn)
constituye una distribución bidimensional. Dos observaciones son iguales si están
representadas por el mismo punto del plano.
Las variables estadísticas bidimensionales pueden ser discretas o continuas.
Una variable estadística bidimensional es discreta, si las dos variables unidi-
mensionales x e y son discretas y si x e y son ambas continuas, se dice que la va-
riable estadística bidimensional es continua. Ejemplo, si x = «edad en años» e y =
«n.o de respuestas acertadas de un test de 100 preguntas», la variable bidimen-
sional (x, y) es discreta. Pero si x representa la talla e y el peso de una persona, la
variable bidimensional (x, y) es continua.
99
Si todos los pares observados (xi, yi) son diferentes, la representación de cada
par como un punto del plano proporciona una nube de puntos o diagrama de dis-
persión.
Por ejemplo, para la distribución bidimensional
x 1,1 2,4 1,3 2,1 1,5 1,0 2,7 1,9 3,4 2,5 1,7 1,2 1,6 2,3 2,4 1,3 1,5 2,0 2,3 2,5
y 7,5 8,3 7,6 7,1 6,9 5,8 8,6 7,2 9,1 8,2 7,4 8,5 7,8 9,3 9,1 7,5 6,8 9,6 9,2 8,4
la figura representa el diagrama de dispersión correspondiente proporcionado

por el Programa STATGRAPHICS.
Plot of Y vs X
Y 9,8
8,8
7,8
6,8
5,8
1 1,4 1,8 2,2 2,4 3 3,4
FIGURA 3.1. Diagrama de dispersión proporcionado por STATGRAPHICS.
3.2. TABLAS DE FRECUENCIAS DE UNA DISTRIBUCIÓN

BIDIMENSIONAL
Si entre las observaciones de una variable estadística bidimensional discreta

aparecen observaciones repetidas al recoger los datos, se tendrán pares iguales.
Cuando un par (xi, yi) se obtiene ni veces al realizar n observaciones, se dice que ni
es la frecuencia absoluta del resultado elemental (xi, yi). Es evidente que al repe-
tirse algunos de los pares, si el número de observaciones realizadas es n, el nú-
mero k de pares diferentes que forman la distribución bidimensional será menor
k n
que n, k < n, y se verifica que ∑ ni = n. Se indica por fi = i la frecuencia rela-
i =1 n
k
tiva del par (xi, yi) y se verifica que ∑ fi = 1.
i=1
Si el número de observaciones n de una variable estadística bidimensional dis-
creta es muy grande, o bien si (x, y) es una variable estadística bidimensional con-
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 101
tinua, para facilitar el manejo de los datos, tal como se hizo en las variables uni-
dimensionales, se agrupan estos en clases.
Así, si los recorridos de las variables x e y son: [ mx , M x ] y  my , M y  se pueden
dividir en r y k subintervalos respectivamente.
Los subintervalos en que se divide el recorrido de la variable x en general se eligen
iguales y análogamente los de la variable y, aunque también se pueden elegir de distinta
)
amplitud, [ mi−1 , mi ) para i = 1,2, ... , r y  l j −1 , l j para j = 1,2, ... , k , tales que:
m0 ≤ m x y M x ≤ mr
l0 ≤ my y M y ≤ lk
El producto cartesiano de las nuevas clases así obtenidas [ mi−1 , mi ) y l j −1 , l j )

divide el rectángulo [ m0 , mr ] × [ l0 , lk ] en nuevos rectángulos [ mi −1 , mi ) × l j −1 , l j )
que constituyen las r.k clases de la variable estadística bidimensional. Los centros de
m + mi l j −1 + l j
estos rectángulos son los puntos (xi, yi), siendo xi = i −1 e yj = , que
2 2
reciben el nombre de marcas de clase.
Siempre que sea posible, se elegirán [ mi −1 , mi ) para i = 1, 2, ... , r, subinter-
)
valos de la misma amplitud y análogamente los l j −1 , l j para j = 1, 2, ... , k , así
)
todos los rectángulos obtenidos [ mi −1 , mi ) × l j −1 , l j ∀i = 1, 2,..., r, ∀j = 1, 2, ..., k
tendrán la misma área y esto facilita las representaciones gráficas.
Realizada esta partición se procede al recuento de las observaciones conteni-
)
das en cada clase, de tal modo que si en la clase cij = [ mi−1 , mi ) × l j −1 , l j hay nij
observaciones, se puede considerar la variable estadística bidimensional (xi, yi) con
frecuencia nij en vez de los pares observados. Al agruparlos se simplifica el trabajo
pero a la vez se pierde información, como en el caso unidimensional.
Dispuestos los valores xi en orden creciente, por ejemplo en columna y los de
yj en fila, también en orden creciente, en la intersección de la fila i-ésima con la
columna j-ésima se anota la frecuencia nij.
y y1 y2 y3 yj yk Total
… …
x filas
x1 n11 n12 n13 … n1j … n1k n1•
x2 n21 n22 n23 … n2j … n2k n2•
x3 n31 n32 n33 … n3j … n3k n3•
⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗
xi ni1 ni2 ni3 … nij … nik ni•
⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗ ⯗
xr nr1 nr2 nr3 … nrj … nrk nr•
Total n•1 n•2 n•3 … n•j … n•k n•• = n
columnas
r k r k
Es evidente que ∑ ∑ nij = ∑ ni • = ∑ n• j = n
i=1 j =1 i =1 j =1
Se puede representar esta distribución en un espacio tridimensional tomando

en el eje vertical las frecuencias nij correspondientes al par (xi, yi) del plano XY.
nij
y1 y
x1
2 y3 y
4y
5 y6
x2
y
x3
FIGURA 3.2. Representación tridimensional de una distribución bidimensional (x1, yi).
Esta representación es la análoga al diagrama de barras en las distribuciones

unidimensionales.
La nube de puntos o diagrama de dispersión es la proyección de estas barras
sobre el plano XY.
FIGURA 3.3. Nube de puntos de una distribución bidimensional.
La representación análoga al histograma de las variables unidimensionales

está formada por paralelepípedos de bases los rectángulos [ mi−1 , mi ) × l j −1 , l j y)
volúmenes proporcionales a la correspondiente frecuencia nij y por tanto tendrán
alturas iguales o proporcionales al cociente de nij entre el área del rectángulo co-
rrespondiente.
nij
60
50
40
30
n43
20
l5
10 l4
l3
y3
m0 m1 l2
m2 m3 x4 m4 l1
m5 m6 m7 l0
FIGURA 3.4. Estereograma.
Estas representaciones gráficas reciben el nombre de estereogramas. En el

caso en que todos los rectángulos tengan la misma área se pueden tomar como al-
turas de los rectángulos las frecuencias absolutas nij.
3.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS
Asociadas a la distribución bidimensional se pueden observar distribuciones

unidimensionales para las variables x e y que se denominan marginales.
La frecuencia marginal del valor xi de la variable x es:
k
ni• = ∑ nij = ni1 + ni 2 + ... + nik
j =1
La variable unidimensional de valores xi con las frecuencias absolutas ni•

forma la distribución marginal de x.
r
Análogamente la frecuencia marginal de yj es n• j = ∑ nij = n1 j + n2 j + ... + nrj
i =1
Y la variable unidimensional de valores yj con frecuencias absolutas n•j es la

distribución marginal de y.
Las dos distribuciones marginales asociadas a la distribución bidimensional
son:
xi ni• yj n•j
x1 n1• y1 n•1
x2 n2• y2 n•2
⯗ ⯗ ⯗ ⯗
xr nr• yk n•k
r k
Total n = ∑ ni • Total n = ∑ n• j
i =1 j =1
Se pueden considerar otras distribuciones unidimensionales asociadas a la dis-

tribución bidimensional (x, y) que se denominan distribuciones condicionadas.
Así, la distribución de x condicionada a y = y5 tiene por frecuencias relativas
las frecuencias absolutas correspondientes a la columna de y5 de divididas por n•5,
el total de las frecuencias absolutas de la columna 5 y la de y condicionada a x = x3
tiene por frecuencias relativas las frecuencias absolutas correspondientes a la
fila 3 divididas por n3•, el total de las frecuencias absolutas de la fila 3.
En las tablas siguientes se representan las distribuciones de frecuencias rela-
tivas de x condicionada a y = y5 y de y condicionada a x = x3
ni5 n3 j
xi /y = y5 yj /x = x3
n•5 n3•
x1 n15 y1 n31
n•5 n3•
x2 n25 y2 n32
n•5 n3•
⯗ ⯗ ⯗ ⯗
xi ni5 yj n3 j
n•5 n3•
⯗ ⯗ ⯗ ⯗
xr nr5 yk n3k
n•5 n3•
Total 1 Total 1
3.4. MOMENTOS BIDIMENSIONALES:

MEDIAS Y VARIANZAS MARGINALES, COVARIANZA
Para las variables cuantitativas bidimensionales, de las correspondientes dis-

tribuciones marginales unidimensionales, se pueden calcular las denominadas
medias marginales:
r r k k
∑ xi ni• ∑ xi ni • ∑ y j n• j ∑ y j n• j
i=1 i =1 j =1 j =1
x= = r , y= = k
n n
∑ ni• ∑ n• j
i=1 j =1
Si cada observación (xi, yi) se representa por un punto del plano, se dibuja la
nube de puntos o diagrama de dispersión y el punto del plano (x$, y$) es el centro de
gravedad o baricentro de la distribución.
Las varianzas marginales se definen:
r k 2
∑ ( y j − y ) n• j
2
∑ ( xi − x ) ni•
j =1
Sx2 = i=1
, Sy2 =
n n
y las cuasivarianzas marginales:
r k 2
∑ ( y j − y ) n• j
2
∑ ( xi − x ) ni•
j =1
sx2 = i =1
, s y2 =
n −1 n −1
De la misma forma que en el caso unidimensional, se pueden definir los mo-

mentos de la distribución bidimensional.
Momentos respecto del origen para una distribución bidimensional:

El momento respecto del origen de orden h1 para x y h2 para y es
r k
∑ ∑ xi h y j h nij
1 2
i =1 j =1
ah1h2 =
n
Momentos respecto del baricentro (x$, y$) o momentos centrales para una dis-
tribución bidimensional:
El momento central de h1 orden para x y h2 para y, es
r k h1 h2
∑ ∑ ( xi − x )
i =1 j =1
(y j −y ) nij
mh1 h2 =
n
Como caso particular si h2 = 0, se obtienen los momentos de la distribución

marginal de la variable x, así:
2
a10 = x , m20 = Sx2 = a20 − ( a10 )
Si h1 =0, se obtiene los momentos de la distribución marginal de y:
2
a01 = y , m02 = Sy2 = a02 − ( a01 )
Para h1 ≠ 0 y h2 ≠ 0 se obtienen los momentos propiamente dichos de la

distribución bidimensional.
El momento central de orden 1 para x y 1 para y es m11 recibe el nombre de
covarianza de la variable bidimensional representada por Sxy
r k
∑ ∑ ( xi − x ) ( y j − y ) nij
i =1 j =1
Sxy = m11 =
n
es la media de los productos de las desviaciones de las componentes de cada

par a sus medias marginales. Como estas desviaciones pueden ser positivas,
cero o negativas los productos pueden tener signo positivo o negativo e inclu-
so ser nulos, por tanto la covarianza puede ser un número positivo, negativo o
nulo.
Efectuando el producto y simplificando, se obtiene la siguiente fórmula equi-
valente y útil en la práctica,
Sxy = a11 − x . y
La covarianza dividida entre el producto de las desviaciones típicas de las va-

riables marginales es una medida adimensional
Sxy
r=
Sx Sy
se denomina el coeficiente de correlación de Pearson.
3.5. VECTOR DE MEDIAS Y MATRIZ DE COVARIANZA
Cuando el número de observaciones es muy grande se puede considerar cada

una de las n observaciones de variables cuantitativas bidimensionales como un
x 
vector de dos coordenadas  i  , que representan los valores de la variable bidi-
 yi 
mensional para i = 1, 2, 3, …, n.
Se define el vector de medias de esta variable bidimensional al vector
n 
∑x
 x  1  i =1 i 
y = n  n 
   y
 ∑
i =1
i

que tiene por componentes las medias aritméticas de cada variable.

La matriz de covarianza es la matriz cuadrada cuyos elementos de la dia-
gonal principal son las varianzas y los de la diagonal secundaria la covarianza,
es decir:
 Sx 2 Sxy 
MCov =  
 Sxy Sy 2 
Como la covarianza Sxy es la misma que la Syx, la matriz de covarianzas es si-

métrica.
Utilizando esta notación, se puede escribir:
2
1 n  ( xi − x ) ( xi − x ) ( yi − y ) 
MCov = ∑
n i =1 ( x − x ) ( y − y )
 i i ( yi − y )2 
es decir,
1 n  xi − x 
MCov = ∑ .[ x − x yi − y ]
n i =1  yi − y  i
La notación matricial facilita los cálculos para las variables bidimensionales y

prepara el terreno para las variables multidimensionales.
El vector de medias es una matriz de una sola columna cuyos elementos son
las correspondientes medias.
Para calcular la matriz de covarianza basta con dividir entre el número de da-
–
tos cada uno de los elementos de la matriz producto de X – X por su transpuesta,
–  xi  x 
(X – X)t siendo X =   y X =   .
 yi  y 
3.6. REGRESIÓN Y CORRELACIÓN

Con frecuencia interesa estudiar dos variables con el objeto de descubrir si
existe algún tipo de relación entre ellas.
Si se dispone de n pares de valores (xi, yi) para i = 1, 2, …, n, de dos variables
x e y, es decir, de una variable estadística bidimensional cuantitativa, el primer
paso para analizar la posible influencia recíproca entre las medidas de las dos va-
riables x e y es observar la forma de la nube de puntos o diagrama de dispersión
formado por los n puntos dados. Este diagrama muestra no sólo la forma de la
nube, sino también la intensidad de la relación entre las dos variables cuantitativas.
En la Figura 3.5 la nube de puntos tiene una configuración lineal, hay una re-
lación lineal entre las variables peso en kg y talla en cm.
190
180
Talla en cm
170
160
150
34 44 54 64 74 84
Peso en kg
FIGURA 3.5. Nube de puntos proporcionada por STATGRAPHICS.
En la Figura 3.6 los puntos de la nube están dispersos, en este caso no hay re-
lación lineal entre las variables x e y.
80
60
40
Y
20
0
0 10 20 30 40
X
FIGURA 3.6. Nube de puntos, más dispersa que la anterior, proporcionada
por STATGRAPHICS.
La ley de Boyle-Mariotte afirma que para cada temperatura el producto del

volumen de la masa de un gas ideal por su presión es constante, P.V = k. Es decir,
existe una dependencia funcional entre las variables presión y volumen.
Dos variables cualesquiera no siempre están relacionadas por una dependen-
cia de tipo funcional, por ejemplo:
a) La renta anual de un profesional y el dinero que gasta en comprar libros.

b) El peso y la talla de una persona.
c) La media del expediente académico y el tiempo que tarda el licenciado en
obtener su primer salario.
d) El precio de un artículo y la cantidad demandada.
e) El salario de un empleado y los años de antigüedad en la empresa.
f) La temperatura y la humedad de una región determinada.
En estos casos se dice que hay una dependencia aleatoria entre las va-
riables. Esta dependencia puede ser más o menos fuerte. La teoría de la co-
rrelación se ocupa de estudiar el grado de dependencia o de asociación entre
las variables. El grado de dependencia es mínimo si las variables son inde-
pendientes y será máximo si existe entre ellas una dependencia funcional. La
teoría de la regresión se ocupa de ajustar una curva a la nube de puntos, que
se denominará curva de regresión. Se trata de descubrir si la variación de los
valores de una de las variables influye en la variación de los valores de la
otra variable con el objetivo de formular hipótesis sobre la relación entre
ellas.
El propósito no es afirmar una relación de causa-efecto, sino buscar si existe
una función que exprese un cierto grado de dependencia entre ambas, una fun-
ción cuya gráfica se ajuste lo mejor posible a los datos.
La teoría de la regresión y de la correlación tiene su origen en los trabajos de
Francis Galton (1822-1911) sobre la herencia, relacionando la estatura de los pa-
dres y la de sus hijos adultos. Galton observa que, en media, los hijos de padres
altos tienen menor estatura que sus padres y los hijos de padres bajos tienen ma-
yor estatura que sus padres. En la herencia de la estatura hay una regresión hacia
la media. De aquí el nombre de regresión.
A partir de la nube de puntos que representa una variable estadística bidimen-
sional cuantitativa, se trata ahora de seleccionar el tipo de función cuya gráfica sea
la que mejor se ajusta a la nube de puntos, puede ser una función lineal, cuadrá-
tica, potencial, exponencial, hiperbólica, etc., y una vez seleccionado el tipo de
función dar un procedimiento para obtener la curva que mejor se ajuste a la nube
de puntos.
3.7. REGRESIÓN LINEAL MÍNIMO CUADRÁTICA.

RECTAS DE REGRESIÓN. COEFICIENTE
DE CORRELACIÓN LINEAL
Si la nube de puntos no está dispersa sino que los puntos aparecen concen-
trados y tiene una configuración lineal, como en la representación de la Figura
3.5, se puede ajustar una función lineal. Estamos ante un problema de regresión li-
neal. La función a ajustar es una recta de regresión. Esta recta se determina ha-
ciendo que sean mínimas las diferencias entre los pares observados y los puntos
de la recta. Si estas diferencias se miden para cada valor de xi en la vertical se en-
cuentra la recta de regresión de y sobre x, en este caso la variable y se considera
la variable respuesta, o variable dependiente y x la variable predictora, la variable
controlada, variable explicativa o variable independiente. Si para cada valor de yi
las diferencias se miden en la horizontal, se determina la recta de regresión de x
sobre y, en este caso la variable dependiente es x y la independiente es y.
3.7.1. Recta de regresión de y sobre x

Para calcular la ecuación de la recta y = a + bx que mejor se ajuste a la nube
de puntos (xi, yi) para i = 1, 2, …, n, por el método de los mínimos cuadrados,
y = a + bx
(xi,yi)
yi
δi
y*i
G
(x,y )
O xi x
FIGURA 3.7. Recta de regresión de y sobre x.

se llama δi a la diferencia entre los valores observados yi y los valores corres-

pondientes en la recta y*i = a + bxi, para cada valor xi, es decir,
δ i = yi − yi∗ ⇔ δ i = yi − ( a + bxi )
De todas las rectas y = a + bxi se busca la recta que hace mínima la suma de
los cuadrados de las desviaciones δi, que representan la distancia vertical de los
datos (xi, yi) a los puntos (xi, y*i = a + bxi) de la recta, es decir, la que hace mínima
n n 2 n 2 n 2
2
U = ∑ δ i = ∑ yi − y
i =1 i =1
( ∗
i ) i=1
( )
= ∑ yi − ( a + bxi ) = ∑ ( yi − a − bxi )
i =1
La función U es una función de dos variables a y b pues xi e yi son las coor-

denadas de los puntos del diagrama de dispersión y por tanto valores conocidos.
Como U es función de dos variables, las condiciones necesarias para que sea mí-
nima son que las derivadas parciales de U respecto de a y de b sean nulas. Se ob-
tiene así el sistema siguiente:
n
 ∂U   n 
 ∂a = 0 ⇒ ∑ 2 ( y i − a − bx i ) ( − 1) = 0  
  i =1
∑ ( yi − a − bxi ) = 0 

i=1
 n ⇒  n ⇒
 ∂U = 0 ⇒ ∑ 2 ( yi − a − bxi ) (− x i ) = 0  ∑ ( yi − a − bx i ) xi = 0 
 ∂b i=1   i=1 
n n n
  n n
∑
 i=1 yi − ∑ a − b ∑ x i = 0   i=1 ∑ yi = an + b ∑ xi
i=1 i =1 i =1
⇒n n n
⇒
 n n n
∑ xi yi − ∑ axi − b ∑ x i2 = 0  ∑ xi yi = a∑ xi + b ∑ x i2
 i=1 i=1 i=1   i =1 i =1 i=1
El sistema simplificado:
 n n
 i=1 i ∑ y = an + b ∑ xi
i =1
n n n
∑ xi yi = a∑ xi + b ∑ x i2
 i =1 i =1 i=1
recibe el nombre de ecuaciones normales de la recta de regresión de y sobre x.

Dividiendo por n las dos ecuaciones anteriores se tiene:
n n
∑
 i =1 yi ∑ xi
 = a + b i =1 ⇒ a = y − bx
 n n
 n n n
 ∑ xi yi ∑ xi ∑ xi2
 i =1 = a i=1 + b i=1
 n n n
Sustituyendo el valor de a, obtenido de la primera ecuación, en la segunda se

calcula el valor de b:
n n n n
 n 2 
∑ xi yi ∑ xi ∑ xi2 ∑ xi yi ∑
xi

i =1
= ( y − bx ) i=1 + b i=1 ⇒ i =1
= x y + b  i =1 − x 2  ⇒
n n n n n
 
 
n
∑ xi yi
1
i=1
−x y
⇒b= n
n
∑ xi2
i=1
− x2
n
n
∑ xi2
Se sabe que Sx2 = i=1
− x 2 es la varianza de la variable x y que la covarianza
n
de las variables x e y es:
n n
∑ ( xi − x ) ( yi − y ) ∑ xi yi
i=1 i=1
Sxy = = −x y
n n
esta medida, que indica la variación conjunta de las dos variables, tiene en cuen-
ta los valores de las variables x e y a la vez. Como se dijo anteriormente, por ser el
numerador una suma de productos de números positivos o negativos puede ser po-
sitiva, negativa o incluso nula. La covarianza es positiva si a valores de x mayores
que su media x$ le corresponden valores de y también mayores que su media y$ o a
valores de x menores que su media le corresponden valores de y también menores
que su media. La covarianza es negativa si a valores de x mayores que su media x$
le corresponden valores de y menores que su media y$ y a valores de x menores
que su media le corresponden valores de y mayores que su media.
Los coeficientes de la recta de regresión de y sobre x en función de los mo-
mentos de x e y son:
Sxy Sxy
b= 2 Ä y a= y− x
S x Sx2
De ahí que la ecuación de la recta de regresión de y sobre x se pueda escribir:
Sxy Sxy
y= y− 2 x + x
Sx Sx2
o bien:
Sxy
y−y = (x − x)
Sx2
Representada de esta forma se observa que la recta de regresión de y sobre x

pasa por el punto G = (x$, y$) que recibe el nombre de centro de gravedad de la
S
nube de puntos y tiene por pendiente el coeficiente de x, Cyx = xy2 , que se deno-
Sx
mina el coeficiente de regresión de y sobre x, representa la tangente del ángulo
que forma la recta de regresión de y sobre x con la parte positiva del eje de abs-
cisas.
El signo del coeficiente de regresión es el mismo que el de la covarianza. Por
tanto, si la covarianza es positiva, la recta de regresión de y sobre x es creciente,
en este caso al aumentar el valor de x también aumenta el de y. Si la covarianza es
negativa, la recta de regresión de y sobre x es decreciente, lo que significa que al
aumentar el valor de x disminuye el de y. Y si la covarianza es cero, la recta de re-
gresión de y sobre x sería la recta que pasando por G, centro de gravedad de la
nube, es paralela al eje de abscisas.
3.7.2. Recta de regresión de x sobre y

Si la variable explicativa es y y la dependiente es x se puede determinar la
ecuación de la recta de regresión de x sobre y, x = c + dy, considerando para cada
valor de yi las diferencias δi = x*i – xi y haciendo mínima la suma de estas dife-
rencias al cuadrado
n n 2 n 2 n 2
(
U = ∑ δ i 2 = ∑ xi − xi∗
i=1 i=1
) i =1
( )
= ∑ xi − ( c + dyi ) = ∑ ( xi − c − dyi )
i=1
Procediendo como en el caso anterior, se obtiene la ecuación:
Sxy
x−x = (y − y)
Sy2
que pasa también por el punto G = (x$, y$), centro de gravedad de la nube.
S
El coeficiente de y, C xy = xy2 , que recibe el nombre de coeficiente de regre-
Sy
sión de x sobre y, representa la pendiente de la recta de regresión de x sobre y con
respecto al eje de ordenadas, es decir, la tangente del ángulo que forma la recta de
regresión de x sobre y con la parte positiva del eje de ordenadas.
x = c + dy
(xi,yi) δi
yi
G
(x,y )
O xi x*i x
FIGURA 3.8. Recta de regresión de x sobre y.
Si Cxy es positivo, al aumentar los valores de y aumentan los de x. Si Cxy es

nulo la recta de regresión de x sobre y es la recta paralela al eje OY que pasa por
el punto de coordenadas (x$, y$) y en este caso la información de la recta de regre-
sión no sirve para explicar el valor de x a partir de y. Si Cxy es negativo, al au-
mentar los valores de y disminuyen los de x.
Los coeficientes de regresión C yx = tg α y Cxy = tg β en general no son igua-
les, pero los dos tienen siempre el mismo signo que la covarianza y por tanto son los
dos positivos o los dos negativos.
Sxy
y – y = —— (x – x )
S 2x
Sxy
x – x = —— (y – y )
S 2y
γ
β
G
FIGURA 3.9. Rectas de regresión de y sobre x y de x sobre y.

Luego las dos rectas de regresión son crecientes o decrecientes a la vez. El án-
gulo γ entre las dos rectas de regresión, que es el menor de los dos ángulos su-
plementarios que forman, es agudo o como máximo recto.
En el siguiente apartado, se explica que cuanto menor sea el ángulo que forman
las dos rectas de regresión mayor será la relación lineal entre las variables x e y.
3.7.3. Coeficiente de determinación lineal

Se trata ahora de dar una medida del ajuste de la recta de regresión de y sobre x
Sxy
a la nube de puntos, esto es, a la recta y − y = 2 ( x − x ) . Esta medida es el coefi-
Sx
ciente de determinación lineal que se define como la diferencia de la varianza de la
variable y y la varianza de las desviaciones δ i = yi − yi∗ dividida por la varianza de
y, esto es:
Sy2 − Sδ2 Sδ2

r2 = = 1−
Sy2 Sy2
Como la media de las desviaciones δi = yi – y*i es cero porque
n n n   Sxy  n Sxy n
∑ δi = ∑ ( yi − yi∗ ) = ∑  yi −  y − ( x i − x ) = ∑
  i=1 ( yi − y ) + ∑ ( xi − x ) = 0
i=1 i =1 i=1   Sx2  Sx2 i =1
la varianza de las desviaciones es
2
n n
n  Sxy 
∑ δ i2 ∑ ( yi − y ∗ 2
) ∑  yi −  y + 2 ( xi − x ) 
2 i=1 i=1
i i =1   Sx 
S =
δ = = =
n n n
2
n  Sxy 
∑  ( yi − y ) − 2 ( xi − x )
i=1  S x 
=
n
será:
2
n  Sxy 
∑  ( yi − y ) − 2 ( xi − x )
i =1  S x 
2 S2 n
r = 1 − δ2 = 1 − =
Sy Sy2
 
∑  ( yi − y ) − 2 ( x − x ) ( yi − y ) + 2 ( xi − x )

(S )
n 2 Sxy Sxy2 2
i =1  S2 i 2 
= 1− 2 =
1 x x
Sy n
 n
∑ ( − ) ∑ ( − ) ( − ) Sxy i =1 ( x i − x ) 
∑
2 
n n
1  i =1
2
y y x x y y
( )
= 1− 2  −2 2 + =
2
i Sxy i =1 i i
Sy  n Sx n Sx2
2
n 
 
   2 Sxy2  Sxy2
1  2 2
( )
= 1− − + x = 1− 2  Sy − 2  = 2 2
Sxy2 Sxy2 1
Sy2    Sx  Sx Sy
S 2 S
 
y
Sx2 2 2 S
Sx y
Así se ha obtenido la fórmula para calcular el coeficiente de determinación en

función de los momentos de las variables x e y:
r2 =
Sxy2
Sx2 Sy2
Sy2 − Sδ2
De la definición del coeficiente de determinación r 2 = Sδ2 se
= 1−
Sy2 Sy2
puede obtener la acotación de este coeficiente. Por ser las varianzas positivas o
nulas, r2 tiene como máximo el valor 1, en el caso en que Sδ2 = 0, y como mínimo
el valor 0, en el caso en que Sδ2 = Sy2. Por tanto 0 ≤ r2 ≤ 1.
El coeficiente de determinación es un número sin dimensión que mide la calidad
del ajuste de la nube de puntos a la recta de regresión. El valor de r2 se suele ex-
presar como un porcentaje. Así, si r2 = 0,8345 = 83,45% significa que el 83,45% de
la variación de y queda explicada por la recta de regresión de y sobre x.
x=x r=0
π
γ = —rad
2
γ
y=y
G
FIGURA 3.10. Nube de puntos con coeficiente de determinación nulo y sus

correspondientes rectas de regresión.
䊏 Si Sδ2 = Sy2 es r2 = 0 y esto significa que la varianza de las desviaciones δi es

toda la varianza de la variable y, por tanto el ajuste de la nube de puntos a la recta
de regresión de y sobre x es pésimo. En este caso no hay relación lineal entre las va-
riables x e y. La recta de regresión de y sobre x es y = y$ y la de x sobre y es x = x$, las
dos rectas de regresión son perpendiculares entre sí. Ver Figura 3.10.
∗
䊏 Si Sδ2, varianza de las δi, es nula quiere decir que yi − yi = 0, ∀i = 1, 2,..., n,
*
o lo que es lo mismo para todo i es yi = yi , y esto significa que todos los puntos ob-
servados pertenecen a la recta de regresión de y sobre x. En este caso, es r2 = 1 y el
ajuste a la recta de regresión es perfecto. Entonces, las dos rectas de regresión coin-
ciden y sólo en este caso, ya que la recta de regresión de y sobre x es:
Sxy
y−y = ( x − x ) ⇔ Sx2 ( y − y ) = Sxy ( x − x )
Sx2
y la de x sobre y es:
Sxy
x−x = 2 ( y − y ) ⇔ Sxy ( y − y ) = Sy2 ( x − x )
S y
Y estas dos rectas coincidirán si:
 Sx2 S xy 
2
Sx Sxy 2 2 2 2 2 2
S xy
2
2
rango  2 =1⇔ 2
=0⇔S S −S = 0⇔S =S S ⇔
x y xy xy x y 2 2
=1⇔ r =1
 S xy Sy  Sxy Sy Sx Sy
Por coincidir ambas rectas de regresión, el ángulo entre las dos rectas es el mí-
nimo, γ = 0. Ver Figura 3.11.
Sxy
y – y = —— (x – x )
S 2x
Sxy
x – x = —— (y – y )
S 2y
G
β
α
FIGURA 3.11. Nube de puntos con coeficiente de determinación r2 = 1.

䊏Si 0 < r2 < 1, hay una dependencia aleatoria entre las variables x e y, y el
ajuste de la nube de puntos a la recta de regresión será tanto mejor cuanto más
próximo a 1 esté el coeficiente de determinación y el ángulo entre las dos rectas
de regresión será pequeño.
Sxy
y – y = —— (x – x )
S 2x
γ 0<r<1
Sxy
G x – x = —— (y – y )
β S 2y
FIGURA 3.12. Nube de puntos con coeficiente de determinación próximo a 1 y rectas de

regresión.
Cuanto más próximo a cero esté r2 mayor será el ángulo entre las dos rectas y
peor el ajuste de la nube de puntos a ellas.
Sxy
y – y = —— (x – x )
S 2x
0<r<1
γ
β
Sxy
x – x = —— (y – y )
G S 2y
FIGURA 3.13. Nube de puntos con coeficiente de determinación próximo a cero y sus
rectas de regresión.
Cuando el valor del coeficiente de determinación es próximo a 1, el ajuste de

la nube de puntos a la recta es bueno y en esos casos se puede hacer una predic-
ción de valores de y para otros valores de x. Si los valores de x están comprendidos
entre los que teníamos en la muestra, la predicción será más fiable que si se hace
una extrapolación calculando valores de y para valores de x mayores que el mayor
registrado en la muestra, o menores que el menor valor de x en la muestra, y esta
extrapolación es tanto menos fiable cuanto mayor sea la diferencia entre el valor
que se dé a x y el máximo, o el mínimo, de los registrados en la tabla.
S2 S S
Se observa que r 2 = 2xy 2 = xy2 xy2 = C yx C xy , es decir, que el coeficiente de
S x Sy S x S y
determinación es el producto de los coeficientes de regresión de y sobre x y de x
sobre y.
3.7.4. Coeficiente de correlación lineal

Se define el coeficiente de correlación de Pearson, r, entre las variables x e y
como la raíz cuadrada del coeficiente de determinación con el signo igual al de la
covarianza de las variables x e y, es decir:
Sxy
r=
Sx Sy
el coeficiente de correlación r es el cociente entre la covarianza y el producto de

las desviaciones típicas.
Por tanto, si Cyx < 0 ⇒ Cxy < 0, al ser negativa la covarianza, el coeficiente de
correlación también es negativo y si los coeficientes de regresión son positivos
también lo será el coeficiente de correlación.
El coeficiente de correlación lineal es un número sin dimensión que determi-
na el grado de ajuste entre una nube de puntos y la recta de regresión y también el
sentido de la dependencia, pues si es positivo indica que al aumentar la variable
independiente también aumenta la dependiente, correlación positiva o directa, y si
el coeficiente de correlación lineal es negativo, al aumentar la variable indepen-
diente disminuye la dependiente, correlación negativa o inversa.
Como 0 ≤ r2 ≤ 1, el coeficiente de correlación está acotado, – 1≤ r ≤ 1.
Si r = 1 se dice que la correlación es perfecta y directa, esto significa que las
rectas de regresión pasan por todos los puntos de la nube. Al aumentar los valores
de x también aumentan los de y.
Si r = – 1 la correlación también es perfecta pero es inversa, hay dependencia
lineal entre las variables x e y, como en el caso anterior, pero al aumentar los va-
lores de x disminuyen los de y.
Al variar r de modo que se acerque al valor 0, va aumentando la varianza re-
sidual, lo que indica una mayor dispersión de los puntos de la nube respecto de la
recta de regresión ajustada.
El ángulo que forman entre sí la recta de regresión de y sobre x y la de x
sobre y es mayor cuanto más pequeño es el valor de r. Para r = 0, es decir, si
la covarianza Sxy = 0, las dos rectas de regresión pasan por G = (x$, y$) y son
perpendiculares entre sí. En este caso el ángulo que forman las dos rectas de
regresión es máximo, un ángulo recto, las variables se dice entonces que es-
tán incorrelacionadas o incorreladas, es decir, no existe relación lineal entre
ellas.
Guilford interpreta el coeficiente de correlación lineal r de Pearson, también
llamado «coeficiente de correlación momento producto de Pearson», del si-
guiente modo:
Valor de r Correlación Relación entre x e y

0.0 ≤ r < 0,20 pequeña muy poco intensa
0,20 ≤ r < 0,40 baja pequeña, pero apreciable
0,40 ≤ r < 0,60 regular considerable
0,60 ≤ r < 0,80 alta intensa
0,80 ≤ r < 1 muy alta muy intensa
No se puede entender el coeficiente de correlación como una relación causa-

efecto entre las dos variables, en el sentido de que un cambio en una de las va-
riables provocaría un cambio en la otra. El significado de la dependencia esto-
cástica o aleatoria es el siguiente: el conocimiento del valor de una de ellas en
un individuo de la población (sujeto u objeto que se observe) permitirá predecir
el valor de la otra variable para ese individuo con más precisión que sin esa in-
formación.
Los coeficientes de correlación y de determinación son invariantes al hacer
traslaciones y cambios de escala. Es decir, si x = a + bu e y = c + dv, siendo a, b,
c, d constantes,
bdSuv
 Sx = bSu , Sy = dSv , Sxy = bdSuv  ⇒ rxy = = ruv
bSu dSv
Es decir, el coeficiente de correlación de x e y es el mismo que el de u y v.
EJEMPLO 3.1.
Para una distribución de frecuencias de una variable bidimensional se han obte-
nido las rectas de regresión 8x + y = 1 y 2x + 4y = 3. Razónese si la primera es o no es
la recta de regresión de y sobre x y calcúlese el coeficiente de correlación de x e y.
Suponiendo que 8x + y = 1 es la recta de regresión de y sobre x entonces y = 1 – 8x,

por tanto Cyx = – 8. En ese caso 2x + 4y = 3 sería la recta de regresión de x sobre y,
3
despejando x se tiene x = −2 y + y el coeficiente Cxy = – 2.
2
2
Como r = C yx .Cxy = (−8)(−2) = 16 > 1 que es imposible, por tanto, la primera
recta no es la de regresión de y sobre x sino la de x sobre y.
Por ser 8x + y = 1 la recta de regresión de x sobre y, despejando
1 1 1
x = − y + ⇒ Cxy = −
8 8 8
del mismo modo, por ser 2x +4y = 3 la recta de regresión de y sobre x, se tiene:
1 3 1
y = − x + ⇒ C yx = −
2 4 2
 1   1 1
de lo que se deduce que r 2 = Cyx C xy =  −   −  = .
 2   8  16
Como los coeficientes de regresión son negativos es
1 1
r=− =−
16 4
EJEMPLO 3.2.
La siguiente tabla representa las distancias x, en metros, a un filón y el porcen-
taje, y, de mena encontrado en 15 fragmentos de roca arrastrados por la corriente de
un río.
x 340 450 610 650 670 700 810 920 1020 1130 1210 1240 1260 1290 1370
y 67,0 68,0 68,5 70,0 71,0 71,2 71,3 71,3 71,4 71,3 71,5 71,9 72,0 72,1 72,5
Ajustar una recta de regresión de y sobre x.
La recta de regresión de y sobre x es:
Sxy
y−y = (x − x )
Sx2
Para determinar los coeficientes, se ordenan los datos en la siguiente tabla:
xi (m) yi (%) xi yi x2i y2i

340 67,0 22.780 115.600 4.489,00
450 68,0 30.600 202.500 4.624,00
610 68,5 41.785 372.100 4.692,25
650 70,0 45.500 422.500 4.900,00
670 71,0 47.570 448.900 5.041,00
700 71,2 49.840 490.000 5.069,44
810 71,3 57.753 656.100 5.083,69
920 71,3 65.596 846.400 5.083,69
1.020 71,4 72.828 1.040.400 5097,96
1.130 71,3 80.569 1.276.900 5.083,69
1.210 71,5 86.515 1.464.100 5.112,25
1.240 71,9 89.156 1.537.600 5.169,61
1.260 72,0 90.720 1.587.600 5.184,00
1.290 72,1 93.009 1.664.100 5.198,41
1.370 72,5 99.325 1.876.900 5.256,25
TOTALES 13.670 1.061,0 973.546 14.001.700 75.085,24
13.670 1.061
x= . 911, 3 y= . 70, 7
15 15
15
∑ xi2 2 14.001.700  13.670 
2
Sx2 = i =1
−(x) = − . 102.918, 2
15 15  15 
15
∑ yi2 2 75.085, 24  1.061
2
Sy2 = i =1
− (y) = − . 2, 48
15 15  15 
Sx . 320, 8 Sy . 1, 6
15
∑ xi yi 973.546  13.670   1.061
Sxy = i=1
−(x y) = − . 441, 4
15 15  15   15 
Sxy 441, 4
r= = . 0, 8741 ⇒ r 2 = 0, 7640
Sx Sy (320, 8) (1, 6 )
La recta de regresión de y sobre x es:
441, 4
y − 70, 7 = ( x − 911, 3)
102.918, 2
es decir,
y = 0, 004 x + 66, 8
El coeficiente de correlación lineal es 0,8741 y el de determinación lineal es
0,7640, que significa que el 76,40% del porcentaje de mena de los fragmentos de
roca viene explicado por la distancia al filón.
EJEMPLO 3.3.
Se ha observado que la presencia en el suelo de iones Al3+ es responsable de su
acidez de cambio, Ac C. El aluminio residual que contribuye a la acidez de cambio
se denomina Al C, aluminio de cambio.
En la siguiente tabla se recogen los valores de Al C, fracciones medidas en mi-
liequivalente por cada 100 g de suelo, meq/100g, y de Ac C, pH, correspondientes a
quince observaciones en la Sierra de Guadarrama:
AlC 0,99 0,03 0,03 1,65 1,32 3,52 5,39 0,61 0,50 0,44 3,62 1,43 2,64 2,09 0,61
AcC 1,13 0,26 0,36 2,26 2,50 4,40 6,71 1,87 0,88 3,52 4,51 1,98 3,12 3,54 0,91
Hallar la recta de regresión de y = «la acidez de cambio» sobre x = «Aluminio

de cambio» y dar una medida de la calidad del ajuste.
A partir de esa recta dar los valores de la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100 g.
Introduciendo los valores de la tabla en una hoja de datos de STATGRAPHICS,

seleccionando las dos columnas que contienen los datos y escogiendo en el menú:
Gráficos → Gráficos de dispersión → Gráfico X-Y,
el programa STATGRAPHICS dibuja la nube de puntos correspondiente a la tabla
de la página siguiente.
Designando por xi los valores del aluminio de cambio medidos en meq/100g
y por yi los de acidez de cambio, pH, y formando la tabla como en el ejemplo an-
terior, se obtiene
15 15 15
∑ xi = 24, 87; ∑ yi = 37, 95; ∑ xi2 = 74, 5641;
i=1 i =1 i =1
15 15
∑ yi2 = 141, 2321; ∑ xi yi = 98, 2988
i =1 i=1
Gráfico de Ac C frente a Al C
Ac C
4
0
0 1 2 3 4 5 6
Al C
FIGURA 3.14. Nube de puntos correspondiente a los datos del Ejemplo 3.3.
De donde
24, 87 37, 95 74,55641

x= = 1, 66; y = = 2, 53; Sx2 = − 1, 662 = 2, 2220
15 15 15
98, 2988 141, 2321

Sxy = − (1, 66) ( 2, 53) . 2, 3585; Sy2 = − 2, 532 . 3, 0146
15 15
2, 3585
La recta de regresión de y sobre x es y − 2, 53 = ( x − 1, 66), simplificando
2, 2220
y = 0, 77 + 1, 06 x
Se calcula ahora el coeficiente de determinación para ver la calidad del ajus-
te de esta recta a la nube de puntos
Sxy2 2, 35852
r2 = = = 0, 8304
Sx2 Sy2 ( 2, 2220 ) (3, 0146 )
El coeficiente de correlación es
r = 0, 8304 = 0, 9113
por ser este valor próximo a la unidad el ajuste de la recta de regresión a la nube
de puntos es muy bueno.
El valor del coeficiente de determinación indica que el 83,04% de la variabi-
lidad de la acidez de cambio se puede explicar por la presencia en el suelo del alu-
minio de cambio.
La recta de regresión permite valorar la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100g
( yˆ ) x =5 = 0, 77 + (1, 06) 5 = 6, 07
( yˆ ) x =6 = 0, 77 + (1, 06 ) 6 = 7, 13
Para el valor de 5 meq/100g se obtiene un pH ligeramente ácido y para 6
meq/100g un valor del pH casi neutro. De los dos valores obtenidos es más fiable
el primero porque el valor de x = 5 está comprendido entre los recogidos en la ta-
bla, es una interpolación, mientras que el valor para x = 6 es una extrapolación.
¿Cómo hacerlo con STATGRAPHICS?

Se pueden comprobar estos resultados con el programa STATGRAPHICS del
siguiente modo.
Desde el archivo de datos se selecciona en el menú:
Dependencia → Regresión simple
Con lo que se abre una nueva ventana para la entrada de datos. En esta ventana
se indica que la variable x es el AlC y la variable y es la AcC. Pulsando Aceptar se
obtienen entre otros resultados, que se verán en el Capítulo 13 de este libro y que
ahora no es momento de explicarlo, la ecuación de la recta de regresión
AcC = 0,770118 + 1,06145*AlC
y los coeficientes de regresión lineal y de determinación
Coeficiente de Correlación = 0,911288
R-cuadrado = 83,0446 porcentaje
EJEMPLO 3.4.
Se han medido, en cm, los diámetros, x, de cien árboles a 1,30 m del suelo, es
decir, los diámetros normales, y las alturas, y, en metros de estos árboles. Los re-
sultados obtenidos después de agrupar en clases son:
y
[5,7) [7, 9) [9, 11) [11, 13) [13, 15) [15, 17) [17, 19)
x
[20, 30) 1 1 0 0 0 0 0
[30, 40) 2 10 8 5 0 0 0
[40, 50) 0 1 14 13 15 1 0
[50, 60) 0 0 3 9 6 5 0
[60, 70) 0 0 0 1 2 2 1
Calcular:
a) Las medias y desviaciones típicas de las distribuciones marginales.
b) La covarianza.
c) La media y la desviación típica para la distribución de alturas condicionadas
a un diámetro normal de 55 cm.
d) La media y la desviación típica para la distribución de diámetros normales
condicionada a una altura de 16 m.
e) La ecuación de la recta de regresión de y (alturas) sobre x (diámetros)
f) Los coeficientes de correlación y de determinación de x e y.
a) En primer lugar se determinan las marcas de clase y las frecuencias mar-

ginales:
xi ni• ui uini• ui2ni•
25 2 –2 –4 8
35 25 –1 –25 25
45 44 0 0 0
55 23 1 23 23
65 6 2 12 24
Totales n =100 6 80
Para la variable x:
xi − 45
Siendo ui = ⇒ xi = 45 + 10 ui
10
5
∑ ui ni• 6
i =1
u= = = 0, 06; x = 45 + 10 u = 45, 6 cm
n 100
5
∑ ui2 ni• 80
Su2 = i =1
− u2 = − (0, 06) 2 = 0, 7964 ⇒ Su = 0, 7964 = 0, 8924
n 100
Sx2 = 10 2 Su2 = 79, 64 y Sx = 10 Su = 8, 924
Análogamente para y:
y j − 12
Siendo v j = ⇒ y j = 12 + 2v j
2
yj n•j vj vjn•j vj2n•j
6 3 –3 –9 27
8 12 –2 –24 48
10 25 –1 –25 25
12 28 0 0 0
14 23 1 23 23
16 8 2 16 32
18 1 3 3 9
n =100 –16 164
7
∑ v j n• j
j =1 −16
v= = = −0, 16; y = 12 + 2v = 11, 68 m
n 100
7
∑ v 2j n• j
j =1 164
sv2 = − v2 = − (−0,16)2 = 1, 6144 ⇒ Sv = 1, 6144 = 1, 2706
n 100
Sy2 = 22 Sv2 = 6, 4576 y Sy = 2Sv = 2, 5412
b) Para hallar la covarianza:
yj 6 8 10 12 14 16 18
vj 7 7
xi –3 –2 –1 0 1 2 3 ∑ v j nij ui ∑ v j nij
ui j= 1 j= 1
–3 –2 0 0 0 0 0
25 –2 –5 10
1 1 0 0 0 0 0
–6 –20 –8 0 0 0 0
35 –1 –34 34
2 10 8 5 0 0 0
0 –2 –14 0 15 2 0
45 0 1 0
0 1 14 13 15 1 0
0 0 –3 0 6 10 0
55 1 13 13
0 0 3 9 6 5 0
0 0 0 0 2 4 3
65 2 9 18
0 0 0 1 2 2 1
75
5 7
∑ ui ∑ v j nij
i =1 j =1 75
Suv = ( m11 )uv = −u v = − ( 0, 06)(−0, 16) = 0, 7596
n 100
Sxy = 20 Suv = 15,1920 cm m
c)
Clases n4j yj yjn4j yj2n4j
[5, 7) 0 6 0 0
[7, 9) 0 8 0 0
[9, 11) 3 10 30 300
[11, 13) 9 12 108 1.296
[13, 15) 6 14 84 1.176
[15, 17) 5 16 80 1.280
[17, 19) 0 18 0 0
n4• =23 302 4.052
7
∑ y j n4 j
j =1 302
y / ( x = 55) = = = 13,1304 m
n4• 23
7
∑ y2j n4 j
j =1 4.052
Sy2/( x=55) = − ( y / ( x = 55)) 2 = − (13, 1304) 2 = 3, 7665 ⇒
n4• 23
⇒ Sy/( x =55) = 3, 7665 = 1, 9407 m
d)
Clases ni6 xi xini6 xi2ni6
[20, 30) 0 25 0 0
[30, 40) 0 35 0 0
[40, 50) 1 45 45 2.025
[50, 60) 5 55 275 15.125
[60, 70) 2 65 130 8.450
n•6 = 8 450 25.600
5
∑ xi ni 6 450
i=1
x / ( y = 16) = = = 56,25 m
n•6 8
5
∑ xi2 ni 6 25.6000
Sx2/( y=16 ) = i =1
− ( x / ( y = 16)) 2 = − (56, 25)2 = 35, 9375 ⇒
n•6 8
⇒ Sx /( y=16 ) = 35, 9375 = 5, 9948 cm
e) La ecuación de la recta de regresión de y sobre x es:
15, 1920
y − 11, 68 = ( x − 45, 6) ⇔ y − 11, 68 = 0, 1908( x − 45, 6)
79, 64
f) El coeficiente de correlación es:
15, 1920
rxy = = 0, 6699
(8, 924) (2, 5412)
0, 7596
ruv = = 0, 6699 = rxy
(0, 8924)(1, 2706)
y el de determinación es:
2
2
Sxy2 15, 1920 
r = 2 2 = = 0, 4488
Sx Sy  ( 8, 924 ) ( 2, 5412) 
xy
es decir, el 44,88% de la variación en la altura del árbol se explica por el diámetro.
3.8. OTRAS REGRESIONES REDUCIBLES A LINEALES
Son frecuentes los ajustes de datos a curvas de los tipos siguientes:
1. Tipo exponencial: y = abx o bien y = aemx.

2. Tipo potencial: y = axb.
x
3. Homográfica o hiperbólica: ( ax + b) y = 1 o bien y = .
kx + m
3.8.1. Línea de regresión de tipo exponencial y = abx

El ajuste a este tipo de curvas se reduce a un ajuste lineal tomando logaritmos
en la igualdad y = abx.
ln y = ln a + x ln b
Llamando z = ln y; A = ln a; B = ln b se tiene z = A + Bx .
Por tanto, calculando los valores de z = ln y se determina la ecuación de la rec-
ta de regresión de z sobre x. Se obtienen así los valores de A y B.
Como A = ln a ⇒ a = e A y B = ln b ⇒ b = e B ya se tienen los valores de a y b
y con ellos la línea de regresión exponencial.
Se utilizan, como se ha explicado, los valores originales de x y el logaritmo
neperiano de los de y, es decir, z = ln y. Por esta razón, a esta transformación se le
denomina semilogarítmica.
Si se dibujan los valores de la variable bidimensional en papel semilogarít-
mico, con escala logarítmica en el eje de ordenadas y escala ordinaria en el de
abscisas, la gráfica de y = abx es una línea recta.
Lógicamente sólo se puede ajustar una curva exponencial si la variable y
sólo toma valores positivos.
Un caso particular de regresión exponencial es la de ecuación y = aemx.
Tomando logaritmos neperianos en los dos miembros:
ln y = ln a + mx
Llamando z = ln y; A = ln a; se tiene z = A + mx.
Se calcula la ecuación de la recta de regresión de z sobre x, el coeficiente de x
será el valor de m buscado y el valor de a se obtiene del valor de A = ln a ⇒ a = eA.
Ejemplos de este tipo de ajuste son:
1. La variable x representa el tiempo en años y la variable y el tamaño de una

población, o el tamaño de un organismo.
2. Para x tiempo e y producción industrial, o ventas de un producto.
3. Si x representa temperatura e y la proporción de frutas que se han estropeado.
4. Si x representa las dosis suministradas de un antibiótico e y el número de
bacterias que aún quedan vivas.
5. Si x representa el tiempo en años e y el porcentaje de una sustancia radiactiva.
En el siguiente ejemplo resuelto, se aplica la estadística descriptiva bidimen-

sional en el campo de la Paleontología para estudiar la relación entre dos medidas de
una misma muestra de fósiles. Las rectas y curvas de regresión son útiles para de-
terminar el cambio de forma en el crecimiento de organismos cuyos esqueletos
crecen por acreción, es decir, acumulando materia en los bordes, como en el caso de
los braquiópodos, invertebrados marinos micrófagos (filtradores), de cuerpo no
segmentado, alojado en una concha bivalva, como los moluscos lamelibranquios.
En un yacimiento es común encontrar fósiles de distinto tamaño que corres-

ponden a diferentes etapas de desarrollo.
Si las distintas partes del esqueleto crecen a la misma velocidad en el desarrollo del
individuo, se dice que el crecimiento es isométrico. No hay cambio de forma durante el
dy
crecimiento. Por ejemplo, si y = x ⇒ = 1, las dos dimensiones crecen a la misma
dx
velocidad. Si y = x / 2 ⇒ dy dx = 1 / 2, la dimensión y crece menos que la x en todo el
desarrollo.
Si una parte del esqueleto crece a más velocidad que otra, se dice que el
crecimiento es anisométrico y en estos casos al crecer el individuo cambia su for-
ma. Un ejemplo de crecimiento anisométrico es el crecimiento exponencial
EJEMPLO 3.5.
La siguiente tabla representa la medida, en mm, de la longitud, la anchura y el
espesor de una muestra de braquiópodos.
a) Dibujar con STATGRAPHICS los diagramas de dispersión de la longitud

frente a la anchura y de la longitud frente al espesor. ¿Cuál de los dos tiene
mayor dispersión?
b) Tomando la longitud como variable independiente, ajustar una recta de re-
gresión al diagrama de dispersión de la longitud frente a la anchura.
c) Calcular el coeficiente de correlación lineal y el de determinación para las
variables longitud y anchura.
d) Tomando la longitud como variable independiente, ajustar una recta de re-
gresión al diagrama de dispersión de la longitud frente al espesor.
e) Calcular el coeficiente de correlación lineal y el de determinación para las
variables longitud y espesor. Compararlos con los correspondientes a las va-
riables longitud y anchura. ¿Corrobora lo observado en el apartado a)?
f) Ajustar una curva de tipo exponencial y = abx considerando la variable inde-
pendiente la longitud y la dependiente la anchura. Dar una medida del grado de
ajuste a esa curva. ¿Mejora el ajuste a la nube de puntos la curva exponencial?
Anchura Longitud Espesor

11,20 9,55 6,80
10,20 9,75 6,45
11,80 10,50 7,40
12,00 10,50 7,50
12,70 11,00 9,10
12,70 11,75 8,70
12,00 11,35 9,00
12,55 11,00 10,40
13,00 12,50 10,80
12,00 12,25 10,45
12,95 12,00 10,70
13,40 12,20 10,30
13,55 12,30 10,90
14,00 12,40 11,00
13,90 12,65 11,50
14,50 12,70 10,70
14,00 12,60 9,10
14,70 12,50 10,40
14,30 12,85 8,85
14,80 13,30 10,00
15,05 12,10 12,45
15,05 12,05 10,50
16,25 12,70 12,65
14,05 13,40 12,60
13,95 12,70 12,15
15,15 11,90 12,65
16,75 13,45 13,10
15,30 13,00 12,45
16,10 14,50 13,55
16,65 13,95 7,95
a) Introduciendo los valores en una hoja de datos del programa STATGRA-

PHICS, se seleccionan en primer lugar las dos columnas que contienen los datos
de la longitud y de la anchura y a continuación se escoge en el menú:
Gráficos → Gráficos de dispersión → Gráfico X-Y
el programa STATGRAPHICS dibuja entonces la primera nube de puntos y repi-

tiendo los pasos para la longitud y el espesor, se obtiene el segundo de los dia-
gramas de dispersión que aparecen a continuación.
Se observa mayor dispersión en la nube de puntos correspondiente a las va-

riables longitud y espesor que en la correspondiente a la longitud y la anchura.
b) Designando por y la anchura y por x la longitud se obtiene operando di-

rectamente con los datos, como se explicó en el Epígrafe 3.7.1., la ecuación de la
1, 5033
recta de regresión de la anchura sobre la longitud: y − 13, 82 = ( x − 12, 18) ,
simplificando, 1, 2578
y = 1, 1952 x − 0, 7390
Con STATGRAPHICS se obtiene, como se explicó en el Ejemplo 3.3, la

ecuación de la recta de regresión:
Anchura = – 0,739209 + 1,1952*Longitud

Sxy 1, 5033
c) El coeficiente de correlación lineal: r = = = 0, 8365,
Sx Sy 1, 2578 2, 5679
y el de determinación: r2 = 0,6997.
Con el programa STATGRAPHICS se obtiene: r = 0,83647 y r2 = 69,9683%.
d) La ecuación de la recta de regresión del espesor sobre la longitud, desig-

nando por y el espesor y por x la longitud, es:
y = 1,1489x – 3,6571
e) El coeficiente de correlación lineal para las variables longitud y espesor es

r = 0,6776 y el de determinación es r2 = 0,4592 = 45,92%.
Estos valores, junto con los correspondientes a las variables longitud y an-
chura, confirman lo observado en el apartado a). La dispersión es mayor para las
variables espesor y longitud que para las variables anchura y longitud.
En ambos casos al aumentar la longitud aumenta la variable dependiente an-
chura y espesor respectivamente.
La recta de regresión de la anchura sobre la longitud explica el 69,97% de la va-

riación de la anchura al aumentar la longitud, y la recta de regresión del espesor sobre
la longitud explica el 45,92% de la variación del espesor al aumentar la longitud.
f) Para ajustar una curva y = abx considerando la variable independiente la

longitud y la dependiente la anchura, como se explicó anteriormente, se toman lo-
garitmos en la igualdad y = abx.
ln y = ln a + x ln b
Y llamando z = ln y; A = ln a; B = ln b se tiene z = A + Bx. Hallando la recta

de regresión de z = ln y sobre x se determinan los valores de a y b.
Se calcula la ecuación de la recta de regresión de z sobre x y se obtiene:
z = 1,5305 + 0,0894x
De donde
A = ln a = 1, 5305 ⇒ a = e1.5305 . 4, 6205 y B = ln b = 0, 0894 ⇒ b = e0,0894 . 1, 0395
Por tanto, la curva ajustada es:
y = 4, 62 ⋅1, 04 x
El coeficiente de correlación lineal de z = ln y y x, que es r = 0,8472, y el co-

eficiente de determinación de z y x, esto es r2 = 0,7177, dan una medida del
ajuste de los datos transformados a la recta de regresión correspondiente y tam-
bién se pueden utilizar como medida del ajuste de la longitud, x, y la anchura, y, a
la curva exponencial y = 4,62 · 1,04x
Comparando los coeficientes de correlación y de determinación con los ob-
tenidos en el apartado c) se puede afirmar que la curva exponencial mejora el
ajuste de la recta de regresión a la nube de puntos de las variables longitud y an-
chura.
El crecimiento de los braquiópodos es pues anisométrico. En el crecimiento
de tipo exponencial la dimensión y crece menos que la x en las etapas tempranas
del desarrollo y posteriormente crece más rápidamente la y. Los braquiópodos
cambian de forma con la ontogenia.
3.8.2. Línea de regresión de tipo potencial y = axm

Tomando logaritmos en la igualdad y = axm se tiene:
ln y = ln a + m ln x
Designando por z = ln y; v = ln x; A = ln a; se tiene: z = A + mv que es una re-

lación lineal entre v y z.
La recta de regresión de z sobre v da directamente el valor de m y para calcu-
lar a se tiene en cuenta que A = ln a ⇒ a = e A .
Para que se puedan ajustar este tipo de curvas han de ser positivos todos los
valores de las variables x e y.
Si se representa la gráfica en papel logarítmico, es decir, con escala lo-
garítmica en el eje de abscisas y en el de ordenadas, se obtiene una línea
recta.
Ejemplos del tipo de regresión potencial son los siguientes:
1. Si x representa altura e y peso o volumen.

2. Si x es el diámetro de una pieza e y la superficie correspondiente.
3. Si x es la renta de una familia e y el consumo.
4. Si x representa el tiempo en horas e y el número de bacterias que crecen en
un cultivo de laboratorio en condiciones favorables.
5. Si x es el número de horas de trabajo e y la producción.
6. Si x representa el tiempo en años e y el número de contagiados en una epi-
demia.
3.8.3. Línea de regresión de tipo homográfica o hiperbólica

Si la línea de regresión es:
1
(ax + b) y = 1 ⇒ = ax + b
y
1
Llamando z = se obtiene una recta de regresión, por tanto los valores de y
y
deben ser todos distintos de cero.
Esa recta da directamente los valores de a y b que determinan la curva.
x
Para ajustar una curva del tipo: y = teniendo en cuenta que:
kx + m
1 kx + m 1 1
= ⇔ =k+m
y x y x
1 1
llamando u = y v = tenemos la ecuación de una recta, siempre que los valores
y x
de las variables x e y sean todos distintos de cero.
Calculando la ecuación de la recta de regresión de u sobre v se obtienen di-
rectamente los valores de k y m buscados.
Ejemplos del tipo de ajuste hiperbólico:
1. Si la variable x representa la cantidad demandada de un artículo e y es el

precio del artículo.
2. Si x es el número de huevos que pone un coleóptero adulto e y es el nú-
mero de adultos en un tronco de madera.
3.9. OTRAS CURVAS DE REGRESIÓN MÍNIMO-CUADRÁTICA.

REGRESIÓN PARABÓLICA. COEFICIENTE
DE DETERMINACIÓN PARABÓLICO
Si no se puede ajustar una recta de regresión a la nube de puntos, se pueden

probar otro tipo de curvas como, por ejemplo, las parábolas. La ecuación de una
parábola de grado m es:
y = b0 + b1 x + b2 x 2 + ... + bm x m
los coeficientes de esa ecuación se determinan con la condición de que sea míni-
ma la suma:
n n 2 n 2
U = ∑ δ i2 = ∑ yi − yi∗
i =1 i =1
( ) (
= ∑ yi − b0 − b1 x − b2 x 2 − .... − bm x m
i=1
)
es decir, resolviendo el sistema de (m +1) ecuaciones que se obtienen igualando a
cero las derivadas parciales de S respecto de los (m +1) coeficientes a determinar.
Estas ecuaciones reciben el nombre de ecuaciones normales.
3.9.1. Ajuste a una parábola de grado 2 por el método de mínimos

cuadrados
Para ajustar una parábola de grado 2: y = b0 + b1 x + b2 x 2 , hay que hacer mí-
nima la suma:
n n 2 n 2
U = ∑ δ i2 = ∑ yi − yi∗
i =1 i =1
( ) (
= ∑ yi − b0 − b1 xi − b2 xi2
i=1
)
Las condiciones necesarias para que esta suma sea mínima son:
∂U ∂U ∂U
= 0, =0 y =0
∂b0 ∂b1 ∂b2
Por tanto:
 ∂U n  n
 = 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi2 ( −1) = 0   ∑ yi − b0 − b1 xi − b2 xi2 = 0 
( ) ( )
 
 ∂b0 i =1
  i=1 
 ∂U n   n

 ( ) (
= 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi ( − x i ) = 0  ⇒  ∑ xi yi − b0 xi − b1 xi − b2 xi = 0  ⇒
2 2 3
)
 ∂b1 i =1   i =1 
 ∂U n   n 
 ( )( ) 2 2
( 3 4
= 0 ⇒ ∑ 2 yi − b0 − b1 xi − b2 xi2 − xi2 = 0  ∑ xi yi − b0 xi − b1 xi − b2 x i = 0 

)
 ∂b2 i=1   i=1
n n n n
 n n n
 
 ∑ yi − ∑ b0 − ∑ b1 x i − ∑ b2 xi2 = 0   ∑ yi = b0 n + b1 ∑ xi + b2 ∑ xi2
i =1 i =1 i =1 i =1 i =1 i =1 i =1
 n n n n
  n n n n
  
⇒  ∑ x i yi − ∑ b0 xi − ∑ b1 xi2 − ∑ b2 xi3 = 0  ⇒  ∑ xi yi = b0 ∑ xi + b1 ∑ x i2 + b2 ∑ xi3
 i=1 i =1 i =1 i =1   i=1 i =1 i =1 i =1
 n n n n   n n n n
2 2 3 4 2 2 3 4
∑ xi yi − ∑ b0 x i − ∑ b1 xi − ∑ b2 x i = 0  ∑ xi yi = b0 ∑ xi + b1 ∑ xi + b2 ∑ x i
 i=1 i =1 i =1 i =1   i =1 i =1 i =1 i =1
El sistema de ecuaciones
n n n

 i=1 ∑ y i = b0 n + b1 ∑ x i + b2 ∑ xi2
i =1 i =1
 n n n n
 2 3
 ∑ x i yi = b0 ∑ x i + b1 ∑ xi + b2 ∑ xi
 i =1 i =1 i = 1 i = 1
n 2 n n n
∑ x i yi = b0 ∑ xi2 + b1 ∑ x i3 + b2 ∑ xi4
 i=1 i =1 i =1 i =1
se denomina sistema de ecuaciones normales correspondiente al ajuste de una

parábola de segundo grado. Resolviéndolo se determinan los coeficientes b0, b1,
y b2, de la parábola de grado 2 que mejor se ajusta a la nube de puntos por el mé-
todo de los mínimos cuadrados.
3.9.2. Coeficiente de determinación parabólico

Para dar una medida del grado de ajuste de la parábola a la nube de puntos,
hay que definir un nuevo coeficiente de determinación, ya que el definido ante-
riormente sólo sirve para el ajuste lineal.
Se define la razón de correlación o coeficiente de determinación parabólico
de y sobre x del siguiente modo:
n 2
∑ ( yi − yi∗ )
i =1
2
Sy2 − Sδ2 S2 n
R = = 1 − δ2 = 1 −
Sy2 Sy n 2
∑ ( yi − y )
i=1
n
ya que la media de las δ i = yi − yi∗ , como consecuencia de la primera de las

ecuaciones del sistema de ecuaciones normales correspondiente, es igual a cero.
Como el coeficiente de determinación lineal, el coeficiente de determina-
ción parabólico también está acotado: 0 ≤ R2 ≤ 1.
Si R2 el ajuste a la parábola es inaceptable pues Sδ2 = Sy2 .
Si R2 = 1 el ajuste de la nube de puntos a la parábola es perfecto.
En los demás casos será 0 < R2 < 1 y el ajuste de la nube de puntos a la pará-
bola será tanto mejor cuanto más próximo esté R2 a la unidad.
Para la parábola de segundo grado el coeficiente de determinación parabólico es:
n 2
∑ ( yi − yi∗ ) n 2
i=1
n
∑ ( yi − ( b0 + b1 xi + b2 xi2 ) )
R2 = 1 − n
= 1− i=1
n
=
2 2
∑ ( yi − y ) ∑ ( yi − y )
i=1
n i =1
n n
n 2
∑ ( yi − b0 − b1 xi − b2 xi2 )
i=1
= 1−
 n 2 
yi
∑ 
n  i =1 − y 2 
n
 
 
Para calcular el coeficiente de determinación parabólico se utiliza la fórmula:
n 2
∑ ( yi − b0 − b1 xi − b2 xi2 )
R2 = 1 − i=1
 n 2 
∑
yi

n  i =1 − y 2 
 n 
 
EJEMPLO 3.6.
En un estudio de los sedimentos de un estuario se ha observado que al aumen-
tar la profundidad el contenido en agua resultante de drenar los sedimentos dismi-
nuye. Se ha obtenido la siguiente tabla de datos.
x 0,0 0,3 0,5 0,7 1,0 1,3 1,5 1,7 2,0 2,3 2,5 2,7 3,0 3,3 3,5
y 10,0 9,5 9,0 8,5 8,0 7,3 7,0 6,7 6,3 5,8 5,5 5,3 5,0 4,8 4,5
en la que la variable x representa la profundidad en metros donde se recoge el se-

dimento y la variable y el porcentaje de agua del sedimento recogido.
a) Representar los datos en un diagrama de dispersión.

b) ¿Se puede ajustar una recta de regresión a los datos? ¿Es bueno el ajuste?
c) Ajustar una parábola de grado 2 a los datos.
d) Explicar si es bueno el ajuste de la parábola a la nube de puntos.
e) ¿Es mejor el ajuste de la parábola que el de la recta de regresión ?
f) Con la curva que mejor se ajuste de las dos estimar el porcentaje de agua
para una profundidad de 2,9 m y para 3,7 m ¿Qué estimación es más fiable?
a) Con estos datos, utilizando el Programa STATGRAPHICS, se puede dibu-

jar el siguiente gráfico de dispersión:
Gráfico de contenido de agua frente a profundidad
10,5
Contenido de agua
9,5
8,5
7,5
6,5
5,5
4,5
0 1 2 3 4
Profundidad (m)
b) Para ajustar la recta de regresión y = a + bx resolvemos el sistema formado por

las ecuaciones normales correspondientes a la recta de regresión de y sobre x, es decir,
 n n
 i=1 ∑ yi = an + b ∑ xi
i =1
n n n
∑ xi yi = a∑ xi + b ∑ x i2
 i =1 i =1 i=1
Organizando los datos en una tabla se calculan con facilidad los coeficientes
del sistema, como se observa a continuación.
Las dos primeras columnas recogen los datos, la tercera y la quinta están for-
madas por los cuadrados de los valores de la primera y segunda columna, res-
pectivamente y la cuarta por los productos de las dos primeras. En la última fila se
reflejan los totales de cada una de las columnas:
140 ESTADÍSTICA APLICADA, UNA VISIÓN INSTRUMENTAL
xi yi xi2 xiyi yi2
0,0 10,0 0,00 0,00 100,00

0,3 9,5 0,09 2,85 90,25
0,5 9,0 0,25 4,50 81,00
0,7 8,5 0,49 5,95 72,25
1,0 8,0 1,00 8,00 64,00
1,3 7,3 1,69 9,49 53,29
1,5 7,0 2,25 10,50 49,00
1,7 6,7 2,89 11,39 44,89
2,0 6,3 4,00 12,60 39,69
2,3 5,8 5,29 13,34 33,64
2,5 5,5 6,25 13,75 30,25
2,7 5,3 7,29 14,31 28,09
3,0 5,0 9,00 15,00 25,00
3,3 4,8 10,89 15,84 23,04
3,5 4,5 12,25 15,75 20,25
15
∑ 26,3 103,2 63,63 153,27 754,64
i=1
De ahí que las ecuaciones normales sean:
103, 2 = 15a + 26, 3b


153, 27 = 26, 3a + 63, 63b
Resolviendo el sistema, se obtiene a = 9, 6499 . 9, 6 y b = −1, 5798 . −1, 6

Por tanto, la recta de regresión de y sobre x es:
y = 9, 6 − 1, 6 x
El coeficiente de determinación lineal da la medida del ajuste de la recta de re-

gresión a la nube de puntos:
2
Sxy 2 ( −1, 8449 )
r2 = = = 0, 9796
Sx2 · Sy2 (1, 1679 ) · ( 2, 9749)
como es muy próximo a la unidad, indica que el ajuste es muy bueno. El 97,96%
de la variación del porcentaje de agua se puede explicar por la profundidad.
El coeficiente de correlación es
Sxy
r= = −0, 9898
Sx ⋅ Sy
es negativo, al aumentar la profundidad disminuye el porcentaje de agua en los se-

dimentos del estuario.
c) Para ajustar la parábola, construimos la tabla siguiente que nos proporciona

los datos necesarios para escribir el sistema de ecuaciones normales.
xi yi xi2 xi3 xi4 xiyi xi2yi
0,0 10,0 0,00 0,000 0,0000 0,00 0,000
0,3 9,5 0,09 0,027 0,0081 2,85 0,855
0,5 9,0 0,25 0,125 0,0625 4,50 2,250
0,7 8,5 0,49 0,343 0,2401 5,95 4,165
1,0 8,0 1,00 1,000 1,0000 8,00 8,000
1,3 7,3 1,69 2,197 2,8561 9,49 12,337
1,5 7,0 2,25 3,375 5,0625 10,50 15,750
1,7 6,7 2,89 4,913 8,3521 11,39 19,363
2,0 6,3 4,00 8,000 16,0000 12,60 25,200
2,3 5,8 5,29 12,167 27,9841 13,34 30,682
2,5 5,5 6,25 15,625 39,0625 13,75 34,375
2,7 5,3 7,29 19,683 53,1441 14,31 38,637
3,0 5,0 9,00 27,000 81,0000 15,00 45,000
3,3 4,8 10,89 35,937 118,5921 15,84 52,272
3,5 4,5 12,25 42,875 150,0625 15,75 55,125
15
∑ 26,3 103,2 63,63 173,267 503,4267 153,27 344,011
i=1
Sustituyendo en el sistema de ecuaciones normales correspondiente al ajuste

de la parábola:
 n n n
∑
 i =1 iy = b 0 n + b1 ∑ x i + b 2 ∑ xi2
i =1 i =1
 n n n n
 2 3
 ∑ xi yi = b0 ∑ x i + b1 ∑ x i + b2 ∑ x i
 i =1 i =1 i=1 i =1
n 2 n
2
n
3
n
∑ x
 i=1 i i y = b 0 ∑ x i + b 1 ∑ x i + b 2 ∑ x i4
 i =1 i=1 i=1
se obtiene el siguiente sistema:
103, 2 = 15b0 + 26, 3b1 + 63, 63b2


153, 27 = 26, 3b0 + 63, 63b1 + 173, 267b2
344, 011 = 63, 63b + 173, 267b + 503, 4267b
 0 1 2
que se puede resolver, como el correspondiente al ajuste lineal, utilizando, por

ejemplo, la regla de Cramer.
La solución es: b0 = 10, 0942 . 10,1; b1 = −2, 3889 . −2, 4; b2 = 0, 2297 . 0, 2
Por tanto, la ecuación de la parábola de grado dos que mejor se ajusta a la
nube de puntos es:
y = 10,1 − 2, 4 x + 0, 2 x 2
d) Para ver si es bueno el ajuste de la parábola a la nube de puntos, se calcu-

la el coeficiente de determinación y para ello se necesita para cada valor de xi el
correspondiente yi∗ = 10, 0942 − 2, 3889 x i + 0, 2297 x i2 , estos valores se recogen en
la tabla de la página siguiente.
15 2
∑ ( yi − yi∗ ) 15 2
i =1
∑ ( yi − b0 − b1 xi − b2 xi2 ) 0, 0511
R2 = 1 − 15 = 1− i=1
= 1− = 0, 9989
15 2 15 2
∑ ( yi − y ) ∑ yi2 − 15 y 2  103, 2 
754, 64 − 15 
i =1 i =1  15 
15
Como el valor de R2 es muy próximo a la unidad, el ajuste de la parábola a la

nube de puntos es muy bueno.
xi yi yi* yi – yi* (yi – yi*)2 yi2
0,0 10,0 10,0942 –0,0942 0,0089 100,0

0,3 9,5 9,3982 0,1018 0,0104 90,25
0,5 9,0 8,9572 0,0428 0,0018 81,00
0,7 8,5 8,5345 –0,0345 0,0012 72,25
1,0 8,0 7,9350 0,0650 0,0042 64,00
1,3 7,3 7,3768 –0,0768 0,0059 53,29
1,5 7,0 7,0277 –0,0277 0,0008 49,00
1,7 6,7 6,6969 0,0031 0,0000 44,89
2,0 6,3 6,2352 0,0648 0,0042 39,69
2,3 5,8 5,8148 –0,0148 0,0002 33,64
2,5 5,5 5,5576 –0,0576 0,0033 30,25
2,7 5,3 5,3187 –0,0187 0,0003 28,09
3,0 5,0 4,9948 0,0052 0,0000 25,00
3,3 4,8 4,7123 0,0877 0,0077 23,04
3,5 4,5 4,5469 –0,0469 0,0022 20,25
15 15 15 2 15
∑ xi = 26, 3
i =1
∑ yi = 103, 2
i =1 i =1
)
∑ ( yi − yi∗ = 0, 0511 ∑ yi2 = 754, 64
i =1
e) El ajuste de la parábola es mejor porque el coeficiente de determinación

parabólico es 0,9989, mayor que el de determinación lineal que es 0,9796. Por
tanto, sí se mejora el ajuste al aumentar el grado de la curva de regresión.
f) Para estimar los porcentajes de agua a las profundidades dadas se utiliza
por tanto la ecuación de la parábola de regresión:
yˆ x = 2,9 = 10,1 − 2, 4 ⋅ 2, 9 + 0, 2 ⋅ 2, 92 . 5,1

yˆ x =3,7 = 10,1 − 2, 4 ⋅ 3, 7 + 0, 2 ⋅ 3, 72 . 4, 4
esto significa que el porcentaje a 2,9 m de profundidad es aproximadamente

igual al 5,1%, y a 3,7 m de profundidad es aproximadamente 4,4%. De las dos es-
timaciones la más fiable es la primera porque 2,9 es un valor de x comprendido
entre los observados en la muestra, en cambio 3,7 es mayor que el máximo valor
de x en la muestra y la estimación correspondiente es por tanto una extrapolación.
3.10.1. Calcular el coeficiente de correlación de x e y, la recta de regresión de y so-

bre x y la de x sobre y para los datos de la siguiente tabla:
x 6 8 10 15 20 21 15 31 23 22
y 10 15 16 21 28 11 24 42 13 12
3.10.2. ¿Es posible que la recta de regresión de y sobre x sea y = 5x + 2 y la de x so-

bre y sea x = 3y + 7 para la misma distribución bidimensional?
3.10.3. ¿Pueden ser y = 15x – 17 y x = –3y + 21 el resultado del cálculo de las rectas
de regresión de una distribución bidimensional?
3.10.4. Para una distribución bidimensional ¿son compatibles los siguientes valores:
Sx2 = 16, Sy2 = 49, Sxy = 624 y r = 0,88?
3.10.5. La siguiente tabla representa el gasto de electricidad, x, en euros al mes, y los

ingresos, y, en euros al mes, de la familia:
Gasto elect.
65 80 100 150 300
€/mes
Ingresos
1.000 1.500 1.600 2.100 3.700
€/mes
a) Ajustar una recta de regresión de y sobre x.

b) Calcular el coeficiente de determinación y el coeficiente de regresión e indi-
car si es bueno el ajuste.
c) ¿Qué ingreso se espera para un gasto de luz de 250 €/mes?
3.10.6. Se sabe que las rectas de regresión de y sobre x y de x sobre y son
5x + 3y = 1 y x + 2y = 3
Justificar si son verdaderas o falsas las siguientes afirmaciones:
a) x + 2y = 3 es la recta de regresión de y sobre x

b) El coeficiente de correlación es r = √0,3.
c) No se puede deducir de estos datos el coeficiente de correlación lineal.
d) r = – √0,3.
3.10.7. Se han cortado treinta árboles de la misma especie. Las edades en años, x, y
los diámetros máximos correspondientes, y, en cm están recogidos en la siguiente ta-
bla de frecuencias de la variable bidimensional (x, y):
y
5 6 10 12 15
x
20 1 2 1 0 0
30 0 1 4 0 0
40 0 1 6 4 0
50 0 0 2 7 1
Se pide:
a) Calcular las medias y varianzas marginales.
b) Hallar la covarianza.
c) Determinar la ecuación de la recta de regresión de los diámetros máximos so-
bre las edades.
d) Los coeficientes de determinación y de correlación.
3.10.8. La tabla siguiente recoge las calificaciones en matemáticas, x, y en estadís-

tica, y, obtenidas por 500 estudiantes universitarios, puntuados de 0 a 10:
Estad.
[0, 5) [5, 7) [7, 9) [9, 10]
Matem.
[0, 5) 29 4 6 8
[5, 7) 67 83 52 42
[7, 9) 31 60 42 25
[9, 10] 7 8 15 21
Se pide:
a) El número de alumnos que tienen calificación entre 7 y 9 en matemáticas.
b) El número de alumnos con calificación entre 0 y 5 en estadística.
c) El número de alumnos que tienen calificación entre 5 y 7 en matemáticas y
entre 7 y 9 en estadística.
d) La frecuencia relativa de los alumnos con calificación más baja en matemá-
ticas entre los que tienen calificación más alta en estadística.
e) Calcular las medias marginales de las calificaciones de matemáticas y esta-
dística y las correspondientes desviaciones típicas.
f) ¿Qué notas tienen mayor dispersión?
g) Calcular la covarianza.
h) Hallar la ecuación de la recta de regresión de y sobre x.
i) Calcular el coeficiente de correlación lineal.
3.10.9. Un fabricante de helados artesanos observa el número de helados vendidos

en una semana y la temperatura media, en grados centígrados, alcanzada en dicha se-
mana en el lugar de venta:
Temp. media °C 25 21 28 31 30 26 12 18
N.o de helados
330 320 635 790 710 480 210 260
vendidos
Con el objeto de planificar la producción se plantea buscar si hay relación entre

el número de helados vendidos por semana y la temperatura media de dicha semana.
a) ¿Qué información se le puede proporcionar?
b) Dar una medida del grado de asociación entre las variables.
c) ¿Cuántos helados esperaría vender en una semana en la que la temperatura
media fuera de 23 °C?
d) ¿Se podría con los datos recogidos dar la información para una semana en la
que la temperatura media fuera de 5 °C?
3.10.10. En la tabla siguiente se recoge información para 200 empleados sobre su sa-
lario mensual y los días de ausencia en un año:
Días de
ausencia [1, 10) [10, 20) [20, 30) [30, 40) [40, 50)
Ingresos
[1.000, 1.500) 25 40 20 13 3
[1.500, 2.000) 12 17 12 7 2
[2.000, 2.500) 20 6 14 8 1
Se pide:
a) Dar la distribución marginal correspondiente al ingreso entre 2.000 y 2.500 €
al mes, su media y su desviación típica.
b) La distribución marginal para el número de días de ausencia de 10 a 20 días
y también la correspondiente media y la desviación típica.
c) Las medias marginales de x y de y, sus desviaciones típicas y la covarianza.
d) El coeficiente de determinación lineal. ¿Es bueno el ajuste de una recta de re-
gresión a la nube de puntos de esta distribución bidimensional?
3.10.11. En la tabla se muestra el gasto diario, en euros, efectuado por 10 alumnos

universitarios en llamadas telefónicas en dos meses.
x Gasto
0,5 6,0 5,0 0,0 5,5 1,5 2,5 4,0 2,0 4,0
1.er mes
y Gasto
0,0 5,5 5,5 0,8 5,0 1,5 0,0 5,0 1,0 3,0
2.o mes
Se pide:
a) Calcular el gasto medio y la varianza de cada mes, la covarianza y el coefi-
ciente de correlación lineal.
b) ¿Hay dependencia lineal entre el gasto de los dos meses?
c) Determinar la recta de regresión de y sobre x
d) Dar la recta de regresión de x sobre y
e) Para un gasto de 3,6 € en el primer mes, ¿qué gasto se podría esperar en el
segundo?
f) Para un gasto de 4,5 € en el segundo mes, ¿qué gasto esperado habrá tenido
en el primero?
3.10.12. Para controlar la eficacia de cierto pesticida se prueban sus efectos en 10 ro-
sales. El porcentaje de hojas enfermas antes del tratamiento, x, y el porcentaje de ho-
jas enfermas pasado un año de tratamiento y, para los 10 rosales son los siguientes:
x 50 40 70 90 40 60 80 80 50 70
y 30 10 45 60 5 25 40 50 20 30
Determinar la ecuación de la recta de regresión de y sobre x y dar una medida del

grado de ajuste.
3.10.13. La siguiente tabla representa el número de bacterias presentes en un cultivo

al cabo de t horas:
t 2 4 6 8 10 12 14
N 19 37 72 140 295 584 990
Ajustar una curva de la forma N = a · ebt para el crecimiento del cultivo y expli-
car si es bueno el ajuste.
3.10.14. La siguiente tabla recoge los valores de la variable estadística bidimensio-

nal (x, y), en la que x representa las alturas dominantes, en metros, de una masa de pi-
nus pinea e y las alturas medias correspondientes, también medidas en metros, de
veinte masas forestales.
y
[16,5; 17,5) [17,5; 18,5) [18,5; 19,5) [19,5; 20,5) [20,5; 21,5)
x
[14,5; 15,5) 1 1 0 0 0
[15,5; 16,5) 0 2 1 0 0
[16,5; 17,5) 0 1 4 2 0
[17,5; 18,5) 0 0 1 3 4
Se pide calcular:
a) Las medias y desviaciones típicas marginales.
b) La covarianza.
c) La ecuación de la recta de regresión de las alturas medias sobre las alturas
dominantes.
d) Los coeficientes de determinación y de correlación. ¿Es bueno el ajuste?
3.10.15. Se quiere expresar mediante una curva de la forma y = a · xb la relación en-

tre el peso, x, de los melocotones en gramos y los de los correspondientes huesos, y,
también en gramos. Con los datos de la siguiente tabla:
x 145 160 138 120 170

y 50 54 45 37 56
Ajustar una curva de la forma indicada por el método de los mínimos cuadrados.
3.10.16. La siguiente tabla representa el peso, x, en gramos de baldas de madera de

la misma anchura y las longitudes, y, correspondientes en cm.
x 1.500 3.250 2.180 2.125 2.500 1.500 3.500 3.100

y 100 160 125 127 120 94 145 146
Se pide:
a) Ajustar una curva de la forma x = a · yb y dar una medida de la correlación
entre las variables.
b) ¿Qué peso se espera que tendrá una balda de 130 cm de longitud y de la mis-
ma anchura que los anteriores? Ídem para una balda de 170 cm. ¿cuál de las
dos predicciones es la más fiable? ¿Por qué?
3.10.17. Se han recogido los valores de las superficies, x, de 11 embalses y el nú-

mero de especies diferentes, y, presentes en cada uno de ellos:
x 2.500 2.800 4.500 6.100 6.500 12.000 30.500 45.000 60.000 75.000 80.000
y 8 9 10 9 10 11 15 17 16 17 16
Ajustar, por el método de mínimos cuadrados, la ecuación de la regresión po-

tencial y = a · xb y explicar si es bueno el ajuste.
3.10.18. La siguiente tabla representa el crecimiento de una población animal:
x años 1 2 3 4 5 6
y 46 66 94 133 189 273
Se pide:
a) Ajustar una curva de mínimos cuadrados de la forma y = a · bx y explicar si
es bueno el ajuste.
b) Estimar el número de efectivos de la población al cabo de 7 años y a los 4
años y medio.
3.10.19. Para estudiar la relación entre la fecundidad, expresada por el número de

huevos por adulto puestos en una semana y la densidad, representada por el número
de adultos por unidad de volumen para un díptero, se han realizado las observaciones
que se recogen en la siguiente tabla:
x (densidad) 100 300 700 900 1.100 1.300 1.900 2.100
y (fecund.) 17 13 3 4 2,5 2 1,5 2
Ajustar una curva de la forma: (a + bx) y = 1, por el método de mínimos cua-

drados, y dar una medida del grado de ajuste.
3.10.20. El estudio del crecimiento de una población de Microtus agrestis ha pro-

porcionado los siguientes resultados:
t meses 0 2 4 6 8 10 12 14
n n.o indiv. 2 5 16 20 40 100 200 320
Ajustar una curva de mínimos cuadrados de la forma n = a · ebt para el creci-

miento de esta población y explicar si es bueno el ajuste.
3.10.21. Para los puntos (xi, yi) recogidos en la siguiente tabla:
xi 7 11 16 18 20 22
yi 15 27 45 75 95 96
xi representa la altura en metros e yi el correspondiente diámetro normal (diá-

metro a 1,30 m del suelo) medido en cm para árboles de un bosque.
a) Ajustar una recta de regresión de x sobre y a los datos. ¿Es bueno el ajuste?
b) Ajustar, por el método de mínimos cuadrados, una parábola de segundo gra-
do x = a + by + cy2 a los datos.
c) Explicar si es bueno el ajuste de la parábola a la nube de puntos.
d) ¿Es mejor el ajuste de la parábola de segundo grado que el de la recta de re-
gresión?
e) Con la curva que mejor se ajuste de las dos, estimar la altura de un árbol del
bosque para un diámetro normal de 80 cm y para un diámetro de un metro.
¿Qué estimación es más fiable?
3.10.22. Los beneficios de cinco grandes bancos, en millones de euros, desde el año
2002 al 2007 se reflejan en la siguiente tabla:
Tiempo en años x 1 2 3 4 5 6
Beneficios y 8.701 9.898 11.002 11.598 13.875 15.350
Ajustar a los datos una parábola de segundo grado, por el método de mínimos
cuadrados, y dar una medida del grado de ajuste.
3.10.23. En la siguiente tabla se recogen las rentas, en miles de euros, en cinco años
consecutivos:
Años t 1 2 3 4 5
Rentas R 14 15 18 24 38
Se pide:
a) Ajustar a estos datos el modelo de Harrod-Domar: Rt = R0 · eat, en el que Rt
representa la renta en el periodo t, R0 la renta inicial, a es una constante y la
variable t representa el tiempo en años. Dar una medida del grado de ajuste.
b) Determinar la renta inicial.
c) ¿Cuál sería la renta estimada para el sexto año?
3.10.24. Para determinar la tasa de crecimiento, d, de la madera en una parcela se re-

cogieron los siguientes datos en los que y representa el volumen de la madera, en
dm3, en dicha parcela al final de cada uno de ocho años consecutivos:
x años 1 2 3 4 5 6 7 8
y 34,4 46 77,4 125,6 135,8 199,7 261,4 418,2
Se pide:
a) Ajustar a los datos una función de la forma y = k · edx y dar el valor de la tasa
de crecimiento de la madera.
b) Dar una medida de la correlación. ¿Es satisfactorio el ajuste? ¿Por qué?
3.10.25. Se han pesado por un lado los cuerpos, x, de seis centollos sin pinzas y por
otro lado sus pinzas respectivas, y. Los pesos, en gramos, se recogen en la siguiente
tabla:
x 58 300 536 1.080 1.449 2.233

y 5 78 196 537 773 1.380
Se quiere saber si se puede aceptar un crecimiento heterogónico de estos pesos,

es decir, si los pesos se representasen en papel logarítmico se obtendría una línea rec-
ta. Dicho de otra forma, se quiere averiguar si es satisfactorio el ajuste a una curva de
la forma y = a · xb
3.10.26. Ajustar una curva de la forma y = a + b/x siendo x el precio en euros e y la

cantidad demandada del producto, número de unidades, a los siguientes datos:
x 1 3 7 9 10 13 19 21
y 170 150 63 52 25 15 7 3
3.10.27. Se han medido las longitudes, x, de los élitros y también la anchura, y, de

las cabezas de seis ejemplares del coleóptero Lucanus cervus. Los datos obtenidos
son los siguientes:
x mm 22,5 23,0 23,2 23,4 23,5 24,0

y mm 11,3 13,5 13,3 13,0 14,0 13,6
Se pide ajustar a estos datos una curva de regresión potencial y = a · xm. ¿Es bue-
no el ajuste?
3.10.28. En una zona boscosa regular se han medido las alturas totales, en metros, de
ocho árboles y sus diámetros normales, diámetro a 1,30 m del suelo, en centímetros.
Los datos obtenidos son los siguientes:
xm 9 10 15 20 25 34 45 50
y cm 7 9 11 12,7 16 18 20 18
Ajustar a esos datos una parábola de segundo grado y = ax2 + bx + c y dar una
medida del grado de ajuste.
Segunda parte
Probabilidad.
Distribuciones de probabilidad
Probabilidad
4
4.1. INTRODUCCIÓN
La segunda parte del libro está dedicada a la probabilidad y a los modelos de
probabilidad discretos y continuos, que nos permitirá abordar en la tercera parte la
inferencia estadística: estimación y contrastes de hipótesis. Se comienza estu-
diando la probabilidad y los modelos de probabilidad discretos y a continuación se
presentan los modelos de probabilidad continuos.
La orientación del tema de probabilidad se hará desde el punto de vista clási-
co, sin entrar en el enfoque bayesiano.
Decidir si se perfora o no un pozo de agua en un terreno, aceptar enfrentarse
o no a un rival en una partida de ajedrez, invertir en acciones que cotizan en la
Bolsa de Madrid y ganar a final de año, tener éxito en un negocio o en una em-
presa de nueva creación, estimar la proporción de mineral aprovechable en una
mina en explotación a partir del examen de una muestra, tener un hijo sano un
matrimonio en el que uno de los progenitores es portador de una enfermedad, etc.,
son situaciones en las que el resultado está sujeto a incertidumbre, como también
lo son: obtener suma ocho al lanzar dos dados sobre una mesa, la nota media de
un grupo de quince alumnos en un examen de estadística, acertar la cifra de las
unidades del primer premio de la Lotería Nacional del próximo sorteo, acertar el
caballo ganador de una carrera, etc.
En situaciones como las anteriores y en muchas más, en las que la decisión com-
porta un riesgo, el tener información sobre la probabilidad del resultado en el que se está
interesado conduce a acertar más veces que si no se tiene en cuenta esta información.
El concepto de probabilidad tiene su origen a mediados del siglo XVII en la co-
rrespondencia entre Blaise Pascal (1623-1662) y Pierre de Fermat (1601-1665),
con un problema propuesto a Pascal por el Caballero de Méré, jugador francés
profesional que intentaba lograr superioridad en el juego con dados. El problema
propuesto es el siguiente: ¿Es más fácil obtener al menos un as al lanzar cuatro
dados o por lo menos un par de ases en veinticuatro lanzamientos de un par de da-
155
dos? Unos años después, en 1657, Christian Huygens (1629-1695) publicó el pri-
mer texto de probabilidad titulado De Ratiociniis in Ludo Aleae, es decir, Sobre
los juegos de azar, un tratado en el que se introduce el concepto de grados de pro-
babilidad. No se puede olvidar la influencia de Gottfried Wilhelm Leibniz (1646-
1716) filósofo, físico y matemático alemán de repercusión universal; su amistad
con Huygens, Pierre R. de Montmort (1678-1719), Jacques Bernoulli (1654-
1705) y Nicolas Bernoulli (1662-1716) inspiró los trabajos de estos en la
formalización de la probabilidad. El pensamiento de Séneca: «Rationes non esse
numerandas sed ponderandas» («Las razones no deben ser numeradas, o contadas,
sino ponderadas») le lleva a intentar descubrir toda la verdad posible que
encierran los datos, a determinar al menos su grado de probabilidad. Dice Leibniz
en 1679 «Si, como hacen los geómetras, ordenamos y demostramos los
principales axiomas y si las experiencias estuvieran bien ordenadas y ligadas
con los axiomas, creo que podríamos distinguir lo verdadero, lo probable y lo
dudoso, y en las materias en que no se puede rebasar la probabilidad, bastaría con
demostrar el grado de probabilidad y hacer ver de qué lado debe inclinarse
necesariamente la balanza de las apariencias». Aquí está el germen de la teoría de
la probabilidad. En 1713 apareció publicada póstumamente la obra de Jacques
Bernoulli Ars Conjectandi o El arte de la conjetura, que se considera la primera
gran obra sobre probabilidad.
El origen de la teoría de la probabilidad está relacionado con problemas de in-
genio atractivos como los juegos de azar o pasatiempos. Con la influencia del cál-
culo, de la geometría y otras ramas de las matemáticas, se desarrolla la nueva te-
oría, beneficiándose de las ya existentes y aportando nuevos puntos de vista
útiles para afrontar nuevos retos. Más tarde, aparecen las aplicaciones en la propia
matemática y también otras de interés en la ciencia o en la técnica. En la actuali-
dad se utiliza en genética, física, medicina, meteorología, zoología, ecología,
epidemiología, petrología, geoquímica, técnica, sociología, psicología, pedagogía,
etc. Incluso es un término frecuente en nuestro lenguaje coloquial.
Entre las múltiples aplicaciones que podríamos citar de la teoría de la proba-
bilidad y de los procesos estocásticos, basados en ella destacamos tres: el estudio
del tráfico en las autopistas, es decir, en recorridos en que los vehículos circulan
en un solo sentido; la estereología, conjunto de métodos que tratan de la deter-
minación de estructuras tridimensionales a partir del conocimiento de secciones
bidimensionales o proyecciones sobre planos, que se desarrolló a partir de 1961 y
se aplica en metalurgia y mineralogía para averiguar la composición de aleacio-
nes, rocas o minerales a partir de secciones planas, en botánica en el estudio de los
tejidos de las maderas a partir de cortes planos, etc., y la tomografía axial com-
puterizada por rayos X, TAC, que es fruto de los progresos de la electrónica y de
las investigaciones en estadística, física e ingeniería con uso innovador en medi-
cina y que permite la reconstrucción del interior del cuerpo humano, indicando la
posición de cada punto en el espacio y la densidad de su materia. Mediante este
método se localizan irregularidades o tumores. Tomografía es un término deri-
vado de la palabra griega tomos, que significa corte o sección.
PROBABILIDAD 157
La probabilidad permite estudiar los experimentos aleatorios, con el objeto de

valorar el riesgo de tomar una decisión determinada.
Para precisar este concepto, se explicará primero qué se entiende por experi-
mento aleatorio.
4.2. EXPERIMENTOS ALEATORIOS
Un experimento es un procedimiento que conduce a un conjunto de posibles

resultados u observaciones. Según sea el conjunto de resultados del experimento,
se distinguen dos tipos: deterministas y aleatorios.
Un experimento es determinista si el resultado es totalmente previsible, es de-
cir, si realizado en las mismas circunstancias sólo tiene un resultado posible. La
ley de Boyle-Mariotte afirma que para cada temperatura el producto del volumen
de la masa de un gas ideal por su presión es constante, P · V = k. Por ello, en el
experimento de determinación del volumen de un gas ideal a una temperatura
constante para una presión determinada el resultado se puede conocer antes de
realizar la observación. Éste es un experimento determinista. Para el mismo valor
de la presión y a la misma temperatura, el volumen es siempre el mismo.
Muchos de los experimentos de las ciencias son deterministas, pero no todos.
Aquellos en los que el resultado no está unívocamente establecido y se pueden re-
petir en las mismas condiciones son los experimentos aleatorios.
Un experimento aleatorio es un proceso de observación que se puede repetir
en las mismas condiciones del que se conocen con antelación todos los resultados
posibles y hay al menos dos diferentes, por tanto el resultado de cualquier reali-
zación no se puede asegurar de antemano. Un experimento aleatorio se puede re-
petir en idénticas condiciones y no obtener el mismo resultado.
El conjunto formado por todos los resultados posibles de un experimento
aleatorio se denomina espacio muestral y se representará por E.
EJEMPLOS
1. Un geólogo que recoge muestras de rocas sedimentarias en el campo y las
clasifica según el tamaño modal del sedimento: grosero (G), medio (M), fino (F) o
muy fino (MF); el espacio muestral es: E = {G, M, F, MF}.
2. Un biólogo observa el fenotipo de la primera generación filial resultante del
cruce de dos individuos heterocigóticos respecto de un carácter diploide con domi-
nancia completa; el espacio muestral es: E = {A (dominante), a (recesivo)}. Si se
observa el genotipo, entonces el espacio muestral sería E = {AA, Aa, aa}.
3. Se lanzan dos dados distinguibles y se observan los números obtenidos en
cada uno de ellos. El espacio muestral está formado por todos los pares (a, b), sien-
do a, b ∈{1, 2, 3, 4, 5, 6}. Es el conjunto de las variaciones con repetición de orden
dos formadas con los elementos del conjunto A = {1, 2, 3, 4, 5, 6}, es decir, el es-
pacio muestral está formado por los treinta y seis pares siguientes:
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Como el espacio muestral es un conjunto, se puede determinar por extensión,

enumerando todos sus elementos, o por comprensión, dando una propiedad que los
caracteriza, como se verá en los siguientes ejemplos:
4. Se lanza un dado y se observa el número de veces que es preciso lanzarlo

hasta obtener por primera vez el seis. El espacio muestral es:
E = {1, 2, 3, 4, 5, …, n, …} = ⺞
5. En una sucursal bancaria se comprueban los cheques antes de pagarlos. Si en

la cuenta hay saldo suficiente, lo acepta (a) y si no, lo rechaza (r). Se comprueban
tres cheques; todos los resultados posibles forman el espacio muestral que es:
E = {aaa, aar, ara, raa, arr, rar, rra, rrr}
6. En un ensayo de un medicamento se administra una dosis diaria a cada una
de las 10 cobayas enfermas y se observa, al cabo de siete días, el número de las que
están curadas. El espacio muestral es: E = {10, 9, 8, …, 2, 1, 0}.
7. Una ruleta tiene marcada en su circunferencia el 0, origen de los ángulos

que forma la aguja al detenerse; se hace girar y se mide, en radianes, el ángulo que
forma la aguja al parar. El espacio muestral es:
E = {x ∈ ⺢/0 ≤ x < 2π}
8. Se elige al azar un número del segmento [0,1],

E = [0,1] = {x ∈ ⺢/0 ≤ x ≤ 1}
9. Se lanza una moneda tantas veces como sea necesario hasta obtener la pri-
mera cara y se anotan los resultados obtenidos. El espacio muestral es:
E = {C, XC, XXC, XXXC, …}
Atendiendo al número de resultados posibles del experimento aleatorio, los

espacios muestrales se clasifican en:
a) Espacios muestrales discretos finitos. Son los que tienen un número finito
de elementos. Entre los ejemplos precedentes los números 1, 2, 3, 5 y 6.
PROBABILIDAD 159
b) Espacios muestrales discretos infinito-numerables. Son los que tienen infi-

nitos elementos pero tantos como números naturales. Por tanto se puede es-
tablecer una aplicación biyectiva de E en ⺞. Es el caso de los Ejemplos 4 y 9.
c) Espacios muestrales continuos o infinito-no numerables. Son los que
tienen un número infinito de elementos y no se puede establecer una
aplicación biyectiva entre E y ⺞. Los de los ejemplos 7 y 8 son espacios
muestrales continuos, porque entre dos resultados se pueden dar infinitos
valores posibles.
4.3. ÁLGEBRA DE SUCESOS Y σ-ÁLGEBRA
Para definir la probabilidad hay que conocer el álgebra de sucesos del expe-
rimento aleatorio.
¿Qué se entiende por álgebra de sucesos y qué es suceso en estadística?
• Dado un espacio muestral E, que sea un conjunto finito, no vacío ni unitario,

una clase A de subconjuntos de E es un álgebra de sucesos, o simple-
mente un álgebra, si se verifica que:
1. E ∈A.
2. S∈ A ⇒ S∈ $ A.
3. S1, S2∈ A ⇒ S1 ∪ S2∈A.
Es decir, A es un álgebra si uno de sus elementos es E y además A es cerra-

da respecto a la formación de complementarios y de uniones finitas.
Por verificar 1 y 2 también ∅ ∈A, pues ∅ = E$.
Dado un espacio muestral E, finito, y un álgebra A sobre E, un elemento S de
A desde el punto de vista estadístico se denomina suceso aleatorio.
Un elemento e del espacio muestral E se denomina punto muestral.
Se dice que se verifica un suceso S si como resultado del experimento se ob-
tiene alguno de los elementos de S.
Dos sucesos A y B correspondientes al mismo experimento aleatorio son
iguales, y se escribe A = B, si siempre que se verifica A se verifica B y siempre
que se verifica B se verifica también A.
• Suceso seguro es el que se verifica cualquiera que sea el resultado de la ex-

periencia. Corresponde al subconjunto E, todo el espacio muestral.
• Se llama suceso contrario a S al complementario de S, respecto del espacio
muestral E, es decir, S$ = CE (S), que es el suceso que se verifica siempre que
no se verifica S.
• Suceso imposible es el que no se verifica nunca. Es el suceso contrario del
suceso seguro. Corresponde al subconjunto ∅ del espacio muestral.
La menor álgebra de E está formada por ∅ y E y la mayor es la formada por

todos los subconjuntos de E.
Para un espacio muestral finito E, si se considera el álgebra de sucesos for-
mada por todos los subconjuntos, o partes de E, ε = P (E), con las operaciones de
unión e intersección de conjuntos y la operación unitaria del complementario res-
pecto de E, entonces un suceso será cada subconjunto del espacio muestral E.
El conjunto ε = P (E) con las operaciones de unión e intersección y el suceso
contrario tiene estructura de álgebra de Boole, como las proposiciones del len-
guaje formal con las operaciones disyunción y conjunción y la negación, o bien,
los interruptores eléctricos con las conexiones en paralelo y en serie y el inte-
rruptor contrario. Por tanto, en el álgebra de sucesos se verifican todas las pro-
piedades de las álgebras de Boole. En particular las leyes de De Morgan:
A∪B= A∩B y A∩ B= A∪B
Teniendo en cuenta las leyes de De Morgan, si S1 y S2 son dos elementos de la

misma álgebra de sucesos, es decir, si S1 y S2 ∈ A se puede escribir:
(
S1 ∩ S2 = S1 ∪ S2 )
y por las propiedades 2 y 3 del álgebra también S1 ∩ S2 ∈A, es decir, toda álgebra
es además cerrada respecto de la formación de intersecciones finitas.
Suceso elemental es un suceso que es subconjunto unitario del espacio mues-
tral E. Los sucesos elementales no se pueden descomponer en otros más simples.
Un suceso que no es elemental se dice que es compuesto.
Si A y B son dos sucesos correspondientes a un mismo experimento aleatorio,
se llama suceso unión de A y B, y se escribe A ∪ B al suceso que se verifica si se
verifica A o se verifica B o se verifican ambos a la vez, es decir, se verifica A ∪ B
si se verifica al menos uno de los dos sucesos.
El suceso intersección de A y B, se escribe A ∩ B, y es el suceso que se veri-
fica si se verifican simultáneamente A y B. n
La unión de los sucesos A1, A2, …, An, se escribe U Ai y es el suceso que se
verifica si se verifica al menos uno de los Ai. i =1
n
La intersección de los sucesos se escribe I Ai y es el suceso que se verifica si
se verifican todos los Ai a la vez. i =1
Dos sucesos A y B son incompatibles si no se pueden verificar a la vez, por

tanto A ∩ B = ∅. En caso contrario se dice que son compatibles.
PROBABILIDAD 161
EJEMPLO 4.1.
En los sorteos ordinarios de la Lotería Nacional el conjunto de las extracciones
posibles en el bombo de las unidades es E = {1, 2, 3, 4, 5, 6, 7, 8, 9, 0} que es el es-
pacio muestral del experimento que consiste en extraer una bola del bombo de las
unidades y anotar el resultado. Para el álgebra formada por todos los subconjuntos
de E, es decir, P (E), un posible suceso es «obtener cifra impar», esto es, S = {1, 3,
5, 7, 9} y el 5 es un punto muestral que no es {5}, pues este subconjunto unitario se-
ría un suceso elemental. Si se extrae un 4 no se verifica el suceso S, sí se verifica
cuando se extrae una cifra impar.
Si una persona juega diez décimos y todos con distinta cifra de las unidades para
un sorteo, entonces es seguro que obtiene premio, al menos tres reintegros, el que
coincida con la cifra de las unidades del primer premio y los dos reintegros especiales.
Si una persona no juega ningún décimo para el sorteo es imposible que obtenga
ningún premio, su suceso sería ∅.
Si juega décimos terminados en 1, 3, 5, 7 le son favorables las cifras del suceso
–
S = {1, 3, 5, 7}y no las de S = {2, 4, 6, 8, 9, 0}.
Si es A = {0, 1, 2} y B = {2, 4, 6} es A ∪ B = {0, 1, 2, 4, 6} y A ∩ B = {2}.
Los sucesos A y B son compatibles.
En cambio si S1 = {1, 2, 3} y S2 = {7, 8} es S1 ∩ S2 = ∅ y por tanto son incom-
patibles.
Un suceso y su contrario son siempre incompatibles.
• Se supone ahora que el espacio muestral E es infinito, como en el Ejemplo 8

del Epígrafe 4.2. En este caso no interesa reconocer como sucesos todos los sub-
conjuntos de E, sino los que forman una σ-álgebra, porque no se puede asignar a
cada punto una probabilidad distinta de cero. La probabilidad asociada a un pun-
to es cero y también la probabilidad asociada a un conjunto numerable de puntos.
Sí sería de interés un subconjunto de E que sea un intervalo o unión de intervalos.
¿Qué es una σ-álgebra?
Para definirla se necesitan los conceptos de unión e intersección de un número
infinito-numerable de sucesos:
`
Dados los sucesos A1, A2, …, An, …, se define UA i
como el suceso que se
verifica si se verifica al menos uno de los Ai. i=1
`
Dados los sucesos A1, A2, …, An, …, se define I Ai como el suceso que se veri-
fica sólo si se verifican todos los Ai a la vez. i=1
Para un espacio muestral infinito E, una σ-álgebra es una clase A de sub-

conjuntos de E que verifica:
1. E ∈A.
2. S ∈A ⇒ S$ ∈A.
`
3. S1 , S2 , ..., Sn ,... ∈ A ⇒ ∪ Si ∈A.
i =1
Una σ-álgebra A es pues un álgebra, que es además cerrada respecto de las

uniones numerables de elementos de A.
Como consecuencia de la forma infinita de las leyes de De Morgan,
` `
I Si = U Si ∈ A , las intersecciones numerables de elementos de A también
i =1 i =1
pertenecen a A. Es decir, una σ-álgebra A es además cerrada respecto de la for-
mación de las intersecciones numerables de elementos de A.
Dada una familia F de subconjuntos de E existe una σ-álgebra mínima σ (F)
que contiene F, es la intersección de todas las σ-álgebras que contienen F y se de-
nomina la σ-álgebra generada por F.
Si E es un conjunto finito, de cardinal | E | = n, la σ-álgebra generada por los n
sucesos elementales tiene 2n elementos y coincide con el conjunto ε = P (E) for-
mado por todos los subconjuntos de E. Un álgebra de sucesos es por tanto una σ-ál-
gebra, en el caso particular en que el espacio muestral es finito.
Si E es un conjunto infinito y no numerable, una σ-álgebra es la familia A
formada por E y todos los subconjuntos de E que son numerables y con comple-
mentario numerable.
En el caso en el que el espacio muestral es ⺢, que es un conjunto infinito y no
numerable, se define la σ-álgebra de Borel que está formada por intervalos se-
miabiertos y las uniones e intersecciones numerables de intervalos semiabiertos.
Esta σ-álgebra no contiene todos los subconjuntos de E, ya que si S es un sub-
conjunto no numerable de E sería unión no numerable de elementos de A y una
σ-álgebra no es cerrada respecto a la formación de un número arbitrario de unio-
nes de los sucesos que la forman. Por ejemplo, el conjunto de los números irra-
cionales no es un suceso del espacio muestral E = ⺢.
De modo similar se define la σ-álgebra de Borel para el espacio muestral ⺢n,
n ∈ ⺞.
4.4. FRECUENCIA RELATIVA DE UN SUCESO.

PROBABILIDAD EN ESPACIOS MUESTRALES FINITOS
Si se repite n veces un experimento aleatorio cuyo espacio muestral es E, fi-
nito o infinito numerable, y el suceso A ⊂ E se verifica nA veces, se dice que nA es
la frecuencia absoluta de A.
La frecuencia relativa de A es el cociente entre la frecuencia absoluta de A y
el número total de pruebas, es decir,
nA
fr ( A ) =
n
Propiedades de las frecuencias relativas:
1. La frecuencia relativa de un suceso es un número racional del segmento [0,1]
0 ≤ fr ( A ) ≤ 1
PROBABILIDAD 163
2. La frecuencia relativa del suceso seguro es 1.
3. La frecuencia relativa del suceso contrario de A es:
( )
fr A = 1 − fr ( A )
4. Si A y B son dos sucesos incompatibles, entonces:
fr ( A ∪ B) = fr ( A ) + fr ( B)
5. Si A y B son dos sucesos compatibles entonces:
fr ( A ∪ B) = fr ( A ) + fr ( B) − fr ( A ∩ B)
6. Frecuencia relativa de la intersección de dos sucesos compatibles:
Si A y B son dos sucesos compatibles que se verifican a la vez n1 veces, el su-

ceso A se verifica n2 veces sin que se verifique B, y el suceso B se verifica n3 ve-
n +n
ces sin verificarse A, la frecuencia relativa de A es fr ( A ) = 1 2 .
n
Se llama suceso B condicionado a A, y se representa por B|A, al suceso B
dado A, es decir, al suceso que se verifica si se verifica B habiendo sucedido A. La
frecuencia relativa del suceso B|A es:
n1
fr ( B A ) =
n1 + n2
de donde se deduce que:
n1 n1 + n2 n1
fr ( A ∩ B) =
n
=
n
·
n1 + n2
( )
= fr ( A ) · fr B A
Del mismo modo:
n1 n1 + n3 n1
fr ( A ∩ B) =
n
=
n
·
n1 + n3
( )
= fr ( B) · fr A B
Las frecuencias relativas varían con el número de pruebas. La observación de

numerosos experimentos aleatorios aumentando el número de pruebas condujo al
siguiente resultado práctico, conocido con el nombre de Ley del azar: «La fre-
cuencia relativa de un suceso tiende a estabilizarse para valores grandes de n».
Es decir, los fenómenos aleatorios de manera aislada son imprevisibles pero pre-
sentan regularidades estadísticas cuando se repiten un número elevado de veces.
Richard von Mises (1883-1953), admitiendo como hipótesis la Ley del azar,
dio la primera definición de probabilidad del siguiente modo:
nA
P( A) = lim fr ( A ) = lim
n→ ` n→` n
Esta definición no es útil en la práctica.

Pierre-Simon Laplace (1749-1827) en un intento de aplicación de la probabi-
lidad a las ciencias naturales y sociales, formuló la primera regla práctica para el
cálculo de probabilidades de sucesos, que hoy se conoce como:
Regla de Laplace
Si E es el espacio muestral de un cierto experimento aleatorio, que es finito y
se puede considerar unión de n sucesos incompatibles dos a dos y equiprobables,
dado un suceso S que sea la unión de m de los sucesos elementales de E,
n m
E = U Si y S = U Si
i =1 i =1
m
entonces P ( S ) = .
n
Laplace lo formuló diciendo: «La probabilidad del suceso S es el cociente en-

tre el número de casos favorables a S y el número de casos posibles, suponiendo
que los sucesos elementales sean equiprobables».
La definición de probabilidad de un suceso como cociente entre casos favo-
rables y casos posibles es muy pobre, no se puede aplicar en espacios muestrales
discretos infinito-numerables, ni en espacios continuos. En la práctica hace falta
definir la probabilidad en un segmento, en una región plana e incluso en el espa-
cio tridimensional.
4.5. AXIOMÁTICA PARA LA PROBABILIDAD.

PROPIEDADES DE LA PROBABILIDAD
En los espacios continuos la probabilidad puntual es siempre cero, pues por

muy pequeña que fuera la probabilidad que se le asignara a un punto sería impo-
sible respetar que la probabilidad del espacio muestral sea la unidad. Por eso es
fundamental la axiomática de probabilidad, debida a Kolmogorov, que aunque pa-
rece no decir nada, recoge todo. Se podría decir que la axiomática, que se presenta
a continuación, es una «definición marco».
PROBABILIDAD 165
Para salvar los inconvenientes que surgen al intentar fundamentar el concep-

to de probabilidad y extender la definición para espacios muestrales infinito-nu-
merables e infinito no numerables, Andrei Nickolayevich Kolmogorov (1903-
1987) propuso la siguiente axiomática de probabilidad, en el año 1933:
Sea E el espacio muestral de un experimento aleatorio y A una σ-álgebra de
sucesos de E, una probabilidad es una aplicación de A en ⺢ que cumple los tres
axiomas siguientes:
1. 0 ≤ P (A) ≤ 1, ∀A∈A.
2. P (E) = 1.
3. Si A1, A2,..., An,... es una sucesión de sucesos incompatibles dos a dos se
` `
 
verifica que P 

U
i =1
Ai = ∑ P ( Ai ), que se denomina propiedad de aditi-
 i =1
vidad contable.
Como consecuencia de estos axiomas, también se cumple en toda σ-álgebra la
siguiente propiedad, que se conoce como propiedad de aditividad finita:
Si A1, A2,..., An son n sucesos incompatibles dos a dos
 n  n
P  U Ai  = ∑ P ( Ai )
 i=1  i =1
Y también, si (A)i∈I es un conjunto de sucesos incompatibles dos a dos, siendo

el conjunto de índices, I, finito o infinito numerable, se verifica que
 
P  U Ai  = ∑ P ( Ai )
 i∈I  i∈I
Los axiomas elegidos para espacios muestrales finitos establecen a nivel for-
mal los aspectos más esenciales contemplados en la ley del azar, y se observa un
paralelismo con las propiedades de las frecuencias relativas.
Se denomina espacio probabilístico a un espacio muestral E en el que se ha
definido una σ-álgebra A y sobre ella una probabilidad P. Se escribe (E, A, P).
Los elementos de una σ-álgebra A se dice que son medibles.
La probabilidad permite determinar distintos grados de incertidumbre desde
P(S) = 0, que significa que S es imposible, hasta P(S) = 1, es decir, que S se veri-
fica siempre. Para todos los demás casos es 0 < P(S) < 1. Cuanto más próximo a
la unidad esté el valor de P(S) la incertidumbre será menor, con más confianza se
apuesta a la obtención del suceso S en la realización del experimento.
Es conveniente observar que sobre un mismo espacio muestral se pueden de-
finir varias aplicaciones de probabilidad. Basta con que cada aplicación definida
cumpla los axiomas anteriores.
EJEMPLO 4.2.
Se cargan las bolas impares de un bombo, que contiene diez bolas nume-
radas del 0 al 9, de tal forma que las impares tienen doble probabilidad de sa-
lir que los pares. a) ¿Cuál es la probabilidad de que al extraer una bola se ob-
tenga cifra par? b) ¿Es la misma en un bombo en el que no hay ninguna bola
cargada?
a) Si p representa la probabilidad de obtener una cifra par, la probabilidad de

obtener una cifra impar es 2p.
1
5p + 5⋅ 2p = 1 ⇒ p =
15
La probabilidad de obtener cifra par es:
1 1
P ({0, 2, 4, 6, 8}) = 5 · =
15 3
b) Si no estuviera cargada ninguna bola, la probabilidad de obtener una cual-

1 1 1
quiera de ellas es y la de obtener cifra par sería P ({0, 2, 4, 6, 8}) = 5 · =
10 10 2
que es mayor que en el caso anterior.
Propiedades de la probabilidad
A partir de los tres axiomas de la definición de probabilidad se pueden de-
mostrar con facilidad las siguientes propiedades:
–
1. Probabilidad del suceso contrario: P(S ) = 1 – P(S).
2. Probabilidad del suceso imposible: P(∅) = 0.
3. Si S1 ⊂ S2 entonces P(S1) ≤ P(S2).
4. Probabilidad de la unión de dos sucesos compatibles:
P ( S1 ∪ S2 ) = P ( S1 ) + P ( S2 ) − P ( S1 ∩ S2 )
5. Probabilidad de la unión de tres sucesos compatibles:
P ( S1 ∪ S2 ∪ S3 ) = P ( S1 ) + P ( S2 ) + P ( S3 ) − P ( S1 ∩ S2 ) −
− P ( S1 ∩ S3 ) − P ( S2 ∩ S3 ) + P ( S1 ∩ S2 ∩ S3 )
PROBABILIDAD 167
6. Probabilidad de la unión de n sucesos compatibles:
n n
 
( )
P  ∪ Si  = ∑ P ( Si ) − ∑ P Si ∩ S j + ∑ P Si ∩ S j ∩ Sk −
 i =1  i =1 i≠ j i ≠ j ≠k
( )
n
P  ∩ Si 
n+1
−... + ( −1)
 i =1 
7. Si Si son sucesos cualesquiera, como consecuencia de las propiedades 3 y

4 se tiene:
 n  n
P  U Si  ≤ ∑ P ( Si )
 i=1  i =1
La definición axiomática de probabilidad sólo expresa las propiedades que ha

de cumplir una probabilidad, pero no indica cómo asignar probabilidades especí-
ficas a los sucesos.
De todas las aplicaciones de probabilidad que se pueden construir sobre es-
pacios muestrales finitos, la más sencilla y práctica es la que toma un valor cons-
tante en todos los sucesos elementales, la regla de Laplace que sólo se puede apli-
car en los espacios muestrales finitos en los que todos los sucesos elementales
sean equiprobables.
Ejemplos de experimentos en los que se puede aplicar la regla de Laplace son
los siguientes:
— Lanzar un dado sin peso en ninguna de las caras y observar el número que
aparece en la cara superior.
— Extraer una bola de un bombo en el que hay cien bolas numeradas que tie-
nen el mismo tamaño y el mismo peso y anotar el número de la bola ex-
traída.
— Elegir una carta de un mazo nuevo de cuarenta cartas en el que ninguna
esté señalada, etc.
En cambio, no se puede aplicar la regla de Laplace para el experimento que

consiste en lanzar un dado que se usa para rellenar quinielas y anotar el resultado,
pues este dado es un hexaedro con tres de sus caras pintadas con un 1, dos con X
y una con 2 y no son equiprobables los tres sucesos elementales.
Para poder calcular probabilidades en este espacio muestral hay que asignar
probabilidad a estos tres sucesos. Una forma sencilla es transformar un dado co-
rriente en un dado de quiniela del siguiente modo: Las caras de puntuación impar
corresponden al 1 en la quiniela, la cara con dos puntos será el 2 y a las otras dos
caras con puntuación par se le asigna la X, y como en el dado ordinario se puede
aplicar la regla de Laplace, se tiene:
3 1
P ({1}) = P ({1, 3, 5}) = =
6 2
1
P ({2}) = P ({2}) =
6
2 1
P ({ X }) = P ({4, 6}) = =
6 3
EJEMPLO 4.3.
a) ¿Cuál es la probabilidad de que al lanzar un dado dos veces la suma de las
puntuaciones obtenidas sea seis? b) ¿Es la misma al lanzar tres dados?
a) El espacio muestral E es el conjunto de las variaciones con repetición de

orden dos formadas con los elementos de C = {1, 2, 3, 4, 5, 6}, es decir,
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Los 36 sucesos elementales son equiprobables. De ellos sólo son favorables

los del subconjunto S = {(1,5), (2,4), (3,3), (4,2), (5,1)} que aparece sombreado en
5
la tabla. Por tanto P ( S ) = . 0,1389.
36
b) Si se lanzan tres dados, sería más costoso escribir todos los resultados po-
sibles, pues el espacio muestral está formado por todas las variaciones con repe-
tición de orden 3 formadas con los elementos del conjunto C = {1, 2, 3, 4, 5, 6},
E = {(1,1,1), (1,1,2),..., (1,1,6),..., (6,6,6)}, el cardinal de E es:
E = VR6,3 = 63 = 216
De los sucesos elementales serán favorables para que la suma sea 6 aquellas
ternas cuyos elementos son: 1,1,4, o bien, 1,2,3, ó 2,2,2. En total:
PR32 ,1 + P3 + 1 = 3 + 6 + 1 = 10
PROBABILIDAD 169
Si S1 = «obtener suma seis al lanzar tres dados»
P(S1 ) = =
10 5
. 0, 0463 que es menor que al lanzar dos dados.
216 108
Una buena ayuda para contar los casos favorables y los posibles en éste y en
muchos ejercicios de probabilidad es hacer uso de las fórmulas de combinatoria.
Para ver este tema con detalle, se puede consultar González Manteiga [24].
EJEMPLO 4.4.
¿Cuál es la probabilidad de que al lanzar tres monedas se obtenga al menos una
cruz?
Si consideramos el espacio muestral E = U Si siendo Si el suceso «obtener

3
i=0
exactamente i cruces», entonces el suceso S = «obtener al menos una cruz»
= U Si , pero no es cierto que P ( S ) = , al no ser los sucesos Si equiprobables
3
3
i =1 4
puesto que la probabilidad de que se verifique S1 = «obtener exactamente una
cruz» es mayor que la de que se verifique S3 = «obtener tres cruces». Sólo se ve-
rifica S3 si salen tres cruces seguidas, en cambio se verifica S1 si al lanzar las mo-
nedas se obtiene:
CCX , CXC o XCC
¿No se puede aplicar la regla de Laplace para calcular esta probabilidad?

Considerando el espacio muestral:
E = {CCC, CCX , CXC, XCC, CXX , XCX , XXC, XXX }
cuyos sucesos elementales sí son equiprobables, se puede escribir:
S3 = { XXX } , S2 = {CXX , XCX , XXC } , S1 = {CCX , CXC, XCC } , S0 = {CCC }
y, ahora sí se puede aplicar la regla de Laplace, para calcular la P(S). El cardinal

de E es E = VR2,3 = 23 = 8 y el cardinal de S es S = 3 + 3 + 1 = 7, por tanto
P ( S ) = P  U Si  =
3  7
 i =1  8
Otra forma más rápida de llegar a este resultado es la siguiente:
1 7
)
P ( S ) = 1 − P ( S = 1 − P ({CCC }) = 1 − =
8 8
EJEMPLO 4.5.
En un laboratorio hay muestras de 50 rocas endógenas y otras tantas rocas
exógenas, cada par de ellas (una endógena y otra exógena) están recogidas por un
alumno diferente y la muestra se identifica con un número del 1 al 50. Si se eligen al
azar dos de las cien muestras de roca del laboratorio, calcular la probabilidad de que
sean:
a) Dos endógenas.
b) Una de cada clase.
c) Las dos rocas que recogió el mismo alumno.
a) Designando por S1 el suceso «elegir dos endógenas»
C50 ,2 49
P ( S1 ) = =
C100 ,2 198
b) Si S2 es el suceso «elegir una de cada clase»
C50,1 .C50 ,1 50
P ( S2 ) = =
C100,2 99
c) Si por S3 se indica «elegir las dos muestras de la misma persona»
C50 ,1 1
P ( S3 ) = =
C100 ,2 99
4.6. LA PROBABILIDAD CONDICIONADA
Recordando la fórmula de la frecuencia relativa de la intersección de dos

sucesos compatibles:
fr ( A ∩ B) = fr ( A ) ⋅ fr ( B A )Ä Ä y Ä Ä fr ( A ∩ B) = fr ( B ) ⋅ fr ( A B )
PROBABILIDAD 171
se obtienen las fórmulas de las frecuencias relativas de los sucesos A condicio-

nado a B y de B condicionado a A:
fr ( A ∩ B) f ( A ∩ B)
fr ( B A ) = Ä Ä y Ä Ä fr ( A B ) = r
fr ( A ) fr ( B )
Estas fórmulas sugieren la siguiente definición:
• Probabilidad del suceso B condicionado a A.

Si A y B pertenecen a la σ-álgebra de sucesos A de un experimento aleatorio
y además P(A) > 0 se define la probabilidad de B condicionado a A del siguiente
modo:
P( A ∩ B)
P ( B A) =
P ( A)
La probabilidad condicionada al suceso A es una aplicación del álgebra de su-

cesos A en el conjunto ⺢ que a cada suceso S∈A le hace corresponder
P( A ∩ S)
P ( S A) =
P ( A)
Se comprueba con facilidad que esta aplicación verifica los tres axiomas de
toda probabilidad.
• Análogamente, se define la probabilidad de A condicionada a B:
P( A ∩ B)
P ( A B) =
P ( B)
si B es un suceso con probabilidad P(B) > 0.
4.7. SUCESOS DEPENDIENTES E INDEPENDIENTES
P ( A ∩ B)
䊏 Si P ( A B ) = ≠ P ( A ) entonces P ( A ∩ B) ≠ P ( A ) ⋅ P ( B ) y en con-
P ( B)
P( A ∩ B)
secuencia P ( B A ) = ≠ P ( B) . En este caso se dice que los sucesos A y B
P ( A)
son dependientes, o también que A y B son sucesos estocásticamente dependientes.
EJEMPLO 4.6.
Al extraer una carta de una baraja española (40 cartas), ¿cuál es la probabilidad
de obtener un siete sabiendo que no es una figura?
Llamando F al suceso «obtener figura» y S al suceso «obtener un siete»
P(S ∩ F ) 4 40 1 4 1
P (S F ) = = = ≠ P (S) = =
P(F) 28 40 7 40 10
por tanto los sucesos «sacar siete» y «no sacar figura» son dos sucesos depen-
dientes.
P( A ∩ B)
䊏 Si P ( A B) = = P ( A ) entonces P ( A ∩ B) = P ( A ) ⋅ P ( B) y por tanto
P ( B)
P ( A ∩ B)
P ( B A) = = P ( B) y se dice que los sucesos A y B son independientes o
P ( A)
estocásticamente independientes.
• Dos sucesos A y B son independientes si y sólo si
P ( A ∩ B) = P ( A ) ⋅ P ( B )
• Tres sucesos S1, S2 y S3, son independientes si y sólo si se verifican las cua-
tro igualdades siguientes:
P ( S1 ∩ S2 ) = P ( S1 ) ⋅ P ( S2 ) ,Ä Ä P ( S1 ∩ S3 ) = P ( S1 ) ⋅ P ( S3 )
P ( S2 ∩ S3 ) = P ( S2 ) ⋅ P ( S3 ) y también P ( S1 ∩ S2 ∩ S3 ) = P ( S1 ) ⋅ P ( S2 ) ⋅ P ( S3 )
• En general una colección finita de sucesos S1, S2, ..., Sn son independientes
si y sólo si se verifica:
( ) ( )
P Sk1 ∩ ... ∩ Sk j = P Sk1 ⋅ ... ⋅ P Sk j ( )
para 2 ≤ j ≤ n y 1 ≤ k1 < ... < k j ≤ n. En total hay que verificar que son ciertas
n  n
∑   = 2n − n − 1 igualdades.
j=2  j 
En consecuencia: Si S1, S2 y Sn es una colección de sucesos independientes,

toda subcolección de éstos serán sucesos independientes.
PROBABILIDAD 173
Observación: Si S1, S2 y S3 son independientes se verifica que:
P ( S1 ∩ S2 ∩ S3 ) = P ( S1 ) ⋅ P ( S2 ) ⋅ P ( S3 )
3
El recíproco no es cierto, porque puede ocurrir que: P ( S1 ∩ S2 ∩ S3 ) = ∏ P ( S1 )
i =1
( ) ( )
y no verificarse P Si ∩ S j = P ( Si ) ⋅ P S j para algún ( i, j ) ∈{1, 2, 3} × {1, 2, 3} , i ≠ j.
EJEMPLO 4.7.
En el experimento de lanzar un dado y observar el número que aparece en la
cara superior al reposar sobre la mesa, ¿son independientes los sucesos:
S1 = «obtener cifra menor que 4», S2 = «obtener cifra menor que 3» y S3 = «ob-
tener cifra mayor que 1 y menor que 4»?
Se verifica que porque P ( S1 ∩ S2 ∩ S3 ) = P ( S1 ) ⋅ P ( S2 ) ⋅ P ( S3 ) porque
1 1 1
P ( S1 ∩ S2 ∩ S3 ) = P ({2}) = Ä y Ä P(S1 ) = , P(S2 ) = P(SS3 ) = ,
6 2 3
1 1
(
pero P ( S1 ∩ S2 ) = P {1, 2} = ) 3
≠ P(S1 ) · P(S2 ) = y en consecuencia no son in-
6
dependientes.
4.8. PROBABILIDAD DE LA INTERSECCIÓN DE DOS

O MÁS SUCESOS
Como consecuencia de la definición de probabilidad condicionada se pueden

definir las probabilidades de la intersección de sucesos, correspondientes a la mis-
ma, σ-álgebra del siguiente modo:
P( A ∩ B) = P ( A ) ⋅ P ( B A )
P ( A ∩ B ∩ C ) = P ( A ) ⋅ P ( B A ) ⋅ P (C A ∩ B)
En general:
( ) ( ) (
P ( S1 ∩ S2 ∩ ... ∩ Sn ) = P ( S1 ) ⋅ P S2 S1 ⋅ P S3 S1 ∩ S2 ⋅ ... ⋅ P Sn S1 ∩ S2 ∩ ... ∩ Sn−1 )
EJEMPLO 4.8.
Se extraen tres cartas sucesivamente y sin reemplazamiento de una baraja es-
pañola (40 cartas), ¿cuál es la probabilidad de que sean tres oros?
Aplicando la regla de Laplace, si S = «obtener tres oros al extraer tres cartas

sucesivamente y sin reemplazamiento»
V10 ,3 10 ⋅ 9 ⋅ 8 3
P( S ) = = =
V40 ,3 40 ⋅ 39 ⋅ 38 247
Descomponiendo el suceso S en intersección de tres sucesos: S = O1 ∩ O2 ∩ O3 ,

siendo Oi = «obtener oro en la extracción i-ésima»
( ) (
P ( O1 ∩ O2 ∩ O3 ) = P ( O1 ) . P O2 O1 .P O3 O1 ∩ O2 =)
10 9 8 3
= ⋅ ⋅ =
40 39 38 247
4.9. EL TEOREMA DE LA PROBABILIDAD TOTAL
Se considera una colección de sucesos S1, S2,..., Sn que forman una partición
del espacio muestral E de un experimento aleatorio, es decir U Si = E y además
n
i=1
Si ∩ S j = ∅, para i ≠ j.
FIGURA 4.1.
PROBABILIDAD 175
Si S es un suceso cualquiera de la misma σ-álgebra de sucesos A de dicho ex-

perimento aleatorio, entonces
n
P ( S ) = ∑ P ( Si ) ⋅ P ( S Si )
i=1
EJEMPLO 4.9.
En una estantería de una biblioteca hay dieciocho libros, ocho libros de botánica
y diez libros de paleontología; en otra hay nueve libros, cuatro de botánica y cinco
de paleontología. Se saca uno de la primera estantería y sin mirarlo se deja en la se-
gunda. Hallar la probabilidad de que un libro elegido al azar de la segunda estante-
ría sea de paleontología.
Si se indica por S al suceso «elegir un libro de paleontología de la se-

gunda estantería», B el suceso «sacar un libro de botánica de la primera es-
tantería» y L «sacar un libro de paleontología de la primera estantería», es
E = B ∪ L y B ∩ L = ∅, por tanto:
8 5 10 6 5
P ( S ) = P ( B) ⋅ P ( S B ) + P ( L ) ⋅ P ( S L ) = ⋅ + ⋅ =
18 10 18 10 9
Observación: En general P ( A B) ≠ P ( B A ) ya que se refieren a sucesos di-

ferentes. Por ejemplo, si B es algún tipo de efecto y A es una causa, a veces se tie-
ne información sobre P(B | A) cuando lo que se desea saber es P(A | B) en concre-
to en un diagnóstico médico. Este problema lo resuelve el siguiente teorema, co-
nocido como teorema de Bayes, que permitirá hacer una primera y elemental
inferencia estadística.
4.10. EL TEOREMA DE BAYES
Este teorema posibilita el cálculo de las probabilidades P(Bi | S), probabilida-

des a posteriori (probabilidad de la hipótesis Bi sabiendo que ha sucedido S), co-
nociendo las P(Bi), probabilidades a priori y las P(S | Bi), verosimilitudes o pro-
babilidades de las causas (probabilidad de que ocurra S en cada una de las
hipótesis Bi).
Se considera una colección de sucesos B1, B2,..., Bn, que forman una partición
del espacio muestral E de un experimento aleatorio, es decir, U Bi = E y además
n
Bi ∩ Bj = ∅, para i ≠ j. i =1
Verosimilitudes
Probabilidades Probabilidades
o probabilidades
«a priori» «a posteriori»
de las causas
P(B1) P(S | B1) P(B1 | S)
P(B2) P(S | B2) P(B2 | S)
M M M
P(Bn) P(S | Bn) P(Bn | S)
Si S es un suceso cualquiera de la misma σ-álgebra de sucesos A de dicho ex-

perimento aleatorio y se conocen P ( Bi ) y P ( S Bi ) ∀Bi , i = 1, 2,..., n, entonces:
P( Bi ∩ S) P( Bi ) ⋅ P ( S Bi )
(
P Bi S = ) P( S )
= n
∑ P( Bi ) ⋅ P ( S Bi )
i =1
Esta fórmula, que se conoce como Regla de Bayes, es una consecuencia de la

definición de probabilidad condicionada y del teorema de la probabilidad total.
EJEMPLO 4.10.
Un zahorí con conocimientos de geología detecta la presencia de agua subte-
rránea en una zona en el 95% de los casos, y si no la hay da negativo en el 98% de
los casos. El 17% de los sondeos en ese terreno han encontrado agua. Calcular la
probabilidad de que:
a) Se encuentre agua en un sondeo en la zona si el zahorí ha detectado la pre-
sencia de agua.
b) Se encuentre agua si el zahorí ha dado resultado negativo.
Si se designa por:
B1 el suceso: «Hay agua subterránea en el terreno».
B2 el suceso: «No hay agua subterránea en el terreno».
S el suceso: «El zahorí afirma que hay agua en el terreno».
Probabilidades Verosimilitudes Probabilidades

«a priori» o probabilidades de las causas «a posteriori»
P(B1) = 0,17 P(S | B1) = 0,95 P(B1 | S)
–
P(B2) = 1 – P(B1) = 0,83 P(S | B2) = 1 – P(S | B2) = 0,02 P(B2 | S)
PROBABILIDAD 177
a) La probabilidad de que se encuentre agua en un sondeo si el zahorí ha de-

tectado presencia de agua:
(
P ( B1 ) ⋅ P S B1 )
(
P B1 S = ) ( ) (
P ( B1 ) ⋅ P S B1 + P ( B2 ) ⋅ P S B2 )
=
=
( 0,17 )( 0, 95) . 0, 91
( 0,17 )( 0, 95) + ( 0, 83)( 0, 02 )
( )
Como P B1 S . 0, 91 @ 0,17, la afirmación del zahorí de que hay agua en el
terreno aumenta considerablemente la probabilidad de encontrar agua en el son-
deo del terreno.
b) La probabilidad de que se encuentre agua si el zahorí ha dado resultado ne-
gativo:
(
P B1 S = )
(
P ( B1 ) ⋅ P S B1 ) =
( ) (
P ( B1 ) ⋅ P S B1 + P ( B2 ) ⋅ P S B2 )
=
( 0,17 )(1 − 0, 95) . 0, 01
( 0,17) (1 − 0, 95) + ( 0, 83)( 0, 98)
Esto significa que es muy poco probable encontrar agua en el caso en que el
zahorí dé resultado negativo.
EJEMPLO 4.11.
Un matrimonio que espera su primer hijo decide que se le realice una ecografía
a la madre para que se les informe del sexo de su bebé. Pero la prueba la realizan en
una clínica con un equipo muy antiguo que no da el resultado con seguridad. En las
muchas ecografías que se han realizado con ese aparato se sabe que se acierta en el
80% de los casos si el bebé es niño y en el 90% si es una niña. Teniendo en cuenta
que el 51% de los recién nacidos son niños y que después de realizada la ecografía
en esa clínica les dicen a los padres que esperan una niña, ¿cuál es la probabilidad
de que el primer hijo sea varón?
Se designa por:
B1 = V = «El bebé es varón».

B2 = M = «El bebé es niña».
S = EM = «Después de realizada la prueba en la clínica se les dice que es niña».

P(B1) = P(V) = 0,51 P(S | B1) = P(EM | V) = 0,20 P(B1 | S) = P(V | EM)
P(B2) = P(M) = 1 – 0,51 = 0,49 P(S | B2) = P(EM | M) = 0,90 P(B2 | S) = P(M | EM)
) ( (
P( B1 ) ⋅ P S B1 ) P(V ) ⋅ P EM V( )
(
P V EM = P B1 S = ) 2
=
( )
P(V ) ⋅ P EM V + P( M ) ⋅ P EM M ( )
=
∑ P( Bi ) ⋅ P ( S Bi )
i=1
=
( 0, 51)( 0, 20 ) =
0,102
= 0,1878. 0,19
( 0, 51)( 0, 20 ) + ( 0, 49 )( 0, 90 ) , 543
0
La probabilidad de que el primer hijo sea varón entre los que esperan una niña
por la información de la clínica es 0,19, mucho menor que 0,51.
Esto significa que el 18,78% de los padres que esperan una hija por el resul-
tado de esa clínica se llevan la sorpresa en el momento del parto de que el bebé es
un varón.
䊏 Antes de enunciar otro ejemplo de aplicación, se van a precisar los términos

médicos de especificidad de una prueba para una determinada enfermedad, o
adecuación para esa enfermedad, y de sensibilidad de la prueba, o respuesta po-
sitiva ante la enfermedad, utilizando el lenguaje de la probabilidad:
Si se designa por E el suceso «el individuo padece la enfermedad E», por T + el
suceso «la prueba da positiva» y por T– «la prueba da negativa» las posibles si-
tuaciones que se pueden dar son:
Resultado prueba
Positiva T+ Negativa T–
Paciente
–
Sano E error acierto
Padece la enfermedad E acierto error
La probabilidad de que un individuo de la población padezca al enfermedad

E, es decir P(E), se denomina la prevalencia de esa enfermedad en la población.
La probabilidad de que la prueba dé resultado positivo en una persona sana se
denomina coeficiente α o falso-positivo, es decir, α = P T + E . ( )
La probabilidad de que la prueba dé resultado negativo en un individuo con la
enfermedad E se llama coeficiente β o falso-negativo, es decir, β = P T − E . ( )
Las probabilidades α y β no suman la unidad porque los sucesos
T E y T − E no son uno el contrario del otro ya que están condicionados a di-
+
ferentes sucesos, uno y su contrario.

PROBABILIDAD 179
La especificidad de una prueba es la probabilidad de que la prueba dé resul-

( ) (
tado negativo si la persona está sana, esto es, P T − E = 1 − P T + E = 1 − α . )
La sensibilidad de una prueba es la probabilidad de que la prueba detecte la
( )
enfermedad en una persona con esa enfermedad, P T + E = 1 − P T − E = 1 − β . ( )
EJEMPLO 4.12.
Se aplica una prueba para detectar un tipo de alergia en una población que tie-
ne prevalencia del 12%. La prueba no es segura, se sabe que la sensibilidad de esta
prueba es del 96% y la especificidad del 99%. Aplicada la prueba a un paciente da
resultado positivo. ¿Cuál es la probabilidad de que esa persona padezca esa pato-
logía?
Recogiendo en la siguiente tabla los datos:

P(E) = 0,12 P(T+ | E) = 0,96 P(E | T+)
– – –
P(E ) = 1 – 0,12 = 0,88 P(T+ | E ) = 1 – 0,99 = 0,01 P(E | T+)
+
P( E) ⋅ P(T + E )
P( E T ) = =
P( E) ⋅ P(T + E ) + P( E) ⋅ P(T + E )
=
( 0,12 )( 0, 96 ) =
0,1152
= 0, 929. 0, 93
( 0,12 )( 0, 96 ) + ( 0, 88)( 0, 01) 0,1240
La probabilidad de que ese paciente padezca ese tipo de alergia es muy alta 0,93.
4.11. PROBABILIDADES EN ESPACIOS

INFINITO-NUMERABLES
Con lo estudiado hasta ahora se pueden calcular también probabilidades en es-

pacios muestrales infinito-numerables. Por ejemplo, se considera el experimento
que consiste en elegir una carta al azar de una baraja española, ver el resultado,
devolverla al mazo hasta conseguir el primer siete y anotar el número de cartas
que hay que extraer.
El espacio muestral es E = {1, 2, 3, 4,..., n,...} un conjunto infinito-numerable.
¿Cómo calcular las probabilidades de los sucesos elementales?

Designando por Si al suceso «obtener un siete en la i-ésima extracción»
1
( )
P {1} = P ( S1 ) =
10
9 1 9
P ({2}) = P ( S ∩ S ) = ⋅ =
1 2 2
10 10 10
2
 9 1 92
( ) ( )
P {3} = P S1 ∩ S2 ∩ S3 =   ⋅ = 3
 10  10 10
M
n−1
 9 1 9n−1
( )
P {n} (
= P S1 ∩ S2 ∩ ... ∩ Sn −1 ∩ Sn =   )
 10 
⋅ =
10 10 n
M
y así sucesivamente.
De este modo se ha repartido la probabilidad del espacio muestral, P(E) = 1,
entre todos los sucesos elementales y la suma de las probabilidades de todos los
sucesos elementales es la unidad, en efecto:
1
`1 9 92
∑ P ({n}) = + 2 + 3 + ... = 109 = 1
n=1 10 10 10 1−
10
Una vez asignadas las probabilidades de los sucesos elementales se puede cal-
cular la probabilidad de otros sucesos compuestos. Por ejemplo, la probabilidad de
obtener el primer siete antes del lanzamiento decimoprimero.
99 9 1
10 10 9 ⋅ − n−1 10
10  9
P {1, 2,...,10} = ∑ P {n} = ∑ n = 10 10 10 = 1 −   . 0, 65
( ) ( )
n =1 n=1 10 9  10 
−1
10
Incluso se pueden calcular probabilidades de sucesos compuestos infinito-nu-
merables:
䊏 {
La probabilidad del suceso A = 1, 4, 7,..., 3k + 1,..., ∀k ∈N ∪ {0} }
1 93 96 93 k
(
P ( A ) = P {1, 4, 7,..., 3k + 1,...} = ) + 4 + 7 + ... + 3k +1 + ... =
10 10 10 10
1
10 100
= 3
= . 0, 37
 9 271
1−  
 10 
PROBABILIDAD 181
䊏 La probabilidad de B = {2, 4, 6,..., 2k ,..., ∀k ∈N}.
93 95 97 92 k −1
(
P ( B ) = P {4, 6, 8,..., 2k ,...} = ) + +
10 4 10 6 10 8
+ ... +
10 2 k
+ ... =
93
4 729
= 10 2 = . 0, 38
 9 1900
1−  
 10 
䊏 Y de otros sucesos obtenidos a partir de sucesos infinito-numerables. Por

ejemplo el suceso A ∩ B, formado por los números pares y que son a la vez múl-
tiplos de 3 más uno, es decir, A ∩ B = {4,10, 16, 22,..., 6k + 4,..., ∀k ∈N} .
(
P ( A ∩ B) = P {4,10,16, 22,..., 6k + 4,...} siendo k ∈N = )
3 9 15 6 k +3
9 9 9 9
= 4
+ 10 + 16 + ... + 6 k+4 + ... =
10 10 10 10
3
9
4 72900
= 10 6 = . 0,16
 9 468559
1−  
 10 
EJEMPLO 4.13.
Tres personas A, B y C lanzan, por este orden, alternativamente un dado y gana
el juego la persona que obtiene el primer as, es decir, la cara con un punto. ¿Cuál de
ellos tiene mayor probabilidad de ganar?
(
P( A) = P {n ∈N / n = 3k + 1} , k ∈N ∪ {0} = )
3 6 3k
1 5 5 5 36
=+ 4 + 7 + ... + 3 k +1 + ... =
6 6 6 6 91
(
P( B) = P {n ∈N / n = 3k + 2} , k ∈N ∪ {0} = )
5 54 53 k +1 30
= 2
+ 5
+ ... + 3k + 2
+ ... =
6 6 6 91
P(C ) = P ({n ∈N / n = 3k } , k ∈N) =
52 55 53 k−1 25
= 3 + 6 + ... + 3k + ... =
6 6 6 91
Por tanto, el jugador que tira el dado en primer lugar es el que tiene mayor
probabilidad de ganar.
EJEMPLO 4.14.
Antes de terminar el capítulo, se dará solución al problema que se planteó en la In-
troducción y que fue propuesto a Pascal por Antoine Gombaud, el Caballero de Méré.
Designando por S1 el suceso «Obtener al menos un as al lanzar cuatro dados de
poker» y S2 «Obtener por lo menos doble as en veinticuatro lanzamientos de un par
de dados», la pregunta formulada por el Caballero de Méré es equivalente a la si-
guiente: ¿qué probabilidad es mayor P(S1) o P(S2)?
–
Para calcular P(S1) se puede utilizar el suceso contrario S1 = «No obtener nin-
gún as al lanzar cuatro dados»
VR5,4 54
P(S1 ) = 1 − P( S1 ) = 1 − = 1− . 0, 52
VR 6,4 64
Otra forma de obtener esta probabilidad es la siguiente:
Obtener al menos un as se puede comprender como la unión de cuatro sucesos

incompatibles dos a dos S1 = A1 ∪ A2 ∪ A3 ∪ A4 , siendo Ai = «Obtener exacta-
mente i ases al lanzar cuatro dados» o lo que es lo mismo «Obtener exactamente
i ases al lanzar un dado cuatro veces seguidas»
P ( S1 ) = P  U Ai  = ∑ P ( Ai ) =
4  4
 i=1  i =1
VR5,3 ⋅ PR41,3 + VR5,2 ⋅ PR42,2 + VR5,1 ⋅ PR43,1 + 1 671
= = . 0, 52
VR 6,4 1.296
–
Para calcular P(S2) es más sencillo utilizar el suceso contrario S2 = «No obte-
ner ningún doble as al lanzar dos dados veinticuatro veces»
24
 35 
P( S2 ) = 1 − P( S2 ) = 1 −   . 0, 49
 36 
En consecuencia, la sospecha del Caballero de Méré de que la apuesta por uno

u otro de estos sucesos no es equitativa era fundada. Es más favorable apostar por
obtener al menos un as al lanzar cuatro dados.
PROBABILIDAD 183
4.12.1. En un juego que consiste en formar palabras, a partir de unas letras dadas, se
colocan en una caja las letras de la palabra AZAR y en otra cuatro aes, dos zetas y
dos erres. Se elige una caja y se extraen cuatro letras sucesivamente y sin reempla-
zamiento. Si se consigue la palabra AZAR, se gana. ¿Con qué caja hay más proba-
bilidad de ganar?
4.12.2. ¿Cuál es la probabilidad de que un alumno elija las asignaturas genéricas G1

y G2, si se le permite elegir dos entre 17 asignaturas genéricas?
4.12.3. Una persona escribe seis cartas distintas y sus sobres correspondientes y se
los da a otra persona para que los envíe, ésta los embucha sin comprobar los nombres
y los cierra. ¿Cuál es la probabilidad de que al menos una de las cartas no vaya en el
sobre correspondiente?
4.12.4. Con una sola apuesta en la lotería primitiva, es decir, eligiendo seis de los
cuarenta y nueve números que aparecen en el boleto,
a) ¿Cuál es la probabilidad de acertar al menos tres de los números en el próxi-
mo sorteo?
b) ¿Cuál es la probabilidad de no acertar ninguno de los números del próximo
sorteo?
4.12.5. En un examen tipo test que consta de 15 preguntas, las respuestas son Ver-
dadero o Falso.
a) ¿De cuántas maneras distintas puede contestar al examen un estudiante si lo
hace al azar?
b) ¿Cuál es la probabilidad de que un alumno que contesta al azar acierte todas
las preguntas?
c) Si el alumno sabe que diez son verdaderas y cinco falsas y las señala al
azar, porque no ha estudiado, ¿cuál es la probabilidad de que responda todas
correctamente?
4.12.6. Quince geólogos van a hacer un trabajo de campo y se reparten las tareas.
Tres se encargan de la tarea T1, cinco de la T2 y el resto de la T3. Si se eligen al azar
las personas, ¿cuál es la probabilidad de que les toque hacer juntos la tarea T1 a los
tres que son más amigos?
4.12.7. Una cerradura de una caja fuerte se abre con una «combinación» que es un
número de cinco cifras.
a) ¿Cuál es la probabilidad de abrir la caja fuerte en el primer intento si se
prueba en primer lugar el número 31.407?
b) ¿Sería la misma probabilidad si no hubiera claves con cifras repetidas?
4.12.8. Suponiendo que la probabilidad de que un matrimonio tenga un hijo varón es

1 , ¿cuál es la probabilidad de que una familia con cuatro hijos tenga dos varones y dos
2
mujeres?
4.12.9. Un sistema de seguridad consta de un circuito con dos componentes eléctri-

cos conectados en paralelo y otro componente que es una alarma acústica indepen-
diente de los anteriores, de modo que sólo falla el sistema si los tres fallan. La pro-
babilidad de que falle el primero es 0,02, la de que falle el segundo si ha fallado el
primero es 0,01 y la de que falle la alarma acústica es 0,005. ¿Cuál es la probabilidad
de que no funcione el sistema?
4.12.10. De la caja completa de fichas del juego del dominó se eligen cuatro al azar,
¿qué es más probable: que no haya ninguna doble, que al menos una sea doble o que
las cuatro sean dobles?
4.12.11. Calcular la probabilidad de un suceso sabiendo que el producto de esa

3
probabilidad por la de su contrario es .
16
4.12.12. Razonar si son dependientes o independientes los sucesos S1 y S2, sabiendo
que P(S1) = 0,4, P(S2) = 0,5, P(S1 ∪ S2) = 0,7.
2
4.12.13. La probabilidad de que María resuelva bien un problema de estadística es
4 3
y de que lo resuelva Francisco es . Si forman un equipo pero resuelven el proble-
7
ma de forma independiente, ¿cuál será la probabilidad de que resuelvan bien un pro-
blema de estadística que se les proponga?
4.12.14. Un ladrón roba una tarjeta 4B y va a un cajero para sacar dinero sin conocer
la clave que sabe que tiene cuatro cifras:
a) ¿Cuál es la probabilidad de que acierte antes de que se quede bloqueada la
tarjeta al fallar la tercera vez consecutiva?
b) Responder la misma pregunta si el ladrón sabe que todas las cifras son iguales.
c) Ídem si sabe que todas las cifras son distintas.
d) Responder a la misma pregunta si sabe el ladrón que la clave tiene dos treses,
un cuatro y un cinco.
4.12.15. Al asignar 9 trabajos distintos a tres personas A, B y C de modo que A tenga

cuatro, B tres y C dos, ¿cuál es la probabilidad de que A realice las cuatro más sencillas?
4.12.16. El consejo de dirección de una empresa está formado por cuatro varones y
cuatro mujeres, de ellos hay que elegir dos como directivos con la misma categoría.
Se desea saber cuál es la probabilidad de que al elegirlos al azar sean:
a) dos varones,
b) un varón y una mujer,
c) dos personas del mismo sexo.
PROBABILIDAD 185
4.12.17. De una baraja con 48 cartas se extraen cuatro cartas simultáneamente.

Calcular las probabilidades de los siguientes sucesos:
a) Obtener cuatro oros.
b) Obtener cuatro figuras, entendiendo como figuras sota, caballo y rey.
c) Obtener cuatro ases.
d) Cuatro cartas correlativas y del mismo palo.
4.12.18. Un alumno tiene que realizar 11 exámenes, cuatro de los cuales son de prác-
ticas, ¿cuál es la probabilidad de que no vayan seguidos dos de prácticas?
4.12.19. Simplificar los siguientes sucesos:
(
a) A ∪ A ∩ B . )
b) A ∩ ( A ∩ B ).
( ( ))
c) S1 ∪ ( S2 ∩ S3 ) ∪ ( S2 ∪ S3 ) ∩ S1 ∪ S2 .
4.12.20. Si A = { x ∈R / 3 ≤ x ≤ 7} y B = { x ∈R / 5 ≤ x ≤ 10} escribir los sucesos

A ∪ B, A, A ∩ B y A − B = A ∩ B.
4.12.21. Un geólogo colabora como experto en cimentaciones en la región R. En las

catas que realiza a una profundidad de 15 m ha encontrado en esta región arena, ar-
cilla y roca firme. Después de muchos sondeos observa que en el 12% de ellos en-
cuentra arena, encuentra arcilla tres veces más que arena, y en los demás llega a roca
firme.
a) Indicar el espacio muestral correspondiente al experimento que consiste en re-
alizar un sondeo a una profundidad de 15 m en un punto elegido al azar en
esa región y anotar el tipo de terreno que encuentra.
b) Asignar probabilidades a los sucesos elementales.
c) ¿Cuál es la probabilidad de no encontrar roca firme?
4.12.22. Suponiendo que la probabilidad de que una persona nazca un día determi-
nado es la misma para todos los días del año, sin contar el 29 de febrero en los años
bisiestos, calcular la probabilidad de que:
a) En un grupo de 15 amigos dos tengan la misma fecha de nacimiento.
b) Ídem en un grupo de 25 amigos.
4.12.23. Sabiendo que en una facultad, en la que el 60% de los matriculados son mu-
jeres, terminó el curso pasado con al menos una matrícula de honor el 15% de los va-
rones y el 21% de las mujeres, se pide:
a) Calcular la probabilidad de que un estudiante, elegido al azar, de los que aca-
baron el curso pasado en esa facultad tenga al menos una matrícula de honor.
b) Si el estudiante elegido al azar tiene al menos una matrícula de honor, ¿cuál
es la probabilidad de que sea mujer?
4.12.24. Se dispone de una moneda trucada en la que sale cara, C, la mitad de las ve-
ces que sale cruz, X. Se lanza la moneda tantas veces como sea necesario hasta que
salga cara y se anota el número de tiradas que han sido necesarias. Calcular la pro-
babilidad de que:
a) Se obtenga cara en la vigésima tirada.
b) Se obtenga cara antes de la tirada vigésima.
c) Haya que lanzarla al menos veinte veces para obtener cara.
4.12.25. En el experimento del ejercicio anterior una persona propone a otra apostar
la misma cantidad a obtener cara antes del vigésimo lanzamiento frente a lo contra-
rio. ¿Tienen igual probabilidad de ganar los dos jugadores?
4.12.26. En un despacho hay un armario que guarda muestras recogidas en dos te-
rrenos distintos. Se sabe que el 17% de las muestras del terreno T1 y el 26% de las
muestras del terreno T2 contienen fósiles. Se están haciendo obras en el edificio y se
trasladan las muestras a otras dependencias en cajas idénticas a simple vista. En el
traslado se pierden las etiquetas que las distinguen. Se elige una caja al azar y de ella
una muestra; examinada esta muestra se ve que contiene fósiles, ¿cuál es la proba-
bilidad de que pertenezca al terreno T2?
4.12.27. En una muestra de 40 pilas de análogas características pero de tres marcas

distintas hay 12, 18 y 10 de las marcas M1, M2 y M3, respectivamente. Sabiendo que
el 8% de las pilas de la marca M1, el 10% de las M2 y el 5% de las M3 son defec-
tuosas y eligiendo sin ver una de las pilas, se pide:
a) Calcular la probabilidad de que la pila elegida sea defectuosa.
b) ¿Cuál es la probabilidad de que sea de la marca M3?
c) Sabiendo que la pila elegida es defectuosa, ¿cuál es la probabilidad de que sea
de la marca M3?
d) Razonar si son independientes los sucesos elegir una pila defectuosa y elegir
una pila de la marca M3.
4.12.28. Un experto en prospecciones petrolíferas informa que se encuentra petróleo en

formaciones geológicas de tres clases C1, C2 y C3 con proporciones 0,10, 0,50 y 0,40, res-
pectivamente. En una gran zona en la que el 30% del terreno corresponde a C1, el 15% es
de clase C2 y el resto es de C3 se decide perforar un pozo y no se encuentra petróleo, ¿cuál
es la probabilidad de que la zona perforada corresponda a una formación del tipo C3?
4.12.29. Una persona tiene dos ordenadores, uno fijo de la marca O1 y otro portátil
de la marca O2 que funcionan de forma independiente. Se sabe que el 30% de los or-
denadores de la marca O1 y el 25% de los de la marca O2 se estropean en periodo de
garantía, ¿cuál es la probabilidad de que alguno se estropee en periodo de garantía?
4.12.30. La alimentación eléctrica de un laboratorio procede de un circuito en el que

están conectadas en paralelo dos tomas independientes T1 y T2, la primera a la red y
la otra a un generador. La probabilidad de que falle una de las tomas es 0,90; se pide:
PROBABILIDAD 187
a) Escribir todas las situaciones posibles de la alimentación eléctrica y las pro-

babilidades respectivas.
b) ¿Cuál es la probabilidad de que el laboratorio se quede sin electricidad?
4.12.31. Los billetes de metrobús en Madrid están numerados con números de seis
cifras y una letra delante que indica la serie. Si se elige uno al azar de los corres-
pondientes a la misma serie, se pide:
a) ¿Cuál es la probabilidad de que su número sea un capicúa?
b) ¿Cuál es la probabilidad de que sea un capicúa de seis cifras significativas, es
decir, que no empiece por cero?
4.12.32. Un examen de quince preguntas tipo test tiene cuatro respuestas posibles
cada una A, B, C, D, de las cuales sólo una es verdadera.
a) ¿Cuál es la probabilidad de que cinco tengan la respuesta A, cinco la B, tres la
C y dos la D?
b) ¿Cuál es la probabilidad de que un alumno, que no ha estudiado y tiene la in-
formación de que cinco tienen respuesta A, cinco la B, tres la C y dos la D,
acierte todas las respuestas, contestando al azar?
4.12.33. Sabiendo que la probabilidad de que una familia tenga un hijo varón es
0,51, calcular la probabilidad de que una familia de cinco hijos tenga:
a) Todos varones.
b) Dos varones y tres mujeres.
4.12.34. Los cupones ordinarios de la ONCE se forman con números de cinco cifras.
Se pide:
a) ¿Cuál es la proporción de capicúas?
b) ¿Qué porcentaje acaban en 2?
c) ¿Cuál es la probabilidad de encontrar en los de un día determinado un capicúa
que acabe en 2?
d) ¿Son compatibles los sucesos «obtener capicúa» y «obtener un número aca-
bado en 2»?
e) ¿Son independientes los sucesos «obtener capicúa» y «obtener un número
acabado en 2»?
f) Calcular la probabilidad de obtener un capicúa o un cupón acabado en 2.
4.12.35. Bajo la hipótesis de que la probabilidad de que un hijo sea varón o mujer es
la misma, para una familia de tres hijos ¿qué es más probable: que tenga todos los hijos
del mismo sexo o de diferentes sexos?
4.12.36. De un grupo de ocho mujeres y seis varones hay que elegir una represen-
tación de cuatro personas. Calcular la probabilidad de que haya:
a) Dos varones y dos mujeres.
b) Mayoría de varones.
c) Mayoría de mujeres.
4.12.37. Para probar la habilidad de un testigo para identificar a tres sospechosos de

un robo, se le presentan diez hombres entre los que se incluye a los tres sospechosos.
Si el testigo en realidad no puede identificar a los sospechosos pero se siente obligado
a hacer una elección, calcular la probabilidad de que:
a) Los tres hombres culpables los seleccione al azar.
b) El testigo seleccione a tres hombres inocentes.
4.12.38. En el supermercado de una gran superficie la probabilidad de tener que es-

perar en una caja cualquiera para pagar durante al menos cinco minutos es 0,2. Un
día dos amigos, Antonio y María, deciden comprar por separado en este supermer-
cado y pagar cada uno en una caja distinta. Si ambos llegan a la caja a la vez, calcu-
lar la probabilidad de que:
a) Antonio espere menos de cinco minutos para pagar.
b) Los dos tengan que esperar menos de cinco minutos.
c) Uno al menos tenga que esperar cinco minutos o más.
4.12.39. Se lanza un dado y se anota el número de veces que hay que lanzarlo hasta
obtener un número menor que cinco.
a) Determinar las probabilidades de los sucesos elementales.
b) Calcular las probabilidades de los siguientes sucesos: A, el número de veces
hasta obtener el primer cinco es par, B, el número de veces hasta obtener el
primer cinco es un múltiplo de tres, la del suceso A ∩ B y la de C, el experi-
mento se acaba antes del décimo lanzamiento.
4.12.40. Si el 5% de las personas que hacen la Declaración de Hacienda reclaman de-

ducciones sabiendo que no les corresponden, que otro 2% las reclama por falta de cono-
cimiento del Impuesto, y que del 5% de las personas que defraudan el 80% afirma desco-
nocer el error si se le hace una reclamación, ¿cuál es la probabilidad de que una persona a
la que se le reclama una cantidad y afirma que desconoce el error sea de las que defraudan?
4.12.41. Una pequeña ciudad dispone de dos ambulancias para emergencias. La

probabilidad de que una de ellas esté realmente disponible cuando se la necesita es
0,9. En caso de necesidad, calcular la probabilidad de que:
a) Estén disponibles las dos ambulancias.
b) No esté disponible ninguna.
c) Haya al menos una disponible.
4.12.42. Se tiene comprobado que el capitán de un equipo de fútbol cuando lanza un

penalty el 30% de las veces lo lanza al lado izquierdo y el 70% al lado derecho. El
portero del equipo contrario ha observado que el capitán toma carrera hacia la dere-
cha el 80% de las veces que lo ha lanzado hacia la derecha y que corre hacia la iz-
quierda el 90% de las veces cuando ha tirado hacia la izquierda. Si el capitán tiene
que lanzar un penalty y toma carrera hacia la izquierda, ¿cuál es la probabilidad de
que lance la pelota hacia la izquierda?
PROBABILIDAD 189
4.12.43. Una empresa necesita cubrir dos puestos de trabajo y se presentan cincuenta
aspirantes. Treinta de los aspirantes están afiliados y el resto no. Si se eligen dos per-
sonas al azar, calcular la probabilidad de que:
a) ninguno de los elegidos esté afiliado,
b) uno de los dos esté afiliado,
c) los dos estén afiliados.
4.12.44. Para realizar un experimento agrícola se divide un terreno cuadrado en 16

subparcelas cuadradas de la misma superficie trazando paralelas a los lados que li-
mitan el terreno. Se siembran cuatro clases de semillas diferentes de trigo: a) ¿de
cuántas formas se pueden sembrar poniendo una clase en cada subparcela sin que
coincidan dos de la misma clase ni en la misma fila ni en la misma columna? b) Si se
elige la distribución de la siembra al azar, calcular la probabilidad de que la distri-
bución sea la siguiente:
1 2 3 4
2 3 4 1
3 4 1 2
4 1 2 3
4.12.45. Un accionista tiene en su cartera de valores acciones de 10 sociedades

distintas. Necesita dinero en efectivo y decide vender todas sus acciones de 6 de las
sociedades.
a) ¿De cuántas formas distintas puede realizar la elección?
b) Sabiendo que en su cartera hay acciones de una sola sociedad eléctrica, ¿en
cuántas de las elecciones anteriores van incluidas las eléctricas?
c) Si elige al azar las acciones de las que quiere desprenderse, ¿cuál es la pro-
babilidad de que venda las eléctricas?
4.12.46. Los genes A y a corresponden a un carácter genético con dominancia com-

pleta. Se cruzan dos individuos heterocigóticos Aa respecto de ese carácter, de su
descendencia se elige al azar un individuo que es de fenotipo dominante y se cruza
con otro heterocigótico para el mismo carácter. Al tomar de la nueva descendencia un
individuo que es de fenotipo dominante, ¿cuál es la probabilidad de que sea también
de genotipo dominante AA?
discretas 5
5.1. INTRODUCCIÓN
El conocimiento y estudio de los experimentos aleatorios y el concepto de

probabilidad de un suceso permiten la construcción de modelos teóricos, cuyo
ajuste a los datos observados en la práctica se estudiará en temas posteriores de in-
ferencia estadística.
En la estadística descriptiva se han considerado variables estadísticas ligadas
a la muestra que se había extraído de la población objeto de estudio. Una variable
estadística representa el conjunto de resultados observados en una muestra elegi-
da de una población al realizar n pruebas de un experimento aleatorio. Por ejem-
plo: se han lanzado tres monedas, una de dos euros, otra de un euro y la tercera de
0,50 €, cien veces y anotado el número de caras obtenidas en cada tirada. La va-
riable estadística x correspondiente a los n =100 lanzamientos viene definida
por la siguiente distribución de frecuencias relativas
xi 0 1 2 3
4
ni 15 50 25 10
fi = ∑ fi = 1
n 100 100 100 100 i=1
Esta distribución se descubre después de realizado el experimento y varía de

una realización a otra del mismo.
El concepto de probabilidad abre una nueva perspectiva, la de intuir antes de
realizar las observaciones la frecuencia relativa de los resultados factibles en n re-
peticiones del experimento.
Se va a construir un modelo teórico, utilizando la probabilidad, que refleje
razonablemente lo que ocurrirá al repetir el experimento un número n grande de
veces.
191
Así, en el ejemplo anterior, se define una variable aleatoria X con conjunto de

valores C = {0,1,2,3} y a cada valor se le asigna una probabilidad. No parece ló-
gico atribuir a cada valor del conjunto C la misma probabilidad, porque es más di-
fícil obtener tres caras que una sola cara y se pretende dar un modelo que refleje
lo que ocurrirá al repetir ese experimento un gran número de veces.
Se considera el experimento aleatorio que consiste en lanzar tres monedas dis-
correspondiente es E = {CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX} .
tinguibles y observar si se obtiene en cada una de ellas C o X. El espacio muestral
Se define una aplicación de E en ⺢ que a cada elemento de E hace corres-

ponder un número real, el número de caras obtenidas,
E X
→R
CCC → 3
CCX → 2
CXC → 2
XCC → 2
CXX → 1
XCX → 1
XXC → 1
XXX → 0
Los conjuntos formados por los elementos de E que tienen la misma imagen son:
A0 = {e ∈ E / X ( e) = 0} = { XXX} , A1 = {e ∈ E / X (e) = 1} = {CXX,ÄÄ XCX,Ä XXC} ,

A2 = {e ∈ E / X (e) = 2} = {CCX,Ä CXC,Ä XCC} Ä yÄ A3 = {e ∈ E / X (e) = 3} = {CCC}
son los cuatro sucesos que permiten asociar a cada uno de los valores de X una
probabilidad.
El conjunto de valores de X es C = {0,1,2,3}, un conjunto finito.
5.2. DEFINICIÓN DE VARIABLE ALEATORIA DISCRETA
Se considera un experimento aleatorio con espacio muestral E discreto, finito

o infinito-numerable, A una σ-álgebra de sucesos de E y P una medida de pro-
babilidad definida sobre A. La terna (E, A, P) es un espacio probabilístico.
Sobre el espacio probabilístico (E, A, P) se define una variable aleatoria
discreta, X, del siguiente modo:
La aplicación X del espacio muestral E en ⺢
DISTRIBUCIONES DE PROBABILIDAD DISCRETA 193
E X→R
e → X ( e) ∈R
es una variable aleatoria discreta si ∀x ∈R el conjunto Ax = {e ∈ E / X (e) = x } ,

formado por todos los elementos del espacio muestral E que se transforman en x
por la aplicación X, es un suceso del espacio muestral, es decir, un elemento de la
σ-álgebra A.
El espacio muestral es: E = {CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX} , la

La aplicación X definida en el apartado 5.1. es una variable aleatoria discreta.
σ-álgebra, A, de sucesos de E está formada por todos los subconjuntos, o partes

de E, ε = P (E) y la aplicación de probabilidad es la que asocia a cada suceso ele-
mental la misma probabilidad y además Ax = {e ∈ E / X (e) = x } ∈A , ∀x ∈R,
pues:
A0 = {XXX} ∈A ; Ä A1 = {CXX, XCX, XXC} ∈A ;

A2 = {CCX, CXC, XCC} ∈A ;
A3 = {CCC} ∈A y si x ∉C = {0,1, 2, 3} ,
entonces Ax = {e ∈ E / X (e) = x } = ∅ ∈A .
Esta variable aleatoria discreta se dice que es finita porque el conjunto de va-
lores C = {0,1,2,3} es un conjunto finito.
Se designarán las variables aleatorias por letras mayúsculas X, Y, Z,...
Una variable aleatoria discreta X hace corresponder a cada elemento del es-
pacio muestral E un número real:
E X
→R
e → X ( e ) ∈R
Se designa por C = { X ( e ) , ∀e ∈ E} al conjunto imagen de esta aplicación, o

conjunto de valores posibles de la variable aleatoria X. Si la imagen de esa apli-
cación es un conjunto finito, la variable aleatoria X se dice que es discreta finita y
si el conjunto C es infinito-numerable, se dice que X es una variable discreta in-
finito-numerable. Las variables aleatorias que corresponden a experimentos en los
que se realizan recuentos son discretas.
Una variable aleatoria discreta «codifica» los elementos del espacio muestral.
El concepto de variable aleatoria jugará en la Estadística Matemática o Es-
tadística teórica un papel paralelo al de la variable estadística en la Estadística
Descriptiva. El concepto de variable aleatoria es el de una clase de aplicaciones
definidas sobre los espacios muestrales correspondientes a experimentos aleato-
rios, pero no es un nombre variable con un adjetivo calificativo aleatoria.
EJEMPLO 5.1.
Para el experimento de lanzar tres veces una moneda, o tres monedas distin-
guibles a la vez, y anotar los resultados en el orden en que se obtienen, se define la
variable aleatoria discreta finita:
E X
→R
e → X ( e ) = «número€ de€ caras€ de€ e»
siendo E = {CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX} . El conjunto de valores

de X es C = {0, 1, 2, 3} .
EJEMPLO 5.2.
En una exposición hay 215 muestras de rocas, de las que 70 son ígneas, 103 se-
dimentarias y 42 metamórficas. Se elige una al azar y se observa si es sedimentaria
o no. El espacio muestral es E = {I, S, M}. Una variable aleatoria que codifica las
rocas sedimentarias es:
 1 si€ € e = S
X (e) = 
 0 € si€ € e ≠ S
que asigna el valor 1 a las sedimentarias y 0 al resto. Su conjunto de valores es

C = {0,1} y por tanto es una variable discreta finita.
EJEMPLO 5.3.
Se lanza un dado dos veces seguidas y se anotan los resultados obtenidos en los
dos lanzamientos. El espacio muestral está formado por todas las variaciones con re-
petición de orden 2 formadas con los elementos 1,2,3,4,5,6, esto es,
{ }
E = (1, 1) , (1, 2) , (1, 3) ,..., ( 5, 6) , ( 6, 6) . Una variable aleatoria definida sobre E es:
X ( e = ( a, b )) = a + b
El conjunto de valores de X es C = {2, 3, 4, 5, 6, 7, 8, 9,10,11,12} y por tanto X

es una variable aleatoria discreta finita.
EJEMPLO 5.4.
En una zona montañosa se ha instalado un aparato para detectar incendios
que utiliza cuatro sensores que actúan de forma independiente. Los sensores es-
tán conectados a una alarma que se activa si al menos uno de los cuatro sensores
detecta una temperatura superior o igual a 80 °C. Si se observan en un panel para
–
cada sensor si detecta, D, o no detecta, D, una temperatura superior o igual a
80 °C, el espacio muestral E es el conjunto de las variaciones con repetición de
–
orden cuatro de los elementos de {D,D}, el orden indica el sensor o sensores que
activan la alarma:
Sensor 1 Sensor 2 Sensor 3 Sensor 4

D D D D
– – –
D D D D
– – –
D D D D
– –
D D D D
– –
D D D D
– –
D D D D
–
D D D D
M M M M
– – – –
D D D D
El número de elementos de E es: E = VR2,4 = 24 = 16 resultados posibles y

distintos. Se define la variable aleatoria discreta finita:
E X
→R
e → X ( e ) = «número€ de€ sensores€ que€ activan
n la€ alarma»
El conjunto de valores de X es C = {0,1, 2, 3, 4} .
EJEMPLO 5.5.
Se lanza un dado tantas veces como sea necesario hasta obtener el primer cinco
–
y se anota en cada tirada si sale cinco, C, o si sale otro resultado, C . El espacio
muestral de este experimento aleatorio es infinito-numerable:
{
E = C, CC , CCC, CCCC , CCCCC,... }
La variable aleatoria:
E X
→R
e → X ( e ) = «n o € de€ tiradas€ hasta € obtener€ el primer€ cinco»
es una variable discreta infinito-numerable, pues el conjunto de valores de X es el

conjunto de los números naturales C = {1, 2, 3, 4, 5,...} = N, que es infinito nume-
rable.
Se puede definir otra variable aleatoria para este mismo espacio muestral
E Y
→R
e → Y ( e ) = «no € de€ tiradas€ antes € de€ obtener el€ primer€ cinco»
cuyo conjunto de valores es C = {0,1, 2, 3, 4, 5,...} = N ∪ {0} que también es infi-

nito-numerable.
EJEMPLO 5.6.
De una urna que contiene seis bolas numeradas con las cifras 4,5,6,7,8 y 9 se
extraen dos bolas simultáneamente; el espacio muestral, E, estará formado por todas
las combinaciones de orden 2 formadas con los elementos de {4,5,6,7,8,9}. Una va-
riable aleatoria (v.a.) definida sobre E puede ser:
E X
→R
e → X ( e ) = «mayor€ de€ los€ dos€ números€ obteenidos»
tiene por conjunto de valores C = {5, 6, 7, 8, 9} y es por tanto discreta finita.
Otra variable aleatoria definida sobre E podría ser:
E Y
→ R
e = {a, b} → Y ( {a, b}) = a + b
el conjunto de valores de Y es C = {9,10,11,12,13,14,15,16,17} .

El recorrido o conjunto de valores de una variable aleatoria discreta finita es
un conjunto finito C = { x1 , x 2 , x3 ,..., x n } y el de una variable aleatoria infinito-
numerable es un conjunto infinito-numerable C = { x1 , x 2 , x3 ,..., x n ,...} .
A cada valor de la variable aleatoria, es decir, a cada uno de los valores xi ∈C se
le puede asociar un suceso Axi = {e ∈ E / X (e) = xi } formado por todos los ele-
mentos del espacio muestral E que tienen por imagen xi mediante esa variable
aleatoria, la aplicación X.
De aquí en adelante la abreviatura v.a. se utilizará para indicar variable alea-
toria.
El conjunto de todos los sucesos Axi, que es finito o infinito-numerable, for-
man una partición de E, ya que Ax ∩ Ax = ∅ € si€ € i ≠ j y además:
i j
U Ax = E si€ X € es€ una€ v.€ a.€ discreta€ finiita

n
i
i=1
o bien
Ù Ax = E si€ X € es€ una€ v.€ a.€ discreta€ infinnito-numerable.

i
i=1
Una variable aleatoria codifica los elementos del espacio muestral.
Si en el espacio muestral E se ha definido una probabilidad, se puede calcular

para cada valor xi la probabilidad P( Axi ) = P({e ∈ E / X (e) = xi }) que se indicará
de forma más abreviada P(X = xi) y así definir la función de probabilidad, o de
cuantía, para una variable aleatoria discreta.
5.3. FUNCIÓN DE PROBABILIDAD DE UNA VARIABLE

ALEATORIA DISCRETA
La función de probabilidad de la v.a. X es una aplicación de ⺢ en ⺢ definida por:

f
R  →R
 P( Ax ) si€ x ∈C
x → f ( x ) = P( X = x ) = 
0 € si€ x ∉C
siendo Ax = {e ∈ E / X (e) = x } y C el conjunto de valores de la variable aleatoria dis-

creta X ,C = { x1 , x2 , x3 ,..., xn } si la v.a. es discreta finita, o C = { x1 , x 2 , x3 ,..., x n ,...}
si la v.a. es infinito-numerable.
Propiedades de la función de probabilidad

P1. Para todo x ∈R se€ verifica€ que€ € f ( x ) = P( X = x ) ≥ 0, por ser una probabilidad.
P2.a) Si X es una v.a. discreta finita con conjunto de valores C = {x1, x2,..., xn},
n n
se verifica ∑ f ( xi ) = ∑ P( X = xi ) = 1.
i=1 i=1
` `
b) Si X es discreta infinito-numerable, será ∑ f ( xi ) = ∑ P( X = xi ) = 1,
i =1 i =1
siendo C = {x1, x2, x3,..., xn,...} el conjunto de valores de X.
EJEMPLO 5.7.
Para la variable aleatoria discreta finita, X del Ejemplo 5.3. el conjunto de va-
lores es C = {2,3,4,5,6,7,8,9,10,11,12}, los sucesos Axi son:
A2 = {(1, 1)} ; A3 = {(1, 2 ) , ( 2, 1)} ; A4 = {(1, 3) , ( 2, 2) , ( 3, 1)} ;

A5 = {(1, 4 ) , ( 2, 3) , ( 3, 2) , ( 4, 1)} ; A6 = {(1, 5) , ( 2, 4 ) , ( 3, 3) , ( 4, 2) , ( 5, 1)} ;
A7 = {(1, 6) , ( 2, 5) , ( 3, 4 ) , ( 4, 3) , ( 5, 2) , ( 6, 1)} ;
A8 = {( 2, 6) , ( 3, 5) , ( 4, 4 ) , ( 5, 3) , ( 6, 2)} ; A9 = {( 3, 6) , ( 4, 5) , ( 5, 4 ) , ( 6, 3)} ;
A10 = {( 4, 6) , ( 5, 5) , ( 6, 4 )} ; A11 = {( 5, 6) , ( 6, 5)} ; A12 = {( 6, 6 )}
Y su función de probabilidad es:
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
f ( x ) = P ( X = x ) = P( A x )
36 36 36 36 36 36 36 36 36 36 36
que se comprueba fácilmente que verifica las dos propiedades de las funciones de
probabilidad.
La representación gráfica de esta función de probabilidad es la siguiente:
6/36
5/36
4/36
y = f(x)
3/36
2/36
1/36
2 3 4 5 6 7 8 9 10 11 12
FIGURA 5.1. Función de probabilidad.

Se observa analogía entre la función de probabilidad y la distribución de fre-

cuencias relativas en la estadística descriptiva. La función de probabilidad también
se llama función de cuantía.
5.4. FUNCIÓN DE PROBABILIDAD ACUMULADA DE UNA

VARIABLE ALEATORIA DISCRETA
La función de probabilidad acumulada de la v.a. X, con valores ordenados en

orden creciente x1 < x 2 < ... < x n , si es finita, o bien x1 < x 2 < x3 < ... < x n < ...,
si es infinito numerable, es una aplicación de ⺢ en ⺢ definida por:
R F
→R
x → F ( x ) = P( X ≤ x )
Propiedades de la función de probabilidad acumulada

P1. Para todo x ∈R es€ € 0 ≤ F( x ) ≤ 1, por ser una probabilidad.
P2. F ( x ) = 0, ∀x < x1 .
P3. F( x1 ) = P( X ≤ x1 ) = P( X = x1 ) = f ( x1 ).
P4. La función F ( x ) = P( X ≤ x ) es monótona creciente ya que:
x i < x j ⇒ F ( xi ) ≤ F ( x j )
P5.a) Si X es una v.a. discreta finita con conjunto de valores C = { x1 , x 2 ,..., x n } ,

x1 < x 2 < x3 < ... < x n , se verifica que:
n
F ( x n ) = P( X ≤ x n ) = ∑ f ( x i ) = 1
i =1
b) Si X es discreta infinito-numerable, siendo C = { x1 , x 2 , x3 ,..., x n ,...} el

conjunto de valores de X, x1 < x 2 < x3 < ... < xn < ... se verifica que:
n `
lim F( x n ) = lim ∑ f ( xi ) = ∑ f ( xi ) = 1
n→` n→` i =1 i =1
P6. La función de probabilidad acumulada es continua por la derecha en todos

los puntos, es decir, lim F ( x + h ) = F ( x ) , ∀x ∈R.
h→ o
h> 0
( ) (
P7. P X > x j = 1 − P X ≤ x j = 1 − F x j . ) ( )
P8. P(x i ) ( )
< X ≤ x j = P X ≤ x j − P ( X ≤ xi ) = F x j − F ( x i ) .( )
EJEMPLO 5.8.
Para la variable aleatoria discreta finita, X, del Ejemplo 5.3. el conjunto de valores
es C = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} , y su función de probabilidad acumulada:
X F ( x ) = P( X ≤ x )
x<2 0
2≤x<3 1/36
3≤x<4 3/36
4≤x<5 6/36
5≤x<6 10/36
6≤x<7 15/36
7≤x<8 21/36
8≤x<9 26/36
9 ≤ x < 10 30/36
10 ≤ x < 11 33/36
11 ≤ x < 12 35/36
12 ≤ x 1
Gráficamente:
1
35/36
33/36
30/36
26/36
y = f(x)
21/36
15/36
10/36
6/36
3/36
1/36
2 3 4 5 6 7 8 9 10 11 12
FIGURA 5.2. Función de probabilidad acumulada.

La representación de la función de probabilidad acumulada es la análoga a la

de la distribución de frecuencias relativas acumuladas en las variables estadísticas.
5.5. CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA

DISCRETA
En la estadística descriptiva se han definido para las distribuciones de varia-
bles estadísticas numéricas los estadígrafos o estadísticos que dan un resumen nu-
mérico de las muestras. Así, por ejemplo, la media aritmética de una variable es-
tadística se definió así:
n
∑ xi ni n ni n
i=1
x= = ∑ xi = ∑ xi fi
n i =1 n i =1
siendo fi la frecuencia relativa de xi.
Una característica análoga para las variables aleatorias discretas es la esperanza
matemática o valor esperado, también llamada media, y que se indicará por E(X).
5.5.1. Esperanza matemática

• Para variables aleatorias discretas finitas.
Si la v.a. X es discreta finita, con conjunto de valores C = { x1 , x 2 ,..., x n } , la

esperanza matemática de X se define por:
n n
µ = E ( X ) = ∑ x i P( X = x i ) = ∑ x i f ( x i )
i =1 i =1
El valor de E(X) se puede considerar una media teórica, pues al realizar el

experimento n veces se espera que cada valor xi se obtenga un número de veces
ni = nP( X = xi ) y por tanto la media de los valores que se obtengan sería:
n
∑ xi nP( X = xi ) n
i=1
= ∑ x i P( X = x i ) = µ
n i =1
• Para variables aleatorias discretas infinito-numerables.
Si la v.a. X es discreta infinito-numerable con conjunto de valores

C = { x1 , x 2 ,..., xn ,...} la esperanza matemática de X se define por:
` `
µ = E ( X ) = ∑ x i P( X = x i ) = ∑ x i f ( x i )
i =1 i =1
si la serie es convergente.
En adelante se escribirá ∑ x i f ( x i ) entendiendo que el sumatorio se extiende a

i
todos los valores de xi, un número finito si la v.a. es discreta finita o un número in-
finito-numerable si la v.a. es discreta infinito-numerable.
La media aritmética x$ de una variable estadística es un estadístico, o estadí-
grafo, que depende de la muestra elegida en la población, mientras que la espe-
ranza matemática µ = ∑ xi f ( xi ) es una constante característica de la variable
i
aleatoria X, un valor fijo, se dice que es un parámetro asociado a la v.a. X.
EJEMPLO 5.9.
Para la v.a. del Ejemplo 5.7. la esperanza matemática es:
11 11
µ = E ( X ) = ∑ x i P ( X = xi ) = ∑ xi f ( x i ) =
i=1 i =1
1 2 3 4 5 6 5 4 3 2 1
=2 +3 +4 +5 +6 +7 +8 +9 + 10 + 11 + 12 =7
36 36 36 36 36 36 36 36 36 36 36
Propiedades de la esperanza matemática

P1. Si X e Y son dos variables aleatorias E( X + Y ) € = E( X ) + E(Y ).
P2. Si X es una v.a. y b es una constante b ∈R es€ E (bX ) = bE( X ).
P3. Si Y = a + bX siendo a y b constantes, a, b ∈R, entonces:
E (Y ) = a + b ⋅ E ( X )
Consecuencia de las propiedades anteriores es la siguiente:
P4. Si X e Y son dos variables aleatorias y a y b son constantes, a, b ∈R,
E( aX + bY ) € = aE ( X ) + bE(Y )
P5. Si X es una v.a. con E ( X ) = µ , la€ v.a.€ Y = X − µ tiene esperanza cero.
E ( Y ) = E ( X − µ ) = ∑ ( x i − µ ) f ( xi ) = ∑ x i f ( xi ) − ∑ µ f ( x i ) = µ − µ = 0
i i i
5.5.2. Momentos para variables aleatorias

Para una variable estadística (xi, ni), es decir, para una variable con valores regis-
trados xi con frecuencias absolutas ni en una muestra de tamaño n, y designando por fi la
frecuencia relativa de xi, se definieron los momentos de orden r respecto de la media
n
r
∑ ( xi − x ) ni n r ni n r
mr = i=1
= ∑ ( xi − x ) = ∑ ( xi − x ) fi
n i =1 n i =1
y los momentos de orden r respecto del origen
n
∑ xir ni n ni n r
ar = i =1
= ∑ xir =∑x f .
n i =1 n i =1 i i
Se definirán a continuación características análogas para las variables aleato-

rias discretas.
5.5.2.1. Momentos respecto de la media
El momento de orden r respecto de la media de la v.a. X, también llamado

momento central de orden r, se define por
r r r
µ r = E ( x i − µ )  = ∑ ( x i − µ ) f ( x i ) = ∑ ( x i − µ ) P ( X = x i )
  i i
que es una suma de un número finito de sumandos si la v.a. es discreta finita o la

suma de una serie si la v.a. es infinito-numerable, siempre que esa serie sea con-
vergente.
Cualquiera que sea la v.a. X se verifica:
0 0
µ 0 = E ( x i − µ )  = ∑ ( x i − µ ) f ( x i ) = 1
  i
µ1 = E ( xi − µ )  = ∑ ( xi − µ ) f ( xi ) = 0
i
El momento central de orden 2 es la varianza µ2 = Var(X) que se designará

por σ 2:
2 2
σ 2 = µ 2 = E ( X − µ )  = ∑ ( x i − µ ) f ( x i )
  i
En el epígrafe siguiente se dará otra fórmula equivalente.

La raíz cuadrada positiva de la varianza recibe el nombre de desviación típica
σ = Var ( X ).
Propiedades de la varianza
P1. Si X e Y son dos variables aleatorias, Y = aX + b, siendo a y b constantes,
a, b ∈R, es€ € σ Y2 = a2σ X2 , es decir,
Var ( aX + b) = a 2Var ( X )
En consecuencia σ aX +b = a σ X .
P2. Si la v.a. X tiene E(X) = µ y desviación típica σ, entonces la variable alea-

X−µ
toria Z = que se obtiene a partir de X restando su media y divi-
σ
diendo entre su desviación típica tiene esperanza cero y varianza 1.
 X µ  X µ 1 µ µ µ
E ( Z ) = E  −  = E   − = E( X ) − = − = 0
σ σ σ σ σ σ σ σ
 X µ 1 σ2
Var ( Z ) = Var  −  = 2 Var ( X ) = 2 = 1 ⇒ σ Z = 1
σ σ σ σ
La variable aleatoria Z se denomina la variable tipificada de X.

X−µ
Para cualquier variable X su variable tipificada Z = tiene media 0 y
desviación típica 1. σ
5.5.2.2. Momentos respecto del origen

El momento de orden r respecto del origen para la v.a. X se define del si-
guiente modo:
( )
α r = E X r = ∑ xir f ( x i ) = ∑ xir P ( X = xi )
i i
entendiendo, como en los momentos respecto de la media, que es la suma de un

número finito de sumandos si la v.a. es discreta finita, y si la v.a. es infinito-nu-
merable será la suma de una serie, siempre que esa serie sea convergente.
( )
Casos particulares: α 0 = 1, € α1 = E ( X ) , α 2 = E X 2 , etc.
• Relación entre los momentos respecto de la media y los momentos

respecto del origen
Se pueden demostrar con facilidad las siguientes relaciones entre los mo-
r
mentos respecto de la media µ r = ∑ ( xi − µ ) P ( X = x i ) y los momentos respecto
i
del origen α r = ∑ xir P ( X = x i ) simplemente desarrollando las potencias y sim-
i
plificando.
1. Para r = 2.
2
µ2 = α 2 − (α1 )
Es decir,
σ 2 = α2 − µ2
fórmula que facilita el cálculo de la varianza de las variables aleatorias y que es
análoga a la correspondiente de la estadística descriptiva.
Del mismo modo, para facilitar el cálculo de los momentos respecto de la me-
dia de orden 3, de orden 4 y de orden superior, como en el caso de las variables
estadísticas, se pueden utilizar las siguientes igualdades.
2. Para r = 3
µ3 = α 3 − 3α 2α1 + 2α13
3. Para r = 4
2 4
µ4 = α 4 − 4α 3α1 + 6α 2 (α1 ) − 3 (α1 )
4. En general, se puede demostrar por inducción que también se verifica la si-
guiente igualdad:
k  k
x
µk = ∑   ( −α1 ) α k − x
x =0  x 
que incluye las anteriores.

Por ejemplo, particularizando para k = 2:
2  2 x
µ2 = ∑   ( −α1 ) α 2− x =
x =0  x 
 2 0  2  2 2
=   ( −α1 ) α 2 +   ( −α1 ) α1 +   ( −α1 ) α 0 =
 0  1  2
= α 2 − 2α12 + α12 = α 2 − α12
EJEMPLO 5.10.
Para la v.a. del Ejemplo 5.7. la varianza es:
2 11 2 11
σ 2 = µ2 = E ( X − 7 )  = ∑ ( xi − 7 ) f ( x i ) = α 2 − 72 = ∑ xi2 f ( xi ) − 49 =
  i =1 i=1
1 2 3 4 5 6 5 4 3
= 22 + 32 + 42 + 52 + 62 + 72 + 82 + 92 + 10 2 +
36 36 36 36 36 36 36 36 36
2 1 1974 329 35
+ 112 + 122 − 49 = − 72 = − 49 = . 5, 8333
36 36 36 6 6
35
Y por tanto la desviación típica es: σ = . 2, 4152.
6
5.5.3. Otros parámetros de interés para variables aleatorias

discretas
• Se define el coeficiente de variación de la v.a. X como el cociente entre la
desviación típica y la esperanza matemática de X, siempre que esta última sea dis-
tinta de cero
σ
Cv =
µ
El coeficiente de variación es una buena medida de dispersión para comparar
distribuciones, ya que no depende de las unidades en que se midan las variables.
Este coeficiente se expresa también en tanto por ciento, multiplicando el cocien-
te anterior por 100.
• La moda de la variable aleatoria discreta X es el valor de esta variable que tiene
probabilidad máxima. Como P ( X = xi ) = f ( x i ) la moda es el valor xk para el que
f ( xi ) ≤ f ( xk ) ∀i
Si hay más de un valor de la variable con probabilidad máxima, se dice que la va-
riable es multimodal y cada uno de los valores con probabilidad máxima es una moda.
• La mediana de la variable aleatoria discreta X es el menor valor κ2 tal
que F(κ 2 ) = 0, 5. Es decir, P ( X ≤ κ 2 ) = 0, 5 y por tanto κ2 es el valor para el que
P ( X ≤ κ 2 ) = P ( X > κ 2 ) , es decir, el valor que deja por debajo la misma probabi-
lidad que por encima.
• Los cuartiles de la variable aleatoria discreta X son tres, κ1, κ2 y κ3 y son los
valores que verifican: F(κ1) = 0,25, F(κ2) = 0,5, el segundo cuartil es la mediana,
y F(κ3) = 0,75.
• Análogamente se definen los percentiles de la variable aleatoria discreta

X, que son noventa y nueve. El percentil t-ésimo es el valor πt para el que
t
F(π t ) = para t = 1,2,…, 99. El percentil π25 es el primer cuartil, el percentil π50
100
es la mediana y π75 es el tercer cuartil.
5.5.4. Características de forma para variables aleatorias discretas

䊏 Coeficiente de sesgo, o de asimetría, de la v.a. X, se define como el co-
ciente entre el momento central de orden 3 y la desviación típica al cubo:
µ3
γ1 =
σ3
Se utiliza para dar una medida de la simetría de la distribución en estudio.

Si la distribución de la v.a. X es una distribución simétrica, todos los mo-
mentos centrales de orden impar son cero, por tanto γ1 = 0.
Si γ1 > 0, se dice que la distribución tiene asimetría positiva. En este caso hay
valores de la variable más separados de la media a la derecha que a la izquierda.
Si γ1 < 0, se dice que la distribución tiene asimetría negativa, indicando que
hay valores de la variable más distanciados de la media a la izquierda de ésta.
䊏 Coeficiente de curtosis de la v.a. X, es el cociente entre el momento central

de orden 4 y el cuadrado de la varianza menos 3:
µ4
γ2 = −3
σ4
Se utiliza para comparar el aplastamiento de las distribuciones con respecto a

la curva de Gauss, correspondiente a la distribución normal, que se estudiará en el
capítulo siguiente.
Si γ2 > 0 la distribución es leptocúrtica (más apuntada que la normal).

Si γ2 = 0 se dice que es mesocúrtica (igual de apuntada que la normal).
Si γ2 < 0 la distribución es platicúrtica (menos apuntada que la normal).
EJEMPLO 5.11.
Para la v.a. del Ejemplo 5.7. calcular los coeficientes de sesgo y de curtosis e in-
terpretarlos.
Para calcular estos coeficientes, en primer lugar se calculan los momentos res-
329
pecto del origen hasta el orden 4 inclusive. Se sabe que α1 = 7 € y que α 2 = ,
véanse Ejemplos 5.9. y 5.10. 6
El momento de orden 3 respecto del origen es:
11 16.758 931
α 3 = ∑ xi3 f ( xi ) = = = 465, 5
i =1 36 2
Y el de orden 4 es:
11 151.074 8.393
α 4 = ∑ xi4 f ( xi ) = = = 4.196, 5
i =1 36 2
Por tanto:
931 329
µ3 = α 3 − 3α 2α1 + 2α13 = −3 7 + 2 ⋅ 73 = 0
2 6
2 4 8.393 931 329 2
µ4 = α 4 − 4α 3α1 + 6α 2 (α1 ) − 3 (α1 ) = −4 7+6 7 − 3 ⋅ 74 = 80, 5
2 2 6
µ3
El coeficiente de sesgo γ 1 = = 0. Esta distribución es simétrica.
σ3
Y el coeficiente de curtosis es:
µ4 80, 5
γ2 = 4
−3= 2
− 3 = −0, 6343 < 0, es decir, la distribución es platicúrtica.
σ  35 
 6 
5.6. PRINCIPALES DISTRIBUCIONES PARA VARIABLES

ALEATORIAS DISCRETAS
5.6.1. Distribución discreta uniforme

Dado un espacio probabilístico (E, A, P) y una v.a. X definida sobre E que
tiene por conjunto de valores C = {1, 2, 3,..., n} , con probabilidades
1
P( X = x ) = ∀x ∈C
n
se dice que X sigue una distribución discreta uniforme.

La función de probabilidad es:
1
 si€ x ∈C
f ( x ) = P( X = x ) =  n
 0 € si€ x ∉C
La función de probabilidad acumulada es:
 0 si x < 1

 1 si 1 ≤ x < 2
 n
 2
 si 2 ≤ x < 3
 n
F ( x ) = P( X ≤ x ) =  3
 n si 3 ≤ x < 4

 ...
n -1
 si n - 1 ≤ x < n
 n
 1 si x ≥ n
Por tanto, la esperanza matemática es:
n n 1 1 1 (1 + n ) n n + 1
µ = E ( X ) = ∑ x i P( X = x i ) = ∑ x i = (1 + 2 + ... + n ) = =
i =1 i =1 n n n 2 2
y la varianza:
n 2 2
1  n + 1 1  n + 1
( )
σ 2 = E X 2 − µ 2 = ∑ xi2
i =1 n
− 
 2  
n
(
= 12 + 22 + ... + n 2 − 
 2 
)=
2
1 n ( n + 1) ( 2n + 1) ( n + 1) ( n + 1) ( n − 1) = n 2 − 1
€ = − =
n 6 4 12 12
n2 − 1
De donde, la desviación típica es: σ = .
12
Se observa que para cada valor de n se obtiene una distribución distinta. Se

dice que la distribución discreta uniforme depende de un parámetro que es n. Esto
quiere decir que no es una distribución única sino toda una familia de distribu-
ciones, una para cada valor de n ∈⺞.
EJEMPLO 5.12.
䊏 El modelo teórico correspondiente al lanzamiento de un dado que no esté ses-
gado es un ejemplo de distribución discreta uniforme con parámetro n = 6.
7 62 − 1 35
Su esperanza matemática es µ = = 3, 5 y su varianza σ 2 = = .
2 12 12
䊏 La extracción de una bola de un bombo con 10 bolas idénticas numeradas
con las cifras del 0 al 9 es una distribución discreta uniforme de parámetro n =10.
5.6.2. Distribución de Bernoulli

Dado un espacio probabilístico (E, A, P) y un suceso S ∈A, σ-álgebra de su-
cesos asociado al espacio muestral E, tal que P(S) = p, la v.a. X definida sobre E:
X :E→R
1 si€ e ∈ S
e → X (e) = 
0 € si€ e ∉ S
se dice que sigue una distribución de Bernoulli de parámetro p y se escribe

X ~ ß(p)
El conjunto de valores de la v.a. de Bernoulli es finito C = {0,1}. La variable
de Bernoulli es una variable dicotómica que indica si se verifica o no el suceso S.
–
Se dice que p(S) = p es la probabilidad de «éxito» y por tanto p(S ) = 1 – p = q
es la probabilidad de «fracaso». Se entiende que éxito significa que se verifique el
suceso S aunque esto no simbolice un logro positivo.
–
Un experimento aleatorio que admite dos resultados excluyentes S, éxito, y S ,
fracaso, se denomina prueba de Bernoulli.
La función de probabilidad es
 q = 1 − p € si€ x = 0

f ( x ) = P( X = x ) =  p € si€ x = 1
 0 € si€ x ∉C = {0,1}

La gráfica siguiente, proporcionada por STATGRAPHICS, representa la fun-
ción de probabilidad, para la v.a. de Bernoulli de parámetro p = 0,1,
0, 9 si€ x = 0

f ( x ) =  0,1€ si€ x = 1
 0 € si€ x ∉C = {0,1}

Distribución de Bernoulli
1 Probabilidad
del suceso
0,8 0,1
Probabilidad
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
x
La función de probabilidad acumulada para esta variable es:
0 si€ x < 0

F ( x ) = P( X ≤ x ) =  q € si€ 0 ≤ x < 1
1 si€ x ≥ 1

La gráfica de la función de probabilidad acumulada de la v.a. de Bernoulli de

parámetro p = 0,1 es la función escalonada representada a continuación:
F(x)
1
0,9
x
–3 –2 –1 0 1 2 3
Esta distribución sólo depende de un parámetro p = P(S), probabilidad de éxito.

La esperanza matemática es:
2
µ = E ( X ) = ∑ xi P ( X = xi ) = 0 ⋅ q + 1 ⋅ p = p
i =1
La varianza:
2
( )
σ 2 = E X 2 − µ 2 = ∑ xi2 P( X = xi ) − µ 2 = 0 ⋅ q + 1 ⋅ p − p 2 = p(1− p) = pq
i =1
5.6.3. Distribución binomial

Si se realizan n pruebas sucesivas e independientes de Bernoulli del mismo
parámetro p = P(S), es decir, si se observa n veces si se verifica o no el mismo su-
ceso S, «éxito», la v.a. discreta:
X = «n.o de veces que se verifica el suceso S en las n pruebas independientes»
se dice que sigue una distribución binomial de parámetros n y p y se escribirá
X ~ B(n, p).
El conjunto de valores de la v.a. discreta X es C = {0,1,2,...,n}, un conjunto finito.
La probabilidad de que la v.a. X tome el valor x es:
x n− x
P( X =x ) =P(SS...S S S... S ) =
= PR nx ,n- x P(S1 ∩ S2 ∩ ... ∩ Sx ∩ Sx +1 ∩ Sx + 2 ∩ ... ∩ Sn ) =
n!  n
= p x qn− x =   p x qn− x
x !(n − x )!  x
Y por tanto la función de probabilidad es:
 n  x n − x
 p q si€ x ∈C = {0, 1, 2, ..., n}
f ( x ) = P ( X = x ) =  x 
 0 sii x ∉C

Es fácil comprobar que se trata de una función de probabilidad, porque:

1. P( X = x ) ≥ 0.
n
2. ∑ f ( x i ) = 1 pues, teniendo en cuenta la fórmula del binomio de Newton
i= 0
n n n  n n
∑ f ( x i ) = ∑ P( X = x ) = ∑   p x q n − x = ( p + q ) = 1
i=0 x =0 x
x =0  
Precisamente por ser cada valor de f(x) uno de los términos del desarrollo del
binomio (p + q)n es por lo que a la distribución de la v.a. así definida se le deno-
mina distribución binomial de parámetros n y p.
 n
F ( x ) = P( X ≤ x ) = ∑   p k q n − k
0≤ k ≤ x  k 
por tanto F( x ) = 1€ si€ x ≥ n € € € € € y€ € € € € F ( x ) = 0 € € € si€ € x < 0.

n
Se puede expresar la v.a. X = ∑ Yi , siendo Yi variables aleatorias de Bernoulli,
i =1
independientes y del mismo parámetro p.
La esperanza matemática, o media, de la v.a. X es:
 n  n
E ( X ) = E  ∑ Yi  = ∑ E ( Yi ) = np
 i =1  i =1
La varianza de X, por ser independientes las n variables de Bernoulli, ade-

lantando un resultado que se verá en el Capítulo 7, epígrafe 7.3.5., es:
 n  n
Var ( X ) = Var  ∑ Yi  = ∑ Var ( Yi ) = npq
 i=1  i=1
La distribución binomial es simétrica si p = q, es decir, si p = 0.5, como se ve en

la siguiente gráfica de la función de probabilidad para una v.a. B (n = 10, p = 0.5):
Distribución binominal
0,25 Prob. del suceso; n
0,5;10
0,2
Probabilidad
0,15
0,1
0,05
0
0 2 4 6 8 10
x
La gráfica de la correspondiente función de probabilidad acumulada dibujada

con el programa DERIVE es:
F(x)
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
En la gráfica de la función de probabilidad acumulada que proporciona el pro-

grama STATGRAPHICS:
Distribución binominal
1 Prob. del suceso; n
0,5;10
0,8
Probabilidad
acumulada
0,6
0,4
0,2
0
0 2 4 6 8 10
x
sólo se indican los saltos de la función de probabilidad acumulada y hay que ima-
ginar que la función toma el valor cero hasta x = 0, es constante en los intervalos
[x, x + 1) para x ∈{0,1,2,..., n}, como se observa en la representación anterior re-
alizada con DERIVE, y toma el valor 1 para x∈[10, + ⬁).
A continuación, se presentan también las gráficas de las funciones de pro-
babilidad para las variables aleatorias binomiales de parámetros n = 10 y p = 0,1,
n = 60 y p = 0,1, n = 60 y p = 0,5 y n = 70 y p = 0,8.
Distribución binominal Distribución binominal

0,4 Prob. del 0,18 Prob. del
Probabilidad
Probabilidad
suceso; n 0,15 suceso; n

0,3
0,1;10 0,12 0,1;60
0,2 0,09
0,06
0,1
0,03
0 0
0 2 4 6 8 10 0 10 20 30 40 50 60
x x
Distribución binominal Distribución binominal

Probabilidad
Probabilidad
0,1 suceso; n 0,1 suceso; n

0,08 0,5;60 0,08 0,8;70
0,06 0,06
0,04 0,04
0,02 0,02
0 0
0 10 20 30 40 50 60 0 20 40 60 80
x x
Obsérvese que si p < q la función de probabilidad es asimétrica hacia la de-

recha y que para p = 0,5 la función de probabilidad es simétrica. Si p > q la fun-
ción de probabilidad presenta asimetría negativa o hacia la izquierda.
EJEMPLO 5.13.
Tras largos años de experiencia se ha comprobado que al tratar con el producto
A árboles enfermos, sanan en el 75% de los casos. Se tratan veinticinco árboles en-
fermos con la sustancia A. Calcular la probabilidad de que sobrevivan:
a) Veinte de los veinticinco tratados.
b) Al menos quince de los veinticinco.
c) Por lo menos diez y no más de veinte.
d) A lo sumo dieciocho.
e) No sobrevivan diez.
f) No sobrevivan como máximo diez.
Si se designa por X: «el número de árboles que sobreviven de los veinticinco

tratados», la v.a. X ~ B(n = 25, p = 0,75)
 25 20 5
a) P ( X = 20 ) =   ( 0, 75) ( 0, 25) . 0,1645.
 20
25  25 x 25− x
b) P( X ≥ 15) = ∑   ( 0, 75) ( 0, 25) = 0, 9703.
x =15  x 
19  25 x 25− x
c) P(10 ≤ X < 20) = ∑
  ( 0, 75) ( 0, 25) . 0, 6217.
x =10  x 
25  25 x 25−x
d) P ( X ≤ 18) = 1 − P ( X > 18) = 1 − ∑   ( 0, 75) ( 0, 25) . 0, 4389.
x =19  x 
La variable Y: «n.o de árboles que no sobreviven de los veinticinco trata-

dos» sigue una distribución X ∼ B ( n = 25, p = 1 − 0, 75 = 0, 25) .
 25 10 15
 10  ( 0, 25) ( 0, 75) . 0, 0417 = P ( X = 15) .
e) P(Y = 10) =
10  25 x 25− x
f) P(Y ≤ 10) = ∑   ( 0, 25) ( 0, 75) . 0, 9703 = P ( X ≥ 15) .
x =0  x 
5.6.4. Distribución geométrica

Se repiten pruebas independientes de Bernoulli de parámetro p = P(S) hasta
que se obtenga el suceso S por primera vez. La variable aleatoria:
X = «número de pruebas necesarias para que aparezca el suceso S
por primera vez»
o bien
X = «número de pruebas necesarias para que se obtenga éxito por primera vez»
se dice que sigue una distribución geométrica o de Pascal de parámetro p, y se es-

cribe X ~ G(p).
El recorrido de la v.a. X es: C = {1, 2, 3,..., n,...} . Por tanto esta variable es in-
finito-numerable.
Para determinar la función de probabilidad se tiene en cuenta que:
Por tanto
Es fácil comprobar que es una función de probabilidad porque f(x) ≥ 0, ∀x ∈⺢

por ser p y q probabilidades y además:
Precisamente recibe el nombre de distribución geométrica por formar las

probabilidades f ( x ) = P ( X = x ) = q x −1 p una serie geométrica.
Para p = 0,2 el programa STATGRAPHICS proporciona la siguiente gráfica de
la función de probabilidad o de cuantía:
Distribución geométrica
0,2 Prob. del suceso
0,2
0,16
Probabilidad
0,12
0,08
0,04
0
0 10 20 30 40
x
La función de probabilidad acumulada:
k −1 k −1 x
Ya que si x ≥ 1, F ( x ) = ∑ f (k ) = ∑ q p = p ∑ q = 1 − q , porque
k≤ x k≤x k≤x
1
La esperanza matemática, o media, de esta distribución es µ = y la va-
1− p q p
rianza es σ 2 = 2 = 2 .
p p
EJEMPLO 5.14.
Se lanza una moneda tantas veces como sea necesario hasta conseguir por pri-
mera vez cara y se anotan los resultados obtenidos. El espacio muestral es:
Se considera la σ-álgebra de sucesos generada por todos los sucesos elementa-

les. La variable aleatoria:
X = «n.o de veces que se necesita lanzar la moneda hasta obtener la primera cara»
tiene por conjunto de valores C = {1,2,3,..., n,...}. Dar su función de probabilidad,
la de probabilidad acumulada y los valores de su media y varianza.
Se observa que f ( x ) ≥ 0, ∀x ∈R y además:

La esperanza matemática, o media, de esta distribución es µ = 2 y la varianza

es σ2 = 2.
5.6.5. Distribución binomial negativa

Se considera ahora una serie de pruebas independientes de Bernoulli de
parámetro p = P(S) hasta que se obtenga el suceso S por r-ésima vez. El número
de éxitos, r, está fijado previamente, pero el número de fracasos y el número total de
pruebas son aleatorios.
La variable aleatoria:
X = «n.o total de fracasos registrados antes de que ocurra el r-ésimo éxito»
se llama variable binomial negativa.
También se dice que X sigue una distribución binomial negativa de paráme-
tros r y p, siendo r ∈Z + , € y p = P ( S ) , 0 < p < 1. Se escribirá X ∼ BN (r, p).
El recorrido de la v.a. X es C = {0,1,2,..., n...}.
Para determinar la función de probabilidad se calcula primero la probabilidad
de no registrar ningún fracaso o sólo uno y así resulta sencillo escribir la proba-
bilidad de verificar x fracasos antes de que ocurra el r-ésimo éxito:
Por tanto la función de probabilidad es:

Por ejemplo para p = 0,2 y r = 7 el programa STATGRAPHICS proporciona la

siguiente gráfica de la función de probabilidad de la distribución binomial nega-
tiva:
Distribución binomial negativa

0,04 Prob. del suceso; r
0,2;7
Probabilidad
0,03
0,02
,0,01
0
0 20 40 60 80 100
x
 r + x − 1 r x
La distribución se llama binomial negativa porque P( X = x ) =  pq
 r − 1 
−r

corresponden a los términos del desarrollo de la serie binomial  1 − q  .
Se puede demostrar que:  p p
y que
También se podría definir la variable aleatoria:
Y = «n.o total de pruebas necesarias para que aparezca el éxito r-ésimo»
La función de probabilidad de esta variable aleatoria es:
para y = r, r + 1, r + 2,...
para los restantes valores
La variable Y se llama variable de Pascal de parámetros r y p y la distribución de

Y se llama distribución de Pascal de parámetros r y p.
Para r = 1 la v.a. de Pascal sólo depende del parámetro p y ésta coincide con
la distribución geométrica o de Pascal de parámetro p.
EJEMPLO 5.15.
Un aprendiz de gemología talla correctamente un diamante con probabilidad 0,9.
Hallar la distribución de probabilidad del número de tallas defectuosas antes de
completar diez tallas perfectas. Calcular las probabilidades de que tenga que realizar
trece tallas para completar diez perfectas y la de que tenga que realizar al menos ca-
torce para entregar las diez perfectas.
Designando por X = «n.o de tallas defectuosas antes de completar diez perfec-

tas», X sigue una distribución binomial negativa de parámetros r = 10 y p = 0,9.
Si tiene que realizar trece tallas para completar diez perfectas, es que tres son
defectuosas:
Para que tenga que realizar al menos catorce tallas para entregar las diez
perfectas, tallará al menos cuatro defectuosas, por tanto:
5.6.6. Distribución hipergeométrica

Se ha presentado anteriormente la distribución binomial que es la distribución de
la v.a. X = «número de veces que se verifica un suceso S de probabilidad p = P(S)
en n pruebas independientes». Una presentación esquemática para la distribución bi-
nomial es la siguiente:
Se extraen sucesivamente y con reemplazamiento n bolas de una urna, que contie-

ne N bolas de las que N1 son verdes, y se anota el número de bolas verdes extraídas. Si
X = «n.o de bolas verdes de las n extraídas» X , B  n, p = 1  .
N
 N
En este caso
o bien
Si de la urna que contiene N bolas de las que N1 son verdes, se extraen suce-
sivamente y sin reemplazamiento n bolas, la v.a. X = «número de bolas verdes de
las n extraídas» ya no sigue una distribución binomial sino otra distribución, la
distribución hipergeométrica, porque la probabilidad de obtener bola verde aho-
ra no es la misma en cada una de las n extracciones.
Si n = 2, el conjunto de valores de la v.a. X = «número de bolas verdes entre
las dos extraídas» es C = {0,1,2}, siempre que n = 2 < N1, es decir, que haya al
menos dos bolas verdes y 2 < N – N1, es decir, también haya al menos dos bolas
no verdes.
Si N = 100, N1 = 10 y se extraen n = 9, el conjunto de valores de la v.a. X,
«número de bolas verdes de las 9 extraídas», es C = {0,1,2,...,9}.
«número de bolas verdes de las 15 extraídas», es C = {0,1,2,...,10} ya que es im-
posible obtener once o más bolas verdes.
«número de bolas verdes de las 20 extraídas», es C = {5,6,7,...,20} ya que es im-
posible obtener veinte bolas no verdes porque sólo hay 15 en la urna que no son
verdes.
En general, se considera una población de N elementos clasificados en dos
–
categorías S, con N1 elementos y S con N – N1, y se eligen n elementos de esa
población sucesivamente y sin reemplazamiento. Se define la v.a. X «número de
elementos de S entre los n elegidos» se observa que cada valor x de la v.a. X ha
de ser:
además n – x, número de elementos elegidos que no son de S, tiene que ser:
en consecuencia, el conjunto de valores de X es:
Se puede comprobar que en cada uno de los ejemplos anteriores el conjunto

de valores de X así definido coincide con el dado.
Para determinar la función de probabilidad de la v.a. X «número de elementos
de S entre los n elegidos sucesivamente y sin reemplazamiento», de una población
de N elementos de los que N1 son de S, basta con calcular la probabilidad de que
entre los n elegidos se encuentren x de S:
o bien
como todos los cocientes anteriores tienen el mismo valor, P (X = x) también re-
presenta la probabilidad de encontrar x elementos de S al elegir simultáneamente
n de una población de N elementos de los que N1 son de S.
La función de probabilidad de las variables aleatorias definidas del siguiente
modo en una población de N elementos de los que N1 son del tipo A
X = «n.o de elementos de S al elegir n simultáneamente»
o también
X = «n.o de elementos de S entre los n elegidos sucesivamente

y sin reemplazamiento»
es:
{ }
Siendo C = x ∈N / máx{0,n − ( N − N1 ) ≤ x ≤ mín { N1 , N}} .
N1
Llamando p = = P( S), probabilidad de elegir un elemento de S en la pri-
N
mera extracción, se puede escribir:
y la función de probabilidad se puede también expresar del siguiente modo:
Siendo C = { x ∈N / máx{0,n − ( N − Np )} ≤ x ≤ mín { Np, n}} .
Una v.a. X cuya función de probabilidad es la anterior se dice que es hiper-

geométrica de parámetros N, n y p y se escribe X ∼ H ( N , n, p).
La esperanza matemática de esta v.a. es: µ = E( X ) = np.
N−n
La varianza es σ 2 = npq .
N −1
La siguiente figura representa la función de probabilidad de la distribución
H ( N = 4000, € n = 10, p = 0, 3) proporcionada por el programa STATGRAPHICS.
Distribución hipergeométrica
0,3 Prob. del suceso; n; N
0,25 0,3;10;4000
Probabilidad
0,2
0,15
0,1
0,05
0
0 2 4 6 8 10
x
En la gráfica de la función de probabilidad acumulada, como ya se comentó

anteriormente en la distribución binomial, sólo indica los saltos de esta función
Probabilidad acumulada Distribución hipergeométrica

1 Prob. del suceso; n; N
0,3;10;4000
0,8
0,6
0,4
0,2
0
0 2 4 6 8 10
x
y hay que imaginar que vale cero para x < máx {0,n − ( N − Np )} , que la función toma
 Np  Nq 
x  y   n − y
el valor F( x ) = ∑ constante en cada intervalo [x, x + 1)
y = máx{0,n −( N − Np )}  N
 n 
para todos los valores de x que verifican máx {0,n − ( N − Np )} ≤ x ≤ mín { Np, n} y
que vale 1 para x ≥ mín { Np, n}.
EJEMPLO 5.16.
Una fábrica de cerámica que realiza sus trabajos en verde y blanco tiene alma-
cenados 1.755 sacos de polvo blanco y 45 de polvo verde. A un empleado se le pide
que traslade 60 sacos y los elige sin fijarse en el color.
a) ¿Cuál es la probabilidad de que x de ellos sean de polvo verde?
b) ¿Qué valores puede tomar x?
c) Si X representa el número de sacos de polvo verde de los 60 elegidos, calcular
la media y varianza de X.
d) Calcular la probabilidad de que lleve exactamente 25 sacos de polvo verde.
e) ¿Cuál es la probabilidad de que no lleve ninguno verde?
f) ¿Y la de que lleve sólo uno verde?
g) ¿Cuál es la probabilidad de que lleve sólo cinco verdes?
 45  1755 
 x   60 − x 
a) P( X = x ) = x = 0,1, 2,..., 45
 1800
 60 
b) Los posibles valores de x han de cumplir la siguiente relación:
es decir.
45
c) µ = E ( X ) = 60 = 1, 5.
1.800
45 1.755 1.740
σ 2 = 60 ⋅ ⋅ ⋅ . 1, 4145.
1.800 1.800 1.799
 45  1.755
 25  35 
d) P( X = 25) = . 8, 3938€ 10 −28 , prácticamente nula.
 1 . 800 
 60 
 45  1.755
 0   60 
e) P( X = 0) = . 0, 2133.
 1.800
 60 
 45  1.755
 1   59 
f) P( X = 1) = . 0,3396
 1.800
 60 
Por tanto, es más probable que lleve uno verde a que no lleve ninguno verde.
 45  1.755
 5   55 
g) P( X = 5) = . 0, 0121
 1.800
 60 
La distribución hipergeométrica se utiliza en experimentos que consisten en ele-

gir n elementos de una población de N elementos clasificados en dos categorías, por
ejemplo: hombres y mujeres, empleados y desempleados, piezas defectuosas y
correctas, personas sanas y enfermas, rocas sedimentarias y no sedimentarias, etc.,
siempre que se elijan a la vez, o sucesivamente y sin reemplazamiento.
Cuando el tamaño de la población N es muy grande, la probabilidad de obte-
ner un elemento de S en cualquiera de las n extracciones es muy aproximado
N
a p = 1 y la aproximación será tanto mejor cuanto mayor sea N y menor sea el
N
número n de elementos que se eligen. Esto significa que, cuando la población tie-
ne un tamaño muy grande, la probabilidad de obtener x de S entre los n elegidos si
el muestreo se realiza sin reemplazamiento es casi la misma que si se realiza con
reemplazamiento, es decir, se puede aproximar la distribución hipergeométrica de
parámetros N, n y p por la distribución binomial de parámetros n y p. En la
n
práctica se acepta como buena esta aproximación si la tasa de sondeo < 0, 1.
N
5.6.7. Distribución de Poisson

Un modelo muy utilizado en experimentos importantes en las Ciencias y en la
Técnica es el definido por Poisson en 1831.
La v.a. de Poisson representa el número de veces que se verifica un suceso
aleatorio en un intervalo de tiempo o de espacio. Por ejemplo, el número de
guerras que comienzan en un año determinado, el número de desintegraciones ra-
diactivas en un intervalo de tiempo, el número de metástasis cancerosas en una
ciudad, el número de terremotos en un año, el número de terremotos en un conti-
nente, el número de accidentes mensuales provocados por la caída de un objeto
muy pesado desde un piso a la acera, etc.
Una v.a. X infinito-numerable se dice que sigue una distribución de Poisson de
parámetro λ ∈R+ , y se escribe X ∼ P (λ ),si puede tomar los valores 0,1,2,…, n,…
con probabilidades:
Por tanto la función de probabilidad es:
que es una función de probabilidad, pues es cero o positiva, al ser producto de

funciones positivas, y además
La media o esperanza matemática y la varianza de esta distribución coinciden

ambas con el valor del parámetro λ, es decir,
La distribución de Poisson también se conoce como distribución de sucesos raros.

Lewis F. Richardson (1881-1953), físico inglés, recopiló el número de guerras de

1820 a 1950 y se propuso contabilizar las muertes producidas en este periodo por acción
intencionada de otra persona incluyendo los asesinatos, pero no las provocadas por de-
sastres naturales, ni las provocadas por hambrunas ni enfermedades. Ante la dificultad
de conocer con exactitud el número de personas muertas en las guerras decidió clasifi-
car las guerras, atentados y asesinatos atendiendo a su magnitud, que la define como el
logaritmo en base 10 del número de muertes. De esta forma el asesinato de magnitud 0,
menos de 10 muertes, es mucho más probable que el de magnitud 2, correspondiente a
100 muertes, y éste aún más probable que el de magnitud 5, es decir, con 100.000 muer-
tos. Al aumentar el valor de la variable disminuye la probabilidad. La variable que mide
la magnitud del desastre se ajusta a una distribución de Poisson.
Richardson afirma también que las guerras son sucesos aleatorios indepen-
dientes y que la probabilidad de que se inicie una guerra en un día cualquiera es la
misma. Representando por X la v.a. «n.o de guerras que comienzan en el mismo
día» y por λ el número medio de guerras en un día determinado, se verifica que
λ x −λ
la probabilidad de que comiencen x guerras el mismo día es P( X = x ) = e .
x!
Como el valor del parámetro λ es pequeño, los valores de x más probables son
0, 1, 2 y la probabilidad de que se inicie un número x grande de conflictos o gue-
rras el mismo día decrece al aumentar el valor de x.
A continuación, se presentan las gráficas que proporciona el programa STAT-
GRAPHICS de las funciones de probabilidad y de probabilidad acumulada para
las distribuciones de Poisson de parámetros λ = 1, λ = 5, λ = 10 € y λ = 70. En las
gráficas de probabilidad acumulada hay que imaginar que la función vale cero hasta
x λy
x = 0, que es ∑ e − λ constante, en cada intervalo [x, x + 1), es decir, entre cada dos
y=0 y !
valores consecutivos de x = 0,1,2,...,n,... y que tiene límite 1 cuando x tiende a infinito.
Distribución de Poisson Distribución de Poisson

0,4 Media 1 Media
Probabilidad
Probabilidad
acumulada
0,3 1 0,8 1
0,2 0,6
0,4
0,1 0,2
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x

0,4 Media 1 Media
Probabilidad
Probabilidad
acumulada
0,3 5 0,8 5
0,2 0,6
0,4
0,1 0,2
0 0
0 3 6 9 12 15 18 0 3 6 9 12 15 18
x x

0,15 Media 1 Media
Probabilidad
Probabilidad
acumulada
0,12 10 0,8 10
0,09 0,6
0,06 0,4
0,03 0,2
0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x

0,05 Media 1 Media
Probabilidad
Probabilidad
acumulada
0,04 70 0,8 70
0,03 0,6
0,02 0,4
0,01 0,2
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
x x
EJEMPLO 5.17.
Para estudiar las ágatas de una región, se considera ésta dividida en diez mil cua-
drados de igual área. Si por término medio, se encuentran tres piezas de ágata mus-
gosa, con inclusiones verdosas de asbesto, la v.a. X = «número de ágatas musgosas en
un cuadrado» se puede suponer que sigue una distribución de Poisson de media 3.
a) Escribir la función de probabilidad de la v.a. X.
b) ¿Cuál es la probabilidad de no encontrar ninguna en un cuadrado?
c) ¿Cuál es la probabilidad de encontrar cuatro en un cuadrado?
d) ¿Cuál es la probabilidad de encontrar al menos cuatro en un cuadrado?
e) ¿Cuál es el número de cuadrados en los que probablemente se encontrarán cuatro?
f) ¿Cuál es el número de cuadrados en los que probablemente no se encontra-
rán ninguna?
 3x −3
 e si€ x = 0,1, 2,..., n,...
a) f ( x ) = P( X = x ) =  x !
0 € si€ x ∉C = {0, 1, 2,..., n,...}

30 −3 −3
b) f (0) = P( X = 0) = e = e . 0, 0498
0!
34 − 3
c) f (4) = P( X = 4) = e . 0,1680
4!
3 3x
d) P( X ≥ 4) = 1 − F (3) = 1 − ∑ e −3 = 1 − 13e −3 . 0, 3528
x=0 x !
e) 10.000 € P( X = 4) . 1.680 cuadrados.

f) 10.000 € P( X = 0) . 498 cuadrados.
EJEMPLO 5.18.
En una zona sísmica el número de terremotos de intensidad mayor que 5 en la es-
cala de Richter durante un año sigue aproximadamente una distribución de Poisson de
media 9. Calcular la probabilidad de que haya en un año: a) ninguno, b) dos terre-
motos, c) al menos uno, d) más de diez.
90 −9
a) P ( X = 0 ) = e . 1, 2341 ⋅ 10 −4
0!
9 2 −9
b) P ( X = 2) = e . 4, 9981 ⋅ 10 −3
2!
c) P ( X ≥ 1) = 1 − P ( X = 0 ) = 1 − 0, 0001234 . 0, 9999
10 9 x −9
d) P ( X > 10 ) = 1 − P ( X ≤ 10 ) = 1 − ∑ e . 0, 2940
x =0 x !
Obsérvese en este ejemplo que al aumentar el valor del parámetro, la proba-

bilidad de que la variable tome los valores 0, 1 y 2 son muy pequeños.
EJEMPLO 5.19.
Calcular las mismas probabilidades del Ejemplo 5.18. para una distribución de
Poisson de media 2.
2 0 −2
a) P ( X = 0 ) = e . 0,1353
0!
2 2 −2
b) P ( X = 2 ) = e . 0, 2707
2!
c) P ( X ≥ 1) = 1 − P ( X = 0 ) = 1 − 0,1353 . 0, 8647
10 2 x −2
d) P ( X > 10 ) = 1 − P ( X ≤ 10 ) = 1 − ∑ e . 1 − 0, 9999 . 0
x =0 x !
Comparando estos resultados con los del Ejemplo 5.18., se comprueba que al
disminuir el valor del parámetro en la distribución de Poisson aumenta la proba-
bilidad de que la variable tome valores pequeños.
En el Capítulo 14 se incluyen los Procesos Estocásticos de Poisson.
5.7. APROXIMACIÓN DE UNA DISTRIBUCIÓN BINOMIAL

POR UNA DE POISSON
Si X ~ B(n, p), puede tomar los valores 0,1,2,…, n, con probabilidades:
al aumentar el valor de n, a la vez que la probabilidad p tiende a cero, pero de tal

modo que np sea constante, la distribución binomial se aproxima a la de Poisson,
pues
Precisamente por ser la función de probabilidad de la distribución de Poisson

el límite de la función de probabilidad de la distribución binomial, cuando au-
menta el número de pruebas y disminuye a la vez la probabilidad p, probabilidad
de que ocurra el suceso que se observa, se conoce a la distribución de Poisson
como la ley de los sucesos raros.
En la práctica se acepta que la aproximación:
es buena si «n es grande», n ≥ 50, y «p es pequeño», p ≤ 0,1, y será tanto mejor

cuanto mayor sea n y menor sea p.
Se puede comprobar que para la distribución de Poisson es:
lo que significa que esta distribución es asimétrica hacia la derecha, es decir, tie-
ne sesgo positivo. Considerando λ = np, se observa que
y esto indica que la distribución de Poisson de parámetro λ = np tiende a ser si-

métrica cuando n → ⬁.
Esto se puede observar en las gráficas de las funciones de probabilidad dibu-
jadas anteriormente.
EJEMPLO 5.20.
Sabiendo que el número medio de jeringuillas defectuosas de las que fabrica un
laboratorio es de una entre mil, ¿cuál es la probabilidad de que entre las 8.000 que
se reciben en un hospital el número de defectuosas sea:
a) al menos uno,
b) un número comprendido entre 3 y 10,
c) menos que 9.
Designando por X la variable aleatoria «n.o de jeringuillas defectuosas de

( )
las que fabrica el laboratorio», X ∼ B n = 8.000, p = 10 −3 , como n = 8.000 > 50 y
p = 10–3 < 0,1 se puede aproximar esta distribución binomial por la de Poisson de
parámetro λ = 8.000 · 10–3 = 8.
Y por tanto
Así:
80 −8
a) P ( X ≥ 1) = 1 − P ( X < 1) = 1 − f (0) . 1 − e = 0, 9997
0!
9 8 x −8
b) P ( 3 < X < 10 ) . ∑ e = 0, 6742
x=4 x !
8 8x −8
c) P ( X < 9 ) = P ( X ≤ 8) . ∑ e = 0, 5925
x =0 x !
EJEMPLO 5.21.
El propietario de un vivero ha comprobado que no germina el 2% de las semi-
llas de cierta especie. Las semillas se venden en paquetes de 200 semillas y el dis-
tribuidor que se las suministra afirma que germinan al menos el 90%.
a) Calcular el valor esperado de las semillas que no germinan en un paquete.
b) ¿Cuál es la probabilidad de que un paquete elegido al azar no cumpla la ga-
rantía dada por el distribuidor?
Si X es la variable aleatoria «n.o de semillas de cada paquete que no germi-

nan», X ∼ B ( n = 200, p = 0, 02 ) .
a) El valor esperado de las semillas que no germinan en un paquete es:
µ = E ( X ) = np = 200 ⋅ 0, 02 = 4.
b) Para calcular la probabilidad de que un paquete no cumpla la garantía del
distribuidor hay que hallar la probabilidad de que el número de las que no
germinan en un paquete sea mayor que (1 − 0, 90) ⋅ 200 = 20.
Como n = 200 > 50 € y p < 0, 1 se puede aproximar la distribución binomial

B ( n = 200, p = 0, 02 ) por la de Poisson de parámetro λ = 4 y por tanto,
La probabilidad de que no se cumpla la garantía del distribuidor es práctica-

mente nula.
TABLA DE DISTRIBUCIONES DISCRETAS
Distribución C Parámetros f(x) Media Varianza Desv. típica
n 1
Discreta Uniforme  si xi ∈C n +1 n2 − 1 n2 − 1
U(n)
C = {1, 2, 3,...,n} f ( xi ) =  n µ= σ2 = σ=
n ∈N  0 si xi ∉C 2 12 12
 q = 1 − p si x = 0
p = P(S)  µ= p
Bernoulli ß(p) C = {0,1} f ( x) =  p si x = 1 σ 2 = pq σ= pq
0< p<1  0 sii x ∉C = {0,1}

n, p = P(S)  n  x n − x
 p q si x ∈C
µ = np
Binomial B (n, p) C = {0,1, 2, 3,..., n} n ∈N f ( x ) =  x σ 2 = npq σ = npq
0< p<1  0
 si x ∉C
Geométrica G(p) p  q x −1 p si x ∈C 1 q q
C = {1, 2, 3,..., n,...} f ( x) =  µ= σ2 = σ=
o de Pascal 0< p<1 p p2 p
 0 si x ∉C
r, p  r + x − 1 r x
Binomial negativa  p q si x ∈C r
σ2 =
rq rq
C = {0,1, 2,..., n,...} 0< p<1 f ( x ) =  r − 1  µ= σ=
BN(r, p) p p2 p
r ∈N  0
 si x ∉C
  N1   N − N1 
   
DISTRIBUCIONES DE PROBABILIDAD DISCRETA
C = { x ∈N m ≤ x ≤ M }   x   n − x  si x ∈C
Hipergeométrica N1 f ( x) =   N
siendo N , n, p =
 N  N   n  µ = np N−n N −n
σ 2 = npq σ = npq
H  N , n, p = 1  n<N  N −1 N −1
 N m = máx {0, n − ( N − N1 )}
 0 si x ∉C
0 < p <1
M = mín { N1 , n}
N1 = Np
N − N1 = Nq
233
λ x −λ
λ f ( x) = P ( X = x ) = e si x ∈C
Poisson P (λ) C = {0,1, 2,..., n,...} x! µ=λ σ2 = λ σ= λ
λ>0
f ( x) = 0 si x ∉C
5.8.1. Razonar si es posible que la función definida por la siguiente tabla sea una
función de probabilidad
X –3 -2 –1 0 1 2 3
F(x) = P(X = x) 0.1 0.2 0.1 0.2 0.1 0.2 0.1
En caso afirmativo, calcular: a) La media, la mediana, la moda, la varianza y la

desviación típica. b) P(X ≤ 1). c) P(–1 ≤ X ≤ 2).
5.8.2. Para estimular el interés en la venta un empresario que paga un sueldo men-
sual de 1.200 €/mes, decide pagar al empleado una cantidad adicional de 200 € por
cada cuadro que venda. El empresario ha estimado la probabilidad de que venda en
un mes x cuadros, y se indica en la siguiente tabla:
X
0 1 2 3 4 5 6 7 8
núm. de cuadros
P(X = x) 0,01 0,20 0,20 0,15 0,15 0,11 0,10 0,05 0,03
En el anuncio que pone para buscar empleados asegura que puede ganar más de
2.600 €/mes.
a) ¿Cuál es la probabilidad de que esto ocurra?
b) Calcular el número de cuadros esperado que venderá en un mes.
c) ¿Qué cantidad mensual cobrará de media el empleado?
d) Calcular la probabilidad de que cobre al mes más de 1.500 € y menos de
2.600 €.
5.8.3. La función de probabilidad de una variable aleatoria discreta definida en

{1,3,5,7} tiene un valor proporcional al de la variable aleatoria.
a) Calcular la constante de proporcionalidad.
b) Escribir la función de probabilidad.
c) Determinar la función de probabilidad acumulada.
d) Calcular la esperanza matemática y la desviación típica.
e) Calcular P(X ≤ 6).
1
5.8.4. Si X es una variable aleatoria binomial de parámetros, n = 16 y p = , calcu-
2
lar las siguientes probabilidades: a) P(X = 8), b) P(X ≤ 6), c) P(6 ≤ X ≤ 10).
1
5.8.5. Calcular la probabilidad de que una variable de Poisson de parámetro
tome un valor mayor que 6. 2
5.8.6. Una gran empresa invita a sus mejores clientes a un concierto. Por experiencias an-
teriores sabe que acudirá el 60% de los invitados. Ningún invitado conoce la lista de per-
sonas seleccionadas y acude al concierto independientemente de que vaya o no otro invi-
tado. Se eligen al azar quince personas de las invitadas. Calcular la probabilidad de que:
a) Sólo acudan cinco al concierto.
b) Acudan al menos diez al concierto.
c) Si sólo hay 1.200 localidades disponibles, ¿a cuántas personas deberán man-
dar invitación para asegurar que no quede ninguna localidad vacía?
5.8.7. En una zona sísmica Z1, el número de terremotos de intensidad mayor que 7 en
la escala de Richter durante un año sigue aproximadamente una distribución de Pois-
son de media 1, y en otra zona Z2 el número de terremotos de intensidad mayor que 4
en la escala de Richter durante un año sigue otra distribución de Poisson de media 5.
¿En qué zona es mayor la probabilidad de que haya más de diez terremotos en un año?
5.8.8. Un tirador de tiro al plato con probabilidad 0,8 de dar en el blanco realiza cua-
tro disparos. Se designa por X el número de aciertos.
a) ¿Cuál es la función de probabilidad de X?
b) Calcular la probabilidad de obtener como mínimo dos aciertos.
5.8.9. Se cruza una cobaya albina aa con un heterocigoto Aa. ¿Cuál es la probabili-
dad de que dos de los seis descendientes sean albinos?
5.8.10. El director de una aseguradora de automovilistas desea saber cuál debe ser la
cuota que tiene que cobrar por un seguro de 30.000 € en caso de accidente mortal,
supuesto que se mantenga la proporción de accidentes mortales en el 7% de los ase-
gurados. Determinar la cuota.
5.8.11. Una distribución de Poisson tiene dos modas que son x = 3 y x = 4. Calcular
la probabilidad de que la variable tome el valor x = 5.
5.8.12. Los árboles de una cierta especie que se someten a un determinado trata-
miento son muy resistentes a la enfermedad E, se puede asegurar que la probabilidad
de que un árbol tratado padezca dicha enfermedad es 0,01. Se designa por X la va-
riable aleatoria cuyos valores son el número de árboles tratados que padecen la en-
fermedad E. En una parcela en la que hay plantados 150 árboles de dicha especie,
a) Dar la función de probabilidad de la variable aleatoria X.
b) ¿Cuál es el número de árboles de la parcela con mayor probabilidad de estar
enfermos?
5.8.13. La probabilidad de que se produzca un apagón en una gran ciudad un día la-
borable es 0,015. a) Calcular la función de probabilidad de que en 250 días labora-
bles falle el suministro de energía x días. b) ¿Cuál es la probabilidad de que el nú-
mero de días sin corte de energía sea inferior a 245?
5.8.14. De 10 bulbos de tulipanes se sabe que tres corresponden a flores blancas y

los restantes son anaranjadas pero no pueden distinguirse a simple vista. Se pide una
planta de flores anaranjadas, se planta un bulbo elegido al azar y si de él salen flores
blancas se planta un segundo, si tampoco fuera de flores anaranjadas se planta un ter-
cero y así sucesivamente hasta que se obtenga uno con flores anaranjadas. Se desig-
na por X la variable aleatoria que indica el número de bulbos que se han necesitado
plantar antes de encontrar el tulipán anaranjado.
a) Hallar la función de probabilidad de la variable X.
b) ¿Cuál es la esperanza matemática de X?
5.8.15. Se sabe que el 40% de las 1.000 cobayas de un laboratorio se han tratado con
un medicamento en experimentación. Se eligen al azar 20 cobayas.
a) ¿Cuál es la probabilidad de que haya x en la muestra de las que han sido tra-
tadas con ese medicamento?
b) Calcular la probabilidad de que haya al menos 3 cobayas tratadas en la mues-
tra.
5.8.16. Se tienen mezcladas 200 semillas de una variedad con 300 de otra y no son
distinguibles a simple vista. Si se eligen al azar 20 de las 500 semillas y X represen-
ta el número de las que son de la primera variedad, se pide:
a) La distribución de la variable X, indicando su función de probabilidad.
b) La media y la desviación típica de X.
c) La probabilidad de que en la muestra haya 20 semillas de la primera variedad,
que haya 3, que haya 15, que haya 5, que no haya ninguna.
5.8.17. La probabilidad de que una sucursal bancaria abra una cuenta con un saldo
inicial superior o igual a 90.000 € es 10–4. Si durante un año abren 1.200 nuevas
cuentas, calcular la probabilidad de que tengan saldo inicial superior o igual a
90.000 €
a) dos cuentas,
b) al menos una cuenta,
c) como máximo dos cuentas.
5.8.18. En la repoblación de una parcela con árboles de la especie E se ha compro-

bado que la probabilidad de que cualquiera de ellos alcance al cabo de cinco años los
tres metros de altura es 0,03. Se plantan 150 árboles de esa especie, si X representa el
número de ellos que alcanzan los tres metros de altura en cinco años, se pide:
a) El número esperado de los que alcanzan los tres metros al cabo de cinco años.
b) La varianza de X.
c) La probabilidad de que superen esa altura: exactamente 4, al menos 4, como
máximo 4.
d) Calcular las probabilidades anteriores, si es posible, aproximando la distri-
bución de X por una distribución de Poisson.
5.8.19. El control de calidad de la producción de una fábrica ha llegado a la con-

clusión de que el 2% de las piezas contiene defectos. En un lote de 50 piezas, ¿cuál
es la probabilidad de que haya al menos tres defectuosas? Determinar el número es-
perado de piezas defectuosas en ese lote.
5.8.20. Se consideran dos caracteres genéticos con dominancia completa cuyos ge-
nes alelos son (A, a) y (B, b). Se cruza un individuo raza pura dominante respecto de
ambos caracteres con otro raza pura recesiva de los que se obtiene la generación F1.
Se cruzan ahora dos individuos de la generación F1 de los que se obtienen 10 indi-
viduos que forman la generación F2. Calcular la probabilidad de que:
a) Sea x el número de individuos de F2 que pertenecen a los dos fenotipos do-
minantes.
b) Por lo menos uno de los individuos de F2 tenga los dos fenotipos dominantes.
c) Exactamente tengan los dos fenotipos dominantes la mitad de los indivi-
duos de F2.
5.8.21. En una fábrica tienen tres máquinas eléctricas que funcionan de forma indepen-
diente cuyas potencias respectivas son: 1 kw, 2 kw y 3 kw. La probabilidad de que estén
en marcha en una jornada laboral cada una de ellas es, p1 = 0, 6, € p2 = 0, 8 y p3 = 0, 3,
respectivamente. Se considera la variable aleatoria cuyo valor es la suma de las potencias
de las máquinas que están en funcionamiento en un instante dado. Se pide:
a) La función de probabilidad de la variable aleatoria X.
b) La esperanza matemática de X.
5.8.22. Las semillas de una leguminosa se envasan en bolsas de 200 unidades cada
una y se ha comprobado que el 2% de las semillas son infértiles. Se indica por X el
número de semillas que no germinan por bolsa.
a) ¿Cuál es la función de probabilidad de X?
b) Hallar el valor esperado del número de semillas que no germinan y la varianza.
c) ¿Se puede aproximar esta distribución por una de Poisson? Razonar la respuesta.
d) Calcular, si es posible, utilizando la aproximación anterior, la probabilidad de
que el número de la infértiles de una bolsa sea 7.
e) Ídem la probabilidad de que sea menor que 6 el número de las infértiles por bolsa.
5.8.23. En un vivero hay 20 plantas de la misma especie, de las cuales 5 son del eco-
tipo E1 y el resto del ecotipo E2. Se eligen para plantar ocho de esas plantas. Se de-
signa por X el número de las elegidas que son del ecotipo E1.
a) Hallar la función de probabilidad de X, indicando su recorrido.
b) Calcular la media, la varianza y la desviación típica de X.
5.8.24. Una centralita recibe una media de 300 llamadas por hora. No puede esta-
blecer más de 12 conexiones en un minuto. Calcular la probabilidad de que:
a) Quede bloqueada en un minuto dado.
b) Reciba en un minuto una sola llamada.
5.8.25. El promedio de piezas de mármol defectuosas de las cortadas por una má-
quina es de una entre dos mil. Se elige un lote de 9.000 de las piezas cortadas por di-
cha máquina. Calcular la probabilidad de que el número de defectuosas sea:
a) Al menos una.
b) Menor que 10.
c) Mayor que 5 y menor que 10.
5.8.26. En un vivero en el que hay 150 rosales se ha estimado que la probabilidad de

que uno de ellos esté afectado de oidio es 0,01.
a) Dar la función de probabilidad de la variable X cuyos valores son el número
de rosales enfermos de oidio en el vivero.
b) Hallar el número esperado de rosales afectados por esa enfermedad.
c) ¿Cuál será el número más probable de rosales afectados?
d) ¿Cuál es la probabilidad de que al menos el 96% de los rosales no estén afec-
tados por esa enfermedad?
5.8.27. Una compañía aseguradora comienza una campaña telefónica con el objeto
de aumentar el número de asegurados. Se sabe que una de cada 20 personas que con-
testan la llamada decide aceptar la oferta. En un día se habla por teléfono con 25 per-
sonas:
a) ¿Cuál es la probabilidad de que por lo menos dos de ellas se aseguren en esa
compañía?
b) ¿Cuál es la probabilidad de que ninguna se asegure?
c) ¿Cuál es el número esperado de pólizas nuevas?
5.8.28. En una cadena de producción se seleccionan a diario quince unidades para

controlar el porcentaje de defectuosas en la producción. Después de varios años de ob-
servación, se admite que la probabilidad de que una unidad sea defectuosa es de 0,05.
El empresario decide detener la producción cada vez que en una muestra de
quince unidades haya dos o más defectuosas. ¿Cuál es la probabilidad de que en cual-
quier día se detenga la producción?
5.8.29. Un bibliotecario presta libros a 40 personas por término medio en una jor-
nada de ocho horas. Sale quince minutos a tomar café. En ese intervalo de tiempo:
a) ¿Cuál es el número esperado de personas que no le encontrarán en la biblioteca?
b) ¿Cuál es la probabilidad de que al menos una persona no le encuentre?
5.8.30. Se considera una variable aleatoria discreta X con valores estrictamente po-
sitivos y función de probabilidad de la forma:
1 1
 − si€ 1 ≤ x ≤ 5a, € € siendo€ a ∈ Z +
P( X = x ) =  a 5
 0 si€ € x > 5a
a) Calcular el valor de a para que esa función sea una función de probabilidad.
b) Determinar la función de probabilidad acumulada de X.
c) Calcular la esperanza matemática de X.
d) ¿Qué relación han de tener a y b para que la función de probabilidad de Y sea:
1 1
 − si 1 ≤ y ≤ ab, siendo€ a, b ∈ Z +
P(Y = y) =  a b
 0 si x > ab
e) ¿Qué valor tendrán a y b si se sabe que E (Y) = 28,5?
5.8.31. Se trata contra determinada enfermedad el 40% de los árboles de una parce-
la. Se sabe que la probabilidad de que un árbol tratado enferme es 0,02 y que la pro-
babilidad de que sufra la enfermedad un árbol no tratado es 0,30.
a) Calcular la probabilidad de que no enferme un árbol cualquiera de la parcela.
b) ¿Cuál es la probabilidad de que haya sido tratado un árbol que no enfermó?
c) Si se sabe que el tratamiento aplicado a cada árbol costó k €, y que se han
vendido todos los árboles de la parcela al precio de 3k € los sanos y a k € los
enfermos, calcular la ganancia esperada por árbol.
continuas 6
6.1. DEFINICIÓN DE VARIABLE ALEATORIA CONTINUA
Si E, el espacio muestral correspondiente a un experimento aleatorio, es un

conjunto infinito no numerable, como puede ser un intervalo de ⺢ o toda la recta
real ⺢, A es una σ-álgebra de sucesos de E y P una medida de probabilidad de-
finida sobre A, se dice que la terna (E, A, P) es un espacio probabilístico.
En el espacio probabilístico (E, A, P) se define una variable aleatoria continua
X del siguiente modo:
La aplicación X del espacio muestral E en ⺢.
es una variable aleatoria continua si ∀x ∈R el conjunto Bx = {e ∈E/X(e) ≤ x} ∈A

es decir, si el conjunto de todos los elementos de E que se transforman por X en
un número real menor o igual a x es un suceso de la σ-álgebra A.
E
Bx
e
R
x
X–1
X(e)
0 P(Bx) 1 R
241
Como consecuencia de esta definición, se puede definir la probabilidad de que

la v.a. continua tome un valor menor o igual a x,
6.2. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE

ALEATORIA CONTINUA
La función de distribución de la v.a. continua X es una aplicación de R en R

definida por:
que de ahora en adelante se escribirá simplemente F( x ) = P( X ≤ x ), que es conti-

nua y derivable en toda la recta real, salvo a lo sumo en un número finito de puntos.
d
Es decir, la derivada F( x ) = f ( x ) existe y es una función continua salvo a lo
dx
sumo en un número finito de puntos.
Propiedades de la función de distribución:

P1. ∀x ∈R es 0 ≤ F( x ) ≤ 1, por ser una probabilidad.
P2. La función F(x) es monótona creciente, es decir:
P3. La función de distribución de una variable aleatoria continua es una fun-

ción continua, es decir,
P4. La función de distribución de una variable aleatoria continua es una fun-

ción derivable, salvo a lo sumo en un número finito de puntos, es decir,
d
F( x ) = f ( x ) existe en toda la recta real salvo como máximo en un nú-
dx
mero finito de puntos.
P5. lim F( x ) = 1.
x →+ `
P6. lim F ( x ) = 0.
x →− `
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 243
EJEMPLO 6.1.
Representar la función
 0 si x < 2
 x−2
 si 2 ≤ x < 4
 10
 1
F( x ) =  si 4 ≤ x < 5
 5
 4 x − 19
 5 si 5 ≤ x < 6

 1 si x ≥ 6
y comprobar que es una función de distribución para una variable aleatoria continua.
La gráfica de F(x) es:

F(x)
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
La función toma valores comprendidos entre 0 y 1 en toda la recta real, se

pueden considerar probabilidades. Es monótona creciente y continua en toda la
recta. No es derivable en los puntos de abscisa 2, 4,5 y 6, como se observa en la grá-
fica, y sí lo es ∀x ∈R − {2, 4, 5, 6} . El lim F ( x ) = 1 y el lim F( x ) = 0. En con-
x →+ ` x →− `
secuencia, se trata de la función de distribución de una variable aleatoria continua.
6.3. PROBABILIDAD ASOCIADA A UN PUNTO
Por ser la función de distribución F(x) una función continua, la probabilidad

de que una v.a. continua tome un valor x ∈⺢ es nula, ya que:
Para las variables aleatorias continuas la probabilidad asociada a un punto es

nula y por ello también es nula la probabilidad asociada a un conjunto finito de
puntos, e incluso es nula la probabilidad asociada a un conjunto infinito-nume-
rable de puntos, como consecuencia del axioma de la aditividad completa de la
probabilidad.
6.4. FUNCIÓN DE DENSIDAD DE PROBABILIDAD

DE UNA VARIABLE ALEATORIA CONTINUA
La función de densidad de probabilidad de la v.a. continua X, o simplemente

d
función de densidad de X, es la función real definida por f ( x ) = F( x ), que es,
dx
como se dijo anteriormente, una función definida y continua en toda la recta
real salvo a lo sumo en un número finito de puntos.
Propiedades de la función de densidad:
P1. La función de densidad de una v.a. continua es siempre positiva o cero,

ya que por ser F(x) una función monótona creciente se tiene que
d
P2. Por ser f ( x ) = F( x ), es decir, la función de densidad es la derivada de
dx
la función de distribución, también se puede escribir una nueva relación
entre las funciones de densidad de probabilidad y de distribución, que es
consecuencia del Teorema Fundamental del Cálculo:
P3. Tomando límite en la expresión anterior cuando a → – ⬁ , se obtiene otra

relación entre esas dos funciones:
+`
P4. ∫ f ( x )dx =1, es decir, el área limitada por el eje real y la función de den-
−`
sidad es la unidad.
x
Esta propiedad se obtiene de la expresión ∫ f (t )dt = F( x ) tomando lí-
mite cuando x → + `, pues −`
EJEMPLO 6.2.
Hallar la función de densidad de probabilidad de la variable aleatoria continua X
cuya función de distribución es la del Ejemplo 6.1. y representarla.
Derivando la función de distribución:
en los puntos en los que es derivable, se obtiene la función de densidad corres-

pondiente, que es:
Está definida ∀x ∈R − {2, 4, 5, 6} pues en los puntos de abscisa 2, 4, 5 ó 6 la

función de distribución no es derivable.
La función de densidad es positiva o cero en toda la recta real y se comprueba
fácilmente que el área limitada por la función f (x) y el eje de abscisas es igual a 1.
cuya gráfica es:
F(x)
x
–11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 1 2 3 4 5 6 7 8 9 10 11
–1
6.5. PROBABILIDAD ASOCIADA A UN INTERVALO
Como consecuencia de ser nula la probabilidad asociada a un punto para las va-
riables aleatorias continuas, se verifica que cualquiera que sea la v.a. X continua:
Teniendo en cuenta el Teorema Fundamental del Cálculo, se puede escribir:
igualdad que significa que la probabilidad de que una v.a. continua X tome valo-
res en el intervalo [a, b] es el área limitada por el eje de abscisas, la función de
densidad y las ordenadas x = a y x = b. Y esta probabilidad es la misma tanto si el
intervalo es cerrado, abierto o semiabierto.
Observación: Es importante resaltar que no ocurre lo mismo en las variables

aleatorias discretas, en las que se puede dar el caso de que P( X = a) ≠ 0. Por tanto,
si X es una v.a. discreta, puede ser distinta la probabilidad de que X ∈[a, b], de
que X ∈( a, b ], de que X ∈[ a, b ) , o de que X ∈( a, b). En el caso de las variables
aleatorias discretas la función de probabilidad f(x) = P(X = x) da la probabilidad
puntual, pero esto no es así en el caso continuo.
Para las variables aleatorias continuas la función y = f(x) no representa la pro-

babilidad de que la variable tome un valor determinado sino que permite calcular
la probabilidad de que la variable pertenezca a un intervalo, como se explicó an-
teriormente. Teniendo en cuenta el Teorema del Valor Medio del cálculo integral
se puede afirmar que: si [a, b] es un intervalo cerrado en el que la función de den-
sidad y = f (x) es continua, existe al menos un punto c ∈[a, b] que verifica
Es decir, el área limitada por la función de densidad, el eje de abscisas y las

rectas y = a e y = b coincide con el área de un rectángulo de base el intervalo [a, b]
y altura f (c), el valor de la función de densidad en un punto intermedio.
EJEMPLO 6.3.
Hallar la función de densidad de la v.a. X que tiene por función de distribución:

 0 si x ≤ 0
 1
F ( x ) = 5 x si 0 < x ≤
 5
1
 1 si x >
 5
y representar las funciones de distribución y de densidad.
La gráfica de la función de distribución es:

y
4
2
y = F(x)
1
x
–4 –3 –2 –1 1/5 1 2 3 4
–1
–2
–3
–4
Derivando F(x) respecto de x, se obtiene la función de densidad:

y su gráfica es la siguiente:
5
y = f(x)
0 1/5
Se observa que la función de distribución no es derivable en dos puntos, los de

abscisas 0 y 1/5 y por tanto la función de densidad no está definida para x = 0 ni
tampoco para x = 1/5.
Esta distribución es un ejemplo de la distribución continua más sencilla, la
distribución continua uniforme que se verá más adelante en el Epígrafe 6.11.1.
EJEMPLO 6.4.
La función de densidad de una v.a. X es de la forma:
kx ( x 2 − 2) si 0 < x < 1

f (x) = 
 0 si x ∉ ( 0,1)
a) Determinar el valor de k.
b) Calcular la probabilidad P(X < 0,7).
a) Para determinar el valor de k se obliga a que el área limitada por el eje de

abscisas y esta función sea igual a la unidad:
La función de densidad es:
Se ha obtenido un valor negativo para k porque el producto x (x2 – 2) es ne-

gativo en el intervalo (0, 1).
Obsérvese que la función de densidad de una variable aleatoria continua pue-
de tomar valores mayores que la unidad, en este caso se puede comprobar que
4
f (1) = > 1, sin embargo en las distribuciones discretas los valores de la función
3
de probabilidad son siempre números mayores o iguales a cero, y menores o
iguales a la unidad por ser probabilidades.
b) Para calcular la probabilidad P(X < 0,7) se integra la función de densidad,
EJEMPLO 6.5.
 x − 1 si 1 ≤ x ≤ 2 
 
a) Comprobar que la función f ( x ) =  3 − x si 2 < x ≤ 3  es una función de
 0 para el resto 
densidad.  
b) Determinar la función de distribución correspondiente.
c) Calcular la P(1,5 < X ≤ 2,5).
+`
a) La función f(x) ≥ 0, ∀ x ∈⺢, falta comprobar que ∫ f ( x )dx = 1.
−`
Por tanto, se trata de una función de densidad.

b) Para hallar la función de distribución hay que integrar la función de densidad:
La función de distribución es:
c)
6.6. ESPERANZA MATEMÁTICA O VALOR ESPERADO

DE UNA VARIABLE ALEATORIA CONTINUA
La esperanza matemática de la v.a. X con función de densidad f(x) es el nú-

+`
mero real definido por µ = E ( X ) = ∫ x f ( x ) dx, siempre que esta integral sea abso-
−`
+`
lutamente convergente. En el caso en que no se verifique que ∫ x f ( x ) dx sea un
−`
número finito, se dice que la v.a. X no tiene esperanza matemática finita.
La esperanza matemática de la v.a. X también se conoce como el valor espe-
rado o la media de la distribución de X.
EJEMPLO 6.6.
Hallar la esperanza matemática de la variable aleatoria X con función de den-
 x − 1 si 1 ≤ x ≤ 2

sidad f ( x ) =  3 − x si 2 < x ≤ 3
 0 para el resto

La esperanza matemática de la variable aleatoria X es:
Propiedades de la esperanza matemática

P1. Si X = a entonces E(X) = a porque
P2. Si X es una variable aleatoria y a y b son constantes reales, por las pro-
piedades de la integral definida:
P3.
Esto significa que la esperanza matemática de la variable aleatoria X es el cen-

tro de gravedad de su distribución.
P4. E(a X + b Y) = a E(X) + b E(Y), siendo X e Y dos variables aleatorias
continuas y a, b ∈⺢, como consecuencia de las propiedades de la integral.
6.7. MOMENTOS DE UNA VARIABLE ALEATORIA

CONTINUA
• Momentos respecto de la media o momentos centrales
El momento de orden r respecto de la media de la v.a. X es:
siempre que la integral sea absolutamente convergente.

Como en el caso discreto, se cumple que:
y que
Para r = 2 se obtiene la varianza, σ2 = Var (X):
Si esta integral es absolutamente convergente, será siempre positiva o cero.

La raíz cuadrada positiva de la varianza recibe el nombre de desviación típica
Propiedades:
P1. Var (aX + b) = a2 Var ( X ), y en consecuencia σ aX +b = a σ X .
P2. Si a la v.a. X que tiene E(X) = µ y desviación típica σ se le resta la media
y se divide el resultado por la desviación típica, se obtiene otra variable,
X−µ
Z= , que tiene E( Z ) = 0 y desviación típica 1. Se dice que se ha
σ
tipificado la variable X.
• Momentos respecto del origen
El momento de orden r respecto del origen para la v.a. X es:
entendiendo, como en el caso anterior, que la integral sea absolutamente conver-

gente.
En particular:
Para r = 0 se tiene α0 = 1.
Para r = 1 es α1 = E(X) = µ.
Para r = 2 es α2 = E(X2).
• Relaciones entre los momentos respecto de la media y los momentos

respecto del origen:
Las fórmulas, que ya se conocen para las variables aleatorias discretas, son tam-
bién válidas para variables aleatorias continuas. Así, sigue siendo válida la relación
2
µ2 = α 2 − (α1 ) entre la varianza y los momentos de orden 1 y 2 respecto del origen,
que para las variables continuas significa:
que proporciona un procedimiento útil para el cálculo de la varianza de variables

aleatorias continuas.
Para el momento de orden 3: µ3 = α 3 − 3α 2α1 + 2α13 .
Para r = 4: µ4 = α 4 − 4α 3α1 + 6α 2α12 − 3α14 .
En general, para el momento de orden r respecto de la media:
EJEMPLO 6.7.
Calcular la varianza de la variable aleatoria X con función de densidad:
 x − 1 si 1 ≤ x ≤ 2

f ( x ) =  3 − x si 2 < x ≤ 3
 0 para el resto

6.8. OTROS PARÁMETROS DE INTERÉS PARA VARIABLES

ALEATORIAS CONTINUAS
Se define el coeficiente de variación de la v.a. X como el cociente entre la

desviación típica y el valor absoluto de la esperanza matemática de X, siempre
que µ ⫽ 0, por tanto es siempre un número positivo
La moda es el valor, o valores, de la variable para el que la función de densi-

dad tiene un máximo relativo.
Los cuartiles son tres valores que dividen la distribución en cuatro partes de
igual probabilidad.
El primer cuartil es κ1 tal que F (κ 1 ) = P( X ≤ κ 1 ) = 0, 25.

El segundo cuartil, o mediana, es el valor κ2 tal que F(κ 2 ) = P( X ≤ κ 2 ) = 0, 50.
El tercer cuartil es κ3 tal que F (κ 3 ) = P( X ≤ κ 3 ) = 0, 75.
De forma análoga, se definen los percentiles.

El percentil t-ésimo es el valor πt tal que
6.9. CARACTERÍSTICAS DE FORMA
Coeficiente de sesgo, o coeficiente de asimetría, de la v.a. X, se define como

el cociente entre el momento central de orden 3 y la desviación típica al cubo:
que aporta información sobre la simetría de la distribución de X.

Si, γ1 > 0, se dice que la distribución tiene asimetría positiva, indicando que
hay valores de la variable más distanciados de la media a la derecha de ésta.
Si γ1 = 0, la distribución de la v.a. X es una distribución simétrica.
Si γ1 < 0, se dice que la distribución tiene asimetría negativa. Hay valores de
la variable más alejados de la media por la izquierda.
Coeficiente de curtosis de la v.a. X, es:
Se utiliza para comparar el aplastamiento de la distribución de X con respecto a la

curva de Laplace-Gauss, correspondiente a la distribución normal de igual media y des-
viación típica que la variable X. La distribución normal se verá en el Epígrafe 6.11.2.
Si γ2 > 0 la distribución es leptocúrtica, más apuntada que la normal de media
µ = E(X) y desviación típica σ = σX.
Si γ2 = 0 se dice que es mesocúrtica, igual de apuntada que la normal de me-
dia µ y desviación típica σ.
Si γ2 < 0 la distribución es platicúrtica, o platocúrtica, menos apuntada que la
normal de media µ y desviación típica σ.
6.10. ACOTACIÓN DE CHEBYSHEV
Una acotación válida para todo tipo de distribuciones, continuas o discretas, y

que será útil para la inferencia estadística cuando no se pueda aceptar que los da-
tos proceden de distribuciones normales, es la desigualdad de Chebyshev:
Si X es una v.a. de media µ y desviación típica σ, finitas, cualquiera que sea la
constante k > 1, se verifica:
Lo que significa que la probabilidad de que la variable diste de su media menos

1
de k veces su desviación típica es al menos 1 − 2 .
k
EJEMPLO 6.8.
Para cualquier variable aleatoria X, discreta o continua, de media µ y desviación
típica σ, se puede asegurar que:
1
P ( X − µ < 2, 5 σ ≥ 1 −
) = 0, 840
2, 52
Una forma equivalente de escribir la desigualdad de Chebyshev, teniendo en

cuenta la probabilidad del suceso contrario, es la siguiente:
que indica que la probabilidad de que la variable diste de su media al menos k veces
1
la desviación típica es como máximo 2 .
k
EJEMPLO 6.9.
La distribución de la variable aleatoria X es desconocida. Se sabe que su media
es 3,2 y la varianza 4. Calcular: a) P(−4, 8 < X < 11, 2), Ä b) P ( X − 3, 2 > 4 ) .
Como σ 2 = 4 ⇒ σ = 2 y por tanto:
a) P(−4, 8 < X < 11, 2) = P ( X − 3, 2 < 8) ≥ 1 − 1 = 15 = 0, 9375..

16 16
 1 1
b) P ( X − 3, 2 > 4 ) = 1 − P ( X − 3, 2 ≤ 4 ) ≤ 1 −  1 − 2  = = 0, 2500.
 2  4
Los resultados sirven para cualquier variable X que tenga media 3,2 y desvia-
ción típica 2, cualquiera que sea la distribución de X, discreta o continua. En el
primer caso da una cota inferior y en el segundo una cota superior de la probabi-
lidad buscada.
Sólo conociendo la distribución de probabilidad de la variable X se podrá de-
terminar el valor de las probabilidades con mayor exactitud.
EJEMPLO 6.10.
De la variable aleatoria X sólo se conoce que su media es 7 y su varianza 9.
a) ¿Qué se puede afirmar sobre las probabilidades siguientes?
P ( X − 7 > 4, 5) , P ( X − 7 ≤ 4, 5) , P ( −0, 5 ≤ X ≤ 14, 5)
b) Determinar el valor de r para que se verifique que P ( X − 7 > r ) ≤ 0, 04.
Como σ 2 = 9 ⇒ σ = 3 y, teniendo en cuenta la desigualdad de Chebyshev,
 
 9   1
a) P ( X − 7 > 4, 5) = 1 − P  X − 7 ≤  ≤ 1 − 1 −  = 4 .
 2  9 9
 
4
4
La P ( X − 7 > 4, 5) es como máximo . 0, 4444.
9
4 5
Teniendo en cuenta el resultado anterior, P ( X − 7 ≤ 4, 5) ≥ 1 − = .
9 9
5
La P ( X − 7 ≤ 4, 5) es al menos . 0, 5556.
9
La P ( −0, 5 ≤ X ≤ 14, 5) es al menos 0,84.

 r = 3k 
 
b) P ( X − 7 > r ) ≤ 0, 04 ⇒  2
1  Por tanto k = 25 y r = 5 ⋅ 3 = 15.
 0, 04 =
k 2 
6.11. ALGUNAS DISTRIBUCIONES CONTINUAS
6.11.1. Distribución continua uniforme

Una v.a. X se dice que sigue una distribución continua uniforme en el inter-
valo (a, b), que se denotará por U (a, b) si la función de densidad es constante en
el intervalo y nula fuera de él, es decir, si
+` b
pero como ha de cumplirse que ∫ f ( x )dx = 1 ⇒ ∫ kdx = 1 ⇒ k (b − a) = 1 ⇒ k = 1 .
−` a b−a
Por tanto:
Integrando la función de densidad, se obtiene la función de distribución:
La esperanza matemática de X es:
y la varianza:
6.11.2. Distribución normal o de Laplace-Gauss

La distribución continua de mayor uso entre las distribuciones de probabilidad
es la distribución normal. Gran parte de las variables que se encuentran en los es-
tudios de ciencias físicas, naturales o sociales siguen este tipo de distribución. Por
ejemplo: talla, peso, edad, ingresos anuales por familia, temperatura, precipitación
pluvial, mediciones taxonómicas, altura de una planta, calificaciones en pruebas
de aptitud, errores de instrumentación, etc.
El origen de la distribución normal se encuentra en el estudio de los errores
experimentales.
Las propiedades matemáticas y el desarrollo teórico de esta distribución se
debe a Laplace (1749-1827), De Moivre (1667-1745) y Gauss (1777-1855).
Se dice que una v.a. X sigue una distribución normal de parámetros µ y σ, y se
escribe X ~ N(µ, σ), si está definida ∀x ∈⺢ y su función de densidad es
A continuación se representan, haciendo uso del programa STATGRAPHICS, las

funciones de densidad de dos distribuciones normales de parámetros µ = 5, σ = 2 y
µ = 5, σ = 1 respectivamente. Obsérvese que las dos gráficas son simétricas res-
pecto de la recta x = 5 y tienen forma de campana. La gráfica también se conoce
con el nombre de campana de Gauss. Adviértase en las gráficas siguientes las es-
calas en el eje de abscisas y en el de ordenadas
Distribución normal Distribución normal

0,2 Media, 0,4 Media,
0,16 Desv. Desv.
Densidad
Densidad
0,3
0,12 Típ. Típ.
0,2
0,08 5,2 5,1
0,04 0,1
0 0
–5 –1 3 7 11 15 0 2 4 6 8 10
x x
La función de densidad de la v.a. X , N ( µ , σ ), tiene un máximo para x = µ y

tiene dos puntos de inflexión, cuyas abscisas son x = µ ± σ. Cuanto mayor es el
valor de σ la curva está más extendida.
1  x −µ 
+` −  +`
2
La comprobación de que ∫ f ( x )dx = ∫ 1 e 2  σ  dx =1 precisa utilizar


−` −` σ 2π
integrales dobles y realizar un cambio a coordenadas polares, por no poderse hallar

1  x −µ 
− 
2

una primitiva de la función 1 e 2  σ 
σ 2π
.
Las funciones de distribución correspondientes a las funciones de densidad re-

presentadas anteriormente son:
Distribución normal Distribución normal
1 Media, 1 Media,
Probabilidad
Probabilidad
acumulada
acumulada
0,8 Desv. 0,8 Desv.
0,6 Típ. 0,6 Típ.
0,4 –5,2 0,4 –5,1
0,2 0,2
0 0
–5 –1 3 7 11 15 0 2 4 6 8 10
x x
La esperanza matemática de la v.a. X , N (µ, σ ), es:
y la varianza es:
• Coeficiente de sesgo de la N(µ, σ)
La simetría de la función de densidad de la distribución normal N(µ, σ) res-

pecto de la recta x = µ, permite asegurar sin necesidad de efectuar los cálculos que
µ3, momento de orden 3 respecto de la media, es nulo. En consecuencia, se puede
afirmar que el coeficiente de sesgo de la distribución N(µ, σ) es γ1 = 0.
• Coeficiente de curtosis de la N(µ, σ)

Para la normal de media µ y desviación típica σ se calcula
de donde se obtiene el coeficiente de curtosis de la distribución N(µ, σ) que es:
La distribución N(µ, σ) es la que se toma como patrón para definir el apunta-

miento de las restantes distribuciones que tienen su misma esperanza matemática
y la misma varianza que ella, como se indicó en el Epígrafe 6.9.
• Cálculo de la probabilidad de que una variable X ~ N (µ, σ) pertenezca a

un intervalo.
La probabilidad de que una variable X ~ N (µ, σ) pertenezca a un intervalo (a, b) es:
efectuando el cambio de variable:
se tiene:
Este cálculo requiere utilizar métodos de integración numérica por no poder

hallar una primitiva de la función de densidad de la distribución normal.
X−µ
Realizar el cambio = Z , es decir, centrar la variable X o restar su media,
σ
y reducirla, dividiendo por su desviación típica, es tipificar la variable X.
Los cálculos de probabilidades para todas las variables normales X , N (µ , σ ) se
pueden reducir, tipificando la variable X, a los de una sola utilizando la variable centra-
X−µ
da y reducida Z = . La variable Z tiene media cero y desviación típica 1. Se dice
σ
que Z , N ( 0, 1) y su función de densidad, que no depende de ningún parámetro, es
La gráfica de la función de densidad correspondiente a la N (0, 1) representada

con el programa STATGRAPHICS es:
Distribución normal
0,4 Media,
Desv.
0,3
Densidad
Típ.
0,2 0,1
0,1
0
–5 –3 –1 1 3 5
x
Esta función es simétrica respecto de la recta x = 0. La moda de esta distri-

1
1 − 2 x2
bución coincide con la media y es igual a 0. La función f ( x ) = e tiene su
máximo para x = 0. 2π
1 − 12 t 2 z
La función de distribución correspondiente es F( z ) = ∫e dt y la grá-
−` 2π
fica proporcionada por STATGRAPHICS se presenta a continuación:
Distribución normal
1 Media,
0,8 Desv.
Probabilidad
acumulada
Típ.
0,6
–0,1
0,4
0,2
0
–5 –3 –1 1 3 5
x
Esta función se obtiene por integración numérica de la función de densidad de

Z ~ N(0,1).
Por la simetría de la función de densidad, se sabe que:
y también que:
Los resultados del cálculo numérico de la integral
se encuentran recogidos en la Tabla I del Apéndice I para los valores de z com-

prendidos entre 0 y 3,59
Con la Tabla I se pueden calcular las probabilidades para una variable
X , N ( µ , σ ), cualquiera que sea el valor de los parámetros µ y σ, como se verá a
continuación.
EJEMPLO 6.11.
Para una variable aleatoria X que sigue una distribución normal N(µ = 30, σ = 2)
calcular las siguientes probabilidades:
EJEMPLO 6.12.
Se embolsa por kg arena recogida en un río. Se sabe que el porcentaje de hu-
medad X, por kg de arena sigue una distribución N(µ = 15, σ = 0,3), sólo se aceptan
los sacos con porcentaje de humedad menor del 18%, ¿qué porcentaje de los sacos
no se aceptarán? ¿Qué porcentaje tienen más del 12% y menos del 18%?
No se aceptarán el 15,87% de los sacos.
El 68,26% de los sacos tienen más del 12% de humedad y menos del 18%.
EJEMPLO 6.13.
La longitud X de las piezas de mármol, en metros, cortadas por una máquina si-
gue una distribución N(µ = 0,5, σ = 0,01). Para una obra especial sólo se aceptan
las piezas de longitudes comprendidas entre 0,495 m y 0,505 m. ¿Qué probabilidad
hay de aceptar una pieza elegida al azar? ¿Qué proporción de piezas se pueden en-
tregar?
Se puede entregar el 38,30% de las piezas cortadas.
EJEMPLO 6.14.
Si X ~ N(5,2) determinar un intervalo centrado en la media tal que la probabili-
dad de que X pertenezca al intervalo sea 0,95.
Para determinar el intervalo con probabilidad 0,95 hay que dar un número r
positivo tal que P ( X − 5 < r ) = 0, 95.
Pero
r
De la tabla de la N(0,1) se obtiene que = 1, 96, de donde r = 3,92. Por tanto
2
el intervalo pedido es { x ∈R / x − 5 < 3, 92} = { x ∈R / 1, 08 < x < 8, 92} = (1, 08; 8, 92)).
• La distribución normal y la teoría de errores de variables continuas

Todos hemos comprobado que al realizar varias mediciones de una variable
continua, como puede ser medir una longitud, la tensión eléctrica o realizar una
pesada, los resultados presentan variabilidad. Se puede decir que al realizar esas
mediciones los resultados vienen afectados de errores aleatorios. Además, si se re-
pite la misma medida muchas veces cuidadosamente, los errores aleatorios pe-
queños serán más probables que los errores muy grandes, de tal modo que si se re-
presentara el histograma de las mediciones se obtendría un rectángulo central de
frecuencia máxima y a ambos lados rectángulos de menor frecuencia que forma-
rían una figura con forma de campana, pues tan probables serán los errores por
defecto como por exceso.
Gauss ajustó una función del tipo:
siendo k una constante que determina con la condición de que f(x) sea una función
de densidad de probabilidad de una variable continua, por tanto k ≥ 0 y además
Se obtiene así la función de densidad de la distribución normal de media µ y

desviación típica σ
La distribución normal tiene múltiples aplicaciones, no sólo en las distribu-

ciones de gran parte de las variables de las ciencias de la naturaleza y de las cien-
cias sociales, de los errores de medida de magnitudes en física, astronomía, quí-
mica, geología, biología, etc., sino además también como aproximación de otras
distribuciones como la binomial, de Poisson o hipergeométrica, como se verá más
adelante.
TABLA 6.1. Distribuciones continuas.
Distribución Parámetros f(x) Media Varianza

 1
U(a, b)  si x ∈( a, b ) a+b ( b − a )2
a, b f ( x) =  b − a µ= σ2 =
Uniforme en (a ,b) 2 12
 0 si x ∉( a, b )

N(µ, σ ) 1  x− µ 
2
µ, σ 1 − 
Normal o de σ  µ σ2
σ>0 f ( x) = e 2
Laplace-Gauss σ 2π
Normal tipificada 1 − z2 2
Z ~ N(0,1)
— f (z ) = e 0 σ2 =1
2π
6.12.1. Calcular el valor de α, sabiendo que es positivo, para que la función
f ( x ) = α ( x − 2) (10 − x )
sea la función de densidad de la variable aleatoria X.
6.12.2. La función de densidad de una variable aleatoria continua X es:

1
f (x) = , ∀x ∈R
(
π eα x + e − α x )
Calcular:
a) El valor de la constante α.
b) La función de distribución.
6.12.3. La variable aleatoria continua X tiene función de densidad de la forma:
 β x2 si 0 < x ≤ 2

f ( x ) = β ( 6 − x ) sii 2 < x ≤ 6
 0 en el resto

Se pide:
a) Calcular el valor de β para que f(x) sea su función de densidad.
b) Hallar la correspondiente función de distribución.
c) Calcular el valor esperado de X
d) Se eligen cinco valores al azar de X, ¿cuál es la probabilidad de que exacta-
mente dos de ellos estén comprendidos entre 2 y 4?
6.12.4. Calcular el valor de k para que la función
0 si x < 0

f ( x ) =  kx si 0 ≤ x ≤ 5
0 si x > 5

sea la función de densidad de una variable aleatoria y determinar la función de

distribución correspondiente.
 0 si x<3
 4 x − 12 si 3 ≤ x < 3, 5
6.12.5. Dada la función f ( x ) = 
 −4 x + 16 si 3, 5 ≤ x < 4
 0 si x>4
a) Comprobar que f(x) es una función de densidad.

b) Calcular la esperanza matemática de la v.a. X que tiene por función de den-
sidad f(x).
6.12.6. La función de densidad de la variable aleatoria continua X es:
3Kx 3 si 0 < x ≤ 1

f ( x ) =  K (4 − x ) si 1 < x ≤ 4
 0 en el resto

Se pide:
a) Calcular el valor de K.
b) Hallar la función de distribución de la variable X.
c) Calcular la media de X.
6.12.7. La variable aleatoria Y simboliza el tiempo de una llamada telefónica y la

función de densidad de Y es:
 0 si t ≤ 0
f (t ) =  −kt
 β e 4 si t > 0
para un valor de k mayor que cero.

a) Determinar el valor de β.
b) Dar la función de distribución.
c) Si k = 4, calcular la probabilidad de que una llamada dure más de 5 minutos.
d) ¿Cuál es la probabilidad de que una llamada dure entre 5 y 10 minutos?
6.12.8. La función de densidad de la variable aleatoria X es:
 0 si x ≤ 0

f ( x ) =  cx 2 si 0 < x < 2
 2− x
ce si x ≥ 2
a) Determinar el valor de c.
b) Hallar la función de distribución de la variable aleatoria X.
c) Calcular la probabilidad del suceso A ∪ B, siendo
A = { x ∈R x ≤ 1, 5} y B = { x ∈R x > 1, 5}
d) Calcular la probabilidad de que X esté comprendida entre 1,5 y 3.

e) Hallar P(X > 3 | X > 2).
f) Hallar la esperanza matemática y la varianza de X.
g) Hallar el coeficiente de asimetría de la variable aleatoria X.
6.12.9. El cociente intelectual se define como el cociente entre la edad mental y la

edad cronológica de una persona. Expresado el cociente intelectual en tanto por
uno, su distribución en un grupo de 2.000 estudiantes es normal de media 0,8 y des-
viación típica 0,5. Calcular el número de estudiantes con cociente intelectual:
a) comprendido entre 0,7 y 1,2
b) inferior a 0,3
c) inferior a 0,9
d) superior a 1,4
6.12.10. La función de densidad de una variable aleatoria X es:
 −x 4
f ( x ) =  β xe si x ≥ 0
 0 para cualquier otro valor
a) Determinar el valor de β para que f(x) sea función de densidad.

b) Hallar la función de distribución.
c) Calcular P ( X ≤ 12 ) , P ( 0 ≤ X ≤ 8) , P ( 0 ≤ X ≤ 12 X ≥ 8) .
d) Calcular la media y la varianza de X.
6.12.11. Utilizando la tabla de la distribución normal, calcular las siguientes proba-

bilidades, sabiendo que Z ~ N(0,1).
a) P ( Z > 1, 76) ; P ( Z < 1, 05) ; P ( Z > −0, 13) ; P ( Z < −1, 14 ) .
b) P (1, 18 < Z < 1, 39) ; P ( −1, 84 < Z < −0, 44 ) .
c) P ( −2, 33 < Z < 0, 97) .
d) Probabilidad de que Z esté comprendida entre – 0,98 y – 0,63.
6.12.12. Para la variable aleatoria Z ~ N(0,1), hallar el área bajo la curva de su función
de densidad y que está comprendida entre –z y z, para los siguientes valores de z:
z = 1; z = 1, 96; z = 2; z = 2, 33; z = 2, 58; z = 3
6.12.13. Hallar el valor de la variable aleatoria Z ~ N(0,1) que verifica cada una de
las siguientes condiciones:
a) La probabilidad entre 0 y z es 0,4505.
b) El valor de z deja a su derecha probabilidad 0,9292.
c) El valor de z deja a su izquierda probabilidad 0,0307.
d) La probabilidad por debajo de z es 0,6480.
e) El valor de z deja a su derecha probabilidad 0,0392.
f) La probabilidad comprendida entre –z y z es 0,5934.
6.12.14. Una variable aleatoria tiene una distribución normal de media 57,4 y
desviación típica 8,4 ¿cuál es la probabilidad de que esta variable aleatoria tome un
valor:
a) Menor que 70.

b) Menor que 51,1.
c) Comprendido entre 59,5 y 76,3.
d) Comprendido entre 44,8 y 72,42.
6.12.15. En una bolsa de trabajo hay 80.000 personas cuyo cociente intelectual,
expresado en tanto por ciento, está distribuido según una normal con media 107 y
desviación típica 12. Si cierto trabajo sólo lo pueden realizar las personas con un co-
ciente intelectual de al menos 100 y los que tienen un cociente intelectual superior a
120 se cansan pronto y se aburren con dicha tarea, determinar cuántas personas de la
bolsa de trabajo serán idóneas para realizar esa tarea teniendo en cuenta sólo la in-
formación proporcionada por el cociente intelectual.
6.12.16. Los gastos anuales por familia en una determinada Comunidad Autónoma
siguen una distribución normal de media 17.655 € y desviación típica 2.730 €. Para
esa población
a) ¿Qué porcentaje de familias gastan anualmente menos de 12.500 €?
b) ¿Qué porcentaje de familias tienen un gasto anual superior a 18.000 €?
c) Calcular el percentil 90 para la distribución de los gastos anuales en esa Co-
munidad Autónoma.
6.12.17. Una población formada por cinco millones de insectos de la misma especie
tiene el 52% de hembras. La longitud de los machos, en mm, sigue una distribución
normal de media 1,68 y desviación típica 0,2, determinar cuántos machos miden
a) Menos de 1,75 mm.
b) Más de 1,60 mm.
c) Menos de 2,05 mm.
d) Más de 1,20 mm.
6.12.18. Una variable aleatoria X tiene por función de densidad
 K
 3
si x≥0
f ( x ) =  (1 + x )
0 si x<0

a) Determinar el valor de K.
c) Calcular la media, la mediana y el primer cuartil.
6.12.19. El tratamiento de un gran pinar atacado por una plaga de procesionaria tie-
ne una duración normal de media 8 días y desviación típica 3 días. Calcular la pro-
babilidad de que el tratamiento de ese pinar:
a) Sea inferior a siete días.
b) Sea superior a tres días.
c) Esté comprendido entre 10 y 12 días.

d) Esté comprendido entre 1 y 2 días.
6.12.20. La variable aleatoria X tiene por función de densidad de probabilidad:
f ( x ) = ax 3 (1 − x ) , a > 0
a) Determinar el valor de la constante a.

b) Hallar la función de distribución de X.
c) Calcular el valor esperado de X y su varianza.
d) Calcular P(X > 0,5).
e) Calcular la probabilidad de que al tomar veinte valores de X, elegidos alea-
toriamente, haya quince de ellos que sean mayores de 0,5.
6.12.21. La venta anual de la producción de una fábrica es una variable aleatoria X con
valores comprendidos entre cero y diez millones de euros. Se ha ajustado a la función
de densidad de X un modelo de la forma f ( x ) = K (10 − x )2 siendo x ∈[ 0, 10 ] y K
una constante.
b) Dar la función de distribución.
c) Calcular el valor esperado de la venta anual.
d) Calcular la probabilidad de que fabricando por valor de µ + σ en un año no se
puedan atender todos los pedidos de ese año.
6.12.22. La variable aleatoria X tiene recorrido [0, + ⬁) y su función de densidad es

1
f (x) = , ∀x ∈[ 0, + ` )
( x + 1)2
Calcular las probabilidades de los siguientes sucesos:
A; A ∩ B; A ∪ B; B ∩ A; B ∪ C; B ∩ C ; D ∩ E; C ∩ ( D ∪ E ) ; C ∩ E
siendo A = { x ∈R x ≤ 0} ; B = { x ∈R x > 0} ; C = { x ∈R 0 < x ≤ 1} ;
D = { x ∈R − 1 < x < 2} y E = { x ∈R 3 < x } .
6.12.23. Se sabe que X es una variable aleatoria normal, que P(X ≤ 3,5) = 0,4872 y
que P(X ≤ 7,5) = 0,7540. Determinar los parámetros de la distribución de X.
6.12.24. La variable aleatoria X tiene por función de densidad:

−4
 M (1 + x ) si x≥0
f (x) = 
 0 si x<0
a) Determinar el valor de M.
c) Calcular la media, el primer cuartil y la mediana.
6.12.25. Los diámetros de las piezas fabricadas en un taller se distribuyen normal-

mente con media 18,5 mm y desviación típica 1,2 mm.
a) Calcular la probabilidad de que una pieza elegida al azar tenga un diámetro
comprendido entre µ – 2σ y µ + 2σ.
b) Se desechan las piezas de diámetros que sean menores de 15 mm y las de más de
20 mm. ¿Cuántas piezas se espera desechar de una producción de 2.000 piezas?
c) Un cliente exige que los diámetros de las piezas difieran menos de 0,5 mm de
la media, ¿cuántas piezas se pueden seleccionar para este cliente de una pro-
ducción de 2.000 piezas?
6.12.26. La probabilidad de que una variable aleatoria continua X tome un valor menor
o igual que cualquier x de su recorrido, [a, b], es lineal en x. Hallar:
a) La función de distribución de X.
b) La función de densidad de X.
c) El valor esperado, la moda y la mediana de X.
d) La varianza de X.
e) Los coeficientes de asimetría y de curtosis.
6.12.27. La función de densidad de la variable aleatoria X es:
0 si x≤0

f ( x ) = α x 3 si 0 < x <1
 1− x
α e si x ≥1
a) Determinar el valor de α.
b) Dar la función de distribución de X
c) {
Calcular P ( 0, 5 < X < 2 ) ; P ( X > 2 X > 1) ; P( A) siendo A = x ∈R / x ≤ 1 .
2 }
d) Hallar la media y la varianza de la distribución.
e) Calcular el coeficiente de asimetría.
6.12.28. Una máquina corta piezas cuyo grosor es una variable aleatoria continua X con
función de densidad f ( x ) = K ( 3 − x ) ( x − 1, 5) siendo 1, 5 < x < 3, midiendo x en cm.
c) Se rechazan las piezas con grosor menor que 1,7 cm o mayor que 2,8 cm,
¿cuál es la probabilidad de que no se rechace una pieza tomada al azar de las
cortadas por la máquina?
d) Si las piezas se empaquetan en cajas de 10, hallar la probabilidad de que en
una caja elegida al azar haya menos de dos piezas no admisibles.
6.12.29. Para la distribución continua uniforme en el intervalo [0,10] calcular:

a) E(X).
b) σ X2 .
c) Los momentos de orden 3 y 4 respecto de la media.
d) Los coeficientes de asimetría y de curtosis.
6.12.30. La función de distribución de la variable aleatoria X es:
0 si x≤0

F( x ) =  x si 0< x <1
1 si x ≥1

Hallar el valor esperado y la varianza de X.

Distribuciones bidimensionales
y multidimensionales 7
Antes de abordar la inferencia estadística, se darán unas nociones sobre dis-

tribuciones conjuntas de dos variables aleatorias que, además de ser útiles para
construir modelos para distribuciones consideradas en la estadística descriptiva en
las que se observaron simultáneamente dos variables en cada individuo de la
muestra, permitirán definir la independencia de variables aleatorias, concepto
fundamental para poder plantear la estimación de los parámetros y los contrastes
de hipótesis.
A partir del conocimiento de las distribuciones bidimensionales es sencilla la
formalización de las distribuciones multidimensionales.
7.1. DISTRIBUCIONES BIDIMENSIONALES

Y MULTIDIMENSIONALES DISCRETAS
Para facilitar el dominio de la nomenclatura, se comienza con el estudio de las

distribuciones bidimensionales.
Se consideran dos variables aleatorias discretas, X e Y, definidas sobre el
mismo espacio muestral E con conjuntos de valores CX y CY respectivamente, que
pueden ser finitos o infinito-numerables.
La aplicación del espacio muestral E × E en ⺢ × ⺢
es una variable aleatoria discreta si ∀ ( x , y ) ∈R × R el conjunto
273
formado por todos los elementos del espacio muestral E × E que se transforman
en (x, y) por la aplicación (X, Y), es un suceso del espacio muestral, es decir, un
elemento de la σ-álgebra de sucesos de E × E.
A cada par ( x , y ) ∈ CX × CY de la variable aleatoria bidimensional (X, Y), o
vector aleatorio bidimensional V = (X, Y) es decir, a cada uno de los valores
( x, y ) ∈CX × CY se le puede asociar un suceso del espacio muestral E × E.
que es un elemento de la σ-álgebra de sucesos de E × E.

Si en el espacio muestral E × E se ha definido una probabilidad, se puede
{ }
calcular la probabilidad P( Axy ) = P ( e1 , e2 ) ∈ E × E / X (e1 ) = x e Y (e2 ) = y para
cada par ( x, y ) ∈R × R.
Se define la función de probabilidad conjunta de X e Y, o función de proba-
bilidad bidimensional, como la aplicación de ⺢ × ⺢ en ⺢ que a cada par (x, y) le
hace corresponder:
Y se define la función de probabilidad acumulada conjunta, o distribución de

probabilidad acumulada bidimensional, de X e Y como la aplicación ⺢ × ⺢ de en
⺢ que a cada par (x, y) le hace corresponder:
EJEMPLO 7.1.
Se lanza un dado dos veces seguidas. Si (X, Y) representa el resultado de las dos
tiradas, C X = CY = {1, 2, 3, 4, 5, 6} .
La función de probabilidad conjunta de X e Y es:
El valor de la función de probabilidad acumulada conjunta para el par (2, 4) es:

DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES 275
Para el par (5, 6) es:
Para el par (6,6), o para los pares (x, y) en los que x ≥ 6 e y ≥ 6, la función de
probabilidad acumulada conjunta toma el valor 1
7.1.1. Distribuciones marginales

Para una distribución bidimensional, como se hizo en la estadística descripti-
va, se pueden considerar dos distribuciones marginales, una para cada variable,
que son distribuciones unidimensionales:
La función de probabilidad marginal de X es:
La función de probabilidad marginal de Y es:
A partir de la tabla de doble entrada de la función f(x, y) se obtienen las fun-

ciones f1(x) y f2(y) hallando las sumas en fila y en columna respectivamente.
Las funciones marginales de probabilidad acumulada para X e Y son:
Momentos para las distribuciones marginales

Esperanza matemática de la v.a. X:
O también
Análogamente, la esperanza matemática de la v.a. Y es:
La varianza de la v.a. X
La varianza de la v.a. Y
EJEMPLO 7.2.
Las funciones de probabilidad marginales para la función de probabilidad del
Ejemplo 7.1.
Y
1 2 3 4 5 6 f1(x)
X
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
f2(y) 1/6 1/6 1/6 1/6 1/6 1/6
Las distribuciones marginales son iguales, se dice que las variables aleatorias X
e Y son idénticamente distribuidas.
La esperanza matemática de la v.a. X es:
O también
Del mismo modo, µY = E ( Y ) = 3, 5.

La varianza de X, que coincide con la de Y, es:
7.1.2. Distribuciones condicionadas

Otras distribuciones unidimensionales de interés asociadas a distribuciones bi-
dimensionales son las distribuciones condicionadas, que permitirán definir la in-
dependencia de variables aleatorias.
Si P(Y = y) = f2 ( y ) ≠ 0, la función de probabilidad de X condicionada a Y = y es:
Análogamente, si P( X = x ) = f1 ( x ) ≠ 0, la función de probabilidad de Y con-

dicionada a X = x es:
EJEMPLO 7.3.
En el Ejemplo 7.1. la función de probabilidad de Y condicionada a X = 3 es:
De las definiciones anteriores se deducen las siguientes relaciones entre la

función de probabilidad conjunta y las marginales y condicionadas:
• La esperanza matemática de Y condicionada a X = x se define así:

Se observa que µY X = x = EY X = x (Y ) es una función de x, que se llama la regre-

sión de Y sobre X.
La esperanza matemática de la función de x, EY|X = x ( Y ) , coincide con el valor
esperado de la v.a. Y porque
• La varianza de Y condicionada a X = x, que es también función de x, es:
La generalización de los conceptos de distribuciones conjuntas, marginales y

condicionadas para más de dos variables es sencilla sustituyendo el vector bidi-
mensional X = ( X , Y ) por un vector n-dimensional X = ( X1 , X 2 ,..., Xn ) .
7.1.3. Independencia de variables aleatorias discretas

Dos variables aleatorias X e Y se dice que son independientes, si y sólo si se
verifica que:
Otras definiciones equivalentes son:

X e Y son independientes, si y sólo si se verifica que ∀y ∈CY es:
f1 ( x Y = y) = f1 ( x ) cualquiera que sea el valor de x ∈ Cx
Y también
X e Y son independientes, si y sólo si se verifica que ∀x ∈CX es:
f2 ( y X = x ) = f2 ( y) cualquiera que sea el valor de y ∈ Cy
EJEMPLO 7.4.
En el Ejemplo 7.1. 1as variables X e Y son independientes porque
EJEMPLO 7.5.
Sea X el número que aparece en la cara superior de un dado al lanzarlo sobre
una mesa e Y una variable de Bernoulli, independiente de X, que toma el valor 1 si
se obtiene bola blanca al sacar una bola al azar de una bolsa que contiene 100 bolas
de las que 20 son blancas y el resto rojas. Dar la función de probabilidad conjunta de
X e Y y las marginales para X e Y.
El conjunto de valores para las variables X e Y es:
La función de probabilidad marginal de X es:
y la de Y es:
Por ser independientes las variables X e Y la función de probabilidad conjunta es:
Los valores distintos de cero de f(x, y) aparecen en la siguiente tabla:
Y
1 2 3 4 5 6
X
4 4 4 4 4 4
0
30 30 30 30 30 30
1 1 1 1 1 1
1
30 30 30 30 30 30
• Las variables aleatorias X1 , X2 ,..., X n son independientes, si y sólo si se

verifica que:
Otra definición equivalente es la siguiente:

Las variables aleatorias X1 , X2 ,..., Xn son independientes, si y sólo si se veri-
fica que para todos los valores de x1 , x 2 ,..., xn se cumple:
7.1.4. Distribución de probabilidad para funciones de las variables

aleatorias discretas X e Y
Conocida la función de probabilidad f (x, y) correspondiente a la distribución
bidimensional de las variables X e Y se pueden determinar a partir de ella las fun-
ciones de probabilidad de variables aleatorias funciones de X e Y.
Función de probabilidad de la suma:
Llamando W = X + Y es f (w) = P(W = w) = ∑ f ( x , y)
( x , y )/ x + y= w
Función de probabilidad del producto:
Para V = X ⋅ Y es f ( v ) = P(V = v ) = ∑ f ( x , y)
( x , y )/ x⋅ y= v
Función de probabilidad del cuadrado de la v.a. X:
Si R = X 2 es f (r ) = P( R = r ) = ∑ f ( x , y) = ∑ f1 ( x ) siendo f1(x) la fun-
( x ,y)/ x 2 =r x 2 =r
ción de probabilidad marginal para X.
EJEMPLO 7.6.
Para el Ejemplo 7.1. precisar la función de probabilidad de la variable aleatoria X2
y de la variable W = X + Y.
Como el conjunto de valores de X es CX = {1, 2, 3, 4, 5, 6} el de la variable alea-

toria X2 será: C R= X 2 = {1, 4, 9,16, 25, 36} y la función de probabilidad para R = X2
será:
Para W = X + Y el conjunto de valores es CW = {w ∈⺞/2 ≤ w ≤ 12} y la fun-

ción de probabilidad correspondiente es:
Se puede demostrar que:

• Si X1 y X2 son dos variables independientes con distribución de Poisson, la
variable suma también sigue una distribución de Poisson de parámetro la suma de
los parámetros, es decir,
• Si X1 y X2 son dos variables independientes, ambas con distribución bino-

mial con el mismo parámetro p, la suma sigue también una distribución binomial
con el mismo parámetro p y con parámetro n la suma de los parámetros, esto es,
• Si Xi ~ P ( λi ) , ∀i = 1, 2,..., n son n variables independientes con distribución

de Poisson, la variable suma también sigue una distribución de Poisson de pará-
n n
metro la suma de los parámetros, es decir, ∑ Xi ~ P  λ = ∑ λi  .
i =1  i=1 
7.1.5. Esperanza de una función de X. Función generatriz

de momentos respecto del origen
Si Y = g (X), siendo g (X) una función real de la v.a. X que tiene por función de
probabilidad f (x) entonces la esperanza de la función g (X) es:
siempre que la suma sea finita.

Si la serie no es convergente se dice que la variable aleatoria no tiene espe-
ranza o valor esperado.
Propiedades:
1.
2.
3.
EJEMPLO 7.7.
Para el Ejemplo 7.1. calcular la esperanza matemática de la variable aleatoria X2.
• Función generatriz de momentos respecto del origen:

Un caso particular de E(g(X)) es:
que recibe el nombre de función generatriz de momentos respecto del origen para
la variable aleatoria X, siempre que la serie sea convergente.
• Propiedades de la función generatriz de momentos respecto del origen:

1. Si dos variables aleatorias X e Y tienen la misma función generatriz de mo-
mentos entonces X e Y tienen la misma distribución.
( ) (
2. Si Y = aX entonces E(e tY ) = E e atX = E et( aX ) . )
( ) ( ) ( )
3. Si Y = X + b entonces E (e tY ) = E e t( X +b ) = E e bt .e tX = e bt E etX .
4. Si X e Y son dos variables aleatorias independientes, la función generatriz
de la v.a. X + Y es el producto de las funciones generatrices de las varia-
bles X e Y.
5. Teniendo en cuenta el desarrollo en serie de la función exponencial etX, es
decir,
Derivando respecto de la variable t:
y particularizando para t = 0 se obtiene la esperanza matemática de X, que es el

momento de orden 1 respecto del origen:
En general, el momento de orden r respecto del origen es:
EJEMPLO 7.8.
Hallar la función generatriz de momentos para la distribución de Poisson de pa-
rámetro λ y calcular a partir de ella la esperanza matemática y la varianza.
La función generatriz de momentos respecto del origen para la distribución de

Poisson es:
Derivando respecto de t y particularizando para t = 0, calculamos la esperan-

za matemática y la varianza del siguiente modo:
EJEMPLO 7.9.
Hallar la función generatriz de momentos respecto del origen para la distri-
bución binomial de parámetros n y p, y demostrar que la distribución binomial
converge a la de Poisson cuando p es pequeña y el número de pruebas tiende a in-
finito.
La función generatriz de momentos respecto del origen para la distribución bi-

nomial es:
Para demostrar que la distribución binomial converge a la de Poisson, cuando

p → 0 y n → ⬁, se tiene en cuenta que la esperanza matemática de la distribución
λ
binomial es µ = np y la de Poisson es el parámetro µ = λ. Si λ = np ⇒ p = .
n
Se calcula el límite de la función generatriz de momentos para la distribución

binomial cuando el número de pruebas n tiende a infinito. Entonces el parámetro p
λ
tiende a cero porque lim p = lim = 0.
n→` n→` n
El límite de la función generatriz de momentos respecto del origen para la dis-

tribución binomial, cuando el número de pruebas tiende a infinito, coincide con la
función generatriz de momentos respecto del origen de la distribución de Poisson
(véase el Ejemplo 7.8.) de parámetro λ = np.
Por tanto, la distribución binomial converge a la de Poisson cuando p es pe-
queña y el número de pruebas tiende a infinito.
• Valor esperado para una función de X e Y

Si U = U(X, Y) es una función real de la v.a. bivariante (X, Y) cuya función de
probabilidad es f(x, y) entonces la esperanza de la función U (X, Y) es:
La fórmula anterior representa una suma de un número finito de sumandos si

las variables aleatorias son discretas finitas y es la suma de una serie, si ésta es
convergente, en el caso en que las variables sean discretas infinito-numera-
bles. Si la serie no es convergente se dice que la variable aleatoria no tiene valor
esperado.
7.2. DISTRIBUCIÓN MULTINOMIAL
La distribución multinomial es una generalización de la distribución binomial. La

distribución binomial corresponde a la variable aleatoria «número de veces que se ve-
rifica el suceso S», en n pruebas independientes de Bernoulli del mismo parámetro
p = P(S). Se considera, por tanto, un experimento con espacio muestral E y un suce-
so S del álgebra de sucesos de E y se observa el número de veces que se verifica el su-
ceso S, éxito, en las n pruebas. En cada una de las n repeticiones del experimento se
–
puede obtener éxito (se verifica S) o fracaso (se verifica el suceso S ).
Si se consideran dos variables aleatorias X1 y X2 que cuentan en las n pruebas
el número de éxitos y el número de fracasos respectivamente, los valores de am-
bas variables siempre sumarán n, no serán por tanto independientes, y la función
de probabilidad conjunta será:
Como X2 = n − X1 , en realidad esta distribución conjunta es la distribución bi-

nomial de parámetros n y p1, pues la función de probabilidad conjunta coincide
con la función de probabilidad de X1 ~ B ( n, p1 ) :
Si en lugar de observar un suceso y su contrario en las n repeticiones inde-

pendientes del experimento, se observara el número de veces que se verifica
cada uno de los sucesos S1, S2, ..., Sr, mutuamente excluyentes y exhaustivos, del
espacio muestral E, se obtendría la función de probabilidad conjunta:
siendo
Esta distribución conjunta se conoce como distribución multinomial de pará-

r −1
metros n, p1 , p2 ,..., pr −1 . El valor de pr = 1 − ∑ pi .
i=1
Es sencillo comprobar que las distribuciones marginales de la distribución

multinomial para cada una de las variables Xi, ∀ i = 1,2,..., r, son binomiales. Si
sólo se observa si se verifica o no el suceso Si, se obtiene una distribución mar-
ginal que es binomial de parámetros n y pi.
EJEMPLO 7.10.
Se cruzan dos individuos heterocigóticos Aa, calcular la probabilidad de que en
la primera generación filial se obtengan:
a) Ocho individuos de los que sean 4 de raza pura recesiva, 2 dominantes y el
resto híbridos.
b) Diez individuos de los que sean 2 dominantes, 2 recesivos y el resto híbridos.
Se sabe, por la leyes de Mendel, que la probabilidad de que un individuo re-

sultante del cruce de dos heterocigóticos sea raza pura dominante es 0,25, la
misma que la de que resulte raza pura recesiva y la probabilidad de que sea hí-
brido, como los padres, es 0,5
Por tanto p1 = P( AA) = 0, 25; p2 = P( Aa) = 0, 5; p3 = P(aa) = 0, 25.
a) La probabilidad pedida es:
b) Ahora n = 10, x1 = 2, x 2 = 6, x 3 = 2.
7.3. DISTRIBUCIONES BIDIMENSIONALES

Y MULTIDIMENSIONALES CONTINUAS
Se consideran dos variables aleatorias continuas, X e Y definidas sobre el mis-

mo espacio muestral, E, un conjunto infinito no numerable, como puede ser un in-
tervalo de ⺢ o toda la recta real ⺢.
A cada par ( x , y ) ∈R × R de la variable aleatoria bidimensional (X, Y), o
vector aleatorio bidimensional V = (X, Y) es decir, a cada uno de los valores
( x, y ) ∈R × R se le puede asociar
que es un elemento de la σ-álgebra del espacio muestral E × E.

R Y
Bxy
e(e1,e2)
e2
V = (X,Y)
E
Y(e2) = y
e1 (x,y)
–1
V
(X(e1),Y(e2))
Y(e2)
X
P(Bxy)
0 X(e1) X(e1) = x R
0 1R
䊏 Función de distribución conjunta

Si X e Y son dos variables aleatorias continuas, la función de distribución con-
junta, o función de distribución bidimensional, de la variable aleatoria bidi-
mensional V = (X, Y) es una aplicación de ⺢ × ⺢ en ⺢, continua y tal que
∂2
F ( x , y ) existe y es continua salvo a lo sumo en un número finito de curvas,
∂x ∂y
definida por:
que representa la probabilidad de la región del plano situada a la izquierda y por

debajo del punto (x, y), es decir, la formada por todos los puntos cuya primera co-
ordenada es menor o igual a x y la segunda menor o igual a y.
䊏 Propiedades de la función de distribución conjunta

La función F(x, y) que caracteriza la variable aleatoria bidimensional V = (X, Y)
ha de cumplir las siguientes propiedades:
1. 0 ≤ F ( x , y ) ≤ 1, ∀ ( x , y ) ∈R × R.
2. lim F ( x, y) = 1.
x →+ `
y →+ `
3. lim F ( x, y) = 0, para cada y fijo.

x →− `
4. lim F ( x , y) = 0, para cada x fijo.

y →− `
5. F(x, y) es no decreciente o monótona creciente, es decir:

Si x1 < x 2 ⇒ F ( x1 , y ) ≤ F ( x 2 , y ) .
Si y1 < y2 ⇒ F ( x , y1 ) ≤ F ( x , y2 ) .
Si x1 < x 2 e y1 < y2 ⇒ F ( x 2 , y2 ) ≥ F ( x 2 , y1 ) + F ( x1 , y2 ) − F ( x1 , y1 ) .
6. Es continua en cada variable.

∂2
7. La derivada F( x , y) = f ( x, y) existe y es continua salvo a lo sumo en
∂x ∂y
un número finito de curvas.
䊏 Función de densidad conjunta
∂2
La función f ( x , y) = F( x , y) recibe el nombre de función de densidad de
∂x ∂y
probabilidad conjunta de X e Y. Esta función es no negativa, es decir,
y verifica:
La función de densidad conjunta f(x, y) representa una superficie que está si-
tuada por encima del plano XY y que determina con él una figura en el espacio ⺢3
de volumen unidad.
Dos variables X e Y para las que se pueda definir una función de densidad
conjunta se dice que tienen una distribución bidimensional continua.
䊏 Probabilidad de una región plana

La probabilidad de que (X, Y) pertenezca a una parte S del plano XY se calcula
mediante la integral P [ ( X , Y ) ∈ S ] = ∫∫ f ( x , y)dxdy, que representa el volumen por
S
debajo de la superficie f(x, y), y cuya proyección sobre el plano XY es S.
Obsérvese que:
— La probabilidad asociada a un punto es cero.
— La probabilidad asociada a toda recta paralela a cualquiera de los ejes de
coordenadas también es nula.
La probabilidad asociada a un rectángulo, tanto si se incluyen los lados como

si no, de vértices: (x1, y1), (x1, y2), (x2, y1) y (x2, y2) es P(x1 < X ≤ x2, y1 < Y ≤ y2).
10
8
(x1,y2) (x2,y2)
6
2 (x1,y1) (x2,y1)
–4 –2 2 4 6 8 10
–2
Esta probabilidad se puede calcular, a partir de la función de distribución con-

junta, del siguiente modo:
El producto f ( x , y) dxdy es la probabilidad asociada a un rectángulo infinite-

simal de área dxdy.
A partir de la función de densidad conjunta f (x, y) se puede también calcular
P ( x1 < X ≤ x 2 , y1 < Y ≤ y2 ) , en efecto,
También se puede hallar la función de distribución conjunta a partir de la fun-

ción de densidad conjunta f (x, y) del siguiente modo:
EJEMPLO 7.11.
Determinar el valor de k para que la función:
k ( x + y) si 0 ≤ x ≤ 4, 0 ≤ y ≤ 4
f ( x , y) = 
0 para lo
os restantes valores
y hallar la función de distribución conjunta.

+` +`
Para determinar k se iguala ∫ − ` ∫− ` f ( x , y)dxdy = 1.
Por tanto, la función de probabilidad conjunta es:
En la siguiente gráfica se representa la función f (x, y) que muestra la porción

1
del plano ( x + y) para 0 ≤ x ≤ 4 y 0 ≤ y ≤ 4.
64
La función de probabilidad conjunta toma el valor cero en los restantes puntos
del plano XY.
z
y
x
0,50
0,25
0
4
0 y
x
4 0
Se determina ahora la función de distribución:

Si
entonces F( x , y) = P( X ≤ x , Y ≤ y) = ∫ x dx ∫ y f ( x , y)dy =
−` −`
x y 1 x y 1
= ∫0 ∫ 0 ( x + y)dydx = ∫ 0 ∫0 (u + v ) dvdu =
64 64
x
1 x y2  1  u2 y2  1
= ∫
64  0 
uy +
2  du = 
64  2
y + u =
2  0 128
x 2 y + y2 x( )
Por tanto, la función de distribución es:
La siguiente gráfica,
z
y x 3
0
5
5 x
y
0 0
con valores de x e y crecientes hacia adentro representa la función de distribución

conjunta para los valores de X e Y positivos y menores que 5, vista desde el origen
de coordenadas.
7.3.1. Distribuciones marginales continuas

Para una distribución bidimensional continua, las funciones de distribución
marginales son las funciones unidimensionales siguientes:
es la función de distribución marginal de X y
la función de distribución marginal de Y.

Las funciones de densidad marginales de X y de Y serán respectivamente:
EJEMPLO 7.12.
Las distribuciones marginales correspondientes al Ejemplo 7.11. se comprueba
con facilidad que son:
y las funciones de densidad marginales:
• Los momentos para las distribuciones marginales de una distribución bi-

dimensional continua se pueden calcular del siguiente modo:
Esperanza matemática de la v.a. X:
siempre que la integral sea convergente.

Análogamente, la esperanza matemática de la v.a. Y es:
si la integral es convergente.
La varianza de la v.a. X
siempre que las integrales converjan.

La varianza de la v.a. Y
si el resultado es un número finito.
7.3.2. Distribuciones condicionadas continuas

Si f2(y) ⫽ 0, se define la función de densidad de X condicionada a Y = y del si-
guiente modo:
Análogamente, si f1(x) ⫽ 0,
Como en el caso discreto, se puede escribir:
Y también:
EJEMPLO 7.13.
Hallar las funciones de probabilidad condicionadas para la distribución bidi-
mensional del Ejemplo 7.11.
La función de probabilidad de X condicionada a Y es:

Para 0 ≤ y ≤ 4, fijo, se trata de una función de densidad pues:
Por ejemplo, la función de probabilidad de X condicionada a Y = 3 es:
En este caso, las variables aleatorias X e Y son dependientes.

La función de probabilidad de Y condicionada a X es:
4
Se comprueba sin dificultad que ∫0 f2 ( y X = x ) dy =1.
A partir de lo ya explicado es fácilmente comprensible la generalización de
los conceptos de distribuciones conjuntas, marginales y condicionadas para dis-
tribuciones multidimensionales, sustituyendo el vector bidimensional V = (X, Y)
por un vector n-dimensional X = (X1,X2,..., Xn).
7.3.3. Independencia de variables aleatorias continuas

Las variables aleatorias X e Y son independientes, si y sólo si se verifica que:
para todo x y para todo y, salvo a lo sumo un número finito de curvas.

O bien las variables aleatorias X e Y son independientes, si y sólo si la función
de distribución conjunta verifica para todo x y para todo y la siguiente igualdad:
Otras definiciones equivalentes son:

EJEMPLO 7.14.
¿Son independientes las variables aleatorias del Ejemplo 7.11.?
1 x +2 y+2
Como f ( x , y) = ( x + y) ≠ f1 ( x ) f2 ( y) = , las variables X e Y son
64 16 16
dependientes.
Las variables aleatorias X1 , X2 ,..., Xn son independientes, si y sólo si se veri-
fica que la función de densidad conjunta es el producto de las marginales:
Otra definición equivalente es la siguiente:

Las variables aleatorias X1 , X2 ,..., Xn son independientes, si y sólo si para todos
los valores de x1 , x 2 ,..., x n se cumple que el producto de las funciones de distribu-
ción marginales coincide con la función de distribución conjunta:
Observaciones:
• Dos variables aleatorias X e Y que proceden de dos experimentos aleatorios
independientes y distintos son independientes.
• También en el caso en que la función de densidad conjunta f (x, y) de las variables
X e Y se pueda escribir como el producto de una función de x, g1(x), por una fun-
ción de y, g2(x), es decir, si f ( x , y) = g1 ( x )g2 ( y), entonces las variables X e Y
son independientes y sus funciones de densidad marginales son proporcionales a
g1(x) y g2(x) respectivamente. La constante de proporcionalidad se determina con
la condición de que la probabilidad total sea 1 en ambos casos, es decir:
7.3.4. Covarianza
Además de los momentos de las variables unidimensionales interesa estudiar
los momentos conjuntos que explican si hay o no relación entre las variables.
De los momentos conjuntos el más utilizado es la covarianza.
Se define la covarianza de las variables aleatorias X e Y de medias E ( X ) = µ X
y E(Y ) = µY , y, tanto si son discretas como si son continuas, como
que existe siempre que las variables X e Y tengan varianzas finitas.

Teniendo en cuenta que:
Se puede calcular la covarianza mediante la fórmula:
Si la covarianza es positiva indica que al aumentar los valores de X también

aumentan los de Y.
La covarianza negativa indica que al aumentar los valores de X disminuyen
los de Y.
Propiedades de la covarianza:
• Si Y = X , entonces σ XY = σ XX = Var ( X ) = σ X2 .
• X e Y son independientes ⇒ σ XY = 0.
El recíproco no es cierto, puede ser que σXY = 0 y las variables aleatorias X e Y

sean dependientes.
• Si las variables X e Y son variables aleatorias independientes, entonces σXY = 0 y

por tanto se verifica que
De donde:
• Si X = a + bU e Y = c + dV , siendo a, b, c, d constantes, entonces σXY = bd σUV.
EJEMPLO 7.15.
Para las variables aleatorias X e Y, independientes, se sabe que µ X = E ( X ) = 5;
µY = E ( Y ) = 7; σ X2 = 2; σ Y2 = 3. Calcular:
a) E(X + Y); b) E(2X + 3Y); c) E(3X – Y); d) E(XY); e) E(X2); f) E(Y2).
a) E ( X + Y ) = µ x + µY = 12.
b) E ( 2 X + 3Y ) = 2 E ( X ) + 3 E (Y ) = 31.
c) E ( 3 X − Y ) = 3E ( X ) − E ( Y ) = 8.
d) E ( XY ) = E ( X ) ⋅ E (Y ) = 35 por ser independientes.
( )
e) Para calcular E(X2), teniendo en cuenta que σ 2X = E ( X − µ X )2 = E X 2 − µ X2
( )
( )
se deduce que E X 2 = σ X2 + µ X2 = 27.
f) Análogamente E ( Y ) = σ 2 2
Y + µY2 = 52.
EJEMPLO 7.16.
Se tiene la siguiente información de las variables aleatorias X e Y, µ X = E ( X ) = 15;

µY = E ( Y ) = 22; σ X2 = 0, 25; σ Y2 = 0, 0121; σ XY = −0, 02. Calcular, si es posible,
a) La esperanza matemática y la varianza para las variables aleatorias:
U = 2X − Y y V = X + Y
( ) ( )
b) E X 2 , E Y 2 y E ( XY ) .
a) E ( 2 X − Y ) = 2 E ( X ) − E ( Y ) = 8
Var ( 2 X − Y ) = 22 σ X2 − 2σ 2 XY + σ Y2 = 4σ X2 − 4σ XY + σ Y2 = 1, 0921
E ( X + Y ) = E ( X ) + E ( Y ) = 37
Var ( X + Y ) = σ X2 + 2σ XY + σ Y2 = 0, 2221
b) E X 2 = σ 2 + µ 2 = 225, 25
( ) X X
E (Y ) = σ
2 2
Y + µY2 = 484, 0121
Para calcular E(XY) por no ser independientes las variables X e Y se tiene en

cuenta que σ XY = E ( XY ) − E ( X ) E ( Y ) y por tanto,
7.3.5. Varianza de la suma de variables aleatorias

Si X e Y son dos variables aleatorias, discretas o continuas, que tienen medias
y varianzas finitas, se prueba con facilidad, teniendo en cuenta las propiedades de
la esperanza matemática, que:
• La varianza de la suma de dos variables aleatorias cualesquiera:
• La varianza de la diferencia de dos variables aleatorias cualesquiera:
• La varianza de la suma de n variables aleatorias cualesquiera es:
• Si las variables X e Y son variables aleatorias independientes, se verifica que:
• La varianza de la suma de n variables aleatorias independientes es:
es decir,
7.3.6. Coeficiente de correlación lineal

La covarianza depende de las unidades en que vienen expresadas las variables
X e Y, para evitar este inconveniente se define el coeficiente de correlación line-
al entre dos variables aleatorias X e Y como el cociente entre la covarianza y el
producto de las desviaciones típicas marginales
que es una medida adimensional.

El coeficiente de correlación está acotado
Propiedades del coeficiente de correlación lineal:

• De la definición del coeficiente de correlación de las variables X e Y se
deduce que es también la covarianza de las variables tipificadas
X − µX Y − µY
Z1 = y Z2 = , ya que
σX σY
• Si las variables X e Y son independientes, entonces es ρ = 0.

• Si el coeficiente de correlación es +1 ó –1, hay una dependencia lineal en-
tre las variables X e Y.
Si ρ = 1, entonces X = mY + n, siendo m > 0.
Si ρ = −1, entonces X = mY + n, siendo m < 0.
• Si X1 ~ N ( µ1 , σ 1 ) y X 2 ~ N ( µ2 , σ 2 ) son dos variables aleatorias normales
independientes, entonces su suma es una variable también normal de media la
suma de las medias y de varianza la suma de las varianzas, es decir,
• En el caso en que X1 ~ N ( µ1 , σ 1 ) y X2 ~ N ( µ2 , σ 2 ) sean dos variables ale-

atorias normales no independientes, entonces su suma es también normal de me-
dia la suma de las medias y de varianza
es decir,
• Si Xi , N ( µi , σ i ) , son variables aleatorias independientes ∀i = 1, 2,..., n,

n n n
entonces ∑ Xi , N ( µ, σ ) siendo µ = ∑ µi , σ = ∑ σ I2 .
i =1 i=1 i=1
7.3.7. Esperanza de una función de X. Función generatriz

de momentos respecto del origen
Se define la esperanza de una función de una v.a. X de modo análogo a como
se hizo para las variables discretas.
Esperanza de una función de X

Si Y = g(X), siendo g(X) una función real de la v.a. X que tiene por función de
densidad de probabilidad f (x) entonces la esperanza de la función g(X) es:
siempre que la integral sea absolutamente convergente.

También se puede definir la función generatriz de momentos respecto del ori-

gen para variables continuas aplicando la correspondiente definición de esperan-
za matemática.
La función generatriz de momentos respecto del origen para las variables ale-
atorias continuas se define así:
+`
( )
E e tX = ∫ − ` etX f ( x ) dx siempre que esta integral sea convergente.
Propiedades de la función generatriz de momentos respecto del origen:

Para las variables aleatorias continuas se verifican también las propiedades:
1. Si dos variables aleatorias X e Y tienen la misma función generatriz de mo-
mentos, entonces X e Y tienen la misma distribución.
( )
2. Si Y = aX entonces E( e tY ) = E e atX = E e t(aX ) .( )
3. Si Y = X + b entonces E( etY ) = E e( t( X + b )
) = E (e bt
) ( )
.e tX = e bt E e tX .
4. Si X e Y son dos variables aleatorias independientes la función generatriz de la
v.a. X + Y es el producto de las funciones generatrices de las variables X e Y.
5. El momento de orden r respecto del origen es:
7.4. FUNCIÓN CARACTERÍSTICA DE UNA VARIABLE

ALEATORIA X
Se llama función característica de la v.a. X, discreta o continua, a la función

compleja definida del siguiente modo:
Si la v.a. X es discreta con función de probabilidad f(x) será:
y, por ser eitx = cos tx + i sen tx y en consecuencia | eitx | =1, esta suma es siempre
una serie absolutamente convergente porque
Si la v.a. X es continua con función de densidad de probabilidad f(x) será:
y esta integral es absolutamente convergente porque
La función característica de la v.a. X es la función transformada de Fourier de la

función f(x), que existe siempre y está unívocamente determinada por la distribución.
Propiedades de la función característica

Se prueban sin dificultad las siguientes propiedades
1. ϕ ( 0 ) = 1.
2. ϕ ( t ) ≤ 1.
3. ϕ ( t ) = ϕ ( −t ) .
4. Si X e Y son dos variables aleatorias independientes entonces ϕ X +Y ( t ) =
ϕ X (t ) ⋅ ϕ Y ( t ) .
5. Si Y = a + bX entonces ϕ Y ( t ) = e iatϕ X ( bt ) .
7.5. FUNCIÓN DE PROBABILIDAD DE FUNCIONES DE X E Y.

CAMBIO DE VARIABLE
Si X e Y son dos variables aleatorias con función de densidad de probabilidad

conjunta f (x, y), se trata de hallar la distribución de probabilidad de las variables
U y V, que son funciones de X e Y
Si esta transformación es biyectiva, es decir, a cada par (x, y) le corresponde

uno y sólo un par (u, v), es continua y existen las derivadas parciales de las fun-
ciones U = g( X , Y ) y V = h( X , Y ), el jacobiano de la transformación será distinto
de cero, esto es,
Para el recinto del plano XY para el que el Jacobiano anterior es distinto de

cero existe la transformación inversa y se verifica que
∂x ∂x
∂ ( x , y ) ∂u ∂v 1
= = ≠ 0.
∂(u, v ) ∂y ∂y ∂ ( u, v )
∂u ∂v ∂( x , y )
Si existen y son continuas las derivadas parciales de x e y respecto de u y v y

es distinto de cero el jacobiano de la transformación en los puntos en los que la
función de probabilidad conjunta f (x, y) es positiva, entonces la función de den-
sidad de probabilidad conjunta de U y V es:
EJEMPLO 7.17.
Para la función de densidad de probabilidad del Ejemplo 7.11.
1
 ( x + y ) si 0 ≤ x ≤ 4, 0 ≤ y ≤ 4
f ( x, y) =  64
 0 para los restantes valores
haciendo el cambio U = X + Y, V = X – Y dar la función de densidad de probabilidad

conjunta de las variables transformadas.
El recinto del plano XY en el que la función f (x, y) es distinto de cero es:

y
x
0 4 5
Para calcular la función de densidad de probabilidad conjunta de las variables

U y V, primero se calcula el jacobiano
A continuación se busca el recinto S en el que se transforma el cuadrado del

plano XY por el cambio de variables U = X + Y , V = X − Y .
El recinto transformado S es el cuadrado representado en la siguiente gráfica.

Sus lados son segmentos de las rectas u + v = 0, u – v = 0, u + v = 8 y u – v = 8.
v
4
u–v=0 u+v=8
2
u
–4 0 4 8
–2
u+v=0 u–v=8
–4
–6
–8
La función de densidad de probabilidad conjunta de las variables U y V es:
en el recinto transformado 0 ≤ u + v ≤ 8, 0 ≤ u – v ≤ 8 y cero en el resto.

Ésta es una función de densidad bien definida, pues es siempre positiva o

cero, porque 0 ≤ u = x + y ≤ 8 y además la integral de la función en todo el cam-
po de definición, como se verá a continuación, es 1
EJEMPLO 7.18.
Teniendo en cuenta el resultado del ejemplo anterior, determinar la función de
densidad de probabilidad de la variable suma X + Y y comprobar que es efectiva-
mente una función de densidad.
Una forma sencilla de calcular la función de densidad de probabilidad de la

variable suma X + Y, teniendo en cuenta el resultado del ejemplo anterior, es ha-
llar la función de densidad marginal de U.
Que es una función de densidad por ser siempre positiva o cero y además
¿La función de densidad de una variable aleatoria bidimensional tiene que estar de-
finida necesariamente en un conjunto acotado? No, a continuación se presenta la dis-
tribución normal bidimensional que está definida en todos los puntos del plano × .
7.6. DISTRIBUCIÓN NORMAL BIDIMENSIONAL
Un caso particular de distribución bidimensional continua es la distribución nor-

mal bidimensional que tiene aplicación, entre otras, como modelo para la distribución
conjunta de dos variables aleatorias normales observadas en el mismo individuo u ob-
jeto, sintetizando las dos dimensiones en una sola distribución, que permite estudiar
la relación entre ambas y también como modelo de distribución de una variable
normal en dos personas de la misma familia o para dos variables relacionadas.
Dadas dos variables aleatorias continuas X e Y se dice que tienen una distri-
bución conjunta normal bidimensional si su función de densidad conjunta está de-
finida para todo (x, y) ∈ × por:
siendo ρ, – 1 < ρ < 1, el coeficiente de correlación de las variables X e Y.

Esta distribución depende de cinco parámetros µ X , µY , σ X , σ Y ,ρ.
La función de densidad de la distribución normal bidimensional para los va-
lores de los parámetros: µ X = 0, µY = 0, σ X = 1, σ Y =1,ρ = 0, es decir, la función
coincide con:
por tanto X e Y son independientes, por verificarse que f ( x, y) = f1 ( x ) ⋅ f2 ( y).

La gráfica siguiente representa la función de densidad conjunta de la distri-
bución normal bidimensional de parámetros: µ X = 0, µY = 0, σ X = 1, σ Y =1,ρ = 0,
para valores de X e Y comprendidos entre –2,5 y 2,5
z
x 0,25
y
–2,5
–0,25
–2,5
y
x
2,5 2,5
Se observa que la «carpa» tiene forma acampanada. Si se corta esta superficie

por planos paralelos al plano XY, se obtienen elipses. Y si se corta por planos pa-
ralelos a YZ o a XZ, se obtienen curvas normales.
• Dos variables con distribución conjunta normal bidimensional que

sean independientes tendrán coeficiente de correlación lineal ρ = 0, y son por
ello incorrelacionadas. Recíprocamente, si dos variables con distribución
conjunta normal bidimensional están incorrelacionadas, entonces son inde-
pendientes.
Es decir, para dos variables X e Y con distribución conjunta normal bidi-

mensional es equivalente la independencia de X e Y y el que el coeficiente de co-
rrelación lineal entre ambas sea ρ = 0.
La siguiente gráfica representa la función de densidad de una distribución nor-
mal bidimensional para valores de X e Y comprendidos entre –3 y 3 y para los va-
lores de los parámetros µ X = 0, µY = 0, σ X = 1, σ Y =1, ρ = 0, 9.
x 0,25
y
–3
–0,25
–3
y x
3 3
La superficie correspondiente a la función de densidad conjunta normal bidi-

mensional es tanto más apuntada cuanto mayor sea el coeficiente de correlación
entre las dos variables.
• Para la distribución normal bidimensional se verifica que cualesquiera que

sean los valores de las constantes c1 y c2, la variable c1X + c2Y sigue una distri-
bución normal de media:
y varianza:
• El recíproco también es cierto, es decir, si cualquier combinación lineal de

las variables X e Y sigue una distribución normal, las variables X e Y tienen una
distribución conjunta normal bidimensional.
• La distribución marginal de X de la distribución conjunta normal bidimen-

sional
es N(µ1, σ1) y la marginal de Y es N(µ2, σ2).

Las distribuciones de X condicionada a Y = y y la de Y condicionada a X = x
son también normales.
7.7. DISTRIBUCIÓN NORMAL MULTIDIMENSIONAL
Si X1, X2,..., Xn son n variables aleatorias continuas definidas por:
siendo µ1, µ2,..., µn constantes, así como cij , ∀i = 1, 2,..., n, ∀j = 1, 2,..., m y Z1,
Z2,..., Zm m variables aleatorias independientes y con distribución N(0, 1), cada una
 m 
de las variables Xi , N  µi , σ i = ∑ cij2  y se dice que el conjunto X1, X2,..., Xn sigue
 j =1 
una distribución normal multidimensional.
7.8.1. Las variables X e Y tienen por distribución de probabilidad conjunta la repre-

sentada en la siguiente tabla:
Y
3 6
X
0 0,1 p
1 0,5 p
a) Determinar el valor de p.
b) Dar las funciones de probabilidad marginales.
c) Calcular las medias y las varianzas marginales.
d) Hallar la covarianza.
e) Calcular el coeficiente de correlación de X e Y.
f) Dar la función de probabilidad acumulada conjunta.
g) ¿Son independientes X e Y?
7.8.2. En una población respecto de un carácter diploide, el 30% son de genotipo do-
minante, el 42% son híbridos y el resto son de genotipo recesivo. Se selecciona al
azar una muestra de 15 individuos de la población, ¿cuál es la probabilidad de que
sean 5 dominantes, 7 híbridos y 3 recesivos?
7.8.3. Se lanzan un par de dados veinte veces y se anota la suma de las puntuaciones
obtenidas en cada lanzamiento. Calcular la probabilidad de que se obtenga una vez
las sumas 2,3,4,5,10,11 y 12, tres veces la suma 6, cinco veces la suma 7, dos veces
suma 8 y tres veces suma 9.
7.8.4. Para la variable bidimensional discreta cuya distribución está definida por la
siguiente tabla:
Y
1 3 5
X
2 0,06 0,18 0,12
3 0,10 0,08 0,14
4 0,04 0,12 0,16
Calcular:
a) Las medias y las varianzas marginales.
b) La covarianza de X e Y.
c) La distribución de X condicionada a Y = 5.
d) La distribución de Y condicionada a X = 3.
e) La media y la varianza de la distribución del apartado c).
7.8.5. Para la distribución de probabilidad conjunta siguiente:
Y
6 8 10 12 14 16 18
X
25 0,01 0,01 0 0 0 0 0
35 0,02 0,10 0,08 0,05 0 0 0
45 0 0,01 0,14 0,13 0,15 0,01 0
55 0 0 0,03 0,09 0,06 0,05 0
65 0 0 0 0,01 0,02 0,02 0,01
Calcular:
a) Las medias y las desviaciones típicas de las distribuciones marginales.
b) La covarianza de X e Y.
c) La media y la desviación típica de Y condicionada a X = 65.
d) La media y la desviación típica de X condicionada a Y = 16.
7.8.6. Si X1 representa el número de varones de una familia de cuatro hijos, si la pro-

babilidad de tener un hijo varón es 0,51 y X2 es una variable independiente de X1 y
con su misma distribución, se pide:
a) Dar mediante una tabla la función de probabilidad de la variable bidimen-

sional (X1, X2) y las funciones de probabilidad marginales.
b) La función de probabilidad de X1 | X2 = 3.
7.8.7. En el cruce de dos individuos heterocigóticos con dominancia completa se ob-

tienen 20 individuos. Sabiendo que la probabilidad de obtener un individuo de fe-
notipo dominante es 3/4, calcular la probabilidad de que sean 15 dominantes y el res-
to recesivos.
7.8.8. En un cruce de dos individuos Aa, a) ¿cuántos descendientes se deben tener

para asegurar, con error máximo de 0,005, que se obtiene al menos uno de los des-
cendientes de genotipo aa?; b) ¿cuántos descendientes se tienen que obtener para ase-
gurar que la probabilidad de no obtener ningún recesivo sea menor que 0,01?
7.8.9. De un cruce de dos individuos heterocigóticos respecto del mismo carácter con
dominancia completa se obtiene una descendencia de 40 individuos. Calcular la
probabilidad de que sean:
a) 11 dominantes, 19 heterocigóticos y 10 recesivos.
b) 2 dominantes, 36 heterocigóticos y 2 recesivos.
c) 9 dominantes, 22 heterocigóticos y 9 recesivos.
d) 10 dominantes, 20 heterocigóticos y 10 recesivos.
7.8.10. La función de densidad conjunta de las variables X e Y es constante y ambas

variables tienen por recorrido el segmento [0, 3].
a) Determinar la función de probabilidad conjunta.
b) Las funciones de probabilidad marginales.
c) Explicar si son independientes o no las variables X e Y.
7.8.11. La distribución conjunta de las variables X, número de hijos por familia, e Y,

número de películas alquiladas en un mes por familia, en una pequeña ciudad, viene
definida por la siguiente tabla:
Y
0 1 2 3
X
0 0,20 0,03 0,01 0,01
1 0,01 0,15 0,01 0,01
2 0,01 0,01 0,10 0,01
3 0,07 0,05 0,02 0,20
4 0,01 0,01 0,02 0,06
Calcular:
a) Las distribuciones marginales de X y de Y.
b) El número medio de hijos por familia en esa ciudad y la media de películas
alquiladas en un mes por familia.
c) ¿Son independientes X e Y?
d) Calcular la probabilidad de que una familia elegida al azar alquile al menos
una película y tenga como mínimo tres hijos.
7.8.12. Dos ejecutivos deciden viajar en helicóptero y quedan en ir cada uno por su
cuenta al mismo helipuerto entre las 9.00 h. y las 10.00 h. de la mañana de determi-
nado día y no esperarse más de ocho minutos, ¿cuál es la probabilidad de que se en-
cuentren?
7.8.13. Para obtener determinadas medidas se pueden emplear dos procedimientos

de medición A y B. El primero, que es más sencillo de usar, se utiliza en el 80% de
los casos. Las medidas X obtenidas con el procedimiento A se ajustan a una variable
aleatoria N (150, 1). Las medidas Y resultantes de la aplicación del procedimiento B
están relacionadas con las anteriores por la relación: Y = 3X – 300.
a) ¿Qué distribución tiene la variable aleatoria Y?
b) Hallar la covarianza entre las variables X e Y.
c) Dar la recta de regresión de X sobre Y.
d) El resultado de una medición es un valor inferior a 151. ¿Qué probabilidad
hay de que se haya obtenido por el procedimiento A?
7.8.14. La ley de Hardy-Weinberg asegura que en una población suficientemente

grande, panmítica, es decir, en la que los cruces se producen al azar, si no hay se-
lección ni mutación, ni migraciones, las frecuencias relativas con las que aparecen los
genotipos AA, Aa y aa en la población alcanzan un estado de equilibrio dado por las
proporciones p2, 2pq y q2 respectivamente, siendo 0 < p < 1 y p + q = 1. En una
población en la que se cumplen las condiciones de equilibrio de Hardy-Weinberg se
eligen al azar 10 individuos de la población y se determinan sus genotipos.
a) Calcular, en función de p, la probabilidad de que entre los diez no haya nin-
guno de genotipo dominante.
b) Determinar, en función de p, la probabilidad de que haya tres de genotipo do-
minante, cuatro híbridos y tres recesivos.
c) Hallar el valor de p que haga máxima la probabilidad de encontrar tres indi-
viduos de cada una de las razas puras y el resto híbridos.
7.8.15. La función de densidad de una variable aleatoria continua X es:

4
f (x) = , ∀x ∈R
(
π e −2 x
+ e2 x )
a) Calcular la función de distribución de X.
b) Si X1 y X2 son dos variables aleatorias independientes, con la misma distri-
bución que X, calcular la probabilidad de que el primero sea menor que 0 y el
segundo mayor que 1.
c) Calcular la probabilidad de que los valores de las variables X1 y X2 del apar-
tado anterior sean uno menor que 0 y el otro mayor que 1.
7.8.16. Una variable bidimensional (X, Y) tiene por función de densidad
x + y
 , si 0 ≤ x ≤ 1, 1 ≤ y ≤ 3
f ( x, y ) =  M
 0 para el resto
a) Calcular el valor de M.
b) Determinar las distribuciones marginales de X e Y.
c) ¿Son independientes X e Y?
d) Hallar la distribución de Y | X = 0,5.
e) Obtener la media de Y y la varianza de X.
7.8.17. La distribución conjunta de las variables X e Y es continua uniforme en el

triángulo determinado por x + y ≤ 1, x ≥ 0, y ≥ 0.
a) Dar la función de densidad conjunta.
b) Hallar la función de distribución conjunta.
c) Determinar la función de distribución marginal para X.
d) Calcular P ( X < 0, 5) ; P ( X < Y ) ; P ( X < 0, 5 Y < 0, 5) ; P ( X + Y < 0, 5) .
7.8.18. Las variables X e Y tienen por función de densidad conjunta:
 α (3x − y ) si 1 < x < 2, 1 < y < 3

f ( x, y ) = 
0 para cualquier otro par ( x, y )
a) Determinar el valor de α.
b) Hallar la función de distribución conjunta de X e Y.
c) Obtener las funciones de densidad marginales.
d) Dar las funciones de distribución marginales.
e) ¿Son independientes X e Y?
f) Calcular el valor esperado de X y su varianza.
g) Calcular P ( X < 1, 5, Y < 2 ) .
7.8.19. Se ha contrastado que un tratamiento contra una determinada enfermedad

produce mejoría en un 75% de los tratados, empeoran el 5% y ni mejoran ni empe-
oran el resto.
a) Se les administra ese tratamiento a quince pacientes que padecen la enfer-

medad, ¿cuál es la probabilidad de que mejoren 10 y empeoren 3?
b) Si sólo se tiene en cuenta si el paciente mejora o no, ¿cuál es la probabilidad
de que empeoren 2?
7.8.20. La función de densidad conjunta de las variables X e Y es:
 2 x + 3y
 si 0 ≤ x ≤ 1, 0 ≤ y ≤ 3
f ( x, y ) =  K
 0 para cualquier otro par ( x , y )
a) Hallar el valor de K.
b) Hallar las funciones de densidad y de distribución marginales de X.
c) Ídem para la variable Y.
d) Determinar las funciones de distribución de Y condicionada a X y de X con-
dicionada a Y.
e) Calcular P(Y ≤ 2 | X = 0,5).
7.8.21. La probabilidad de que una lámpara se estropee antes de 1.000 días es 0,5 y
la de que dure más de 1.500 días es 0,2. Hallar la probabilidad de que de 10 lámparas
que se vendan de esa clase exactamente cinco se estropeen antes de 1.000 días y sólo
tres duren más de 1.500 días.
7.8.22. La variable bidimensional tiene por función de densidad:
f ( x, y ) = 
(
β 2 xy + x 2 ) si 0 < x <1 y 0 < y <1
 0 o par ( x , y )
para cualquier otro
a) Calcular el valor de β.
b) Hallar la función de distribución conjunta.
c) Dar las funciones de densidad marginales de X y de Y.
d) Determinar las funciones de distribución marginales.
e) Calcular P(X ≤ Y).
7.8.23. Las variables continuas X e Y tienen por función de densidad conjunta:
 ax ( x + y ) si 0 < x < 1 y 0 < y < 1

f ( x, y ) = 
 0 para cualquier ottro par ( x , y )
a) Dar el valor de la constante a.

b) Hallar las funciones de densidad marginales.
c) Calcular la media y la varianza de X.
d) Ídem para Y.
e) Calcular el coeficiente de correlación entre X e Y. ¿Son independientes X e Y?
7.8.24. Según la segunda ley de Mendel, en el cruce de plantas de guisante amarillo

liso con las de guisante verde rugoso la primera generación filial es homogénea, son
todos amarillo liso, pero al cruzar dos de ésta en la siguiente generación filial apare-
9 3 3 1
cen cuatro fenotipos AL, Ar, vL, vr en las proporciones , , y , respecti-
16 16 16 16
vamente. Se eligen diez plantas de la segunda generación filial, calcular la probabi-
lidad de que sean:
a) Exactamente 7 AL.
b) 4 AL, 2 Ar, 3 vL y una vr.
c) Exactamente 6 AL y exactamente 2 Ar.
7.8.25. En una población en la que el porcentaje de cada grupo sanguíneo es 41% del
tipo A, 46% del tipo 0, 9% del tipo B y el resto del tipo AB, se eligen doce indivi-
duos al azar. Calcular la probabilidad de que sean:
a) Cuatro del grupo A, uno del grupo AB, cinco del grupo 0 y los restantes del B.
b) Seis del grupo A y seis del grupo 0.
7.8.26. La función de densidad conjunta de las variables X e Y es:
 e ( )
− x+y
si x > 0, y > 0
f ( x, y ) = 
 0 para cualquier otro parr ( x , y )
a) Hallar las funciones de densidad y de distribución marginales de X.

b) Ídem para la variable Y.
c) Determinar las funciones de distribución de Y condicionada a X y de X con-
dicionada a Y.
d) ¿Son independientes X e Y?
7.8.27. Las variables aleatorias X e Y tienen por función de densidad conjunta:
2 −x
 ( x + y) e si x > 0, 0 < y < 1
f ( x, y ) =  3
 0 para cualquier otro par ( x , y )
Calcular la covarianza de X e Y y el coeficiente de correlación.
7.8.28. Las variables continuas X e Y tienen por función de distribución conjunta:
 0 si x≤0 ó y≤0

F ( x , y ) =  α xy ( x + y) si 0 < x < 1, 0 < y < 1
 1 si x >1 ó y >1

a) Calcular el valor de la constante α.

b) Hallar la función de densidad conjunta de X e Y.
c) Hallar la función de densidad de X condicionada a Y.
d) Calcular P ( X < 0, 5, Y < 0, 5) ; P ( X < 0, 5) ; P ( X < 0, 5 Y < 0, 5) .
Tercera parte
Inferencia estadística
Inferencia estadística.
Teoremas del límite 8
8.1. INTRODUCCIÓN
Se entiende por inferencia estadística el proceso mediante el cual se extraen

conclusiones generales, sobre una población, a partir de medidas obtenidas de ob-
servaciones hechas en muestras tomadas de esa población.
Este procedimiento de inferencia o inducción es muy utilizado en la investi-
gación, tanto en la ciencia como en la técnica, e incluso en la industria.
Para describir una variable aleatoria X, normal, en una población, se nece-
sita conocer unas constantes, los parámetros, en este caso µ y σ. Si se desco-
noce el valor de los parámetros de una población, estos se estiman a partir de
los estadísticos obtenidos de una muestra extraída de aquélla. Se trata de sacar
conclusiones de la población completa a partir de los datos de una parte de esa
población. De esto se ocupa la inferencia estadística. Las conclusiones no serán
categóricas sino que habrán de darse en términos de probabilidad, y en este
proceso será de gran utilidad el conocimiento de las distribuciones de proba-
bilidad.
Como ya se comentó anteriormente, las poblaciones pueden ser, en teoría fi-
nitas o infinitas. En la práctica las poblaciones son finitas, pero si el tamaño N de
la población es muy grande o el muestreo se realiza con reemplazamiento, en
cuyo caso la población nunca se agota, se pueden tratar como si fueran infinitas.
Los elementos de una población pueden ser personas, insectos, árboles, rocas, his-
toriales clínicos, bacterias, fósiles vertebrados, fósiles invertebrados, fragmentos
de un mineral, células sanguíneas, arbustos, piezas o cualquier objeto de interés.
En la Estadística Descriptiva se estudió cómo obtener estadígrafos o estadís-
ticos de una muestra extraída de una población, a continuación se presentaron dis-
tintos modelos de distribuciones de probabilidad, por ejemplo binomial, de Pois-
son, normal, etc., que permiten calcular la probabilidad de que una v.a. tome
distintos valores, o pertenezca a un cierto intervalo o semirrecta, con tal de que se
319
conozca el valor del parámetro o parámetros correspondientes, λ para el modelo

de Poisson P(λ), n y p para el modelo binomial B(n, p), o bien µ y σ para el mo-
delo N(µ, σ).
8.2. POBLACIÓN DE LAS MUESTRAS
Dada una población E de cardinal | E | = N, finito, todas las muestras con re-
emplazamiento de tamaño n que se pueden elegir en esa población son cada uno
(n
de los elementos del producto cartesiano E × E × ...× E = E n y por tanto hay
VRN ,n = N n . El producto cartesiano En es la población de las muestras con reem-
plazamiento de tamaño n que se pueden elegir de la población E. Una muestra de
tamaño n es un elemento cualquiera de la población En.
Antes de abordar el estudio de la estimación de los parámetros de una po-
blación, se resolverán unos ejercicios que facilitarán la introducción de ese es-
tudio.
EJEMPLO 8.1.
Se considera una bolsa en cuyo interior hay cuatro bolitas del mismo tamaño y
que están numeradas con las cifras 1, 2, 3, 4, y el experimento aleatorio que consiste
en elegir una bolita de la bolsa y anotar su número. Hallar la media y la varianza de
la v.a. discreta finita X cuyo conjunto de valores es C = {1,2,3,4} con distribución
uniforme, es decir, que tiene como función de probabilidad:
1 4 si x ∈ C = {1, 2, 3, 4}
f ( x ) = P( X = x ) = 
 0 si x ∉C
La media o esperanza matemática, es:
La varianza:
INFERENCIA ESTADÍSTICA. TEOREMAS DEL LÍMITE 321
EJEMPLO 8.2.
Se consideran ahora todas las muestras aleatorias de tamaño n = 2 con reem-
plazamiento que se pueden extraer de la población anterior, y la v.a.
2
∑ Xi
i=1
X=
2
–
Calcular para todas las muestras anteriores los valores de la variable X y dar su
distribución.
Todas las muestras de tamaño 2 con reemplazamiento son las variaciones con
repetición de orden 2 formadas con los elementos de C = {1,2,3,4}, es decir:
2.a
1 2 3 4
1.a
1 (1,1) (1,2) (1,3) (1,4)
2 (2,1) (2,2) (2,3) (2,4)
3 (3,1) (3,2) (3,3) (3,4)
4 (4,1) (4,2) (4,3) (4,4)
Cada muestra de tamaño 2 es un elemento del producto cartesiano C × C. Por

tanto, C × C representa la población de todas las muestras posibles con reempla-
zamiento de tamaño 2 para la población C = {1,2,3,4}. Así, una muestra con re-
emplazamiento de tamaño 2 es (X1, X2), siendo X1, X2 variables aleatorias inde-
pendientes y ambas con la misma distribución que X.
Los valores de la media para cada una de las muestras posibles con reempla-
zamiento se recogen en la tabla siguiente:
–
X 1 2 3 4
1 1 1,5 2 2,5
2 1,5 2 2,5 3
3 2 2,5 3 3,5
4 2,5 3 3,5 4
En primer lugar se observa que la media no es constante en las muestras, sino

que tiene fluctuaciones en el muestreo, es decir, toma distintos valores: 1, 1,5, 2,
2,5, 3, 3,5 y 4.
–
Desde el punto de vista probabilístico, se puede decir que esta v.a. X es una
v.a. discreta finita con conjunto de valores C = {1, 1,5, 2, 2,5, 3, 3,5, 4} y con fun-
ción de probabilidad:
x$i 1 1,5 2 2,5 3 3,5 4
– 1 2 3 4 3 2 1
P(X = x$i)
16 16 16 16 16 16 16
La función de probabilidad permite calcular la esperanza matemática y la varian-

za de esta nueva variable aleatoria construida a partir de la v.a. X del Ejemplo 8.1. Así,
la esperanza matemática es:
Obsérvese que µ X = µ X = µ = 2, 5.
La varianza es:
σ 2X
Se tiene que Var ( X ) = σ X2 = .
n
σ2 –
Que Var ( X ) = ≠ 0 significa que el estadístico X tiene fluctuaciones en el
n
muestreo.
8.3. LA DISTRIBUCIÓN NORMAL Y LA INFERENCIA

ESTADÍSTICA
Al presentar la distribución normal ya se advirtió que es una distribución

muy utilizada. Se verá a continuación cómo su uso es muy frecuente en la infe-
rencia estadística por el gran número de variables que se ajustan a esta distribu-
ción y también por ser una buena aproximación de otras distribuciones.
Como ya se ha indicado en el Capítulo 7, Epígrafe 7.3.6., la suma de variables

aleatorias normales independientes sigue también una distribución normal:
Si Xi , N ( µi , σ i ) son variables aleatorias independientes ∀i = 1, 2,..., n, en-
tonces
Asimismo es cierto que la combinación lineal de variables aleatorias nor-

males independientes es también normal:
Si Xi , N ( µi , σ i ) son variables aleatorias independientes ∀i = 1, 2,..., n, en-
tonces
Como consecuencia de esto, la diferencia de dos variables aleatorias nor-

males independientes es también normal:
Si X1 , N ( µ1 , σ 1 ) y X2 , N ( µ2 , σ 2 ) su diferencia es normal y tiene por me-
dia la diferencia de las medias y por varianza la suma de las varianzas:
n
∑ Xi
¿Qué se puede afirmar de la distribución de la media X = i =1 de n variables
n
aleatorias independientes Xi , N ( µ, σ ) ∀i = 1, 2,..., n, todas con la misma media
µ y desviación típica σ?
Si Xi , N ( µ , σ ) ∀i = 1, 2,..., n y son variables aleatorias independientes, en-
tonces:
EJEMPLO 8.3.
Se han encontrado en rocas sedimentarias del Terciario restos de Turritellas,
gasterópodos muy abundantes en esa Era. Si las longitudes se distribuyen según una
N( µ = 3, 5 cm, σ = 1 cm ) y se seleccionan al azar 100 Turritellas, calcular la pro-
babilidad de que
a) La media de las longitudes sea menor de 3,55 cm.

b) La media sea mayor de 3,6 cm.
c) La diferencia entre las medias de dos muestras independientes de tamaño
100 sea mayor de un milímetro.
d) ¿Cuántos se deben medir para poder asegurar con probabilidad 0,99 que la
media de la muestra no difiera más de un milímetro del valor de µ?
Llamando X a la medida de la longitud de este tipo de fósil, se sabe que
Las longitudes de cada uno de los 100 fósiles que se van a elegir serán, por
tanto, Xi , N ( µ = 3, 5, σ = 1) e independientes.
La media de las longitudes de 100 de estos fósiles será pues:
a)
b)
c) La variable aleatoria X1 – X2 sigue una distribución normal de media
y varianza
n
∑ Xi  1 1 
d) Como X = i =1
, N  µ = 3, 5, σ = = hay que determinar el valor
n  n n 
de n para que P( X − 3, 5 ≤ 0,1) = 0, 99, tipificando P( Z ≤ 0, 1 n ) = 0, 99, pero
2
P( Z ≤ 0, 1 n ) = 0, 99 ⇒ 0, 1 n ≥ 2, 33 y despejando n ≥ ( 23, 3) = 542, 89
así si n es al menos 543 la media de las longitudes de la muestra diferirá de
3,5 como máximo un milímetro con probabilidad 0,99
Si se desconoce el valor de la media µ de una población que es normal y se

pretende predecir este valor a partir de los datos de una muestra aleatoria de esa
–
población, se puede asegurar que la variable aleatoria X sigue también una dis-
tribución normal y además que su esperanza matemática es el valor del parámetro

µ a estimar. Esto no da seguridad en la predicción, pero permitirá dar una medida
del riesgo que se corre al realizar la suposición, en términos de probabilidad.
Si el muestreo se hace sobre poblaciones no normales, es decir, si se quiere
estimar el parámetro µ que es la media o esperanza matemática de una variable
aleatoria X discreta, o continua pero que no sigue una distribución normal, tam-
–
bién interesa conocer la distribución de la v.a. X, para lo que es necesario hacer
uso de unos resultados que se conocen como teoremas del límite y que se pre-
sentan a continuación.
8.4. TEOREMAS DEL LÍMITE
Se decía al comenzar el tema que la distribución normal es una buena apro-

ximación de otras distribuciones, esta afirmación está justificada por el teorema
central y sus consecuencias. Estos teoremas aseguran la convergencia a la distri-
bución normal de la suma de variables aleatorias para diferentes consideraciones.
Su conocimiento y aplicación permitirá abordar la estimación de los parámetros µ,
σ y p, proporción, de una población a partir de muestras obtenidas de ella.
Los teoremas del límite que se presentan a continuación necesitan sucesiones
de variables aleatorias.
Se dice que X1 , X2 ,..., Xn ,... es una sucesión de variables aleatorias si cual-
( 1 2 n
)
quier n-upla Xi , Xi ,..., Xi es una variable aleatoria n-dimensional con función
( )
de distribución Fi1i2 ...in xi1 , xi2 ,..., xin .
La sucesión de variables aleatorias { Xi } se denomina también un proceso
i∈N
estocástico discreto.
8.4.1. El teorema central

Si { Xi }i ∈N es una sucesión de variables aleatorias independientes de medias
µi = E ( Xi ) , finitas, y varianzas σ i2 = Var ( Xi ) finitas, ∀i = 1, 2, 3,..., n,... entonces
n n n
la v.a. X = ∑ Xi , tiene media µ = E ( X ) = ∑ µi y varianza σ 2 = Var ( X ) = ∑ σ i2 .
i =1 i =1 i =1
n
X − ∑ µi
Si se considera la variable aleatoria Z n = i =1 se verifica que
n
2
∑σ i
i =1
Esto significa que, cualesquiera que sean las distribuciones de las variables
aleatorias Xi, independientes, tanto si son discretas como si son continuas, si n es
n
suficientemente grande la distribución de la variable aleatoria X = ∑ Xi es asin-
i=1
n n
2 2
tóticamente normal de media µ = ∑ µi y varianza σ = ∑ σ . i
i =1 i=1
n
Es decir, la distribución de la variable aleatoria X = ∑ Xi , converge cuando
i=1
 n n 
n → ` a la N  µ = ∑ µi , σ = ∑ σ i2  .
 i=1 i =1 
Dicho de otra forma, cualesquiera que sean las distribuciones de las v.a. Xi, in-
dependientes, tanto para variables aleatorias discretas como continuas, si n es su-
n
ficientemente grande la v.a. X = ∑ Xi , sigue aproximadamente una distribución
i=1
normal de media la suma de las medias y de varianza la suma de las varianzas.
La aproximación será tanto mejor cuanto mayor sea n, especialmente si la dis-
tribución que se aproxima no es simétrica. En la práctica se acepta la aproxima-
ción para valores de n ≥ 30 si la distribución de X no es muy asimétrica, como por
ejemplo una binomial B(n, p) para valores de p próximos a 0,5 Cuanto más asi-
métrica sea la distribución de las variables aleatorias Xi mayor tiene que ser el va-
lor de n para que la aproximación sea aceptable.
Este teorema explica por qué muchas variables aleatorias en las que influyen
un gran número de factores de forma aditiva tienen distribuciones próximas a la
normal.
Los teoremas siguientes son casos particulares del teorema central.
8.4.2. Teorema de Lindeberg-Lévy

Si Xi son variables aleatorias independientes e idénticamente distribuidas de
n
medias µ, y varianzas σ2, ambas finitas, entonces la variable aleatoria X = ∑ Xi ,
i =1
tiene media nµ y varianza nσ2. Aplicando el teorema anterior la variable aleatoria
X − nµ
Zn = converge cuando n → ` a la N ( 0, 1) .
σ n
n
(
En consecuencia, la variable aleatoria X = ∑ Xi es asintóticamente N nµ , σ n .
i =1
)
Un caso particular del teorema de Lindeberg-Lévy es el teorema de De Moivre,
que se presenta a continuación.
8.4.3. Teorema de De Moivre

Se sabe que una variable binomial X , B ( n, p ) se puede considerar suma de n
n
variables aleatorias independientes de Bernoulli, X = ∑ Xi , del mismo parámetro p.
i=1
Cada una de estas variables tiene la misma media µi = p, ∀i = 1, 2,..., n y varianza
Var( Xi ) = pq, ∀i = 1, 2,..., n, que son finitas.
Por el teorema de Lindeberg-Lévy, se puede afirmar que la variable aleatoria
X − np
tipificada Z = para un valor fijo de p, es asintóticamente N(0,1).
npq
Por tanto
n
Dicho de otra forma: La variable aleatoria X = ∑ Xi , B ( n, p ) es asintótica-
(
mente N µ = np, σ = npq . ) i =1
En la práctica, este teorema permite aproximar la distribución binomial de pa-

rámetro n grande por la normal, como se explicará a continuación.
8.4.4. Aproximación de la distribución binomial por la normal

Por el teorema de De Moivre, si X es una v.a. que sigue una distribución bino-
mial de parámetros n y p, X , B ( n, p ) , para un valor fijo de p la distribución de X es
(
asintóticamente N µ = np, σ = npq . )
Las gráficas de la Figura 8.1, proporcionadas por STATGRAPHICS, repre-
sentan las funciones de probabilidad para la distribución binomial para un valor
fijo de p = 0,6 y distintos valores del parámetro n: n = 5, n = 25, n = 50, n = 100.
Este teorema permite calcular probabilidades de variables aleatorias bino-
miales para valores grandes del parámetro n utilizando la tabla de la función de
distribución de la v.a. Z ~ N(0,1).
La aproximación es tanto mejor cuanto mayor sea n y p sea más próximo a
0,5, es decir, cuanto mayor sea n y menos asimétrica sea la binomial.
En la práctica, si n es grande y p no es demasiado grande ni demasiado pe-
queño, que se resume en que se verifique a la vez que np ≥ 5 y nq ≥ 5, se acepta la
aproximación de la distribución binomial por la normal para el cálculo de proba-
bilidades.
Distribución binomial Distribución binomial

Probabilidad
Probabilidad
suceso; n 0,15 suceso; n
0,3
0,12
0,2 0,6;5 0,09 0,6;25
0,06
0,1 0,03
0 0
0 1 2 3 4 5 0 5 10 15 20 25
x x
Distribución binomial Distribución binomial

Probabilidad
Probabilidad
0,1 suceso; n 0,08 suceso; n
0,08 0,06
0,06 0,6;50 0,6;100
0,04
0,04
0,02 0,02
0 0
0 10 20 30 40 50 0 10 20 30 40 50
x x
FIGURA 8.1. Funciones de probabilidad de la distribución binomial con parámetro

p = 0,6 para distintos valores del parámetro n.
8.4.4.1. Corrección de continuidad

Hay que tener en cuenta que al aproximar una distribución discreta, la binomial,
por una continua, la normal, no se puede calcular la probabilidad puntual mediante la
función de densidad de la distribución continua, pues para las distribuciones continuas
la probabilidad de que la variable tome un valor determinado es siempre nula.
Pero si X es una variable binomial, X , B(n, p), su conjunto de valores es
C = {1,2,3,...,n} y la probabilidad de que tome el valor a ∈C no es cero.
Para calcular P(X = a) utilizando la aproximación por la normal
( )
N µ = np, σ = npq , se calcula la probabilidad de un intervalo de longitud uno
cuyo punto medio es a, Figura 8.2., ya que los valores de la v.a. binomial au-
mentan de uno en uno, es decir, para la distribución binomial
N(np,√npq)
a
a – 0,5 a + 0,5
FIGURA 8.2. Aproximación de las probabilidades binomiales por la distribución normal.

La probabilidad de este intervalo es, según el teorema de De Moivre
Tipificando
EJEMPLO 8.4.
a) Calcular la probabilidad de que una variable binomial de parámetros n = 10
y p = 0,5 tome el valor 5 y la aproximación utilizando la distribución
normal.
b) Calcular para una variable binomial de parámetros n = 100 y p = 0,5 la pro-
babilidad de que tome el valor 50 y la aproximación utilizando la distribu-
ción normal. ¿Es mejor la aproximación que la del apartado anterior?
 10
a) P ( X = 5) = f ( 5) =   (0, 5)5 (0, 5)5 = 0, 2461.
 5
Si es X , B ( n = 10, p = 0, 5) Ä esÄ E ( X ) = 5 y Var ( X ) = 2, 5.
Aproximando por la distribución normal:
 100
b) P ( X = 50 ) = f ( 50 ) =   (0, 5)50 ( 0, 5)50 = 0, 0796.
 50 
Si X , B ( n = 100, p = 0, 5) Ä es Ä E ( X ) = 50 y Var ( X ) = 25.
Aproximando por la distribución normal:
En ambos casos se verifica que np ≥ 5 y nq ≥ 5, pero en el segundo es mucho

mayor el valor de n, por lo que la aproximación es mucho mejor.
Por ser distinta la probabilidad de los intervalos abiertos, semiabiertos y
cerrados en el caso de las distribuciones discretas y la misma en el caso de las
distribuciones continuas, para el cálculo de las probabilidades de los inter-

valos, antes de aproximar la distribución binomial por la normal, se tiene en
cuenta la llamada corrección de continuidad, que consiste en ampliar una lon-
gitud 0,5 a la derecha del extremo superior si éste se incluye en el intervalo,
o a la izquierda del extremo inferior si se incluye este último, es decir, se
aproxima por la normal correspondiente después de hacer las siguientes co-
rrecciones:
EJEMPLO 8.5.
a) Si X , B ( 30, 0, 3) , calcular la P(10 ≤ X ≤ 15) directamente con calcula-

dora y utilizando la aproximación por la normal.
b) Hacer lo mismo para una v.a. X, B ( 30, 0, 5) .
c) Si X , B ( 60, 0, 5) , calcular la P(28 ≤ X ≤ 33).
d) Compruébese en los tres casos que la aproximación mejora aplicando la co-
rrección de continuidad.
a) La probabilidad que una binomial de parámetros 30 y 0,3 tome valores

mayores o iguales a 10 y menores o iguales a 15 es:
Al calcular esta probabilidad por aproximación, como
( )
se puede aproximar la distribución B(30, 0,3) por la N µ = 9, σ = 6, 3 y por in-
cluirse los dos extremos del intervalo:
El error que se comete al aproximar por la distribución normal es:
b) Si X ~ B (30, 0,5), entonces
(
Aproximando por la N µ = 15, σ = 7, 5 . )
El error que se comete al aproximar por la distribución normal es en este caso:
Por tanto, la precisión mejora para el mismo valor de n si p es más próximo a 0,5.
c) Si X ~ B(60, 0,5).
(
Aproximando por la N µ = 30, σ = 15 . )
El error que se comete al aproximar por la distribución normal es ahora:
También mejora la precisión si se fija el valor de p = 0,5 al aumentar el valor

del parámetro n.
d) Si no se aplicase la corrección de continuidad se obtendría:

En el caso a)
que es peor aproximación que 0,4159, la que tenía en cuenta la corrección de con-
tinuidad.
En el caso b)
que también es peor aproximación que 0,5492.

Lo mismo se comprueba en el caso c)
Este valor 0,4779 se aleja más del verdadero valor de esta probabilidad,
0,5575, que 0,5581, obtenido aplicando la corrección de continuidad.
8.4.5. Aproximación de la distribución de Poisson por la normal

Como consecuencia del teorema de Lindeberg-Lévy, también se puede apro-
ximar la distribución de Poisson de parámetro λ para valores grandes de λ por la
distribución normal.
Si Xi son variables aleatorias de Poisson del mismo parámetro λ, indepen-
dientes e idénticamente distribuidas, se sabe que las medias y las varianzas son λ,
n
entonces la v.a. X = ∑ Xi , tiene una distribución de Poisson de media nλ y va-
i =1
n
rianza nλ y, teniendo en cuenta el teorema de Lindeberg-Lévy, X = ∑ Xi es asin-
i =1
(
tóticamente N nλ , nλ . )
X − nλ
En consecuencia, para valores grandes de n la variable Z = sigue
aproximadamente una distribución N(0,1). nλ
Con el programa STATGRAPHICS se puede observar la forma de la función
de probabilidad de la distribución de Poisson y cómo al aumentar el valor del pa-
rámetro λ se va haciendo más simétrica con respecto a la recta vertical x = λ.
Las gráficas, para los valores de λ = 1, λ = 10, λ = 50 y λ = 100 que propor-
ciona STATGRAPHICS se pueden observar en la Figura 8.3.

0,4 Media 0,15 Media
Probabilidad
Probabilidad
0,3 1 0,12 10
0,09
0,2
0,06
0,1 0,03
0 0
0 1 2 3 4 5 6 0 5 10 15 20 25 30
x x

0,06 Media 0,04 Media
Probabilidad
Probabilidad
0,05 50 100
0,03
0,04
0,03 0,02
0,02
0,01
0,01
0 0
0 10 20 30 40 50 60 70 80 90 100 0 30 60 90 120 150
x x
FIGURA 8.3. Funciones de probabilidad de la distribución de Poisson para distintos

valores del parámetro λ.
El teorema de Lindeberg-Lévy justifica que la distribución de Poisson se

pueda aproximar por la distribución normal de media y varianza igual al valor del
parámetro λ, siempre que el parámetro λ sea «suficientemente grande». Como
para la aproximación de la binomial hay que tener en cuenta la corrección de con-
tinuidad.
Las reglas prácticas no son fijas, se acepta esta aproximación para valores de
λ ≥ 5. Desde luego, cuanto mayor sea el valor de λ la aproximación de las pro-
babilidades de la distribución de Poisson por la normal será mejor.
TABLA RESUMEN DE LAS APROXIMACIONES

ENTRE DISTRIBUCIONES
Distribución Se puede aproximar por Regla práctica

La aproximación es mejor cuando N es grande y n
pequeño en comparación con N.
H ( N , n, p ) B ( n, p ) Se acepta si
n
< 0,1
N
La aproximación es mejor si n es grande

y p pequeño.
B ( n, p ) P ( λ = np )
Se acepta si
n ≥ 50 y p ≤ 0,1
La aproximación es mejor cuanto mayor sea n y p

esté más próximo a 0,5.
B ( n, p ) N ( µ = np, σ = npq )
Se acepta si
np ≥ 5 y nq ≥ 5
La aproximación es mejor si λ es grande.

P(λ ) N( µ = λ , σ = λ ) Se acepta si
λ≥5
EJEMPLO 8.6.
En un centro de salud se ha observado que acude una media de tres personas
diarias a consulta médica que no tienen cita previa y quieren ser atendidas.
a) Calcular la probabilidad de que no acuda a consulta ninguna persona sin cita
previa en un día.
b) Calcular la probabilidad de que en una semana, más de tres días de los cinco
que está abierto el ambulatorio acuda al menos una persona sin cita previa.
c) Si en un año el centro de salud está abierto 250 días, calcular la probabilidad
de que en ese año acudan menos de 800 personas para ser atendidas sin tener
cita previa.
d) ¿Cuál es la probabilidad de que en un año acudan más de 798 personas sin
cita previa?
e) ¿Cuál es la probabilidad de que en un año acudan sin cita previa 799 personas?
a) Si la v.a. X representa «el número de personas que van a consulta al centro

de salud en un día y que no tienen cita previa», X ~ P(λ = 3).
b) Designando por Y la variable aleatoria que cuenta «el número de días de

la semana en los que al menos una persona acude sin cita previa», como
la probabilidad de que al menos acuda una persona sin cita previa es
p = 1 − 0, 0498 = 0, 9502, la variable Y , B ( n = 5, p = 0, 9502 ) .
c) Como el número de personas que acuden en un día sin cita previa es Xi = P(λ = 3)
independientemente de los que llegan cualquier otro día, el número de los que lle-
gan sin cita previa en ese año es
Como el parámetro λ = 750 es muy grande, se pueden calcular las probabili-

(
dades para Sanual utilizando la aproximación a la N µ = 750, σ = 750 = 27, 3861 , )
por tanto
d) P ( Sanual > 798) = 1 − P ( Sanual ≤ 798) = 1 − P ( Z < 1, 77 ) = 0, 0384
e) P ( Sanual = 799 ) = P ( 798, 5 < Sanual < 799, 5) = P (1, 77 < Z < 1, 81) = 0, 0033
– PARA
8.5. DISTRIBUCIÓN DE LA VARIABLE ALEATORIA X
MUESTRAS DE TAMAÑO n EN POBLACIONES
NO NORMALES
Si las variables aleatorias Xi ∀i = 1, 2,..., n, siguen la misma distribución, de

media E ( Xi ) = µ y varianza Var( Xi ) = σ 2 , cualquiera que sea la distribución
discreta o continua, siempre que se puedan considerar independientes las va-
riables aleatorias Xi, por ejemplo en el muestreo con reemplazamiento, como
n
∑ Xi
i =1
consecuencia del teorema de Lindeberg-Lévy, la v.a. X n = , que tiene
n
nσ 2 σ 2 para valores grandes de n es aproxima-
E( X n ) = µ y Var ( Xn ) = = ,
n2 n
 σ 
damente una N  µ, . En la práctica se acepta la aproximación si n ≥ 30.
 n 
El teorema central explica la razón de que muchas variables aleatorias que

se encuentran en la ciencia, en la técnica y en la industria se comporten como
normales, o aproximadamente normales, por ser el resultado de la adición de
otras muchas variables. De aquí la importancia de la distribución normal en las
aplicaciones y la importancia de la distribución normal en la inferencia esta-
dística.
EJEMPLO 8.7.
En un restaurante se ha observado que el tiempo medio de espera para ser
atendido en una mesa a la hora de la comida es de 15 minutos, con una varianza de
12 minutos. ¿Cuál es la probabilidad de que el tiempo medio de espera para los 50
próximos clientes sea como máximo de 14,5 minutos?
Designando por X «el tiempo medio que espera una persona en una mesa
para ser atendida» se conoce que µ = E ( X ) = 15 y Var ( X ) = 12, por tanto
σ = 12 = 3, 4641.
Como la muestra es de tamaño n = 50 > 30 se puede aceptar que la variable
50
∑ Xi  σ 
aleatoria X = i =1
, N  µ = 15, = 0, 4899 , por tanto
50  50 
8.6. DISTRIBUCIÓN DE UNA PROPORCIÓN OBSERVADA p̂
Se designa por p la proporción de los elementos de la población que pertene-

cen a una clase S, es decir, p = P(S), esto es, la probabilidad de S.
Al observar en una muestra aleatoria de tamaño n de esa población la fre-
cuencia relativa del suceso S, o proporción observada de S en la muestra, se con-
sideran n variables aleatorias Xi independientes de Bernoulli del mismo parámetro p.
n X
La variable aleatoria X = ∑ Xi será una B(n, p) y la variable aleatoria Y =
i =1 n
 1 2 x 
tendrá por conjunto de valores C = 0, , ,..., ,..., 1 con probabilidades
 n n n 
X
La variable Y = tiene media
n
Y su varianza es
Como consecuencia del teorema de De Moivre, la variable aleatoria X es asintó-

( )
ticamente N µ = np, σ = npq y por tanto la proporción observada en la muestra:
X  pq 
p̂ = será asintóticamente N  µ = p, σ =
n  n 
En la práctica se acepta esta aproximación si np ≥ 5 y nq ≥ 5 a la vez.
EJEMPLO 8.8.
La proporción en España de la infección VIH en personas con un país de origen
distinto de España es del 18,8% Calcular la probabilidad de que en una muestra ele-
gida al azar de 315 extranjeros haya menos de 60 enfermos de sida.
Si X representa el número de personas de los 315 que están enfermos de sida,

X
X , B ( n = 315, p = 0, 1880 ) y la variable aleatoria Y = sigue aproximada-
mente una distribución 315
8.7. ESTIMADORES Y ESTIMACIONES
Si se desconoce la media µ de una v.a. X se puede elegir una muestra aleato-

–
ria de tamaño n en esa población y estimarlo con el valor de X obtenido de la
–
muestra. Se dice que el estadístico X se utiliza para estimar el valor del parámetro
–
µ, o que X es un estimador del parámetro µ.
–
En los Ejemplos 8.1. y 8.2. se ha observado que el estadístico X es una varia-
ble en el muestreo y por tanto su valor dependerá de la muestra extraída de la po-
blación. Así, estimaciones posibles de µ, que conocemos que vale 2,5, pues se ha-
bía calculado en el Ejemplo 8.1, son: 1, 1,5, 2, 2,5, 3, 3,5 y 4, y por tanto puede
ocurrir que la estimación coincida con el valor real de µ = 2,5, o se obtenga una
estimación inferior a ese valor o superior a él y que difiera más o menos de él.
–
La varianza de la v.a. X es
–
y por tanto, los valores de X se concentrarán más en torno a µ cuanto mayor sea el
tamaño n de la muestra. Esto significa que se obtendrán estimaciones más preci-
–
sas de µ con el mismo estadístico X aumentando el tamaño de la muestra, pero
–
siempre tendrá X fluctuaciones en el muestreo, pues la varianza, que disminuye al
aumentar n, tamaño de la muestra, no es nunca nula.
En la Figura 8.4. se observa que para un carácter cuantitativo, los estadísticos,
calculados en los temas de estadística descriptiva, se utilizan para estimar pará-
metros que permiten describir algún aspecto de la población.
Población
Parámetros
Muestra
μ, σ, …
Estadísticos
Caracteres
X, S, …
Modalidades Valores
Tablas Tablas
y gráficas y gráficas
FIGURA 8.4. Proceso inductivo para estimar los parámetros de una población.
La inferencia estadística, que trata de explicar problemas de decisión sujetos

a incertidumbre, estudia dos tipos de problemas que están relacionados: estima-
ción de los parámetros de una población y los contrastes de hipótesis, que se abor-
dan en los temas siguientes.
8.8.1. En una urna hay cinco bolas numeradas con 1, 4, 7, 8, 10.

a) Se elige una bola al azar y se designa por X el número de dicha bola. Calcular
la media y la desviación típica de la variable X.
b) Se consideran todas las muestras posibles de tamaño dos que se pueden ob-
tener eligiendo de la urna las bolas al azar con reemplazamiento. Se designa
–
por X la media de los números obtenidos. Calcular el valor esperado de la me-
–
dia muestral X y su varianza.
c) Se consideran todas las muestras posibles de tamaño dos que se pueden ob-
tener eligiendo de la urna las bolas al azar sin reemplazamiento. Calcular el
–
valor esperado de la media muestral X y su varianza.
8.8.2. Aceptando que el peso de un recién nacido en determinada región sigue una
distribución aproximadamente N(µ = 3.350 g, σ = 484 g), calcular la probabilidad de
que el peso medio de 100 niños nacidos en esa zona sea inferior a 3.500 g
8.8.3. El grosor de las piezas cortadas por una máquina se distribuye según una
N(µ = 18,5 cm, σ = 0,4 cm). Las piezas se venden en lotes de 50.
–
a) ¿Cómo se distribuye la media X del grosor de los tablones de cada lote?
b) Calcular la probabilidad de que el grosor medio de uno de estos lotes esté
comprendido entre 18,4 cm y 18,6 cm.
c) Si se venden 200 lotes de 50 piezas, ¿en cuántos lotes se puede esperar que el
grosor medio esté comprendido entre los límites indicados en el apartado b)?
8.8.4. Un fabricante de componentes electrónicos ha estimado, tras largos años de

experiencia, que la vida media de un tipo de monitores de ordenador es de 1.700 días
con una desviación típica de 150 días. Se elige una muestra de 225 monitores y se de-
jan encendidos continuamente hasta que se estropean.
a) Calcular la probabilidad de que la vida media de la muestra sea inferior a
1.700 días.
b) ¿Cuál es la probabilidad de que la vida media de la muestra sea inferior a
1.500 días?
c) Calcular la probabilidad de que la vida media de los monitores de la muestra
esté comprendida entre 1.670 y 1.725 días.
8.8.5. En una urna hay cinco bolas que se distinguen sólo por su número 1,2,5,6,8.
a) Se elige una bola al azar y se designa por X el número de dicha bola. Calcular
la media y la desviación típica de la variable X.
b) Observadas todas las muestras posibles de tamaño dos que se pueden obtener
–
eligiendo las bolas al azar con reemplazamiento y designando por X la media
de los números obtenidos, calcular el valor esperado de la media muestral y
su varianza.
c) Responder de nuevo al apartado anterior en el caso de que las muestras se ob-

tengan eligiendo las bolas al azar sin reemplazamiento.
 1
8.8.6. Si X , B  n = 160, p =  , calcular las siguientes probabilidades:
 2
a) P(X = 85); b) P(X ≤ 75); c) P(75 ≤ X ≤ 85).
8.8.7. Se ha comprobado que el 15% de las prendas fabricadas fuera de España no

pasan los controles de calidad para su importación. Se eligen al azar 2.000 de esas
prendas.
a) Mediante la aproximación normal, calcular la probabilidad de que la muestra
contenga más de 350 prendas defectuosas.
b) Para admitir un gran lote de varios miles de prendas se elige una muestra de
200 prendas del lote y si el número de defectuosas, X, es como máximo 32 se
acepta, y en caso contrario se rechaza. ¿Cuál es la probabilidad de aceptar un
lote que contiene el 15% de prendas defectuosas?
8.8.8. En una fundición se fabrican piezas cuyos pesos se distribuyen según una
N(305 kg, 45 kg). Se transportan en camiones con una tara máxima autorizada de
8,1 tm.
Si se cargan 25 de esas piezas por camión y se efectúa el control de carga de uno
de los camiones elegido al azar, ¿cuál es la probabilidad de que su tara supere la má-
xima autorizada?
8.8.9. La probabilidad de que se entregue un cheque sin fondos en una entidad

bancaria es 0,15. Si en dicha entidad se reciben 1.000 cheques, calcular la probabi-
lidad de:
a) Encontrar como máximo 125 de ellos sin fondos.
b) El número de cheques sin fondos esté comprendido entre 140 y 155.
c) Los cheques sin fondos sean más de 200.
d) Encontrar exactamente 165 cheques sin fondos.
8.8.10. Se lanza un dado dos veces seguidas y se anotan los resultados. Se pide:
a) ¿Cuál es el valor esperado de la media muestral?
b) ¿Cuál es la varianza de la media muestral?
c) ¿Cuál es el valor esperado de la varianza muestral?
8.8.11. Los diámetros normales de 300 árboles de una misma especie y edad se dis-
tribuyen según una normal de media 68 cm y desviación típica de 3 cm. Se eligen
muestras de 25 árboles.
a) Calcular la media y la desviación típica esperada de la distribución de la me-
dia muestral para el muestreo con reemplazamiento.
b) Ídem para el muestreo sin reemplazamiento.

c) Tomando 80 muestras sin reemplazamiento de tamaño 25, ¿en cuántas de és-
tas cabe esperar una media entre 66,8 cm y 68,3 cm? ¿Y una media mayor de
67 cm?
8.8.12. En dos aserraderos cortan tableros cuyo grosor en mm sigue una N(145; 0,9)
utilizan métodos diferentes para el control de los grosores de la partida de table-
ros. En el primero eligen tres tableros al azar y se rechaza la partida si alguno de
ellos tiene grosor fuera del segmento [143,8 mm, 146,8 mm]. En el segundo se
eligen cinco tableros y se rechaza la partida si la media de sus grosores no está
comprendida en el segmento [144 mm, 146 mm]. ¿Qué método es más exigente y
por qué?
8.8.13. Después de numerosas experiencias se admite que la probabilidad de que una

planta de cierta especie muera antes de un año de haber sido plantada es 0,05. Por
ello, una empresa de jardinería que planta 600 unidades de dicha especie por encar-
go garantiza a su cliente que el 90% de las plantas sobrevivirán al año.
a) Hallar la función de cuantía de la variable aleatoria, X, que indica el número
de plantas que sobrevivirán al año.
b) Calcular la media y la varianza de X.
c) Calcular, por aproximación, la probabilidad de cumplir la garantía.
d) Calcular la probabilidad de que sobrevivan más de 570.
e) Calcular la probabilidad de que sobrevivan al menos 576.
8.8.14. El 40% de las personas atendidas en la última semana en un hospital tienen

problemas de alergia. Se han atendido a 1.200 pacientes y se seleccionan al azar 50
historiales. Si X representa el número de personas que forman parte de la muestra y
que tienen problemas de alergia.
a) Determinar la función de probabilidad de X.
b) Calcular la probabilidad de encontrar en la muestra entre 10 y 20 personas
con problemas de alergia.
8.8.15. El 40% de una población de 1.000 conejos se inyecta con un virus para de-
sarrollar anticuerpos y obtener una vacuna. Se seleccionan al azar 50 conejos. Se in-
dica por X la variable que representa el número de conejos de la muestra que fueron
inyectados.
a) ¿Qué tipo de distribución sigue la variable X?
b) Calcular la probabilidad de encontrar 6 ≤ X ≤ 12.
8.8.16. Una emisora de radio afirma que el 36% de la población de cierta ciudad es-
cucha su programa los sábados de 2 a 4 de la madrugada. Si esto es cierto, ¿cuál es la
probabilidad de que de 500 personas, elegidas al azar en dicha ciudad, a las que se les
encuesta el domingo, más de 150 lo hubieran escuchado?
8.8.17. Se plantan 1.600 plantas de una especie de la que se acepta que el 80% so-
breviven al cabo de un año.
a) Escribir la función de probabilidad de la variable aleatoria cuyos valores
son el número de plantas de dicha especie que sobreviven al cabo de un
año.
b) Calcular la probabilidad de que haya como máximo 1.100 plantas que so-
brevivan al cabo del año.
c) ¿Qué valor debería tener el parámetro p de la distribución para que la proba-
bilidad de que sobrevivan más de 1.400 plantas sea 0,5?
8.8.18. El 40% de los clientes de unos grandes almacenes pagan con tarjetas de cré-
dito del propio centro. Calcular la probabilidad de que entre 5.000 clientes paguen
con ese tipo de tarjetas de crédito:
a) Más de 2.000.
b) Menos de 4.000 y más de 1.000.
c) Al menos 1.500.
d) Hallar dos valores x1 y x2 equidistantes de la media y tales que P(x1 < X < x2) = 0,90.
8.8.19. Una máquina produce un 10% de piezas defectuosas. Calcular la probabili-

dad de encontrar entre 900 y 1.170 piezas defectuosas en un lote de 11.000 de las fa-
bricadas por dicha máquina.
8.8.20. Si se lanza 500 veces una moneda de un euro, calcular las siguientes proba-
bilidades:
a) Que salgan entre 230 y 270 caras.
b) Que se obtengan más de 150 caras.
c) Que el número de caras sea mayor de 489.
8.8.21. De 100.000 moscas adultas de las que dispone un laboratorio, sólo el 70%
son aptas para realizar un experimento. ¿Cuál es la probabilidad de que de 1.800
moscas elegidas al azar al menos 1.200 sean aptas para realizar la prueba?
8.8.22. Se sabe que el 80% de los árboles de una determinada especie sobrepasan los
3,5 metros de altura a los diez años de su plantación. Se plantan 700 árboles de dicha
especie.
a) ¿Cuál es el número esperado de árboles que superarán dicha altura a los
diez años?
b) Calcular la probabilidad de que a los diez años haya más de 600 árboles con
la altura mínima de 3,5 metros.
c) ¿Cuál debería ser el porcentaje de los que sobrepasarán 3,5 m a los diez
años de su plantación para que la probabilidad de que a los diez años haya
más de 600 árboles con una altura mínima de 3,5 metros sea 0,5?
Estimación de los parámetros
de una población 9
9.1. ESTIMACIÓN PUNTUAL DE UN PARÁMETRO

DE UNA POBLACIÓN
Los parámetros de una población son números fijos pero desconocidos, y se

designarán por letras griegas. Para indicar un parámetro en general se utilizará la
letra θ. Para hallar el verdadero valor de un parámetro habría que calcularlo exa-
minando todos los elementos de la población. Esto, a menudo, es inviable por lo
que se estima su valor a partir de un estadístico apropiado que se calcula con los
datos de una muestra aleatoria de tamaño n de esa población.
Se designará por θ̂ un estimador, que es una función de las variables que com-
ponen la muestra, esto es, un estadístico para estimar el valor del parámetro θ.
1 n
Así, el estadístico µˆ = X = ∑ Xi .
n i =1
El valor de θ̂ para cada muestra es una estimación del parámetro θ. Por
1 n
ejemplo, al estimar la media poblacional µ, el valor µ̂ = x = ∑ xi es una esti-
n i =1 –
mación de µ obtenida de una muestra, uno de los posibles valores de la v.a. X.
9.1.1. Clases de estimadores

9.1.1.1. Estimadores centrados
El estimador θ̂ es una variable aleatoria en el muestreo y por ello se puede cal-
cular su esperanza matemática.
()
Se denomina sesgo del estimador θ̂ a la diferencia E θˆ − θ . El sesgo también
se llama error sistemático del estimador.
()
En el caso que E θˆ − θ = 0, se dice que θ̂ es un estimador centrado o inses-
gado del parámetro θ. Ésta es una característica deseable de un estimador.
345
–
El estadístico X es una v.a. cuya esperanza matemática es el valor del pará-
–
metro, es decir, E( X ) = µ. Por tanto, X es un estimador centrado o insesgado del
parámetro µ, media poblacional.
n 2
∑ ( Xi − X )
i=1
Sin embargo, la varianza muestral Var ( X ) = no es un estimador
n
centrado de la varianza poblacional σ 2, pues
Teniendo en cuenta que E( Xi ) = µ y Var ( Xi ) = σ 2 , ∀i = 1, 2,..., n y que

σ2
E ( X ) = µ y Var ( X ) = σ X2 = X se deduce que
n
La varianza muestral S2 es un estimador sesgado de σ 2. El sesgo es:
que para muestras de tamaño n muy grande es insignificante, pero es un sesgo

considerable para muestras de tamaño pequeño.
Sin embargo, la cuasivarianza muestral s2 sí es un estimador centrado de σ2 porque
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN 347
9.1.1.2. Estimadores consistentes

Si se indica por θ̂n al estimador correspondiente a una muestra de tamaño n, al
variar el tamaño de la muestra se obtiene una sucesión de estimadores
El estimador θ̂ n se dice que es consistente si, ∀ε > 0 lim P θˆn − θ ≤ ε = 1,

n→`
( )
es decir, es muy probable que las estimaciones difieran de θ tan poco como se
quiera con tal de aumentar el tamaño de la muestra.
–
Por ejemplo el estadístico X es un estimador consistente de µ pues, teniendo
en cuenta la desigualdad de Chebyshev:
σ ε n 1 σ2
si k
n
=ε ⇒k=
σ
(
, entonces P X n − µ ≤ ε ≥ 1 −
ε n
2 = 1 − )
ε 2n
y por
 σ 
tanto
También se puede probar que la varianza muestral es un estimador consistente

de σ 2, se podría decir que la varianza muestral, aunque es un estimador sesgado de
la varianza poblacional, es un estimador asintóticamente insesgado de σ 2.
Si se dispone de dos estimadores de un mismo parámetro θ y uno de ellos es
centrado y el otro no, se elegirá el centrado como mejor estimador. Pero si ambos
son centrados, como los estimadores tienen fluctuaciones en el muestreo, es decir, son
variables aleatorias con varianza distinta de cero, será mejor estimador el que ten-
ga menor varianza, pues esto conlleva una mayor precisión.
Fréchet, Cramer y Rao han proporcionado una cota inferior para la varianza de un
estimador que depende del tamaño de la muestra y de la distribución de la población.
Si X es una variable aleatoria en una población E, la población de todas las
muestras con reemplazamiento es En. A En se le puede asociar una n-upla de va-
riables aleatorias ( X1 , X2 ,..., Xn ) siendo Xi , ∀i = 1, 2,..., n variables aleatorias in-
dependientes y todas ellas con la misma distribución que X.
Dada una muestra aleatoria simple de tamaño n de una población en la que la v.a.
X tiene por función de densidad f(x), que es función del parámetro a estimar θ y por
ello se escribirá f ( x ;θ ), la función de densidad de esta muestra n-dimensional es:
n
L ( x1 , x 2 ,..., x n ;θ ) = f ( x1 ;θ ) f ( x 2 ;θ )... f ( x n ;θ ) = Π f ( xi ;θ ) que recibe el nombre
i=1
de función de verosimilitud de la muestra.
Para los estimadores centrados θ̂ la cota de Fréchet-Cramer-Rao para la va-

rianza de este estimador es:
9.1.1.3. Estimadores eficientes

Un estimador θ̂ se dice que es un estimador eficiente para θ si además de ser
centrado tiene varianza mínima. La varianza puede no coincidir con la cota dada
anteriormente, pues ésta puede que no sea alcanzable.
Si la varianza de un estimador θ̂ , que sea centrado, coincide con la cota de
Fréchet-Cramer-Rao, éste es estimador eficiente de θ.
9.1.1.4. Estimadores suficientes

Un estadístico θ̂ es un estimador suficiente de θ si
siendo h(x1, x2,..., xn) independiente del parámetro θ.

Se dice que la estimación θ̂ de θ recoge toda la información contenida en la
muestra con respecto al parámetro θ.
9.1.2. Métodos de obtención de estimadores

Dos procedimientos para la obtención de estimadores son: el de la máxima ve-
rosimilitud y el de los momentos.
9.1.2.1. Método de la máxima verosimilitud

Si X es una variable aleatoria en una población E, que tiene por función de
densidad f ( x ;θ ), a la población de todas las muestras con reemplazamiento, que
es En, se le puede asociar una n-upla de variables aleatorias ( X1 , X2 ,..., X n )
siendo Xi , ∀i = 1, 2,..., n variables aleatorias independientes y todas ellas con la
misma distribución que X.
Un modo de estimar el parámetro θ de la población es utilizar el estimador θ̂ de
máxima verosimilitud, es decir, el estimador que hace máxima la función de verosi-
militud de la muestra, o función de densidad de esta muestra n-dimensional, que es:
por ser independientes las variables Xi, ∀i = 1, 2,..., n. Esta función es la función
de masa de probabilidad de la muestra aleatoria, si las variables X1, X2,..., Xn son
discretas, o función de densidad de probabilidad, si las variables X1, X2,..., Xn
son continuas. Cuando se dan los valores x1, x2,..., xn de una muestra, la función de
verosimilitud es sólo función del parámetro θ.
Como la función log L alcanza su valor máximo para el mismo valor de θ que
la función L, por ser L una función positiva, para calcular el valor que maximiza
L se resuelve la ecuación:
Cualquier solución de esa ecuación que dependa de los valores muestrales

x1, x2,..., xn se dice que es un estimador de máxima verosimilitud de θ.
Si el estimador es único este método proporciona un estadístico sufi-
ciente.
EJEMPLO 9.1.
Determinar el estimador de máxima verosimilitud de µ = E( X ) siendo
X , N (µ, σ ) de la que se desconocen los parámetros µ y σ.
Si (x1, x2,..., xn) es una muestra aleatoria simple de esa población la función de
verosimilitud de la muestra es:
Tomando logaritmos neperianos:
Para encontrar el valor del máximo

Esto significa que en una población normal el estimador de máxima verosi-

militud de la media poblacional µ es: µˆ = X , la media muestral.
Este estimador, que es un estimador centrado de la media poblacional, es ade-
más el que hace máxima la función de verosimilitud.
EJEMPLO 9.2.
Determinar el estimador de máxima verosimilitud para σ 2, siendo X , N ( µ, σ )
de la que se desconocen los parámetros µ y σ.
Como ya se ha calculado la función de verosimilitud de la muestra en el

Ejercicio 9.1. basta con resolver:
y como
Es decir, el estimador de máxima verosimilitud de la varianza poblacional es

la varianza muestral.
EJEMPLO 9.3.
Determinar el estimador de máxima verosimilitud para p = P(S).
Al realizar n pruebas independientes de Bernoulli y observar en cada una de

ellas la realización o no del suceso S, se puede considerar la variable aleatoria
con P( X = 1) = P(S) = p; P( X = 0) = P(S ) = 1 − p = q. Las n pruebas indepen-

dientes constituyen una muestra aleatoria de tamaño n. Si se designa por Y el nú-
mero de veces que se verifica el suceso S en las n pruebas, la función de verosi-
militud de la muestra es:
Tomando logaritmos:
El valor de p que hace máxima la función de verosimilitud se obtiene resolviendo
es decir,
y
De forma que la frecuencia relativa del suceso S en las n pruebas p̂ = es el
estimador de máxima verosimilitud de la probabilidad p = P(S). n
9.1.2.2. Método de los momentos

Este método de obtención de estimadores para la estimación de parámetros
desconocidos, consiste en igualar los momentos apropiados de la distribución de
una variable X en la población con los correspondientes momentos muestrales.
Así, si se pretende estimar los dos parámetros µ y σ2 que determinan la fun-
ción de densidad de una v.a. X , N ( µ, σ ) , como
se toman como estimadores de µ y σ2 los momentos análogos para una muestra de

tamaño n: µˆ = a1 = X y σˆ 2 = a2 − a12 = Var ( X ).
9.1.3. Estimación de la media µ

Si se desconoce el parámetro µ = E ( X ), se puede estimar por el estimador de
máxima verosimilitud de la media poblacional µ que es la media muestral:
–
Un valor x$ de la v.a. X es una estimación puntual del parámetro µ.
–
El estadístico X es además un estimador centrado, porque E( X ) = µ, y con-
σ2
sistente ya que su varianza Var ( X ) = , como se explicó en el capítulo anterior,
n
Epígrafe 8.3., si el muestreo se realiza con reemplazamiento y es tanto más pe-
queña cuanto mayor sea el tamaño de la muestra. La precisión del estimador au-
menta al aumentar el tamaño muestral, pues esto hace disminuir la varianza.
– σ
La raíz cuadrada de la varianza del estimador X, es decir, recibe el nombre
– n
de error de muestreo o error típico del estimador X.
Si el muestreo se realiza sin reemplazamiento, se puede demostrar que la va-
– N −n σ2
rianza del estimador X es Var ( X ) = .
N −1 n
N−n
El coeficiente se denomina factor de corrección para poblaciones fi-
N −1
nitas. Si la población tiene un tamaño N muy grande frente al tamaño muestral n,
de modo que se pueda considerar infinita, este factor es muy próximo a 1, y en este
– σ2
caso la varianza del estimador X es aproximadamente Var ( X ) = .
n
EJEMPLO 9.4.
De una población muy extensa de estudiantes cuya estatura se distribuye según una
normal de media 170 cm y desviación típica 7 cm, se elige una muestra de 100 individuos.
a) ¿Cuál es la distribución de la media muestral?
b) Calcular la probabilidad de que la media muestral esté comprendida entre
168,6 cm y 171,4 cm.
c) Calcular los extremos de un intervalo cuyo centro sea 170 cm en el que se pue-
da asegurar que se encuentra la media muestral del 99,73% de las muestras.
a) Como X , N ( µ = 170 cm, σ = 7 cm ) y el tamaño de la muestra es n = 100,

por ser la población muy extensa se puede considerar que el factor de corrección
–
para esta población es prácticamente 1, y por tanto la distribución de X es normal
 σ 
y aproximadamente X , N  µ = 170 cm, σ X = = 0, 7 cm .
 n 
b) P (168, 6 < X < 171, 4 ) = P ( −2 < Z > 2 ) = 0, 9545.
 −a a 
c) P (170 − a < X < 170 + a) = 0, 9973 ⇒ P  <Z< = 0, 9973 ⇒
 0, 7 0, 7 
 a   a  a
⇒ 2F   − 1 = 0.9973 ⇒ F   = 0.9987 ⇒ = 3 ⇒ a = 2, 1
 0, 7   0, 7  0, 7
Los extremos son 167,9 cm y 172,1 cm.
9.1.4. Estimación de una proporción p

Para estimar p, proporción de elementos de una población que pertenecen a
una clase S, se utiliza el estimador de máxima verosimilitud de p, que es el esta-
Y
dístico pˆ = , siendo Y = «n.o de veces que se verifica S en la muestra», es decir,
n
el número de elementos de la muestra ( e1 , e2 ,..., en ) que son de la clase S.
Si se consideran las variables aleatorias
que son n v.a. de Bernoulli del mismo parámetro p = P(S) independientes, por
n
realizar el muestreo con reemplazamiento, la variable Y = ∑ Xi será una variable
binomial de parámetros n y p. i=1
Y i =1
∑ Xi –
Por tanto, p̂ == y se puede considerar un caso particular de X.
n n
Su esperanza matemática es:
lo que significa que p̂ es también un estimador centrado del parámetro p.

La varianza de p̂ es:
que indica que la proporción observada en la muestra también tiene fluctuaciones

en el muestreo, pero cuanto mayor sea n, el tamaño de la muestra, más concen-
trados están los valores de este estadístico en torno al valor del parámetro p.
EJEMPLO 9.5.
Un economista estima que el 20% de las letras de cierta Comunidad Autónoma
Y
se devuelven por impagadas. Sobre una muestra de n letras se indica por po = la
proporción de ellas devueltas en esa muestra. n
a) Dar la distribución en el muestreo de la proporción observada p0.
b) ¿Cuál es la distribución en el muestreo de la diferencia p0 – 0,2 reducida?
c) Sobre una muestra de 120 letras, calcular la probabilidad de que la propor-
ción de devueltas esté comprendida entre el 10% y el 35%.
d) Con riesgo α = 5% dar los límites del valor esperado para p0.
a) Como p = 0,20, n = 120 es np = 24 ≥ 5 y nq = 96 ≥ 5 y por ello
b) La diferencia p0 – 0,2 reducida es po − 0, 2 , N ( 0,1) .

0, 2 ⋅ 0, 8
120
c) P ( 0, 10 < po < 0, 35) = P ( −2, 74 < Z < 4, 11) = 0, 9969.
d) P ( 0, 2 − a < p0 < 0, 2 + a ) = 0.95 ⇒ P  − a < Z < a  = 0, 953 ⇒

 0, 0365 0, 0365 
 a   a 
⇒ 2F   − 1 = 0, 95 ⇒ F  = 0, 975 ⇒
 0, 0365   0, 0365 
a
⇒ = 1, 96 ⇒ a = 0, 0715
0, 0365
Los límites del valor esperado para p0 son:
9.1.5. Estimación de la varianza σ 2

Para estimar la varianza poblacional σ 2 se puede utilizar el estimador de má-
xima verosimilitud que es la varianza muestral
pero tiene el inconveniente que es sesgado, como se explicó anteriormente, por

ello se utiliza la cuasivarianza muestral
( )
porque E s 2 = σ 2 .
En el problema de la estimación de un parámetro θ desconocido de una po-

blación, que puede ser µ, σ 2, etc., se trata de responder a la pregunta: ¿qué valor
tendrá θ ?
Para dar respuesta a esa pregunta, a partir de una muestra aleatoria con re-
–
emplazamiento de la población se obtiene el valor del estadístico (X para µ, s2
para σ 2) que sirve para estimar ese parámetro. De esta forma se obtiene una esti-
mación puntual. Pero sólo con el valor de una estimación puntual no se tiene in-
formación sobre la precisión de la estimación.
Con el objeto de mejorar la información del estimador, se darán los intervalos de
confianza y los contrastes de hipótesis paramétricos, pero esto exige conocer la distri-
bución del estadístico correspondiente y para ello se necesitan, además de la distribu-
ción normal, otras distribuciones continuas relacionadas con ella como son las distri-
buciones χ2 de Pearson, la t de Student y la distribución F de Snedecor-Fisher.
9.2. PRINCIPALES DISTRIBUCIONES TEÓRICAS

ASOCIADAS AL PROCESO DE MUESTREO
Estas distribuciones son la χ2, la t y la distribución F.

Antes de introducir la distribución χ2, se definirá la función gamma y la dis-
tribución gamma de la que se obtiene como un caso particular la distribución χ2.
9.2.1. Función gamma

La función gamma, Γ, con muchas aplicaciones en la estadística y en otras ra-
mas de la matemática aplicada, está definida, para todo valor de n∈⺢+, por la in-
tegral impropia:
Obsérvese que la función gamma no es función de x sino de n, pues la varia-

ble x es una variable muda, esto es,
Propiedades:
1. Γ(1) = 1.
2. Si n ∈ Z+ , entonces Γ (n) = ( n − 1) !
3. Γ (n) = ( n − 1) Γ (n − 1), ∀n ∈R + y n > 1.
Por esta propiedad se suele llamar a la función gamma el factorial gene-
ralizado.
4. En consecuencia, si se dispone de los valores de Γ(n) para n ∈[1, 2 ] , se
puede calcular Γ(n) ∀n > 1.
Por esta razón hay tablas de la función gamma para n ∈[1, 2].
 1
5. Γ   = π .
 2
EJEMPLO 9.6.
` 2 −x 3
Calcular ∫0 2 x e dx.
EJEMPLO 9.7.
Hallar la esperanza matemática y la varianza de la v.a. X cuya función de den-
sidad es
2
2 xe − x si x > 0
f (x) = 
 0 en el resto
9.2.2. Distribución gamma

Una variable aleatoria continua X se dice que sigue una distribución gamma
de parámetros α > 0 y β > 0, si tiene por función de densidad:
Esta variable tiene media E( X ) = αβ y por varianza Var ( X ) = σ X2 = αβ 2 .

Casos particulares de la distribución gamma son la distribución exponencial
y la distribución χ2, que se verán a continuación.
9.2.3. Distribución exponencial

Para α = 1 se obtiene la distribución exponencial de parámetro β cuya función
de densidad es
que tiene E( X ) = β y σ 2X = β 2 .
Una v.a. continua X sigue una distribución exponencial de parámetro λ > 0, si
tiene por función de densidad:
De donde se obtiene la función de distribución:
Para calcular la esperanza matemática y la varianza, se hallará primero el mo-

mento de orden r respecto del origen:
siendo r∈⺞.
Como Γ (r + 1) = r Γ (r ), se obtiene para el momento de orden 1:
Y la varianza:
Por tanto la distribución exponencial de parámetro λ tiene media y desviación

1
típica iguales al recíproco del parámetro λ, es decir, µ = σ = .
λ
La distribución exponencial depende del valor del parámetro λ, es pues una
familia de distribuciones.
Esta distribución tiene utilidad para determinar el tiempo de vida cuando no

hay deterioro por la edad.
9.2.4. Distribución χ2
n
Es un caso particular de la distribución gamma para α = y β = 2.
2
La variable aleatoria continua que tiene por función de densidad:
se dice que es una variable con distribución χn2 de Pearson, que se lee ji-cuadrado
con n grados de libertad y también Chi-cuadrado con n grados de libertad.
Karl Pearson (1857-1936) hizo interesantes contribuciones en la aplicación de
las técnicas estadísticas a la Teoría de la Evolución. En el año 1900 publicó el
contraste χ2 con el que se puede comprobar si resultados experimentales se ajus-
tan o no a un modelo teórico. Estas pruebas se explicarán más adelante.
A continuación aparecen representadas con STATGRAPHICS las funciones de
densidad y de distribución para n = 1, n = 5, n = 15 y n = 60.
Se observa que las gráficas de las funciones de densidad de la v.a. χn2 son asi-
métricas y que sólo están definidas para x > 0.
Si n > 2 alcanzan un máximo para el valor de x = n – 2.
Distribución Chi-Cuadrado Distribución Chi-Cuadrado

1,8 Grad. de 1 Grad. de
Probabilidad
1,5
acumulada
libertad 0,8 libertad

Densidad
1,2 0,6
0,9 1 1
0,6 0,4
0,3 0,2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
x x

1 Grad. de 0,16 Grad. de
Probabilidad
acumulada
libertad libertad
Densidad
0,8 0,12
0,6 5 0,08 5
0,4
0,2 0,04
0 0
0 4 8 12 16 20 24 0 4 8 12 16 20 24
x x

Probabilidad
acumulada
Densidad
0,06
15 0,6 15
0,04
0,4
0,02 0,2
0 0
0 10 20 30 40 50 0 10 20 30 40 50
x x

Probabilidad
acumulada
Densidad
0,03
60 0,6 60
0,02
0,4
0,01 0,2
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
x x
La gráfica de la función de densidad de la variable aleatoria χn2 depende de n, nú-

mero de grados de libertad. No existe una curva tipificada única para la distribu-
ción χn2, como existía para la distribución normal.
El número de grados de libertad de un conjunto es el número de elementos
del conjunto menos el número de relaciones que existen entre ellos, o bien el nú-
mero de elementos independientes que contiene.
EJEMPLO 9.8.
1. El conjunto de n variables aleatorias independientes X1, X2,..., Xn tiene n gra-
dos de libertad.
2. Si X e Y son dos variables aleatorias e Y = X + 5, el conjunto formado por las
dos variables X e Y tiene 2-1=1 grado de libertad.
3. Si X1, X2,..., Xn son n variables aleatorias independientes y su media es la va-
–
riable aleatoria X, el conjunto X1 − X , X 2 − X ,..., X n − X tiene n-1 grados de
n
libertad porque hay una relación entre ellas ∑ ( Xi − X = 0.
i=1
)
La variable X ~ χn2 tiene media
y varianza
La distribución χn2, que está definida para todo valor real y positivo de n, se
utilizará en la práctica para valores naturales de n.
Propiedades:
1. Si X , χ n21 e Y , χ n22 son dos variables aleatorias independientes, enton-
ces, X + Y , χ n21 +n2 .
2. Si X1 , X2 ,..., X k son k variables aleatorias independientes con distribucio-
k
nes Xi , χ n2 , entonces la v.a. X = ∑ Xi sigue también una distribución
i
i=1
k
2
χ , siendo n = ∑ ni .
n
i=1
3. Si la v.a. Z , N (0, 1), entonces la v.a. Z 2 , χ12 .

4. Si Z1 , Z 2 ,..., Z k son k variables aleatorias independientes y todas con dis-
k
tribución N(0,1), entonces la v.a. ∑ Zi2 sigue una distribución χk2.
i =1
En el Apéndice I se encuentra la Tabla II para la distribución χn2 que proporciona

el valor de χα2 ;n que deja a su izquierda probabilidad P χ 2 ≤ χα2 ;n = 1 − α para ( )
distintos valores de α y diferentes valores de n.
Aproximación de la distribución χn2 por la normal

n
Como se puede considerar χ n2 = ∑ Zi2 , siendo Zi , N ( 0, 1), y por tanto suma
i =1
de n variables aleatorias independientes y todas ellas con distribución χ12, que tendrán
µ = 1 y σ 2 = 2, que son finitas, por el teorema central, dado en el capítulo anterior, la
n
2 2
(
variable χ n = ∑ Zi es asintóticamente N µ = n, σ = 2n . Como consecuencia
i =1
)
para valores grandes de n se puede aproximar la v.a. X , χ n2 por una distribución
( )
normal N µ = n, σ = 2n , la aproximación será tanto mejor cuanto mayor sea el
valor de n. En la práctica se acepta la aproximación para n > 30.
EJEMPLO 9.9.
Obtener los siguientes valores críticos utilizando la tabla de la distribución χ2:
a) χα2 =0,01;n=5 ; b) χ 02,05;15 c) χ 02,005;3 d ) χ 02,955;17 e) χ02,5;21

EJEMPLO 9.10.
2
a) Determinar el valor de α que verifica P α < χ13 (
= 0, 90. )
(
b) Calcular el valor de β para que P χ 2 < β = 0, 025.
27 )
( )
a) P α < χ132 = 0, 90 ⇒ α = χ 02,90 ;13 = 7, 042.
b) P(χ 2
27 < β ) = 0, 025 ⇒ β = χ 2
0 ,975;27 = 14, 573.
EJEMPLO 9.11.
Hallar a y b con la condición de:
(2
1.o) P a < χ60 ) 2
< b = 0, 95, Ä siendoÄ P( χ60 2
≤ a) = P( χ60 ≥ b).
2
2.o) Ídem para una distribución χ11 .
( 2
3.o) P a < χ 24 ) 2
< b = 0, 99 Ä siendoÄ P( χ 24 2
≤ a) = P( χ 24 ≥ b).
1.o) a = χ 02,975;60 = 40, 482 y b = χ 02,025;60 = 83, 298.

2.o) a = χ 02,975;11 = 3, 816 y b = χ 02,025;11 = 21, 920.
3.o) a = χ 02,995;24 = 9, 886 y b = χ 02,005;24 = 45, 558.
La distribución χn2 se aplicará en la inferencia estadística en poblaciones nor-

males con varianza desconocida, pues si X1, X2,..., Xn son variables aleatorias in-
dependientes N(µ, σ), y, siendo µ y σ desconocidos, entonces la v.a.
9.2.5. Distribución t de Student

La distribución t, de gran importancia en la inferencia estadística, fue descu-
bierta en 1908 por William S. Gosset (1876-1937), químico que trabajaba para la
cervecería de los Guinness en Dublín. Sus trabajos estadísticos los publicó bajo el
pseudónimo Student.
Si X y Z son dos variables aleatorias independientes y tales que X ~ χn2 y Z ~ N(0, 1),
la v.a.
tiene una distribución t de Student con n grados de libertad y se escribe T ~ tn.

La función de densidad de esta v.a. es:
Para cada valor de n, número de grados de libertad, se obtiene una curva de

densidad distinta. Y como en el caso de la distribución χn2, no hay una curva tipi-
ficada única.
Se puede demostrar que si T es una variable con distribución T ~ tn tiene E(T) = 0,
n
si n > 1 y Var (T ) = , si n > 2.
n−2
A continuación se representan con STATGRAPHICS las funciones de densi-
dad para los siguientes grados de libertad: n = 1, n = 10 y n =100, además de la
normal N(0,1) y las correspondientes funciones de distribución.
Se observa que las funciones de densidad tienen forma acampanada como la
de la distribución normal; que son simétricas respecto del eje de ordenadas,
como la normal de media cero; que son más aplastadas que la normal N(0,1), es
decir, que son platicúrticas.
Al aumentar n, la función de densidad de la v.a. T ~ tn es cada vez menos pla-
ticúrtica.
 n + 1  n+1
Γ −
 2   t 2   2 
 1
1 1 − 2t 2
Como lim fn (t ) = lim 1 + = e , que es la fun-
n→` n→ ` nπ Γ  n   n  2π
 2 
ción de densidad de la N(0,1); al aumentar el número de grados de libertad la dis-

tribución t tiende a la N(0,1).
En la práctica, si n ≥ 100 la distribución de T ~ tn casi coincide con la de
Z ~ N(0,1).
En el Apéndice I se encuentra la Tabla III para la distribución de la v.a. T ~ tn.
La tabla proporciona el valor de tα;n que deja a su izquierda probabilidad P(T ≤ tα;n)
para distintos valores de α y diferentes valores de n.
Distribución t de Student Distribución t de Student

Probabilidad
libertad libertad
acumulada
Densidad
0,3 0,8
1 0,6 1
0,2
0,4
0,1 0,2
0 0
–5 –3 –1 1 3 5 –5 –3 –1 1 3 5
x x

Probabilidad
libertad libertad
acumulada
Densidad
0,3 0,8
10 0,6 10
0,2
0,4
0,1 0,2
0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6
x x

Probabilidad
libertad libertad
acumulada
Densidad
0,3 0,8
100 0,6 100
0,2
0,4
0,1 0,2
0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6
x x
Distribución N (0,1) Distribución N (0,1)

0,4 Media; Media;
1
Probabilidad
Desv. típica
acumulada
Desv. típica
Densidad
0,3 0,8
0;1 0;1
0,2 0,6
0,4
0,1 0,2
0 0
–5 –3 –1 1 3 5 –5 –3 –1 1 3 5
x x
EJEMPLO 9.12.
Obtener los siguientes puntos críticos utilizando la tabla de la distribución:
a) t0,10;25 ; b) t0,05;15 ; c) t0,01;3 ; d ) t0,025;28 ; e) t0,90;18 ; f ) t0,80;5 ;

g) t0,01;17 ; h) t0,70;400 ; i) t0,975;600
La distribución t de Student se aplicará en la inferencia estadística en pobla-

ciones normales con varianza desconocida, ya que si X1, X2,..., Xn son variables
aleatorias independientes y N(µ, σ), siendo µ y σ desconocidos, la v.a.
 σ  X−µ
Ya que si X , N ( µ, σ ) entonces X , N  µ,  y por tanto σ , N ( 0, 1)
 n
n
X−µ
σ (X − µ) n
( n − 1) s 2 n X−µ
y como , χ n2−1 , entonces = σ = , tn−1 por ser
σ2 ( n − 1) s 2 s s
σ2 σ n
n −1
2
cociente de una Z ~ N(0, 1) dividida entre la raíz cuadrada de una χ n−1 dividida por
n-1, el número de grados de libertad correspondientes.
Si X1 , N ( µ1 , σ ) y X2 , N ( µ2 , σ ) son dos variables aleatorias independien-
tes y con la misma varianza, entonces la v.a.
La contribución de Gosset a la inferencia estadística es muy importante, ya que a

X−µ
él se debe el tratar debidamente la v.a. . Antes del descubrimiento de Gosset,
s
n
X−µ
en 1908, se utilizaba el estadístico como si fuera una N(0,1).
s
n
Para valores grandes de n ya se dijo anteriormente que no difieren mucho
las distribuciones tn de la N(0,1), pero la diferencia es considerable para mues-
tras de tamaño n pequeño. Se entiende que una muestra es de tamaño pequeño
si es n < 30.
9.2.6. Distribución F de Snedecor-Fisher

Si X e Y son dos variables aleatorias independientes que siguen distribuciones
χ n21 y χ n22 respectivamente, entonces la v.a.
sigue una distribución F de Snedecor-Fisher con n1 grados de libertad en el nu-

merador y n2 grados de libertad en el denominador, que se representa por F[n1 ,n2 ] .
George W. Snedecor (1882-1974) le puso el nombre de distribución F como
homenaje a Ronald A. Fisher (1890-1962) por sus numerosas contribuciones a la
Estadística, y en concreto a la Inferencia Estadística.
De la definición se deduce que la v.a. F , F[n ,n ] sólo toma valores reales po-
1 2
sitivos o cero.
La función de densidad de la v.a. F , F[ n ,n ] es:
1 2
Para cada par de números positivos n1 y n2 se obtiene una función de densidad

distinta y no hay una curva tipificada única.
n2
Se puede demostrar que si F , F[n ,n ] tiene media: E ( F ) = si n2 > 2
1 2
n2 − 2
2n2 2 ( n1 + n2 − 2 )
y varianza: Var ( F ) = 2
para n2 > 4.
n1 ( n2 − 2 ) ( n2 − 4 )
En la práctica n1 y n2 son números naturales y representan el número de grados
de libertad de las variables χ2 del numerador y denominador respectivamente.
A continuación se representan, haciendo uso de STATGRAPHICS, las fun-
ciones de densidad de las variables F[5,10 ] , F[10 ,5] , F[100 ,5] y F[100 ,100] y sus correspon-
dientes funciones de distribución, y se observará que las curvas dependen de los
valores de n1 y n2 y del orden de estos.
Las Tablas IV, V, VI y VII del Apéndice I corresponden a la función de
distribución de la v.a. F , F[n ,n ] . Estas tablas proporcionan el valor de
1 2
F[n1 ,n2 ];α =0,05 , F[ n1 ,n2 ];α =0,01 , F[n1 ,n2 ];α =0 ,025 , F[ n1 ,n2 ];α =0 ,005 respectivamente, que dejan a
( )
su izquierda probabilidad P F[n1 ,n2 ] ≤ F[ n1 ,n2 ];α = 1 − α para diferentes valores
de n1 y n2.
Distribución F (índice de varianza) Distribución F (índice de varianza)

0,4 g.l. 1 g.l.
Probabilidad
num;denom num;denom
acumulada
Densidad
0,3 0,8
5;10 0,6 5;10
0,4
0,4
0,2 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x

0,4 g.l. 1 g.l.
Probabilidad
acumulada
num;denom num;denom
Densidad
0,3 0,8
10;5 0,6 10;5
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x

0,4 g.l. 1 g.l.
Probabilidad
acumulada
num;denom num;denom
Densidad
0,3 0,8
100;5 0,6 100;5
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x

0,4 g.l. 1 g.l.
Probabilidad
acumulada
num;denom num;denom
Densidad
0,3 0,8
100;100 0,6 100;100
0,2
0,4
0,1 0,2
0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
EJEMPLO 9.13.
Obtener los siguientes puntos críticos utilizando la tabla de la distribución F[n1, n2]:
a) F[5,1];0,01 ; b) F[12,3];0,025 ; c) F[ 7,2];0,05 ; d ) F[15,17];0,005 ; e) F[30,20];0,05 ;
f ) F[ 20,30];0,01 ; g) F[15,20];0,005
De la definición de la variable aleatoria F se deduce que si X es una v.a. con

1
distribución F[ n1 ,n2 ] , la v.a. sigue una distribución F[n ,n ] . Esta propiedad per-
X 2 1
mite determinar puntos críticos que no se encuentran directamente en las Tablas

IV, V, VI y VII.
Las tablas proporcionan directamente el valor de la variable aleatoria F[n ,n ]
1 2
que deja probabilidad α por encima, es decir, los valores de F[ n1 ,n2 ];α que verifican
para α : 0,05, 0,01, 0,025 y 0,005, respectivamente. Teniendo en cuenta:
se tiene:
y también:
EJEMPLO 9.14.
Calcular el valor crítico F[15, 12]; 0,95.
La Tabla IV proporciona los valores críticos que dejan a su derecha probabi-

lidad 0,05. Si se simboliza por a = F[15, 12]; 0,95 se tiene:
1 1
en la Tabla IV se obtiene = 2, 48 ⇒ a = = 0, 4032.
a 2, 48
Por tanto,
EJEMPLO 9.15.
Calcular los valores críticos F 3,6 ;0.95 Ä yÄ F 9,15 ;0.975 .
[ ] [ ]
EJEMPLO 9.16.
Utilizando las tablas de la distribución F, hallar los valores de a y b que ve-
( ) ( ) ( )
rifican P a < F[ 5,8] < b = 0, 90, siendo P F[5,8] ≤ a = P F[ 5,8] ≥ b . Y también para
(
que se cumpla P a < F[ 7,12 ] < b ) = 0, 95,
siendo P ( F[ ] ≤ a) = P ( F[
7 ,12 7 ,12 ] ≥b . )
(
De las condiciones exigidas se deduce que P 0 ≤ F[5,8] ≤ a = P F[5,8] ≥ b = 0, 05
por tanto a = F[5,8];0 ,95 y b = F[5,8];0 ,05 .
) ( )
Directamente en la Tabla IV del Apéndice I se lee b = F[5,8];0 ,05 = 3, 69.
1 1
Para calcular a = F[5,8];0 ,95 = = = 0, 2075 . 0, 21.
F[8,5];0 ,05 4, 82
( ) ( )
En el segundo caso P 0 ≤ F[ 7,12] ≤ a = P F[ 7,12] ≥ b = 0, 025, por tanto, utili-
zando la Tabla VI del Apéndice I
EJEMPLO 9.17.
Utilizando las tablas de la distribución F, hallar los valores críticos
F[11,15];0,05 ; F[15,11];0,05 ; F[11,15];0,95 ; F[15,11];0,95

De la Tabla IV del Apéndice I:
Recordando la definición de la variable aleatoria F, se deduce que:
Observación:
Se puede comprobar en las tablas las siguientes relaciones entre los valores
críticos de las distribuciones F, t, χ2 y Z ~ N(0,1).
Como en la tabla de la distribución F se han reflejado menos cifras decimales,

los resultados serán aproximados.
EJEMPLO 9.18.
Comprobar que se verifican las siguientes igualdades:
2
 
a) F[1,13]; α =0,05 =  tα 
 2 = 0,025;13 
2
 
b) F[1,50 ]; α = 0,05 =  tα 
 2 =0,025;50 
2
 
c) F[1,`]; α =001 =  Z α 
 2 =0,005 
χα2 =0,05;15
d) F[15,` ]; α = 0,05 =
15
2
 
e) F[1,10]; α =0,01 =  tα 
 2 = 0,005;10 
a) F[1,13]; α =0 ,05 = 4, 67
2
  2
 t α =0,025;13  = ( 2,160 ) = 4, 6656 . 4, 67
 2 
b) F[1,50]; α =0,05 = 4, 03
2
  2
 t α =0 ,025;50  = ( 2, 009 ) = 4, 036
 2 
c) F[1,` ]; α =0,01 = 6, 63
2
  2
 =0,005  = ( 2, 576 ) = 6, 635776
Z α
 2 
d) F[15,`]; α =0,05 = 1, 67
χα2 =0 ,05;15 1
= ⋅ 24, 996 = 1, 6664 . 1, 67
15 15
e) F[1,10 ]; α =0 ,01 = 10, 04
2
  2
 tα =0,005;10  = ( 3,169 ) = 10, 042561 . 10, 04
 2 
La distribución F se aplicará en la inferencia estadística en poblaciones nor-
males con varianzas desconocidas ya que si X1 , X 2 ,..., Xn1 , Y1 , Y2 ,..., Yn2 son varia-
bles aleatorias independientes y tales que:
entonces la v.a.
En el caso particular en que σ 12 = σ 22 se tiene que la v.a.
Esta distribución se utilizará en los contrastes de hipótesis para probar si dos

varianzas en poblaciones normales se pueden considerar iguales.
9.3. LAS FUNCIONES DE DISTRIBUCIÓN Y EL PROGRAMA

STATGRAPHICS
Con STATGRAPHICS se pueden generar números aleatorios, o mejor dicho

pseudoaleatorios, ya que el programa parte de un número inicial, que se le indica,
llamado semilla, y a partir de él se aplica un algoritmo que genera el siguiente, a
partir de éste el tercero, y así sucesivamente.
• Operadores de STATGRAPHICS para generar números aleatorios:

REXPONENTIAL (n, m) genera n números aleatorios para una distribución
exponencial de media m.
RGAMMA (n, a, b) genera n números aleatorios para una distribución gam-
ma de parámetros a y b.
RINTEGER (n, a, b) genera n números aleatorios enteros para una distri-
bución discreta uniforme comprendidos entre a y b.
RNORMAL (n, m, d) genera n números aleatorios para una distribución nor-
mal de media m y desviación típica d.
RUNIFORM (n, a, b) genera n números aleatorios para una distribución uni-
forme continua en el intervalo [a, b].
Este programa también permite el cálculo de la probabilidad que deja por de-
bajo el valor x para una distribución conocida.
• Operadores de STATGRAPHICS para el cálculo de probabilidades a par-

tir de funciones de distribución dadas:
NORMAL (x, m, d) halla el valor de la función de distribución en el punto x
de una variable aleatoria N (m,d), normal de media m y desviación típica d, es de-
cir, la probabilidad F (x) = P( X ≤ x), siendo X , N (m, d).
STUDENT (x, g) halla el valor de la función de distribución en el pun-
to x de una variable aleatoria T de Student con g grados de libertad,
F( x) = P(T ≤ x), siendo T , t g .
CHISQUARE (x, g) halla el valor de la función de distribución en el pun-

to x de una variable aleatoria χ2 con g grados de libertad, F(x) = P( X ≤ x),
siendo X , χ g2 .
SNEDECOR (x, g1, g2) halla el valor de la función de distribución en el
punto x de una variable aleatoria F de Fisher-Snedecor con g1 y g2 grados de li-
bertad, F (x) = P( X ≤ x), siendo X , F[ g ,g ] .
1 2
También permite hacer la operación inversa, es decir, determinar el valor de la

variable que deja por debajo una probabilidad p en una distribución conocida.
• Operadores de STATGRAPHICS para determinar el valor de la variable que

deja por debajo probabilidad p para funciones de distribución dadas:
INVNORMAL (p, m, d) halla el punto x, o valor de la variable, que deja por
debajo probabilidad p para una variable aleatoria N (m, d), normal de media m y
desviación típica d. Es decir, calcula x que verifica:
INVSTUDENT (p, g) halla el punto t, o valor de la variable, que deja por de-
bajo probabilidad p para una variable aleatoria T de Student con g grados de li-
bertad. Esto es, el valor de t para el que:
INVCHISQUARE (p, g) halla el punto x, o valor de la variable, que deja por

debajo probabilidad p para una variable aleatoria χ2 con g grados de libertad, es
decir, el valor de x que cumple:
INVSNEDECOR (p, g1, g2) halla el punto x, o valor de la variable, que

deja por debajo probabilidad p para una variable aleatoria F de Fisher-Snedecor
con g1 y g2 grados de libertad. Es decir, el valor de x para el que se verifica:
9.4. DISTRIBUCIONES DE LOS ESTADÍSTICOS

EN EL MUESTREO
Los estimadores puntuales de los parámetros µ, p y σ 2 para el muestreo con

reemplazamiento en poblaciones de cualquier tamaño también sirven para el
muestreo sin reemplazamiento en poblaciones de tamaño grande, que se consi-
deran en la práctica las que tienen tamaño N > 20 n, siendo n el tamaño de las
muestras que se extraigan de esa población,
–
X es un estimador centrado para el parámetro µ
p̂ es un estimador centrado para p
s2 es un estimador centrado para σ 2
Se estudian a continuación las distribuciones de estos estadísticos en el mues-
treo con reemplazamiento: n
∑ Xi
• Como consecuencia del teorema de Lindeberg-Lévy, la v.a. X = i=1 se
n
 σ 
distribuye según una N  µ , siempre que el tamaño de la muestra sea grande,
 n 
cualquiera que sea la distribución de la v.a. X en la población. En la práctica, si n ≥ 30.
–
La desviación típica de la v.a. X, y en general de cualquier estimador, se co-
noce como error típico del estimador.
σ
El error típico del estimador X es .
n
n
∑ Xi
i=1
• Por ser pˆ = , siendo Xi variables aleatorias de Bernoulli de parámetro p
n –
e independientes, la v.a. p̂ es un caso particular de X y por ello, también como
n
∑ Xi
i =1
consecuencia del teorema de Lindeberg-Lévy, la v.a. p̂ = se distribuye según
n
 pq 
una N  p, siempre que el tamaño n de la muestra sea grande y p no sea
 n 
demasiado grande ni demasiado pequeño. En la práctica si np ≥ 5 y nq ≥ 5. El
pq
error típico del estimador pˆ es .
n
• Si la variable aleatoria X , N ( µ, σ ), por ser el muestreo con reemplaza-
miento Xi , N ( µ, σ ), ∀i = 1, 2,..., n y son independientes, ¿qué distribución en el
muestreo seguirá entonces la variable aleatoria s2?
Teniendo en cuenta que:
Dividiendo por σ2, se obtiene:
n 2
X − µ
Como las variables Xi , N ( µ, σ ), ∀i = 1, 2,..., n son independientes, ∑  i
i=1  σ 
es suma de n cuadrados de variables aleatorias N(0,1) e independientes y, en conse-
cuencia, sigue una distribución χn2.
2
 
 X − µ  sigue una distribución χ12, ya que es el cuadrado de una v.a. N(0,1).
σ 
 n
n 2
2 ∑ ( Xi − X )
Por tanto, la v.a. ( n − 1) s = i=1 2
seguirá una distribución χ n−1 y se
σ2 σ 2
2
 ( n − 1) s   ( n − 1) s 2 
puede afirmar que E n 1 y Var
 σ 2  = −  σ 2  = 2(n − 1).
 ( n − 1) s 2  (n − 1)
Por ser E 
 σ
2 

= n −1⇒
σ 2 ( ) ( )
E s 2 = n − 1 ⇒ E s 2 = σ 2 , lo que
comprueba que s2, cuasivarianza muestral, es un estimador centrado de la va-

rianza poblacional σ 2.
Y por ser:
2σ 4
y el lim Var ( s 2 ) = lim = 0, al aumentar n, tamaño de la muestra, disminuye
n→` n→` n − 1
la dispersión en el muestreo del estimador s2 de la varianza poblacional σ 2.
El error típico del estimador es:
El conocimiento de la distribución en el muestreo de las variables aleatorias
X , pˆ y
( n - 1) s 2 permite determinar intervalos de probabilidad para estos esta-
σ2
dísticos con riesgo α siempre que se conozcan los valores de los parámetros de la
población, es decir, el conjunto de valores más probables de cada uno de esos es-
tadísticos en el muestreo.
A continuación se van a construir intervalos de probabilidad para distintos es-
–
tadísticos θ̂ , por ejemplo: µ̂ = X, media de una muestra de tamaño n, p̂ = p0, pro-
porción observada en una muestra de tamaño n, σ̂ 2 = s2, cuasivarianza muestral,...
Si se conocen los parámetros que determinan la distribución del estadístico θ̂ en el
muestreo, y se fija el riesgo α de equivocarse, la probabilidad de que el estadísti-
co θ̂ pertenezca al intervalo de probabilidad con riesgo α será 1 – α. El intervalo
de probabilidad con riesgo α para el estadístico θ̂ es un intervalo en el que se
apuesta con probabilidad de acertar 1 – α que estará el valor de θ̂ que se obtenga
de una muestra de tamaño n. Se podría también denominar intervalo de apuesta,
«intervalle de pari» para Pascal.
9.5. INTERVALOS DE PROBABILIDAD

–
9.5.1. Intervalo de probabilidad con riesgo α para X
 σ 
Como ya se dijo anteriormente, si X , N ( µ, σ ) la v.a. X , N  µ,  cual-
 n
quiera que sea el tamaño de la muestra, y si el tamaño de la muestra n es
–  σ 
grande, n ≥ 30, la distribución de la v.a. X es aproximadamente N  µ , .
 n 
Así, si se conocen los valores de µ y σ se puede construir un intervalo de pro-
–
babilidad IPα con riesgo α para X, media observada en una muestra de tamaño n.
σ
x ~ N (µ,——)
√n
α/2 1–α α/2
µ x
–
El intervalo de probabilidad con riesgo α para X será un intervalo simétrico,
–
por la simetría de la distribución de X en el muestreo, centrado en µ y tal que
P ( X ∈ IPα ) = 1 − α .
Si IPα = [ µ − r, µ + r ] se ha de verificar que P ( µ − r ≤ X ≤ µ + r ) = 1 − α tipi-
–
ficando la v.a. X, queda:
α
Se indica por z α el valor de una v.a. Z , N (0, 1) que deja probabilidad por
2 2
  α
encima o, lo que es lo mismo, el que verifica P  Z ≤ z α  = 1 − . El valor de z α
 2
2 2
se determina con la tabla de la N(0,1).
Por ejemplo, si α = 0, 05 es z α = 1, 96, ya que P( Z ≤ 1, 96) = 0, 975, como
2
se puede comprobar en la tabla de la función de distribución de la N(0,1).
Z ~ N (0,1)
α/2 1–α α/2
–zα/2 0 zα/2
r σ
Igualando = zα ⇒ r = zα , de donde el intervalo de probabilidad con
σ n
2 2
n
–
riesgo α para X es:
–
El significado del IPα para X es el siguiente: si se extrae una muestra de ta-
maño n de una población en la que está definida la v.a. X ~ N(µ, σ), se puede afir-
–
mar, con riesgo de equivocarse α, que la media de la muestra X estará compren-
σ σ
dida entre µ − z α y µ + zα .
2
n 2
n
EJEMPLO 9.19.
En una población de personas adultas el CI es una variable X con media µ = 100
y σ = 15. Si se escoge una muestra de 40 personas de esa población, hallar:
–
a) P(98 < X < 103), b) probabilidad de que la media de la muestra difiera de la
media poblacional en menos de 3.
a) Por ser el tamaño de la muestra mayor que 30, la variable

 15 
X , N  µ = 100,
 40 
Por tanto,
b) La probabilidad de que la media de la muestra y la de la población difieran

en menos de 3 unidades es:
EJEMPLO 9.20.
La longitud de los listones de madera que corta una máquina sigue una distri-
bución normal de media 2,5 m y desviación típica 0,02 m.
a) Hallar un intervalo de probabilidad para α = 0,05 para la longitud de los lis-
tones cortados por la máquina.
b) Ídem para α = 0,01.
c) Se compran 100 listones, con error α = 0,05 ¿entre qué valores se puede es-
perar que estará comprendida la longitud media de la muestra?
d) Responder a la pregunta anterior para una muestra de 1.000 listones.
e) Hallar el IPα para α = 0,01 para la media de las muestras de tamaño 1.000.
a) Como X ~ N(2,5, 0,02).
b) IPα =0 ,01 = [ 2, 5 − 2, 575 ⋅ 0, 02, 2, 5 + 2, 575 ⋅ 0, 02] = [ 2, 45; 2, 55].
Se observa que al disminuir el error aumenta la amplitud del intervalo de pro-

babilidad.
 =
c) La variable X , N  2, 5; 0,02  N ( 2, 5; 0,0 02 )
 100 
d) IPα =0 ,05 =  2, 5 − 1, 96 ⋅ 0, 02 =
, 2, 5 + 1, 96 ⋅ 0, 02 [ 2, 499; 2, 501]
 1.000 1.0000 
Se observa que para el mismo error α = 0,05 tiene menor amplitud el intervalo
correspondiente a las muestras de mayor tamaño.
e) IPα = 0,01 =  2, 5 − 2, 575 ⋅ 0,0 2 =

, 2, 5 + 2, 575 ⋅ 0,02 [ 2, 4994; 2, 5016 ]
 1.000 1.000 
Al disminuir el error α aumenta la amplitud del intervalo. La diferencia entre los
resultados d) y e) es menos considerable que para el tamaño de la muestra n = 100,
véase c) y b).
EJEMPLO 9.21.
En un gran almacén el peso de las cajas de envíos se distribuyen según una
N(300 kg, 25 kg).
Se tienen que transportar las cajas en camiones con carga máxima autorizada de
8,1 toneladas. Si se cargan 40 cajas por camión,
a) ¿qué probabilidad hay de que el control de carga de uno de ellos, tomado al
azar, detecte que la carga supera la autorizada?
b) ¿cuál es la probabilidad de que esta carga supere las 12 t?
Si se designa por X el peso de una caja de envío X ~ N(300 kg, 25 kg).

Como se cargan 40 cajas por camión, es n = 40.
 σ 25 
La variable aleatoria X , N  µ = 300 kg, = . 3, 95 kg .
 n 40 
40
Si se denomina por Y la carga total de un camión, es Y = ∑ Xi = 40 X , por tanto
i =1
a) La probabilidad de que supere la carga autorizada es:
b) La probabilidad de que supere 12 toneladas es:
9.5.2. Intervalo de probabilidad con riesgo α para p̂

n
∑ Xi  pq 
i=1
Como se sabe, la v.a. p̂ = se distribuye según una N  p, siempre
n  n 
que el tamaño n de la muestra sea grande y p no sea demasiado grande ni dema-
siado pequeño, en la práctica si np ≥ 5 y nq ≥ 5.
Si se conoce el parámetro p se puede determinar un intervalo de probabilidad

con riesgo α para p̂ = p0, proporción observada en una muestra de tamaño n, que
se indicará IPα para p̂.
El IPα para p̂ que estará centrado en p, IPα = [p – r, p + r], se determina te-
niendo en cuenta que P ( pˆ ∈ IPα ) = 1 − α .
pq
pˆ ~ N (p,√——)
n
np ≥ 5
y
nq ≥ 5
α/2 1–α α/2
Tipificando, como en el caso anterior, se obtiene:
EJEMPLO 9.22.
Se ha comprobado en los años que lleva trabajando una secretaria que la pro-
porción de hojas que tiene que repetir por error es 35%.
a) Con riesgo α = 0,05, ¿entre qué valores se espera encontrar la proporción de
hojas con error entre 50 elegidas al azar? ¿Y con riesgo α = 0,02?
b) Responder de nuevo a ambas preguntas, si se eligen 100 hojas al azar.
c) ¿Cuál es la probabilidad de que de 100 hojas elegidas al azar haya al menos
36 con error?
d) Con riesgo α = 0,05 dar los límites para el valor esperado de p0 para un
trabajo de 1.000 páginas.
El valor de la proporción de hojas defectuosas es p = 0,35 y por ser
para todos los valores de n considerados, se sabe que la distribución de p0 será

 0, 35 ⋅ 0, 65 
aproximadamente N  p = 0, 35, 
 n
a) Si n = 50 pˆ = p0 , N ( 0, 35, 0, 0675) , por tanto

El intervalo de probabilidad aumenta la amplitud al disminuir el error.
b)
Se comprueba que la amplitud de los IPα = 0,05 disminuye la amplitud al au-

mentar el tamaño de la muestra. Y lo mismo ocurre con IPα = 0,02.
c) Como para n = 100 la distribución de pˆ = p0 , N ( 0, 35; 0,04 77 )
d) Para n = 1.000 la distribución de pˆ = p0 , N ( 0,35; 0,0151)
• ¿Se puede construir un IPα para p̂ si no se cumplen las condiciones de nor-

malidad np ≥ 5 y nq ≥ 5?
En este caso para el estadístico p̂ no se puede hacer uso de la distribución nor-

mal, pero sí se puede aplicar la desigualdad de Chebyshev.
pq
Como la E ( pˆ ) = p y Var ( pˆ ) = se puede asegurar que
n
1 1
Para determinar un IPα = 0,05 se iguala 1 − 2 = 1 − α ⇒ 1 − 2 = 0, 95
y se des-
k k
peja el valor de k, en este caso k = 20 y el
9.5.3. Intervalo de probabilidad con riesgo α para s2
Como se explicó anteriormente, si X , N ( µ, σ ) ⇒

( n − 1) s 2
2 , χ n2−1 .
σ
(n – 1)s2
———— ~ χ2n–1
σ2
α/2
1–α
α/2
0
a = χ2(1– —);n–1
α b = χ2—;n–1
α
2 2
Para concretar un IPα para s2 hay que determinar dos valores a y b de una v.a.
α α
2
χ n−1 (
que verifiquen P χ n2−1 ≤ a =
2
) ( )
y P χ n2−1 ≤ b = 1 − . Estos valores, que se
2
2
obtienen de la tabla de la distribución χ n−1 , se indican por: a = χ 2 α  y b = χ α2
 1−  ;n−1 ;n −1
2 2
α 2
pues a es el valor que deja por encima probabilidad 1 − , en una χ n−1 , y b es el valor
2
2
α
de una χ n−1 que deja por encima probabilidad .
2
Se obtiene así un intervalo que ya no está centrado en el valor del parámetro,
como en los dos casos anteriores. Todos los valores del intervalo son ahora posi-
tivos y se verifica que
Multiplicando σ 2 por y dividiendo por (n – 1) en:
aσ 2 bσ 2
se obtiene ≤ s2 ≤ y por tanto, el IPα para s 2 es:
( n − 1) ( n − 1)
Los extremos de este intervalo son los valores esperados de los límites inferior
y superior de las cuasivarianzas muestrales de muestras de tamaño n con riesgo de
equivocarse igual a α.
EJEMPLO 9.23.
El fabricante de una máquina de precisión asegura que las piezas que salen de la
máquina tienen diámetro en media 2,5 cm con desviación típica de 1 mm. Aceptan-
do como cierta la afirmación del fabricante, si se eligen 15 piezas al azar de la pro-
ducción de la máquina y se miden los diámetros, dar los límites entre los que se pue-
de esperar la media de los diámetros y la cuasivarianza muestral con riesgo α = 0,05.
De la información del fabricante se sabe que µ = 2,5 cm y σ = 1 mm = 0,1 cm

y como la muestra a elegir es de tamaño n = 15, el intervalo de probabilidad para
la media de la muestra con riesgo α = 0,05 es:
y para la cuasivarianza muestral es:
Como ya se ha explicado, los intervalos de probabilidad sólo se pueden hallar

si se conocen los valores de los parámetros de la población, pero en cualquier caso
son útiles para comprender la estimación de los parámetros por intervalos de con-
fianza.
9.5.4. Intervalo de probabilidad con riesgo α para la cuasidesviación

típica s
Si X ~ N(µ, σ) y si el tamaño de la muestra es n≥ 100, se puede considerar que
la distribución de la cuasidesviación típica s es aproximadamente normal
 σ 
s , N σ ,  . Por tanto, si se conoce σ se puede construir el intervalo de pro-
 2n 
babilidad para s al nivel α:
9.5.5. Intervalo de
– probabilidad
– con riesgo α para la diferencia
de medias X1 – X2
Se parte ahora de dos poblaciones y en cada una de ellas se considera una va-
riable aleatoria Xi , N ( µi , σ i ) , i = 1, 2. Se eligen con reemplazamiento sendas
muestras aleatorias independientes de tamaños n1 y n2 respectivamente.
Como se indicó en el Capítulo 8, Epígrafe 8.3., si Xi , N ( µ, σ ) ∀i = 1, 2,..., n
son variables aleatorias independientes, entonces:
y en consecuencia, si las distribuciones de las variables Xi son normales, cuales-

 
quiera que sean los tamaños muestrales, se verificará que Xi , N  µi , σ i  , i = 1, 2
 ni 
y en el caso en que las variables no sigan distribuciones normales, o se desconozca su
distribución, también las medias seguirán distribuciones aproximadamente normales
con tal que el tamaño de las muestras sea n1 ≥ 30 y n2 ≥ 30, véase Epígrafe 8.5.
También se sabe que la combinación lineal de variables aleatorias normales in-
dependientes es normal, es decir, si Xi , N ( µi , σ i ) son variables aleatorias inde-
pendientes ∀i = 1, 2,..., n, entonces
por ello, para las muestras independientes elegidas se puede asegurar que la di-
 σ2 σ2 
ferencia X1 − X 2 , N  µ1 − µ 2 , 1 + 2  si las distribuciones de las variables Xi
 n1 n2 
son normales. Y en cualquier otro caso la distribución de la diferencia de medias
también es aproximadamente normal siempre que n1 ≥ 30 y n2 ≥ 30.
 σ2 σ2 
Es importante advertir que para asegurar que X1 − X2 , N  µ1 − µ2 , 1 + 2 
 n1 n2 
han de ser las dos muestras independientes.
Por ejemplo, no son muestras independientes los resultados correspondientes a ano-
tar el número de pulsaciones por minuto de una muestra aleatoria de 40 deportistas an-
tes y después de realizar una carrera de 1.000 m.
EJEMPLO 9.24.
Si el cociente intelectual medio de los estudiantes de ingeniería es 122 con des-
viación típica 6 y el de los estudiantes de ciencias es 118 con desviación típica 5,
¿cuál es la probabilidad de que el cociente intelectual medio de una muestra alea-
toria de 36 estudiantes de ingeniería sea al menos 6 puntos más alto que el cocien-
te intelectual medio de una muestra aleatoria de 49 estudiantes de ciencias?
Designando por Xi la medida del cociente intelectual de una persona de la po-

blación i, se sabe que
y en consecuencia, se puede asegurar que la distribución de la diferencia de me-

dias es aproximadamente
así, la P ( X1 − X2 ≥ 6) . P ( Z ≥ 1, 63) = 1 − 0, 9484 = 0, 0516.
• Si se conocen los valores de las medias y de las varianzas poblacionales, como
se puede construir un IPα para la diferencia de medias X1 − X 2 del siguiente

modo:
• Si se conocen los valores de las medias poblacionales, pero no los de las

varianzas, que se pueden considerar que son iguales en las dos poblaciones,
pero al desconocer el valor de σ se puede estimar la varianza común por s2, media
ponderada de las cuasivarianzas típicas muestrales, esto es:
(X 1 − X2 ) − ( µ1 − µ 2 )
¿Qué distribución tiene en el muestreo el estadístico ?
1 1
s +
n1 n2
La distribución ya no es N (0,1) sino una t de Student como se verá a continuación:
– –
En este caso el IPα para la diferencia de medias X1 – X2 será:
• ¿Cómo se puede saber si es posible aceptar que σ 12 = σ 22 ?
Para contestar esta pregunta, a partir de la información proporcionada por

muestras aleatorias independientes de ambas poblaciones, es necesario conocer la
distribución en el muestreo del estadístico:
y esto es lo que se estudiará a continuación:

Se parte de dos poblaciones y en cada una de ellas está definida una variable
aleatoria Xi , N ( µi , σ i ) , i = 1, 2 con σi desconocida. Se elige una muestra aleato-
ria con reemplazamiento de tamaño n1 en la primera población y otra de tamaño
n2 en la segunda, ambas independientes.
( n − 1) s 2 ( n − 1) s 2
Se sabe que 1 2 1 , χ n2 −1 y que 2 2 2 , χ n22 −1 y además las varia-
σ1 1
σ2
( n − 1) s
bles aleatorias 1 2 1 y
2
( n2 − 1) s2 son independientes, por tanto la variable
2
σ1 σ 22
aleatoria
sigue una distribución de Snedecor-Fisher con n1 – 1 grados de libertad en el nu-

merador y con n2 – 1 grados de libertad en el denominador, por ser cociente de
dos variables aleatorias independientes con distribuciones χ n21 −1 y χ n22 −1 divididas
entre sus respectivos grados de libertad.
Este resultado será necesario para contrastar la igualdad de las varianzas po-
blacionales que se verá en el tema siguiente.
s12
2
De momento se utilizará la distribución del estadístico 2 σ 1 para construir
s2
σ 22
intervalos de probabilidad para el cociente de cuasivarianzas muestrales.
9.5.6. Intervalo de probabilidad con riesgo α para el cociente

2
de cuasivarianzas s12
s2
s12
σ 12
Como el estadístico , F[ n1 −1,n2 −1] , designando por a = F[ n1 −1,n2 −1];(1−α 2) el
s22
σ 22
valor crítico que deja a su izquierda probabilidad α/2.
F~F[n1–1,n2–1]
α/2
1–α α/2
0
a = F[n1–1,n2–1];(1– —)
α b = F[n1–1,n2–1];—
α
2 2
y por b = F[n −1,n −1];α 2 el valor crítico que deja a su derecha probabilidad α/2, se tiene:
1 2
s12
y así el intervalo de probabilidad con riesgo α para es:
s22

p̂1 – p̂2 de proporciones muestrales
Se designan por p1 y p2 las proporciones de elementos de la clase A en las po-
blaciones E1 y E2. Se toma una muestra aleatoria de tamaño n1 de la población E1
y otra de tamaño n2 en la otra población, ambas independientes. Se representa por
p̂1 y p̂2 las proporciones de elementos que son de la clase A que se observan en
cada una de las muestras.
Si se cumplen las condiciones de normalidad, es decir,
 pq 
se puede afirmar que la distribución de p̂1 es aproximadamente N  p1 , 1 1  y
 n1 
 pq 
análogamente p̂2 sigue aproximadamente una N  p2 , 2 2  . Por tanto:
 n2 
De lo que se deduce que, si se conocen las proporciones de las poblaciones y

se cumplen las condiciones de normalidad, el intervalo de probabilidad con ries-
go α para la diferencia de las proporciones muestrales es:
TABLA II. DISTRIBUCIONES CONTINUAS ASOCIADAS AL PROCESO DE MUESTREO
Distribución Parámetros f(x) Media Varianza
 1
Gamma  α x α −1e− x β si x > 0
α > 0, β > 0 f ( x ) =  β Γ (α ) µ = αβ σ 2 = αβ 2
Γ (α , β )
 0 si x ≤ 0

−λ x
Exponencial λ e si x ≥ 0 1 1
λ>0 f ( x) =  µ= σ2 =
E(λ)  0 si x < 0 λ λ2
 n
1 −1
 x 2 e− x 2 si x > 0
Ji-cuadrado   n
n>0 f ( x ) =  2n 2 Γ   n 2n
χn2  2

 0 si x ≤ 0
 n + 1 n +1
Γ − n
t de Student 1  2   t2  2 σ2 =
n>0 fn (t ) = µ = 0 si n > 1 n−2
tn  n  
nπ 1 + n 
Γ  si n > 2
 2
ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN
  n +n  n +n
2 Γ 1 2  n1 − 1 2
F de  n  n1  2  −1  n1  2 n2 2n22 ( n1 + n2 − 2)
 1 x 2 si x > 0 µ= σ2 =
Snedecor_Fisher 2
n1 > 0, n2 > 0 f ( x ) =  n2  n  n   1 + n x 
2 n2 − 2 n1 ( n2 − 2) ( n2 − 4 )
 Γ 1  Γ 2 
 
Fn1,n2   2  2 si n2 > 2
 si n2 > 4
 0 si x ≤ 0
389
9.6.1. En una población compuesta por 10.000 niños menores de siete años se sabe
que la proporción de los que padecen tuberculosis es del 3%.
a) Se elige al azar una muestra de 60 niños, dar con riesgo 5% los extremos de
un intervalo en el que se espera encontrar la proporción de los que padecen
esa enfermedad en la muestra.
b) Ídem para una muestra de tamaño 200.
9.6.2. Un ingeniero forestal estima que el 30% de los pinos de un gran pinar están
afectados por la procesionaria. Se examinan 150 pinos y se representa por p0 la pro-
porción de pinos con procesionaria.
a) ¿Cuál es la distribución en el muestreo de p0?
b) ¿Cuál es la distribución en el muestreo de la diferencia reducida entre p0 y 0,30?
c) ¿Cuál es la probabilidad de encontrar entre los examinados un porcentaje de
afectados entre el 20% y el 45%?
d) Dar los límites de los valores esperados de p0 con riesgo del 5%
9.6.3. Se sabe que la distribución de la presión sistólica de una determinada pobla-

ción es N (120 mm Hg, 15 mm Hg). Se eligen 25 personas de esa población.
a) ¿Cuál será la distribución de la presión sistólica media de la muestra?
b) Dar los límites entre los que se espera encontrar la presión sistólica media de
la muestra con riesgo α = 0,10.
9.6.4. Se guardan mezcladas las semillas de dondiegos de una gran producción en un

vivero. Se sabe que el 30% de las plantas de las que se han recogido las semillas eran
de flores blancas.
a) Se eligen 100 semillas al azar, ¿qué proporción de éstas se espera que sean
blancas con error α = 0,10?
b) Ídem con error α = 0,05.
9.6.5. El peso de los recién nacidos no prematuros en una Comunidad Autónoma si-
gue una N (3.100 g, 200 g). Se elige una muestra de 16 niños de esa población.
a) ¿Cuál será la distribución del peso medio de los niños de la muestra?
b) Dar los valores mínimo y máximo del peso medio de los niños de la muestra
con riesgo α = 0,05.
c) Ídem con riesgo α = 0,01.
9.6.6. En una gran ciudad se conoce que la proporción de personas que utilizan a dia-
rio transporte privado es del 57%. Se elige una muestra al azar de tamaño 100 entre
los habitantes de esa ciudad.
a) ¿Qué distribución sigue la proporción de las personas de la muestra que uti-
lizan a diario el transporte privado?
b) Dar los valores mínimo y máximo, con error α = 0,05, del número de perso-
nas de la muestra que utilizan a diario el transporte privado.
c) ¿Cuál debería ser el tamaño de la muestra para que la amplitud del intervalo
de probabilidad con riesgo α = 0,05 sea 0,10? Ídem para que la amplitud sea
0,01, y 0,005.
9.6.7. De 100 árboles tratados con un fungicida se observa que 35 siguen con hon-
gos. Se quiere evaluar la eficacia del fungicida con un riesgo del 5%.
a) ¿Cuál debería ser el mínimo número de observaciones para asegurar una
precisión del 5%.
b) Ídem para tener precisión del 1%.
9.6.8. Obtener los siguientes puntos críticos, utilizando la tabla de la distribución t de

Student
a) t0,10;20 b) t0,05;10 c) t0,01;13 d) t0,025;18 e) t0,90;20 f) t0,80;10
g) t0,01;27 h) t0,70;34 i) t0,99;500
9.6.9. Calcular las siguientes probabilidades:

a) P (1, 2 < t9 < 2, 9) b) P (1, 80 ≤ t10 ≤ 2, 80 ) .
9.6.10. Utilizando la tabla de la distribución χ2, obtener los siguientes puntos críticos:
a) χ 02,99;15 b) χ02,01;12 c) χ 02,025;18 d ) χ02,5;27 e) χ 02,90;45
9.6.11. Hallar los valores de a y b, utilizando la tabla de la distribución χ2, de modo

que la probabilidad que quede a la izquierda de a sea la misma que la que deje b a su
derecha en cada uno de los siguientes casos:
( 2
1.o ) P a < χ16 < b = 0, 95 ) (
2
2.o ) P a < χ80 < b = 0, 99 )
9.6.12. Utilizando la tabla de la distribución χ2, determinar los valores de a y b tales
que:
( 2
1.o ) P a < χ 20 = 0, 70 ) 2
2.o ) P χ 29(< b = 0, 025)
9.6.13. Hallar, utilizando la tabla de la distribución χ2, las siguientes probabilidades:
(
a) P χ92 < 5 ) (2
b) P 8 < χ16 < 10 )
9.6.14. Hallar los siguientes puntos críticos, utilizando las tablas de la distribución F:
a) F0, 05;[ 7,15] b) F0, 05;[15, 7] c) F0, 01;[ 24,19] d ) F0,95;[15, 7]

e) F0, 95;[ 24,15] f ) F0,995;[ 28,12] g) F0, 05;[15, 24]
9.6.15. Se sabe que la longitud de unas vigas de acero sigue una distribución normal
de media 5 m y desviación típica 0,02 m.
a) Hallar un intervalo de probabilidad con error 0,05 para la longitud de las vigas.
c) Se elige una muestra de 100 vigas, ¿entre qué valores se puede esperar que
esté comprendida la longitud media de la muestra con error α = 0,05?
d) Responder de nuevo al apartado c) para muestras de tamaño 1.000.
e) Hallar un intervalo de probabilidad con error α = 0,01para la media muestral
si las muestras son de tamaño 1.000.
9.6.16. Un laboratorio farmacéutico estima en un 70% la eficacia de un medica-

mento para el tratamiento de afecciones de la piel. Se administra el medicamento por
vía tópica a cien personas elegidas al azar que presentan diversos tipos de dermatitis.
a) Dar la distribución en el muestreo de la proporción observada de remisiones.
b) Calcular la probabilidad de que remitan más del 55% pero menos del 85%
c) Dar los límites del valor esperado para la proporción de remisiones con riesgo
α = 0,05.
9.6.17. En un estudio antropomórfico de cierta población se informa que la longitud

de la tibia de los varones tiene una media de 65 cm y desviación típica 25 cm. La
misma medida para las mujeres tiene una media de 60 cm y desviación típica 20 cm.
Se dispone de los datos de una muestra de tamaño 100 de los varones y otra del mis-
mo tamaño de las mujeres de esa población.
a) Dar la distribución de la media en el muestreo para cada una de las pobla-
ciones.
b) Calcular las siguientes probabilidades para los varones y para las mujeres
) )
P ( X ≤ 60 ; P ( 60 < X ≤ 65 ; P ( X > 65 . )
c) Dar los extremos del intervalo de probabilidad del 90% para la media de am-
bas poblaciones.
d) Ídem de probabilidad del 95%.
9.6.18. Con los datos del problema anterior.

a) ¿Qué distribución sigue la diferencia de medias?
b) Dar un intervalo de probabilidad con riesgo del 5% para la diferencia de las
longitudes medias de las tibias de ambas poblaciones.
9.6.19. En personas sanas se considera que las proteínas totales presentes en el

plasma sanguíneo siguen una distribución normal de media 7 g/dl y desviación típi-
ca 1 g/dl. Se realizan diez análisis de sangre a una misma persona.
–
a) Dar la esperanza matemática de la variable X.
–
b) ¿Cuál es la varianza y error típico de la X ?
c) Determinar los extremos de un intervalo de probabilidad del 95% para la me-
dia muestral de las muestras de tamaño 10.
9.6.20. Con los datos del problema 9.6.19, a) dar un intervalo de probabilidad del
95% para la cuasivarianza muestral y para la cuasidesviación típica. b) Ídem con pro-
babilidad del 99%
9.6.21. Una variable que permite tener una medida relacionada con el sobrepeso es
el Índice de Masa Corporal, IMC, que se define como el cociente entre la masa en kg
y el cuadrado de la altura en metros. En un estudio realizado con niños de 13 años se
obtuvo que el IMC de los niños sigue una N(19,1, 3,7) y para las niñas de la misma
edad el IMC sigue una N(19,5, 3,0). Se elige una muestra de 16 niños y otra de 20 ni-
ñas independiente de la anterior.
a) Dar un intervalo de probabilidad para la diferencia de medias con riesgo del 5%.
b) Dar un intervalo de probabilidad para el cociente de cuasivarianzas con
riesgo del 5%.
Intervalos de confianza
de los parámetros de una población 10
10.1. INTRODUCCIÓN
La estimación puntual de un parámetro desconocido θ en la población sumi-

nistra un valor θ̂ , pero no permite tener una mayor o menor confianza en la esti-
mación porque θ̂ tiene fluctuaciones en el muestreo. Para precisar la estimación se
construyen intervalos de confianza.
Un intervalo de confianza para el parámetro θ con coeficiente de confianza,
1 – α, que se indicará por ICα, es un conjunto de valores posibles de θ que son
compatibles con los valores más probables del estimador correspondiente, el es-
tadístico θ̂ . Es decir,
–
Por ejemplo, si θ es la media poblacional µ, es θ̂ = X y el ICα para µ es:
En el (1 – α) de los intervalos de confianza para el parámetro θ que se cons-

truyan con valores del estimador correspondiente θ̂ se encontrará el verdadero va-
lor del parámetro θ.
395
10.2. INTERVALO DE CONFIANZA PARA µ EN UNA

POBLACIÓN NORMAL CON σ 2 CONOCIDA
 σ 
Si X , N ( µ , σ ) entonces la v.a. X , N  µ , . Para determinar el intervalo
 n 
de confianza para µ, fijado el coeficiente de confianza 1 – α, se parte del intervalo de
–
probabilidad con riesgo α para X que está formado por los valores más probables
 σ σ 
de la variable aleatoria X : IPα =  µ − z α , µ + zα .
 2 n 2 n 
El intervalo de confianza para µ con coeficiente de confianza 1 – α es el conjunto de

–
valores de µ que son compatibles con los valores más probables de la v.a. X, es decir,
Pero:
Por tanto:
Gráficamente:
σ
X ~ N (µ,——)
√n
α/2 α/2
x
σ
µ – zα/2—— µ σ
µ + zα/2——
√n √n
ICα para µ
σ
x – zα/2—— σ
x + zα/2——
√n √n
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN 397
–
Para cada valor de X se obtendrá un intervalo de confianza para µ diferente.
σ
X ~ N (µ,——)
√n
α/2 α/2
x x
σ
µ – zα/2—— µ σ
√n µ + zα/2——
√n
IPα para X ICα para µ ICα para µ
El ICα para µ cubre el verdadero valor de µ siempre que
y no cubrirá el valor de µ si X ∉ IPα .

Como P ( X ∈ IPα ) = 1 − α , para un 100 (1 – α)% de las muestras se obtendrá
–
un valor de X que determinará un ICα para µ que cubrirá el verdadero valor de µ.
Esto es lo que significa que se tiene un coeficiente de confianza (1 – a ) de que el
intervalo
incluirá el verdadero valor de µ.

Por ejemplo, un intervalo con confianza del 95% será:
y un intervalo con confianza del 99% será:
La amplitud del intervalo de confianza aumenta al disminuir el error α, pero

para un valor fijo de α disminuye al aumentar el tamaño de la muestra, es decir, al
aumentar el tamaño de la muestra aumenta la precisión con el mismo riesgo α.
–
Es importante observar que el intervalo de probabilidad para X es un intervalo
 σ σ 
IPα =  µ − z α , µ + zα  con extremos fijos, conocidos µ y σ y fijado α.
 2
n 2
n 
 σ σ 
Sin embargo, el intervalo de confianza para µ, ICα =  X − z α , X + zα ,
 2 n 2 n 
es un intervalo con extremos que son variables aleatorias en el muestreo, ya
–
que X depende de la muestra elegida. Si se conoce la varianza poblacional,
fijados α y el tamaño muestral, la amplitud del intervalo de confianza ICα es
σ
constante 2 z α .
2
n
Es incorrecto decir que P ( µ ∈ ICα ) = 1 − α , ya que µ no es una variable alea-
toria sino un parámetro fijo (aunque sea desconocido y se tenga que estimar). Se
puede afirmar que la proporción de ICα para µ que incluyen el valor de este pa-
rámetro es (1 – α)%. Este es el significado del ICα para µ.
–
Sí es correcto decir que P ( X ∈ IPα ) = 1 − α , porque X es una v.a. en el muestreo.
EJEMPLO 10.1.
Las medidas de longitud de ciertos fósiles crustáceos se sabe que siguen una distri-
bución normal de varianza σ 2 = 2,34. Si de una muestra aleatoria de tamaño 15 se obtie-
ne media 8,65 cm, construir un intervalo de confianza al 95% para la media poblacional.
Por ser una muestra de una población normal de tamaño n = 15, un intervalo
con confianza del 95% será:
Se afirma que, con confianza del 95%, la media poblacional estará compren-
dida entre 7,88 cm y 9,42 cm.
10.3. INTERVALO DE CONFIANZA PARA µ EN UNA POBLACIÓN

NORMAL CON σ 2 DESCONOCIDA
 σ 
Por ser X una v.a. N(µ, σ) se sabe que X , N  µ , pero como se desconoce
 n 
el valor de σ se estima por la cuasivarianza muestral s. En este caso se sabe que
X−µ
, tn −1 .
s
n
y como en el caso anterior, se obtiene:
Al ser desconocida la varianza poblacional, se estima por la cuasivarianza

muestral, y en este caso fijados α y el tamaño muestral, la amplitud del intervalo
s
de confianza ICα es variable 2tα , pues depende de la muestra.
2
;n−1 n
EJEMPLO 10.2.
En quince fragmentos de un mineral ferro-magnesiano se ha medido el por-
centaje de hierro obteniéndose de media 65,39% y una cuasidesviación típica de
3,47%. Determinar intervalos con confianza del 95% y del 99% para el porcentaje
medio de hierro de ese mineral.
Un intervalo con confianza del 95% por ser una muestra de tamaño n = 15 y
la varianza desconocida será:
y un intervalo con confianza del 99% será:
Se concluye que, con confianza del 95%, el porcentaje medio de hierro de ese
mineral está comprendido entre 63,47% y 67,31% y, con confianza del 99%, los
límites que se obtienen son 62,72% y 68,06%.
10.4. INTERVALO DE CONFIANZA PARA LA PROPORCIÓN p
Como se explicó en el Capítulo 8, Epígrafe 8.6., la proporción poblacional p se

estima por la proporción muestral p̂ cuya distribución en el muestreo, siempre que
 
el tamaño de la muestra sea grande, es aproximadamente N p, pq , en la

 n 
práctica se acepta siempre que np ≥ 5 y nq ≥ 5 .
El intervalo de confianza para p con coeficiente de confianza 1 – α es el con-
junto de valores de p que son compatibles con los valores más probables de la v.a.
p̂, es decir,
Por tanto
Para determinar los extremos del ICα para p, se resuelve la ecuación:
Por tanto
zα2 2 zα2 2
Si n, tamaño de la muestra, es grande, se pueden despreciar , así
y
n 4n 2
para muestras de tamaño grande un intervalo de confianza para la proporción po-
blacional es:
A posteriori se comprueban las condiciones de normalidad np ≥ 5 y nq ≥ 5

para los extremos del intervalo de confianza para p.
EJEMPLO 10.3.
Para estimar la proporción de votantes que elegirán al candidato A en unas elecciones
en las que se presentan tres candidatos A, B y C, se realiza una encuesta en la que se pide
a cien personas censadas que introduzcan en una bolsa un papel con un SÍ en el caso en
que le piensen votar o con un NO si no le votarán. El resultado de la encuesta dice que 37
de ellas sí le votarán. Con estos datos se pide dar un intervalo con confianza del 95% para
la proporción de votantes que el día de las elecciones votarán al candidato A.
Con confianza del 95% se espera que voten al candidato A entre el 27,5% y el
46,5% de los electores.
Ahora se comprueban a posteriori las condiciones de normalidad
en los extremos del intervalo de confianza para p,
10.5. INTERVALO DE CONFIANZA PARA σ 2 EN UNA

POBLACIÓN NORMAL
Para obtener un intervalo de confianza para la varianza poblacional de la

v.a. X , N ( µ , σ ) en poblaciones normales, se tiene en cuenta que la distribución
en el muestreo del estadístico
( n − 1) s 2 Ä es unaÄ χ 2 .
n−1
σ2
2 2
Si se designa por χ α el valor de una v.a. χ n−1 que deja por encima pro-
;( n−1)
2
babilidad α y por χ α
2 2
el valor de una χ n−1 que deja por encima probabilidad
1− ;( n −1)
2 2
α
1 − se puede afirmar que
2
y teniendo en cuenta que:
El intervalo con confianza (1 – α)% para es:
EJEMPLO 10.4.
Suponiendo que la concentración de calcio en el agua de un río en número de
partes por millón es una variable aleatoria normal de parámetros desconocidos, para
estimar la varianza se elige una muestra de 6 mediciones que han dado los si-
guientes resultados: 9,48, 9,54, 9,70, 9,26, 9,32 y 9,61. Determinar un intervalo de
confianza para la varianza con coeficiente de confianza 0,90.
X = «concentración de calcio en el agua del río» , N( µ, σ ).

Para determinar el intervalo de confianza para la varianza se necesita el valor
de la cuasivarianza muestral:
Se espera con confianza del 90% que la varianza poblacional sea:
10.6. INTERVALO DE CONFIANZA PARA σ EN UNA

POBLACIÓN NORMAL
Si X , N ( µ, σ ) y si el tamaño de la muestra es n ≥ 100, la distribución de la

 σ 
cuasidesviación típica s es aproximadamente normal, s , N  σ , . Si se cono-
 2n 
ciera σ se podría construir el intervalo con probabilidad 1 – α para s:
Como no se conoce la desviación típica poblacional σ, que se estima por s,

también se ignora su error típico, que se estimará por s y como en los casos
2n
anteriores se obtiene el intervalo con confianza (1 – α)% para σ :
10.7. RELACIÓN ENTRE LA PRECISIÓN Y EL TAMAÑO

DE LA MUESTRA
Se ha observado anteriormente que el intervalo con confianza (1 – α)% au-

menta su amplitud al disminuir el riesgo α y por tanto se pierde precisión en la es-
timación. También se ha advertido que mejora la precisión al aumentar el tamaño
de la muestra sin cambiar el riesgo α, pues disminuye la amplitud del intervalo.
Antes de realizar una investigación, se debe fijar la precisión, o margen de
error admisible (diferencia entre el valor del estadístico y el del parámetro co-
rrespondiente), y el valor de α. De esta forma se podrá determinar el tamaño de la
muestra para conseguir la confianza (1 – α)% y asegurar la precisión requerida.
La decisión sobre la elección del tamaño de la muestra es importante. Una
muestra demasiado grande conduce a un desperdicio de recursos y una muestra
muy pequeña disminuye la utilidad de los resultados. La teoría de muestras pro-

porciona el procedimiento a seguir:
1. Se debe especificar la precisión, es decir, el límite máximo de error deseado.
2. Hay que encontrar una ecuación que relacione el tamaño de la muestra con
la precisión deseada.
3. Como la ecuación contiene parámetros desconocidos de la población, éstos
se tienen que estimar.
4. Si de una población se extraen muestras por conglomerados, o se realiza
un muestreo estratificado, el tamaño de cada submuestra se calcula por se-
parado para el margen de error dado y el tamaño de la muestra total será la
suma de los tamaños de las submuestras.
10.7.1. ¿Cuál debe ser el tamaño de la muestra que se necesita para

–
estimar µ con confianza fijada, 1 – α, y con precisión | X – µ | ≤ d?

Si se conoce la varianza poblacional P  X − µ ≤ zα 2
σ 
  = 1 − α siempre
n
que X , N ( µ, σ ) cualquiera que sea el tamaño de la muestra, y esa probabilidad
es aproximadamente igual a 1 – α siempre que el tamaño de la muestra sea gran-
de, es decir n ≥ 30, aunque X no siga una distribución normal, o se desconozca la
distribución de X en la población.
σ
Para obtener confianza 1 – α y que sea X − µ ≤ d ha de ser zα 2 ≤ d.
2 2 n
z σ
Despejando n, se obtiene n ≥ α 22 .
d
EJEMPLO 10.5.
a) ¿Cuál debe ser el tamaño de la muestra a elegir de una amplia zona de co-
níferas si se desea estimar el valor medio del diámetro de los pinos a 1,30 m
del suelo con precisión menor o igual a 6 cm y con confianza 0,95?
b) Ídem para asegurar una precisión menor o igual a 4 cm
c) ¿Cuál para que la precisión sea como máximo 3 cm con la misma confianza?
Se dispone del valor de la desviación típica de los diámetros en esa zona, que es
σ = 50 cm.
a) Para que P  X − µ ≤ zα 2 50  = 0, 95 ha de ser zα/2 = 1,96 y por tanto para

 n
( )
que se verifique que P X − µ ≤ 6 ≥ 0, 95 se tiene que cumplir que:
por tanto el tamaño de la muestra ha de ser como mínimo n = 267.

50 1, 962 50 2
b) 1, 96 ≤4⇒n≥ = 600, 25 ⇒ n ≥ 601.
n 16
50 1, 962 50 2
c) Para que 1, 96 ≤ 3⇒ n ≥ = 1067, 11 ⇒ n ≥ 1.068.
n 9
EJEMPLO 10.6.
Un investigador desea estimar la media de una característica poblacional, de la
que no se conoce la distribución a que se ajusta, de tal modo que la probabilidad de
que la media muestral no difiera de ella en más de la cuarta parte de la desviación tí-
pica de la variable sea al menos 90%, ¿cuál debe ser el tamaño de la muestra para
conseguir su propósito?
Como no se puede suponer que la distribución de la variable en la población

es normal se aplica la desigualdad de Chebyshev P  X − µ ≤ k σ  ≥ 1 − 12 .
 n k
σ
Como se pretende P  X − µ ≤  ≥ 0, 90 tendrá que ser
 4
Igualando 10 σ = σ ⇒ n = 4 10 ⇒ n = 160.
n 4
10.7.2. ¿Cuál debe ser el tamaño de la muestra que se necesita para

estimar p con confianza 1 – α y con precisión | p̂ – p | ≤ d?
Si el tamaño de la muestra es grande n ≥ 30 se sabe que
Para asegurar la precisión p̂ − p ≤ d con confianza 1 – α ha de ser

pq
zα 2 ≤ d . Pero como se desconoce el valor de p, para poder asegurar que se
n
verifica esta desigualdad cualquiera que sea el valor de p, se tiene en cuenta que la
2
1  1
función f ( p) = pq = p(1 − p) es máxima para p = , y por tanto pq ≤   . De
2  2
esta forma
EJEMPLO 10.7.
Se desea estimar la proporción de albinos en una población. Calcular el tamaño
de la muestra para que la estimación de la proporción difiera del verdadero valor
a) En menos de un 5% con probabilidad 0,95.
b) En menos de un 1% también con probabilidad 0,95.
 
a) Como P  pˆ − p ≤ zα 2 pq  . 1 − α , Ä si 1 − α = 0, 95 ⇒ α = 0, 05 y en
 n 
)
consecuencia z α / 2 = 1,96. Para que P ( pˆ − p ≤ 0, 05 = 0, 95 ha de ser
2
(1, 96 )
n≥ 2 = 384, 16. Por tanto n tiene que ser al menos 385.
4 ( 0, 05)
)
b) Para conseguir P ( pˆ − p ≤ 0, 01 = 0, 95 tendrá que verificarse
al exigir mayor precisión con la misma confianza hay que aumentar considera-
blemente el tamaño de la muestra.
10.8. INTERVALO DE CONFIANZA PARA LA DIFERENCIA

DE MEDIAS µ1 – µ2
Para construir intervalos de confianza para la diferencia de medias poblacionales

se hace uso de la distribución en el muestreo de la diferencia de medias muestrales.
Se sabe que si Xi , N ( µ , σ ) ∀i = 1, 2,..., n son variables aleatorias indepen-
dientes, entonces:
y, por tanto, si las distribuciones de las variables Xi son normales, cualesquiera

 σ 
que sean los tamaños muestrales, se verificará que Xi , N  µi , i  , i = 1, 2.
 ni 
También se sabe que para muestras independientes se puede asegurar que la dis-
 σ2 σ2 
tribución de la diferencia de medias muestrales es X1 − X 2 , N  µ1 − µ 2 , 1 + 2 
 n1 n2 
si las distribuciones de las variables Xi son normales.
10.8.1. Si se conocen las varianzas poblacionales σ 12 y σ 22
y a partir del intervalo de probabilidad con riesgo α para la diferencia de medias

muestrales se construye el intervalo de confianza con coeficiente de confianza (1 – α)
para la diferencia de medias poblacionales:
10.8.2. Si no se conocen las varianzas poblacionales σ 12 y σ 22 pero

se pueden suponer iguales
 σ 
Siempre que Xi , N  µi , i  , i = 1, 2 y las muestras sean independientes la
 ni 
distribución de la diferencia de medias muestrales es
 σ2 σ2 
X1 − X2 , N  µ1 − µ2 , 1 + 2  .
 n1 n2 
Si las varianzas poblacionales se pueden suponer iguales se estima la va-
( n − 1) s12 + ( n2 − 1) s22 y en este caso la distribución
rianza común por σ̂ 2 = s 2 = 1
n1 + n2 − 2
(X
1 − X2 ) − ( µ1 − µ2 )
del estadístico no es normal sino tn1+n2–2 y por ello, el inter-
1 1
s +
n1 n2
valo de confianza, con coeficiente de confianza 1 – α, será en este caso
10.8.3. Si no se conocen las varianzas poblacionales σ 12 y σ 22

y no se pueden suponer iguales
Si las varianzas poblacionales no se conocen y no se pueden suponer iguales, se
estiman por las cuasivarianzas de las muestras correspondientes, y en este caso el es-
( X − X2 ) − ( µ1 − µ2 ) sigue una distribución t de Student con g grados de
tadístico 1
s12 s22
+
n1 n2
2
 s12 s22 
 n + n 
1 2
libertad, siendo g el número natural más próximo a h = 2 2 − 2.
 s12   s22 
 n1   n2 
+
n1 + 1 n2 + 1
El intervalo de confianza será:
EJEMPLO 10.8.
Con el objeto de comprobar si la ingesta de vitamina A influye en el tiempo que las
ratas emplean en recorrer un laberinto, se divide un grupo de ellas de la misma edad al
azar en dos subgrupos de 50 y 36 ratas respectivamente. A las del primer grupo se les da
una dieta rica en vitamina A y al otro grupo una dieta que no contiene esa vitamina. El
tiempo empleado por las del primer grupo tiene media 5,2 min, con desviación típica 0,4
min, y para el segundo grupo se obtiene una media de 6 min. con desviación típica de 0,5
min. En el supuesto de que se pueda aceptar que las varianzas poblacionales son iguales,
dar un intervalo de confianza, con coeficiente de confianza del 95% para la diferencia de
los tiempos medios en las dos poblaciones. ¿Qué conclusión se puede sacar?
Si se designa por Xi el tiempo que tarda en recorrer el laberinto una rata del
grupo i, i = 1, 2.
Tenemos
como las varianzas poblacionales se pueden suponer iguales, la varianza común se

estima por:
y el estadístico
Por tanto, el
Esto significa que con confianza del 95% se puede afirmar que la diferencia
Por tanto, con esa confianza se puede afirmar que las ratas del segundo grupo,
con dieta sin vitamina A, tardan más tiempo en recorrer el laberinto.
10.9. INTERVALO DE CONFIANZA PARA LA DIFERENCIA

DE PROPORCIONES p1 – p2
Como ya se explicó anteriormente, si p1 y p2 son las proporciones de ele-

mentos de la clase A en las poblaciones E1 y E2, se extraen muestras aleatorias in-
dependientes de tamaño n1 en la primera población y de tamaño n2 en la segunda,
y p̂1 y p̂2 son las proporciones de elementos pertenecientes a la clase A que se ob-
servan en las muestras, siempre que se cumplan las condiciones de normalidad,
la distribución del estadístico se puede aceptar que sea:
Como en los casos anteriores, a partir del intervalo de probabilidad para la di-
ferencia de las proporciones muestrales se obtiene el intervalo de confianza para
la diferencia de proporciones poblacionales, con confianza (1 – α), que será:
Al desconocer las proporciones en las poblaciones, no se pueden comprobar

las condiciones de normalidad, pero construyendo los intervalos de probabilidad
para p1 y para p2 se pueden comprobar a posteriori estas condiciones en los ex-
tremos de esos intervalos.
EJEMPLO 10.9.
Se quiere probar la eficacia del tratamiento con estatinas en la lucha contra el
sida. Se eligen 200 pacientes y se dividen al azar en dos grupos de 100. Al primer
grupo se les administra estatinas durante un mes y al otro grupo se les trata con la
terapia antirretroviral combinada. Se comprueba que disminuye la carga viral
del VIH en sangre en 75 pacientes seropositivos del primer grupo y en 60 del se-
gundo. Dar un intervalo de confianza al 95% para la diferencia en la proporción de
los pacientes portadores del VIH para los que disminuye la carga viral del sida en
las células.
Se designa por p1 a la proporción de los pacientes en los que disminuye la car-

ga viral del VIH con el tratamiento con estatinas, y análogamente p2 a esa pro-
porción para los tratados con la otra terapia.
Se construye el ICα=0,05 para p1 para comprobar las condiciones de normalidad:

Se comprueban las condiciones de normalidad en los extremos del ICα=0,05:
por tanto, se cumplen las condiciones de normalidad para p1.

Análogamente para p2
También se cumplen las condiciones de normalidad para p2 en los extremos

del ICα=0,05:
Por tanto, el ICα=0,05 para la diferencia de proporciones p̂1 – p̂2 es:
simplificando, se obtiene:
Con confianza del 95% se puede afirmar que
es decir, con esa confianza se afirma, a partir de los datos experimentales, que el
tratamiento con estatinas es más eficaz en la lucha contra el sida.
10.10. INTERVALO DE CONFIANZA PARA EL COCIENTE

DE VARIANZAS
s12
σ 12
Como ya se explicó anteriormente , F[n1 −1,n2 −1] y a partir de la distribu-
s22
σ 22
ción de este estadístico se construyó el intervalo de probabilidad con riesgo α
s2  σ2 σ2 
para: 12 : IPα =  a 12 , b 12  , siendo a = F[n −1,n −1];(1−α 2) Ä yÄ b = F[n −1,n −1];α 2 .
s2  σ2 σ2  1 2 1 2
σ 12  σ 12 s12 
El ICα para 2 =  2 2 ∈ IPα 
σ 2  σ 2 s2 
σ 12
Es decir, si a = F[ n −1, n −1];(1−α 2 ) Ä yÄ b = F[ n −1, n −1]; α 2 Ä ell Ä ICα para es:
1 2 1 2
σ 22
EJEMPLO 10.10.
En el Ejemplo 10.8., se hacía la suposición de igualdad de varianzas poblacio-
nales para la construcción del intervalo de confianza para la diferencia de medias.
Con los datos de las muestras de ese ejemplo, ¿se puede aceptar la igualdad de va-
rianzas poblacionales para α = 0,10 ?
2
El intervalo de confianza para σ 12 es:
σ2
σ 12
Como 1 ∈ ICα =0 ,1 para se puede aceptar
σ 22
con confianza (1 – α)% = 90%

Además si α < 0, 10 el ICα ⊃ ICα =0,10 y por tanto también para α < 0,10 se
acepta la igualdad de varianzas.
Por ejemplo, si α = 0,05
Se comprueba que el intervalo ICα=0,05 es de mayor amplitud que el ICα=0,10 y

que además ICα=0,05 ⊃ ICα=0,10.
En los cuadros siguientes se resumen los intervalos de probabilidad y de
confianza.
TABLA DE INTERVALOS DE CONFIANZA (DISTRIBUCIÓN DE LOS ESTADÍSTICOS EN EL MUESTREO)
414
θ̂
θ θ E(θ̂
θ) σθˆ Distribución θ
IPα para θ̂ ICα para θ
σ • Si X , N (µ ,σ ), entonces Como X−µ

Z= , N ( 0,1)
n  σ  σ
X , N  µ,
 n  n 
– con σ conocida σ σ 
X µ µ • Si n > 30  X − zα , X + zα 
 2
n 2
n 
 σ  
X es aproximadamente N  µ , σ σ 
 n   µ − zα , µ + zα 
 2
n 2
n 
σ X−µ • Si n < 30
• Si X , N (µ ,σ ) ⇒ , tn−1
n s  s s 
n  X − tα , X + tα 
con σ desconocida ;n −1 n ;n −1 n 
–  s s 
 2 2 
X µ µ  µ − tα , µ + tα 
 ;n −1 n ;n −1 n  • Si n ≥ 30
2 2 
 s s 
 X − zα , X + zα 
 2
n 2
n 
Si np ≥ 5 y nq ≥ 5, entonces  pq pq  
 p − zα , p + zα  ˆˆ
pq ˆˆ 
pq
 pq  pˆ − p n  pˆ − z α , pˆ + z α 
pq pˆ , N  p, ⇒ , N ( 0,1)  2 2
n  n
p̂ p p   2 2
n 
n  n  pq
ESTADÍSTICA APLICADA. UNA VISIÓN INSTRUMENTAL
Siendo np ≥ 5 y nq ≥ 5 en los
n extremos del intervalo
Si X , N (µ ,σ ) y n ≥ 100, entonces
σ  σ σ   s s 
s σ σ  σ  σ − z α ,σ + z α   s − zα , s + zα 
2n s , N σ , aproximadamente 2n 2n
 2n   2 2
2n   2 2
2n 
θ̂
θ θ E(θ̂
• Si X , N ( µ, σ ), entonces Como
 ( n − 1) s2 
( n − 1) s 2 P a < < b = 1− α
2 , χ n2−1  σ2   ( n − 1) s 2 ( n − 1) s 2 
s2 σ2 σ2 σ2 σ2  , 
n −1 b a
Llamando a = χ 2  
α y b = χ α2
1− ;n −1 ;n −1  σ 2a σ 2 b 
2 2 IPα para s2 es  , 
 n − 1 n − 1
• Si X1 , N ( µ1 , σ 1 ) , X2 , N ( µ 2 , σ 2 ) El intervalo tiene por extremos: El intervalo tiene por extremos:

son independientes σ 12 σ 22
σ 12 σ 22 ( X1 − X2 ) 7 z α +
 ( µ1 − µ2 ) 7z α + n1 n2
σ 12 σ 22  2
σ 12 σ 22 ( X1 − X2 ) , N  µ1 − µ2 , +  2
n1 n2
– – +  n1 n2 
X1 – X2 µ1 – µ2 µ1 – µ2 n1 n2
σ1 y σ2 • Si n1 ≥ 30 y n2 ≥ 30, entonces es
son conocidas
 σ 12 σ 22 
( X1 − X2 ) aprox. N  µ1 − µ2 , + 
 n1 n2 
Si X1 , N ( µ1 , σ 1 ) , X2 , N ( µ 2 , σ 2 ) El intervalo tiene por extremos: El intervalo tiene por extremos:

σ 12 σ 22
+ son independientes pero los tamaños 1 1
n1 n2 1 1
de las muestras no son grandes, es de- ( µ1 − µ 2 ) 7tα ; n1+ n2 −2 s n + n X1 − X2 7 t α ( ) s +
1 2 ; n1 + n2 − 2 n1 n 2
σ1 y σ2 2 2
cir, no son ambos mayores o iguales a
son desconocidas, 30, entonces
– – pero se pueden su-
X1 – X2 µ1 – µ2 µ1 – µ2 poner iguales
INTERVALOS DE CONFIANZA DE LOS PARÁMETROS DE UNA POBLACIÓN
( X1 − X2 ) − ( µ1 − µ2 ) , t
n1 + n2 − 2
1 1
s +
n1 n2
415
2 ( n1 − 1) s12 + ( n2 − 1) s22
siendo s =
n1 + n2 − 2
θ̂
θ θ E(θ̂
416
Si X1 , N ( µ1 , σ 1 ) , X2 , N ( µ 2 ,σ 2 ) El intervalo tiene por extremos: El intervalo tiene por extremos:
son independientes pero los tamaños de las s12 s22 s12 s22
muestras no son grandes, es decir, no son ( µ1 − µ2 ) 7t α ,g + ( X1 − X2 ) 7 t α ,g +
2
n1 n2 n1 n2
ambos mayores o iguales a 30 2
σ 12 σ 22 entonces
( X1 − X2 ) − ( µ1 − µ2 ) , t
+ g
n1 n2 s12 s22
– – +
X1 – X2 µ1 – µ2 µ1 – µ2 σ1 y σ2 n1 n2
son desconocidas siendo g el entero más próximo a
y no se pueden 2
suponer iguales  s12 s22 
n + 
 1 n2 
h= 2 2
−2
 s12   s22 
 n1   n2 
+
n1 + 1 n2 + 1
Si n1 p1 ≥ 5, n1q1 ≥ 5, n2 p2 ≥ 5, n2 q2 ≥ 5 El intervalo tiene por extremos: El intervalo tiene por extremos:
p1q1 p2 q2 ( p1 − p2 ) es aproxiimadamente p1q1 p2 q2 pˆ1qˆ1 pˆ 2 qˆ2

p̂1 – p̂2 p1 – p2 p1 – p2 + ( p1 − p2 ) 7 z α + ( pˆ1 − pˆ 2 ) 7 z α +
n1 n2  pq pq  n1 n2 n1 n2
N  p1 − p2 , 1 1 + 2 2  2 2
 n1 n2 
Si X1 , N ( µ1 , σ 1 ) , X2 , N ( µ 2 , σ 2 )  s12 
 σ 12 
s12 como P  a ≤ 2 ≤ b = 1 − α
σ2  s2 
s12 σ 12  2   1 s12 1 s12 
son independientes F = 12 , F n −1,n −1
 1 2   σ 2   2,
s2 2 
s22 σ 22 El  b s2 a s 2 
2
σ2
Si a = Fn −1,n −1;1−α 2 y b = F n −1,n −1;α s12  aσ 2 bσ 2 
 1 2   1 2  2 IPα para 2
es  21 , 21 
s2  σ2 σ2 
10.11.1. Un indicador de la calidad del aire es el número medio de microgramos de

partículas por metro cúbico de aire, se designa por X el número de µg de partículas
por m3 de aire. Para determinar la media de X durante un periodo de 30 días se aspira
a través de un filtro un de aire cada seis días y se apunta el número de µg de partí-
culas atrapadas. Se genera así una muestra aleatoria de tamaño cinco. Los valores ob-
servados de esta variable son: 59, 70, 58, 57 y 61.
a) ¿Se pueden utilizar estas observaciones para estimar µ?
b) Dar un intervalo de confianza para µ al nivel del 95%, sabiendo que por es-
tudios experimentales se admite que X se distribuye con varianza 9.
c) Dar un intervalo de confianza para µ al nivel del 95% en el supuesto de que la
variable X siga una distribución normal con varianza 9.
10.11.2. Se considera la variable aleatoria X que representa el tiempo, en meses,

transcurrido entre la polinización y la fertilización de una especie de coníferas. La
distribución de esta variable aleatoria se supone normal. Se eligen al azar 25 piñas
hembras de esta población.
–
a) ¿Cuál es la media de la variable aleatoria X para las muestras de tamaño
25? ¿Cuál es su varianza? ¿Y su desviación típica?
–
b) ¿Qué se puede afirmar sobre la distribución de la variable aleatoria X ?
c) Los siguientes valores son datos correspondientes a una muestra aleatoria de
la variable X de tamaño 25:
2,5, 6,8, 4,5, 2,4, 6,2, 5,3, 6,5, 3,2, 3,7, 4,9, 7,7, 8,0, 6,5,
5,3, 5,5, 4,8, 5,9, 6,1, 5,3, 5,7, 4,5, 7,2, 7,7, 5,3, 4,7
c1) Dar un intervalo de confianza del 90% para la media de X, si se conoce la des-
viación típica de la población de esta especie de coníferas, que es de dos meses.
c2) Dar un intervalo de confianza del 99% para la media de X si no se tiene co-
nocimiento de la desviación típica de la población.
c3) Dar un intervalo de confianza del 95% para la varianza de X y para la des-
viación típica de X.
10.11.3. Aceptando que la longitud de las espigas de trigo sigue aproximadamente

una distribución normal, se elige una muestra de 14 espigas que dan una media
10,1 cm y cuasivarianza de 3,24 cm2. Hallar:
a) Un intervalo de confianza para la media poblacional con coeficiente de con-
fianza del 95%.
b) Un intervalo de confianza con coeficiente de confianza del 99% para la va-
rianza poblacional.
c) Un intervalo de confianza para la media poblacional con coeficiente de con-
fianza del 95% en el supuesto de que los valores de la media muestral y de la
cuasivarianza procedieran de una muestra de tamaño 100.
10.11.4. El porcentaje medio de semillas que germinan de una especie determinada

sigue una distribución normal de desviación típica 0,10. Para estimar la media de es-
tos porcentajes se va a elegir una muestra de n semillas.
a) Calcular el menor valor de n para asegurar que el riesgo de cometer un error
menor del 1% sea del 5%.
b) Determinar el menor valor de n para que la probabilidad de que la media
muestral obtenida difiera de la poblacional µ menos del 3% sea 0,95.
10.11.5. Se acepta que el tiempo que tarda una rata en recorrer un determinado la-
berinto sigue una distribución normal. Se realiza un experimento con dos ratas. La
primera recorre el laberinto 35 veces en un tiempo medio de 9 minutos con cuasiva-
rianza 3,6 y la segunda en 40 recorridos da una media de 8 minutos con cuasiva-
rianza 1,6. Hallar un intervalo con confianza del 95% para la diferencia de los tiem-
pos medios.
10.11.6. En una prueba de matemáticas de selectividad para una muestra de 81 es-

tudiantes, elegidos al azar entre todos los presentados en la última convocatoria en la
Comunidad de Madrid, se han obtenido unas puntuaciones cuya desviación típica es
12. Dar un intervalo de confianza al 95% para la desviación típica σ de todos los pre-
sentados, aceptando que las puntuaciones siguen una distribución normal.
10.11.7. Se quiere comparar la variación de cierta sustancia tóxica en dos ríos, cuyas
aguas sufren contaminación industrial, con el fin de vigilar la calidad del agua para la
cría de peces. Se eligen 10 muestras de agua del primer río y 7 del segundo. Los ni-
veles de la sustancia tóxica determinados en el laboratorio, en ppm, se recogen en la
siguiente tabla:
Río 1 9 8 10 12 13 12 10 14 10 12
Río 2 7 10 8 8 9 10 8
a) Suponiendo que el muestreo se hizo en dos poblaciones independientes dis-

tribuidas normalmente, dar un intervalo de confianza del 95% para el cociente
de las varianzas.
b) Con el resultado del apartado anterior, ¿se puede admitir que las dos va-
rianzas son diferentes? ¿Por qué?
10.11.8. El número de individuos, X, de la población de zooplancton marino por me-

tro cúbico de agua se supone distribuido normalmente. Se eligen quince muestras y
se cuenta el número de individuos de zooplancton que contiene cada una. Los resul-
tados obtenidos son los siguientes:
4.915, 4.750, 4.875, 4.900, 5.015, 4.500, 3.700, 5.000,

4.250, 5.700, 4.450, 3750, 4.935, 4.775, 4.025
a) Dar un intervalo con confianza del 99% para la media de X suponiendo que la
desviación típica de X sea de 500 individuos.
b) Dar un intervalo con confianza del 95% para la media de X si no se tiene co-
nocimiento de la desviación típica de X.
c) Dar un intervalo con confianza del 90% para la varianza de X y para la des-
viación típica de X.
10.11.9. Para comparar las varianzas de las dimensiones de los pies ambulacrales de
astéridos procedentes de distinta zona litoral se elige una muestra aleatoria de 21 es-
trellas de mar de la primera zona y 16 de la segunda. Se admite que las longitudes de
los podios, medidas en mm, se distribuyen según una normal en ambas zonas. Las
muestras proporcionan varianzas 0,61 y 0,937 respectivamente.
a) Determinar un intervalo con confianza del 95% para el cociente de las varianzas.
b) ¿Se puede suponer que las varianzas en las dos zonas son iguales?
10.11.10. El porcentaje de mujeres portadoras de hemofilia de una población es des-

conocido, para estimarlo se elige una muestra aleatoria de 100 mujeres entre las que
se encuentran 16 portadoras de la enfermedad.
a) Dar una estimación con confianza del 95% para la proporción de mujeres por-
tadoras de esa enfermedad.
b) Si se quiere estimar el porcentaje de la población a partir del porcentaje ob-
servado en una muestra, ¿cuál debe ser el tamaño de la muestra para que el
error cometido sea menor del 1% con probabilidad del 90%?
10.11.11. Se sabe que la distribución del peso de mazorcas de maíz de una especie
enana sigue una distribución normal con desviación típica 4,5 g. Se eligen al azar 20
mazorcas de una gran plantación, el peso medio de éstas es de 19 g y la cuasides-
viación típica es de 4 g.
a) Dar un intervalo de confianza del 95% para el peso medio de las mazorcas.
b) ¿Cuál sería el intervalo de confianza si los datos anteriores correspondieran a
una muestra aleatoria de 100 mazorcas?
c) Determinar el intervalo de confianza para la media a partir de la muestra de
tamaño 20 si no se tiene información sobre la varianza poblacional.
d) Dar un intervalo de confianza al 95% para la varianza de la población.
10.11.12. En un sondeo de opinión se consultó a 1.000 personas elegidas al azar si es-

taban de acuerdo con un servicio recibido. De ellas 485 dieron respuesta afirmativa.
a) Dar un intervalo con confianza del 99% para la proporción de personas con-
formes con ese servicio.
b) Ídem al 95%.
10.11.13. Para estimar el número medio de accidentes mortales de tráfico que ocu-
rren en la Comunidad de Madrid en fines de semana, se observan diez fines de se-
mana elegidos al azar y se obtiene una media de 60 accidentes con desviación típica
de 9,5. Dar una estimación por intervalo de confianza al 95%.
10.11.14. Para obtener proteínas de origen animal se homogeneizan muestras de hí-

gado de cerdo. Se homogeneizan ocho muestras del mismo peso de otros tantos hí-
gados elegidos al azar entre los sacrificados en diferentes explotaciones y se obtiene
media de 20,8 g de proteína con cuasivarianza de 1,44 g2.
a) Dar un intervalo con confianza del 99% para la varianza y para la desviación
típica.
b) Ídem con confianza del 95%.
10.11.15. Los árboles frutales vigorosos de cierta especie admiten una carga máxi-
ma, X, en kg sin que se rompan sus ramas. Se acepta que la carga de fruta sigue una
distribución normal. Se pesa la carga de fruta de cinco árboles de esa especie, elegi-
dos al azar. Los resultados obtenidos son los siguientes:
265 kg, 235 kg, 220 kg, 250 kg, 260 kg
a) Hallar un intervalo de confianza al 90% de la media de las cargas.
b) ¿A partir de qué valor de X se puede esperar que se rompan el 80% de las ramas?
10.11.16. En una oficina hay dos impresoras, el tiempo que tarda la primera en
imprimir un folleto es una variable aleatoria X de la que una muestra de 100 folletos
ha dado media de 12,5 seg. por unidad, con desviación típica 2 seg. por unidad. La
variable aleatoria Y correspondiente a la segunda impresora para una muestra de im-
presión de otros 100 ejemplares del mismo folleto dio una media de 10,5 seg. por
unidad, con desviación típica 1,5 seg. por unidad.
a) Calcular un intervalo de confianza con coeficiente de confianza 0,9 para la di-
ferencia de los tiempos medios en imprimir un folleto.
b) Ídem con coeficiente de confianza del 99%.
c) Suponiendo que la calidad de impresión es la misma, ¿qué impresora produ-
ce un mejor rendimiento?
10.11.17. Los postes de madera de pino torneada para cerramiento de fincas se tra-
tan con sales hidrosolubles cobre-cromo-arsénico para protegerlos contra hongos, ter-
mitas y xilófagos. Se examinan 100 postes que llevan colocados 50 años y se en-
cuentran 89 en buen estado. Estimar el porcentaje de postes que siguen en buen
estado después de 50 años con coeficiente de confianza 0,95.
10.11.18. Se ha repoblado una gran extensión con árboles de la misma especie. Se eli-
gen 100 árboles al azar pasados siete años desde que se plantaron. Las medidas, en cm,
de los diámetros a 1,30 m del suelo para estos árboles se recogen en la siguiente tabla:
Diámetro 25 35 45 55 65
ni 9 18 38 29 6
a) Hallar un intervalo con confianza 0,90 para el diámetro medio de los árboles
de esa especie al cabo de siete años.
b) Aceptando que los diámetros se distribuyen según una normal, dar un inter-
valo con confianza 0,90 para la varianza.
10.11.19. Una máquina que corta piezas de ágata con un grosor fijo produce piezas
de grosor que sigue una distribución normal de varianza 1 mm.
a) Sabiendo que de una muestra de tamaño 60 elegida al azar de las cortadas por
esa máquina se ha obtenido un grueso medio de 8,5 mm, determinar un in-
tervalo con confianza 0,90 para la media de toda la producción.
b) Si sólo se conoce que la media de una muestra de tamaño 5 es 8,2 mm, dar un
intervalo con confianza 0,90 para la media de la producción.
10.11.20. De un conjunto de 5.000 semillas de girasol se elige una muestra aleatoria

de 50 semillas de las que germinan el 74%.
a) Hallar una estimación insesgada del porcentaje de semillas que germinarán.
b) Dar el error típico de la proporción muestral de las semillas germinadas.
c) Calcular un intervalo con confianza 0,95 de la proporción de semillas que
germinarán.
10.11.21. Se ponen a prueba cinco cafeteras exprés de la marca C. El número de ca-

fés que hicieron antes de estropearse fue: 22.000, 31.000, 25.000, 18.000, 30.000 res-
pectivamente. También se ponen a prueba seis cafeteras exprés de la marca M, pu-
diendo hacer 17.000, 20.000, 17.000, 24.000, 21.000, 22.000 cafés respectivamente.
a) Aceptando que en las poblaciones el número de cafés que se puede hacer con
una cafetera sigue una distribución normal, dar un intervalo con confianza del
99% para las dos medias poblacionales.
b) Dar un intervalo con confianza del 95% para la diferencia de las medias po-
blacionales.
c) ¿Se puede esperar que una cafetera de la marca C haga 35.000 cafés? ¿Y si es
de la marca M?
10.11.22. El director de un empresa propietaria de un centro comercial observa que de

600 clientes que viven en sus proximidades y de 400 de una zona alejada de ese centro
al cabo de un año sólo 300 de la primera y 100 de la segunda siguen siendo clientes.
a) Hallar los límites de confianza para la diferencia de proporciones de los que
viven en esas zonas y siguen siendo clientes pasado un año para α = 0,005.
10.11.23. Se desea estimar la calificación media en matemáticas de primer curso de Bio-

lógicas, de tal forma que difiera de la media como máximo en 0,2 σ con confianza del 80%.
a) ¿Cuántos estudiantes se deben seleccionar al azar si las calificaciones en
matemáticas se ajustan a una distribución N(µ, σ)?
b) ¿Cuántos habría que seleccionar si no se conoce la distribución de las califi-
caciones en matemáticas?
Contrastes de hipótesis paramétricos
11
11.1. INTRODUCCIÓN
En el capítulo anterior se abordó el problema de la estimación de los parámetros

desconocidos: proporción, media, varianza…, de una población, a partir de los
datos de una muestra aleatoria, elegida en aquella. En primer lugar, se estudió la es-
timación puntual y para mejorarla la estimación por intervalos de confianza, inter-
valos en los que se espera que se encuentre el verdadero valor del parámetro des-
conocido θ con un coeficiente de confianza, o nivel de confianza, 1-α. Se explicó
también cómo se mejora, al aumentar el tamaño de la muestra, la precisión de la es-
timación para un mismo valor de α.
Muchos problemas de investigación requieren comprobar, con márgenes de
error prefijados, si ciertas hipótesis sobre los valores de los parámetros de una o
varias poblaciones, se pueden confirmar o no con los datos experimentales. Las
hipótesis conducen a la obtención de modelos. Los modelos dependen de uno o
más parámetros y las hipótesis se formulan sobre el valor de esos parámetros. Este
es el objeto de los contrastes de hipótesis paramétricos.
En los problemas de estimación el objetivo es valorar un parámetro descono-
cido, y en los contrastes de hipótesis paramétricos se trata de decidir si se puede
aceptar o no si un parámetro toma un valor determinado o el mismo valor en dos
o más poblaciones.
Un contraste de hipótesis estadístico es un procedimiento para aceptar o re-
chazar una hipótesis sobre la población objeto de estudio, utilizando la informa-
ción obtenida de una muestra aleatoria elegida en aquella. Si la hipótesis se for-
mula sobre un parámetro de la población, se dice que el contraste es paramétrico.
Los contrastes paramétricos necesitan el requisito de normalidad de las variables
aleatorias que intervienen en el estadístico de contraste.
423
EJEMPLO 11.1.
Según las leyes de Mendel, al cruzar individuos heterocigóticos Aa, en el su-
puesto de dominancia completa, en la primera generación filial se espera encontrar
una proporción p = 1/4 de individuos de genotipo aa. Se cruzan un gran número de
individuos heterocigóticos y se quiere contrastar si en esa población se puede acep-
tar que la proporción de individuos de genotipo aa es p = 1/4. Se elige una muestra
aleatoria de tamaño n en esa población y en ella se observa una proporción p0 de in-
dividuos aa. Como ya se ha explicado anteriormente, p0 tiene fluctuaciones en el
muestreo y por tanto es bastante improbable que coincida exactamente con el valor
teórico propuesto, de modo que se necesita introducir un procedimiento de decisión
que tenga en cuenta las fluctuaciones en el muestreo de los estadísticos muestrales.
En este capítulo se presentan contrastes para un parámetro: proporción, media,

varianza y pruebas de comparación de dos proporciones, de dos medias y de
dos varianzas.
11.2. ETAPAS A SEGUIR EN UN CONTRASTE

PARAMÉTRICO
1. Se formula una primera hipótesis, que se denomina hipótesis nula, y se re-

presenta por H0. Se llama así porque con frecuencia afirma que no hay diferencia
entre el verdadero valor del parámetro y el que se desea contrastar. Así, en el
ejemplo anterior:
Si se quiere probar si la media de una población es µ0, la hipótesis nula será:
Si lo que se pretende averiguar es si hay diferencia o no entra las medias de

dos poblaciones,
2. Se establece una segunda hipótesis, llamada hipótesis alternativa, que se

representa por H1. La hipótesis alternativa es la negación en sentido estricto, o en
sentido amplio, de la hipótesis nula.
Para el ejemplo 11.1. posibles hipótesis alternativas son:
1
䊏 H1 : p ≠ la negación en sentido estricto de la hipótesis nula.
4
CONTRASTES DE HIPÓTESIS PARAMÉTRICOS 425
Se ha planteado una hipótesis nula simple, H0 : p = 1 4 , frente a una hipótesis

alternativa compuesta: H1 : p ≠ 1 4 .
䊏 Si se quiere contrastar si en esa población la proporción de raza pura rece-

siva es menor que 0,25, se enuncia:
䊏 Y si se sospecha que podría ser mayor, para confirmarlo se propone:
En estos dos últimos casos la hipótesis alternativa, que también es compuesta,

es la negación en sentido amplio de la hipótesis nula.
Para la media de una población se pueden proponer como pruebas:
en el primer caso, como en el ejemplo de la proporción de individuos de genotipo

aa, se dice que se formula un contraste bilateral y en los otros dos se proponen
contrastes unilaterales.
3. Se supone cierta la hipótesis H0 y se determina el estadístico apropiado

para el contraste, que es una variable aleatoria en el muestreo cuya distribución se
conoce si H0 es cierta.
H : p = 1 4
Para el contraste  0 se toma como estadístico la proporción mues-
 H1 : p ≠ 1 4
1 1
p0 − p0 −
tral p0, o mejor 4 = 4 , pues si se cumplen las condiciones de norma-
1 3 3
⋅
4 4 4 n
n
1 3
lidad, en el supuesto que la hipótesis H0 sea cierta, es decir, si n ≥ 5 y n ≥ 5,
1 4 4
p0 −
el estadístico 4 sigue aproximadamente una N(0,1).
3
4 n
Para los ensayos referentes a la media de una población, como el estadístico

– X − µ0
apropiado para estimar µ es X, se utiliza el estadístico Z = , si se conoce el
σ
n
valor del parámetro σ, pues en el caso en que H0 sea cierta:
4. Se fija un valor para α, que es el nivel de significación del contraste y se

determina la región de aceptación de la hipótesis nula, o bien su complementario
en la recta real, que se denomina la región crítica del contraste.
La región de aceptación de la hipótesis H0 es un intervalo con probabilidad (1 – α)
para el estadístico de contraste, construido aceptando como cierta la hipótesis
nula. En consecuencia, la región crítica estará formada por su complementario en
la recta real, conjunto con probabilidad α formado por los valores del estadístico
menos probables en el supuesto que H0 sea cierta.
H : p = 1 4
Así, para el contraste bilateral  0 , si se cumplen las condiciones de
 H1 : p ≠ 1 4
1
p0 −
normalidad, como el estadístico 4 sigue aproximadamente una N(0,1), la re-
3
4 n
gión de aceptación de la hipótesis nula al nivel α es:
Y en consecuencia la región crítica para esta prueba es:
es decir, está formada por los valores del estadístico que son menores o iguales
que –zα/2 o bien mayores o iguales a zα/2.
H : µ = µ0
Del mismo modo, para el contraste de hipótesis bilateral:  0 la re-
 H1 : µ ≠ µ 0
X − µ0
gión de aceptación al nivel α para el estadístico, Z = es:
σ
n
H0; µ = µ0 X – µ0
Z = ——— ~ N(0,1) si H0 es cierta
H1; µ ≠ µ0 σ/√n
α/2 α/2
–zα/2 0 RAα zα/2
( )
y por tanto, la región crítica es RCα = − `, − zα 2  ∪  zα 2 , + ` , que está formada
por los valores del estadístico menos probables en el caso en que la hipótesis nula
sea cierta.
H0; µ = µ0 X – µ0
H1; µ ≠ µ0 σ/√n
α/2 1–α α/2
RCα –zα/2 0 zα/2 RCα
Para los contrastes unilaterales de la media de una población con varianza co-
nocida, las regiones de aceptación de la hipótesis nula y las regiones críticas se re-
presentan a continuación:
H : µ = µ0
Para la prueba  0 la región crítica es la semirrecta [ zα , + ` ) .
 H1 : µ > µ 0
H0; µ = µ0 X – µ0
H1; µ > µ0 σ/√n
RAα 0 zα RCα
Y para el contraste  H0 : µ = µ0 la región crítica es la semirrecta ( − `, − zα ].

 H1 : µ < µ0
H0; µ = µ0 X – µ0
H1; µ < µ0 σ/√n
RCα –zα 0 RAα

Si lo que se trata de contrastar es el valor de la varianza de una población, te-

niendo en cuenta que si X , N ( µ, σ ) ⇒
( n − 1) s 2 , χ 2 , en el caso del contraste
n−1
bilateral: σ2
la región crítica para el estadístico

( n − 1) s 2 está formada por los valores de
σ2
   )
éste que pertenecen a  0, χ(21−α 2 );n−1  ∪  χα2 2;n −1 , + ` , como se observa en la gráfica
siguiente:
H0; σ2 = σ02
H1; σ2 ≠ σ02 (n – 1)s2
———— ~ χ2n–1si H0 es cierta
σ02
α/2
1–α
RCα α/2
0
χ2(1– —);n–1
α χ2α RCα
2 —;n–1
2
5. Se toma el siguiente criterio de decisión: si el valor del estadístico en la

muestra cae en la región de aceptación al nivel α, no se rechaza la hipótesis
nula, H0, a ese nivel y si cae fuera de la región de aceptación al nivel α no se
acepta (se rechaza) la hipótesis nula, admitiendo la hipótesis alternativa H1.
6. Se escoge al azar una muestra de tamaño n en la población y se calcula el
valor del estadístico para esa muestra.
7. Se aplica la regla de decisión anterior y se interpretan los resultados.
Es importante observar que los contrastes de hipótesis, una de las más im-
portantes aplicaciones de la inducción estadística a las ciencias experimentales, a
la técnica, a la economía, a la industria, etc., no proporcionan conclusiones cate-
góricas sobre la certeza o falsedad de la hipótesis H0 formulada, pero sí permiten
tomar decisiones decidiendo el riesgo que se está dispuesto a consentir; esto es,
tomar decisiones con probabilidad alta de acertar.
La regla de decisión asumida, si se repite el procedimiento para un gran nú-
mero de muestras, proporcionaría un porcentaje de aciertos de 100 (1 – α)%,
como en los intervalos de confianza.
Para aceptar o no una hipótesis se contrasta con los datos obtenidos en una muestra
elegida al azar en la población. Si el valor del estadístico en la muestra es uno de los
más probables, en el supuesto que H0 sea cierta se mantiene como válida la hipótesis
nula, pero si el valor del estadístico en la muestra es poco probable se admite la hipó-
tesis alternativa. Esto no significa que H0 sea falsa, pues sólo se podría asegurar que no
es cierta examinando todos los elementos de la población y esto es inviable en general.
11.3. LA NOCIÓN DE RIESGO. ERRORES
En toda decisión sujeta a incertidumbre se pueden cometer errores. Así, en un

juicio el inculpado puede ser inocente o culpable. Esta información no la conoce
el juez y debe tomar una decisión. Parte del supuesto de que «toda persona es ino-
cente, mientras no se demuestre lo contrario», es decir, plantea la hipótesis:
H0: «El acusado es inocente»
frente a la alternativa:
H1: «El acusado es culpable»
Si las pruebas aportadas al juez no son suficientes para probar la no inocencia

del acusado, el veredicto será inocente, se acepta H0, y si las pruebas le inculpan
el veredicto será culpable, esto es, se supone cierta la hipótesis H1.
Para cada inculpado acaba el juicio sólo en una de las siguientes situaciones:
Sujeto
Inocente Culpable
Le declara inocente No hay error Error de tipo II

Decisión del Juez
Le declara culpable Error de tipo I No hay error
Se comete error de tipo I si el inculpado es inocente y el veredicto es culpable

y error de tipo II si, siendo culpable, se le declara inocente, pero un individuo no
es inocente y culpable a la vez de una misma acusación.
Para no declarar culpable a un inocente, interesa que la probabilidad de co-
meter el error de tipo I sea pequeña. Y para que a una persona culpable no se le
declare inocente, debería ser pequeña la probabilidad del error de tipo II. En el
caso del juez no hay procedimiento para controlar a priori estos errores.
En los contrastes paramétricos, al plantear la hipótesis nula H0, se ignora si es
cierta o no. El contraste proporciona una regla de decisión que está basada en los
valores del estadístico en las muestras.
La conclusión puede ser errónea por:
II. Rechazar la hipótesis H0, siendo ésta cierta.

II. Aceptar la hipótesis H0, siendo falsa.
Hipótesis
H0 cierta H0 falsa
Aceptar H0 Decisión correcta Error de tipo II

Decisión
Rechazar H0 Error de tipo I Decisión correcta
A diferencia de la situación en los juicios, en los contrastes de hipótesis esta-

dísticos se puede controlar la probabilidad de cometer error.
El error de tipo I resulta del hecho de que la variable aleatoria en el muestreo
puede no pertenecer a la región de aceptación, aunque H0 sea cierta.
H : µ = µ0
Así, en el contraste  0 la región de aceptación del estadístico
H
 1 : µ ≠ µ 0
Z=
X − µ0
σ (
, es: Ä RAα = − zα , zα .
2 2
)
n
La probabilidad de cometer el error de tipo I es la probabilidad de que el es-
tadístico pertenezca a la región crítica, conjunto de valores del estadístico con pro-
babilidad α, en el supuesto que la hipótesis H0 sea cierta.
la probabilidad del error de tipo I es, por tanto, el nivel de significación de la prueba.
El error de tipo II se origina porque la variable aleatoria en el muestreo, en
X − µ0
este caso Z = , puede pertenecer a la región de aceptación siendo falsa H0.
σ
n
Se indica por β la probabilidad de cometer el error de tipo II.
 H : µ = µ0
En la siguiente gráfica se representan, para el contraste  0 , la pro-
H
 1 : µ ≠ µ 0
babilidad del error de tipo I y para una hipótesis alternativa también el de tipo II.
X – µ0
Distribución de Z = ——— si H0 es cierta
σ/√n
H0; µ = µ0
H1; µ ≠ µ0 X – µ0
Distribución de ——— si H1 es cierta
σ/√n
α/2 β α/2
0
RCα –zα/2 RAα zα/2 RCα
La probabilidad de rechazar la hipótesis H0, cuando es falsa, se denomina po-

tencia del contraste. Por tanto,
β = 1 – potencia de la prueba
por esto también se dice que β es la insuficiencia de la potencia del contraste.
La potencia del contraste sólo se puede calcular para una hipótesis alternativa
concreta. Entre dos contrastes con la misma hipótesis se elige siempre el que ten-
ga mayor potencia.
Antagonismo de los dos tipos de riesgo

Obsérvese que los dos tipos de error están relacionados. Al disminuir la pro-
babilidad de cometer el error de tipo I, es decir α, la amplitud de la región de acep-
tación es mayor y por tanto aumenta el valor de β, probabilidad del error de tipo II,
como se observa en la siguiente gráfica:
X–µ
Distribución de Z = ———0 ~ N(0,1) si H0 es cierta
σ/√n
H0; µ = µ0
H1; µ ≠ µ0 X – µ0
Distribución de ——— para H1 cierta
σ/√n
α/2 β α/2
RCα –zα/2 RAα 0 zα/2 RCα
α/2 β α/2
RCα –zα/2 RAα 0 zα/2 RCα

Para un valor fijo de α se puede disminuir el riesgo de cometer el error de tipo II,
es decir, disminuir β, aumentando el tamaño de la muestra.
Distribución Distribución
X – µ0 X – µ0
de Z = ——— de Z = ———
σ/√n σ/√n
si H0 es cierta si H1 es cierta
α/2 β α/2
RCα –zα/2 RAα0 zα/2 RCα
Al tomar una decisión en un problema concreto para una hipótesis nula de-
terminada, no se cometen a la vez los dos tipos de error. Si la hipótesis nula es
verdadera, sólo se puede cometer el error de tipo I, y si la hipótesis H0 es falsa,
sólo es posible incurrir en el error de tipo II.
Los valores más usados para α son:
α = 0,10, α = 0,05, α = 0,01, α = 0,001
H : µ = µ0 X µ
En el ejemplo  0 la región de aceptación del estadístico Z = − 0 ,
σ
 H1 : µ ≠ µ0
n
(
es: RAα = − zα , zα
2 2
) y las regiones críticas correspondientes a los valores de α
más habituales son:
como se puede observar, al disminuir el valor de α se reducen las regiones críticas.

Si se rechaza la hipótesis nula H0, al nivel α, se dice que el valor del estadís-
tico obtenido a partir de la muestra en el caso en que la hipótesis H0 formulada sea
cierta es:
No significativo para α = 0,10
Casi significativo para α = 0,05
Significativo para α = 0,01
Muy significativo para α = 0,001
EJEMPLO 11.2.
En el caso en que se quiera contrastar  H0 : µ = 15 sabiendo que la desviación

 H1 : µ ≠ 15
X − 15
típica de la población es σ = 2, se utiliza el estadístico de contraste Z = que
2
n
se distribuye según una N(0,1) en el supuesto de que H0 sea cierta. Para una muestra
X − 15
de tamaño n = 36 se acepta H0 : µ = 15 si
2 (
∈ − zα 2 , zα 2 ) . Así, para α = 0,05
36
X − 15
se acepta H0 si ∈ (−1,96, 1,96). Calcular β para α = 0,05 en cada uno de los
1
3
siguientes casos:
a) n = 36 y µ = 20; b) n = 36 y µ = 18; c) n = 400 y µ = 20; d) n = 400 y µ = 18.
Para una hipótesis alternativa particular, es decir, para un valor de µ ⫽ 15 se

puede calcular β.
a) n = 36 y µ = 20.
por tanto,
b) Análogamente, si n = 36 y µ = 18.
c) n = 400 y µ = 20.
d) n = 400 y µ = 18.
Se observa:
1. El valor de β depende de la distancia entre el valor teórico 15 y el verda-

dero valor de µ. Para el mismo valor de α = 0,05.
Si el tamaño muestral n = 36 se obtiene:
Si n = 400 es
El valor de β es tanto menor cuanto mayor es la distancia entre el verdadero

valor de µ y el que se ha tomado como hipótesis de contraste H0 : µ = 15. Esto sig-
nifica que cuanto mayor es | µ – 15 | mayor es la potencia del contraste, que es 1–β.
2. El tamaño de la muestra también influye en el valor de β. Cuanto mayor es
el tamaño de la muestra menor es el valor de β para un valor de α fijo y para la
misma hipótesis alternativa. Esto es consecuencia de que la varianza de la va-

–
riable aleatoria X en el muestreo es inversamente proporcional al tamaño de la
σ2
muestra, pues σ X2 = .
n
En las aplicaciones de la estadística a la industria α = P (Error de tipo I) se deno-
mina el riesgo del productor, ya que el error de tipo I consiste en rechazar la hipótesis
nula, siendo ésta cierta. Mientras que β = P (Error de tipo II) recibe el nombre de ries-
go del consumidor, pues consiste en aceptar la hipótesis nula, siendo falsa.
EJEMPLO 11.3.
El límite máximo de colesterol total en sangre varía entre 200 mg/100 ml de
sangre y 250 mg/100 ml. A partir de esta cantidad se considera hipercolesterolemia.
Con el fin de contrastar la eficacia de un nuevo fármaco para reducir el nivel de
colesterol en sangre, se han tomado muestras de sangre de 10 personas con hiper-
colesterolemia, obteniéndose: x$1 = 260 mg/100 ml, s1 = 8,47 mg/100 ml. Se les so-
mete al nuevo tratamiento durante seis meses y se controla de nuevo el nivel de co-
lesterol en sangre. Los resultados obtenidos fueron: x$2 = 255,8 mg/100 ml, s2 =
14,32 mg/100 ml.
Se pretende poner de manifiesto que este tratamiento reduce la presencia de co-
lesterol en sangre. ¿Cuántos pacientes deberían seguir el tratamiento para poder ase-
gurar que la diferencia de 4,2 mg/100 ml se manifieste en el 95% de los casos a un
nivel de significación α = 0,01, suponiendo que la varianza de la diferencia sea de
36 mg/100 ml?
Designando por D = X1 − X2 ⇒ D = X1 − X2 se sabe que σ D2 = 36 mg/100 ml,

se conjetura que D = X1 − X 2 > 0.
Las hipótesis del contraste son:  H0 : D = 0

 H1 : D > 0
En el supuesto de que la hipótesis nula sea cierta el estadístico del contraste
d −0 d − 4, 2
Z= , N ( 0, 1) y, si fuera cierta la hipótesis alternativa, Z = , N (0, 1).
σD σD
n n
d −0
Suponiendo que sea cierta la hipótesis H0 será Z = , N (0, 1) y para
6
n
α = 0,01, que significa que P (rechazar H0/H0 es cierta) = 0,01, la región crí-
)
tica del contraste es: RCα =0 ,01 =  zα =0 ,01 , + ` = [ 2, 33, + ` ) . En consecuencia, la
)
región de aceptación del contraste es: RAα =0 ,01 = ( − `, zα =0 ,01 = ( − `, 2, 33) .
d d
Z = ——— ~N(0,1) ——— ~N(4,2, 1)
σD/√n σD/√n
si H0 es cierta si H1 es cierta
α = 0,01
β
RAα = 0,01 = (–∞, 2,33) 0 zα = 0,01 = 2,33 4,2 RCα = 0,01 = [2,33, +∞)
Se pretende calcular el valor de n para que la potencia del contraste sea 0,95,
( )
por tanto 1 − β = 0, 95 ⇒ β = 0, 05 ⇒ P aceptar H0 H0 es falsa = 0, 05. Para poder
calcular β se necesita una hipótesis alternativa. Suponiendo que la diferencia es de
4,2 mg/100 ml, entonces será cierta la hipótesis alternativa H1 : D > 0 y por tanto
H0 es falsa y para esta diferencia
Tipificando
Por tanto, n ≥ 33 asegura que la diferencia 4,2 se detectará en el 95% de los

casos con un nivel de significación α = 0,01.
Aumentando el tamaño de la muestra disminuye el error de tipo II para un va-
lor fijo del error de tipo I.
11.4. EL P-VALOR
Los programas estadísticos para ordenador en lugar de dar la región de acepta-

ción del contraste para un valor de α y observar si el valor del estadístico cae en esa
región o en la región crítica, dan la conclusión de la prueba basándose en el P-valor.
El P-valor es un número comprendido entre 0 y 1, por ser una probabilidad,
que mide el grado en que los datos observados confirman la hipótesis nula. Es una
probabilidad asociada al valor que toma el estadístico de contraste para los datos
de la muestra, como se explicará a continuación. Cuanto menor sea el P-valor es
menos probable que los datos observados se ajusten a la hipótesis nula formulada.
1. Si el contraste es bilateral:
Al contrastar la hipótesis H0 : µ = µ 0 frente a la alternativa H1 : µ ≠ µ0 , si H0
X − µ0
es cierta, el estadístico Z = , N (0,1).
σ
n
Para este contraste la región crítica es una región bilateral formada por la
unión de dos semirrectas, lo que significa que los valores del estadístico muy ale-
jados de µ0, tanto a la derecha como a la izquierda, son los menos probables si es
cierta la hipótesis nula.
En este caso si el valor del estadístico para la muestra elegida es:
el P-valor correspondiente es:
Gráficamente:
P – valor = P(|Z| ≥ |zmuestra|) =

=P(Z > zmuestra) + P(Z < –zmuestra)
H0; µ = µ0 X – µ0
H1; µ ≠ µ0 σ/√n
1 – valor)
—(P 1 – valor)
—(P
2 2
α/2 1–α α/2
–zα/2 0 RAα zmuestra zα/2

Para el valor de α considerado es

( P-valor ) α
> ⇔ P-valor > α y, por tanto, se
2 2
acepta la hipótesis H0 : µ = µ0 al nivel α.
Se habría llegado a la misma conclusión observando que el valor del estadístico en
X muestra − µ 0
la muestra Z muestra = no cae en la región crítica para el valor fijado de α,
σ
n
( )
que es RCα =0 ,05 = − `, − zα  ∪  zα , + ` , como se observa en la gráfica anterior.
2
  2
2. Si el contraste es unilateral:
H : µ = µ0
2.1. Si se realiza el siguiente contraste unilateral  0 los valores
 H1 : µ > µ0
muy grandes del estadístico dan indicio en contra de la hipótesis nula y a favor de
la alternativa y no así los restantes valores posibles, incluidos los muy pequeños.
Por tanto el P-valor es:
H0; µ = µ0
X – µ0
H1; µ > µ0 Z = ——— ~ N(0,1) si H0 es cierta
σ/√n
1–α P – valor = P(Z > zmuestra)
α
RAα zα zmuestra RCα
H : µ = µ0
2.2. Si se realiza el contraste unilateral contrario  0 los valores
 H1 : µ < µ0
muy pequeños del estadístico conducen a aceptar la hipótesis alternativa pero no
los demás valores posibles, incluidos los muy grandes. En este caso el P-valor es:
H0; µ = µ0 X – µ0
H1; µ < µ0 σ/√n
α 1–α
z
–zα muestra RAα
P – valor = P(Z < zmuestra)
En general, se puede definir el P-valor como el nivel de significación corres-

pondiente al valor obtenido del estadístico de la prueba para los datos observados.
El P-valor es el nivel de significación del contraste para el que los datos ob-
servados dan un valor del estadístico de contraste que es extremo de la región crí-
tica, es decir, el valor de α para el que la región crítica tenga en la frontera el va-
lor del estadístico Zmuestra, obtenido con los datos observados. Esto es, el menor va-
lor de α que haría que con los datos observados se rechazase la hipótesis nula. Por
esto se llama también el nivel crítico de la prueba.
El P-valor es menor cuanto mayor es la diferencia entre la hipótesis admitida
y el valor obtenido de la muestra. Por tanto, cuanto menor es el P-valor mayor es
la sospecha de que la hipótesis H0 es falsa.
Para valores muy pequeños del P-valor, es decir, si P-valor < 0,001 se recha-
za la hipótesis nula, H0, por considerar que hay una diferencia muy significativa
entre el valor observado y el esperado de ser cierta H0.
11.5. PRUEBA DE CONFORMIDAD CON UNA PROPORCIÓN

TEÓRICA (BINOMIAL)
La proporción poblacional p de elementos que pertenecen a la clase A en

una población se estima por la proporción muestral p̂, cuya distribución en el
muestreo, siempre que el tamaño de la muestra sea grande, es aproximadamente
 pq 
N  p, . En la práctica se acepta siempre que np ≥ 5 y nq ≥ 5.
 n 
Si se desconoce el valor de la proporción poblacional, se verá a continuación
cómo se puede contrastar su valor utilizando los resultados del muestreo.
11.5.1. Prueba bilateral para p

Para contrastar si la proporción p es un valor teórico p0, se plantean las hi-
H : p = p0
pótesis:  0
 H1 : p ≠ p0
En el supuesto de que la hipótesis H0 sea cierta, siempre que se verifiquen las
condiciones de normalidad np0 ≥ 5 y nq0 ≥ 5, la distribución en el muestreo de p̂ es:
pˆ − p0
Se elige como estadístico de contraste Z =
p0 q0
n
Fijado α se determina la región de aceptación de la hipótesis H0, que es un in-
tervalo de probabilidad para el estadístico de contraste con probabilidad 1-α.
pˆ − p0
Para el estadístico Z =
p 0 q0
(
Ä es Ä RAα = − zα 2 , zα 2 )
n
Esto significa que fijado α se acepta H0 si:
O, dicho de otra forma, fijado α se acepta la hipótesis alternativa siempre que

pˆ − p0
Z=
p0 q0
(
pertenezca a la región crítica RCα = − `, − zα 2  ∪  zα 2 , + ` )
n
EJEMPLO 11.4.
De 9.390 alumnos matriculados en la universidad se sabe que 4.875 son muje-
res, ¿se puede aceptar que la proporción de varones y mujeres es la misma? Dar la
respuesta para α = 0,05. ¿Cuál es el P-valor para este contraste?
H : p = 1 2
Las hipótesis a contrastar son:  0 y como claramente se cum-
 H1 : p ≠ 1 2
1
plen las condiciones de normalidad pues 9.390 = 4.695 ≥ 5, el estadístico
2
1
pˆ −
Z= 2 , N ( 0, 1) . La región de aceptación del contraste para α = 0,05 es:
12
9390
RAα =0 ,05 = ( −1,96, 1,96 ) .
4.875
Como pˆ = = 0, 5192, el valor del estadístico de contraste para la muestra
9.390
0, 5192 − 0, 5
proporcionada es z = = 3, 72 ∉ RAα =0 ,05 y en consecuencia se rechaza la
0, 5
9.390
hipótesis nula para α = 0,05. Es decir, no se acepta la igualdad de la proporción de
matriculados para ambos sexos.
Para determinar el P-valor del contraste se sabe que:
por tanto, el P-valor = 0,0002. Esto significa que se sigue rechazando la hipótesis
nula formulada para α = 0,01 y α = 0,001. La disconformidad entre la hipótesis H0
y los datos observados es muy significativa.
11.5.2. Pruebas unilaterales para p

Si lo que interesa contrastar es si la proporción es mayor o menor que un va-
lor teórico dado, se plantean los contrastes unilaterales.
Para contrastar si los datos confirman la hipótesis de que la proporción es
 H : p = p0
mayor que el valor teórico dado se plantean las hipótesis:  0 se utiliza
 H1 : p > p 0
el mismo estadístico que en el contraste anterior y bajo los supuestos allí indicados
la región de aceptación de la hipótesis nula para este contraste unilateral será:
en consecuencia, se decide aceptar la hipótesis alternativa para los valores de la

semirrecta, de probabilidad α , RCα = [ zα , + ` ) que son los valores más grandes del
estadístico y poco probables en el supuesto de que sea cierta la hipótesis nula.
Análogamente, si se pretende confirmar o no la hipótesis de que la propor-
H : p = p0
ción es menor que el valor teórico dado, se plantean las hipótesis:  0 y
 H1 : p < p0
se aceptará la hipótesis alternativa, fijado α, si el valor del estadístico pertenece a
la región crítica para el supuesto de que sea cierta la hipótesis nula, que en este
caso es: RCα = ( − `, − zα ].
EJEMPLO 11.5.
Se quiere probar si un tratamiento con polvo cicatrizante de colágeno de origen
bovino es más eficaz que un tratamiento convencional para la cicatrización de úlceras
de decúbito que era efectivo en el 65% de los casos. Para ello se han tratado 60 per-
sonas con úlceras crónicas, elegidas al azar, con el tratamiento con colágeno que ha
dado resultado positivo en 48 pacientes. Realizar el contraste para α = 0,05.
H : p = 0, 65
En este caso se trata de contrastar  0
 H1 : p > 0, 65
Como np0 > nq0 = 60 (0, 35) = 21 ≥ 5, se cumplen las condiciones de normali-
dad en el supuesto de que la hipótesis nula sea cierta. Por tanto, el estadístico
y la región crítica para α = 0,05 es: RCα =0,05 = [1, 645, + ` ) .

Se calcula el valor del estadístico para la muestra seleccionada
y como este valor cae en la región crítica para α = 0,05, se rechaza la hipótesis
nula para α = 0,05.
Esto significa que, con los datos de esta muestra, hay razones para afirmar que
el tratamiento con colágeno de origen bovino es más eficaz que el tradicional para
la curación de ese tipo de lesiones en la piel.
EJEMPLO 11.6.
En una población de individuos con intolerancia a la leche de vaca, un alimen-
to, en cuya preparación se utiliza este tipo de leche, provoca una reacción alérgica
en el 20% de los que lo toman. Se experimenta con un nuevo producto sin lactosa
que se espera sea mejor tolerado. Para ello se elige una muestra aleatoria de cien
personas de los que padecen dicha intolerancia y se les da a comer el nuevo ali-
mento.
a) Escribir las hipótesis nula y alternativa y construir la región crítica para α = 5%.
b) ¿Cuál es la distribución en el muestreo de p̂ bajo la hipótesis H0? ¿Y bajo la
hipótesis H1?
c) ¿Qué conclusión se puede sacar si de una muestra de cien personas que to-
maron el producto sin lactosa 12 también sufrieron una reacción alérgica?
a) Si se designa por p la proporción de personas que no toleran el nuevo ali-

mento, las hipótesis de contraste son  H0 : p = 0, 20 y la región crítica para α = 0,05
es RCα =0 ,05 = ( − `, −1,645] .  H1 : p < 0, 20
 0, 2 ⋅ 0, 8  pˆ − 0, 2
b) Si H0 es cierta pˆ , N  0, 2,  ⇔Z= , N ( 0,1) .
 100  0, 04
 p⋅q 
Si H1 es cierta pˆ , N  p, .
 100 
c) Si p̂ = 0,12, entonces z = −2 ∈ RCα =0,05 . Por tanto se rechaza la hipótesis
nula a este nivel. Esto significa que se puede admitir para α = 0,05 que el nuevo
alimento es mejor tolerado.
11.6. PRUEBA DE CONFORMIDAD CON UNA MEDIA

TEÓRICA
Se trata ahora de realizar contrastes sobre el valor desconocido de la media de

–
una variable aleatoria X , N ( µ, σ ) que se estima por el estadístico X. La variable
aleatoria X debe estar medida en escala de intervalo, por ejemplo: longitud en me-
–
tros, peso en kg, etc. Como la distribución en el muestreo del estadístico X de-
pende de que se conozca o no el valor de la varianza poblacional σ2 se conside-
rarán los dos casos:
 σ 
Si se conoce el valor de σ2, la distribución de X es N  µ , y, por tanto,
 n 
Mientras que si no se conoce el valor de σ2 y se estima por la cuasivarianza

X−µ
muestral s2, como ya se explicó anteriormente, el estadístico , tn−1 .
s
n
11.6.1. Pruebas bilaterales para µ
Para contrastar si el valor desconocido de µ se puede aceptar que coincide con
un valor teórico µ0 se formulan las hipótesis:
• Si se conoce el valor de la varianza poblacional σ 2

Se supone que es cierta la hipótesis nula H0 : µ = µ0 y en este supuesto la dis-
tribución del estadístico de contraste es:
X − µ0
Por tanto para el estadístico Z = la región de aceptación de la hipótesis
σ
n
( )
nula, fijado α, es RAα = − zα 2 , zα 2 .
O dicho de otra forma, fijado el valor de α, si
se rechaza la hipótesis nula y se acepta la alternativa.
Observación. Si no se tiene conocimiento de la distribución que sigue la

v.a. X, o ésta no sigue una distribución N(µ, σ), siempre que el tamaño de la mues-
–
tra sea grande, n ≥ 30, se sabe que la distribución de X es aproximadamente
 σ 
N  µ, y por ello también se puede aplicar este contraste.
 n 
• Si se desconoce el valor de σ 2
Siempre que X , N ( µ, σ ) , si es cierta la hipótesis nula H0 : µ = µ0 la distri-
bución del estadístico
En este caso se acepta la hipótesis H0, fijado el valor de α, si
Y se acepta la alternativa para ese valor de α si
Observación. Si el tamaño de la muestra es grande, n ≥ 30, la región crítica

   
RCα =  − `, −t α  ∪ t α , + ` difiere poco de la correspondiente a la N(0,1),
;n −1 
 2   2 ;n−1 
pero la diferencia es considerable para tamaños muestrales pequeños.
11.6.2. Pruebas unilaterales para µ

Si lo que se trata de contrastar es si la media poblacional es mayor o menor
que un valor teórico, se plantean las pruebas unilaterales.
Para contrastar si se puede aceptar que la media poblacional es mayor que un
valor teórico µ0, se plantean las hipótesis:
• Si se conoce el valor de la varianza poblacional σ 2

Si es cierta la hipótesis nula H0 : µ = µ 0 la distribución del estadístico
y en consecuencia la región crítica, fijado el valor de α, o región de rechazo de la

hipótesis nula, es:
• Si σ 2 es desconocida
X − µo
Por ser la distribución del estadístico T = , en el supuesto que la hi-
s
n
pótesis nula H0 : µ = µ0 sea cierta y que X , N ( µ , σ ) , una tn–1 se rechazará la hi-
pótesis nula, fijado α, si el valor del estadístico pertenece a la región crítica:
Análogamente, para contrastar si se puede aceptar que la media poblacional

es menor que un valor teórico µ0,
X − µ0
• Si se conoce σ 2 utilizando el estadístico Z = la región crítica para
σ
un valor fijado α será:
n
X − µo
• Si no se conoce σ 2 se utiliza T = . En este caso la región crítica para
el valor de α dado es: s
n
EJEMPLO 11.7.
Un fabricante de monitores para ordenador asegura que la vida media de sus
monitores es de 3.000 horas, con desviación típica de 48,6. Aceptando como válido
el valor de la desviación típica, se quiere contrastar si la vida media es de 3.000 ho-
ras o menor. Se controla la duración de 45 monitores elegidos al azar de su pro-
ducción y se obtiene una vida media de 2.960 horas. A la vista de estos resultados
¿qué se puede concluir?
Se plantean las hipótesis:
X − 3.000
El estadístico Z = , N (0,1) en el supuesto que H0 sea cierta. Por
48, 6
45
tanto, la región crítica para α = 0,05 es RCα =0,05 = ( − `, −1, 645] .
Para la muestra observada el valor del estadístico es:
Por tanto, se rechaza la hipótesis nula para α = 0,05.

Pero el valor del estadístico es muy bajo y también pertenece a la región crí-
tica para α = 0,01 que es RCα =0 ,01 = ( − `, −2, 33] e incluso a la región crítica
para α = 0,001, es decir, a RCα =0 ,001 = ( − `, −3, 09 ]. Esto significa que la diferen-
cia observada es muy significativa, por lo que se acepta la hipótesis alternativa
para α = 0,001. Con los datos obtenidos no se acepta que la vida media de la pro-
ducción sea de 3.000 horas.
11.7. PRUEBA DE CONFORMIDAD CON UNA VARIANZA

TEÓRICA
Hay ocasiones en las que interesa más contrastar la variabilidad de los

elementos en la población que realizar una prueba sobre la media poblacio-
nal. Si se desconoce la varianza de una variable aleatoria medida en escala
de intervalo y que sigue una distribución N(µ, σ), recordando que el esta-
dístico
2
se distribuye según una χ n−1 , se pueden realizar pruebas para confirmar o rechazar
hipótesis sobre la varianza σ2. Si se trata de contrastar un valor se realiza un con-
traste bilateral, y si lo que se pretende es saber si se puede aceptar que la varian-
za es mayor o menor que una cantidad, se efectúa una prueba unilateral.
11.7.1. Prueba bilateral para σ 2

Para contrastar si se puede aceptar que el valor de σ 2 es σ 02 se plantean las hi-
2 2

pótesis:  H0 : σ = σ 0
2 2
 H1 : σ ≠ σ 0
n − 1) s 2
Si la hipótesis H0 es cierta, el estadístico ( 2 , χ n2−1 y por tanto se re-
σ0
chazará la hipótesis nula para el valor de α fijado si el valor del estadístico per-
tenece a la región crítica:
que aparece representada en la siguiente gráfica
(n – 1)s2
———— ~ χ2n–1
σ02
α/2
1–α
RCα α/2
0
χ2(1– —);n–1
α χ2—;n–1
α RCα
2 2
En consecuencia, se acepta H0 si
pues esto significa que s2 no es muy grande ni muy pequeño en comparación con σ 02.
11.7.2. Pruebas unilaterales para σ 2

Para contrastar si se puede aceptar que la varianza poblacional es mayor que
un valor teórico σ 20, se plantean las hipótesis:
Se utiliza el estadístico χ 2 =
( n − 1) s 2 que en el supuesto que sea cierta la hi-
σ 02
2
pótesis nula sigue una distribución χ n−1 y rechazaremos la hipótesis H0 si s2 es muy
2
grande en comparación con σ 0 , es decir, la región crítica fijado el valor de α será:
(n – 1)s2
———— ~ χ2n–1
σ02
α
0
χ2α;n–1 RCα
Análogamente, para contrastar si se puede aceptar que la varianza poblacio-

nal es menor que un valor teórico σ 20, se plantean las hipótesis:
y utilizando el mismo estadístico χ 2 =

( n − 1) s 2
se acepta la hipótesis alternativa
σ 02
H1 si el valor de s2 es muy pequeño frente a σ 02. Por tanto, se rechaza la hipótesis
nula si ese estadístico pertenece a la región crítica, fijado el valor de α, que para
esta prueba es: RCα =  0, χ(21−α );n−1  , representada en la siguiente gráfica
 
(n – 1)s2
———— ~ χ2n–1
σ02
α
RCα
0
χ2(1– α);n–1
EJEMPLO 11.8.
El peso indicado en las latas de jamón cocido de una marca determinada es de
500 g, pero todas las latas no tienen el mismo peso. Para la exportación es admisible
como máximo una varianza de 25 g2. Para inspeccionar un pedido se eligen 30 latas
al azar y al pesarlas se obtiene varianza de los pesos de 42 g2. ¿Se puede aceptar el
pedido para la exportación tomando α = 0,05?
 H : σ 2 = 25
Se trata de contrastar  0
2
 H1 : σ > 25
Suponemos que la distribución de los pesos de las latas es normal. Si la hi-
29 s 2
pótesis H0 es cierta el estadístico χ 2 = , χ 29
2
y por tanto, la región crítica
será: 25
El valor del estadístico para los datos de la muestra elegida al azar es:
Con los datos de la muestra, hay razones para suponer que la varianza es ma-
yor que la admitida para la exportación y por tanto, se rechazará el pedido.
11.8. PRUEBA DE COMPARACIÓN DE DOS PROPORCIONES
Se trata ahora de contrastar si se puede aceptar si son iguales los parámetros

p1 y p2 de dos distribuciones binomiales independientes.
Se sabe que si en dos poblaciones independientes se definen las variables alea-
torias Xi, número de individuos de la clase A en la población i, i = 1, 2, en el mues-
treo con reemplazamiento, éstas siguen distribuciones binomiales B ( ni , pi ) , i = 1, 2.
Si se desconoce el valor de los parámetros p1 y p2, se elige en cada población
X
una muestra de tamaño ni y se estiman los parámetros por pˆ í = i , i = 1, 2, que
ni
son estimadores insesgados y de máxima verosimilitud.
Se puede afirmar que, si se cumplen las condiciones de normalidad ni pi ≥ 5 y
 pq 
ni qi ≥ 5, el estadístico p̂i sigue aproximadamente una N  pi , i i  para i = 1, 2 y
 ni 
como también se explicó anteriormente, el estadístico pˆ 1 − pˆ 2 sigue también
 pq pq 
aproximadamente la distribución N  p1 − p2 , 1 1 + 2 2  y por tanto,
 n1 n2 
11.8.1. Contraste bilateral

Para contrastar si son iguales las proporciones p1 y p2 de elementos que son de
la clase A en cada una de las poblaciones, se plantean las hipótesis
Xi
Si pˆ í =, i = 1, 2 son las proporciones observadas en muestras independientes
ni
de tamaños n1 y n2 grandes, para asegurar que se verifican las condiciones de nor-
malidad, el estadístico
en el supuesto que H0 sea cierta.

Al desconocer los valores de los parámetros p1 y p2, se estiman los productos

pq pˆ qˆ
p1q1 y p2 q2 respectivamente por pˆ 1qˆ1 y pˆ 2 qˆ 2 , pues i i difiere poco de i i para
ni ni
i = 1, 2, sobre todo para valores grandes de ni.
Así se puede utilizar como estadístico de contraste, en el supuesto que H0 sea

cierta
y se aceptará H0 al nivel α si el valor de este estadístico pertenece al intervalo
rechazándola a ese nivel en caso contrario, es decir, si el valor del estadístico cae
en la región crítica a ese nivel
EJEMPLO 11.9.
En un estudio sobre las causas de la cirrosis hepática, se eligen al azar 200 per-
sonas que no padecen la enfermedad y se comprueba que de ellas 40 no toman be-
bidas alcohólicas; y entre 150 enfermos de cirrosis, también elegidos al azar, se ob-
serva que 12 de ellos no consumen alcohol. ¿Es significativa la diferencia entre las
proporciones observadas? Interpretar el resultado.
Si se designa por p1 la proporción de personas que no consumen alcohol entre

los que no padecen la enfermedad y por p2 la proporción de los que no beben bebidas
H : p = p2
alcohólicas entre los cirróticos, se trata de contrastar  0 1
 H1 : p1 ≠ p2
El estadístico de contraste es: Z =
( pˆ1 − pˆ 2 ) , N (0, 1) en el supuesto de
pˆ 1qˆ1 pˆ 2 qˆ 2
+
que H0 sea cierta. n1 n2
Como se quiere saber si la diferencia entre las proporciones observadas es sig-
nificativa, se elige α = 0,01 y por tanto, se rechazará la hipótesis H0, si el valor del
estadístico de contraste cae en la región crítica a este nivel:
40 12
De los datos observados se deduce que pˆ 1 = = 0, 20 Ä Ä yÄ Ä pˆ 2 = = 0, 08 y
el valor del estadístico es: 200 150
Por tanto, se rechaza al nivel α = 0,01 la hipótesis de igualdad entre las pro-
porciones en los dos colectivos, enfermos de cirrosis y personas que no padecen
esta enfermedad. La diferencia entre las proporciones de personas que no consu-
men alcohol entre los que no padecen cirrosis y los que sí la padecen es signifi-
cativa.
11.8.2. Contrastes unilaterales

Para contrastar si los datos confirman la hipótesis de que p1 > p2 se plantean
las hipótesis
y utilizando el mismo estadístico de la prueba bilateral se rechazará la hipótesis

nula, aceptando pues la alternativa al nivel α si el valor del estadístico pertenece a
formado por valores del estadístico Z positivos, muy grandes y poco probables si
la hipótesis cierta es H0.
Análogamente, para contrastar la hipótesis de que p1 < p2 se plantean las hi-
pótesis
y se aceptará la hipótesis alternativa al nivel a, si el valor del estadístico pertene-

ce a la región crítica: RCα = ( − `, − zα ] formada por los valores del estadístico Z
negativos, grandes en valor absoluto y poco probables si la hipótesis nula es cierta.
EJEMPLO 11.10.
En un estudio del Ejemplo 11.9. sobre las causas de la cirrosis hepática se elige al azar
200 personas que no padecen la enfermedad y se comprueba que de ellas 40 no toman be-
bidas alcohólicas y entre 150 enfermos de cirrosis, también elegidos al azar, se observa que
12 de ellos no consumen alcohol. ¿Es significativamente mayor la proporción de los que no
consumen alcohol entre los que no padecen la enfermedad? Interpretar el resultado.
Se designa por p1 la proporción de personas que no consumen alcohol entre

los que no padecen la enfermedad y por p2 la proporción de los que no beben be-
bidas alcohólicas entre los cirróticos.
Como se trata de probar si la proporción de los que no beben alcohol es menor
entre los cirróticos, las hipótesis del contraste serían:
y la región crítica RCα =0,01 = [ 2, 33, + ` ) .

El valor del estadístico, calculado en el Ejemplo 11.9., es z = 3, 3402 ∈[ 2, 33, + ` )
y por ello se acepta la hipótesis alternativa para α = 0,01.
Así, con los datos proporcionados, se puede aceptar al nivel α = 0,01 que la
proporción de personas que no consumen bebidas alcohólicas entre los enfermos
de cirrosis es menor que entre los que no padecen esta enfermedad.
A la vista de estos resultados se sospecha que una de las causas de la cirrosis
puede ser el consumo de bebidas alcohólicas.
11.9. PRUEBA DE COMPARACIÓN DE DOS VARIANZAS
Cuando se desconocen las varianzas poblacionales y se necesita construir

un intervalo de confianza para la diferencia de medias poblacionales, o realizar
contrastes de comparación de dos medias, es necesario saber si se puede aceptar o
no que las varianzas poblacionales son iguales.
Si X1 es una variable aleatoria, medida en escala de intervalo, definida en una
población E1, que sigue una distribución N(µ1, σ1) y X2 es otra variable aleatoria,
también medida en escala de intervalo, independiente de X1, que se distribuye se-
gún una N(µ2, σ2) en otra población E2, como se explicó en el capítulo anterior, el
( n1 − 1) s12
s12 σ 12
σ2 n1 − 1
estadístico: 2 1 = sigue en el muestreo una distribución F[ n1 −1,n2 −1]
s2 ( n2 − 1) s22
σ 22 σ 22
n2 − 1
por ser cociente de dos variables independientes χ2 divididas entre sus grados de
libertad.
11.9.1. Contraste bilateral

Para contrastar si las dos varianzas poblacionales son iguales, se plantean las
hipótesis:
Se supone cierta la hipótesis nula y en este caso el estadístico
F ~ F[n1–1,n2–1]
α/2
1–α α/2
0 a = F[n –1,n –1];(1– —)

α b = F[n1–1,n2–1];—
α
1 2
2 2
2
Se rechaza H0 si s12 ≥ F α
pues en ese caso s12 es demasiado grande con re-
s2 [ n1 −1,n2 −1]; 2
s2
lación a s22 si es cierta la hipótesis nula y también se rechaza H0 si 0 ≤ 12 ≤ F α
s2 [n1 −1,n2 −1];1− 2
pues esto significa que s12 es muy pequeño en relación con s22 en el supuesto de que
sea cierta H0.
   
Por ello, la región crítica al nivel α es  0, F α  ∪ F α , + ` .
 [ n1 −1,n2 −1];1− 2   [n1 −1,n2 −1]; 2 
EJEMPLO 11.11.
Se quiere contrastar si se pueden suponer iguales las varianzas de las longitudes
de las truchas de dos ríos de cuencas distintas. Se supone que las longitudes siguen
distribuciones normales y se pescan 16 truchas al azar en uno de los ríos y 21 en el otro.
Las varianzas de las muestras son 0,2344 y 0,1524 respectivamente. Realizar el con-
traste al nivel α = 0,05.
2 2

Las hipótesis del contraste son:  H0 : σ 1 = σ 2 . Se supone cierta la hipótesis
2 2
 H1 : σ 1 ≠ σ 2
s2
nula y en este caso el estadístico de contraste F = 12 , F[15,20 ] .
La región crítica al nivel α = 0,05 es: s2
16
0, 2344 0, 25
s12 15
Se calcula f = 2 = = = 1, 5623 ∉ RCα =0 ,05 y por tanto se acepta,
s2 21 0, 1524 0, 16
20
al nivel α = 0,05, la igualdad de varianzas en las dos poblaciones.

Para contrastar la hipótesis de que σ 12 > σ 22 se plantean las hipótesis:
se utiliza el mismo estadístico que en el contraste bilateral y la región crítica en

)
este caso es: RCα =  F[ n1 −1,n2 −1];α , + ` .

s21
—2 ~ F[n1–1,n2–1]
s2
1–α α
0 F[n1–1,n2–1];α
Es decir, se acepta la hipótesis alternativa si s21 es muy grande con respecto

2
a s , que es poco probable si H0 es cierta.
2
Del mismo modo, para contrastar la hipótesis de que σ 12 < σ 22 se plantean las
hipótesis:
también se utiliza el mismo estadístico que para el contraste bilateral y se rechaza H0 si
s21
—2 ~ F[n1–1,n2–1]
s2
α
1–α
0 F[n –1,n –1];(1–α)

1 2
pues en esos casos s21 es muy pequeño con relación a s22 y por ello se acepta
H1 : σ 12 < σ 22 .
11.10. PRUEBA DE COMPARACIÓN DE DOS MEDIAS
Si X1 es una variable aleatoria, medida en escala de intervalo, definida en una

población E1 que sigue una distribución N(µ1, σ1) y X2 es otra variable aleatoria,
también medida en escala de intervalo, independiente de X1, que se distribuye se-
gún una N(µ2, σ2) en otra población E2, y se desconoce el valor de las medias po-
blacionales, para realizar las pruebas de comparación de las medias hay que tener
en cuenta si se conocen o no las varianzas poblacionales. Si no se conocen las va-
rianzas poblacionales σ 21 y σ 22, primero se realiza una prueba bilateral para con-
trastar si se puede aceptar o no la igualdad de las varianzas, y según sea el resul-
tado se continúa con el contraste para las medias.
11.10.1. Contrastes bilaterales
 H : µ = µ2
Se formulan las hipótesis:  0 1 y se supone cierta H0.
 H1 : µ1 ≠ µ2
Como X1 , N ( µ1 , σ 1 ) y X2 , N ( µ 2 , σ 2 ) , cualesquiera que sean los tamaños

 σ   σ 
de las muestras se verifica que X1 , N  µ1 , 1  y X2 , N  µ2 , 2  y también
 n1   n2 
 σ2 σ2 
se puede afirmar que la variable aleatoria X1 − X2 , N  µ1 − µ2 , 1 + 2  .
 n1 n2 
• Si se conocen las varianzas poblacionales σ 12 y σ 22
X1 − X2 − ( µ1 − µ2 )
La variable aleatoria Z = , N ( 0, 1) y al suponer cierta la
hipótesis nula: σ 12 σ 22
+
n1 n2
éste es el estadístico del contraste y la región crítica al nivel α es:
• Si no se conocen σ 12 y σ 22 pero se ha aceptado que σ 12 = σ 22
 σ2 σ2 
Como se sabe que X1 − X2 , N  µ1 − µ2 , 1 + 2  y se ha aceptado
 n1 n2 
X − X2 − ( µ1 − µ2 )
σ 12 =σ 22 = σ 2 se tiene ahora que Z = 1 , N ( 0, 1) , pero como se
1 1
σ +
n1 n2
desconoce el valor de la varianza común se estima por la media ponderada de las
cuasivarianzas muestrales:
Ahora se necesita conocer la distribución en el muestreo del estadístico

1 1
Dividiendo numerador y denominador por σ + se tiene:
n1 n2
el numerador es una v.a. N(0,1) y el denominador es la raíz cuadrada de una

χ n21 +n2 −2 dividida entre el número de grados de libertad, por ser suma de dos va-
2 2
riables aleatorias independientes que siguen distribuciones χ n1 −1 y χ n2 −1 respecti-
vamente, y por tanto ese cociente sigue una distribución tn1 +n2 −2 .
Como se supone cierta la hipótesis H0, el estadístico de contraste es:
De ahí que la región crítica al nivel α para este contraste bilateral sea:
• Si no se conocen σ 12 y σ 22 y no se puede aceptar que σ 12 = σ 22
 2 2 
X − X 2 − ( µ1 − µ2 )
Como X1 − X 2 , N  µ1 − µ2 , σ 1 + σ 2  ⇔ 1 , N ( 0,1) pero
 n1 n2  σ 12 σ 22
+
n1 n2
al desconocer las varianzas y no poder suponerlas iguales se estiman σ i2 por si2 para
i = 1, 2.
X − X2 − ( µ1 − µ 2 )
La distribución de la v.a. 1 es una t de Student cuyo número
2 2
s1 s2
+
n1 n2
de grados de libertad sólo se puede calcular de forma aproximada, por desconocerse
el valor de los parámetros σ 21 y σ 22.
Una de las soluciones aproximadas se conoce como aproximación de Welch,

el número de grados de libertad es g siendo g el entero más próximo a
Así, en el supuesto que sea cierta la hipótesis nula el estadístico de contraste:
2
 s12 s22 
 n + n 
1 2
siendo g el entero más próximo a h = 2 2 −2
(s2
1 n1 ) + (s 2
2 n2 )
n1 + 1 n2 + 1
Y la región crítica al nivel α será ahora:
Otra de las soluciones aproximadas para la distribución del estadístico
es una t de Student con g = n1 + n2 − 2 − m, siendo m el número entero más próximo a
En el caso en que n1 = n2 Ä yÄ s12 = s22 y este cociente se anula y se obtiene

g = n1 + n2 − 2, que es el número de grados de libertad de la t de Student si las va-
rianzas poblacionales no se conocen, pero se pueden suponer iguales.

A continuación se indican las hipótesis, estadísticos de contraste y regiones
críticas para los contrastes unilaterales correspondientes a cada uno de los bilate-
rales presentados anteriormente.
 H : µ = µ2
Para contrastar si µ1 > µ2 se plantean las hipótesis:  0 1 y se supone
cierta la hipótesis nula.  H1 : µ1 > µ2

El estadístico de contraste es
y la región crítica al nivel α es: RCα = [ zα , + ` ) .

Es decir, se acepta la hipótesis nula al nivel α si el valor del estadístico es me-
nor que zα.

El estadístico para este contraste es
y la región de rechazo de la hipótesis nula al nivel α es: RCα = tα ;n1 +n2 −2 , + ` . )
Se utiliza, como en el contraste bilateral correspondiente, el estadístico

2
 s12 s22 
X1 − X 2  n + n 
T= , tg siendo g el entero más próximo a h = 1
2
2
2
−2
s12 s22
+ (s12 n1 ) (+
s22 n2 )
n1 n2 n1 + 1 n2 + 1
y se rechaza la hipótesis nula, aceptando la alternativa si el valor del estadístico per-
)
tenece a RCα = tα ;g , + ` .
 H : µ = µ2
Análogamente, para probar si µ1 < µ2 las hipótesis son:  0 1
 H1 : µ1 < µ2
Se supone que es cierta la hipótesis nula y a continuación se indica el esta-

dístico apropiado y la región crítica correspondiente en cada caso.

El estadístico de contraste es
y la región crítica al nivel α es:

El estadístico a utilizar es:
y se aceptará la hipótesis alternativa al nivel α si el valor del estadístico pertene-

ce a la región crítica:
X1 − X 2
Se utiliza, como estadístico de contraste: T = , tg , siendo g el entero
s12 s22
+
n1 n2
2
 s12 s22 
 n + n 
1 2
más próximo a h = 2 2 − 2 y la región crítica será:
(s2
1 n1 ) + (s
2
2 n2 )
n1 + 1 n2 + 1
pues se acepta la hipótesis alternativa H1 : µ1 < µ2 ⇔ µ1 − µ2 < 0 para los valores

del estadístico negativos y menos probables en el caso de que sea cierta la hipó-
tesis nula.
Observación 1. Antes de concluir los contrastes de comparación de dos me-

dias con varianzas poblacionales desconocidas, se debe señalar que, tanto en el
caso en que se puedan suponer iguales las varianzas como en el caso contrario, si
los tamaños de las muestras son grandes, es decir, si n1 ≥ 30 y n2 ≥ 30 la distri-
bución de los estadísticos
son en los dos casos distribuciones t de Student con un número de grados de li-
bertad grande y, por tanto, se pueden aproximar ambas por la N(0,1) lo que sim-
plifica mucho la determinación de las regiones críticas.
Observación 2. Para comparar las medias desconocidas de dos variables ale-

atorias no normales y con varianzas conocidas, se sabe que con tal de elegir
muestras de tamaños n1 ≥ 30 y n2 ≥ 30 se puede asegurar que el estadístico
sigue aproximadamente una distribución N(0,1) y por ello se pueden aplicar los
contrastes bilaterales y unilaterales de comparación de dos medias con varianzas
conocidas explicados anteriormente.
EJEMPLO 11.12.
Las cantidades de Fe, en mg, en diferentes muestras de mineral de dos yaci-
mientos distintos son las siguientes:
Yacimiento 1 91 90 84 83 88 89 85 89 90 85
Yacimiento 2 89 91 88 92 85 91 93
a) ¿Se puede aceptar al nivel α = 0,01 la igualdad de varianzas?

b) ¿Hay diferencia significativa entre la cantidad media en mg de Fe en los dos
yacimientos?
c) ¿Los datos recogidos contradicen, al nivel α = 0,05 y al nivel α = 0,01, que
es mayor la cantidad media en mg de Fe en el segundo yacimiento?
 H : σ 2 = σ 22
a) Se trata de contrastar las hipótesis  0 1
2 2
 H1 : σ 1 ≠ σ 2
s2
El estadístico de contraste, en el supuesto que sea cierta H0, es F = 12 , F[9,6]
y la región crítica al nivel α = 0,01 es: s2
Para el muestreo realizado en el primer yacimiento:
y para el realizado en el segundo
El valor del estadístico es:
por tanto se acepta la igualdad de varianzas al nivel α = 0,01.

 H : µ = µ2
b) Como se acepta la igualdad de varianzas, para contrastar  0 1 se
 H1 : µ1 ≠ µ2
X1 − X2
utiliza el estadístico T = , tn1 + n2 − 2=15 en el supuesto que sea cierta la hi-
1 1
s +
n1 n2
9s12 + 6 s22 9 ⋅ 8, 2666 + 6 ⋅ 7, 4762
pótesis nula, siendo s = = = 2, 8197.
15 15
La región crítica al nivel 0,01 es: RCα =0 ,01 = ( − `, −2, 947 ] ∪ [ 2, 947, + ` ) .
X1 − X2 87, 4 − 89, 857
El valor del estadístico t = = = −1, 7682 ∉ RCα =0,01 .
1 1 1 1
s + 2, 8197 +
n1 n2 10 7
Es decir, la diferencia entre las cantidades medias de ambos yacimientos no es
significativa.
 H : µ = µ2
c) Se trata ahora de contrastar  0 1
 H1 : µ1 < µ2
Las regiones críticas para α = 0,05 y para α = 0,01 son respectivamente:
El valor del estadístico t = −1, 7682 ∈ RCα =0 ,05 , por tanto se rechaza H0 al nivel
α = 0,05, pero no al nivel α = 0,01, pues t = −1, 7682 ∉ RCα =0 ,01 .
La diferencia observada es casi significativa, pero no es significativa. Sólo se
puede aceptar la hipótesis de que la media del segundo yacimiento es mayor al
nivel α = 0,05.
11.11. ¿CÓMO HACER LOS CONTRASTES CON

STATGRAPHICS?
䊏 Para los contrastes que se refieren a una sola población
Para realizar este tipo de contrastes con STATGRAPHICS, previamente, se re-

aliza un análisis descriptivo de la muestra o muestras. Para ello, una vez dentro
del programa se pulsa Archivo → Abrir → Abrir Datos y se busca el archivo co-
rrespondiente o se introducen los datos.
Dentro del fichero que contiene los datos se elige la columna que los contie-
ne y se pulsa
Descripción → Datos Numéricos → Análisis Unidimensional
El programa abre una ventana en la que hay que indicar la variable que co-
rresponde a los datos y se pulsa Aceptar, y se toma nota de los valores de los es-
tadísticos y del tamaño de la muestra.
Se pulsa
Descripción → Contraste de Hipótesis
En la ventana emergente se elige el parámetro al que se refiere el contraste,

se indica el valor del parámetro para la hipótesis nula y se rellenan los valores
de la muestra que pida el programa. Se pulsa Aceptar y el programa propor-
ciona el Análisis para el Contraste de Hipótesis. Por defecto, el resultado se da
para α = 0,05 y para la hipótesis alternativa distinto de, es decir, realiza un con-
traste bilateral. Si se quiere un análisis unilateral se pulsa con el botón derecho
del ratón sobre el resultado proporcionado por el programa y se elige Opciones
del Análisis para poder cambiar la hipótesis alternativa o el valor de α y se pul-
sa de nuevo Aceptar. A continuación se aplicará a los ejercicios resueltos an-
teriormente.
EJEMPLO 11.13.
Realizar con STATGRAPHICS los contrastes de los ejemplos 11.4., 11.5.,
11.7. y 11.8.
Para el Ejemplo 11.4. después de pulsar

en la ventana que aparece se elige en el Parámetro Proporción Binomial. En Hi-
pótesis Nula 0,5. En la Proporción de la Muestra 0,5192 y en Tamaño de la
Muestra 9390. Pulsando Aceptar el programa proporciona el siguiente resultado:
Contraste de Hipótesis
———————————————————————————————
Proporción de la Muestra = 0,5192
Tamaño de la Muestra = 9390
Aproximado 95,0% intervalo de confianza para p: [0,508876;0,529205]
Hipótesis Nula: proporción = 0,5
Alternativa: no igual
p-Valor = 0,00021164
Rechazar la hipótesis nula para alpha = 0,05.

en la ventana que aparece se elige en el Parámetro Proporción Binomial. En Hi-
pótesis Nula 0,65. En la Proporción de la Muestra 0,8 y en Tamaño de la Muestra
60. Pulsando Aceptar el programa proporciona el siguiente resultado:
———————————————————————————————
Proporción de la Muestra = 0,8
Aproximado 95,0% inferior límite de confianza para p: [0,69619]
Hipótesis Nula: proporción = 0,65
Alternativa: mayor que
p-Valor = 0,00860258

en la ventana que aparece se elige en el Parámetro Media Normal. En Hipótesis
Nula 3000. En Media de la Muestra 2960 En Desviación Típica de la Muestra
48,6 y en Tamaño de la Muestra 45. Pulsando Aceptar el programa proporciona

por defecto el resultado para el contraste bilateral. Sobre ese resultado se pulsa el
botón derecho del ratón, se elige Opciones de Análisis y en la ventana emergente
se señala en Hipótesis Alternativa Menor que. Pulsando de nuevo Aceptar pro-
porciona el siguiente resultado:
———————————————————————————————
Media de la Muestra = 2960,0
Desviación Típica de la Muestra = 48,6
95,0% superior límite de confianza para la media: 2960,0 + 12,1731
[2972,17]
Hipótesis Nula: media = 3000,0
Alternativa: menor que
Estadístico t calculado = –5,52116
p-Valor = 8,48524E-7

en la ventana que aparece se elige en el Parámetro Desv. Típica Normal. En Hipótesis
Nula 5. En Desviación Típica de la Muestra 6,4807 y en Tamaño de la Muestra 30.
Pulsando Aceptar el programa proporciona, como en el caso anterior, el resultado para
el contraste bilateral. Sobre ese resultado se pulsa el botón derecho del ratón, se elige
Opciones de Análisis y en la ventana emergente se señala en Hipótesis Alternativa
Mayor que. Pulsando de nuevo Aceptar proporciona el siguiente resultado:
———————————————————————————————
Desviación Típica de la Muestra = 6,4807
95,0% inferior límite de confianza para sigma: [5,34978]
Hipótesis Nula: desviación típica = 5,0

Estadístico Chi-cuadrado calculado = 48,7194
p-Valor = 0,0123627
䊏 Para los contrastes entre dos poblaciones
Dentro del fichero que contiene los datos se eligen las columnas que los
contienen y se pulsa
Descripción → Datos Numéricos → Análisis Unidimensional
El programa abre una ventana en la que hay que indicar la variable que co-
rresponde a los datos, se elige la primera, se pulsa Aceptar y se toma nota de los
valores de los estadísticos y del tamaño de la muestra. Se repite el proceso para la
segunda.
Se pulsa a continuación:
Comparación → Dos Muestras → Contraste de Hipótesis
En la ventana emergente, se elige lo que se desea comparar, se indica el valor de

la diferencia de los parámetros para la hipótesis nula y se rellenan los valores de las
muestras que pida el programa. Se pulsa Aceptar y el programa proporciona el
Análisis para el Contraste de Hipótesis. Por defecto, el resultado se da para α = 0,05
y realiza un contraste bilateral. Si se quiere un análisis unilateral se pulsa con el
botón derecho del ratón sobre el resultado proporcionado por el programa y se eli-
ge Opciones del Análisis para poder cambiar la hipótesis alternativa o el valor de
α y se pulsa de nuevo Aceptar. A continuación, se aplicará a los ejercicios re-
sueltos anteriormente para contrastar la igualdad de proporciones, de medias o de
varianzas de dos poblaciones.
EJEMPLO 11.14.
Realizar con STATGRAPHICS los contrastes de los ejemplos 11.9., 11.10.,
11.12.a), 11.12.b) y 11.12.c).

en la ventana que aparece se elige para Comparar Proporción Binomial. En Hi-
pótesis Nula para la Diferencia de Porporciones 0,0. En Proporción Muestra 1:
0,2. En Proporción Muestra 2: 0.08. En Tamaño Muestra 1: 200. En Tamaño
Muestra 2: 150. Pulsando Aceptar el programa proporciona el siguiente resul-
tado:
———————————————————————————————
Proporciones de la Muestra = 0,2 y 0,08
Tamaños de la Muestra = 200 y 150
Aproximado 95,0% intervalo de confianza para la diferencia entre propor-
ciones: [0,0495865;0,190414]
Hipótesis Nula: diferencia entre proporciones = 0,0
Estadístico z calculado = 3,12368
p-Valor = 0,0017862
Para el Ejemplo 11.10. Sobre el resultado del contraste del Ejemplo 11.9., ya que
se refiere a los mismos datos que aquél, se pulsa con el botón derecho del ratón y se
elige Opciones del Análisis. En la nueva ventana que se abre en Hipótesis Alternati-
va se escoge Mayor que y se deja la opción por defecto α = 0,05. Pulsando Aceptar
el resultado que se obtiene es:
———————————————————————————————
Proporciones de la Muestra = 0,2 y 0,08
Aproximado 95,0% inferior límite de confianza para la diferencia entre
proporciones: [0,0609071]
Hipótesis Nula: diferencia entre proporciones = 0,0
Estadístico z calculado = 3,12368
p-Valor = 0,000893098
Para el Ejemplo 11.12. a) se realiza el contraste de varianzas.

El programa STATGRAPHICS realiza el contraste para las desviaciones típi-
cas. Después de señalar las dos columnas de datos y de pulsar
en la ventana que aparece se escoge para Comparar Desviación Típica Normal.
En Hipótesis Nula para la Ratio de Varianzas 1,0. En Desviación Típica Muestra
1: 2,87518. En Desviación Típica Muestra 2: 2,73426. En Tamaño Muestra 1: 10.
En Tamaño Muestra 2: 7. Pulsando Aceptar se obtiene el siguiente resultado:
———————————————————————————————
Desviaciones Típicas de la Muestra = 2,87518 y 2,73426
95,0% intervalo de confianza para el ratio de varianzas:
[0,20019;4,77646]
Hipótesis Nula: ratio de varianzas = 1,0

Estadístico F calculado = 1,10573
p-Valor = 0,936721
No rechazar la hipótesis nula para alpha = 0,05.
Para el Ejemplo 11.12. b) Es decir, para realizar el contraste bilateral de me-

dias.
El programa STATGRAPHICS realiza el contraste para las medias asumiendo
la igualdad de las desviaciones típicas. Después de pulsar
en la ventana que aparece se escoge para Comparar Media Normal. En Hipótesis

Nula para la Diferencia de Medias 0,0. En Media Muestra 1: 87,4. En Media
Muestra 2: 89,8571. Desviación Típica Muestra 1: 2,87518. En Desviación Típi-
ca Muestra 2: 2,73426. En Tamaño Muestra 1: 10. En Tamaño Muestra 2: 7. Pul-
sando Aceptar se obtiene el siguiente resultado:
———————————————————————————————
Medias de la Muestra = 87,4 y 89,8571
95,0% intervalo de confianza para la diferencia entre medias: –2,4571
+/- 2,96175
[-5,41885;0,504646]
Hipótesis Nula: diferencia entre medias = 0,0
p-Valor = 0,0973411
(Se asumen varianzas iguales).
Para el Ejemplo 11.12. c) Es decir, para realizar el contraste unilateral de me-

dias.
Sobre el resultado del contraste del Ejemplo 11.12.b), por tratarse de los
mismos datos, se pulsa con el botón derecho del ratón y se elige Opciones
del Análisis. En la nueva ventana emergente en Hipótesis Alternativa se
escoge Menor que y se deja la opción por defecto α = 0,05 y señalada la op-
ción del programa Asumir Desv. Típicas Iguales, que en nuestro caso no es
una suposición porque se ha contrastado y aceptado la igualdad de las va-
rianzas, o de las desviaciones típicas. Pulsando Aceptar el resultado que se
obtiene es:
———————————————————————————————
95,0% superior límite de confianza para la diferencia entre medias:
–2,4571 + 2,43594 [-0,0211571]
p-Valor = 0,0486706
Para realizar el mismo contraste para α = 0,01, basta con pulsar sobre el re-
sultado que se acaba de obtener con el botón derecho del ratón y cambiar el valor
de α. El resultado es ahora:
———————————————————————————————
99,0% superior límite de confianza para la diferencia entre medias:
–2,4571 + 3,61626 [1,15916]
p-Valor = 0,0486706
Como se puede comprobar, las conclusiones coinciden todas con las obtenidas
anteriormente sin hacer uso de STATGRAPHICS, y además se han obtenido los
intervalos de confianza para los parámetros correspondientes a los contrastes
para el valor de α elegido.
TABLAS DE CONTRASTES DE HIPÓTESIS PARAMÉTRICOS
Ho EstadísticoÄ delÄ contraste H1 RegiónÄ críticaÄ alÄ nivelÄ α
pˆ − p0
p ≠ p0 ( − `, − z  
α 2  ∪  zα 2 , + ` )
Z=
p = p0 p0 q0 p > p0  zα , + ` )
n
p < p0 ( − `, − zα 
X − µ0
µ ≠ µ0 ( − `, − z  
α 2  ∪  zα 2 , + ` )
Z=
µ = µ0 σ µ > µ0  zα , + ` )
n
µ < µ0 ( − `, − zα 
   
µ ≠ µ0  − `, − t α ;n−1  ∪ t α ;n−1 , + `
X − µ0  2   2 
T=
µ = µ0 s
n
µ > µ0 tα ;n−1 , + ` )
µ < µ0 ( − `, −tα ;n−1 
   
σ 2 ≠ σ 02  0, χ 2 α  ∪  χ α2 , + `
 1 − ;n −1   2 ;n −1 
2
( n − 1) s2
σ 2 = σ 02 χ2 =
σ 02 σ 2 > σ 02  χα2 ;n−1 , + `
 )
σ 2 < σ 02  0, χ12−α ;n−1 
 
p01 − p02
p1 ≠ p2 ( − `, − z  
α 2  ∪  zα 2 , + ` )
Z=
p1 = p2 p01q01 p02 q02 p1 > p2  zα , + ` )
+
n1 n2
p1 < p2 ( − `, − zα 
   
σ 12 ≠ σ 22  0, F α  ∪ F α , + `
 n1−1,n2 −1;1− 2   n1−1,n2 −1; 2 
s12
σ 12 = σ 22 F=
s22 σ 12 > σ 22 F
 n1 −1,n2 −1;α
, +` )
σ 12 < σ 22  0, F 
 n1−1,n2 −1;1−α 
TABLAS DE CONTRASTES (CONTINUACIÓN)
Ho EstadísticoÄ delÄ contraste H1 RegiónÄ críticaÄ alÄ nivelÄ α
X1 − X2
µ1 ≠ µ 2 ( − `, − z  
α 2  ∪  zα 2 , + ` )
Z=
µ1 = µ2 σ 12 σ 22 µ1 > µ 2  zα , + ` )
+
n1 n2
µ1 < µ 2 ( − `, − zα 
   
µ1 ≠ µ 2  − `, − tα  ∪ t α , + `
;n + n − 2 ;n + n − 2
 2 1 2    2 1 2 
X1 − X2
T=
µ1 = µ2 s
1
+
1 µ1 > µ 2  tα ;n + n − 2 , + `
 1 2 )
n1 n2
Siendo
s2 =
( n1 − 1) s12 + ( n2 − 1) s22 µ1 < µ 2 ( − `, −t 
α ;n1 + n2 − 2 
n1 + n2 − 2
   
µ1 ≠ µ 2  − `, − tα  ∪ t α , + `
;g ;g
 2    2 
X1 − X2
T=
s12 s22
+
n1 n2
µ1 > µ 2  tα ;g , + `
 )
µ1 = µ2
Siendo g el entero más próximo
2
 s12 s22 
n +n 
 1 2
a h= 2 2
−2 µ1 < µ 2 ( − `, −t α ;g 

(s
2
1 n1 ) + (s 2
2 n2 )
n1 + 1 n2 + 1
11.12.1. En una población de individuos que padecen la enfermedad M, la experimen-

tación con el tratamiento T, provoca una reacción alérgica en el 25% de los casos. Se prue-
ba una nueva fórmula T′ con la que se espera disminuir la tasa de alergia. Se elige una
muestra aleatoria de 100 personas que padecen la enfermedad y se les trata con T′.
a) Escribir las hipótesis H0 y H1 y construir la región crítica para α = 0,05.
b) ¿Cuál es la distribución en el muestreo de la proporción observada en la
muestra bajo la hipótesis H0? ¿Y bajo la hipótesis H1?
c) ¿Qué conclusión se puede dar si de la muestra de 100 personas 15 tuvieron
reacción alérgica?
11.12.2. Si se ha rechazado una hipótesis nula al nivel α = 0,01, ¿se podrá aceptar
para α = 0,05? ¿Por qué?
11.12.3. En un yacimiento se ha extraído un promedio de 1.110 kg de mineral al día.

Durante el último año se han registrado los kg de mineral extraídos en quince días de
trabajo elegidos al azar y se han obtenido los siguientes resultados:
1.215, 983, 1.150, 1.201, 1.085, 998, 1.015, 950, 1.023, 975, 1.305,
1.180, 1.092, 1.121, 1.017
Suponiendo que la cantidad X de mineral extraído al día sigue una distribución
normal,
–
a) ¿Qué distribución tiene la variable X para una muestra de tamaño n?
b) Se quiere probar si el promedio de producción diaria ha bajado significati-
vamente. Establecer las hipótesis del contraste. Indicar el estadístico a utilizar.
¿Cuál es la región crítica para α = 0,05?
c) Con los quince datos registrados, ¿se puede aceptar, al nivel α = 0,05, que el
promedio ha bajado en el último año?
d) Se dispone de los registros en kg de mineral extraídos del yacimiento en 256
días de trabajo en el último año. La media de éstos es 960 kg/día y la des-
viación típica 230 kg/día. Con estos datos, ¿se puede aceptar, para α = 0,05,
que el promedio ha bajado el último año?
11.12.4. El tenista Rafael Nadal, en su mejor racha de triunfos seguidos, hasta ahora
81 partidos consecutivos sin perder, ha dado prueba de su gran constancia y trabajo.
Su esfuerzo en remontar situaciones adversas en los partidos es indicio de la valía del
adversario y del coraje de Nadal para superarse. Se ha observado que en los últimos
cien golpes en situaciones en las que él no iba por delante en el partido ha superado
93, ¿se puede aceptar con estos datos, para α = 0,05, que mantiene un porcentaje de
golpes ganadores en situaciones adversas para él del 95%? Ídem para α = 0,01.
11.12.5. En un contraste estadístico se ha rechazado la hipótesis nula al nivel α = 0,005,

razónese si también se rechazaría en todos los casos para α = 0,001.
11.12.6. Para el control en un laboratorio de una medida que se distribuye según una
N(14 mm, 0,6 mm) se puede seguir uno de los siguientes criterios:
1.o Se toma una muestra de tres medidas y se rechaza el conjunto si alguna de
ellas no pertenece al intervalo (13, 15).
2.o Se elige una muestra de cinco medidas y se rechaza si la media de éstas no
pertenece al intervalo (13,5, 14,5).
¿Cuál de los dos criterios es más exigente?
11.12.7. En una muestra de 250 personas elegidas al azar de una población sólo 45
leen al menos un libro al mes. ¿Se puede admitir que la proporción de personas que
leen por lo menos un libro al mes es 0,30? ¿Y 0,20?
11.12.8. Los errores de medida de las balanzas fabricadas en un taller son normales
con desviación típica 1,3 g e independientes. Se pesa una masa desconocida µ en diez
balanzas de ese taller y se obtienen los siguientes resultados, en gramos: 227,1,
226,8, 224,8, 228,2, 225,6, 229,7, 228,4, 228,8, 225,9, 229,6.
a) ¿Son conformes estos datos con la hipótesis µ = 226?
b) ¿Se puede admitir µ = 227?
c) ¿Para qué valores de µ el nivel de significación será exactamente del 5%?
d) ¿Para qué valores de µ el nivel de significación será al menos el 5%?
11.12.9. En un estudio para estimar la proporción de familias de una Comunidad Au-

tónoma que tienen conexión a Internet en su casa, se eligen al azar 125 familias de las
que residen en ciudades y otras 100 familias al azar de las que residen en pueblos de
menos de 1.000 habitantes. Se comprueba que 59 de las familias que residen en ciu-
dades y 63 de las que viven en pueblos tienen conexión a Internet en casa.
a) ¿Se puede admitir, al nivel α = 0,05, la hipótesis de que las proporciones de
los que tienen conexión a Internet en su casa son iguales?
b) ¿Se puede admitir, al nivel α = 0,05, que es mayor la proporción de los que
residen en los pueblos? ¿Y al nivel 0,01?
11.12.10. En una ciudad, de los 9.390 nacimientos acaecidos en el último año,

4.875 son niñas.
a) ¿Es compatible la proporción observada con la hipótesis de equiprobabilidad
de nacimientos? Dar la respuesta para α = 0,05.
b) ¿Cuál es el nivel de significación del contraste?
11.12.11. Una máquina corta piezas de ágata para utilizar en joyería, unas de un gro-
sor entre 8 mm y 11 mm y otras entre 13 mm y 16,5 mm. Se acepta que la distribu-
ción del grosor en los dos casos es normal y se sospecha que la varianza no es igual
en los dos casos. Para contrastarlo se elige una muestra de 51 piezas elegidas al azar
entre las más delgadas y 121 de las de mayor grosor. Los resultados obtenidos se re-
cogen en las siguientes tablas:
X mm 8 8,5 9 9,5 10 10,5 11

ni 1 3 13 18 11 4 1
X mm 13,5 14 14,5 15 15,5 16 16,5

ni 31 7 25 50 26 8 2
¿Se puede aceptar que no son iguales las varianzas al nivel α = 0,05?
11.12.12. Se quiere comprobar la efectividad de dos tipos de vacuna contra el virus

Ébola. Para ello se aplicó una vacuna a cien cobayas y se les comparó con un grupo
de otras cien cobayas a las que se les aplicó la segunda. En el primer grupo 8 sufrie-
ron la enfermedad y en el segundo 25. ¿Se puede aceptar que la primera vacuna es
más eficaz contra el virus Ébola? Dar la respuesta para α = 0,10, α = 0,05 y α = 0,01.
11.12.13. Se quiere comparar la producción de madera de dos robledales separados

geográficamente. Se seleccionan 15 robles en el primero y 10 en el segundo y se mi-
den los diámetros a 1,30 m del suelo. De los resultados obtenidos, se calcularon
x1 = 52 cm S1 = 1, 4491 cm x 2 = 38 cm S2 = 1, 8025 cm
a) Aceptando que las varianzas poblacionales son iguales, ¿hay diferencia sig-
nificativa en la producción de madera en los dos robledales?
b) Comparar el resultado con el que se deduce del intervalo de confianza para la
diferencia de medias con coeficiente de confianza 1 – α = 0,999.
11.12.14. Para comparar la proporción de semillas que germinan de dos variedades

distintas A y B del mismo cereal, se plantan 150 semillas elegidas al azar de la va-
riedad A y otras 120 de la B. Se observa que germinan 90 de las del tipo A y 78 de
las del tipo B. ¿Se puede admitir la hipótesis de que las proporciones poblacionales
son iguales al nivel α = 0,05?
11.12.15. Se realiza un ensayo con dos métodos de enseñanza diferentes en dos

grandes grupos de alumnos. Se les aplica la misma prueba, que se puntúa sobre 20, y
se acepta que las calificaciones se distribuyen según una normal en los dos grupos. Se
eligen al azar 16 alumnos del primer grupo y 12 de segundo. Las calificaciones me-
dias y cuasivarianzas de las muestras son: x1 = 15, 8, s12 = 5, x 2 = 15, 0, s22 = 3.
a) ¿Se puede aceptar que las varianzas de las calificaciones son iguales en los
dos grupos?
b) Contrastar la hipótesis de que la calificación media del primer grupo es mayor
que la del segundo al nivel α = 0,01.
11.12.16. Se anuncia que una nueva dieta alimenticia logra reducir el peso de una
persona un promedio de 4,5 kg en un periodo de dos semanas. Siete personas que si-
guieron esta dieta dieron los siguientes pesos antes y después de someterse a la dieta:
Peso antes 60,3 58,5 61,7 69 64 62,6 56,7

Peso después 54,9 60 58,1 62,1 58,5 59,9 54,4
¿Qué se puede decir sobre la eficacia de la dieta?
11.12.17. Un genetista está interesado por saber la proporción de hombres y la pro-

porción de mujeres de una ciudad que padecen cierto tipo de alergia. De 1.000
hombres seleccionados al azar padecen ese tipo de alergia 275, y de una muestra ale-
atoria de 1.000 mujeres se observa que 250 la sufren. ¿Se puede aceptar que la pro-
porción es diferente según el sexo?
11.12.18. En un estudio sobre la etiología del cáncer bronco-pulmonar se ha pre-

guntado a personas que padecían dicha enfermedad, elegidas aleatoriamente, si con-
sumían tabaco. De 100 enfermos 8 confesaron ser no fumadores. De 150 personas
que no padecen la enfermedad, también elegidas al azar, 30 son no fumadores.
a) ¿Se puede aceptar, para α = 0,05, que hay diferencia entre las dos propor-
ciones observadas?
b) ¿Se puede admitir, para α = 0,05, que es menor la proporción de no fumado-
res entre los que padecen la enfermedad?
11.12.19. Con el objeto de comparar los cocientes intelectuales, C.I., de los gorilas y
los chimpancés se eligen aleatoriamente 40 chimpancés que dan una media de C.I. 62
con desviación típica 14 y 50 gorilas, también elegidos al azar, que proporcionan una
media de 73 y desviación típica 7,5. A la vista de estos resultados, ¿se puede suponer
que el C.I. de los chimpancés es inferior al de los gorilas en más de 9 unidades?
11.12.20. Para el estudio de la influencia de cierto abono en el crecimiento de una

variedad de trigo, se siembran 20 parcelas fertilizadas con abono natural y otras 20
parcelas enriquecidas con el abono en estudio. En las 20 primeras parcelas se obtuvo
un crecimiento medio de 1,5 cm/día con una desviación típica de 0,4 cm/día. En las
tratadas con el abono en experimentación se obtuvo un crecimiento medio de 1,7
cm/día con una desviación típica de 0,5 cm/día. ¿Se puede afirmar, con α = 0,05, que
el abono en estudio aumenta el crecimiento del trigo? Indicar las hipótesis que deben
hacerse para que la conclusión del contraste sea correcta.
11.12.21. La hembra cuclillo pone sus huevos en los nidos de otras especies, peti-
rrojo, chochín, carnicero común, etc. Cada hembra pone todos los huevos en nidos de
la misma especie, pero uno en cada nido, tirando uno de los que encuentra en ese
nido para evitar que lo descubra el pájaro que los incuba. Se han encontrado once
huevos en nidos de petirrojo y 17 huevos en nidos de carnicero. Se ha medido la lon-
gitud de los huevos, obteniéndose los siguientes resultados:
Nidos de petirrojo n1 = 11 x$1 = 21,7 s21 = 0,4502
Nidos de carnicero n2 = 17 x$2 = 20,6 s22 = 0,5729

Admitiendo que las longitudes siguen distribuciones normales con varianzas

que se pueden suponer iguales, ¿se puede aceptar para α = 0,05 la igualdad de las
longitudes medias?
H : µ = 100
11.12.22. En un contraste de hipótesis para la media poblacional  0 de
 H1 : µ > 100
una variable para la que se ha aceptado que tiene por varianza σ 2 = 9, calcular el ta-
maño de la muestra para que se detecte un aumento de la media poblacional de 2 uni-
dades en un 95% de los casos a un nivel de significación α = 0,001.
Contrastes no paramétricos
12
12.1. INTRODUCCIÓN
Hasta ahora se han estudiado contrastes que hacen referencia a parámetros po-
blacionales, contrastes paramétricos. Para poder aplicar estos contrastes se nece-
sita trabajar con variables aleatorias con distribución normal. ¿Cómo se puede sa-
ber a partir de los datos de una muestra si la variable aleatoria de la que proceden
sigue una distribución normal? Este es uno de los objetivos de los contrastes de
bondad de ajuste, o pruebas χ2, que se estudiarán en este capítulo. Estas pruebas,
que no hacen referencia a los parámetros poblacionales sino al tipo de distribu-
ción, son contrastes no paramétricos.
El contraste χ2 de bondad de ajuste no sólo sirve para verificar la normalidad,
se puede aplicar tanto para distribuciones continuas como para distribuciones
discretas. Se trata de averiguar si las frecuencias absolutas de los valores de una
variable observados en una muestra son consistentes con los esperados en el
caso en que la muestra fuese representativa de una variable aleatoria con la dis-
tribución de probabilidad prefijada en la población.
A partir de una muestra de tamaño n elegida en la población, se trata de
ajustar a estas observaciones un modelo teórico, por ejemplo una distribución bi-
nomial, de Poisson, multinomial, normal… Es decir, se formula una hipótesis so-
bre el modelo o distribución de probabilidad de la variable aleatoria de la que se
han recogido al azar las n observaciones, y una vez fijada esta distribución se con-
trasta la bondad del ajuste mediante una prueba χ2.
Los contrastes no paramétricos son contrastes que no necesitan conoci-
miento de la distribución de la variable en la población objeto de estudio, por
tanto no precisan el requisito de normalidad de las variables aleatorias que in-
tervienen en el contraste, ni tampoco hacer suposiciones sobre la distribución de
la variable en la población de la que se ha extraído la muestra. Siempre que no
se pueda aplicar una prueba paramétrica porque fallan las hipótesis previas, o
requisitos necesarios para poderla aplicar, se puede utilizar un contraste no pa-
479
ramétrico. Los contrastes no paramétricos para comparar muestras de dos po-

blaciones no utilizan las medias muestrales sino las medianas, que no están tan
influenciadas por los valores extremos como la media aritmética, estadístico
que se utiliza en las pruebas paramétricas análogas. Las medias y las medianas
son ambas medidas de posición y coinciden en valor si la distribución de los
datos es simétrica. Otra ventaja de los contrastes no paramétricos es que no exi-
gen que la variable esté medida en escala de intervalo, algunas admiten varia-
bles discretas, que se miden en una escala ordinal, y otras incluso variables di-
cotómicas.
Este capítulo se dedica a contrastes no paramétricos. Se han selecciona-
do además de las pruebas χ2 de bondad de ajuste, el contraste de indepen-
dencia, el contraste de homogeneidad, la prueba de Kolmogorov-Smirnov
para una muestra, el contraste χ2 de McNemar para dos muestras apareadas,
en la que los datos observados corresponden a variables dicotómicas, la
prueba de los rangos con signo de Wilcoxon para dos muestras apareadas, en
la que los datos observados corresponden a variables continuas, el contraste
U de Mann-Whitney, una alternativa no paramétrica a la prueba t de Student
que contrasta la igualdad de medias de dos muestras independientes, la
prueba Q de Cochran para tres o más muestras apareadas con datos obser-
vados de variables dicotómicas, el contraste de rangos de Friedman para tres
o más muestras apareadas, en la que los datos observados corresponden a va-
riables continuas, y la prueba de Kruskal-Wallis para más de dos muestras
independientes.
12.2. PRUEBA χ2 DE BONDAD DE AJUSTE PARA

EL CONTRASTE DE PROPORCIONES. AJUSTE
A UN MODELO MULTINOMIAL
En las ciencias experimentales es muy frecuente tratar de construir modelos

que se ajusten a situaciones experimentales o contrastar si valores observados ex-
perimentalmente se ajustan a algún modelo teórico conocido.
EJEMPLO 12.1.
Se cruzan individuos heterocigóticos, Aa, respecto de un carácter. De 70 des-
cendientes elegidos al azar se observan 20 individuos aa. Según las leyes de Mendel
1
la proporción esperada de individuos, aa, es p = . ¿A partir de los datos de la
1 4
muestra se puede admitir que p = ?
4
CONTRASTES NO PARAMÉTRICOS 481
EJEMPLO 12.2.
Con el objeto de comprobar experimentalmente las proporciones fenotípicas de
la segunda generación filial en el cruce dihíbrido de dos individuos, uno dominante
AABB y otro recesivo aabb, con dominancia completa, es decir, las proporciones
de todos los fenotipos posibles al cruzar dos híbridos AaBb, como afirman las leyes de
Mendel, se han realizado cruces de guisantes heterocigóticos respecto de dos ca-
racteres, AvLr (Amarillo, verde, Liso, rugoso. A domina sobre v y L sobre r) y se
han obtenido los siguientes resultados:
Fenotipo AL Ar vL vr Total
Número de guisantes 253 102 97 28 480
¿Se puede aceptar que estos datos corresponden a las proporciones esperadas?
Más adelante se dará respuesta a estos dos problemas.
Como ya se conoce, dado un experimento aleatorio cuyo espacio muestral E

se considera dividido en k clases A1 , A2 ,..., Ak , que son sucesos mutuamente ex-
cluyentes y exhaustivos, con probabilidades respectivas pi = P( Ai ), ∀i = 1, 2,..., k ,
al realizar n pruebas independientes del experimento y considerar las variables
aleatorias.
Xi = «n.o de veces que se verifica el suceso Ai»
la función de probabilidad conjunta
define la distribución multinomial de parámetros n, p1 , p2 ,..., pk −1 .

Las distribuciones marginales de la distribución multinomial para cada Xi
son distribuciones binomiales, Xi , B(n, pi = P( Ai )) ya que la función de proba-
bilidad marginal de cualquiera de las Xi es
Para cada una de estas distribuciones marginales la esperanza matemática es:

Los valores E( Xi ) = npi representan las frecuencias esperadas de cada una de

las variables Xi.
Se trata de ajustar este modelo multinomial a la tabla de frecuencias absolutas
observadas de cada una de estas variables:
Clases A1 A2 … Ak Total
k
Frecuencias
O1 = n1 O2 = n2 … Ok = nk ∑ ni = n
observadas i =1
Frecuencias k
E1 = np1 E2 = np2 … Ek = npk ∑ npi = n
esperadas i =1
Para contrastar la hipótesis:

H0: «Los datos recogidos corresponden a un modelo multinomial de clases
A1 , A 2 ,..., Ak con probabilidades respectivas p1 , p2 ,..., pk ».
Frente a la hipótesis alternativa:

H1: «Los datos de la muestra no corresponden al modelo especificado en H0»,
Karl Pearson, en 1900, propuso el estadístico ∑

k (Oi − npi )2 para medir el ajuste
i=1 npi
de la distribución observada a la teórica. Este es la suma de los cocientes que repre-
sentan las diferencias al cuadrado entre las frecuencias observadas y las esperadas di-
vididas entre las frecuencias esperadas, pues si estos cocientes son grandes indica que
el ajuste a la distribución multinomial no es bueno.
De esta forma, K. Pearson tuvo en cuenta que cabe esperar que ( Oi − npi )2
sean mayores cuanto mayor sea el valor de npi. Al dividir entre npi se da menos
2
importancia a una ( Oi − npi ) correspondiente a una clase con frecuencia espera-
da alta que al mismo valor de ( Oi − npi )2 para una clase cuya frecuencia esperada
sea menor, pues esto último significa mayor discrepancia con el modelo pro-
puesto.
¿Qué distribución tiene este estadístico?
Se considera primero el caso k = 2, es decir, se suponen dos clases:
A1 = A • y A2 = A que son exhaustivas.

–
Clases A1 = A A2 = A Total
Frecuencias 2
observadas O1 = n1 O2 = n2 ∑ ni = n
i =1
Frecuencias
E1 = np E2 = nq np + nq = 1
esperadas
El estadístico de Pearson en este caso es:
Ahora, como O1 = «n.o de observaciones que pertenecen a la clase A» o nú-

mero de veces que se verifica A en las n observaciones es una variable aleatoria
binomial de parámetros n y p, B(n, p), por el teorema de Lindeberg-Levy, se
sabe que si np ≥ 5 y nq ≥ 5 la variable aleatoria O1 sigue aproximadamente una
O − np
( )
distribución N µ = np, σ = npq y por tanto 1 , N (0, 1).
npq
En consecuencia el estadístico
sigue aproximadamente una distribución χ 21 por ser cuadrado de una N(0,1).

Con dos clases queda un solo grado de libertad, porque las frecuencias espe-
radas están ligadas por una relación: np + nq = 1.
En el caso general se puede demostrar que si npi ≥ 5, ∀i = 1, 2,..., k el esta-
2
k ( O − np ) 2
dístico ∑ i i sigue aproximadamente una distribución χ k−1 , es decir,
i=1 npi
una distribución ji-cuadrado con k-1 grados de libertad, ya que las frecuencias es-
k
peradas de las k clases están ligadas por la relación: ∑ npi = n.
i =1
Se puede pues formular el contraste de bondad de ajuste al modelo multino-

mial del siguiente modo:
k ( Oi − npi )2 , χ 2
El estadístico ∑ k −1 si H0 es cierta siempre que se verifique
i =1 npi
que npi ≥ 5, • ∀i = 1, 2,..., k.
k (Oi − npi )2
Se acepta H0 si el valor de ∑ para los datos de la muestra es menor
i =1 npi
que el valor crítico χα2 ;k−1 , ya que si el estadístico toma el valor 0 o valores pró-
ximos a cero significa que el ajuste a esa distribución teórica es bueno. Sólo si se
k
(Oi − npi )2 , y poco probable en
obtiene un valor muy grande del estadístico ∑ npi
i =1
el supuesto de que H0 sea cierta, se rechazará H0.
Por tanto se acepta H0 si el estadístico pertenece a RAα =  0, χα2 ;k−1 , la región)
de aceptación. En consecuencia la región crítica será RCα =  χα2 ;k −1 , + ` . )
Ya se puede dar respuesta a las preguntas planteadas al comienzo de este epí-
grafe en los Ejemplos 12.1. y 12.2.
UNA MANERA DE RESOLVER EL EJEMPLO 12.1

Se cruzan individuos heterocigóticos, Aa, respecto de un carácter. De 70 des-
cendientes elegidos al azar se observan 20 individuos aa. Según las leyes de Mendel
1
la proporción esperada de individuos, aa, es p = . ¿A partir de los datos de la
1 4
muestra se puede admitir que p = ?
4
Si A1 es el suceso «el individuo es de genotipo aa», se quiere saber si se puede

1
admitir que p = P( A1 ) = .
4
Se quiere contrastar la hipótesis nula:
El estadístico
)
La región crítica al nivel α = 0,05 es: RCα =0 ,05 =  χα2 =0 ,05;1 , + ` = [ 3, 841, + ` ) .
Calculando
Por tanto se acepta H0, lo que significa que se puede admitir al nivel α = 0,05
1
que p = P( A1 ) = .
4
PROCEDIMIENTO PARA RESOLVER EL EJEMPLO 12.2

Con el objeto de comprobar experimentalmente las proporciones fenotípicas de
la segunda generación filial en el cruce dihíbrido de dos individuos, uno dominante
AABB y otro recesivo aabb, con dominancia completa, es decir, las proporciones
de todos los fenotipos posibles al cruzar dos híbridos AaBb, como afirman las leyes de
Mendel, se han realizado cruces de guisantes heterocigóticos respecto de dos ca-
racteres, AvLr (Amarillo, verde, Liso, rugoso. A domina sobre v y L sobre r) y se
han obtenido los siguientes resultados:
Fenotipo AL Ar vL vr Total
Número de guisantes 253 102 97 28 480
¿Se puede aceptar que estos datos corresponden a las proporciones esperadas?
El cruce de dos individuos heterocigóticos respecto a dos caracteres da lugar

en la primera generación filial a individuos de los siguientes genotipos:
8
AvLr
7
gametos
AL Ar vL vr
gametos
AL AALL AALr AvLL AvLr
Ar AALr AArr AvLr Avrr

AvLr
vL AvLL AvLr vvLL vvLr
vr AvLr Avrr vvLr vvrr
Esto significa que las proporciones esperadas de cada uno de los fenotipos po-
sibles en la primera generación filial, según las leyes de Mendel, son:
Designando por:
O1 = «n.o de descendientes de fenotipo AL»
O2 = «n.o de descendientes de fenotipo Ar»
O3 = «n.o de descendientes de fenotipo vL»
O4 = «n.o de descendientes de fenotipo vr»
Fenotipo AL Ar vL vr
N.o de guisantes O1 = 253 O2 = 102 O3 = 97 O4 = 28 n = 480
Se quiere contrastar si con los datos de esta muestra se puede aceptar la hi-
pótesis nula:
H0 : E(Oi ) = npi , ∀i = 1, 2, 3, 4 es decir,

H1 : E(Oi ) ≠ 480 pi al menos para un valor de i.
El estadístico
)
La región crítica al nivel α = 0,05 es: RCα =0 ,05 =  χα2 =0,05;3 , + ` = [ 7, 815, + ` ) .
Calculando
Por tanto se acepta H0, es decir, los datos no contradicen las proporciones es-
peradas según las leyes de Mendel.
12.3. PRUEBA χ2 DE BONDAD DE AJUSTE DE UNA

DISTRIBUCIÓN OBSERVADA A UNA TEÓRICA
Se trata de contrastar a partir de n observaciones de una variable X si se pue-

de aceptar o no que esta variable sigue una distribución teórica dada, ya sea dis-
creta o continua. Se aplicará la prueba χ2 para contrastar el ajuste de la distribu-
ción de frecuencias observadas a un modelo teórico de distribución. La hipótesis
nula, H0, será: «La distribución de la variable observada corresponde al modelo fi-
jado». La hipótesis alternativa, H1, es la negación de H0.
Se pueden plantear dos casos:
12.3.1. El modelo especifica completamente la distribución

a ajustar
Así, si se trata de realizar el contraste:
o bien
Se agrupan los datos en k clases, que serán valores posibles de la variable

en el caso de las distribuciones discretas, como la de Poisson, o bien inter-
valos en el caso de las distribuciones continuas, como es la Normal. A con-
tinuación, en el supuesto de que la hipótesis nula sea cierta, se determinan las
probabilidades pi correspondientes a cada clase según el modelo que se es-
pecifica en la hipótesis H0 y se calculan las frecuencias esperadas, Ei = npi,
para cada clase.
2
k ( O − np )
Siempre que npi ≥ 5 , ∀i = 1, 2,..., k , el estadístico ∑ i i
, χ k2−1 , si H0
i =1 npi
es cierta y la región crítica correspondiente al nivel α es:
Si se encuentra alguna clase con frecuencia esperada menor que 5, se agrupa

esta clase con las contiguas necesarias hasta que npi ≥ 5 , ∀i. Si después de agru-
par clases con este motivo, quedan m clases todas con frecuencias esperadas
m (Oi − npi )2 , χ 2
mayores o iguales a 5 el estadístico ∑ m−1 si H0 es cierta.
i =1 npi
12.3.2. El modelo sólo especifica el tipo de distribución a ajustar,

pero no se conocen los valores de los parámetros del modelo
En la prueba
H0 : X sigue una distribución Normal,

o bien,
H0 : X sigue una distribución de Poisson.
En primer lugar, hay que estimar los parámetros del modelo.

Para el caso de la distribución normal, se elige el estimador de máxima verosi-
militud de la media poblacional µ que es: µˆ = X , media muestral, que es también un
estimador centrado. Para estimar la varianza poblacional de esta distribución se
utiliza la cuasivarianza muestral, el estimador centrado de la varianza.
Para estimar el parámetro λ de la distribución de Poisson, como para esta dis-
tribución es: µ = E ( X ) = λ , se elige λˆ = µˆ = x .
Ahora, en el supuesto de que sea cierta, el estadístico
siendo k el número de clases con frecuencias esperadas Ei = npi mayores o iguales

a 5 y r el número de parámetros estimados a partir de los datos de la muestra.
Por tanto, por cada parámetro que se estima a partir de los datos de la muestra
se pierde un grado de libertad, pues esto equivale a incluir una nueva relación.
Si el número de clases es grande, se facilita el cálculo del estadístico
simplificando el sumatorio del siguiente modo:
Así, en el Ejemplo 12.2. se tiene
que es el mismo valor obtenido anteriormente.
EJEMPLO 12.3
Se han examinado 100 hojas de cerezo afectado de pulgón verde y se ha conta-
do el número de pulgones por hoja. Los resultados obtenidos son los siguientes.
N.o de pulgones
0 1 2 3 4 5 6 7 ó más
por hoja
N.o de hojas 39 21 18 9 5 4 3 1
a) Ajustar a los datos una distribución de Poisson.

b) Verificar la bondad del ajuste al nivel α = 0,05.
a) En primer lugar se estima el valor del parámetro λ de la distribución de

Poisson,
b) Si X = «número de pulgones verdes por hoja» se trata de realizar el contraste:
En la siguiente tabla se recogen las frecuencias observadas y las esperadas en

el supuesto de que la hipótesis H0 sea cierta:
pi = P( X = xi ) =
xi ni = Oi Ei = npi Oi2
1, 49 xi −1,49 Oi2
= e npi
xi !
0 39 0,2254 22,54 1.521 67,4800

1 21 0,3358 33,58 441 13,1328
2 18 0,2502 25,02 324 12,9496
3 9 0,1243 12,43 81 6,5165
 4 5 0,0463 4, 63 
 5
 4  0,0138
1, 38 
≥ 4 13 0,0034  6, 43 169 26,2830
3 0, 34 
 6 0,0008
 ≥ 7 1  0, 08
8 5 Oi2
n = 100 ∑ pi = 1 ∑ = 126, 3619
i =1 i =1 npi
Como no son mayores o iguales a 5 todas las frecuencias esperadas, se agrupan va-
lores de la variable hasta conseguir todas las Ei = npi ≥ 5, en este caso esto se consigue
agrupando los valores de la variable desde 4 en adelante; quedan por tanto cinco clases.
El estadístico del contraste:
si la hipótesis H0 es cierta, sigue una distribución χ32 pues quedan 5 clases y se ha

estimado el valor de un parámetro.
La región crítica al nivel α = 0,05 es:
Se calcula el valor del estadístico:

Como 26, 3619 ∈ RCα =0 ,05 = [ 7, 815, + ` ) se rechaza la hipótesis nula al nivel
α = 0,05.
Además, 26, 3619 ∈ RCα =0 ,01 = [11, 345, + ` ) y también 26, 3619 ∈ RCα =0 ,001 =
= [16, 268, + ` ) y por tanto se rechaza la hipótesis H0 al nivel α = 0,001, los datos
de la muestra no se ajustan a la distribución P(λ = 1, 49).
EJEMPLO 12.4
Se viene aceptando la hipótesis de que la distribución del diámetro máximo X,
en cm, de pinos en un gran bosque sigue una distribución N (40,8). Después de va-
rios años de sequía, se elige una muestra aleatoria de 100 pinos. Al medir sus diá-
metros máximos se han obtenido los siguientes resultados:
X Hasta 27 28-32 33-37 38-42 43-47 48-52 Desde 53

ni 3 10 18 27 22 15 5
¿Se puede admitir que sigue siendo válida la hipótesis sobre la distribución de
los diámetros? Razónese la respuesta y explíquese la conclusión obtenida.
Se trata de realizar la prueba de hipótesis:
Para realizar este contraste hay que determinar las probabilidades pi correspon-
dientes a cada una de las clases [ Li −1 , Li ) y para esto primero hay que hallar los lími-
)
tes reales de las clases. La probabilidad de cada clase es pi = P ( X ∈[ Li −1 , Li ) y tipi-
ficando la variable X:
En la siguiente tabla se representan las probabilidades de las clases, las fre-

cuencias esperadas de cada clase y los cálculos necesarios para determinar el va-
lor del estadístico de contraste.
Oi Ei
L − 40 Oi 2
 Li −1 , Li ) o zi = i P( Z < zi ) pi o Oi 2
8 npi
ni npi
Hasta 27,5 3 –1,56 0,05938 0,05938 5,938 9 1,5157
[27,5, 32,5) 10 –0,94 0,17361 0,11423 11,423 100 8,7543
[32,5, 37,5) 18 –0,31 0,37828 0,20467 20,467 324 15,8304
[37,5, 42,5) 27 0,31 0,62172 0,24344 24,344 729 29,9458
[42,5, 47,5) 22 0,94 0,82639 0,20467 20,467 484 23,6478
[47,5, 52,5) 15 1,56 0,94062 0,11423 11,423 225 19,6971
Desde 52,5 5 +⬁ 1 0,05938 5,938 25 4,2102
7
7 Oi2
100
∑ =
∑ pi = 1 i =1 npi
i=1
= 103, 6013
Como las frecuencias esperadas Ei = npi ≥ 5, ∀i = 1, 2,..., 7 no hay que agru-

par clases y como no se ha estimado ningún parámetro a partir de los datos de la
muestra, el estadístico
La región crítica es
El valor del estadístico para los datos de la muestra dada es:
Por tanto, se acepta la hipótesis nula H0 : X , N ( µ = 40, σ = 8). Esto sig-

nifica que no se puede afirmar, a partir de los datos recogidos, que haya va-
riado la distribución del diámetro máximo de los pinos después de los años de
sequía.
EJEMPLO 12.5
La distribución de frecuencias de los diámetros normales en cm, es decir, los
diámetros de los árboles a 1,30 m del suelo, de 100 alcornoques elegidos al azar es:
Diámetros 15-20 20-25 25-30 30-35 35-40 40-45

N.o de alcornoques 3 15 28 39 11 4
a) Ajustar a los datos una distribución Normal.

b) Probar la bondad del ajuste a un nivel α = 0,05.
a) En este caso lo primero que hay que hacer es estimar los parámetros de la
distribución Normal: µˆ = x y σˆ = s.
 Li −1 , Li ) xi ni xi ni xi2 ni
[15, 20) 17,5 3 52,5 918,75

[20, 25) 22,5 15 337,5 7.593,75
[25, 30) 27,5 28 770,0 21.175,00
[30, 35) 32,5 39 1.267,5 41.193,75
[35, 40) 37,5 11 412,5 15.468,75
[40, 45) 42,5 4 170,0 7.225,00
6 6
n =100 ∑ xi ni =3.010, 0 ∑ xi2 ni = 93.575, 00
i =1 i =1
Por tanto σˆ = s = 30, 0404 = 5, 4809.
b) Se va a contrastar la hipótesis:
H0 : X , N ( µ = 30, 1 cm, σ = 5, 4809 cm ) frente a la alternativa:

H1 : X no sigue N ( µ = 30,1 cm, σ = 5, 4809 cm )
El estadístico a utilizar es:
pues al haber estimado dos parámetros a partir de los datos de la muestra se han
perdido dos grados de libertad.
Para averiguar el valor de k se necesita conocer las frecuencias esperadas de
las clases.
Para ello, se construye la siguiente tabla:
Oi2
[ Li −1, Li ) ni zi P( Z < zi ) pi npi Oi2
npi
Hasta 20 3 –1,84 0,03288 0,03288 3, 288 

18 17, 619 324 18,3892
[20, 25) 15 –0,93 0,17619 0,14331 14, 331
[25, 30) 28 –0,02 0,49202 0,31583 31,583 784 24,8235

[30, 35) 39 0,89 0,81327 0,32125 32,125 1.521 47,3463
[35, 40) 11 1,81 0,96485 0,15158 15,158 22

15 18, 673 12,0495
Desde 40 4 +⬁ 1 0,03515 3, 515  5
6
4 Oi2
n = 100 ∑ =
∑ pi = 1 i =1 npi
i =1
= 102, 6085
El estadístico ∑
4 (Oi − npi )2 =
Oi2 4
− n , χ 42−2−1 si H0 es cierta, ya que se han
∑
i =1 npi i =1 npi
agrupado las dos primeras clases y también las dos últimas para conseguir que
Ei = npi ≥ 5, ∀i.
La región crítica del contraste es:
Se calcula el valor del estadístico y se concluye:

por tanto se acepta la hipótesis nula:
al nivel α = 0,05.
EJEMPLO 12.6
Se ha observado en 100 familias españolas con cinco hijos el número de muje-
res y se han obtenido los siguientes resultados:
xi = N.o de hijas 0 1 2 3 4 5
ni = N.o de familias 1 9 28 33 26 3
a) Ajustar a los datos una distribución binomial.

b) Probar la bondad del ajuste.
a) Si se designa por X «el n.o de hijas de una familia de cinco descendientes»,

los valores posibles de la variable X son: x1 = 0, x 2 = 1, x3 = 2, x 4 = 3, x 5 = 4, x6 = 5.
La distribución de esta variable es B(n = 5, p).
El valor de p se desconoce y por tanto se tiene que estimar a partir de los da-
tos de la muestra. Como se sabe que la esperanza matemática de la distribución– bi-
nomial es µ = np, que n = 5 y que el estimador de máxima verosimilitud de µ es X, se
puede calcular un estimador de p a partir de este estimador de µ del siguiente
modo:
Planteamos así la hipótesis:
b) El estadístico para probar la bondad del ajuste es:

k ( Oi − npi )2 , χ 2 en el supuesto que la hipótesis H0 sea cierta, ya que
∑ k −1−1
i =1 npi
se ha perdido un grado de libertad al estimar el parámetro p, siendo k los valores
de X que tengan frecuencias esperadas: Ei = npi mayores o iguales a 5. En el cálculo
del estadístico de contraste n es el tamaño de la muestra y por tanto n = 100 y las pro-
 5 5− x
babilidades pi = P( X = xi ) =   0, 566 xi (1 − 0, 566 ) i , ∀i = 1, 2..., 6.
x
 i
Oi2
xi Oi = ni pi Ei = npi Oi2
npi
0 1 0,0154 1,54 
10 11, 58 100 8,6356
1 9 0,1004 10,04 
2 28 0,2619 26,19 784 29,9351

3 33 0,3415 34,15 1.089 31,8887
4 26 0,2227 22,27 676 30,3547
5 3 0,0581 5,81 9 1,5491
5 Oi2
n =100 ∑ = 102, 3632
i =1 npi
Como la primera frecuencia esperada es menor que 5, se han agrupado los

dos primeros valores de la variable, queda por tanto k = 5, así el estadístico
5 (Oi − npi )2 , χ 2 y la región crítica del contraste al nivel α = 0,05 es:
∑ 3
i=1 npi
Concluimos que se acepta H0 al nivel α = 0,05.

Los datos de la muestra no proporcionan indicios que haga suponer que la dis-
tribución de X no sea B( n = 5, p = 0, 566).
12.4. PRUEBA χ2 DE INDEPENDENCIA DE DOS VARIABLES
Si se dispone de una muestra de tamaño n de una variable aleatoria bidimen-

sional (X, Y), en la que los valores observados pueden responder incluso a una es-
cala nominal, se verá a continuación cómo mediante una prueba χ2 se puede
contrastar la independencia de las dos variables.
Si los valores de X se clasifican en r clases A1 , A2 ,..., Ar , siendo E1 = U Ai y

r
los de la variable Y en k clases B1 , B2 ,..., Bk , siendo E2 = U Bj , cada par (xi, yj) de

i=1
k
j =1
valores observados de la variable aleatoria bidimensional (X, Y) se dice que per-
( )
tenece a la clase Cij = ( Ai , E2 ) ∩ E1 , Bj , si x i ∈ Ai e y j ∈ Bj . El número de pares
observados que pertenecen a la clase Cij se indicará por nij. Así se pueden ordenar los
datos en una tabla de doble entrada, como la siguiente, que recibe el nombre de tabla
de contingencia
Y
B1 B2 … Bk ni•
X
A1 n11 n12 … n1k n1•
A2 n21 n22 … n2k n2•
… … … … … …
Ar nr1 nr2 … nrk nr•
n•j n•1 n•2 … n•k n
k r r k r k
Donde ni• = ∑ nij ; n• j = ∑ nij ; n = ∑ ∑ nij = ∑ ni• = ∑ n• j
j =1 i=1 i =1 j =1 i =1 j =1
Si las variables aleatorias X e Y son independientes y se representa por:
(
se verifica que pij = P ( Ai , E2 ) ∩ E1 , Bj ( )) = P ( A , E ) ⋅ P ( E , B ) = p
i 2 1 j i• ⋅ p• j
Para contrastar pues la independencia de las variables X e Y se plantean las hi-
pótesis:
Se supone ahora que es cierta la hipótesis H0, y se determinan las frecuencias

esperadas de cada clase Cij. Para ello se estiman, a partir de los datos recogidos las
probabilidades pij , pi • y p• j .
nij n 
El estimador p̂ij =
n  n
( )
verifica que E pˆ ij = E  ij  = pij ⇔ E nij = npij . ( )
ni• n
Del mismo modo p̂í • = verifica que E ( pˆ i• ) = E  i•  = pi• ⇔ E ( ni• ) = npi• .
n  n 
n n 
( )
y también p̂• j = • j verifica que E pˆ • j = E  • j  = p• j ⇔ E n• j = np• j .
n  n 
( )
Si H0: pij = pi• p• j ∀i = 1, 2,..., r, ∀j = 1, 2,..., k es cierta, entonces las frecuen-
( )
cias esperadas de cada clase Cij, es decir, Eij = E nij = npij = npi• p• j se estiman a
partir de los datos de la muestra por:
Para realizar el contraste, se utiliza el estadístico:
el sumatorio se puede calcular más fácilmente, como ya se explicó anteriormente

2
k
∑∑
(O r
ij − Eij ) k
= ∑∑
r Oij 2
− n que simplificándolo queda:
j =1 i =1 Eij j =1 i =1 Eij
esta fórmula será la que se utilice para el cálculo del estadístico.

ni • n• j
Si todas las frecuencias esperadas Eij = son mayores o iguales a 5, el
n
estadístico anterior sigue aproximadamente una distribución χ (2k −1)(r −1) .
Para justificar el número de grados de libertad hay que tener en cuenta que
hay kr clases pero hay una relación entre las frecuencias observadas pues
k r
∑ ∑ nij = n, por ello se pierde un grado de libertad. Además se pierden otros (r-1)
j =1 i=1
r
grados de libertad por estimar (r-1) valores pi• pues por ser ∑ pi• = 1 con (r-1)
i =1
probabilidades están determinadas las r. Igualmente, se pierden otros (k-1) grados
k
de libertad al estimar (k-1) probabilidades p•j pues también ∑ p• j = 1.
j =1
Resumiendo, el número de grados de libertad serán:
Por tanto, si Eij ≥ 5, ∀i = 1, 2,..., r y ∀j = 1, 2,..., k , la región crítica corres-

pondiente al nivel α es:
EJEMPLO 12.7.
Se desea contrastar si hay dependencia entre la edad y los trastornos derivados
de la exposición a altas temperaturas ambientales en una gran ciudad. Para ello se
han seleccionado 2.000 personas de diferentes edades, elegidas al azar, y se ha lo-
grado examinar a 1.969. La siguiente tabla recoge los resultados:
Trastornos por calor

Sí No ni•
Edad
Hasta los 12 años 195 483 n1• = 678
[12,25) 90 503 n2• = 593
[25,70) 172 398 n3• = 570
70 años o más 69 59 n4• = 128
n•j n•1 = 526 n•2 = 1.443 n = 1.969
La hipótesis a contrastar es:
Para determinar el número de grados de libertad del estadístico de contraste se

calculan todas las frecuencias esperadas Eij para ver cuáles son mayores o iguales a 5.
Como todas las frecuencias esperadas son mayores o iguales a cinco, el esta-
2
2
dístico ∑ ∑
(O4
ij − Eij ) , χ 32 y la región crítica del contraste al nivel α = 0,05 es:
j =1 i=1 Eij
Se calcula el valor del estadístico para los datos de la muestra:
Como el valor del estadístico pertenece a la región crítica al nivel α = 0,05, se

rechaza la hipótesis nula a este nivel. También se rechaza al nivel α = 0,001 pues
la región crítica para este nivel RCα =0 ,001 = [16, 266, + ` ) también contiene el valor
del estadístico para los datos recogidos. En consecuencia, a partir de los datos de
esta muestra se concluye que los trastornos derivados de la exposición a altas tem-
peraturas ambientales no son independientes de la edad. Se observa más discre-
pancia entre los valores observados y los esperados, en el supuesto que la hipó-
tesis de independencia fuera cierta, en el grupo de personas de mayor edad.
12.5. PRUEBA χ2 DE HOMOGENEIDAD
También se puede contrastar con una prueba χ2 si los datos recogidos de va-
rias muestras se puede aceptar que pertenecen a la misma población o que las dis-
tribuciones de la variable observada es la misma en todas las poblaciones.
Se observa una variable aleatoria X organizada en r clases, o que presenta r
modalidades, A1 , A2 ,..., Ar en k poblaciones independientes B1 , B2 ,..., Bk y se pre-
tende contrastar la hipótesis:
H0: La distribución de la variable aleatoria X es la misma en las k poblaciones.
frente a la alternativa.
H1: La distribución de la variable aleatoria X no es la misma en las k poblaciones.
Para ello se toma una muestra de tamaño ni en cada una de las poblaciones y
se recogen las frecuencias de cada una de las clases o modalidades:
Poblaciones
Clases B1 B2 … Bk Totales
A1 n11 n12 … n1k n1•
A2 n21 n22 … n2k n2•
… … … … … …
Ar nr1 nr2 … nrk nr•
Tamaños muestrales n1 n2 … nk n
k r r r k
Donde ni• = ∑ n ij ; n j = ∑ nij ; n = ∑ ni• = ∑ ∑ nij
j =1 i =1 i=1 i=1 j =1
Si se designa por:
Se trata de realizar el contraste de hipótesis:
En el supuesto que H0 es cierta, las frecuencias esperadas de cada una de las clases
en las diferentes poblaciones son Eij = n j P ( X ∈ Ai ) = n j pi . Como se desconoce el
ni • n n j ni •
valor de pi, se estima por pˆ i = . Así, Eij = n j pˆ í = n j i• = . Si todas las fre-
n n n
cuencias esperadas Eij ≥ 5, ∀i = 1, 2,..., r, ∀j = 1, 2,..., k el estadístico de contraste, que es:
se puede considerar suma de k variables aleatorias independientes, cada una de

2
ellas χ r−1 , y será en consecuencia una χ k2( r −1)−( r −1) , por haber estimado r-1 pará-
r
metros pi, ya que ∑ pi = 1 y con r-1 valores quedan determinados los r.
i=1
Por tanto
esto significa que se rechazará la hipótesis nula al nivel α si el valor del estadís-
tico para los datos recogidos pertenece a la región crítica que es:
EJEMPLO 12.8.
Se ha realizado un estudio para comparar la proporción de enebros con respec-

to a otros arbustos o árboles de porte bajo en distintas zonas arbustivas de la pro-
vincia de Segovia. En cada zona se observaron 100 arbustos o árboles y se obtu-
vieron los siguientes resultados:
Zonas Z1 Z2 Z3 Z4
Enebros 56 60 62 59
Otros arbustos 44 40 38 41
o árboles
¿Se podría afirmar con probabilidad del 95% que la proporción de enebros es
igual en las cuatro zonas?
Se plantea la hipótesis nula:
frente a la alternativa
Se calculan las frecuencias esperadas Eij.

n j n1• 100 ⋅ 237
E11 = E12 = E13 = E14 = E1 j = = = 59, 25 ≥ 5, en este caso coin-
n 400
ciden por ser los tamaños muestrales de las cuatro muestras iguales.
Análogamente:
En este caso, el estadístico de contraste ∑ ∑

(O 2 4
ij − Eij ) , χ 32 y por tanto la
j =1 i =1 Eij
)
región crítica al nivel α = 0,05 es: RCα =0 ,05 =  χα2 =0,05;3 = [ 7, 815, + ` ) .
En consecuencia, se acepta la hipótesis nula al nivel α = 0,05. Es decir, con con-

fianza del 95% se afirma que la proporción de enebros es la misma en las cuatro zonas.
12.6. PRUEBA DE KOLMOGOROV-SMIRNOV

PARA UNA MUESTRA
La prueba de Kolmogorov-Smirnov, que es un contraste no paramétrico, se utiliza

para determinar la bondad de ajuste de una distribución empírica a una teórica. Es vá-
lida sólo para variables aleatorias continuas. Se trata de un contraste alternativo a la
prueba χ2 de bondad de ajuste y tiene la ventaja de que se puede aplicar incluso aun-
que el tamaño de la muestra sea pequeño. Además, la prueba de Kolmogorov-Smir-
nov tiene mayor potencia que la χ2, es decir, la probabilidad de rechazar la hipótesis
nula siendo falsa es mayor en la de Kolmogorov-Smirnov que en la de χ2.
Esta prueba no paramétrica permitirá contrastar si los datos de una muestra se
ajustan a una distribución de probabilidad. Como caso particular sirve para con-
trastar si los datos de una muestra proceden de una distribución normal, condición
necesaria para aplicar contrastes paramétricos.
Se parte de una muestra de n observaciones de una variable aleatoria X y se

trata de contrastar la hipótesis H0: X ~ F0, siendo F0 una función de distribución
dada, frente a la alternativa H1: los datos no proceden de la distribución F0.
Para aplicar la prueba de bondad de ajuste de Kolmogorov-Smirnov en primer
lugar se ordenan los valores de la muestra en orden creciente
La distribución empírica Fn de los datos para las n observaciones se define del

siguiente modo:
Es decir, Fn(x) representa la proporción de elementos de la muestra que son

inferiores o iguales a x.
Para valores grandes de n, si la hipótesis nula es cierta, las diferencias
Fn ( x ) − F0 ( x ) serán pequeñas para todos los valores de x.
Se toma como estadístico de contraste para una muestra la distancia de Kolmogo-
rov-Smirnov, que mide la disconformidad entre los datos muestrales y la hipótesis nula:
La distribución de probabilidad de Dn no depende de F0, siempre que la dis-

tribución F0 sea continua.
Como la función Fn(x) es una función escalonada, las diferencias máximas se
tendrán en los puntos de salto, es decir, para los valores de x que son los extremos
de los intervalos.
Por tanto, se calcula Dn del siguiente modo:
Se rechaza la hipótesis nula para los valores muy grandes del estadístico. Es
un contraste unilateral a la derecha.
Si se designa por Dn;α el valor crítico que verifica:
es decir, que deja por encima probabilidad α, la región crítica para el nivel α es:
)
 Dn;α , + ` .
Si para los datos dados es el valor de Dn < Dn; α no hay razones para rechazar
la hipótesis nula, y en caso contrario se rechaza dicha hipótesis.
En la Tabla X del Apéndice I, se recogen los valores críticos para distintos ni-
veles de significación y diferentes tamaños muestrales.
En el caso en que la hipótesis nula es cierta, Smirnov dedujo la distribución de
Dn, que no depende de F0, y que verifica que
Además para Dn ( xi ) = máx { Fn ( x i ) − F0 ( x i )} Ä yÄ paraÄ todoÄ d ≥ 0.

1≤i ≤n
De donde se deduce que el valor crítico Dn; α, que deja por encima probabili-
dad α, para valores grandes de n es
Así se han calculado los valores que aparecen en la tabla en la última fila para
valores de n mayores que 100.
EJEMPLO 12.9.
¿Se puede aceptar al nivel α = 0,05 que los 20 decimales siguientes: 0,9085
0,8078 0,1424 0,6289 0,4961 0,6768 0,6680 0,9349 0,7523 0,9405 0,9808 0,4743
0,5525 0,2126 0,7611 0,6501 0,1322 0,7925 0,2726 0,4124 corresponden a una dis-
tribución uniforme continua en el intervalo (0,1)?
Si X es la variable aleatoria cuyos valores observados son los dados, se trata de con-
trastar la hipótesis nula H0 : X , U ( 0, 1) frente a la alternativa H1: X no sigue U(0,1).
En primer lugar se ordenan los decimales dados en orden creciente formando

la columna x(i) y se determinan para cada x(i) los valores de la distribución empírica
( ) ( )
F20 x(i ) y los de F0 x(i ) . En el supuesto de que H0 sea cierta, es
x(i ) ( )
F20 x(i ) ( )
F0 x(i ) F20 ( xi ) − F0 ( xi ) F20 ( xi −1 ) − F0 ( xi )
0,1322 0,05 0,1322 0,0822 0,1322

0,1424 0,10 0,1424 0,0424 0,0924
0,2126 0,15 0,2126 0,0626 0,1126
0,2726 0,20 0,2726 0,0726 0,1226
0,4124 0,25 0,4124 0,1624 0,2124
0,4743 0,30 0,4743 0,1743 0,2243
0,4961 0,35 0,4961 0,1461 0,1961
0,5525 0,40 0,5525 0,1525 0,2025
0,6289 0,45 0,6289 0,1789 0,2289
0,6501 0,50 0,6501 0,1501 0,2001
0,6680 0,55 0,6680 0,1180 0,1680
0,6768 0,60 0,6768 0,0768 0,1268
0,7523 0,65 0,7523 0,1023 0,1523
0,7611 0,70 0,7611 0,0611 0,1111
0,7925 0,75 0,7925 0,0425 0,0925
0,8078 0,80 0,8078 0,0078 0,0578
0,9085 0,85 0,9085 0,0585 0,1085
0,9349 0,90 0,9349 0,0349 0,0849
0,9405 0,95 0,9405 0,0095 0,0405
0,9808 1,00 0,9808 0,0192 0,0308
La región crítica, según los valores de la Tabla X del Apéndice I, es:
De la tabla anterior se obtiene el valor del estadístico:

Por tanto, se acepta la hipótesis nula, es decir, se puede admitir al nivel α =

0,05 que los 20 valores dados se ajustan a una distribución uniforme en el inter-
valo (0,1).
12.6.1. ¿Cómo hacerlo con STATGRAPHICS?

En primer lugar, se introduce la columna de datos y para realizar el contraste
se señala la columna de los datos y se pulsa en Descripción → Distribuciones →
Ajuste de Distribuciones (Datos no censurados).
En la ventana de diálogo se indica que esa columna son los datos y se pulsa
Aceptar.
Para elegir el tipo de distribución que se quiere ajustar, se pulsa en el Resu-
men dado por defecto el botón derecho del ratón y se elige Opciones de Análisis,
que conduce a las Opciones de Distribuciones de Probabilidad, donde se elige
la Uniforme y se pulsa Aceptar. Un resultado gráfico es el que se ve a conti-
nuación:
0,9085
0,8078
0,1424
0,6289 Histograma para Col_1
0,4961 8
0,6768
0,6680
0,9349 6
Frecuencia
0,7523
0,9405 4
0,9808
0,4743
0,5525 2
0,2126
0,7611
0,6501 0
0,1322 0 0,3 0,6 0,9 1,2 1,5
0,7925 Col_1
0,2726
0,4124
En los resultados numéricos del análisis se observa que se ajusta a una distri-
bución uniforme en el intervalo [0,1322, 0,9808]
Resumen del Análisis
Datos: Col_1
20 valores comprendidos desde 0,1322 hasta 0,9808
Distribución uniforme ajustada:

límite inferior = 0,1322
límite superior = 0,9808
Los resultados de la prueba de Kolmogorov-Smirnov son los siguientes:
Estadístico DMAS de Kolmogorov = 0,0879802

Estadístico DMENOS de Kolmogorov = 0,185317
Estadístico DN global de Kolmogorov = 0,185317
P-Valor aproximado = 0,510443
Estadístico EDF Valor Forma Modificada P-Valor

-----------------------------------------------------------------------
Kolmogorov-Smirnov D 0,185317 0,855559 >=0.10
Anderson-Darling A^2 0,475074 0,475074 >=0.10
-----------------------------------------------------------------------
* Indica que el p-valor se ha comparado con las tablas de valores críti-
cos especialmente construido para el ajuste de la distribución actual-
mente seleccionada. Otros p-valores están basados en tablas generales y
pueden ser muy conservadores.
Estos resultados indican que no hay razones para rechazar la hipótesis de que
los datos proceden de una distribución uniforme.
Los valores del estadístico de contraste no coinciden con los calculados an-
teriormente porque se ajustaron a una distribución uniforme en el intervalo (0,1)
y el STATGRAPHICS determina el intervalo de la distribución uniforme con los
valores mínimo y máximo de la muestra.
EJEMPLO 12.10.
Aplicando la prueba de Kolmogorov-Smirnov, ¿se puede admitir que las
medidas de X, diámetro máximo de los troncos de pinos en cm, para la siguiente
muestra
X Hasta 27 28-32 33-37 38-42 43-47 48-52 Desde 53

ni 3 10 18 27 22 15 5
se ajustan a una distribución N (40,8)?
Se trata de contrastar las hipótesis:
Para realizar este contraste, como no tenemos la información de las 100 ob-
servaciones, se determinan los límites reales de las clases y para los límites reales
superiores, a los que se les asigna la frecuencia acumulada hasta esa clase, se cal-
cula el estadístico de la prueba
Tipificando los valores Li, en el supuesto que la hipótesis nula sea cierta, se
 L − 40 
obtiene la columna F0 ( Li ) = P  Z < i .
 8 
Oi
Li − 40 F0 ( Li ) =
 Li −1 , Li ) o Fn ( Li ) zi = F100 ( Li ) − F0 ( Li )
8 = P( Z < zi )
ni
Hasta 27,5 3 0,03 –1,56 0,05938 0,02938
[27,5, 32,5) 10 0,13 –0,94 0,17361 0,04361
[32,5, 37,5) 18 0,31 –0,31 0,37828 0,06828
[37,5, 42,5) 27 0,58 0,31 0,62172 0,04172
[42,5, 47,5) 22 0,80 0,94 0,82639 0,02639
[47,5, 52,5) 15 0,95 1,56 0,94062 0,00938
Desde 52,5 5 1,00 +⬁ 1 0
n = 100
La región crítica, según los valores críticos de la Tabla X del Apéndice I, es

)
RCα =0 ,05 =  D100; 0 ,05 , + ` = [ 0, 134, + ` ) .
El valor del estadístico es D100 = máx F100 ( Li ) − F0 ( Li ) = 0, 06828 y, como no

i
pertenece a la región crítica para α = 0,05, no hay razones para no admitir la hi-
pótesis nula con los datos de esta muestra. Este resultado coincide con el obteni-
do por la prueba χ2.
Se acepta, por tanto, al nivel α = 0,05, que los datos se ajustan a una distri-
bución N(40,8).
Obsérvese que se obtendría el mismo resultado para α = 0,01.
12.7. CONTRASTE χ2 DE McNEMAR PARA DOS MUESTRAS

APAREADAS
Se dispone de información de n individuos, o elementos de una población en
dos situaciones distintas, por ejemplo nivel de colesterol HDL en sangre antes y
después de un tratamiento, calificación antes y después de una explicación de la
materia en clase o antes y después del uso de determinado software, antes o des-
pués de un debate en TV, etc. El objetivo de la prueba χ2 de McNemar es evaluar
la significación de los cambios. Las dos observaciones están apareadas, o empa-
rejadas, porque corresponden a los mismos elementos e1,e2,...,en en las dos situa-
ciones.
Para los datos registrados se considera una variable aleatoria discreta de Ber-
noulli. X = 0 representa en los ejemplos anteriores: nivel de colesterol LDL en
sangre menor que 160, suspenso, no está a favor del candidato C1, … y X = 1 lo
contrario: nivel de colesterol LDL en sangre mayor o igual a 160, aprobado,
está a favor del candidato C1, etc.
Con los datos recogidos se rellena la tabla de doble entrada de frecuencias ob-
servadas, contando los que están en la situación X = 0 antes y después, los que pa-
san de X = 0 a X = 1, los que cambian de X = 1 a X = 0 y los que antes y después
repiten la información X = 1.
Después
X=0 X=1
Antes
X=0 n1 n2
X=1 n3 n4
4
siendo n = ∑ ni .
i =1
Indicando por np1 la frecuencia esperada de la casilla de la fila 1 columna 2,

los que pasan de X = 0 a X = 1, y por np2 la frecuencia esperada de la casilla de la
fila 2 columna 1, los que cambian de X = 1 a X = 0, se trata de contrastar
H0 :Ä np1 = np2 frente a la alternativa H1 :Ä np1 ≠ np2 . En el caso de que sea cierta la
hipótesis nula, la tabla de frecuencias esperadas sería:
Después
X=0 X=1
Antes
n2 + n3
X=0 n1
2
n2 + n3
X=1 n4
2
Para evaluar la significación de los cambios basta con considerar el estadísti-

co de contraste:
Operando y simplificando, se obtiene:
n2 + n 3
que sigue una distribución χ12 siempre que Ei = ≥ 5.
2
Utilizando la corrección de Yates, pues se aproxima una distribución discre-
ta por una continua, cuando las frecuencias esperadas son pequeñas, se mejora la
aproximación. El estadístico después de aplicar la corrección de Yates es:
Si el valor del estadístico de contraste pertenece a la RCα =  χα2 ;1 , + ` se )

rechaza la hipótesis nula. En ese caso se afirma con confianza 1–a que hay di-
ferencia entre los resultados de «antes» y «después».
EJEMPLO 12.11.
La siguiente tabla recoge las frecuencias observadas al encuestar sobre su in-
tención de voto por el candidato C1 a cuarenta personas elegidas al azar, antes y des-
pués de un debate en TV. Se indica por X = 0 «No vota al candidato C1» y por X = 1
«Vota al candidato C1».
Después
X=0 X=1
Antes
X=0 n1 = 5 n2 = 2
X=1 n3 = 18 n4 = 15
¿Son significativos los cambios?
H :Ä np = np2
Las hipótesis del contraste son:  0 1
 H1 :Ä np1 ≠ np2
Es decir, la hipótesis nula es que las frecuencias esperadas de las casillas de la fila 1
columna 2 y de la fila 2 columna 1 son iguales y la alternativa la negación de ésta.
2
Como Ei =
2 + 18
= 10 ≥ 5 el estadístico ∑
2 (O − E )
i i
2
(=
)
n2 − n3 − 1
, χ12
2 i =1 Ei n2 + n3
y para α = 0, 01Ä Ä laÄ Ä RCα =0 ,01 = [ 6, 635, + ` ) .
Con los datos observados el valor del estadístico de contraste es 11, 25 ∈ RCα =0,01 =
= [ 6, 635, + ` ) . Por tanto, se rechaza la hipótesis nula con confianza del 99%,
esto indica que los cambios son significativos. El valor obtenido es muy alto,
mucho mayor que el valor crítico correspondiente a α = 0,005, por tanto se pue-
de afirmar que los cambios observados son muy significativos.
12.8. PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON

PARA DOS MUESTRAS APAREADAS
Esta prueba es una alternativa no paramétrica a la prueba de la t de Student

para dos muestras apareadas. Como este contraste no exige requisitos para poderlo
aplicar, se puede utilizar siempre para comparar dos muestras emparejadas.
Se dispone, como en el contraste χ2 de McNemar, de información en dos si-
tuaciones distintas para una muestra de n elementos, elegida al azar en la pobla-
ción pero, a diferencia con aquella, se observa una variable X continua, por ejem-
plo el tiempo que tarda cada rata de las elegidas en recorrer el laberinto 1 y el
laberinto 2, las calificaciones numéricas, en el rango de 0 a 10, para n individuos
elegidos al azar en dos pruebas diferentes o en dos materias distintas. El objetivo
es contrastar si hay diferencias entre las dos pruebas.
Se dispone pues de los valores de una variable numérica para los n elementos
que forman la muestra y en dos contextos distintos, es decir, se tienen dos mues-
tras apareadas y con los valores de la variable numérica se puede considerar no
sólo el signo de la diferencia sino también su magnitud, lo que permite ordenar las
diferencias de menor a mayor.
Para cada elemento de la muestra se calcula el valor de las diferencias di entre
los resultados de la prueba 1 y de la prueba 2, se determinan los valores absolutos
de estas diferencias. Se descartan todos los pares que dan diferencia 0 y a los n1
restantes se les asigna un rango de 1 a n1, ordenando los valores absolutos de las
diferencias de menor a mayor. En el caso en que haya diferencias con el mismo
valor absoluto, a todas éstas se les da el mismo rango, que es la media aritmética
de los rangos que les corresponderían si las diferencias fueran algo distintas. A
continuación se les añade el signo menos a los rangos que procedían de diferen-
cias negativas y el resto son rangos positivos.
Se calcula SRP, la suma de los valores absolutos de los rangos positivos, y
SRN, la suma de los valores absolutos de los rangos negativos y se indica por S la
suma de los rangos menos frecuentes, es decir, S = min {SRP, SRN}.
Se trata de contrastar la hipótesis:
H0: las medianas de las dos poblaciones de las que proceden las muestras
son iguales.
H1: las medianas de las dos poblaciones correspondientes a las muestras son
diferentes.
Si es cierta H0, las diferencias entre los resultados de las dos muestras se po-
drían considerar como una muestra de una población con mediana cero.
La suma de los valores absolutos de los rangos positivos y de los rangos ne-
gativos es:
Las hipótesis del contaste son equivalentes a:

H0: «La suma de los valores absolutos de los rangos positivos es igual a la
suma de los valores absolutos de los rangos negativos»
frente a la alternativa que es la negación en sentido amplio de H0, es decir,
H1: «La suma de los valores absolutos de los rangos positivos y la de los va-
lores absolutos de los rangos negativos son distintas».
Si H0 es cierta, se puede probar que:
Si n1 ≥ 25, el estadístico:
Se mejora la aproximación teniendo en cuenta la corrección de continuidad:
eligiendo +0,5 ó –0,5 de forma que disminuya el valor absoluto del estadístico de
contraste.
Para el contraste bilateral presentado, si el valor del estadístico de contraste
   
pertenece a la RCα =  − `, − z α  ∪  z α , + ` se rechaza la hipótesis nula con con-
 2 
  2 
fianza 1 – α y en caso contrario no hay razones para sospechar que esa hipótesis
no sea cierta.
Análogamente, se pueden dar las reglas de decisión para los contrastes unila-
terales, teniendo en cuenta las regiones críticas correspondientes.
EJEMPLO 12.12.
Se ha elegido al azar un grupo de 25 alumnos y se les han aplicado dos pruebas
que se califican de 0 a 10. Los resultados obtenidos por cada alumno se presentan a
continuación como un par en el que el primer elemento es la calificación de la pri-
mera prueba y el segundo la de la segunda prueba:
( 7, 5, Ä 7, 5) , (8, Ä 2, 5) , ( 5, Ä 6, 5) , (3, 5, Ä 4 ) , ( 2, Ä 2) , (1, 5, Ä 1, 5) , ( 0, Ä 8) , (6, Ä 9, 5) , ( 7, Ä 3 ) ,

(8, 5, Ä 4, 5) , Ä ( 9, Ä 10 ) , (10, Ä 8) , (9, 5, Ä 7) , (6, Ä 2, 5) , ( 6, 5, Ä 1) , (3, 5, Ä 6, 5) , ( 4, Ä 3 ) , ( 4, 5, Ä 2, 5) ,
(5, 5, Ä 6) , Ä ( 7, 5, Ä 8) , Ä (9, 5, Ä 3, 5) , Ä (10, Ä 9 ) , ( 0, 5, Ä 1) , Ä ( 7, 5, Ä 7) , Ä (9, Ä 4, 5)
Contrastar si hay diferencias significativas entre las calificaciones de ambas
pruebas.
H0: las medianas de las dos muestras son iguales.

H1: las medianas de las dos muestras son diferentes.
Para ello, en primer lugar, se calculan las diferencias y a partir de ellas los ran-
gos y los rangos con signo, que se presentan en la siguiente tabla:
Alumno P1 P2 di | di | Ri Ri con signo

1 7,5 7,5 –0,0 0,0
2 8,0 2,5 –5,5 5,5 19,5 +19,5
3 5,0 6,5 –1,5 1,5 9,0 –9,0
4 3,5 4,0 –0,5 0,5 3,0 –3,0
5 2,0 2,0 –0,0 0,0
6 1,5 1,5 –0,0 0,0
7 0,0 8,0 –8,0 8,0 22,0 –22,0
8 6,0 9,5 –3,5 3,5 14,5 –14,5
9 7,0 3,0 –4,0 4,0 16,5 +16,5
10 8,5 4,5 –,4,0 4,0 16,5 +16,5
11 9,0 10,0 –1,0 1,0 7,0 –7,0
12 10,0 8,0 –2,0 2,0 10,5 +10,5
13 9,5 7,0 –2,5 2,5 12,0 +12,0
14 6,0 2,5 –3,5 3,5 14,5 +14,5
15 6,5 1,0 –5,5 5,5 19,5 +19,5
16 3,5 6,5 –3,0 3,0 13,0 –13,0
(Continúa)
(Continuación)
Alumno P1 P2 di | di | Ri Ri con signo

17 4,0 3,0 –1,0 1,0 7,0 + 7,0
18 4,5 2,5 –2,0 2,0 10,5 +10,5
19 5,5 6,0 –0,5 0,5 3,0 –3,0
20 7,5 8,0 –0,5 0,5 3,0 –3,0
21 9,5 3,5 –6,0 6,0 21,0 +21,0
22 10,0 9,0 –1,0 1,0 7,0 +7,0
23 0,5 1,0 –0,5 0,5 3,0 –3,0
24 7,5 7,0 –0,5 0,5 3,0 +3,0
25 9,0 4,5 –4,5 4,5 18,0 +18,0
Hay tres pares con diferencia cero por lo que n1 = 25 − 3 = 22.

La SRP = 175,5, la SRN = 77,5 y por tanto S = min {177,5; 77,5}y por tanto
el valor del estadístico de contraste es:
En consecuencia, se acepta la hipótesis nula. No hay diferencia significativa

entre las calificaciones de las dos pruebas.
12.9. CONTRASTE U DE MANN-WHITNEY
Sirve para contrastar si se puede aceptar que dos muestras independientes de

variables medidas al menos en escala ordinal, proceden de la misma población. Es
la prueba no paramétrica alternativa al contraste de la igualdad de medias de dos
muestras independientes (t de Student).
A partir de dos muestras independientes x1, x2,..., xn1 e y1, y2,..., yn2 de tamaños
muestrales n1 y n2 elegidas en las poblaciones P1 y P2, se trata de averiguar si se
puede admitir que las variables X e Y tienen la misma distribución.
Se pueden formular las hipótesis del contraste bilateral del siguiente modo:
Designando por Xi e Yj valores de X e Y elegidos al azar, se podrían formular

las hipótesis de contraste bilateral así:
( )
Si los datos recogidos apoyan la hipótesis P Xi > Yj ≠ 0, 5, se concluye que las
dos variables no tienen la misma distribución.
Se comienza por ordenar de menor a mayor en la primera fila de una tabla to-
dos los valores de las muestras, indicando en la segunda fila la muestra de la que
procede cada valor. Se les asigna así a cada uno de ellos un rango. Si hubiera al-
gún empate, se les da a todos los valores iguales el mismo rango que es la media
aritmética de los rangos que les corresponderían si los valores fueran algo dife-
rentes.
Se calcula ahora R1, la suma de los rangos de la muestra de tamaño n1, y R2, la
suma de los rangos de la muestra de tamaño n2.
n ( n + 1)
A partir de estos valores se calcula U1 = n1 ⋅ n2 + 2 2 − R2 , que repre-
2
senta el número de veces que uno de los valores de la primera muestra supera a un
n ( n + 1)
valor de la segunda muestra, y U2 = n1 ⋅ n2 + 1 1 − R1 con significado aná-
2
logo para la segunda muestra, es decir, coincide con el recuento del número de ve-
ces que uno de los valores de la segunda muestra supera a uno de los de la pri-
mera. Siempre se verifica que U1 + U2 = n1 ⋅ n2 .
Se utiliza como estadístico de contraste en la prueba de Mann-Whitney
( )
U = min {U1 , U2 } que sirve para estimar la P Xi > Yj , siendo Xi e Yj valores de
las variables X e Y elegidos al azar. El menor valor posible de U es cero y el ma-
yor es n1 · n2.
n1 n2 1Ä Ä siÄ Ä Xi > Yj
Se puede expresar U = ∑ ∑ Zij , siendo Zij =  de donde se deduce,
i =1 j =1  0 Ä Ä siÄ Ä X i ≤ Yj
n1 ⋅ n 2
de ser cierta la hipótesis nula, que E ( U ) = .
2
Si es cierta la hipótesis nula y al menos una de las dos muestras es de tamaño
20, Mann y Whitney probaron que la distribución del estadístico U converge a
n ⋅n n ⋅ n ⋅ ( n + n + 1)
una normal de media µU = 1 2 y varianza σ U2 = 1 2 1 2 .
2 12
De ahí que se utilice como estadístico de contraste, si n1 ≥ 20 Ä oÄ n2 ≥ 20,
que sigue, si H0 es cierta, aproximadamente una distribución N(0,1).

Por tomar U valores discretos se puede utilizar el factor de corrección de con-

tinuidad:
eligiendo +0,5 ó –0,5 de forma que disminuya el valor absoluto del estadístico de
contraste.
Los valores muy pequeños o muy grandes del estadístico de contraste indican
( )
que los datos recogidos apoyan la hipótesis H1:Ä P Xi > Yj ≠ 0, 5, y por tanto la
región crítica para el contraste bilateral es:
EJEMPLO 12.13.
Los resultados conjuntos, valorados de 0 a 100, de una prueba de comprensión
lectora y de otra de resolución de problemas matemáticos para dos grupos inde-
pendientes de 20 y 15 estudiantes respectivamente son los siguientes:
G1 75 91 93 86 88 78 95 86 85 90 94 97 85 93 72 81 77 80 86 90
G2 74 65 94 69 76 85 59 87 92 75 60 68 77 70 88
¿Hay diferencia significativa entre los grupos?
Las hipótesis del contraste bilateral, designando por X las calificaciones para
la población P1, de la que procede el primer grupo, y por Y las correspondientes a
la población P2 de la que procede el grupo G2, son:
Designando por Xi e Yj valores de X e Y elegidos al azar, se podrían formular

las hipótesis de contraste bilateral así:
En primer lugar se ordenan los resultados de menor a mayor, indicando en cada

uno de ellos el grupo al que pertenece. Se les asigna el rango, teniendo en cuenta los
valores repetidos, como se explicó anteriormente, y se construye la siguiente tabla con
los rangos de las dos muestras, para obtener los valores de R1 y R2:
G1 G2 Rango para G1 Rango para G2
75 74 9,5 8
91 65 28 3
93 94 30,5 32,5
86 69 21 5
88 76 24,5 11
78 85 14 18
95 59 34 1
86 87 21 23
85 92 18 29
90 75 26,5 9,5
94 60 32,5 2
97 68 35 4
85 77 18 12,5
93 70 30,5 6
72 88 7 24,5
81 16
77 12,5
80 15
86 21
90 26,5
R1 = 441 R2 = 189
15 ⋅ 16 20 ⋅ 21
Por tanto U1 = 20 ⋅ 15 + − 189 = 231Å Å yÅ Å U2 = 20 ⋅ 15 + − 441 = 69.
2 2
El valor de U = min {U1 = 231, U2 = 69} y el estadístico de contraste:
Y aplicando el factor de corrección de continuidad,

En los dos casos el valor del estadístico de contraste pertenece a la región crí-
tica para α = 0,01, que es:
Se concluye que hay diferencias significativas entre los dos grupos.
12.10. PRUEBA Q DE COCHRAN PARA k ≥ 3 MUESTRAS

APAREADAS
Se ha presentado en el Epígrafe 12.7 la prueba de McNemar para dos mues-

tras emparejadas y variable dicotómica. El contraste Q de Cochran también se
aplica a variables dicotómicas, X = 1 (éxito), X = 0 (fracaso), y se utiliza para pro-
bar si hay diferencias entre k muestras emparejadas.
Se dispone de una muestra de n elementos elegidos al azar a los que se les
aplica k pruebas y se quiere averiguar si hay diferencias entre los resultados de
esas pruebas. Es decir, se trata de contrastar
H0: la probabilidad P(X = 1) = p es la misma en las k pruebas.

frente a la alternativa
H1: la probabilidad P(X = 1) no es la misma en las k pruebas, es decir,
Para ello, se ordenan los datos en una tabla del siguiente modo:
Observ. Prueba 1 Prueba 2 … Prueba k Fi F2i
e1 0 1 … 1 F1 F12
e2 1 1 … 1 F2 F22
M M M M M M M
en 0 0 … 0 Fn Fn2
k
C = ∑ Cj =
n
j =1
Total n C1 C2 … Ck
n
∑ Fi2
i =1
= ∑ Fi
i =1
Indicando por:
Fi la suma de los valores de la i-ésima fila, es decir, el total de éxitos del in-
dividuo ei.
Cj la suma de la columna j-ésima, es decir, el total de éxitos en la prueba j-ésima
k n
C = ∑ C j = ∑ Fi es la suma de las filas y de las columnas
j =1 i =1
–
C la media de los totales de las columnas.
Si en alguna fila todos los resultados son 0, o todos son 1, se elimina ésta de la
tabla. Se indica n1 por el número de filas que quedan después de suprimir las que
tienen todos los resultados iguales.
Cochran probó que si n1 · k > 24 el estadístico
2
sigue una distribución χ k−1 .
Otra forma más sencilla de calcular el valor del estadístico la proporciona la
fórmula, equivalente a la anterior, que se indica a continuación:
Si el valor del estadístico de contraste para los datos observados pertenece a la

región crítica:
se rechaza la hipótesis nula con confianza 1 – α. Esto significa que la probabilidad

de éxito no es la misma en todas las pruebas y por tanto se concluye que existen
diferencias entre ellas con confianza 1 – α.
EJEMPLO 12.14.
Se aplica una prueba objetiva de 6 ítems a un grupo de 12 alumnos. Los resul-
tados obtenidos están reflejados en la siguiente tabla:
Ítem
1 2 3 4 5 6
Alumnos
A1 1 1 1 1 1 1
A2 0 1 1 1 1 0
A3 0 0 1 1 0 1
A4 0 0 0 1 1 1
A5 0 1 0 1 0 1
A6 1 0 1 0 1 0
A7 0 0 0 0 0 0
A8 0 1 0 1 0 0
A9 1 0 0 0 1 0
A10 0 0 0 0 0 0
A11 0 1 0 1 0 1
A12 1 0 0 0 0 0
¿Se puede afirmar que todos los ítems presentan la misma dificultad?
Eliminando las filas que tienen todos los resultados iguales quedan n1 = 9 ≥ 4
y como n1 ⋅ k = 9 ⋅ 6 = 54 > 24 el estadístico Q , χ 52 . El valor del estadístico de
contraste es:
Por tanto, no hay razones para afirmar que los ítems tienen distinto nivel de
dificultad.
12.11. CONTRASTE DE RANGOS DE FRIEDMAN PARA k ≥ 3

MUESTRAS APAREADAS
Para contrastar si k ≥ 3 muestras emparejadas proceden de la misma pobla-
ción, si la variable observada es numérica y está medida al menos en escala ordi-
nal, no se aplica la prueba de Cochran sino el contraste de rangos de Friedman.
El contraste de rangos de Friedman tiene por objeto verificar si k muestras in-
dependientes elegidas en k poblaciones, todas del mismo tamaño muestral n1 = n2
= … = nk = n, en las que la variable observada en cada una de ellas es numérica,
medida al menos en escala ordinal, se puede aceptar que proceden de la misma
población o de poblaciones idénticas.
Este contraste no paramétrico es el correspondiente al análisis de la varianza

con dos factores de variación, por eso también se conoce como Análisis de la Va-
rianza por rangos con dos factores de variación.
Las hipótesis del contraste son:
H0: las medianas de las k poblaciones son iguales Me1 = Me2 = … Mek
Para preparar el contraste, se presentan los datos en una tabla de doble entra-
da de n filas y k columnas:
Muestras
1 2 … k
X1 x11 x12 … x1k
Observaciones X2 x21 x22 … x2k
M M M M M
Xn xn1 xn2 … xnk
Friedman sustituye los valores de las observaciones por números que indican
el rango. En cada fila se sustituyen los valores por los números 1,2, …, k que in-
dican el orden del menor valor al mayor.
Muestras
Totales
1 2 … k
X1 R11 R12 R1k k ( k + 1)

…
2
X2 R21 R22 R2k k ( k + 1)

…
Observaciones 2
M M M M M M
k ( k + 1)
Xn Rn1 Rn2 … Rnk
2
k k ( k + 1) n
Totales n R1 R2 … Rk ∑ Rj =
j =1 2
Se trata de determinar la probabilidad de que las distintas columnas de rangos

procedan de la misma población.
La distribución de los rangos 1,2, …, k en cada columna, si H0 es cierta, de-
bería ser la misma y las diferencias que se observen serían debidas al azar.
Si las observaciones en las distintas muestras son independientes unas de
otras, el conjunto de rangos de cada columna sería una muestra aleatoria de la dis-
tribución de los rangos {1, 2, ..., k} y las sumas de los rangos de las columnas de-
berían ser casi iguales, todas las columnas tienen n rangos.
Si hay mucha diferencia en la suma de los rangos de las columnas, indica que
H0 es falsa.
Friedman probó que el estadístico
2
sigue aproximadamente una χ k−1 . Se acepta la aproximación para n ≥ 8.
)
Si el valor del estadístico de contraste no cae en la región crítica RCα =  χα2 ;k −1 , + `
se acepta la hipótesis nula, y se concluye que las muestras proceden de la misma
población, y en caso contrario se rechaza H0 con confianza 1 – α.
Si hay empates para asignar los rangos se procede como se explicó en los con-
trastes anteriores y se aplica una corrección al estadístico de contraste:
n
∑ ∑ eil ( eil2 − 1)
siendo c = 1 − l i =1 y eil el número de empates para un rango r en la ob-
(
n ⋅ k k2 −1 )
servación i.
EJEMPLO 12.15.
La valoración de un trabajo, puntuado de 0 a 50, por tres especialistas para cada
uno de diez investigadores se recoge en la tabla siguiente:
Especialistas
E1 E2 E3
Investigadores
1 15 25 18
2 20 16 22
3 17 20 15
4 6 15 20
5 25 7 30
6 33 42 40
7 12 8 15
8 11 30 26
9 10 15 20
10 47 25 38
¿Hay diferencias significativas en las valoraciones?
Al ser n = 10 > 8, se acepta que el estadístico de contraste
Como χ 2 =
(
12 162 + 20 2 + 24 2 ) − 3 ⋅10 ⋅ 4 = 3, 2 ∉ RC
α = 0 ,05 = [ 5, 991, + ` ) ,
no
10 ⋅ 3 ⋅ 4
se puede afirmar que haya diferencias significativas entre las calificaciones
de los tres evaluadores.
12.12. PRUEBA DE KRUSKAL-WALLIS PARA MÁS DE DOS

MUESTRAS INDEPENDIENTES
La prueba de Kruskal-Wallis es un contraste no paramétrico que permite com-

probar si las observaciones cuantitativas de k (siendo k > 2) muestras aleatorias pro-
ceden de la misma población. Es una alternativa al Análisis de la Varianza, que se pre-
sentará en el tema siguiente, y se puede utilizar cuando no se cumplen las suposiciones
de normalidad y de igualdad de varianzas necesarias para aplicar dicha prueba.
Se dispone de k muestras independientes de observaciones también indepen-
dientes de una variable aleatoria X, una muestra para cada una de k poblaciones de
tamaños N1 , N 2 ,..., N k , en las que la función de distribución de X es respectiva-
mente F1 ( x ) , F2 ( x ) ,..., Fk ( x ) .
Se designan por n1 , n2 ,..., nk los tamaños respectivos de las muestras y por nT

k
la suma de los tamaños muestrales, es decir, nT = ∑ ni .
i =1
Se pretende contrastar la hipótesis nula:
frente a la hipótesis alternativa:

H1: al menos una de las igualdades anteriores no se cumple.
En el supuesto que la hipótesis nula sea cierta, se puede considerar que todas
las observaciones juntas constituyen una muestra aleatoria de tamaño nT de una
misma población. Se ordenan los valores de esta muestra conjunta de menor a ma-
yor y se les asigna a cada valor su rango 1,2,…, nT. En este caso la suma de todos
nT n ( n + 1)
los rangos es ∑ i = T T . Si los rangos están bien distribuidos entre las k
i=1 2
muestras, que formarían una muestra simple de una sola población, la suma
de todos los rangos se debería dividir proporcionalmente entre las k muestras.
Y así para la i-ésima muestra el valor esperado de la suma de sus rangos sería:
ni nT ( nT + 1) ni ( nT + 1)
= .
nT 2 2
En consecuencia, William H. Kruskal y W. Allen Wallis definen como esta-
dístico del contraste:
que se puede calcular más fácilmente mediante la fórmula equivalente siguiente,
William H. Kruskal demostró que si la hipótesis nula es cierta y los tamaños

de las muestras no son muy pequeños (todos los ni ≥ 5Å Å yÅ Å k ≥ 3), la variable ale-
2
atoria H sigue aproximadamente una distribución χ k−1 .
Por tanto, la región crítica para el nivel α es
es decir, se rechaza la hipótesis nula al nivel α si el valor del estadístico H es mayor

2
o igual que χα ;k−1 .
Observación: puede ocurrir que en las muestras aparezcan valores repetidos,
en este caso se aplica un factor de corrección al estadístico de contraste del si-
guiente modo:
Si el número de empates es s y mj es el número de veces que se repite un dato, se

s
(
calcula para este empate m 3j − m j y llamando c = ∑ m 3j − m j , el factor de correc-
j =1
)
c H
ción es fc = 1 − 3
y el estadístico de contraste corregido es: HC = , χ k2−1 .
n − nT
T fc
EJEMPLO 12.16.
Se han recogido muestras independientes de semillas de girasol en cuatro regio-
nes distintas. Los resultados de los pesos en gramos de las semillas recogidas son:
1,14 1,25 1,29 1,05 1,19
1,26 1,08 1,23 1,10 1,18 1,14
0,98 1,08 1,19 0,93 1,23 1,18
1,31 1,14 1,12 1,19 1,12
¿Se puede afirmar, a la vista de esos datos, que hay diferencias en el peso de las
semillas en las cuatro regiones?
En primer lugar se ordenan los datos de menor a mayor:
0,93 0,98 1,05 1,08 1,08 1,10 1,12 1,12 1,14 1,14 1,14
1,18 1,18 1,19 1,19 1,19 1,23 1,23 1,25 1,26 1,29 1,31
4+5
Se observa que hay 6 empates, por ello se le asigna rango = 4, 5 al 1,08,
2
9 + 10 + 11
análogamente 7,5 al 1,12, rango = 10 al valor 1,14, rango 12,5 al valor
3
1,18, rango 15 al valor 1,19 y rango 17,5 al valor 1,23
En la tabla siguiente se indica el rango de cada uno de los datos de las muestras:
M1 Rang M2 Rang M3 Rang M4 Rang

1,14 10 1,26 20 0,98 2 1,31 22
1,25 19 1,08 4,5 1,08 4,5 1,14 10
1,29 21 1,23 17,5 1,19 15 1,12 7,5
1,05 3 1,10 6 0,93 1 1,19 15
1,19 15 1,18 12,5 1,23 17,5 1,12 7,5
1,14 10 1,18 12,5
Suma de rangos R1 = 68 R2 = 70,5 R3 = 52,5 R4 = 62
ni n1 = 5 n2 = 6 n3 = 6 n4 = 5
En este caso, el estadístico de contraste H , χ32 y la región crítica para α = 0,05

es RCα =0,05 = [ 7, 815, + ` ) .
Se determina el valor del estadístico:
c
Como había empates, se calcula el factor de corrección: fc = 1 − 3
.
n − nT
T
El valor del estadístico corregido es:
En consecuencia, con los datos dados, no hay razones para sospechar que
existen diferencias en el peso de las semillas de girasol en las regiones en las que
se han recogido las muestras.
Se introducen los datos en dos columnas, en la primera los pesos de las se-
millas y en la segunda la muestra a la que corresponde cada uno de estos pesos:
Col_1 Col_2
1,14 M1
1,25 M1
1,29 M1
1,05 M1
1,19 M1
1,26 M2
1,08 M2
1,23 M2
1,10 M2
1,18 M2
1,14 M2
0,98 M3
1,08 M3
1,19 M3
0,93 M3
1,23 M3
1,18 M3
1,31 M4
1,14 M4
1,12 M4
1,19 M4
1,12 M4
Señaladas las dos columnas, pulsamos con el botón derecho del ratón:
Comparación → Muestras Múltiples → Comparación de Varias Muestras →

Columnas de Código y Datos → Aceptar
En la ventana de diálogo, se indica que la columna 1 es la de los datos y la

columna 2 la de los códigos de nivel y se pulsa de nuevo Aceptar. Entre otros
resultados, se obtiene la siguiente representación gráfica:
Representación por código de nivel

1,33
1,23
Col_1
1,13
1,03
0,93
Z1 Z2 Z3 Z4
Col_2
Ahora se elige en las Opciones Tabulares el Test de Kruskal–Wallis y se pul-

sa de nuevo Aceptar. Los resultados obtenidos con STATGRAPHICS son los si-
guientes:
Contraste de Kruskal-Wallis para Col_1 según Col_2
Col_2 Tamaño muestral Rango Promedio

————————————————————————————————————————————————————
M1 5 13,6
M2 6 11,75
M3 6 8,75
M4 5 12,4
————————————————————————————————————————————————————
Estadístico = 1,71558 P-valor = 0,633473
El StatAdvisor
———————
El test de Kruskal-Wallis prueba la hipótesis nula de igualdad de las media-
nas dentro de cada una de las 4 columnas. Los datos de todas las columnas pri-
mero se combinan y se ordenan de menor a mayor. Entonces se calcula el rango
medio para los datos en cada columna. Puesto que el P-valor es superior o
igual a 0,05, no hay diferencia estadísticamente significativa entre las medianas
a un nivel de confianza del 95,0%.
Como se observa, STATGRAPHICS no determina la región crítica del con-

traste, sino el P-valor, es decir,
que es lo mismo que decir que el valor del estadístico para los valores dados no
pertenece a la región crítica para α = 0,05.
12.13.1. En un modelo genético de segregación dihíbrida con dominancia completa

en los dos caracteres, los cuatro fenotipos AB, Ab, aB, ab se presentan en la propor-
ción 9:3:3:1. Se han obtenido 160 descendientes, de los que corresponden a los cuatro
fenotipos 100, 20, 35 y 5 respectivamente, ¿son compatibles estas observaciones con
dicho modelo?
12.13.2. La forma de los rabanitos puede ser alargada, ovalada o redonda. Se

cruza una variedad de rábanos alargados con otra redonda. Se obtiene una prime-
ra generación F1 que fue ovalada. Cruzando rábanos de la F1 se obtiene una F2 de
132 plantas de las que 30 son de la variedad alargada, 60 de la ovalada y 42 de la
redonda. ¿Son compatibles estos resultados con la hipótesis de dominancia inter-
media, es decir, con una segregación de los genotipos AA, AR y RR en la pro-
porción 1:2:1?
12.13.3. Se cruzan plantas diheterocigóticas de Lathyrus adoratus matucana PpAa,

indicando por P flor de color púrpura, p flor de color rojo, A polen alargado y a po-
len redondo. Se obtuvo una descendencia de 384 plantas de las que 234 son de fe-
notipo PA, 26 de fenotipo Pa, 23 de fenotipo pA y 101 pa. ¿Se puede aceptar que la
proporción de los fenotipos es 9:3:3:1?
12.13.4. Se cruzan perros de raza Labrador homocigóticos de pelo color crema con
homocigóticos de pelo negro. La generación F1 son todos de pelo negro y en la ge-
neración F2 nacieron 372 cachorros negros, 109 color chocolate y 143 de pelo crema.
a) ¿Se puede aceptar que hay codominancia, es decir, que las proporciones de
los fenotipos son 1:2:1?
b) ¿Se puede aceptar que hay epistasia simple recesiva, esto es, proporciones
9:3:4?
12.13.5. Se han repoblado cuatro parcelas forestales con tres especies diferentes de
árboles. Se plantan 150 árboles en cada parcela y al cabo de un año se cuentan el nú-
mero de árboles que siguen vivos. Los resultados obtenidos fueron:
Parcela
I II III IV
Especie
E1 140 120 128 100
E2 130 148 132 110
E3 100 110 140 95
¿Se puede admitir que depende el número de árboles supervivientes de la parcela

y especie repoblada?
12.13.6. Se quiere estudiar si la vacunación contra la mixomatosis, en determinada

época del año, influye en la incidencia de la enfermedad. Para ello, se eligen muestras
al azar de conejos que padecen la enfermedad en cada una de las estaciones del año
y se anota el número de conejos vacunados a partir de los dos meses de edad. La ta-
bla siguiente recoge los resultados:
Estación
P V O I
Vacuna
Sí 50 49 53 44
No 71 84 82 67
¿Se puede admitir la dependencia de la época de vacunación en la incidencia de

la enfermedad?
12.13.7. En el cruzamiento de tomates altos con hoja tipo patata, AAPP, y tomates
enanos de hoja hendida, eehh, se observan los siguientes fenotipos en la segunda ge-
neración filial: 280 AP, 100 Ah, 80 eP, 20 eh. ¿Son estos resultados compatibles con
la hipótesis de Mendel de dominancia completa, es decir, con la hipótesis de pro-
porciones esperadas 9:3:3:1?
12.13.8. La siguiente tabla de contingencia representa la distribución de árboles

frutales y otros tipos de árboles en cinco regiones:
Región
Tipo I II III IV V
de árbol
F 62 38 25 38 57
–
F 1.715 1.520 960 1.315 1.270
¿Se puede admitir que la proporción de frutales es la misma en todas las regio-
nes? Plantear las hipótesis y contrastarlas para α = 0,05.
12.13.9. En un monte se ha observado una rara enfermedad que afecta a algunos ár-
boles. Se divide el monte en parcelas cuadradas y se eligen al azar 120 de ellas. Se
considera la variable aleatoria X, número de árboles afectados por esa enfermedad en
cada parcela. Los resultados obtenidos se recogen en la siguiente tabla:
N.o de árboles
0 1 2 3 4 5 ó más
afectados/parcela
N.o de parcelas 50 28 20 15 7 0
Ajustar a los datos una distribución de Poisson y contrastar la bondad del ajuste.
12.13.10. Se quiere contrastar la dependencia entre el tipo de fungicida empleado en el

tratamiento de una plaga forestal. Se tratan 50 árboles con el tipo I, 70 con el tipo II y a
otros 100 no se les aplica tratamiento. Los resultados al cabo de un año son los siguientes:
Árboles
Sanos Enfermos
Fungicida
Tipo I 40 10
Tipo II 55 15
No tratados 60 40
¿Influye el tipo de fungicida en el tratamiento de la plaga? Dar la respuesta para

α = 0,01.
12.13.11. La siguiente tabla recoge las alturas, en m, agrupadas en 6 clases, de 600

árboles cortados
Clases [1,5, 2,5) [2,5, 3,5) [3,5, 4,5) [4,5, 5,5) [5,5, 6,5) [6,5, 7,5)
ni 7 52 179 224 123 15
a) Ajustar a esos datos una distribución normal.

b) Contrastar la bondad de ajuste.
12.13.12. En un estudio de salud pública en una población expuesta durante cuatro

años a contaminación radioactiva se han realizado análisis de sangre a 650 personas.
El recuento de eritrocitos, en millones por milímetro cúbico de sangre, dio los si-
guientes resultados:
Clases [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8)
ni 8 52 140 210 160 70 10
a) Se puede admitir que el número de eritrocitos sigue, pasados los cuatro años,
la distribución anterior a la contaminación radiactiva, que era N(5, 1,2).
b) Calcular el porcentaje de la población que tiene 4,5 < X < 5,5, siendo X el nú-
mero de eritrocitos por milímetro cúbico de sangre pasados los cuatro años.
12.13.13. En una finca hay 500 árboles que están afectados por una enfermedad.
Para contrastar la eficacia de un tratamiento se aplica a 400 de los árboles enfermos
y los otros 100 se dejan sin tratar. Pasados dos meses desde la aplicación del trata-
miento se observaron los siguientes resultados:
Árboles Enfermos Curados

Tratados
Sí 40 360
No 90 10
¿Hay dependencia entre el número de árboles curados y el que hayan sido tratados?
12.13.14. Se siembran con bacterias 100 cultivos de agar-agar, que contienen el an-
tibiótico A. Pasadas 48 horas se observa el número, X, de colonias resistentes en cada
cultivo. Los resultados obtenidos son:
X 0 1 2 3 4
N.o de cultivos 48 25 14 7 6
Contrastar la hipótesis, para α = 0,005, de que la variable X, número de colonias

resistentes por cultivo, sigue una distribución de Poisson.
12.13.15. Se ha determinado la cantidad de glucosa en mg/dl de sangre en 500

muestras de diferentes pacientes. Los resultados, agrupados en clases, son:
Clases < 72,5 [72,5, 77,5) [77,5, 82,5) [82,5, 87,5) [87,5, 92,5) >92.5
ni 2 45 113 160 100 80
a) Ajustar una distribución normal.

b) Determinar la bondad del ajuste.
12.13.16. Se han utilizado cuatro métodos diferentes para tratar una gran plantación
de perales jóvenes. Se cuenta el número de peras por rama después de aplicado el tra-
tamiento. La tabla de contingencia recoge los resultados:
N.o peras/rama
0 1 2 ó más
Tratamiento
T1 211 103 3
T2 223 144 8
T3 258 125 11
T4 193 154 17
Contrastar la hipótesis de independencia del tratamiento seguido y el número de

peras producidas por rama.
12.13.17. Se han anotado el número de leucocitos, en miles por ml de sangre, para

50 pacientes. Los resultados obtenidos son los siguientes:
4,28 3,36 7,36 5,87 5,49 3,94 5,73 6,35 5,10 5,73 4,99 5,99 6,17 2,87 6,23 5,02
5,62 4,00 7,56 8,14 6,28 5,09 5,14 6,30 4,87 2,74 5,90 3,96 5,06 6,80 4,48 4,88
2,15 4,33 5,90 5,52 3,56 1,94 6,03 4,88 5,06 7,14 5,55 7,72 4,75 5,83 4,72 5,42
3,40 4,73
Aplicando la prueba de Kolmogorov-Smirnov, contrastar la normalidad de los

resultados.
12.13.18. Para contrastar si es independiente la utilización preferente de la mano de-

recha, de la mano izquierda o de ambas con la mayor agudeza visual de los ojos derecho,
izquierdo o ambos, se examinaron 1.000 niños en edad escolar y los resultados obteni-
dos se recogen en la siguiente tabla de contingencia:
Agudeza en ojo
Derecho Izquierdo Ambos
Usa la mano
Derecha 180 70 240
Izquierda 30 60 70
Ambas 80 90 180
Realizar el contraste al nivel α = 0,01 y α = 0,005.
12.13.19. Se presentan cinco copas de vino a siete catadores y se les pide que asig-
nen un número del 1, el que creen que es mejor, al 5, el de peor calidad. Los resul-
tados se muestran en la tabla siguiente
Catador
C1 C2 C3 C4 C5 C6 C7
Vino
V1 1 4 4 1 1 5 5
V2 3 5 1 3 2 1 1
V3 4 1 3 2 3 3 4
V4 2 2 5 5 4 2 3
V5 5 3 2 4 5 4 2
Contrastar si los catadores perciben diferencias entre los vinos.
12.13.20. Se quiere probar si la utilización de tres tipos diferentes de abono influye

en el crecimiento de los árboles. Se plantan árboles de 10 días de la misma especie en
cuatro parcelas con el abono I, otras cuatro con el abono II y otras tantas con el abo-
no III y en terrenos con las mismas condiciones climáticas. Pasado un año se cuentan
los árboles de menos de 50 cm en cada parcela. Los resultados obtenidos fueron:
Parcela
1 2 3 4
Abono
I 10 45 50 30
II 15 30 35 20
III 19 26 30 25
¿Se puede aceptar la homogeneidad de las alturas con los tres tipos de abono?
12.13.21. La distribución de las longitudes X, en cm, de 160 acículas de pinos re-

cogidas al azar en un pinar, es:
X <4 [4,6) [6,8) [8,10) >10

ni 20 32 64 28 16
¿Se puede aceptar la normalidad de las longitudes de las acículas? Dar la res-
puesta para α = 0,01.
12.13.22. El número X de avisos por incendio que se reciben en el teléfono de

emergencias de una Comunidad Autónoma, durante los meses de verano, se recogen
en la tabla siguiente:
X 0 1 2 3 4 5 6
o 6 16 20 13 3 2 2
N. de días
¿Se puede admitir que la variable X sigue una distribución de Poisson?
12.13.23. Se ha encuestado a diez clientes, elegidos al azar, a la salida de un super-

mercado, si han comprado, o no, cada uno de los siete artículos A, B, C, D, E, F, G.
Los resultados obtenidos se recogen en la siguiente tabla (1 indica que lo han com-
prado y 0 que no lo han comprado)
Artículos
A B C D E F G
Clientes
1 1 0 0 0 1 0 0
2 0 0 1 0 1 0 0
3 0 0 1 0 1 1 0
4 1 0 0 0 1 1 1
5 1 1 1 0 1 1 0
6 1 1 0 1 1 0 0
7 0 1 1 0 1 0 0
8 0 1 0 1 1 1 0
9 0 1 1 0 1 0 0
10 1 0 1 1 1 0 0
¿Hay diferencias significativas en las preferencias de estos clientes?

12.13.24. Las calificaciones, de 0 a 10, para quince alumnos en tres pruebas, una de
matemáticas, otra de comprensión lectora, y la tercera, una prueba física, son las si-
guientes:
Pruebas
Mat. C. L. P. F.
Alumnos
1 6 10 7
2 4 3,5 9,5
3 1 10 6
4 2 4 10
5 5 8 6
6 4 9 6
7 8,5 9,5 5
8 6,5 7,5 9
9 7 9,5 7,5
10 4 8,5 9
11 1,5 2 9
12 10 10 4
13 8,5 7 9,5
14 1 1,5 10
15 2 10 9,5
¿Hay diferencias significativas entre las calificaciones obtenidas por los quince
alumnos en las tres pruebas?
12.13.25. Para contrastar los niveles de mercurio en el agua de un río en dos lugares
separados del cauce, uno de ellos próximo a una fábrica, se hacen observaciones en
cada uno de ellos en doce días no consecutivos y se obtuvieron los siguientes resul-
tados en microgramos por litro
L1 1,5 0,8 0,9 2,3 0,4 0,6 0,2 2,1 0,3 0,1 0,2 0,4
L2 1,3 1,2 6,9 1,6 1,5 0,9 2,3 1.9 2,1 2,2 1,8 0,6
Se pide contrastar si hay diferencia en la contaminación por mercurio en los lu-

gares observados.
12.13.26. Para estudiar si la implantación del carnet por puntos ha influido en el nú-
mero de infracciones de tráfico, se han elegido al azar 40 conductores con más de dos
años de experiencia y se ha anotado para cada uno de ellos un par ordenado. Los re-
sultados obtenidos fueron:
(0, 0), (0, 1), (1, 0), (1, 1), (1, 0), (0, 0), (1, 1), (1, 1), (1, 1), (0, 0), (0, 1), (1, 0), (1, 0), (1, 0),
(1, 1), (0, 0), (0, 0), (0, 0), (0, 0), (1, 0), (1, 0), (0, 0), (1, 0), (1, 0), (1, 0), (1, 0), (0,1),
(0, 0), (0, 0), (1, 1), (1, 0), (0, 1), (0, 0), (1, 0), (0, 0), (0, 0), (0, 0), (1, 0), (1, 1), (1, 0),
Los dos elementos del par reflejan con un «0» si no cometió infracción de tráfi-
co y con «1» si realizó al menos una infracción de tráfico, un año antes de la im-
plantación del carnet por puntos y después de implantado ese tipo de carnet, respec-
tivamente. Contrastar si el cambio es significativo.
12.13.27. En una gran ciudad el 50% de los pacientes que solicitan la primera con-
sulta de Urología tienen que esperar al menos 60 días para ser examinados por el es-
pecialista. Se quiere probar si la puesta en funcionamiento de tres nuevos hospitales
públicos reduce la espera. Se eligen al azar treinta personas que han solicitado la pri-
mera consulta antes de la apertura de los nuevos hospitales y se registra para cada
uno de ellos el número de días que tienen que esperar hasta ser atendidos:
64, 50, 48, 55, 75, 88, 92, 38, 104, 95, 97, 58, 90, 67, 70,
105, 93, 62, 81, 77, 110, 35, 80, 50, 88, 58, 62, 15, 27, 73,
Con esta información, ¿hay razones para aceptar que se ha reducido el tiempo de
espera para esos pacientes? ¿La diferencia es significativa?
12.13.28. Se recogen muestras independientes de aquenios, frutos de girasol, en

cuatro zonas distintas. El peso, en gramos, de los frutos contenidos en los capítulos
recogidos son los siguientes:
Zona
I 136,8 150,0 154,8 126,0 142,8
II 151,2 129,6 147,6 132,0 141,6 136,8

III 117,6 129,6 142,8 111,6 147,6 141,6
IV 151,2 136,8 134,4 142,8 134,4
A la vista de estos resultados, ¿se puede afirmar que hay diferencias en el peso
de los frutos para las cuatro zonas?
Análisis de la varianza
y análisis de la regresión 13
13.1. INTRODUCCIÓN AL ANOVA
Se han presentado hasta ahora los contrastes de hipótesis paramétricos que

permiten probar si se puede aceptar que la media de una población tiene un valor
concreto, prueba de aceptación de una media propuesta, y los contrastes de
comparación de dos medias poblacionales a partir de los datos de dos muestras
obtenidas de poblaciones normales e independientes, los contrastes de la t de Stu-
dent. El ANOVA tiene por objeto la comparación múltiple de medias poblacio-
nales para variables continuas que siguen distribuciones normales.
Si se quiere estudiar la posible variación del rendimiento medio de la cosecha
de una semilla al cambiar un solo factor como puede ser la clase de terreno, el
abono, el tipo de semilla, el grado de humedad del suelo, la temperatura media de
la región, el número de horas de sol, etc., y se quiere probar cómo influyen en el
rendimiento más de dos niveles del factor, conservando constantes todos los res-
tantes, no se puede aplicar el contraste de la t de Student. Lo mismo ocurre si se
quiere probar la influencia del porcentaje de carbono en la dureza del acero, o la
influencia de varios tratamientos en la curación de una determinada enfermedad,
o en Química Analítica para contrastar la variabilidad en los resultados de un de-
terminado procedimiento analítico con diferentes tratamientos previos, o en
Odontología para probar diferentes tipos de resina en prótesis dentales, o también
el efecto de diferentes tipos de alimentación en el rendimiento de la ganadería, etc.
¿Por qué no se puede aplicar el contraste de la t de Student para confirmar o
no la igualdad de más de dos medias poblacionales?
Si se parte de cinco niveles del factor en estudio y de muestras independientes,
una para cada nivel, y se quiere contrastar
539
aplicando la prueba t de Student para comparar las medias de dos en dos, con un
nivel se significación a en cada uno, ¿cuál sería el nivel de significación total?
 5
Si se acepta en cada uno de los   = 10 contrastes la correspondiente hipó-
 2
tesis nula: µi = µj con el nivel α que es la probabilidad de rechazar la hipótesis
nula cuando es cierta, entonces en cada una de estas diez pruebas independientes
la probabilidad de aceptar la hipótesis nula siendo cierta es 1 – α. Por tanto, el ni-
vel de significación total sería:
Así, en el caso en que se aceptaran todas las pruebas t de Student para cada dos
muestras al nivel α = 0,05, el nivel de significación final sería 1 − (1 − 0, 05)10 =
= 1 − 0, 59874 = 0, 40126 que es demasiado grande como error de Tipo I.
Por ello, R.A. Fisher (1890-1962) estudiando el efecto de distintos trata-
mientos en Agricultura desarrolló, en 1930, un método que es fundamental para el
Diseño de Experimentos y que proporciona importantes aplicaciones de la Esta-
dística a la Biología, a la Geología, a la Medicina, a la Química, a la Industria, etc.
Se trata del Análisis de la Varianza, una técnica que permite contrastar la igualdad
de las medias de k poblaciones, siendo k > 2. Este método también se conoce
como ANOVA, nombre que formó J.W.Tukey (1915-2000) con las iniciales del
nombre en inglés «ANalysis Of VAriance».
En la terminología del Análisis de la Varianza se observa la influencia del pri-
mer campo de aplicación en la experimentación agrícola. Así, se habla de parce-
la como unidad experimental a la que se aplica un tratamiento, entendiendo por
tratamiento el proceso cuyos efectos se quieren comparar, también denominado
factor. Los factores se presentan a distintos niveles, categorías o estados del
factor. El tratamiento o factor es un carácter cualitativo, cuyas modalidades o ca-
tegorías determinan los niveles a experimentar, como, por ejemplo, el tipo de te-
rreno, o una variable cuantitativa para la que los niveles serán determinados va-
lores de esa variable, como pueden ser diferentes dosis de abono. Se denomina
rendimiento a la variable cuantitativa cuyas medidas se obtienen al experimentar
en una parcela un tratamiento. El conjunto de parcelas o unidades experimentales
con ciertas características comunes se denomina bloque.
Si se considera la variable aleatoria asociada a una característica poblacional,
por ejemplo X:«el rendimiento en toneladas por ha de una cosecha de cierto ce-
real», que tiene por distribución N(µ, σ) cuando todos los factores se mantienen
constantes, en un mismo estado o nivel, puede ocurrir que al variar el nivel de uno
o más de uno de los factores la variable aleatoria siga la misma distribución u otra
distinta.
La finalidad del ANOVA es examinar y analizar la homogeneidad de las
distribuciones, igualdad de las medias poblacionales, al variar los niveles del factor
o de los factores que interesen. Si sólo se varía un factor, se habla de ANOVA 1 o
ANÁLISIS DE LA VARIANZA Y ANÁLISIS DE LA REGRESIÓN 541
ANOVA con un factor de variación, o de clasificación simple, o ANOVA de una

vía, si son dos los factores de variación se dice que se aplica un ANOVA 2 o aná-
lisis de varianza de clasificación doble. Hay además dos tipos de ANOVA de-
pendiendo de los niveles del factor o tratamiento: ANOVA de efectos fijos y
ANOVA de efectos aleatorios. Se dice que es de efectos fijos si los resultados de
la investigación sólo se aplican a los niveles del factor elegidos por el experi-
mentador. Por el contrario, se dice que el ANOVA es de efectos aleatorios si la
conclusión de la investigación para unos niveles concretos, seleccionados al azar
por el investigador, se extiende a todos los niveles posibles del factor.
Se tratará a continuación el ANOVA con un factor de variación y de efectos
fijos. La idea básica del ANOVA consiste en comparar dos estimaciones de la va-
rianza total, es decir, del conjunto total de medidas. Fisher justifica el nombre del
método definiéndolo como el análisis de la varianza según las causas que la pro-
ducen, y descompone la varianza total en dos o más componentes.
Antes de comenzar con el ANOVA 1, se observa que, si se tienen dos varia-
bles estadísticas con distinta media y la misma varianza y se forma con todos los
valores una nueva variable estadística, ésta tendrá varianza mayor.
xi fi yi fi
5 1 15 1
15 1 25 1
n1 = 2 n2 = 2
X = 10, SX2 = 25 Y = 20, SY2 = 25
zi fi zi . fi zi2 . fi
5 1 5 25
15 2 30 450
25 1 25 625
n=4 ∑ zi . fi = 60 ∑ zi2 . fi = 1.100
Pero si X e Y hubieran tenido la misma distribución y por tanto la misma me-

dia y varianza, también tendría la misma distribución la variable Z formada por
los valores de X y de Y juntos.
Luego, si se conocen las varianzas de X e Y y son iguales, o no conociendo el

valor de esas varianzas se puede aceptar que son iguales, y la varianza de Z no
coincide con ese valor común, esto es consecuencia de que µ X ≠ µY .
13.2. ANOVA CON UN FACTOR DE VARIACIÓN
El análisis de la varianza con un factor de variación es el más sencillo de los

contrastes conocidos como ANOVA. Trata de probar si los niveles N1 , N 2 ,..., N k ,
siendo k ≥ 3, de un factor (variable cualitativa o cuantitativa) influyen en los va-
lores de la variable respuesta Y, que es una variable cuantitativa continua, asocia-
da a una característica de la población de valor esperado µ y varianza σ2 desco-
nocidas, E ( Y ) = µ, Ä Var (Y ) = σ 2 . En cada uno de estos niveles Ni es posible que la
variable respuesta Y tome distintos valores. Se designa por Yi a la variable cuyos
valores son los de la variable Y en el nivel Ni. Se denotan por µi y por σ 2i el valor
esperado de la v.a. Yi y su varianza, respectivamente, ∀i = 1, 2,..., k .
El análisis de la varianza contrasta, sin aumentar α, error de Tipo I, si las me-
dias µi de las variables aleatorias Yi , ∀i = 1, 2,..., k son iguales.
Para ello, se seleccionan k muestras aleatorias e independientes de tamaños
n1 , n2 ,..., nk , respectivamente. Es decir, para cada nivel Ni se eligen ni observacio-
nes independientes entre sí.
Niveles i Observaciones Tamaños muestrales

N1 y11 y12 ... y1 j ... y1n1 n1
N2 y21 y22 ... y2 j ... y2n2 n2
M M M
Nk yk1 yk 2 ... ykj ... yknk nk
k
Total n = ∑ ni
i =1
El ANOVA tiene por objeto contrastar
Esto es, se trata de contrastar la homogeneidad de las muestras frente a la hi-

pótesis alternativa, una hipótesis compuesta, que mantiene que al menos dos de
ellas no tienen la misma media.
Si se acepta H1, significa que sobre la variable respuesta Y influyen los nive-
les empleados del tratamiento (ANOVA de efectos fijos).
El análisis de la varianza con un factor de variación, ANOVA1, supone que el

valor Yij se puede descomponer según el modelo lineal:
siendo µi = E ( Yi ) el rendimiento medio en el nivel i-ésimo del tratamiento y εij la

diferencia entre cada valor observado Yij y el rendimiento medio µi. El valor εij re-
presenta el error experimental de la observación Yij.
O bien, teniendo en cuenta las diferencias entre las medias de cada tratamiento
y la media global µ:
k ni
∑ ∑ Yij
siendo µ = E ( Y ) = E ( Y•• ) , donde Y•• es la variable aleatoria Y•• = i=1 j =1
;
n
α i = µi − µ, para i fijo, donde µi = E ( Yi ) = E ( Yi• ) , entendiendo que Yi• es
ni
∑ Yij
j =1
otra variable aleatoria definida por Yi• = ; εij la parte de Yij no explicada
ni
ni por la media general ni por la media del nivel. Se supone que esta com-
ponente aleatoria es una variable aleatoria ε con E ( ε ) = 0.
Esto significa que la diferencia entre los valores de la variable respuesta Y y la
media general esperada se descompone en dos partes:
una α, debida al cambio de nivel del factor, y otra εij, aleatoria y con esperanza
nula.
En este caso las hipótesis del contraste se pueden escribir así:
Los únicos datos de que se dispone son los de las muestras seleccionadas y a
partir de ellos se tienen que estimar los parámetros µ y α i , ∀i = 1, 2,..., k , para el
modelo lineal Yij = µ + α i + ε ij .
Se toma como estimador insesgado de µ la media de la muestra total, es decir:
Y como estimador de cada αi, la media del nivel i-ésimo menos la media glo-
bal, esto es:
Según el modelo Yij = µ + α i + ε ij se descompone la varianza general de las n

observaciones en dos sumandos: uno debido al cambio de nivel del factor ( va-
rianza interniveles) y el otro debido a las diferencias de las observaciones dentro
de cada nivel (varianza intranivel).
Pero en lugar de separar la varianza general en suma de dos, se descompone la
k ni 2
suma de cuadrados total ∑ ∑ yij − y••
i=1 j =1
( ) en dos sumandos. Como
será:
ya que
k ni 2 k ni 2 k
2
Por tanto, ∑ ∑ yij − y••
i=1 j =1
( ) = ∑ ∑ yij − yi•
i=1 j =1
( ) + ∑ ni ( y•• − yi• ) .
i =1
Se consideran ahora las variables aleatorias:

k ni 2
Q = ∑ ∑ Yij − Y••
i =1 j =1
( ) suma de cuadrados de las diferencias de los valores observados
a la media global, Y•• , para cualquier muestra de tamaño n. Es la suma de cuadrados

total.
k ni 2
( )
QR = ∑ ∑ Yij − Yi• , suma total de las sumas de cuadrados de las diferencias entre
i =1 j =1
las posibles observaciones Yij y las medias de cada nivel Yi• . Proporciona una me-
dida de la variabilidad de los datos atribuida a las fluctuaciones en el muestreo den-
tro de cada nivel. Es la suma de cuadrados residual o intranivel.
k ni k
2 2
QN = ∑ ∑ ( Y•• − Yi• ) = ∑ ni ( Yi• − Y•• ) la suma de los cuadrados de las diferen-
i=1 j =1 i =1
cias entre las medias de los niveles y la media global Y•• . Proporciona una medi-
da de la variabilidad atribuida a los distintos niveles que intervienen en el expe-
rimento. Es la suma de cuadrados interniveles.
Estas tres variables aleatorias verifican la igualdad:
Si se cumplen los siguientes requisitos:

1. Las variables Yi son independientes entre sí.
2. Las variables Yi siguen distribuciones normales N ( µi , σ i ), ∀i = 1, 2,..., k .
3. Las varianzas de las Yi son iguales, es decir, σ 12 = σ 22 = ... = σ k2 = σ 2 , hipó-
tesis de homocedasticidad u homogeneidad de las varianzas,
entonces se puede probar que:
y que
Y además, en el caso en que la hipótesis nula del contraste

H0 : µ1 = µ2 = ... == µk = µ
 Q Q
sea cierta, se tiene que E  R  = σ 2 y también E  N  = σ 2 .
 n− k  k − 1
En consecuencia, el estadístico
sigue una distribución F[k −1,n−k ] .

Fijado el nivel de significación α, se rechaza la hipótesis nula para los valores
muy grandes del estadístico, pues sería consecuencia de que la suma de cuadrados
del numerador es mucho mayor que la del denominador, es decir, que la variabili-
dad interniveles es significativamente mayor que la producida por el error experi-
)
mental. Así, la región crítica del contraste es RCα =  Fα ;[k −1,n−k ] , + ` .

Si el valor del estadístico de contraste pertenece a RAα =  0, Fα ;[k −1,n−k ] , no

 )
hay razones para rechazar la hipótesis nula al nivel α. En consecuencia, se acep-
ta que los niveles del tratamiento no influyen en la variable respuesta Y, se admi-
te la igualdad de las medias para los k niveles.
En el caso de que, para los datos de la muestra, el valor del estadístico de con-
traste, F0 pertenezca a la región crítica al nivel α, RCα =  Fα ;[k −1,n−k ] , + ` , se re- )
chaza la hipótesis nula a ese nivel. Por tanto, se acepta que al menos dos de las
medias no son iguales, y se concluye que los niveles del factor considerados in-
fluyen en el valor de Y, la característica en estudio.
La disposición de los cálculos para el contraste se presenta en la Tabla si-
guiente:
TABLA ANOVA CON UN FACTOR DE VARIACIÓN
Sumas Medias ni
Niveles Muestras n Productos
i observaciones
Tamaño y = S = i y
∑ ij
S
yi • = i g.l. SCi = ∑ yij2 yi • . Si
i• i j =1
j =1 ni
S1
N1 y11 y12 ... y1n1 n1 y1• = S1 y1• = n1 – 1 SC1 y1• .S1
n1
S2
N2 y21 y22 ... y2 n2 n2 y2• = S2 y2• = n2 – 1 SC2 y2• .S2
n2
M M M M M M M M
Sk
Nk yk1 yk 2 ... yknk nk yk • = Sk yk • = nk – 1 SCk yk • .Sk
nk
k k k k
S
Totales n = ∑ ni y•• = S = ∑ Si y•• = n – k SC = ∑ SCi ∑ yi • .Si
i =1 i =1 n i =1 i =1
Cuadrados Estadístico
Variación Suma de cuadrados g.l.
medios de contraste
k 2 k QN
Entre niveles QN = ∑ ni ( yi• − y•• ) = ∑ yi• .Si − y•• .S k–1 QN
i =1 i =1 k −1
Fo = − 1
k
k ni 2 k QR
QR
Residual QR = ∑ ∑ yij − yi •
i =1 j =1
( ) = SC − ∑ yi • .Si
i =1
n–k
n−k
n−k
k ni 2
Total Q = ∑ ∑ yij − y••
i =1 j =1
( ) n–1
Antes de aplicar el ANOVA, hay que confirmar que se cumplen los requisitos
o suposiciones para el ANOVA:
1. Las variables Yi son independientes entre sí.
2. Las variables Yi siguen distribuciones normales N ( µi , σ i ), ∀i = 1, 2,..., k .
3. Homogeneidad de las varianzas σ 12 = σ 22 = ... = σ k2 = σ 2 , hipótesis de ho-
mocedasticidad.
o bien, que al menos se puede aceptar estadísticamente que se cumplen con un
grado de confianza alto, 1 – α.
¿Cómo se puede contrastar que se cumplen estos supuestos o condiciones ne-
cesarias para poder aplicar el ANOVA?
1. Para elegir las muestras se reparten al azar las n observaciones entre los k
niveles del factor. Se pueden elegir todos los tamaños muestrales ni iguales
entre sí o no. Dentro de cada nivel las observaciones también se eligen al
azar.
2. Para contrastar la normalidad de las variables Yi se podrá aplicar la prueba
χ2 de bondad de ajuste si el tamaño de las muestras es grande, o si no la
prueba de Kolmogorov-Smirnov, presentadas en el tema anterior.
3. Si se puede aceptar que las variables Yi siguen distribuciones N ( µi , σ i )
∀i = 1, 2,..., k , hay varias pruebas para el contraste de homogeneidad de las
varianzas. Se explican a continuación dos de ellas: el contraste de Hartley y
el de Bartlett. Si no se puede aceptar la igualdad de las varianzas, tampoco
se puede aplicar el ANOVA y, como en el caso en que no se puede aceptar
la normalidad de las variables Yi, habría que recurrir a la prueba no para-
métrica de Kruskal-Wallis, también explicada en el capítulo anterior.
Si no se cumplen los requisitos de normalidad de los datos o de homogeneidad de

las varianzas, se podrían transformar los datos Yij para ver si con los datos transfor-
mados se pudiera aceptar la normalidad. Es fundamental que cualquier transformación
de los datos conserve el orden de éstos para que cualquier conclusión sobre las dife-
rencias en los datos transformados siga siendo válida en los originales.
Algunos datos que no se ajustan a la normalidad son: los pequeños recuentos,
por ejemplo de parásitos, también los recuentos en centenares o muy grandes re-
cuentos, como el número de bacterias o el número de células en la sangre, las pro-
porciones o porcentajes, los pesos de cosas muy pequeñas, etc.
Posibles transformaciones son:
( )
a) log Yij, o bien log Yij + c , con c > o, en el caso en que hubiera algún valor
negativo o nulo, si los valores de Yij son muy grandes, como recuento de
bacterias o células en la sangre. Es frecuente el uso de logaritmos deci-
males o naturales.
b) Yij o también Yij + c , con c > 0 para datos de pequeños recuentos.
1 1
c) o , en el caso que algún valor de Yij sea cero, para datos como
Yij Yij + 1
tiempo de respuesta.
d) arcsen Yij si los datos corresponden a proporciones o porcentajes, etc.
Si no se consigue aceptar la normalidad tampoco con los datos transformados,

se tendrá que aplicar la prueba no paramétrica, alternativa del ANOVA, el contraste
de Kruskal-Wallis.
13.2.1. Contraste de Hartley

La prueba de Hartley, también conocida como el contraste de la máxima
razón, sirve para contrastar la homogeneidad de las varianzas de las variables
aleatorias Yi, que siguen distribuciones normales N ( µi , σ i ), ∀i = 1, 2,..., k ,
siempre que las muestras de todos los niveles sean del mismo tamaño
ni = n, ∀i = 1, 2,..., k. En este caso k.n es el total de observaciones.
Para contrastar
se calculan las cuasivarianzas muestrales para los k niveles del factor s12 , s22 ,..., sk2
y se toma la mayor máx si2 y la menor mín si2 de estas cuasivarianzas.
1≤i ≤k 1≤i ≤k
Hartley determinó el estadístico del contraste
y los valores críticos Hα ;[k ,n −1] , que dejan por encima probabilidad α, en el su-
puesto de que la hipótesis nula sea cierta.
máx si2
Si el valor del estadístico, Ho = 1≤i ≤k 2 para los datos recogidos, es menor que
mín si
1≤i ≤k
el valor crítico Hα ;[k ,n −1] , siendo k el número de niveles considerados y n el número
de observaciones en cada nivel, se acepta al nivel α la igualdad de las k varianzas.
Si el valor del estadístico para los datos es mayor que el valor crítico, se re-
chaza la hipótesis nula, pues esto significa que es significativamente mayor la cua-
sivarianza máxima que la cuasivarianza mínima.
Los valores críticos Hα ;[k ,n−1] para este contraste se encuentran en la Tabla IX
del Apéndice I para k desde 2 hasta 12 y para diferentes valores de n – 1 que es el
número de grados de libertad.
13.2.2. Prueba de Bartlett

El contraste de Bartlett es más laborioso, pero tiene la ventaja de que se pue-
de aplicar para contrastar la homogeneidad de las varianzas de variables aleatorias
Yi, que siguen distribuciones normales N ( µi , σ i ), ∀i = 1, 2,..., k , aunque las k
muestras independientes sean de distinto tamaño ni.
En este caso, para probar
si s12 , s22 ,..., sk2 son las cuasivarianzas muestrales para los k niveles del factor, y en
el supuesto de que la hipótesis nula sea cierta, se puede tomar como estimador de
la varianza común, σ 2, la media ponderada de las cuasivarianzas muestrales,
siendo los pesos ni – 1, los grados de libertad correspondientes a cada una de ellas,
que se designa por s2, es decir:
k k
y se calcula V = ∑ ( ni − 1) ln s 2 − ∑ ( ni − 1) ln si2 , que será próximo a cero en el
i=1 i =1
caso en que la hipótesis nula sea cierta.
Bartlett elige como estadístico de contraste:
2
y demuestra que sigue una distribución χ k−1 .
Por tanto la regla de decisión en este caso es:
V
Si el valor del estadístico para los datos recogidos χ o2 = > χα2 ;k −1 , se rechaza
C
la hipótesis nula al nivel α. No se acepta entonces la igualdad de las varianzas, con
confianza 1 – α.
V
Por el contrario, si el valor del estadístico χ o2 =
< χα2 ;k −1 , concluimos que los
C
datos recogidos no contradicen la hipótesis nula y, en consecuencia, se acepta la
igualdad de las k varianzas.
EJEMPLO 13.1.
En un estudio sobre contaminación de las aguas fluviales se pretende contrastar
si la cantidad media de fosfatos varía en tres lugares diferentes en el curso de un río.
Para ello, se toman diez observaciones independientes de una determinada cantidad
de agua en cada uno de los tres lugares y se determina la cantidad de fosfatos, en
mg/l. Los resultados obtenidos son los siguientes:
mg/l
Li
L1 125 96 84 116 124 96 102 107 125 104
L2 123 76 107 120 140 88 139 110 134 147
L3 77 99 114 112 116 130 111 125 109 105
Aceptando que la cantidad de fosfatos en mg/l se distribuye según una N(µ, σ)

en el curso del río, contrastar si se puede aceptar que la media de fosfatos es la mis-
ma en los tres lugares considerados.
Como se parte de la normalidad de los datos recogidos y de la independencia

de las variables, falta contrastar la homogeneidad de las varianzas para poder apli-
car el ANOVA.
Por ser las tres muestras del mismo tamaño, se aplicará el contraste de Hartley.
Para probar:
se calculan las cuasivarianzas de las muestras correspondientes a cada uno de los

lugares, s12 = 201, 6556; s22 = 544, 2667; s32 = 213, 0667.
máx si2
1≤i ≤k
El estadístico de este contraste es: Ho = y la región crítica para el nivel
mín si2
1≤i ≤k
)
α = 0,05 es:  Hα =0 ,05;[k =3,n−1=9 ] , + ` = [5, 34, + ` ) .

máx si2
Calculando: Ho = 1≤i ≤k 2 = 544, 2667 = 2, 6990 ∉[5, 34, + ` ) .
mín si 201, 6556
1≤i ≤k
y por tanto no hay razones para rechazar la hipótesis nula al nivel α = 0,05. Se
acepta pues la igualdad de varianzas y, verificados todos los supuestos del análi-
sis de la varianza, ya se puede contrastar la igualdad de las medias.
Se trata ahora pues de contrastar la igualdad de medias de la cantidad de fos-

fatos en los tres lugares de observación:
En las siguientes tablas se recogen los cálculos necesarios:
Sumas Medias ni
ni S g.l. Productos
Niveles i Tamaño ni yi • = Si = ∑ yij yi • = i ni – 1
SCi = ∑ yij2 yi • . Si
j =1 ni j =1
L1 10 y1• = S1 = 1.079 y1• = 107, 9 9 118.239 116.424,1
L2 10 y2• = S2 = 1.184 y2• = 118, 4 9 145.084 140.185,6
L3 10 y3• = S3 = 1.098 y3• = 109, 8 9 122.478 120.560,4
n = 30 y•• = S = 3.361 y•• = 112.0333 27 SC = 385.801 377.170,1
medios de contraste
3
QN
Entre niveles QN = ∑ yi• .Si − y•• .S = 626, 0667 2 = 313, 0333
i =1 2
F = 0,9793
3
QR
Residual QR = SC − ∑ yi • .Si = 8.630, 9000 27 = 319, 6630
i =1 27
3 ni 2
Total
i =1 j =1
(
Q = ∑ ∑ yij − y•• ) = 9.256, 9667 29
La región crítica para este contraste es: RCα =0 ,05 =  Fα =0 ,05;[ 2,27 ] , + ` .
 )
En la Tabla IV del Apéndice I se encuentran los valores: Fα =0 ,05;[ 2,20 ] = 3, 49 y
Fα =0,05;[2,30 ] = 3, 32. Interpolando, se obtiene Fα =0 ,05;[2,27] . 3, 371. Por tanto, la región
)
crítica es: RCα =0 ,05 =  Fα =0 ,05;[ 2,27] , + ` . [ 3, 371, + ` ) y como el estadístico del con-
traste Fo = 0, 9793 ∉ RCα = 0,05 = [ 3, 371, + ` ) se acepta la hipótesis nula al nivel α = 0,05.
Es decir, con los datos recogidos no hay razones para suponer que las medias
de la cantidad de fosfatos difieren en los tres lugares del curso del río.
EJEMPLO 13.2.
Se ha medido, en cm, la longitud de los trilobites, fósiles muy frecuentes en el
Ordovícico, de cuatro muestras procedentes de otras tantas regiones.
R1 9,6 8,8 8,9 9,0 9,4 8,5 8,6 9,2 8,8 8,6
R2 9,1 8,9 9,0 9,1 8,8 9,2 9,3 9,1 8,6 8,6 9,0 8,8 8,7
R3 9,9 9,8 9,4 9,6 9,7 9,6 9,8
R4 8,7 9,4 8,6 8,6 9,3 9,3 9,0
Aceptando que las longitudes siguen distribuciones normales, ¿se puede acep-
tar que la longitud media es la misma en las cuatro regiones?
Por ser las cuatro muestras de distinto tamaño, se aplicará el contraste de Bartlett.
Para probar:
se calculan las cuasivarianzas de las muestras correspondientes a cada una de las

regiones, s12 = 0, 1316; s22 = 0, 0509; s32 = 0, 0281; s42 = 0, 1248 y
9 s12 + 12s22 + 6 s32 + 6s42
s2 = . 0, 0822
33
El estadístico de contraste es:
que sigue una distribución χ 42−1 , siendo:
5, 4490
Como χ o2 = = 5,1635 ∉ RCα = 0 ,05,3 = [ 7, 815, + ` ) , se acepta la igualdad
1, 0553
de las varianzas en las cuatro regiones.
Para contrastar la igualdad de medias de las longitudes de los trilobites en las

cuatro regiones:
En las siguientes tablas se recogen los cálculos necesarios:
Sumas Medias ni
ni S g.l. Productos
Regiones Tamaño ni yi • = Si = ∑ yij yi • = i ni – 1
SCi = ∑ yij2 yi • .Si
j =1 ni j =1
R1 10 y1• = S1 = 89, 4 y1• = 8, 9400 9 800,42 799,23600
R2 13 y2• = S2 = 116, 2 y2• = 8, 9385 12 1.039,26 1.038,65370
R3 7 y3• = S3 = 67, 8 y3• = 9, 6857 6 656,86 656,69046
R4 7 y4• = S4 = 62, 9 y4• = 8, 9857 6 565,95 565,20053
n = 37 y•• = S = 336, 3 y•• = 9, 0892 33 SC = 3.062,49 3.059,78069
medios de contraste
3
QN
Entre niveles QN = ∑ yi• .Si − y•• .S = 3, 0830 3 = 1, 0277
i =1 3
F0 = 12,517
3
QR
Residual QR = SC − ∑ yi • .Si = 2, 7093 33 = 0, 0822
i =1 33
3 ni 2
Total Q = ∑ ∑ yij − y••
i =1 j =1
( ) = 5, 7923 36
La región crítica para este contraste es: RCα =0,01 =  Fα =0,01;[3,33] , + ` .

 )
En la Tabla IV del Apéndice I se encuentran los valores: Fα =0 ,01;[3,30 ] = 4, 51 y
Fα =0 ,01;[3,40 ] = 4, 31. Interpolando, se obtiene Fα =0,01;[3,33] . 4, 45. Por tanto, la región
)
crítica es: RCα =0,01 =  Fα =0,01;[3,33] , + ` . [ 4, 45, + ` ) y como el estadístico del con-
traste: Fo = 12, 517 ∈ RCα = 0,01 = [ 4, 45, + ` ) se rechaza la hipótesis nula al nivel α =0,01.
Se concluye que hay diferencias significativas entre las longitudes de los tri-
lobites procedentes de esas cuatro regiones.

Para los datos del Ejemplo 13.1. se introducen las cantidades de fosfatos en
mg/l en un archivo de datos en dos columnas, la primera numérica en la que se co-
pian los valores de la variable, cantidad de fosfatos en mg/l, y en la segunda, el lu-
gar de recogida. La segunda columna es, por tanto, una variable cualitativa o atri-
buto y sus modalidades son L1, L2 y L3, que sirven para que STATGRAPHICS
asocie cada dato con el lugar donde se ha recogido. A continuación, señalando las
dos columnas, se elige:
Comparación → Análisis de la Varianza → ANOVA simple
En la ventana de diálogo resultante se indica:
Variable dependiente: Fosfatos y Factor: Lugares
y se pulsa Aceptar.
Los resultados numéricos y gráficos obtenidos son los siguientes:
ANOVA Simple - Fosfatos según Lugares

Resumen del Procedimiento
Variable dependiente: Fosfatos

Factor: Lugares
Número de observaciones: 30
Número de niveles: 3
Representación por código de nivel

156
136
Fosfatos
116
96
76
L1 L2 L3
Col_2
Tabla ANOVA para Fosfatos según Lugares
Suma Cuadrado
Fuente GL Cociente-F P-Valor
de cuadrados medio
Entre grupos 626,067 2 313,033 0,98 0,3885
Intra grupos 8630,9 27 319,663
Total (Corr.) 9256,97 29
El StatAdvisor
——————————————
La tabla ANOVA descompone la varianza de Fosfatos en dos componentes:
un componente entre grupos y un componente dentro de los grupos.
El F-ratio, que en este caso es igual a 0,979261, es el cociente de la
estimación entre grupos y la estimación dentro de los grupos. Puesto que
el p-valor del test F es superior o igual a 0,05, no hay diferencia
estadísticamente significativa entre las Fosfatos medias de un nivel de
Lugares a otro para un 95,0%.
Aquí, STATGRAPHICS indica que el valor del estadístico es F = 0,979261 y

en lugar de determinar la región crítica calcula el p-valor, es decir, la probabilidad
de que una variable aleatoria F[2,27] sea mayor que el valor observado.
Como este valor es mayor que 0,05, significa que el valor del estadístico
para las muestras dadas no pertenece a la región crítica para α = 0,05 y la con-
clusión es la misma que la obtenida manualmente.
Gráfico de cajas y bigotes
L1
Lugares
L2
L3
76 96 116 136 156

Fosfatos
Contraste de Varianza
Contraste de Hartley: 2,69899
Se observa aquí que STATGRAPHICS también proporciona el valor del esta-

dístico para el contraste de Hartley, 2,69899 ⯝ 2,6990 como se obtuvo al realizar
los cálculos a mano en el Ejemplo 13.1.
A continuación, se presentan los cálculos del contraste de Bartlett realizados a
mano para comprobar que la conclusión es la misma que la del contraste de Hartley.
Para contrastar las hipótesis:
mediante la prueba de Bartlett hay que calcular además de las cuasivarianzas

de cada una de las tres muestras, que ya se han obtenido para aplicar el contraste
de Hartley, la media ponderada de las cuasivarianzas:
y se calcula:
El estadístico de contraste:
 
1  k 1 1  11 1 1 1 
siendo C = 1 +  ∑ − k  = 1 +  + + −  = 1, 0494
3 ( k − 1) i =1 ni − 1 6  9 9 9 27 


∑ ( ni − 1) 

i =1
V 3, 0078
de donde χ o2 = = = 2, 8662.
C 1, 0494
)
La región crítica para el nivel α = 0,05 es  χα2 =0 ,05;k−1=2 , + ` = [ 5, 991, + ` )
que no contiene el valor del estadístico del contraste para los datos recogidos.
Como el valor de χ o2 = 2, 8662 < 5, 991, se acepta la igualdad de las varianzas en
los tres niveles. La misma conclusión que se obtuvo aplicando el contraste de
Hartley.
13.2.4. Comparaciones múltiples

En los contrastes de ANOVA en los que se rechaza la hipótesis nula porque el
2
valor del estadístico F0 es mayor que el valor crítico χα ;k−1 , para el nivel de sig-
nificación escogido α, se acepta que al menos hay dos medias poblacionales di-
ferentes. Ahora surge la pregunta: ¿qué medias son las diferentes entre sí?
La respuesta la dan los procedimientos a posteriori de comparaciones múlti-
ples. Uno de estos procedimientos es el Contraste de la Menor Diferencia Sig-
nificativa de Fisher (Fisher’s Least Significant Difference, en inglés, también
conocido como LSD) que se basa en el contraste de la «t de Student». Fisher pro-

bó que, si previamente se ha rechazado la hipótesis de igualdad de medias del
ANOVA, para este contraste LSD el error de tipo I es similar al utilizado en la
conclusión del ANOVA, es decir, α.
Contraste de la Menor Diferencia Significativa (Método LSD)

En un ANOVA con un solo factor de variación y k niveles del factor en el que
se ha rechazado la igualdad de las k medias poblacionales, se trata de averiguar
qué niveles son los que tienen diferentes medias. Este contraste compara todos los
pares de medias, en total  k  contrastes del siguiente modo:
 2
Para ello, se calcula en primer lugar el estimador de la varianza σ̂ 2, común a

todos los niveles porque para aplicar el ANOVA se tiene que verificar la hipóte-
sis de homocedasticidad,
El estadístico de estos contrastes es:
que si se cumplen los requisitos para aplicar el ANOVA y si la hipótesis nula

H0 : µi = µ j es cierta, sigue una distribución tn–k.
 
La región de aceptación de estos contrastes es RAα =  − t α , t α  y por
 2 ;n−k 2 ;n − k 
tanto se rechazará la hipótesis nula, si el valor del estadístico de contraste perte-
nece a
EJEMPLO 13.3.
Con los datos del Ejemplo 13.2. explicar para qué medias las diferencias son sig-
nificativas.
Aplicando el Contraste de la Menor Diferencia Significativa, método LSD, se

4
comparan todos los pares de medias, en total   = 6 contrastes de hipótesis:
 2
xi − x j
El estadístico de estos contrastes es T =
1 1
sR +
ni n j
y la región de aceptación para α = 0,01 es:
Los valores críticos de estos contrastes obtenidos con los valores de las me-
dias muestrales del Ejemplo 13.2. y σˆ 2 = s 2R = 0, 0822 son:
• Para la primera y segunda región:
)
t . 0, 01277 ∈ RAα = 0,01 = ( −t0,005;33 , t0,005;33 = ( −2, 736, 2, 736 ) , se acepta H0: µ1 = µ2
para α = 0,01. No hay diferencia significativa entre µ1 y µ2.
• En la primera y tercera región:
)
t . −5, 2785 ∉ RAα = 0 ,01 = ( − t0 ,005;33 , t0 ,005;33 = ( −2, 736, 2, 736 ) , no se acepta
H0: µ1 = µ3 para α = 0,01. Hay diferencia significativa entre µ1 y µ3.
• Para la primera y cuarta región:
t . −0, 3256 ∈ RAα =0,01 = ( −2, 736, 2, 736) , se acepta H0: µ1 = µ4 para α = 0,01. No
hay diferencia significativa entre µ1 y µ4.
• En la segunda y tercera región:
t . −5, 5602 ∉ RAα =0,01 = ( −2, 736, 2, 736) , no se acepta H0: µ2 = µ3 para α = 0,01.
Hay diferencia significativa entre µ2 y µ3.
• Para la segunda y cuarta región:
t . −0, 3516 ∈ RAα =0,01 = ( −2, 736, 2, 736) , se acepta H0: µ2 = µ4 para α = 0,01. No
hay diferencia significativa entre µ2 y µ4.
• En la tercera y cuarta región:
t . 4, 5683 ∉ RAα =0 ,01 = ( −2, 736, 2, 736 ) , no se acepta H0: µ3 = µ4 para α = 0,01.
Hay diferencia significativa entre µ3 y µ4.
La diferencia entre la media de la región 3, µ3 y cada una de las medias de las

otras regiones es significativa.
13.3. ANÁLISIS DE LA REGRESIÓN LINEAL SIMPLE
En el Capítulo 3 se estudió la relación entre dos variables estadísticas cuanti-

tativas. Se trata ahora de contrastar la validez del modelo en la población de la que
se eligió esa muestra. Contrastar si están relacionadas las variables X e Y en la po-
blación y en qué sentido se da la relación, si al aumentar los valores de X tam-
biénraumentan las de Y o disminuyen. Otro de los objetivos del análisis de la re-
gresión es estudiar si los valores de la variable X se pueden utilizar para predecir
los valores de Y.
De las dos variables en estudio se elige la que es más fácilmente medible o
controlable, se designará por X y se denominará variable explicativa o variable in-
dependiente, siendo entonces la variable Y la variable dependiente o variable res-
puesta.
En primer lugar, se eligen n valores de la variable independiente
x1 , x2 , ..., x n y para cada uno de ellos se observa el valor correspondiente de la
variable Y, que se designará por yi. Se ha obtenido así una muestra de tama-
ño n, ( xi , yi ) , i = 1, 2,..., n de la variable aleatoria bidimensional (X, Y). Los va-
lores xi de la variable X, como son elegidos por el que realiza la experiencia, son
constantes conocidas, pero para los mismos valores de estas constantes xi los
correspondientes valores yi de la v.a. Y tienen errores de medida.
El objeto del análisis de la regresión lineal simple es probar si se puede ad-
mitir la hipótesis de que existe una relación lineal entre las variables aleatorias X
e Y, es decir, si se puede admitir el modelo Y = α + β X , siendo α y β parámetros
desconocidos, que se estimarán a partir de una muestra.
Para poder estimar los parámetros del modelo a partir de los datos de las
muestras ( x i , yi ) , i = 1, 2,..., n y realizar los contrastes se necesitan formular unas
hipótesis previas, como se hizo en el análisis de la varianza, que son los requisitos
necesarios para aplicar el análisis de la regresión lineal.
Se estudiará el modelo de regresión simple normal µY X = x = α + β x , para el
que se exigen los siguientes requisitos:
Se observan n pares ( xi , yi ) , i = 1, 2,..., n.
1. Los valores de la v.a. X, por ser elegidos, son constantes conocidas y no
se consideran valores que se puedan obtener al azar de la v.a. X.
2. Para cada valor fijo de xi las variables Yi = Y X = x siguen una distribución

i
normal de media µY X = xi = α + β x i y varianza σ Y2 X = xi = σ i2 , es decir,

Los valores yi son observaciones independientes de las variables aleatorias Yi.
µY|X=x1 µY|X=x2 µY|X=x3 µY|X=xi µY|X=xr
Y1
x1
Y2
x2
Y3
x3
Yi
…
xi
…
Yr
xr
µY|X=x = α + βx
3. Las variables aleatorias Yi son independientes entre sí, ∀i = 1, 2,..., n.

4. Hipótesis de homocedasticidad: las varianzas de todas las variables alea-
torias Yi son iguales, es decir, σ i2 = σ 2 , ∀i = 1, 2,..., n.
Por tanto, las variables aleatorias Yi = Y X = xi

siguen distribuciones normales
con medias α + β x i y varianza común σ 2 , esto es, Yi , N (α + β xi , σ ) ∀i = 1, 2,..., n.
Si se verifican los requisitos anteriores, el modelo de regresión lineal simple
µY X = x = α + β x es equivalente a Yi = α + β xi + δ i , siendo δ i , N ( 0, σ ) , ∀i = 1, 2,..., n
y las variables δi independientes.
Para cada observación ( xi , yi ) es δ i = yi − (α + β xi ) que representa para cada
xi la diferencia entre el valor que se observa, un valor de Yi, y el correspondiente
en la recta ajustada α + β x i , distancia en la vertical, x = xi, del punto (xi, yi) a la
recta ajustada.
Los estimadores de máxima verosimilitud de los parámetros α y β, son los
que hacen máxima la función
Por verificarse las hipótesis de normalidad y de igualdad de varianzas,
Estos estimadores son los que hacen mínima la suma de los cuadrados de los
n n 2
errores δi, es decir, ∑ δ i2 = ∑ ( yi − (α + β xi )
i=1 i=1
) y, por tanto, como se explicó en el
Apartado 3.7.1. del capítulo de estadística descriptiva bidimensional, se obtienen

a partir de las ecuaciones normales:
Así, para encontrar los estimadores de máxima verosimilitud α̂ y βˆ de los paráme-

tros a partir de los pares observados (xi, yi) para i = 1,2,..., n se resuelve el sistema
Como se detalló en el Apartado 3.7.1, la solución del sistema anterior es:
Como los errores δ i , N ( 0, σ ) , ∀i = 1, 2,..., n, para estimar σ 2, la varianza

común a las variables aleatorias Yi para i = 1,2,..., n, que es también la varianza de
n
∑ δî2
los errores y al tener los errores media cero, se utiliza σˆ 2 = s 2 = i=1 ya que la
n−2
n
suma ∑ δ i2 está sometida a dos restricciones lineales, las ecuaciones normales, y
i =1
por tanto tiene (n – 2) grados de libertad.
Se puede facilitar el cálculo del estimador de la varianza común teniendo en
cuenta lo explicado en el Apartado 3.7.3,
Si se verifican las hipótesis previas del modelo de regresión lineal simple, se

n
∑ δî2
puede demostrar que los estadísticos Y , b = βˆ y i=1 2 siguen las distribuciones:
σ
y además, estas distribuciones son independientes unas de otras.

Estos resultados permiten plantear algunos contrastes de hipótesis y dar in-
tervalos de confianza para los parámetros desconocidos.
EJEMPLO 13.4.
Con los datos recogidos en la siguiente tabla:
Precipitación mensual
Latitud norte grados media en l/m2
42 68,6
47 71,9
46 73,1
44 64,6
43 55,1
45 54,9
44 56,2
46 55,6
32 37,7
35 42,8
41 55,9
36 46,0
y que representan la latitud norte, en grados, de 12 estaciones meteorológicas y la
precipitación media mensual, medida en litros por metro cuadrado, estimar los co-
eficientes de la recta de regresión.
La recta de regresión de Y sobre X es: Y = α + β X .

La estimación de la pendiente de esta recta viene dada por:
La ordenada en el origen se estima por:
13.3.1. Contraste de hipótesis para el parámetro β
Una forma de contrastar la relación lineal entre las variables X e Y,

Y = α + β X , es verificar que se puede aceptar que el valor de β sea distinto de
cero.
Por ello, se plantean las hipótesis:
 σ 
Teniendo en cuenta la distribución del estadístico b = βˆ , N  β ,  se podría
 Sx n 
utilizar como estadístico del contraste z = b que sigue, si H0 es cierta, una distri-
σ
bución N(0,1). Sx n
n
∑ δî2
Pero como no se conoce la varianza, al estimarla por s 2 = σˆ 2 = i =1 , se ob-
tiene el estadístico: n−2
que sigue una distribución t de Student con (n – 2) grados de libertad.

Si el valor del estadístico de contraste
se rechaza la hipótesis nula, H0 : β = 0. Esto significa que la pendiente de la recta

Y = α + β X es distinta de cero, es decir, los datos recogidos evidencian que existe
relación lineal entre las variables X e Y.
Si se acepta la hipótesis H0 : β = 0 significa que no hay relación lineal entre
las variables, pues sería Y = α cualquiera que fuera el valor de X.
Otra forma de probar la relación lineal entre X e Y sería realizar un contraste
σ xy
para el coeficiente de correlación entre las variables X e Y, ρ = , que es una
σ xσ y
medida del grado de ajuste de los pares (x, y) a la recta de regresión Y = α + β X .
El parámetro ρ se estima por el coeficiente de correlación de la muestra:
n n 2 n 2
∑ ( xi − x ) ( yi − y ) ∑ ( xi − x ) ∑ ( yi − y )
donde SXY = i =1
; S2x = i =1
; S2y = i =1 y por tanto,
n n n
se puede estimar ρ por
No se planteará el contraste de hipótesis para inferir si el coeficiente de corre-

lación es cero o distinto de cero porque la conclusión se puede deducir del contraste
de hipótesis para el parámetro β. Si se acepta H0: β = 0 entonces se aceptará ρ = 0
y si se rechaza la hipótesis nula para β entonces se puede aceptar que ρ ⫽ 0.
EJEMPLO 13.5.
Con los datos y resultados del Ejemplo 13.4., a) dar una estimación del coefi-
ciente de correlación lineal. b) Realizar el contraste de hipótesis para β, aceptando
que la precipitación media mensual en cada latitud sigue una distribución normal y
se verifican las hipótesis previas para poder aplicar el análisis de la regresión.
σ xy
a) El coeficiente de correlación entre las variables X e Y, ρ = , que
σ xσ y
mide el grado de ajuste de los pares (x, y) a la recta de regresión se estima por el
coeficiente de correlación de la muestra:
b) Se trata de realizar el contraste de hipótesis para la pendiente de la recta de

regresión:
b
El estadístico del contraste es: T = , tn− 2 .
s
Sx n
Se necesita calcular, por tanto:
El valor del estadístico de contraste para los datos dados es:
Utilizando la Tabla III del Apéndice I, se determinan los valores críticos para
α = 0,05, para α = 0,01 y α = 0,001.
Como el valor del estadístico para los datos dados pertenece a la región críti-
ca del contraste para α = 0,05,
se rechaza H0 : β = 0 para α = 0,05.

Las regiones críticas del contraste para α = 0,01y para α = 0,001 son:
ambas incluyen el valor del estadístico para los datos de la muestra, por ello
hay fuerte evidencia para rechazar con esos datos la hipótesis nula H0 : β = 0.
Es decir, los datos de la muestra dan un valor del estadístico muy significati-
vo. Por tanto, se acepta la hipótesis alternativa H1 : β ≠ 0 con confianza 99,9%, y
en consecuencia se acepta a partir de los datos de la muestra que hay una relación
lineal entre la latitud y las precipitaciones.
13.3.2. Contraste de significación de la regresión lineal simple

Otra forma de contrastar la relación lineal entre las variables X e Y consiste en
ensayar las hipótesis:
H : β = 0
Este contraste es equivalente a contrastar  0 pues si se acepta β = 0
 H1 : β ≠ 0
se aceptará que todas las medias µi = αˆ + βˆ xi = µ y recíprocamente.
Para realizar el contraste planteado se descompone la varianza de la variable
aleatoria Y, o la suma de cuadrados de las diferencias de yi a su media y$ en dos su-
mandos, uno debido a la regresión lineal, αˆ + βˆxi respecto de y$, que mide la va-
riación de Y explicada por la variación de X, y otro debido al error de ajuste de los
valores observados a esta recta, yi − αˆ − βˆ x i .
Como se vio anteriormente, la suma de cuadrados de las diferencias de yi a su
media y$ es
La suma de cuadrados debido al error de ajuste de los valores observados a la

recta de regresión es:
Y por tanto

n n
δî2
2
∑ ( yi − y ) ∑
puede demostrar que los estadísticos Q Q
Y
= i =1 y δ
= i=1 2 siguen
σ2 σ2 σ2 σ
n n
∑ δî2
2
Q ∑ ( yi − y ) Q
distribuciones χ2 independientes: Y2 = i=1 2 , χ n2−1 Ä yÄ δ2 = i=1 2 , χ n−
2
2.
σ σ σ σ
Y como consecuencia de la independencia de los sumandos de la descompo-
sición de la suma de cuadrados QY = QRL + Qδ , si la hipótesis H0 es cierta el esta-
dístico
De aquí se deduce que el estadístico
TABLA PARA EL CONTRASTE DE SIGNIFICACIÓN

DE LA REGRESIÓN LINEAL SIMPLE
medios de contraste
2
Debida a la n 2 ( )
n Sxy
regresión lineal QRL = ∑
i =1
( αˆ + βˆ xi − y ) =
Sx2
1 QRL
QRL
Fo =
Qδ
 2 
Error de ajuste
a la recta de
n
Qδ = ∑ δî2 = n  Sy2 −
Sxy ( )  n–2
Qδ n−2
regresión i =1  Sx2  n−2

 
n 2
Total de Y QY = ∑ ( yi − y ) = nSY2 n–1
i =1
QRL
Los valores grandes del estadístico de contraste Fo = indican que
Qδ
(n − 2)
una parte grande de la varianza de la v.a. Y es explicada por la recta de regresión
de Y sobre X, y valores pequeños del estadístico revelan que la varianza de los
errores de ajuste es mayor que la explicada por la recta de regresión, de ahí que la
región crítica del contraste para el valor de α fijado es:
Si el valor del estadístico de contraste para los datos de la muestra cae en la

)
región crítica RCα =  Fα ; 1,n −2 , + ` se rechaza la hipótesis nula
 [ ]
y, por tanto, se rechaza la hipótesis nula H0 : β = 0. Esto significa que existe una
asociación estadísticamente significativa entre las variables X e Y, se acepta la recta
de regresión de Y sobre X, Y = α + β X , como relación lineal entre las variables.
EJEMPLO 13.6.
Realizar el contraste de significación de la regresión lineal para los datos de la-
titud y precipitación del Ejemplo 13.4.
Se trata de contrastar:
Utilizando los valores calculados anteriormente
se completa el cuadro siguiente:

Suma Cuadrados Estadístico

Variación g.l.
de cuadrados medios de contraste
RL Q
Debida a la
regresión lineal
QRL = 952,1785 1 QRL = 952,1785 Fo = Qδ = 22, 2415
10
Error de ajus-
Qδ
te a la recta de Qδ = 428,1083 10 = 42, 81083
regresión 10
Total de Y QY = 1.380,2868 11
Utilizando las Tablas IV, V y VII del Apéndice I, se obtienen las regiones crí-
ticas para el contraste, que son:
Como el valor del estadístico de contraste
F0 = 22,2415 pertenece a la región crítica RCα =0 ,005 = [12, 83, + ` ) y por tanto
con los datos de la muestra se puede rechazar la hipótesis nula
o lo que es lo mismo, rechazar la hipótesis nula H0 : β = 0 con confianza 99,5% y

por ello concluir que se puede aceptar la regresión lineal entre las variables X e Y.
Esta asociación es estadísticamente significativa.
Se acepta la recta de regresión de Y sobre X, Y = −22, 9917 + 1, 9128 X , como
relación lineal entre las variables latitud y precipitaciones. En la práctica esto sig-
nifica que una parte de la variación de Y se puede explicar por esa recta de regre-
sión. Como ρ̂ = 0,8306, véase el Ejemplo 13.5. ρˆ 2 . 0, 6899, el 68,99% de la varia-
ción de la precipitación se puede explicar por la variación de la latitud.
Se puede comprobar que el valor de Fo = 22, 2415 = to 2 = 4, 71612 , siendo t0 el
valor del estadístico del Ejemplo 13.5. Este contraste y el del Ejemplo 13.5. son
equivalentes.
En el Ejemplo 3.3. del Capítulo 3 se hacía la observación de que el programa
STATGRAPHICS desde un archivo de datos, seleccionando en el menú
proporciona además de la ecuación de la recta de regresión correspondiente a las

variables seleccionadas y los coeficientes de regresión lineal y de determinación
otros resultados que no era el momento de explicar. Ahora sí que se está en con-
diciones de hacerlo. Se trata del Análisis de la Regresión Lineal Simple.
En el ejemplo siguiente se presentan los resultados del contraste de signifi-
cación de la regresión lineal para los datos del Ejemplo 3.5. del Capítulo 3.
EJEMPLO 13.7.
Realizar con STATGRAPHICS y con Excel el contraste de significación de
la regresión lineal para los datos de Longitud y ln(Anchura) del Ejemplo 3.5.
para el que se puede aceptar que se verifican las hipótesis previas del modelo de
regresión lineal simple. Comparar los resultados.
En primer lugar, se introducen en la hoja de datos los valores de la anchura y de

la longitud de los 30 fósiles utilizados y se construye la columna del ln (Anchura).
Anchura Longitud ln (Anchura)
11,2 9,55 2,41591378
10,2 9,75 2,32238772
11,8 10,5 2,46809953
12 10,5 2,48490665
12,7 11 2,54160199
12,7 11,75 2,54160199
12 11,35 2,48490665
12,55 11 2,52972067
13 12,5 2,56494936
12 12,25 2,48490665
12,95 12 2,56109579
13,4 12,2 2,59525471
13,55 12,3 2,60638655
14 12,4 2,63905733
13,9 12,65 2,63188884
14,5 12,7 2,67414865
14 12,6 2,63905733
14,7 12,5 2,68784749
14,3 12,85 2,66025954
14,8 13,3 2,69462718
15,05 12,1 2,71137799
15,05 12,05 2,71137799
16,25 12,7 2,78809291
14,05 13,4 2,6426224
13,95 12,7 2,63547951
15,15 11,9 2,71800053
16,75 13,45 2,81839826
15,3 13 2,72785283
16,1 14,5 2,77881927
16,65 13,95 2,81241022
En STATGRAPHICS desde el archivo de datos se selecciona en el menú:
con lo que se abre una nueva ventana para la entrada de datos. En esta ventana se
indica que la variable x es la Longitud y la variable y es ln (Anchura). Pulsando
Aceptar se obtienen los resultados, que se presentan a continuación, redondeados
con cuatro decimales.
Análisis de Regresión - Modelo Lineal Y = a + b*X

Variable dependiente: Log_Anchura
Variable independiente: Longitud
Parámetro Estimación Error estándar Estadístico T P-Valor
Ordenada 1,5305 0,1295 11,8154 0,0000
Pendiente 0,0894 0,0106 8,4396 0,0000
Modelo de regresión lineal ajustado:
Se trata de contrastar:
Suma Cuadrado
de cuadrados medio
Modelo 0,3014 1 0,3014 71,23 0,0000
Residuo 0,1185 28 0,0042
Total (Corr.) 0,4199 29
Coeficiente de Correlación = 0,84724.

R-cuadrado = 71,7816 porcentaje.
Como al valor del estadístico F0 = 71,23 le corresponde un p-valor nulo, se re-

chaza la hipótesis nula,
Por tanto, se puede aceptar la regresión lineal entre las variables X e Y, y esta
asociación es estadísticamente significativa, pues α < 0,01. Se acepta, en conse-
cuencia, este modelo de regresión lineal ajustado para la población de la que se ha
extraído la muestra de los 30 fósiles.
El estadístico r2 = 71,78% indica que el modelo explica un 71,78% de la va-
riabilidad en ln (Anchura).
El coeficiente de correlación r = 0,8472 indica una relación moderadamente
fuerte entre las variables. El error estándar de la estimación muestra la desviación
típica de los residuos que es 0, 0042 . 0,065, que se puede usar para construir
límites de la predicción para otras observaciones.
Con el programa Excel, a partir del archivo de datos, se elige en el menú:
Herramientas → Análisis de Datos → Regresión
se pulsa Aceptar y aparece la ventana emergente que se ve en la siguiente figura
en la que se indica el rango de entrada de los datos de las dos variables.
El programa proporciona un resumen del análisis de la regresión que se indica a con-

tinuación, también redondeado con cuatro decimales, para facilitar la comparación.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,8472
Coeficiente de determinación R^2 0,7178
Observaciones 30
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico

F
libertad cuadrados los cuadrados de F
Regresión 1 0,3014 0,3014 71,2261087 3,5351E-09
Residuos 28 0,1185 0,0042
Total 29 0,4199
Error Estadístico Probabili- Inferior Superior

Coeficientes
típico t dad 95% 95%
Ordenada 1,5305 0,1295 11,8154 2,1457E-12 1,2652 1,7958
en el origen
Pendiente 0,0894 0,0106 8,4396 3,5351E-09 0,0677 0,1111
Los resultados coinciden con los del programa STATGRAPHICS.
13.3.3. Análisis de la regresión lineal simple con varias medidas de

la variable Y para un mismo valor de X
Se considera ahora el caso en que para cada valor distinto de X, x1 , x 2 ,..., x r ,
se obtengan n1 , n2 ,..., nr medidas de las variables aleatorias Yi = Y X = x , siendo
i
r
∑ ni = n el tamaño de la muestra.
i =1
Para un valor de xi fijo las ni observaciones independientes son valores de la v.a.
Yi = Y X = x , N ( µi , σ ) ∀i = 1, 2,..., r, siendo la varianza σ común a todas ellas.
i
µ1 µ2 µ3 µi µr
Y1
x1
y11 y1j y1n1
Y2
x2
Y3
x3
Yi
…
xi
yi1 yij yini
…
Yr
xr
yr1 yrj yrnr
µY|X=x = α + βx
Designando para cada i = 1, 2,..., r
el estimador de la varianza común σ 2 será la media ponderada de las cuasiva-

rianzas muestrales:

r r ni 2 n
∑ ( ni − 1) si2 ∑ ∑ ( yij − yi ) ∑ δî2
i =1 j =1
puede demostrar que los estadísticos i =1
= y i =1
σ2 σ2 σ2
2
siguen distribuciones χ independientes:
Y que
Se puede descomponer la suma de los cuadrados de las desviaciones del si-

guiente modo:
r ni
De donde se deduce que la suma de cuadrados de las desviaciones Qδ = ∑ ∑ δîj2
i =1 j =1
es suma de QD, que representa la suma de los cuadrados de los errores dentro de
los grupos, es decir, de las observaciones yij a su media y$i (variabilidad de yij, para
cada xi fijo) y de QE, que representa la suma de los cuadrados de los errores en-
tre grupos, desviación de la media y$i, para cada xi, respecto del valor α̂ + βˆxi, en
la recta de regresión.
Si la hipótesis H0 es cierta, el estadístico
como consecuencia de la independencia de los sumandos de la descomposición de

la suma de cuadrados de las desviaciones.
El resultado anterior proporciona el estadístico del contraste:
Si el valor del estadístico para los datos recogidos es muy grande, signi-
fica que la suma de los cuadrados de ajuste a la recta de regresión es mucho
mayor que la suma de los cuadrados de los errores de las observaciones a su
media dentro de los grupos.
Por tanto, fijado el nivel de significación α, se rechaza la hipótesis nula,
para los valores muy grandes del estadístico.

)
Es decir, la región crítica del contraste es RCα =  Fα ;[r −2,n−r ] , + ` .
TABLA PARA ANÁLISIS DE LA REGRESIÓN LINEAL SIMPLE
medios de contraste
Entre grupos r 2 QE
µ y = αˆ + βˆ x i =1
(
QE = ∑ ni yi − αˆ − βˆ xi ) r–2
r−2
QE
r ni
Fo = − 2
r
2
Residual dentro
de los grupos
QD = ∑ ∑ yij − yi ( ) = QD
i =1 j =1 QD
yi 1 , yi 2 , ... yini 2 n–r n−r
r ni r 1 ni  n−r
i = 1, 2,..., r = ∑ ∑ yij 2 − ∑  ∑ yij 
i =1 j =1 i =1 ni i =1
ir n 2
Total
i =1 j =1
(
Qδ = ∑ ∑ yij − αˆ − βˆ xi ) n–2
EJEMPLO 13.8.
Los siguientes pares representan 40 observaciones de una variable bidimensio-
nal en la que el primer valor indica la edad, en años, del paciente, y el segundo una
medida de la tensión sistólica, en mm de Hg. Se mide la tensión a cuatro pacientes
para cada edad considerada.
(19, 109), (19,111), (19, 115), (19, 119), (21, 112), (21, 124), (21, 122), (21,123),
(24, 122), (24,121), (24, 122), (24, 126), (30, 125), (30, 126), (30, 123), (30,133),
(43, 134), (43,136), (43, 137), (43, 135), (53, 138), (53, 139), (53, 145), (53,165),
(55, 146), (55,149), (55, 147), (55, 137), (65, 156), (65, 157), (65, 159), (65,156),
(75, 165), (75,166), (75, 167), (75, 175), (85, 176), (85, 174), (85, 178), (85,180).
a) Estimar los coeficientes de la recta de regresión de la tensión sobre la edad

y el coeficiente de correlación lineal e indicar el sentido de la asociación.
b) Realizar un análisis de la regresión lineal simple e indicar si se puede acep-
tar el modelo lineal propuesto para estimar los valores medios de la tensión
a partir de la edad.
a) Para estimar los coeficientes de la recta de regresión µi = α + β x i es ne-

cesario calcular las medias de x e y, la covarianza de x e y así como la va-
rianza de x.
El coeficiente de correlación lineal ρ se estima por:
Como el signo del coeficiente de correlación es positivo, al aumentar los va-

lores de x, edad, también aumentan los de y, tensión sistólica.
b) Se trata de contrastar las hipótesis:
Para realizar el análisis de la regresión hay que calcular
Los cálculos se recogen en la siguiente tabla:
2 2
xi yi αˆ + βˆ xi yi − αˆ − βˆ xi ( y − αˆ − βˆ x )
i i (
ni ⋅ yi − αˆ − βˆ xi )
19 113,5 115,905075 –2,405074808 5,784384832 23,13753933
21 120,25 117,715427 2,534573393 6,424062283 25,69624913
24 122,75 120,430954 2,319045693 5,377972928 21,51189171
30 126,75 125,86201 0,887990295 0,788526764 3,154107057
43 135,5 137,629296 –2,129296401 4,533903164 18,13561266
53 146,75 146,681055 0,068944602 0,004753358 0,019013432
55 144,75 148,491407 –3,741407198 13,99812782 55,99251128
65 157 157,543166 –0,543166195 0,295029515 1,180118061
75 168,25 166,594925 1,655074808 2,73927262 10,95709048
85 177 175,646684 1,353315811 1,831463684 7,325854735
Total 167,1099879
10 ni 2
También hay que calcular: ∑ ∑ yij − yi
i =1 j =1
( ) = 874, 5.
Con los cálculos anteriores se completa la tabla del análisis:
medios de contraste
QE =
QE
Entre grupos r 2 =
µ y = 98, 7067 + 0, 9052 x
i =1
(
= ∑ ni yi − αˆ − βˆ xi ) = r–2=8 r−2
= 20, 8887
Fo =
QE
= 167,1099879
= −2 =
r
Residual dentro QD = QD
QD n−r
de los grupos r ni 2
yi 1 , yi 2 , ... yini = ∑ ∑ yij − yi
i =1 j =1
( ) = n – r = 30 n−r = 0, 7166
= 29,15
i = 1, 2, ..., 10 = 874, 5
Qδ =
r ni 2
Total
i =1 j =1
(
= ∑ ∑ yij − αˆ − βˆ xi ) = n – 2 = 38
= 1041,609988
Utilizando la Tabla IV del Apéndice I, se obtiene la región crítica para el contraste:
El valor del estadístico de contraste
Por tanto, se acepta la hipótesis nula para α = 0,05, es decir, el ajuste a la rec-
ta de regresión es bueno.
No hay razones con los datos recogidos para rechazar el ajuste de los valores
dados a la recta de regresión µi = 98,7067 + 0,9052 x i , ∀ i = 1, 2,...,10.
13.3.4. Intervalos de confianza para β

 σ  b
Por ser la distribución de b = βˆ , N  β ,  y la del estadístico t = , t n− 2
 Sx n  s
Sx n
el intervalo de confianza para β, la pendiente de la recta de regresión, con confianza
100(1-α)% es:
En la fórmula se advierte que cuanto mayor sea la varianza de los valores de la va-
riable X la estimación de β será más precisa porque será menor la amplitud del intervalo.
De aquí se deduce que es conveniente elegir los valores de X en todo el in-
tervalo de variación, pero más valores en los extremos que centrales para au-
mentar la precisión de las estimaciones sin cambiar el porcentaje de confianza.
EJEMPLO 13.9.
Con los datos y resultados del Ejemplo 13.4. dar el intervalo de confianza al
95% para β.
El intervalo de confianza para β, pendiente de la recta de regresión, al 95% es:
Como s 6, 5430
= = 0, 4056, el intervalo de confianza pedido es:
Sx n 21, 6875 12
Se observa que este intervalo no contiene el valor β = 0 lo que equivale a re-

chazar la hipótesis H0 : β = 0 para α = 0,05. Véase el Ejemplo 13.6.
13.3.5. Intervalos de confianza para µ Y/X = x = α + βx

Para un valor fijo de x el parámetro µY X = x se estima por
¿Cuál es la distribución del estadístico? Y ?

X=x
Teniendo en cuenta que las variables aleatorias Y y βˆ son independientes
 σ   σ 
y se distribuyen Y , N  α + β x ,  y βˆ , N  β ,  la v.a.
 n  Sx n 
Y − µY X = x
Por tanto el estadístico del contraste Z = X=x
, N ( 0,1) , pero como
2
1 (x − x)
σ +
n nSx2
n
∑ δî2
2 i=1
se desconoce el valor del parámetro σ, al estimarlo por s = el estadístico
n−2
De donde, el intervalo con confianza 100(1-α)% para la media µY X = x es:
Estos intervalos de confianza no tienen amplitud fija, para un valor de α fijo,

la amplitud aumenta cuanto más distante está el valor x de su media. Es decir, las
estimaciones son tanto más precisas cuanto menor sea x − x y tanto menos pre-
cisas cuanto más alejado esté el valor de x de su media x$.
Observación: Como se vio en el Epígrafe 3.8, Otras regresiones reducibles a

lineales, del Capítulo 3, si se realiza previamente la correspondiente transforma-
ción de los datos los resultados del análisis de la regresión lineal también se
pueden aplicar para ajustes de tipo exponencial, potencial e hiperbólico.
EJEMPLO 13.10.
Con los datos y resultados del Ejemplo 13.4. dar intervalos de confianza al 95%
para µY = α + β x para los valores de x de la muestra.
Como el intervalo con confianza 95% para la media µY X = x es:
se conoce t0 ,025;10 = 2, 228 y se ha calculado previamente: s = s 2 = 6, 543 y

Sx2 = 21, 6875, falta calcular para cada valor de x de la muestra el valor de
2
Y X=x
= −22, 9917 + 1, 9128 x y también ( x − x ) .
La siguiente tabla recoge estos valores para los datos dados:
Y = δi = δ i2 = Ext. inf Ext. sup.

xi yi X = xi
= yi − ( a + bxi ) = yi − ( a + bxi )
2 x−x ( x − x )2
= a + bxi ( ) ICα =0 , 05 ICα =0 , 05
42 68,6 57,34489 11,2551 126,6782 0,25 0,0625 53,1305607 61,5591608

47 71,9 66,9087 4,9913 24,9127 5,25 27,5625 60,5671402 73,250343
46 73,1 64,9960 8,1040 65,6754 4,25 18,0625 59,2987271 70,6932038
44 64,6 61,1704 3,4296 11,7621 2,25 5,0625 56,4967466 65,8440795
43 55,1 59,2576 –4,1576 17,2860 1,25 1,5625 54,9004388 63,6148349
45 54,9 63,0832 –8,1832 66,9646 3,25 10,5625 57,9514961 68,2148824
44 56,2 61,1704 –4,9704 24,7050 2,25 5,0625 56,4967466 65,8440795
46 55,6 64,9960 –9,3960 88,2842 4,25 18,0625 59,2987271 70,6932038
32 37,7 38,2171 –0,5171 0,2674 –9,75 95,0625 28,4531777 47,9810202
35 42,8 43,9554 –1,1554 1,3350 –6,75 45,5625 36,5450221 51,3658329
41 55,9 55,4321 0,4679 0,2189 –0,75 0,5625 51,1696195 59,6945496
36 46 45,8682 0,1318 0,0174 –5,75 33,0625 39,1818725 52,5545348
x= 12
∑ δî2 = 428,1069
= 41, 75 i =1

Se introducen los datos.
Precipitación mensual
Latitud norte grados
media en l/m2
42 68,6
47 71,9
46 73,1
44 64,6
43 55,1
45 54,9
44 56,2
46 55,6
32 37,7
35 42,8
41 55,9
36 46,0
Seleccionadas las dos columnas, se elige
y el programa proporciona los siguientes resultados
Regresión simple - Publiometría frente a Latitud
Análisis de Regresión - Modelo Lineal Y = a + b*X

—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Variable dependiente: Publiometría
Variable independiente: Latitud
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Error
Parámetro Estimación Estadístico T P-Valor
estándar
—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-——-—-—-—-—-—-—-
Ordenada –22,9917 17,0381 –1,34943 0,2070
Pendiente 1,91278 0,405584 4,71611 0,0008
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Análisis de la Varianza
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Suma de Cuadrado
cuadrados medio
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Modelo 952,18 1 952,18 22,24 0,0008
Residuo 428,107 10 42,8107
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-—-——-—-—-—-—-—-—-
Total (Corr.) 1380,29 11
Coeficiente de Correlación = 0,830567

R-cuadrado = 68,9842 porcentaje
R-cuadrado (ajustado para g.l.) = 65,8826 porcentaje
Error estándar de est. = 6,54299
Error absoluto medio = 4,72996
El StatAdvisor
———————————————
La salida muestra los resultados del ajuste al modelo lineal para des-
cribir la relación entre Publiometría y Latitud. La ecuación del modelo
ajustado es
Publiometría = –22,9917 + 1,91278*Latitud
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe rela-

ción estadísticamente significativa entre Publiometría y Latitud para un
nivel de confianza del 99%.
El estadístico R-cuadrado indica que el modelo explica un 68,9842% de la
variabilidad en Publiometría. El coeficiente de correlación es igual a
0,830567, indicando una relación moderadamente fuerte entre las varia-

bles. El error estándar de la estimación muestra la desviación típica de
los residuos que es 6,54299. Este valor puede usarse para construir lí-
mites de la predicción para las nuevas observaciones seleccionando la
opción Predicciones del menú del texto.
Gráfico del modelo ajustado

77
67
Publiometría
57
47
37
32 35 38 41 44 47
Latitud
Valores predichos
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
95,00%
Predicho
Límites de Confianza
X Y Inferior Superior
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
32,0 38,2171 28,4525 47,9817
47,0 66,9087 60,5667 73,2508
—-—-—-—-—-—-—-—-—-—-—-—--—-—-—-—-—-—-—-—-—-—-—-—-—-—
El StatAdvisor
———————————————
Esta tabla muestra los valores predichos para Publiometría usando el mo-
delo ajustado. Además de las mejores predicciones, la tabla muestra:
(1) 95,0% intervalos de predicción para las nuevas observaciones

(2) 95,0% intervalos de confianza para la media de muchas observaciones
Los intervalos de predicción y confianza correspondientes a los límites
inferior y superior en el gráfico del modelo ajustado.
Obsérvese que los intervalos de confianza para las latitudes 32 y 47 calculadas

con STATGRAPHICS coinciden con los obtenidos en el Ejemplo 13.10.
13.4.1. Si X1, X2 y X3, son tres variables aleatorias normales, y se dispone de una
muestra de cada una de ellas de tamaños n1 = 15, n2 = 9 y n3 = 22 con cuasivarianzas
135, 70 y 124 respectivamente, contrastar la hipótesis de homogeneidad de sus va-
rianzas.
13.4.2. La siguiente tabla recoge la producción, kg de algodón, en parcelas de la mis-

ma superficie, en una región determinada, para tres fechas de siembra. Contrastar si
influye la fecha de siembra en la producción de algodón, para α = 0,05, aceptando
que la producción sigue una distribución normal y que las varianzas de las cosechas
para las tres fechas de siembra son iguales.
Fechas de siembra P1 P2 P3 P4
2 abril 2,44 1,49 2,44 3,35
2 mayo 2,71 2,18 1,95 3,86
2 junio 2,89 2,13 1,99 1,68
13.4.3. ¿Se puede admitir, a partir de los datos recogidos en la tabla, que hay diferencia
significativa en el peso medio, en kg, de la lana limpia de carneros adultos nacidos de tres
sementales, aceptando que el peso de la lana sigue una distribución normal?
Semental A 3,50 2,98 2,74 3,22 3,68 4,22 2,97 3,47

Semental B 3,36 3,90 4,08 4,71 3,88 4,29
Semental C 3,47 2,94 3,28 3,57 3,92 3,26 3,66
13.4.4. De tres variables aleatorias X, Y y Z que siguen distribuciones normales se

han tomado sendas muestras de tamaños 10, 19 y 30 respectivamente, las varianzas
de estas son: SX2 = 1, 6, SY2 = 0, 9 y SZ2 = 2, 3. Contrastar la hipótesis de igualdad de
las tres varianzas poblacionales.
13.4.5. En un experimento en invernadero se cultivan plantas de la misma semilla de

cereal con tres tipos diferentes de abono. Admitiendo que la producción sigue una
distribución normal, de los datos de la tabla que recoge la producción en kg/a,
A1 38 31 30 39 32 35 34 25 31 21
A2 39 35 24 52 40 36 39 28
A3 21 18 4 36 28 14 16 5 24 19
a) ¿se puede aceptar α = 0,05 para, que la producción media es la misma con los
tres tipos de abono?
b) ¿Hay diferencia significativa entre los abonos A1 y A2? ¿Y entre los abonos
A2 y A3?
13.4.6. Se quiere comprobar la influencia del terreno en el crecimiento del Populus

nigra, chopo. Se plantan chopos en tres zonas y al cabo de seis meses se eligen ale-
atoriamente muestras de chopos en las tres zonas y se anota el incremento de altura
en cm. Los resultados se recogen en la tabla siguiente:
Z1 21,5 32 0,5 30,5 14
Z2 22,5 41,5 32,5 37 44 38,5

Z3 23,5 17 32,5 15 41,5 11,5
Aceptando que el crecimiento en altura es normal, ¿se puede aceptar que el

crecimiento medio es el mismo en las tres zonas?
13.4.7. Se plantan tres nuevas variedades de maíz, M1, M2 y M3, en parcelas bajo
las mismas condiciones. Las producciones obtenidas es tm/ha son las siguientes:
Muestras
Variedad maíz
M1 15 18 20 17
M2 16 15 21 22
M3 10 8 19 23
En el supuesto de que la producción, en tm/ha, de las tres variedades de maíz

siga una distribución normal y sabiendo que las muestras son independientes, ¿se
puede asegurar que hay diferencia significativa entre las variedades?
13.4.8. Se quiere contrastar la influencia del tipo de terreno en la producción de to-

mates. Se plantó la misma semilla en cinco tipos de terreno distintos conservando
iguales en todas las parcelas las restantes condiciones: humedad, número de horas de
sol, abono, etc. Se eligieron al azar 10 tomates de cada uno de los terrenos, se pesa-
ron y los pesos en gramos fueron:
A 171 174 180 177 186 180 180 171 177 183
B 174 183 168 174 171 168 183 180 171 174
C 195 201 201 225 225 213 201 210 228 204
D 174 177 174 183 171 168 174 171 171 177
E 186 198 195 189 192 186 195 195 186 201
Aceptando que el peso en gramos de los tomates en los cinco tipos de terreno si-
guen distribuciones normales y que las muestras se han elegido de forma indepen-
diente, ¿se puede asegurar que la producción es igual en los cinco tipos de terreno?
13.4.9. Para poder comparar el rendimiento medio de trigos de ciclo largo plantados
en secano de baja montaña se siembran semillas de las variedades Marius, Rodrigo y
Cezanne en terrenos de las mismas características y en la misma zona. Los rendi-
mientos obtenidos en kg/ha son los siguientes:
Marius Rodrigo Cezanne

3.455,5 5.247,4 2.952,5
3.538,8 4.796,1 3.971,3
1.874,4 3.417,9 3.180
1.814,5 4.892,1 1.412,4
3.594,9 5.012,9 4.240,4
1.499,3 4.429 1.614,5
2.089,8 5.446,6 1.573,8
2.377,6 3.867,8 3.051,2
3.784,9 4.286,5 2.132
3.187,6 4.237,7
3.287,3
4.393
4.967,1
Aceptando que el rendimiento de las tres variedades es normal, contrastar si hay

diferencia en el rendimiento medio de esas variedades.
13.4.10. Se ha calculado por tres laboratorios distintos el contenido de nicotina, en

mg por cigarrillo, para una marca M realizando cada uno de ellos cinco determina-
ciones independientes. Los resultados son:
Laboratorio 1 15,6 15,5 16,7 13,6 16,2
Laboratorio 2 17,4 16,9 13,5 15,6 18,2
Laboratorio 3 13,2 14,3 12,9 14,1 12,8
Contrastar si hay diferencia significativa entre los resultados obtenidos por los
tres laboratorios, suponiendo que el contenido de nicotina por cigarrillo sigue una dis-
tribución normal y que las determinaciones de los tres laboratorios son independientes.
13.4.11. Para estudiar la influencia de dos tipos de abono en la producción de to-

mates, se realizó un experimento dividiendo 8 parcelas en dos partes iguales, una se
abonó con el fertilizante I y la otra con el II, conservando constantes el tipo de te-
rreno, el grado de humedad, el número de horas de sol, la temperatura, etc. Se eligen
al azar el mismo número de plantas de esas parcelas. Las cantidades de tomate, en kg,
recogidas fueron:
Parcela 1 2 3 4 5 6 7 8
Abono I 2,8 3,5 2 2,3 2 2,3 4,2 3,3
Abono II 2,4 2,2 2,7 3,2 2,4 3 2,1 2,2
Suponiendo que las distribuciones de los pesos de las cosechas son normales, se
pide:
a) Contrastar si se puede admitir la igualdad de varianzas de ambas distribu-
ciones.
b) Si es posible, realizar el ANOVA y explicar el significado.
13.4.12. Para comprobar la eficacia de tres tipos distintos de fungicidas para tratar
semillas de maíz de invernadero infectadas con Puccinia sorghi, se eligen al azar tres
muestras de plantas tratadas cada una con un tipo de fungicida y se anota el porcen-
taje de semillas infectadas. Los resultados obtenidos son los siguientes:
F1 21 22 17 18 19 20 21 22 18 19
F2 17 16 19 18 18 21 20 17
F3 2 3 7 1 1 2 3 6 1
a) Realizar, si es posible, el ANOVA.

b) ¿Se puede admitir que los fungicidas son igualmente eficaces? Razónese la
respuesta.
13.4.13. La longitud de la placa dorsal de garrapatas, medida en mm, de muestras ex-

traídas de tres perros abandonados, se recoge en la siguiente tabla:
P1 3,6 3,3 3,6 3,6 3,6 3,7 3,5 3,7 3,4 3,7 3,5 3,6
P2 3,5 3,6 3,5 3,7 3,3 3,4 3,6 3,5 3,6 3,3
P3 3,5 3,4 3,5 3,6 3,4 3,5 3,5 3,3 3,5 3,4 3,3
Razonar, suponiendo la normalidad de la longitud de la placa dorsal, si la varia-

ble depende del perro elegido.
13.4.14. Se han medido la longitud del ala, X en mm, y de la cola, Y también en mm,
de quince Parus ater vieirae (Carbonero garrapinos) en la sierra madrileña. Los re-
sultados obtenidos son los siguientes:
Long ala (mm) Long cola (mm)

63,46 47,72
62,97 48,02
63 48,63
62,9 48,36
63,86 47,71
63,29 48,05
63,87 48,45
63,44 47,72
63,29 48,16
63,77 47,8
63,67 48,01
63,09 48,73
63,39 47,94
63,62 48,01
63,36 47,88
a) Estimar los parámetros de la recta de regresión Y = α + β x.

b) Dar una medida de la correlación entre las variables X e Y
c) Aceptando la normalidad de las medidas, probar si se puede admitir la hipó-
tesis de que existe una relación lineal entre las variables aleatorias X e Y.
13.4.15. La altura media de plantas crucíferas de una parcela en el momento de la

plantación es de 4,5 cm, y pasadas t semanas su altura se recoge en la siguiente tabla
X semanas 0 1 2 3 4 5 6 7
Y altura en cm 4,5 5 6,3 7,9 9,3 11,8 14,7 17,6
a) Estimar los coeficientes de la recta de regresión ln Y = α + β X .

b) Dar una estimación del coeficiente de correlación lineal entre las variables X
y ln Y.
c) Comprobar mediante un diagrama de caja y bigotes que se puede aceptar que
los valores de ln Y proceden de una distribución normal y realizar el contras-
te de hipótesis para β.
13.4.16. Se miden en mm los diámetros de 10 bulbos de Lilium. Los resultados ob-

tenidos y los pesos, en g, correspondientes se recogen en la siguiente tabla:
X mm 28 15 25 17 12 24 8 10 2 7
Yg 8 3,5 6 5 3 4 2,5 1.5 1 2
a) Ajustar una recta de regresión, siendo V = α + βU, siendo U = ln X y V = ln Y .

b) Dar una medida de la correlación entre las variables U y V.
c) Comprobar que se puede aceptar que los valores de V = ln Y proceden de una
distribución normal y probar si se puede admitir la hipótesis de que existe una
relación lineal entre las variables aleatorias ln X y ln Y
13.4.17. Se han recogido los valores de las superficies, X, de 11 lagos y el número de

especies diferentes, Y, presentes en cada uno de ellos. En la siguiente tabla se repre-
sentan los logaritmos neperianos de las superficies y del número de especies:
U = ln X 7,8 7,9 8,4 8,7 8,8 9,4 10,3 10,7 11,0 11,2 11,3
V = ln Y 2,1 2,2 2,3 2,2 2,3 2,4 2,7 2,8 2,8 2,9 2,9
a) Estimar los parámetros de la recta de regresión V = α + βU .

b) Dar una medida de la correlación entre las variables U y V.
c) Realizar el contraste de hipótesis para β.
13.4.18. Se mide en 14 análisis de sangre la concentración de potasio, Y, en mmol/l

y la tasa de colesterol total en sangre, X, en mg/dl Los resultados se reflejan en la ta-
bla siguiente:
Colesterol Potasio
161,8 4,7
167,4 5,9
172,1 7,6
169,8 2,9
177,3 5,3
183,2 0,9
175,4 4,9
167,6 5,9
177,9 1,2
170,7 4,6
164 5,5
178,6 2,8
162,9 3,7
170 3
a) Estimar los parámetros de la recta de regresión Y = α + β X .

b) Dar una medida de la correlación entre las variables X e Y.
c) ¿Se puede admitir la hipótesis de que existe una relación lineal entre las
variables aleatorias X e Y?
13.4.19. Para comparar la producción media de trigo de las variedades Cezanne y

Taber en terreno de secano se han sembrado nueve parcelas divididas en partes
iguales con las dos variedades de semilla. El rendimiento en tm/ha fue:
X Y
Taber Cezanne
4 5,5
3,2 5,07
2,95 5,93
3,6 5,31
3,3 5,13
3,5 5,23
4,1 5,62
3,5 5,26
4,2 5,68
Con los datos recogidos se quiere averiguar si existe relación lineal entre la
producción media de trigo de las variedades Cezanne y Taber en terreno de secano.
Realizar el análisis de la regresión.
13.4.20. Se quiere contrastar si las alturas de las matas de tomillo, medidas en mm,
varían de unas zonas a otras. Se eligen tres zonas y en cada una de ellas muestras al
azar de matas de tomillo. Las alturas observadas son:
Z1 150 83 100 70 62 135 86

Z2 85 123 93 104
Z3 109 102 107
Aceptando que las alturas en las tres zonas siguen distribuciones normales, ¿se
puede afirmar que hay diferencias significativas entre las plantas de las tres zonas?
13.4.21. En la siguiente tabla se refleja el contenido de aceite de pescado EPA (ácido

eicosapentaenoico) en mg por 100 ml de leche de tres marcas comerciales:
L1 21 31 35 31 30 25 38 32 39 34
L2 36 35 28 24 39 40 52 39
L3 24 4 19 18 14 5 21 28 36 16
a) Aceptando que el contenido de aceite de pescado se distribuye normalmente,

¿se puede admitir que el contenido medio de EPA por 100 ml de leche es
igual para las tres marcas?
b) ¿Y para las marcas L1 y L2?
13.4.22. Para contrastar si hay diferencias en el contenido de nitrógeno en tres la-

gunas A, B y C, se extrajeron varias muestras de agua de cada una de ellas y se de-
terminó la cantidad de nitrógeno en mg/m3. Los resultados obtenidos se indican en la
tabla siguiente:
A 280 208 210 270 326

B 204 202 302 222
C 220 299 260 263
Aceptando que la cantidad de nitrógeno en mg/m3 sigue una distribución normal

en las tres lagunas, ¿se puede aceptar que el contenido medio de nitrógeno es el mis-
mo en las tres?
13.4.23. Se indican a continuación los resultados de la medición en mm de la longi-

tud, L, y la anchura, A, de los esqueletos de 50 braquiópodos. Se ha medido la an-
chura a cinco ejemplares de cada una de las longitudes seleccionadas.
(9,6, 12,4), (9,6, 12,4), (9,6, 12,1), (9,6, 12,1), (9,6, 12,5), (9,8, 12,7), (9,8, 12,4),
(9,8, 12,4), (9,8, 12,7), (9,8, 12,7), (11,4, 14,5), (11,4, 14,8), (11,4, 14,7), (11,4, 14,7),
(11,4, 14,5), (12,5, 15,6), (12,5, 15,8), (12,5, 15,8), (12,5, 15,9), (12,5, 15,6),
(13,4, 16,7), (13,4, 17,1), (13,4, 17,1), (13,4, 16,9), (13,4, 16,7), (14,5, 18,2),
(14,5, 17,9), (14,5, 18), (14,5, 18,2), (14,5, 18), (14,3, 17,9), (14,3, 17,8), (14,3, 17,7),
(14,3, 17,8), (14,3, 17,9), (14,8, 18,7), (14,8, 18,9), (14,8, 18,6), (14,8, 18,6),
(14,8, 18,4), (15,1, 18,7), (15,1, 18,9), (15,1, 18,9), (15,1, 18,9), (15,1, 18,6),
(13,9, 17,1), (13,9, 17,6), (13,9, 17,4), (13,9, 17,1), (13,9, 17,5).
a) Estimar los coeficientes de la recta de regresión de la anchura sobre la longi-

tud y el coeficiente de correlación lineal e indicar el sentido de la asociación.
b) Aceptando que las medidas de la anchura del esqueleto sigue una distribución
normal, realizar un análisis de la regresión lineal simple y señalar si se puede
aceptar el modelo lineal propuesto para estimar los valores medios de la an-
chura del esqueleto a partir de la longitud.
Cuarta parte
Una introducción
a los Procesos Estocásticos
y a la Geoestadística
Una introducción a los procesos
estocásticos y a la estadística espacial:
Métodos geoestadísticos 14
14.1. INTRODUCCIÓN
Una vez que ya se han estudiado las distribuciones de frecuencias, el aná-

lisis gráfico y numérico en la estadística descriptiva, que se han definido: va-
riables aleatorias, modelos teóricos, dependencia e independencia de varia-
bles aleatorias, ajuste de datos experimentales a modelos teóricos, ajuste de
rectas y curvas de regresión y la correlación entre variables, y que se han rea-
lizado estimaciones y contrastes de hipótesis, es el momento de presentar los
Procesos estocásticos espaciales y temporales y la Estadística espacial para el
estudio, estimación y predicción de fenómenos naturales que varían con la lo-
calización.
Un proceso estocástico, término introducido por Kolmogorov (1903-1987),
es una colección de variables aleatorias { X (t )}t ∈T , siendo T el rango en el que
varían los valores de t. Si T ⊆ R y t representa el tiempo, la variable aleatoria in-
dica el estado del proceso en el instante t y la familia de variables aleatorias
{ X (t)}t∈T es un proceso estocástico temporal. Cada una de las variables aleatorias
X(t) tiene su propia distribución, y dos de ellas X(t1) y X(t2) pueden ser indepen-
dientes o no.
Si el rango T es un subconjunto numerable del conjunto ⺢, por ejemplo
T = {0,1, 2,..., n,...} = N ∪ {0} , el proceso estocástico es un proceso temporal
discreto. Un proceso estocástico temporal que no es discreto se dice que es con-
tinuo.
595
EJEMPLO 14.1.
Dos especies animales A1 y A2 luchan a diario por ocupar un territorio que está divi-
dido en cuatro parcelas idénticas. Cada mañana se enfrentan para ocupar una parcela en la
que encuentran alimento y en cada enfrentamiento la especie A1 gana con probabilidad
2 Inicialmente la especie A sólo ocupa una de las parcelas. Si X(t) representa el número
⋅ 1
3
de parcelas que logra ocupar la especie A1 el día t-ésimo, X (t ) ∈ {0, 1, 2, 3, 4} y el tiem-
po aquí se considera discreto t ∈{0, 1, 2,..., n,...} , pues se observa las parcelas que logra
ocupar la especie A1 cada día, { X (t )}t ∈T es un proceso estocástico temporal discreto.
EJEMPLO 14.2.
Si X(t) representa el número de llamadas recibidas en la centralita de un hotel hasta el
instante t, X (t ) ∈{0, 1, 2,..., n,...} . Si se considera el tiempo a partir de un instante dado
y t ∈R+ ∪ {0} , { X (t )}t∈T es un proceso estocástico temporal continuo.
Muchos datos de los que se recogen para su estudio en biología, geología, me-
dicina, economía, astronomía, ingeniería, medio ambiente, etc., tienen caracte-
rísticas temporales o espaciales.
Una sucesión de observaciones realizadas para una variable ordenadas en el
tiempo constituye una serie temporal o serie cronológica. Se presentan algunos
ejemplos a continuación:
— El muestreo sistemático y continuado en las distintas estaciones del año, y

en años sucesivos de la abundancia de bacterias (células/ml), de la medi-
da de la salinidad en partes por mil, o en gramos de sal por kg de agua
marina, de la abundancia de pesca en una determinada zona, etc., que re-
aliza el Instituto Español de Oceanografía (I.E.O.)
— La media anual de manchas solares observadas desde 1700. Los valores de
esta serie se utilizan en Astronomía para el estudio de la evolución solar.
— Los censos de la población española desde 1900 se realizan cada 10 años
y se recogen en el I.N.E.
— Los ingresos mensuales por publicidad en miles de euros en una cadena de
TV desde enero de 2002.
— El número de habitaciones X(t) ocupadas a diario en el hotel H de cinco
estrellas, X (t ) ∈{0, 1, 2,..., n} siendo n el número de habitaciones dispo-
nibles y t ∈N ∪ {0} es un proceso estocástico temporal discreto.
— Los datos del IBEX 35, que es un índice ponderado por capitalización bur-
sátil, formado por las 35 compañías más importantes que cotizan en el
Mercado Español. Se utiliza desde enero de 1990 y su composición se re-
gula cada seis meses.
UNA INTRODUCCIÓN A LOS PROCESOS ESTOCÁSTICOS Y A LA ESTADÍSTICA ESPACIAL 597
— La serie de temperaturas máximas mensuales en Madrid y las series pu-

bliométricas facilitadas por el Instituto Nacional de Meteorología.
El estudio de las series temporales tiene como objetivo predecir el comporta-

miento futuro de la variable teniendo en cuenta los datos recogidos en el pasado.
Un análisis detallado de las series temporales se puede consultar en [53] y en
[44] de la bibliografía.
Nuestro objetivo se centrará en una introducción de los procesos temporales y en
la geoestadística que se ocupa del estudio de los procesos estocásticos espaciales.
Variables con características espaciales, es decir, variables regionalizadas,
pues sus valores dependen de la localización espacial, son por ejemplo:
— La altitud, o cota, en un punto del terreno sobre el nivel del mar.
— La presencia de fósforo, P, o de algún otro nutriente en el suelo.
— La evaluación de una reserva mineral.
— La caracterización de una reserva de petróleo.
— La estimación de las provisiones de pesca.
— La temperatura del agua en una zona costera.
— La distribución espacial de enfermedades.
Éstos son sólo algunos ejemplos de variables que exigen un tratamiento dis-
tinto del estudiado hasta ahora. De esto se ocupa la geoestadística.
La geoestadística utiliza las variables regionalizadas o espaciales, para el re-
conocimiento, estimación y predicción de fenómenos naturales que se distribuyen
en el espacio y se basa en conceptos estadísticos como variables aleatorias, va-
rianza, covarianza, distribuciones, estimación, varianza del error de estimación, pro-
cesos estocásticos, análisis de la regresión,… En minería se aplica para estimar va-
lores en puntos desconocidos a partir de los observados con el fin de caracterizar los
recursos y reservas de la mina. En edafología, por ejemplo, para estimar el conte-
nido de Ca en una zona o la salinidad o la contaminación por metales pesados, etc.
El término geoestadística se utilizó por primera vez a finales de los años 40 y
en la década de los 50 del siglo XX, para denominar técnicas estadísticas aplicadas
a la minería, pues es precisamente en este campo donde tiene sus orígenes con los
trabajos en minas de oro de los ingenieros Sichel de 1947 a 1949 y Krige, que en
1951 aplicó el análisis de la regresión entre muestras y bloques de mena. Poste-
riormente Matern, en 1959, introdujo la teoría de funciones aleatorias en el estu-
dio de la variación espacial en silvicultura. En la década de los 60, Georges Mat-
heron(1930-2000)1, que se puede considerar el creador de la geoestadística,
desarrolló la teoría de variables regionalizadas, en la Escuela de Minas de París
(Fontainebleau) y las aplicó en la evaluación de reservas minerales útiles. Su tesis
doctoral [37], publicada en 1965, Les Variables Régionalisées et leur estimation,
recoge el estudio completo de la teoría de variables regionalizadas.
1
En la dirección http://cg.ensmp.fr/Presentation/Matheron/Matheron_en.shtml se puede en-
contrar un resumen de la biografía del profesor Matheron.
Actualmente las técnicas geoestadísticas se aplican no sólo en la minería

sino también en otros muchos campos y muy diversos: geología, biología, ecolo-
gía, sanidad, medicina, etc.
A diferencia del análisis de series temporales en el que interesa la extrapola-
ción a partir de los datos recogidos, en geoestadística importa la interpolación en
puntos no observados en la zona de estudio.
Las variables regionalizadas son variables aleatorias numéricas distribuidas en
el espacio. Los valores de las variables regionalizadas pueden variar considera-
blemente de un punto a otro en el espacio y los valores en puntos distintos no son
totalmente independientes. Se puede esperar que en regiones más cercanas los va-
lores observados sean más dependientes que los valores correspondientes a pun-
tos muy distantes.
En este capítulo se presentan en primer lugar algunos procesos estocásticos
temporales que tienen aplicaciones en biología y geología, y a continuación la es-
tadística espacial y los métodos geoestadísticos.
14.2. UN MODELO DE PROCESO ESTOCÁSTICO

TEMPORAL EN TIEMPO DISCRETO. CADENAS
DE MARKOV FINITAS
De los procesos estocásticos estudiados por Andrei Markov (1856-1922) se pre-

sentan las Cadenas de Markov, procesos estocásticos temporales en tiempo discreto.
Este modelo teórico creado por Markov ha encontrado hoy múltiples aplica-
ciones en campos muy diversos: en biología, economía, en aplicaciones de Inter-
net como la construcción del PageRank que usa el buscador Google, etc.
Un proceso estocástico temporal, es decir, una familia de variables aleatorias
discretas finitas { X (t )}t∈N , siendo t el tiempo y X(t) el estado del proceso en el
instante t, se dice que es una cadena de Markov finita si la sucesión de variables
aleatorias discretas X (0) = X0 , X (1) = X1 , X ( 2) = X2 ,..., X (n) = Xn ,... todas con
rango finito y conjunto de valores E, espacio de estados del sistema, verifican:
El conjunto E se denomina conjunto de estados de la cadena y las probabili-

dades pij = P( X n+1 = j / X n = i), que no dependen de n, se llaman probabilidades
de transición o probabilidades de transición en una etapa.
Una cadena de Markov es un proceso estocástico homogéneo en el tiempo,
porque las probabilidades de transición no dependen de la etapa n en la que se en-
cuentre el sistema, es un proceso estocástico de parámetro discreto, porque la va-
riable tiempo sólo puede tomar una infinidad numerable de valores: 0,1,2,3,...,n,...
y es finito por ser un conjunto finito el conjunto E de estados de la cadena.
En una cadena de Markov la probabilidad de que el proceso esté en un es-

tado determinado en el instante n + 1 depende del estado en que se encuentre en
el instante anterior y este último del anterior a él, y así sucesivamente. El estado
en el que se encuentra en el instante n resume para Xn+1 todos los estados ante-
riores.
Se llama matriz de transición, o matriz de transición en una etapa, para la Ca-
dena de Markov con espacio de estados E = {1, 2, 3,..., r } (siendo r ≥ 2) a la ma-
triz M, de orden r, cuyas columnas representan las probabilidades de transición del
proceso de un estado dado a cualquiera de los estados de la cadena en una etapa.
El elemento de la columna i de la fila j representa la probabilidad de tránsito

del estado i al estado j en cualquier etapa:
Propiedades de la matriz de transición:
1. 0 ≤ pij ≤ 1.
r
2. ∑ pij = 1, ∀i = 1, 2,..., r. Es decir, la suma de los elementos de cada co-
j =1
lumna es igual a 1. Por tanto sus columnas son vectores de probabilidad.
Por esto se dice que la matriz de transición, M, es una matriz estocástica
por columnas.
Como consecuencia de las dos propiedades anteriores se obtienen las si-
guientes:
3. El producto de dos matrices estocásticas por columnas es otra matriz es-
tocástica por columnas.
4. Las potencias de matrices estocásticas por columnas son también matrices
estocásticas por columnas.
 v1 
v 
5. Si v =   es un vector de probabilidad, esto es, si 0 ≤ vi ≤ 1, ∀i = 1, 2,..., r
2
 ... 
 
 vr 
r
con ∑ ν i = 1 y Mrxr es una matriz estocástica por columnas, entonces Mrxr . v es otro
i=1
vector de dimensión r × 1 que también es un vector de probabilidad.
Se dice que una matriz es estocástica por filas si sus filas son vectores de pro-
babilidad. La matriz transpuesta de M, Mt, es estocástica por filas.
Una matriz que es estocástica por filas y por columnas a la vez se dice que es
biestocástica.
La función de probabilidad en n etapas se define por:
En particular se obtiene la función de probabilidad en una etapa para n = 1,
Si n = 2:
Por tanto: M 2 =  pij (2)  y los elementos de la matriz M2 determinan la fun-

ción de probabilidad en dos etapas.
Análogamente M n =  pij ( n )  ∀n ∈N, determina la función de probabilidad
 
en n etapas.
Por ser una Cadena de Markov un proceso homogéneo en el tiempo, la matriz
de transición en dos etapas es el cuadrado de la matriz de transición de la cadena
y, en general, la matriz de transición en n etapas es la potencia n-ésima de la ma-
triz M de transición en una etapa.
Una Cadena de Markov queda definida si se conocen los siguientes datos:
1. Su espacio de estados, el conjunto finito E = {1, 2,..., r } siendo r ≥ 2.
2. La matriz estocástica M =  pij  , matriz de probabilidades de transición
rxr
en una etapa.
 p1 ( 0) 
 p ( 0) 
3. El vector de probabilidad inicial P( 0) =  2  siendo pi (0) = P( X0 = i ),
 ... 
 
 pr (0) 
probabilidad de que proceso se encuentre en el estado i, para i ∈{1, 2,..., r } en el
instante inicial.
Con los datos anteriores se puede deducir la ley de probabilidad para cualquier
etapa n. Así, teniendo en cuenta el teorema de la probabilidad total, la ley de pro-
babilidad pasada una etapa es:
O mejor, en forma matricial,
Llamando P (n) al vector de probabilidad en la etapa n-ésima,
se tiene
La distribución de probabilidad determinada por el vector P que verifica M · P = P

se conoce como distribución de probabilidades de equilibrio o vector de probabili-
dades estacionario o también vector de probabilidades fijo.
¿Toda Cadena de Markov tiene al menos una distribución de probabilidad es-

tacionaria? La respuesta es afirmativa, cualquier autovector P asociado al auto-
valor λ = 1 es estacionario.
Propiedades de las Cadenas de Markov se puede encontrar en González Man-
teiga, Ma T. [24]. Entre ellas, se explican:
1. Toda matriz de transición de una Cadena de Markov tiene el autovalor λ = 1.

2. Si la matriz tiene sólo un autovalor de módulo 1, éste tiene que ser λ = 1.
3. Toda Cadena de Markov tiene al menos un vector P de probabilidades es-
tacionario, que verifica M · P = P.
4. Si la matriz de transición tiene un único autovalor de módulo 1, existe
un único vector de probabilidades estacionario, P, M · P = P, que es
además estable, es decir, que es la distribución de probabilidades a la
larga de la cadena independientemente de la distribución de probabili-
dad inicial
 p1 
p 
El vector de probabilidades estable P =  2  es un autovector asociado al auto-
M 
 
 pr 
r
valor λ = 1 que verifica ∑ pi = 1.
i =1
¿Toda Cadena de Markov tiene un vector de probabilidades estable?, es decir,

¿en toda Cadena de Markov se verifica la propiedad lim P(n) = lim M n ⋅ P(0) = P ?
n→` n→ `
La respuesta es negativa, pues:
— Si la matriz de transición de la Cadena de Markov tiene m autovalores de

módulo 1, éstos son necesariamente las m raíces enteras de la unidad. En
este caso, la Cadena de Markov es periódica de periodo m y no existe el
lim P(n).
n→`
— Si la matriz de transición tiene el autovalor λ = 1, múltiple de orden k, en-
tonces tiene k vectores de probabilidad estacionarios pero tampoco tiene
lim P(n) por depender lim P(n) = lim M n ⋅ P( 0) del vector de probabilidad
n→` n→ ` n→`
inicial.
A continuación, se presenta un ejemplo de aplicación de las Cadenas de

Markov a la biología.
EJEMPLO 14.3.
En una población diploide se clasifican los individuos según su genotipo en tres
grupos AA, Aa y aa, es decir, raza pura dominante, híbrido y raza pura recesiva. Si
en cada generación se cruzan siempre las hembras, cualquiera que sea su genotipo,
con machos híbridos y no se producen mutaciones, ni hay selección o esterilidad, ni
emigración o inmigración y en el instante inicial la tercera parte de las hembras son
de cada uno de los genotipos, ¿cuál será la composición de la población después de
dos cruces?, ¿y después de diez cruces?, ¿y de cien cruces?
Para estudiar la evolución de los posibles cruces se considera una cadena de

Markov con conjunto de estados E = { AA, Aa, aa} .
Las probabilidades de obtener cada uno de los genotipos en cada cruce, son:
1/2, 1/2 y 0 respectivamente si la madre es AA, 1/4, 1/2 y 1/4 si la madre es Aa y
0, 1/2, 1/2 si la madre es aa.
Por tanto la matriz de transición es:
La matriz M es estocástica por columnas.

La composición de la población después de dos cruces será:
La cuarta parte de la población es AA, otra cuarta parte es aa y la mitad hí-

bridos.
Después de 10 cruces:
También es una cuarta parte de la población raza pura dominante, otra cuarta
parte es raza pura recesiva y la mitad híbridos.
Después de 100 cruces:
Esto significa que después de 100 cruces la mitad de la población será híbri-
do, la cuarta parte dominante y la otra cuarta parte recesiva.
1 4 

La distribución de probabilidad determinada por el vector P = 1 2  es, es-
1 4 
1 4  1 4 
   
tacionaria, porque M ⋅ 1 2  = 1 2  .
1 4  1 4 
1 4 
 
¿La distribución de probabilidad P = 1 2  es también estable?
1 4 
1
Como los autovalores de la matriz M son 1, y 0, el único vector de proba-
2
bilidad que es autovector asociado al autovalor 1 da la distribución de probabili-
dad estable.
cualquiera que sea el vector de probabilidad inicial P(0).

Esto significa que en esta población, si se realizan en cada generación los cru-
ces como se indica en el enunciado, se tendrá a la larga la mitad de la población
híbridos, la cuarta parte dominantes y la otra cuarta parte recesivos.
Se presenta a continuación un proceso estocástico temporal de parámetro
continuo.

TEMPORAL EN TIEMPO CONTINUO. PROCESO
DE POISSON TEMPORAL
En los modelos teóricos de las distribuciones de probabilidad discretas, Capítulo 5,

se vio la distribución de Poisson; aquí se presentará el proceso de Poisson temporal,
que es un proceso estocástico en el que el tiempo se considera una variable continua.
Los procesos de Poisson temporales tienen aplicación en muchos campos,

por ejemplo: el número de accidentes diarios en un punto determinado de una
ciudad, el número de llamadas a un teléfono de emergencia en una semana, el nú-
mero de partículas alfa emitidas por una sustancia radiactiva en un periodo de
una hora, el número de ordenadores que se conectan a una determinada página
web en un día, etc.
Se considera el tiempo t una variable continua. Un proceso estocástico
{ X (t )}t∈R+ X (t ) ∈{0, 1, 2,..., n,...} , siendo X(t) el número de cambios instantáneos
que ocurren en el intervalo de tiempo fijo [0,t] es un proceso de Poisson temporal
con parámetro de intensidad λ si verifica las dos condiciones siguientes:
1. El número de cambios que se producen en intervalos de tiempo disjuntos

son independientes entre sí.
2. La probabilidad de que se produzca un cambio en el intervalo [t, t + h],
para h suficientemente pequeño, es λh, siendo λ constante, es decir, inde-
pendiente de t y, además, la probabilidad de que ocurra más de un cambio
en [t, t + h] es tan pequeña que se puede despreciar.
Si ft(x) representa la probabilidad de que haya X(t) = x cambios en el intervalo

de tiempo de duración t, [0,t], es decir, ft ( x ) = P ( Sx ) , siendo Sx= «se producen
X(t) = x cambios en el intervalo de tiempo [0,t]», entonces:
1.o) ft ( x ) = 0, ∀x < 0, pues el número de cambios en un tiempo t es positivo o

cero.
2.o) f0 ( x ) = 0, ∀x > 0, pues en un tiempo se producirán cero cambios.
3.o) f0 (0) = 1, porque si S = «se producen X(t) = 0 cambios en el intervalo
[0,0] de longitud 0» es f0 ( 0) = P( S) = 1.
Con objeto de precisar la expresión de ft (x), por ser el tiempo t una variable
d f ( x ) − ft ( x )
continua, se determina ft ( x ) = lim t +h
dt h→ 0 h
Para calcular ft+ h (x), es decir, la probabilidad de que se produzcan x cambios
en el intervalo [0, t + h], para h suficientemente pequeño, se descompone el suceso
Sx = «se producen X(t) = x cambios en el intervalo [0, t + h]» en la unión de los su-
cesos S1 y S2, siendo:
S1 = «se producen x cambios en el intervalo [0,t] y ninguno en [t , t + h ]» = Ax ∩ A0 .

S2 = «se producen (x – 1) cambios en el intervalo [0,t] y uno en [ t, t + h ]» = Ax −1 ∩ A1 .
Entonces:
ya que la probabilidad de que se produzca más de un cambio en [t, t + h], para h

suficientemente pequeño, es prácticamente nula.
Análogamente
Por tanto:
De ahí que:
䊏En particular para x = 0, la probabilidad de que haya 0 cambios en el in-

d
tervalo [0,t] es ft(0). Como f ( 0 ) = λ ft ( −1) − λ ft ( 0 ) y por ser ft (−1) = 0, se
tiene: dt t
Esta ecuación diferencial tiene por solución ft ( 0 ) = C ⋅ e − λt y, con la condi-

ción inicial, f0(0) = 1, se obtiene C = 1, por tanto
䊏 Para x = 1, la probabilidad de que haya un cambio en el intervalo [0,t] es

d
ft(1). Como f (1) = λ ft ( 0 ) − λ ft (1) y por ser ft ( 0) = e − λt , será:
dt t
La solución general de la ecuación diferencial homogénea asociada

d
ft (1) + λ ft (1) = 0, es ft (1) = C ⋅ e − λ t . Y la solución general de la ecuación com-
dt
pleta será ft (1) = C (t ) ⋅ e − λt , si la verifica, es decir, si:
Por tanto, ft (1) = (λ t + C ) ⋅ e − λt y, con la condición inicial f0 (1) = 0, se obtiene

C = 0, de donde
䊏 Análogamente, para x = 2, la probabilidad de que haya dos cambios en [0,t] es

d
ft (2). Teniendo en cuenta que ft ( 2 ) = λ ft (1) − λ ft ( 2 ) y por ser ft (1) = λ t ⋅ e − λt ,
se tiene: dt
La solución general de la ecuación diferencial homogénea correspondiente

d
ft ( 2 ) + λ ft ( 2) = 0 es ft ( 2) = C ⋅ e − λt . Y la solución general de la ecuación
dt
completa será ft ( 2 ) = C (t ) ⋅ e − λt , si se verifica:
2
Por tanto, ft ( 2 ) = λ 2  t + C  ⋅ e − λt y con la condición inicial f0 ( 2 ) = 0, se
 2 
obtiene C = 0 y, así,
䊏Para x = 3, la probabilidad de que haya tres cambios en [0,t] es ft (3).

d
Como f ( 3) = λ ft ( 2 ) − λ ft ( 3) sustituyendo ft (2) se tiene:
dt t
La solución general de la ecuación diferencial homogénea correspondiente

d
ft ( 3) + λ ft ( 3) = 0 es ft ( 3) = C ⋅ e − λt . Y la solución de la ecuación completa
dt
será ft ( 3) = C (t ) ⋅ e − λt siendo C(t) la función que verifique:
λ 3  t3 
Por tanto, ft ( 3) =  + C e − λt y con la condición inicial, f0 (3) = 0, se ob-
2!  3 
tiene C = 0 y, así,
Para asegurar que la expresión ft ( x ) =

( λ t ) x e − λt
es cierta ∀x = 0, 1, 2,..., n, ...,
x!
se aplica el principio de inducción, que consiste en probar que:
1.o) La igualdad se verifica para x = 0,
2.o) Si se verifica la igualdad para x – 1, entonces se verifica también

para x. Es decir, se plantea como hipótesis de inducción que se verifica que
ft ( x − 1) =
( λ t ) x−1 e− λt y a partir de ésta se prueba que la expresión también
( x − 1)!
es cierta para x.
d
Como f ( x ) = λ ft ( x − 1) − λ ft ( x ) y por la hipótesis de inducción
dt t
x −1
( λt )
ft ( x − 1) = e − λt se tiene:
( x − 1)!
Para obtener ft (x) se resuelve, como se ha hecho anteriormente, la ecuación

diferencial. La solución general de la ecuación diferencial homogénea corres-
d
pondiente f ( x ) + λ ft ( x ) = 0 es ft ( x ) = C ⋅ e − λt . Y la solución de la ecuación
dt t
completa será ft ( x ) = C (t ) ⋅ e − λt , si la verifica, es decir, si:
λx  tx 
Integrando, se obtiene C (t ) =  + C  . Así, la solución general de la
( x − 1)!  x 
λx  tx 
ecuación completa es ft ( x ) =  + C  ⋅ e − λt y con la condición inicial
( x − 1)!  x 
f0 ( x ) = 0, se tiene C = 0 y, en consecuencia,
Se ha demostrado que ft (x), que representa la probabilidad de que haya X(t) = x

cambios en el intervalo de tiempo [0,t], es:
Esto significa que el número de cambios X(t) = x en un intervalo de tiempo

de amplitud t sigue una distribución de Poisson de parámetro λt, proporcional
a la amplitud del intervalo.
Como el número medio de cambios esperados en un intervalo de tiempo de
amplitud t es la E ( X (t )) = λ t, la constante λ se puede interpretar como el núme-
ro medio de cambios por unidad de tiempo. De ahí que a λ se le denomine pará-
metro de intensidad del proceso de Poisson.
EJEMPLO 14.4.
La centralita de un ambulatorio recibe los lunes llamadas de 11.00 a 13.00 h.
con una media de dos llamadas por minuto.
a) ¿Cuál es la probabilidad de que reciba más de una llamada en un minuto?
b) ¿Cuál es la probabilidad de que reciba al menos una llamada en un minuto?
c) ¿Cuál es la probabilidad de que reciba al menos una llamada en un interva-
lo de tres minutos?
d) ¿Cuál es la probabilidad de que reciba más de siete llamadas en un interva-
lo de tres minutos?
e) ¿Cuál es la probabilidad de que reciba a lo sumo dos llamadas en un inter-
valo de tres minutos?
a) Si se designa por X «el número de llamadas en un minuto»

20 −2
b) P( X ≥ 1) = 1 − P( X < 1) = 1 − P( X = 0) = 1 − e . 1 − 0, 1353 = 0, 8647.
0!
6x
c) En un intervalo de tres minutos es P( X = x ) = f3 ( x ) = ⋅ e −6 , x = 0, 1, 2,...
por tanto: x!
7 6 x −6
d) P( X > 7) = 1 − P( X ≤ 7) = 1 − ∑ e . 1 − 0, 7440 = 0, 2560.
x=0 x !
2 6 x −6
e) P( X ≤ 2) = ∑ e . 0, 0620.
x =0 x !
Antes de introducir la geoestadística, se presenta a continuación un modelo de

proceso estocástico espacial, el proceso de Poisson espacial.

ESPACIAL. PROCESO ESPACIAL DE POISSON
Un fenómeno que se presenta aleatoriamente en el plano es un proceso de

Poisson con parámetro de intensidad λ si verifica las dos condiciones siguientes:
1. El número de veces que se presenta el fenómeno en una región del plano

es independiente del número de veces que se presenta en regiones disjun-
tas con ella.
2. La probabilidad de que se presente el fenómeno una vez en regiones de
área dA suficientemente pequeña es λ veces su área, siendo λ constante, y
la probabilidad de que ocurra más de una vez en una de esas regiones es
tan pequeña que se puede despreciar.
Del mismo modo que en el epígrafe anterior, se deduce que la probabilidad de

que se presente el fenómeno x veces en una región de área A es:
En este modelo, λ indica el número medio de veces que se presenta el fenó-

meno por unidad de área.
EJEMPLO 14.5.
Se sabe que la tecnología de la que se disponía en la primera mitad del siglo xx
no permitía localizar puntos concretos desde el aire. Por ello, los lugares de impac-
to producidos por bombas aéreas explosivas lanzadas desde aviones se podían con-
siderar como puntos distribuidos de forma aleatoria en el mapa.
Suponiendo que en una guerra, con bombardeo aéreo, el número medio de
impactos por km2 era λ = 0,12 , el número x de impactos en una ciudad de 500 km2
sería
El número más probable de impactos en esta ciudad es 60 y 59, pues hay dos
modas, por ser:
Las probabilidades para los demás valores de x son más pequeñas,
La de que haya sólo un bombardeo o ninguno es prácticamente nula,
Análogamente, se definen procesos espaciales de Poisson en la recta, consi-

derando segmentos de longitud dL, o en un espacio tridimensional razonando so-
bre regiones de volumen dV.
Son ejemplos de procesos de Poisson:
• La distribución del número de nidos de insectos en una región determinada.

• El número de bacterias en una placa de laboratorio.
• El número de plantas que sobreviven por metro cuadrado en una gran
plantación.
14.5. ESTADÍSTICA ESPACIAL. MÉTODOS GEOESTADÍSTICOS
El término estadística espacial, en su sentido más amplio, engloba todo aná-

lisis estadístico con dimensión espacial.
Las técnicas de análisis de la estadística espacial son relativamente recientes
y forman parte de una rama de investigación muy activa y que está siendo apli-
cada no sólo en la minería, donde surgió, sino también en otros muchos campos y
muy diversos: hidrología, geología, silvicultura, meteorología, edafología, inge-
niería forestal, epidemiología, climatología, industrias petrolíferas, ciencias am-
bientales, experimentos agrícolas, topografía, cartografía, procesamiento de imá-
genes por satélite, ecología, medicina, etc. En las aplicaciones orientadas a los
Sistemas de Información Geográfica (SIG) se habla de estadística espacial como
estadística relacionada con los datos geográficos.
A partir de ahora, se tratará de describir fenómenos con distribución geográfica y
con una cierta continuidad espacial. Éste es el objetivo de la geoestadística, una
rama joven de la estadística que se ocupa del muestreo, análisis, interpretación, esti-
mación y representación de variables con distribución espacial. Entre los años 1950 y
1956 se descubre que los métodos de la estadística clásica son insuficientes para el es-
tudio de los yacimientos muy diseminados en la explotación de minas de oro en Su-
dáfrica. Es entonces cuando surge esta nueva línea de investigación en la estadística.
Los métodos específicos de la geoestadística, que se basan en conceptos de la
estadística clásica como procesos estocásticos, variables aleatorias, distribuciones
de probabilidad, dependencia de variables aleatorias, regresión, correlación, etc.,
surgieron para analizar y predecir valores de variables regionalizadas, varia-
bles topo-probabilísticas, en concreto para la evaluación de reservas minerales
como se dijo anteriormente.
La geoestadística es estadística aplicada, ha surgido para tratar de resolver un
problema concreto y sus métodos originales han venido a enriquecer la estadísti-
ca clásica. Aunque sus aplicaciones hoy se han extendido a campos muy variados,
se conserva la terminología impregnada de palabras que delatan su origen, como
podremos comprobar más adelante.
Al realizar un muestreo para evaluar recursos minerales, concentración de sal,
porosidad en el firme de una carretera, el número de personas que padecen una en-
fermedad contagiosa en una región determinada, la altura de los árboles en una zona
forestal, la distribución de las especies animales en un territorio, el pH del terreno,
el nivel piezométrico en un acuífero, la ley de un mineral en una zona determinada,
o cualquier otra variable con una distribución espacial, se presentan con frecuencia
observaciones próximas con fuerte dependencia entre sí, dependencia que dismi-
nuye para puntos separados por una mayor distancia.
Por otra parte, en este tipo de muestreo, en muchos casos la observación no es
directa y no se pueden recoger muchos datos por ser muy costoso e incluso con
frecuencia inviable. Piénsese, por ejemplo, en la evaluación de las reservas de una
mina de oro. El valor medio de los valores recogidos como media aritmética de
dichos valores sólo se podría utilizar para datos con regularidad espacial. Los mé-
todos estadísticos clásicos, estudiados hasta ahora, suponen que en el muestreo

aleatorio variables aleatorias asociadas a unidades experimentales distintas son in-
dependientes. Así, ( X1 , X2 ,..., X n ) es una variable aleatoria n-dimensional for-
mada por n variables aleatorias independientes. Pero al realizar un muestreo alea-
torio espacial, como el representado en la siguiente figura, no ocurre lo mismo.
Muestreo aleatorio espacial
A cada punto X, o localización, con vector de posición en el espacio x, le co-

rresponde una variable aleatoria X(x). Dos puntos distintos tienen asociadas va-
riables aleatorias diferentes pero no necesariamente independientes.
¿Cómo se ha abordado el estudio de las variables espaciales?
En una primera aproximación se intentó tratar estas variables como funciones
deterministas del espacio o del tiempo o de ambos. Estas funciones son muy
irregulares y presentan variaciones de un punto a otro que son totalmente desco-
nocidas. La complejidad del proceso o fenómeno espacial hace inviable la for-
mulación del modelo determinista. Hay incertidumbre como consecuencia de
nuestro desconocimiento del fenómeno.
Una nueva posibilidad surge desde la geoestadística. Las variables regionali-
zadas recogen, junto con cada valor observado, la situación de la localización geo-
gráfica donde se ha obtenido. Las localizaciones geográficas varían de forma con-
tinua aún en una región de área o volumen finito, por ello el número de variables
aleatorias con el que se trabaja en cada región es infinito. Una colección de todas
estas variables aleatorias se llama una función aleatoria o un campo aleatorio.
Las variables regionalizadas o espaciales son un modelo que puede explicar
la realidad basándose en la hipótesis de que los datos próximos en el espacio pue-
den estar fuertemente correlacionados. A partir de ellas se describen los fenóme-
nos con distribución geográfica y con una cierta continuidad espacial.
Todo trabajo geoestadístico se realiza en tres etapas:
1. Análisis exploratorio de los datos. Se recogen los datos muestrales y en

primer lugar, sin tener en cuenta su distribución geográfica, se calculan los esta-
dísticos y se interpretan los resultados.
2. Análisis estructural. Se estudia la continuidad espacial de la variable. Los

variogramas relacionan la dispersión de una variable con la distancia a un punto
dado y permiten poner en evidencia las discontinuidades en la distribución espa-
cial del fenómeno objeto de estudio. A partir de las observaciones se calcula el se-
mivariograma o variograma experimental, que se analiza e interpreta para ajus-
tarlo a un semivariograma o variograma teórico con el fin de explicar la
variabilidad espacial de Z(x).
3. Interpolación o estimación espacial. Predicciones. Se realizan estimacio-
nes de la variable objeto de estudio en puntos no observados, considerando la es-
tructura de correlación espacial ajustada, el semivariograma teórico, y la infor-
mación obtenida de los puntos muestrales.
Como técnica de estimación espacial se estudiará el krigeado. Este nombre

procede del término francés krigeage, con el que Matheron designó esta nueva
técnica de estimación espacial, en reconocimiento al trabajo pionero de Krige en
las minas de oro de Sudáfrica. En la bibliografía inglesa se denomina kriging.
También se ha traducido en español por krigeaje, pero esta traducción es poco
usada.
El objetivo del método del krigeado es encontrar el mejor estimador lineal in-
sesgado de Z(x), es decir, el de sesgo nulo y mínima varianza del error de esti-
mación, partiendo de una muestra del fenómeno en estudio y utilizando como ele-
mento fundamental el análisis de la distribución espacial de Z(x).
14.6. FUNCIONES ALEATORIAS. VARIABLES

REGIONALIZADAS
Se designa por G la región del espacio en la que interesa estudiar un fenó-

meno espacial, y se denomina la región o el dominio de variación del fenómeno.
Por ejemplo, la temperatura o la humedad superficial del suelo, la porosidad del
terreno, la acidez, etc.
Un punto X de la región G, cuyo vector de posición respecto de un punto de
referencia es x, se llama localización.
La región G puede ser una parte del espacio de dimensión 1, 2 ó 3. Será de di-
mensión 1, 2, 3, según que el punto se desplace en una recta, en un plano o en el
espacio tridimensional, respectivamente.
A cada punto X de la región G, con vector de posición x, se le hace corres-
ponder una variable aleatoria Z(x). Al variar el punto X en la región G se define
una función aleatoria Z(X), es decir, un proceso estocástico espacial, o lo que es
lo mismo, una colección de variables aleatorias numéricas { Z ( x )} X ∈G .
Esta función aleatoria asigna a cada posición dada por Xj, cuyo vector de po-
sición es xj, una variable aleatoria regionalizada Z(xj) o variable aleatoria es-
pacial por depender de la posición de Xj en el espacio. Una medida de la variable
aleatoria Z(xj) en el punto Xj se indicará por z(xj), que se denomina una realiza-
ción de la variable aleatoria Z(xj), y una estimación del valor de la variable en el

punto Xj se representará por z*(xj).
Dos puntos X j y Xk distintos tendrán asociadas variables aleatorias Z(xj) y
Z(xk) diferentes pero no necesariamente independientes. En los fenómenos con
distribución espacial se puede esperar que en regiones más cercanas los valores
observados sean más dependientes que los valores correspondientes a puntos
muy distantes.
El grado de correlación de las variables asociadas a puntos más o menos
distantes refleja la continuidad del fenómeno en estudio (mineralización, altitud,
temperatura, profundidad, etc.).
EJEMPLO 14.6.
En una cuenca de 30 ha de superficie se recogen valores de las cotas Z(x) en
puntos determinados por sus coordenadas geográficas. Una muestra de la variable
{
regionalizada Z(x) es el conjunto de valores z ( x j ) } j =1,2,...,n
donde z(xj) es un valor
de la variable aleatoria Z(xj) y representa la cota, altura sobre el nivel del mar, en el
punto Xj para j = 1,2,3,...,n.
La variable regionalizada Z(x) se puede considerar como una observación de

la función aleatoria Z(X), que simboliza la variación de la característica a estudiar
sobre el espacio en una región determinada.
En la función Z(X) la variable independiente, X, que formaliza el proceso ale-
atorio representa el espacio, por tanto una función aleatoria Z(X) es un proceso es-
tocástico espacial de variable aleatoria continua.
Las funciones aleatorias Z(X) son modelos que sirven para explicar la realidad,
son funciones del punto X, de la posición en el espacio, pero funciones muy irre-
gulares con variaciones de un punto a otro totalmente desconocidas. Para poder
abordar esta realidad tan compleja, se puede expresar Z(X) mediante un modelo es-
tocástico que permita analizar fluctuaciones erráticas de la variable regionalizada.
EJEMPLO 14.7.
Se puede considerar Z(X) como suma de tres componentes
Z(X ) = µ ( X ) + α ( X ) + ε
la primera, µ(X), representa la tendencia, es una función determinística, que pue-

de ser la media (pero puede también ser cualquier tendencia espacial definida me-
diante una función matemática); la segunda, α(X), es una componente correla-
cionada espacialmente pero localmente variable, es una componente aleatoria
que se describirá probabilísticamente mediante la función de covarianza o por el

semivariograma, que se definirá a continuación; y la tercera es un término de error
residual espacialmente independiente.
EJEMPLO 14.8.
Otra forma de descomponer el modelo estocástico Z(X) definido por la variable
regionalizada Z(x) es la siguiente:
Z ( x) = µ Z ( x ) + σ Z ( x ) ⋅ ε
En este caso la variable ε, que representa una variable error, tiene media 0 y
desviación típica 1 porque se tienen que verificar las igualdades:
Se suele suponer que la variable error tiene distribución normal.
EJEMPLO 14.9.
Si x es el vector de posición del punto X del plano, modelos posibles po-
drían ser:
䊏 Z ( x ) = Z ( x1 , x 2 ) = α1 + α 2 x1 + α 3 x 2 + ε ( x1 , x 2 ) .
En este caso α1 + α 2 x1 + α 3 x 2 representa una tendencia lineal y ε ( x1 , x 2 ) es

una variable aleatoria de media cero.
䊏 Z (x) = m(x) + ε (x).

siendo m(x) un polinomio de grado k y ε (x) una variable aleatoria de media
cero.
Si k = 0, m( x) = α1 .
Si k = 1 se tiene m( x) = α1 + α 2 x1 + α 3 x 2 .
Para k = 2 sería m(x) = α1 + α 2 x1 + α 3 x 2 + α 4 x12 + α 5 x1 x 2 + α 6 x 22 .
M
Al ajustar estos modelos a los datos recogidos, algunos de los coeficientes po-
drán tomar el valor cero.
EJEMPLO 14.10
Son datos distribuidos espacialmente, que dan lugar a procesos estocásticos de
variable continua, los siguientes:
— La variación espacial de reservas de diferentes tipos de materias primas mi-
nerales.
— La evaluación de recursos hídricos superficiales o subterráneos en una
cuenca.
— Los parámetros de calidad de un mineral en una zona determinada.
— La variación de la concentración de material radiactivo en un terreno.
— La concentración de determinadas sustancias tóxicas en una región.
— El análisis de la concentración de metales pesados en el agua de un río o de
partículas de polen en el aire en una ciudad.
— La variación de la conductividad hidráulica del suelo arenoso en una región,
provocada por el uso del tipo de agua de riego. La conductividad es un pa-
rámetro interesante en la conservación del suelo.
— La exposición de la población a determinado ruido en un distrito.
— La porosidad del terreno en una demarcación determinada.
— La distribución espacial de plagas de insectos en una plantación.
— El nivel piezométrico a lo largo de un acuífero. Un acuífero es una forma-
ción geológica que encierra una cantidad de agua, o que permite la circula-
ción del agua por sus poros o grietas. En los acuíferos libres, por encima del
agua, no hay capas impermeables. Los acuíferos encerrados por materiales
impermeables se denominan confinados o cautivos. El nivel piezométrico se
define como la altura de la superficie libre del agua sobre el nivel del mar, si
el acuífero está en contacto directo con el aire, o la altura que alcanzaría el
agua en el interior de un sondeo hasta equilibrarse con la presión atmosfé-
rica, si es un acuífero confinado.
— La medida de la fertilidad del suelo en una zona de cultivo hortícola.
— La altitud de los árboles en una zona forestal.
— La variación del número de personas afectadas por una determinada enfer-
medad en una zona alrededor del lugar del foco detectado.
— La distribución espacial de variables ecológicas o medioambientales o la
densidad de árboles en una región.
— La densidad de peces en una zona de pesca.
— La temperatura del agua del mar en una zona costera, etc.
Si la variable Z(x) representa una característica puntual, se dice que el soporte

geométrico de la variable es un punto, si representa una característica lineal, de
superficie o volumétrica, se dice que el soporte geométrico es un segmento, un
área plana o una región del espacio tridimensional, respectivamente.
A continuación, se va a precisar el grado de correlación de las variables aso-

ciadas a puntos más o menos distantes con el objetivo de estudiar la continuidad
de una variable regionalizada (temperatura, altitud, concentración, …) en una
zona determinada, el dominio de variación G.
En el dominio G la función aleatoria Z ( X ) = { Z ( x )}
X ∈G
asocia a cada punto X
de G la variable aleatoria Z(x), y al punto determinado por el vector de posición
x + h, es decir, un punto próximo a X, situado a una distancia |h| de él, le asocia
otra variable aleatoria Z(x + h) que no tiene que ser necesariamente independiente
de Z(x).
Si G es una región lineal, plana o del espacio tridimensional, para cada h, |h| re-
presenta la distancia euclídea entre los puntos G de determinados por x y x + h. Por
tanto x + h, será:
䊏 Uno de los extremos del segmento de centro X y longitud 2|h| para una re-
gión lineal.
䊏 Un punto de la circunferencia de centro X y radio |h| si se trata de una re-
gión plana.
䊏 Un punto de la superficie esférica de centro X y radio |h| si el estudio se
hace sobre una región del espacio tridimensional.
En todos los casos, h representa un vector de origen en el punto X y de mó-

dulo h = h y x + h es otro punto interior a la región G.
La función aleatoria Z(X) puede tomar valores siguiendo alguna distribu-
ción de probabilidad. Sus valores Z(x) dependerían de esa distribución de pro-
babilidad y de la posición de X en el espacio, dicho de otra forma, las variables
Z ( x ) y Z ( x + h ) , en general, dependerán de la estructura espacial del conjunto
de variables aleatorias regionalizadas { Z ( x )} que constituyen la función ale-
X ∈G
atoria Z(X).
La variabilidad espacial de Z(x) no es incertidumbre, la variabilidad espacial
es desconocida pero fija para cada variable regionalizada. La imprecisión dismi-
nuye al aumentar el conjunto de valores conocidos de Z(x), de tal forma que si se
pudiera realizar un análisis exhaustivo en toda la región se conocería la variabi-
lidad espacial de Z(x) y la incertidumbre sería nula.
En el caso, por ejemplo, de una explotación minera es evidente que el análisis
exhaustivo es inviable, y un muestreo amplio, por tener que obtenerse por son-
deos, es muy costoso. Por ello, a partir de los valores obtenidos en n observacio-
nes, que constituyen una muestra y de la localización de los puntos en donde se
han efectuado los sondeos, interesa hallar estimaciones z*(xk) de los valores de la
variable en otros puntos no observados.
14.7. ANÁLISIS EXPLORATORIO DE LOS DATOS
Una vez recogidos los datos muestrales, en primer lugar se realiza un análisis
descriptivo de la muestra unidimensional formada por los valores recogidos de
Z(x), sin tener en cuenta la localización geográfica, es decir, las coordenadas de los
puntos x en los que se ha realizado el sondeo. Se calculan los estadísticos para esta
muestra y se interpretan los resultados.
Si los valores recogidos tienen acusada asimetría se realiza alguna transfor-
mación de los datos para obtener una muestra que se pueda aceptar que procede
de una distribución normal.
EJEMPLO 14.11.
Se han realizado 51 mediciones de la concentración en ppb, 10–12 de un disolvente,
Cl2C = CCl2 , tetracloroetileno, disuelto en el agua de un acuífero. Este disolvente in-
coloro, también conocido como percloroetileno, es peligroso para el medio ambiente.
xi yi z((xi, yi)) xi yi z((xi, yi)) xi yi z((xi, yi))

0 0 15 10 0 30 20 1 590
0 0,5 20 10 0,5 35 20 1,5 2.145
0 1 42 10 1 338 20 2 4.945
0 1,5 281 10 1,5 10.810 20 2,5 3.670
0 2 183 10 2 33.860 20 3 2.025
0 2,5 105 10 2,5 302 20 3,5 147
0 3 53 10 3 1.280 25 0 105
0 3,5 25 10 3,5 327 25 0,5 271
5 0 14 15 0 13 25 1 44
5 0,5 16 15 0,5 342 25 1,5 38
5 1 22 15 1 1885 25 2 77
5 1,5 103 15 1,5 4.390 25 2,5 451
5 2 92 15 2 7.010 25 3 479
5 2,5 360 15 2,5 8.060 25 3,5 164
5 3 10.660 15 3 6.410 30 1 14
5 3,5 9.310 20 0 155 30 3 11
5 4 705 20 0,5 167 30 5 21
En la tabla se indican las coordenadas x (xi, yi), xi el lugar de recogida de la

muestra, en metros, yi, la profundidad también en metros, y para cada localización x
( )
la concentración Z ( xi , yi ) en partes por billón de tetracloroetileno.
Realizar un análisis descriptivo unidimensional de la concentración de tetra-
cloroetileno. ¿Se puede aceptar que estos valores recogidos son una muestra de una
distribución normal?
Para los 51 datos recogidos de z(x), concentración, en ppb, de percloroetileno

disuelto en el agua, se han obtenido los siguientes estadísticos:
La media z$ = 2.208,18, la mediana Me = 183, el primer cuartil Q1 = 38, el
tercer cuartil Q3 = 1.885, la varianza S2 = 2,8869 · 107, la desviación típica
S
S = 5.372,99, el coeficiente de variación CV = . 2, 4332, el coeficiente de
x
asimetría g1 = 4,4830 y el coeficiente de curtosis g2 = 24,3991.
Se observa una gran dispersión de los datos. El coeficiente de curtosis es muy
alto y es muy asimétrica. La media es mucho mayor que la mediana, es mayor in-
cluso que el tercer cuartil.
El diagrama de caja y bigotes da una información gráfica interesante, como se
vio en el Capítulo 2, en la que se refleja el rango, la posición de la mediana, el
rango intercuartílico, la media y si hay valores atípicos, en la terminología an-
glosajona outliers. La existencia de valores atípicos y una fuerte asimetría se
detectan fácilmente con esta representación y son indicios de que los datos no se
ajustan bien a una distribución normal.
Para los datos observados de Z (x), medidas de la concentración en ppb, el dia-
grama de caja y bigotes tiene el siguiente aspecto:
0 1 2 3 4
(x10.000)
Tetracloroetileno en ppb
Diagrama correspondiente a los valores de z(x), concentración en ppb
Se puede observar que la distribución, que es leptocúrtica, es también muy

asimétrica, con valores muy alejados de la media por la derecha.
Para contrastar la normalidad de los datos de la concentración de tetracloro-
etileno en ppb, se aplica la prueba de normalidad de Kolmogorov-Smirnov. El va-
lor obtenido del estadístico de contraste es:
Las regiones críticas, interpolando en la Tabla X del Apéndice I, para los va-
lores de α = 0,10, α = 0,05, α = 0,01 son, respectivamente:
Como D51 = 0, 3413 ∈ RCα =0,01 , los datos difieren muy significativamente de
la normalidad. No se puede aceptar que proceden de una distribución normal.
EJEMPLO 14.12.
Transformar los datos del ejemplo anterior considerando en lugar de los valores
recogidos de la concentración en ppb de tetracloroetileno, los logaritmos neperianos
de esos valores.
Realizar un análisis descriptivo unidimensional de los valores transformados.
¿Se puede aceptar que los nuevos valores proceden de una distribución normal?
Los logaritmos neperianos de los 51 valores de la concentración del ejercicio

anterior son:
ln z ((xi, yi)) ln z ((xi, yi)) ln z ((xi, yi))
2,71 3,40 6,38
3,00 3,56 7,67
3,74 5,82 8,51
5,64 9,29 8,21
5,21 10,43 7,61
4,65 5,71 4,99
3,97 7,15 4,65
3,22 5,79 5,60
2,64 2,56 3,78
2,77 5,83 3,64
3,09 7,54 4,34
4,63 8,39 6,11
4,52 8,86 6,17
5,89 8,99 5,10
9,27 8,77 2,64
9,14 5,04 2,40
6,56 5,12 3,04
Para estos nuevos datos el diagrama de caja y bigotes, que se presenta a con-
tinuación, refleja mayor simetría que el anterior y que se han corregido todos los
valores atípicos.
0 2 4 6 8 10 12
In TCE
Diagrama correspondiente a los valores de ln z(x)
Los estadísticos para los datos transformados y = ln z(x) son:

La media y$ = 5,5635, la mediana Me = 5,21, el primer cuartil, Q1 = 3,64, el ter-
cer cuartil Q3 = 7,54, la varianza S2 = 4,8537, la desviación típica S = 2,2031, el
S
coeficiente de variación CV = . 0,396, el coeficiente de asimetría g1 = 0,4076
x
y el coeficiente de curtosis g2 = –0,8839. La media es ahora más próxima a la me-
diana.
Aplicando la prueba de normalidad de Kolmogorov-Smirnov, se obtiene
Las regiones críticas para α = 0,10, α = 0,05, α = 0,01 son, respectivamente:
Como D51 = 0, 0882 ∉ RCα =0 ,10 , se puede aceptar que estos datos se ajustan a
una distribución normal, que confirma lo observado en el diagrama de caja y bigotes.
14.8. ANÁLISIS ESTRUCTURAL. VARIOGRAMA

Y SEMIVARIOGRAMA
Las técnicas geoestadísticas, como se indicó anteriormente, utilizan funciones

aleatorias para poder representar un fenómeno natural tan complejo que no es po-
sible describirlo de forma determinista.
Para estas funciones aleatorias se hacen observaciones con el objeto de realizar es-
timaciones en otros puntos no observados, y esto exige conocer el grado de dependen-
cia espacial de las variables aleatorias Z(x) que constituyen la función aleatoria Z(X).
En geoestadística lineal se utilizan momentos de orden 1 y de orden 2 para la
función aleatoria Z(X).
䊏 El momento de primer orden es la esperanza matemática de Z ( X ) = { Z ( x )}x∈G .
La esperanza matemática de Z(x), si existe y es finita, es una función de la loca-

lización X ∈G.
El momento µ ( x ) =E ( Z ( x )) se conoce como deriva, o también tendencia,
nombres que tienen relación con la minería, origen de la geoestadística. En geo-
física la deriva recibe el nombre de anomalía regional.
Se utilizan también los siguientes momentos de segundo orden:
䊏 La varianza de la distribución de Z(X), el momento de segundo orden

respecto de la media, es decir:
La varianza de Z(x), si existe y es finita, es también una función de la locali-

zación X ∈G.
䊏 Para medir la dependencia espacial entre los valores de Z(x) se utiliza la co-
varianza de las variables Z(x) y Z(x + h), es decir:
Si existe la varianza para todas las variables Z(x), también existirá la cova-
rianza de las variables Z(x) y Z(x + h), que será una función de las localizaciones
determinadas por los vectores de posición x y x + h.
䊏 Para cuantificar la estructura de correlación espacial de una variable re-
gionalizada, Matheron define la función estructural denominada función va-
riograma, que designa por 2γ ( x, x + h ) , como la varianza de la diferencia
Z ( x ) − Z ( x + h ) , es decir:
El nombre elegido 2γ ( x, x + h ) es debido a que se suele utilizar el semiva-

riograma, que es por definición:
En muchas publicaciones también llaman variograma al semivariograma.

Como se indicó anteriormente, interesa realizar estimaciones de los valores de
la variable regionalizada Z(x) en puntos no muestreados. El uso de valores me-
dios, en el sentido de la estadística clásica, sólo produce resultados eficientes si los
datos presentan regularidad espacial, y esto no es admisible en muchas ocasiones,
por ejemplo, en una explotación minera, en la observación de la cota de una re-
gión y para variables regionalizadas en otros muchos campos de aplicación.
Después de realizar el análisis exploratorio de los datos, el estudio geoesta-
dístico continúa con la construcción del semivariograma experimental, el ajuste a
un semivariograma teórico y la estimación.
14.9. SEMIVARIOGRAMA EXPERIMENTAL
Para estimar a partir de los datos del muestreo el semivariograma

 n
si se han realizado sondeos en n puntos xi , ∀i = 1, 2,..., n, se tendrán pares de
 2
puntos.
Se calcula la distancia euclídea h entre ellos, que es:
䊏
( ) ( )
dist xi , x j = dist x i , x j = xi − x j si el soporte geométrico es lineal.
2 2
䊏
( ) ( (
dist x i , x j = dist ( x i , yi ) , x j , y j )) = ( x − x ) + ( y − y )
i j i j
si el soporte
geométrico de la variable regionalizada es una región del plano.
2 2 2
䊏
( ) ( (
dist x i , x j = dist ( xi , yi , zi ) , x j , y j , z j )) = ( x − x ) + ( y − y ) + ( z − z )
i j i j i j
si el soporte geométrico de la variable Z (x) es una región del espacio tridi-

mensional.
 n
De los   pares de puntos, se indica por n(h) el número de los pares que están
 2
separados entre sí una distancia h.
Matheron, utilizando el método de los momentos, propuso como estimador

del semivariograma
siendo n(h) el número de pares de puntos separados entre sí una distancia h = |h|.
El semivariograma experimental o muestral es una línea quebrada que une
( )
cada punto h, γ ∗ ( h ) con el siguiente para valores crecientes de h.
EJEMPLO 14.13.
Dibujar el semivariograma experimental para los siguientes datos de una fun-
ción aleatoria con soporte lineal:
xi z(xi)
1 4
2 10
3 15
4 20
5 17
n( h)
2
1 ∑ ( z ( x i ) − z ( x i + h ))
Para estimar el valor del semivariograma γ ∗ ( h ) = i =1
2 n (h)
para las distintas distancias posibles 0,1,2,3,4 se tienen que utilizar respectiva-
mente n(0) = 5 pares de puntos, n (1) = 4, n ( 2) = 3, n (3) = 2, n ( 4 ) = 1.
100
80
60
40
20
0
0 1 2 3 4
Semivariograma experimental
La gráfica del semivariograma experimental se construye dibujando los puntos

( )
h, γ ∗ ( h ) y uniendo cada punto con el siguiente en orden creciente de h, mediante
un segmento. Se obtiene así una línea quebrada.
EJEMPLO 14.14.
En una región en la que hay un acuífero confinado se han practicado 20 sondeos
para determinar su nivel piezométrico. Los resultados obtenidos se presentan en la
siguiente tabla:
xi yi Nivel xi yi Nivel
5 5 500 30 5 601
5 10 510 30 20 645
10 15 560 35 10 544
10 20 570 35 15 560
15 10 670 40 20 680
15 25 650 40 25 700
20 20 525 45 10 568
20 30 550 45 30 490
25 10 530 50 20 600
25 35 570 50 35 600
En el cuadro se indican las posiciones de los sondeos clasificados según la

profundidad:
[490,530)
[530,565)
Leyenda [565,575)
[600,650)
[650,700)
40
35
30
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50 55 60
El semivariograma experimental correspondiente está dibujado en la siguiente

gráfica.
γ(h)
7.000
6.000
5.000
4.000
3.000
2.000
1.000
0
0 5 10 15 20 25 30 35 40 45 50 55 60
Distancia h
Semivariograma experimental
Si para distancias pequeñas las diferencias de los valores de z(xi) y de z(xi+ h)

son grandes, el semivariograma experimental parte de una cantidad positiva en lu-
gar de partir de 0.
La siguiente gráfica muestra el semivariograma experimental correspondien-
te a los logaritmos naturales, o neperianos, de mediciones de la concentración en
ppb de tetracloroetileno disuelto en el agua del acuífero. En este semivariograma
experimental γ ( 0) ≠ 0.
γ(h)
2,5
1,5
0,5
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Distancia h
Puede ocurrir que la función semivariograma tenga una discontinuidad de sal-

to finito en el origen, este salto se denomina pepita o efecto pepita, en inglés nugget
effect. De nuevo se encuentra otro término relacionado con la minería. Puede ser de-
bido a que la distancia entre puntos observados es mayor que la dimensión media
de la zona en la que hay una concentración alta de la característica observada
como es una pepita más o menos grande en una mina de oro. Puede ocurrir que esta
concentración del mineral provoque que para distancias pequeñas las diferencias de
los valores z(xi) y de z (xi + h) sean grandes, esto provoca que el semivariograma
experimental parta de una cantidad positiva en lugar de partir de 0.
El análisis e interpretación del semivariograma experimental para ajustarlo a
un modelo teórico es necesario antes de aplicar la técnica de estimación conocida
como krigeado, que se presentará más adelante.
El krigeado es una técnica que proporciona estimaciones óptimas si la distribución
de Z(x) es normal, pero en el caso de las distribuciones muy sesgadas los errores de es-
timación pueden ser grandes. Para evitar este gran inconveniente, si la distribución de la
muestra de valores de Z(x) es muy sesgada, hay que realizar alguna transformación de
los datos, como se ha realizado en el Ejemplo 14.12, con el fin de trabajar con datos
transformados que se pueda aceptar que proceden de una distribución normal.
Para explicar el krigeado hay que formular algunas hipótesis de trabajo. Es lo
que se hará a continuación.
14.10. FUNCIONES ALEATORIAS ESTACIONARIAS
䊏 Una función aleatoria Z(X) es estrictamente estacionaria si su función de

distribución es invariante respecto a cualquier traslación de vector h. Tendrán to-
das las Z(xi) la misma media y varianza.
Es decir, si  Z ( x1 ) , Z ( x 2 ) ,..., Z ( x n )  representa una muestra aleatoria de la
función aleatoria Z(X), se dice que Z(X) es estrictamente estacionaria si se veri-
fica que la función de distribución del vector aleatorio  Z ( x1 ) , Z ( x 2 ) ,..., Z ( x n ) 
es la misma que la del vector  Z ( x1 + h ) , Z ( x 2 + h ) ,..., Z ( x n + h )  para cual-
quier traslación de vector h.
Si µ = E ( Z ( x )) para algún x, entonces µ = E ( Z ( x )) , ∀x ∈G.
Si existe µ = E ( Z ( x ) ) y es finita, la función W ( X ) = Z ( X ) − µ será una fun-
ción aleatoria con E ( W ( x )) = 0, ∀x ∈G.
No siempre se puede admitir como hipótesis de trabajo que Z(X) es estricta-
mente estacionaria. Por ejemplo, si Z(X) representa las cotas, pues éstas pueden
variar mucho en una región.
䊏 Una función aleatoria Z(X) es estacionaria de segundo orden si los mo-
mentos de primer y segundo orden de su función de distribución verifican las si-
guientes condiciones:
1.a) Existe E ( Z ( x ) ) = µ , ∀x ∈ G y no depende de x.

2.a) Para todo par de variables aleatorias Z(x) y Z(x + h) existe la covarianza
Cov ( Z ( x ) , Z ( x + h ) ) = E ( Z ( x ) − µ ) ⋅ ( Z ( x + h ) − µ )  y sólo depende de h = |h|.
Es decir, que la covarianza
no depende de la localización, sólo depende de la distancia h entre las localiza-

ciones, y se indicará
Para valores muy grandes de h = |h| , esto es, para puntos muy separados, la
covarianza será nula por ser independientes las variables Z(x) y Z(x + h) y a me-
dida que disminuye h = |h| las variables serán más dependientes.
Si h = 0 la covarianza
Suponiendo aceptable la hipótesis de continuidad espacial del fenómeno, el lí-

mite de la covarianza cuando h → 0 será el valor de ésta para h = h = 0, es decir,
La representación de la función C(h) en función de h = |h| se conoce como co-

variograma.
C(h)
Var(Z)
h
0
Covariograma para variables con continuidad espacial
La función covarianza depende de la escala en que se mida Z(x); se puede definir

C (h)
a partir de ella una medida adimensional. La autocorrelación ρ ( h ) = .
C (0)
Si se cumple la hipótesis de continuidad espacial del fenómeno, también el se-

mivariograma es estacionario, es decir, se verifica que
Porque
Como consecuencia de existir la covarianza, la varianza existe, es finita y no

depende de la localización:
Y por no depender la varianza de la localización,

( )
γ ( x, x + h ) = γ x − ( x + h ) = C (0) − C (h) sólo depende de la distancia entre las
localizaciones.
Por tanto: γ ( h ) = C (0) − C (h).
También se verifica que:
La gráfica del semivariograma γ ( h ) = Var  Z ( x ) − C ( h), para funciones es-

tacionarias tiene la forma:
γ(h)
Var(Z(x))
h
0
Semivariograma para funciones estacionarias
El semivariograma anterior parte del origen de coordenadas, γ (0) = 0, tiene una

asíntota horizontal cuando h → + ⬁, se dice que tiene una meseta. La meseta coincide
con el valor de Var [Z(x)]. La distancia h = |h| a la que se alcanza la meseta, si es finita,
se denomina rango o alcance, indicando la zona de influencia alrededor de un punto,
que se toma como origen. A partir de esta distancia las muestras son independientes.
14.11. FUNCIONES ALEATORIAS INTRÍNSECAS
Hay muchas características espaciales que no corresponden a funciones alea-

torias estacionarias.
Existen zonas donde las cotas sobre el nivel del mar Z(x) varían bruscamen-
te en localizaciones próximas. La profundidad del mar Z(x) aumenta con la dis-
tancia a la costa. Estos fenómenos naturales no se ajustan a funciones aleatorias
estacionarias de segundo orden, pues para éstas existen y son finitas la esperanza,
la varianza y la covarianza, y no dependen de la localización.
La concentración de sustancias tóxicas disueltas en el agua o el espesor de al-
gunas formaciones geológicas son otros ejemplos de fenómenos naturales cuya
varianza crece sin tope, por tanto tampoco se pueden representar por funciones
aleatorias estacionarias.
La función aleatoria se podría representar de la siguiente forma:
siendo ε (x) una función de media cero.

Para estos fenómenos el semivariograma no se estabiliza y crece al aumentar
lizada Y ( x ) = Z ( x + h ) − Z ( x) y analiza si ésta tiene esperanza y varianza finitas.

h. Para poder estudiar estos fenómenos, Matheron considera la variable regiona-
Una función aleatoria Z(x) se dice que es intrínseca si verifica las dos condi-
ciones siguientes:
1.o) E ( Z ( x + h ) − Z ( x) ) = µ ( h ) , ∀x ∈G.
( )
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z ( x)) = 2γ (h), ∀x ∈G.
2
Para estas funciones aleatorias los incrementos Y ( x ) = Z ( x + h ) − Z (x) tienen

esperanza y varianza definidas, finitas e independientes de la localización x,
cualquiera que sea el vector h.
La función µ(h), que representa la deriva o tendencia, en inglés drift, de la va-
riable regionalizada Y ( x ) = Z ( x + h ) − Z (x), es lineal en h, ya que:
La variable regionalizada Y ( x ) = Z ( x + h ) − Z (x) se podía representar por el

modelo:
donde ε (h) representa una variable regionalizada de media cero.

Si µ ( h ) = 0, ∀h, entonces E ( Z ( x )) = µ, ∀x ∈G, la función aleatoria sería es-
tacionaria.
Si µ ( h ) ≠ 0 se considera la variable regionalizada W ( x ) = Z ( x ) − µ ( x ) y
para esta variable
Por tanto, se puede suponer que la deriva µ (h) es nula utilizando como fun-
ción aleatoria W ( x ) = Z ( x ) − µ ( x ) .
1
La función γ (h) = Var  Z ( x ) − Z ( x + h ) es el semivariograma que también
2
se llama función intrínseca. Representa la semivarianza para la distancia h = |h|.
Una función aleatoria intrínseca está caracterizada por su semivariograma o
por su variograma.
Toda función estacionaria de segundo orden es intrínseca, pero el recíproco no
es cierto.
Si la función aleatoria Z(X) verifica la hipótesis de estacionariedad de segundo
orden es intrínseca, y en este caso es γ ( h ) = C (0) − C (h).
Conviene observar que el semivariograma de una función aleatoria estacionaria de
segundo orden está necesariamente acotado. No todo semivariograma está acotado.
14.12. MODELOS TEÓRICOS DE SEMIVARIOGRAMA
Los modelos teóricos de semivariograma son necesarios para poder realizar

estimaciones de los valores de la variable regionalizada en puntos no muestreados,
pues no se puede trabajar con el semivariograma empírico, del que no se conoce
la expresión matemática.
Para todo semivariograma γ (h) se deben cumplir las siguientes condiciones:
1.o) La función γ (h) debe ser monótona creciente y con γ (0) = 0.
2.o) ∀x1 , x 2 ,..., x n , que determinan n puntos arbitrarios de G y ∀λ1 , λ 2 ,..., λn ∈R
n
tales que ∑ λi = 0 (condición que se impone para que exista la covarianza aunque la
i =1
n n
(
función fuera intrínseca) ha de ser ∑ ∑ λi λ j γ xi , x j ≤ 0.
i =1 j =1
)
n
Porque si Z v = ∑ λi Z ( xi ) tiene que tener varianza positiva
i =1
Por tanto:
n
Y como ∑ λ j = 0 se ha de verificar que
j =1
3.o) El semivariograma de una función aleatoria tendrá siempre un ritmo de

crecimiento inferior al de la parábola Y = h2, siendo h = |h| porque
A continuación, se presentan los modelos de semivariogramas teóricos usados

habitualmente.
14.12.1. Modelo efecto pepita puro
γ(h)
h
0
Este modelo se ajusta a fenómenos totalmente aleatorios. La correlación es in-

dependiente de la distancia h entre las localizaciones.
Es un semivariograma con meseta que se alcanza ∀h > 0.
14.12.2. Modelo lineal

Es un modelo de semivariograma no acotado
γ(h)
h
0
Es el semivariograma sin meseta más sencillo.

Otro modelo de semivariograma no acotado es el siguiente:
14.12.3. Modelo potencial
γ(h)
m = 3/2
m=1
m = 1/2
h
0
El modelo lineal es un caso particular del potencial para el parámetro m = 1.

Para todos los valores de m ∈ (0, 2) el semivariograma no tiene meseta.
No puede ser m ≥ 2 porque se tiene que verificar que
El semivariograma se aproxima a la parábola y = α.h2 cuando m tiende a 2 por

la izquierda porque
A continuación, se presentan modelos de semivariogramas acotados. En estos

modelos el semivariograma puede alcanzar un valor máximo, meseta,
14.12.4. Modelo lineal acotado

Sólo es válido para soporte geométrico de dimensión 1.
γ(h)
15
k 10
–3 0 3 6 9 12 15 18 21
a
La meseta k es el máximo de γ (h) y se alcanza para h = a, que representa el

k
rango o alcance. La pendiente en el origen es .
a
14.12.5. Modelo esférico

Es un modelo válido para dimensiones 2 y 3.
γ(h)
h
0 a
Sus parámetros son a y k, la meseta.

La meseta se alcanza para h = a, por tanto a es el alcance o rango.
3k
La pendiente en el origen es .
2a
14.12.6. Modelo esférico con efecto pepita

Los parámetros son q, k y a que representan el efecto pepita, la meseta y el al-

cance respectivamente.
14.12.7. Modelo gaussiano
γ(h)
h
0 a
Este modelo depende de dos parámetros k, la meseta, y a. La meseta no se al-

 h2
−3 2 
canza, es lim γ ( h ) = lim k  1 − e a  = k .
h→` h→`  

( )
En la práctica, como γ ( h = a) = k 1 − e −3 . 0, 95k, para h = a realmente casi
ha alcanzado la meseta.
Como dγ ( 0 ) = 0, la pendiente de γ (h) en el origen es 0, es decir, la curva tiene
dh
por tangente el eje horizontal en el origen por la derecha. Esto es indicativo de re-
gularidad de la función γ (h). Se dice que tiene un comportamiento parabólico cerca
del origen.
Esta curva tiene un punto de inflexión para h < a.
Corresponde a fenómenos que presentan variación espacial más continua y
menos errática.
14.12.8. Modelo exponencial
siendo a > 0.
γ(h)
h
0 a
Depende de dos parámetros k, la meseta, y a.

h
 −3 
La meseta no se alcanza, es lim γ ( h ) = lim k  1 − e a  = k .
h→ ` h→`  
( )
Pero como γ ( h = a ) = k 1 − e . 0, 95k , prácticamente se alcanza la meseta
− 3
para h = a.
La pendiente en el origen para este modelo es 3 k y la del modelo esférico
a
del mismo alcance es 3k .
2a
Por tanto, el semivariograma exponencial tiene mayor pendiente que el esfé-
rico en el origen, esto significa que el exponencial crece más rápidamente para va-
lores pequeños de h.
14.12.9. Modelo exponencial con pepita
siendo a > 0.
γ(h)
h
0 a
Depende de tres parámetros a, k y q, que representan, respectivamente, el valor

de h para el que prácticamente se alcanza la meseta, la meseta y el efecto pepita.
En general, el semivariograma teórico es una función monótona creciente.
A continuación se aborda el problema de la estimación en puntos no observados.

Georges Matheron comenzó a trabajar en estos problemas en 1954, descubriendo el
trabajo en las minas de oro de Sudáfrica de los ingenieros de minas Herbert S. Sichel
de 1947 a 1949 y Daniel G. Krige, que en 1951 aplicó el análisis de la regresión en-
tre muestras y bloques de mena. Los trabajos de Matheron, en la Escuela Superior de
Minas de París, se enfocaron en hallar el mejor estimador para variables regionali-
zadas. La técnica de Matheron para la estimación espacial la denominó krigeage en
honor al trabajo que realizó en 1951 el ingeniero de minas Krige, como precursor de
los métodos geoestadísticos. En español se traduce por krigeado.
El krigeado es un procedimiento geoestadístico de estimación que minimiza la
varianza del error de estimación, utiliza, además de los valores observados, las ca-
racterísticas de continuidad espacial de la variable en estudio. Este método pro-
porciona las mejores interpolaciones por emplear un estimador eficiente, es decir,
centrado y de mínima varianza.
La minimización de la varianza del error supone conocer el semivariograma
con exactitud, y como esto no es posible habrá que ajustar el semivariograma expe-
rimental a un semivariograma teórico.
Con los datos observados en los sondeos se dibuja el semivariograma experi-
mental y se ajusta a uno de los modelos teóricos. La elección del modelo teórico se
basa tanto en la experiencia como en criterios estadísticos. Se trata de elegir el modelo
que mejor explique la variabilidad espacial del fenómeno objeto de estudio. Puede ser
uno de los presentados, o también suma de dos, o combinaciones lineales de ellos.
Para determinar el valor del parámetro o de los parámetros que definen el modelo,
como en el caso de la regresión, el mejor ajuste es el que minimiza la suma de cua-

drados de los errores. Se denomina análisis estructural al procedimento de elección
y ajuste del semivariograma teórico a partir del semivariograma experimental.
14.13. ANÁLISIS ESTRUCTURAL DE LOS DATOS
Se entiende por análisis estructural en geoestadística al proceso de ajuste de

un semivariograma teórico a los datos observados del fenómeno objeto de estudio.
El semivariograma en un punto para una función intrínseca resume la variabili-
dad de la función aleatoria Z(X), representa la mitad de la varianza para todos los
1
puntos separados una distancia h = |h|, ya que γ (h) = Var  Z ( x ) − Z ( x + h )  .
2
Para una función estacionaria por ser E ( Z ( x + h ) − Z (x)) = 0, ∀x ∈G el se-
1 1 2
mivariograma γ ( h) = Var  Z ( x ) − Z ( x + h )  = E ( Z ( x ) − Z ( x + h ) )  y en
2 2  
este caso se vio anteriormente que γ ( h ) = C (0) − C (h) = Var ( Z ( x )) − C ( h ) lo
que permite utilizar indistintamente la covarianza o el semivariograma.
1
El semivariograma γ (h) = Var  Z ( x ) − Z ( x + h )  es una función monótona
2
2
creciente, porque al aumentar h aumenta ( Z ( x ) − Z ( x + h )) .
La siguiente figura es la gráfica de un semivariograma teórico que está aco-
tado. Tiene un valor máximo que es k, la meseta, k = Var ( Z ( x )) . El valor máximo
lo alcanza para una distancia finita, el alcance o rango, indicada por el punto a del
eje de abscisas. A partir del alcance la correlación espacial es nula, las muestras
son independientes. Presenta efecto pepita porque la gráfica corta al eje de orde-
nadas a una distancia q > 0 del origen.
γ(h)
h
0 a
Con los datos del semivariograma experimental se trata de averiguar si el se-

mivariograma teórico no presenta efecto pepita, q = 0, o sí presenta efecto pepita,
q > 0. En el caso en que presente efecto pepita hay que distinguir si q < k o si q = k.
Si q = k se dice que el semivariograma es del tipo de efecto pepita puro, esto sig-
nifica que el semivariograma es constante y por ello no depende de la distancia, la
muestra recogida no refleja variación espacial.
Se puede definir un Índice de Dependencia Espacial, IDE, que, como todos
los índices, es una medida adimensional.
El mínimo valor de este índice es cero, si no hay efecto pepita y el máximo valor es
1, que significa que el semivariograma es del tipo efecto pepita puro. Valores de IDE
comprendidos de 0 a 0,25 indican fuerte dependencia espacial, si 0,25 < IDE < 0,75 se
dice que hay moderada dependencia espacial y si 0,75 ≤ IDE ≤ 1 la dependencia espa-
cial de la variable es débil.
El semivariograma permite detectar la parte de la varianza de la variable
Z(x) que refleja la variación espacial.
En los semivariogramas experimentales correspondientes a variables regiona-
lizadas, especialmente si tienen soporte plano o tridimensional, puede ocurrir que se
observe anisotropía, es decir, dependencia direccional, en este caso hay que estu-
diar la variación del semivariograma en las distintas direcciones. Si el semivario-
grama es isotrópico, la variación espacial es independiente de la dirección y basta
con construir uno para observar la variabilidad espacial de la función aleatoria. Los
metales presentan isotropía, al calentarlos se produce una dilatación del metal
igual en todas las direcciones.
Hay semivariogramas que no alcanzan el valor de la meseta para una distan-
cia finita, por ejemplo los modelos gaussiano y exponencial. Para éstos, a partir de
la distancia h = a, para la constante a de la fórmula correspondiente, práctica-
mente hay independencia espacial.
A partir del semivariograma experimental y de su análisis se busca el modelo
teórico que mejor se ajuste a los valores observados. Será mejor aquel para el que
la suma de los cuadrados de los errores sea mínima. El coeficiente de determina-
ción correspondiente indica el mayor o menor grado de ajuste al modelo elegido.
Una vez calibrado o validado un modelo teórico de semivariograma a partir del ex-
perimental, se puede abordar el krigeado, que es un método de interpolación espacial.
14.14. ESTIMACIÓN ESPACIAL. KRIGEADO
Se puede considerar el krigeado como una corrección de las técnicas de re-

gresión lineal que tiene como objetivo estimar, a partir de valores observados en
localizaciones conocidas, el valor de una variable regionalizada en puntos no
muestreados de la región G objeto de estudio. La región G puede ser una gran

extensión lineal, una gran superficie o un volumen de grandes dimensiones, según
que la variable regionalizada tenga soporte lineal, plano o tridimensional.
Un sondeo se puede obtener del núcleo cilíndrico de pocos centímetros de diá-
metro. A partir de los valores de la variable en los sondeos, se trata de determinar
el valor en otros puntos de la región no explorados.
¿En qué sentido se corrigen las técnicas de regresión?
䊏 El krigeado no exige los requisitos sobre la distribución de las variables ni
la independencia de éstas. De hecho, una de las características de las va-
riables regionalizadas es que están correlacionadas.
䊏 Tampoco se realiza en geoestadística un muestreo aleatorio característico
de la estadística clásica. Éste se sustituye por un muestreo no aleatorio.
En la estadística clásica, una muestra aleatoria es una n-upla de observaciones

de una misma variable aleatoria X. Cada una de las n observaciones, xi, que for-
man la muestra, tiene la misma distribución que X y dos observaciones, en el
muestreo aleatorio simple, son independientes entre sí.
En geoestadística, cada una de las n observaciones son realizaciones parciales
de un modelo, una función aleatoria Z(X). Una observación es un valor de una de
las infinitas variables aleatorias Z(x), tantas como posibles localizaciones se pue-
dan dar en la región G. Dos de estas variables regionalizadas no son en general in-
dependientes, se puede esperar que serán más correlacionadas cuanto más próxi-
mas estén sus localizaciones. Además en geoestadística toda observación lleva
asociada unas coordenadas, su ubicación.
䊏 Una estimación en geoestadística es la predicción de un valor de una variable
Z(x) en una localización a partir de un valor para cada una de las va-
riables Z(xi), i = 1,2,...,n correspondientes a los puntos de la muestra.
En estadística clásica, se entiende por estimación una inferencia realizada so-

bre un parámetro fijo del que se desconoce su valor.
El krigeado, como se dijo anteriormente, es el nombre con el que Matheron de-
nominó, en honor a D. Krige, el conjunto de algoritmos de regresión que permiten in-
terpolar valores de una variable regionalizada Z(x), utilizando el método de mínimos
cuadrados. El krigeado proporciona el mejor estimador lineal posible de la variable re-
gionalizada Z(x), pero necesita información no sólo de los valores de la variable en
los puntos observados, sino también necesita conocer la correlación espacial del fe-
nómeno objeto de estudio.
Tipos de krigeado
El krigeado es una técnica que no se puede abordar globalmente para
cualquier variable regionalizada. Necesita información sobre la correlación es-
pacial del fenómeno objeto de estudio y sólo se tiene información en unos
puntos de la región. Por ello es preciso formular hipótesis sobre la función

aleatoria Z ( X ) = { Z ( x )}x∈G que permitan aplicar el método.
Con el krigeado se puede estimar el valor de la variable regionalizada en una
localización y también el valor medio en un dominio no puntual. Se pueden,
por tanto, considerar diversos tipos de krigeado. A continuación se explicarán al-
gunos de ellos:
䊏 El krigeado puntual tiene como objetivo la estimación del valor de una va-
riable regionalizada Z(x) en un punto x a partir de las medidas en n puntos
determinados por sus coordenadas.
䊏 Si la función aleatoria Z ( X ) = { Z ( x )}x∈G es estacionaria y la esperanza

de la variable regionalizada, Z(x), E ( Z ( x ) ) = µ, ∀x ∈G, es conocida y
constante en toda la región G, el krigeado puntual se denomina krigeado
simple.
䊏 El krigeado puntual para funciones aleatorias Z ( X ) = { Z ( x )}x∈G estacio-
narias con esperanza constante pero desconocida o para funciones aleato-
rias intrínsecas, variables regionalizadas en las que la media en G varía con
la localización, recibe el nombre de krigeado ordinario.
䊏 El krigeado por bloques permite estimar a partir de medidas puntuales el
valor medio de la variable regionalizada Z(x) en un dominio no puntual,
bloque, contenido en la región G, como puede ser un intervalo, una super-
ficie o un volumen, según que se trabaje en soportes lineales, planos o del
espacio tridimensional, respectivamente. También permite estimar el valor
de la variable regionalizada en un punto, a partir de valores medios en blo-
ques próximos, e incluso estimar el valor medio de la variable regionali-
zada Z(x) a partir de medidas de dicha variable recogidas en puntos junto
con valores medios en bloques próximos.
Planteamiento general de la estimación por krigeado.

El krigeado es un método para obtener el Mejor Estimador Lineal Insesgado
Ẑ(x) para Z(x), a partir de la información de n valores de la variable regionaliza-
da Z(x) correspondientes a n puntos de la región G, de los que se conocen sus co-
ordenadas, determinadas por los vectores x1 , x 2 ,..., x n , y del comportamiento es-
pacial de Z(x), proporcionado por la covarianza Cov ( Z ( x ) , Z ( x + h ) ) , por el co-
variograma o por el semivariograma teórico.
En la nomenclatura inglesa, el Mejor Estimador Lineal Insesgado «The Best
Linear Umbiased Estimator», se suele abreviar como estimador BLUE, que se co-
rrespondería en español con la abreviatura MELI.
En términos generales, el krigeado tiene por objeto determinar el estimador li-
neal Ẑ(x) que verifique:
1.o) Que Ẑ(x) sea un estimador centrado de Z(x), es decir,
2.o) La varianza del error de estimación, diferencia entre el valor estimado y

el real, sea mínima. Esto es
Tanto los valores desconocidos z(x) de la variable Z(x) como los datos
z ( xi ) , ∀i = 1, 2,..., n son valores de la variable aleatoria regionalizada Z(X).
El krigeado puntual es un método de interpolación exacto en el sentido de
que, si se calcula la estimación para uno de los puntos observados, el valor que
proporciona coincide con el recogido y por tanto la varianza del error de estima-
ción en estos puntos es nula. Esto significa que la interpolación por krigeado es
mejor que la que se obtiene por ajuste a los datos por el método de mínimos cua-
drados
Si E ( Z ( x )) = µ ( x ) , el modelo que se considera para la función aleatoria
Z(X) es el siguiente:
Siendo µ (x) la función determinista que define la tendencia o deriva, y α (x)

la componente aleatoria que tiene media nula, porque E ( Z ( x )) = µ ( x ) .
14.15. KRIGEADO SIMPLE
El krigeado para funciones aleatorias Z(X) estacionarias de segundo orden,

también llamadas simplemente estacionarias, es decir, para las que existe
E ( Z ( x ) ) = µ , ∀x ∈ G, constante en toda la región y además para todo par de
( ( ))
puntos xi y xj existe la covarianza Cov Z ( x i ) , Z x j y sólo depende de la distancia
entre los puntos xi y xj, si se conoce el valor de µ, se denomina krigeado simple.
En este caso la función aleatoria Z(X) se puede expresar como:
siendo α (x) la componente aleatoria de media nula.

El método del krigeado simple consiste en determinar el mejor estimador li-
neal del valor de la variable regionalizada en un punto x, para una función alea-
toria estacionaria de la que se conoce el valor de µ, los valores en n observaciones
puntuales Z(xi), sus localizaciones y la covarianza.
Es decir, determinar los valores de λi , ∀i = 1, 2,..., n para los que el estimador:
sea centrado y tenga mínima varianza del error de estimación.

Para que este estimador sea centrado, tiene que ser:
( )
Es decir, la media de los errores de estimación debe ser cero: E Zˆ ( x ) − Z ( x ) = 0.
n
)
El estimador Ẑ ( x ) = µ + ∑ λ i ( Z ( xi ) − µ del krigeado simple es centrado
i=1
porque:
Se busca determinar los valores de λi , ∀i = 1, 2,..., n que hagan mínima la

( )
varianza del error de estimación, Var Zˆ ( x ) − Z ( x ) .
n
)
Como Ẑ ( x ) = µ + ∑ λ i ( Z ( xi ) − µ la varianza del error es:
i=1
Definiendo la variable regionalizada W ( x ) = Z ( x ) − µ , de media cero y co-

varianza la misma que la de Z(x), se pue-
de escribir:
Así, la varianza del error es:
siendo λ0 = −1 y x 0 = x, el punto en el se quiere estimar el valor de la variable re-

gionalizada.
Se puede expresar la varianza del error de estimación en función de la cova-

rianza del siguiente modo:
Y teniendo en cuenta que x 0 = x y λ0 = −1 y que Z(X) es estacionaria de se-

gundo orden
De este modo se reduce el problema del krigeado simple a determinar los va-
lores λ1 , λ 2 ,..., λn que minimizan la función
La condición necesaria para que la varianza del error de estimación sea mí-
nima es que sus derivadas parciales respecto de λ1 , λ 2 ,..., λn sean cero:
Derivando:
Simplificando:
Este sistema se conoce como las ecuaciones del krigeado simple y se suele
presentar en forma matricial para facilitar su solución haciendo uso del ordenador.
Las ecuaciones del krigeado simple en forma matricial son:
Obsérvese que la matriz de los coeficientes del sistema tiene como elementos
( )
los valores de la Cov xi , x j ∀i, j ∈{1, 2,..., n} y es una matriz simétrica.
Resolviendo este sistema de n ecuaciones lineales, se obtienen los valores de
n
)
λ1 , λ2 ,..., λ n que determinan el estimador Ẑ ( x ) = µ + ∑ λ i ( Z ( x i ) − µ del valor
i =1
de la variable regionalizada en la localización x a partir de los valores observados.
Este método proporciona a la vez la varianza del error de estimación.
n
( )
Como se verifica que ∑ λ j Cov xi , x j = Cov ( x i , x ) , ∀i = 1, 2,..., n, la varianza
j =1
del error de estimación es:
Sólo se puede aplicar el krigeado simple si existe E ( Z ( x )) = µ , ∀x ∈ G y se

conoce el valor de la constante µ.
Si Z(x) tiene una distribución normal multivariante para todas las localiza-
ciones x, la media y la covarianza caracterizan completamente el proceso.
En edafología se utiliza el krigeado simple para la interpolación y elaboración
de mapas de curvas de nivel, o isolíneas, para la clasificación de los suelos.
EJEMPLO 14.15.
Se ha medido el pH del suelo en cuatro puntos en una zona en la que el valor
medio del pH es de 6,5. Las coordenadas en el mapa de la zona y el pH correspon-
diente se presentan en la siguiente tabla:
xi pH
(5, 5) 6,3
(10, 30) 7,6
(20, 25) 8
(30, 5) 4,8
−h
Sabiendo que la covarianza del pH en la zona es, Cov ( x, x + h ) = e 2 , estimar
el valor del pH en el punto de coordenadas (25, 10).
4
)
El estimador es Ẑ ( x ) = µ + ∑ λ i ( Z ( x i ) − µ siendo λi , i = 1, 2, 3, 4 la solución
i =1
del sistema matricial:
Para obtener los valores de la covarianza se necesitan las distancias entre los
puntos. La distancia entre los puntos x1 de coordenadas (x1, y1) y x2 de coordenadas
(x2, y2) es d ( x1 , x 2 ) = ( x1 − x2 )2 + ( y1 − y2 )2 .
Distancias x1 x2 x3 x4
x1 0
x2 5 17 0
x3 25 5 5 0
x4 25 10 8 10 5 0
x 5 17 15 2 5 10 5 2
−h
Como Cov ( x, x + h ) = e 2 se tiene que:
Cov ( xi , x i ) = e 0 = 1 ∀i = 1, 2, 3, 4
−5 17
Cov ( x1 , x 2 ) = e 2
Calculando del mismo modo las demás covarianzas, se obtienen las ecuacio-
nes del krigeado:
La solución de este sistema es:

Con esta solución se obtiene el valor de Ẑ(x) en el punto x de coordenadas

(25, 10):
La varianza del error de estimación es:
EJEMPLO 14.16.
Con los datos del Ejemplo 14.15. estimar el valor del pH en el punto de coor-
denadas (15, 25) y también en el punto de coordenadas (10, 25).
1.o) Si x es el punto de coordenadas (15, 25) las ecuaciones del krigeado co-
rrespondientes son:
Cuya solución es:
De donde el valor de Ẑ(x) en el punto x de coordenadas (15, 25) es:

2.o) Para el punto de coordenadas (10, 25) las ecuaciones del krigeado son:
y su solución es: λ1 = 0, λ2 = 1, λ3 = 0, λ4 = 0.
4
)
En este caso la estimación del pH en el punto Zˆ ( x ) = 6, 5 + ∑ λ i ( Z ( xi ) − 6, 5 =
i =1
= 6, 5 + (7, 6 − 6, 5) = 7, 6 que coincide con el valor observado en ese punto.
La varianza del error de estimación σ e2 = 0.
Como se indicó en el planteamiento general, el krigeado puntual es un méto-
do de interpolación exacto.
Hay muchas funciones aleatorias, como se comentó anteriormente, en las
que no se puede aceptar la hipótesis de estacionariedad, bien porque aunque se
pueda aceptar que E ( Z ( x )) = µ, ∀x ∈G, no se conoce el valor de µ o porque la media
cambia de un punto a otro de la región E ( Z ( x )) = µ ( x ) . En estos casos no se
pueden aplicar las ecuaciones del krigeado simple.
14.16. EL KRIGEADO ORDINARIO
El método de krigeado ordinario resuelve el problema de la estimación para

funciones estacionarias de media desconocida y para funciones intrínsecas.
Para las funciones estacionarias, es decir, para las que E ( Z ( x )) = µ, ∀x ∈G

䊏
pero no se conozca el valor de µ, se puede escribir Z ( x ) = µ + α ( x ) siendo α (x) la

componente aleatoria de media nula.
En este caso, el estimador:
( )
será centrado, o insesgado, si E Ẑ ( x ) = µ . Como
cualquiera que sea el valor de µ, este estimador es centrado.
䊏 Para las funciones intrínsecas no es constante E ( Z ( x )) = µ ( x ) en la región

de experimentación G, pero se verifican las dos condiciones siguientes:
1.o) E ( Z ( x + h ) − Z (x)) = µ ( h ) , ∀x ∈ G.
( 2
)
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z (x)) = 2γ (h), ∀x ∈ G.
Por tanto, las diferencias E ( Z ( x + h ) ) − E ( Z ( x )) tienen media y varianza

que sólo depende de la distancia y no de la localización ∀x ∈G.
Para una función aleatoria Z(X) intrínseca se puede escribir:
siendo α (x) una componente aleatoria de media nula.

El estimador lineal de Z(x) en un punto x para las funciones intrínsecas se de-
fine por:
n
con la condición de que la suma de los pesos ∑ λ i = 1, condición de universalidad.
i=1
De este modo no se necesita conocer el valor de µ ( x ) = E ( Z ( x ) ) para la estima-

ción de Z(x).
Para las funciones intrínsecas considera Matheron que, en el caso de que los va-
lores de h = |h| sean pequeños, al menos se podría pensar que las variaciones locales
de la media E ( Z ( x + h )) − E ( Z ( x )) serán pequeñas, de modo que para valores pe-
queños de h se tendría E ( Z ( x + h ) − Z (x)) = 0, ∀x ∈G.
Si µ ( h ) ≠ 0 considera la función aleatoria W ( x ) = Z ( x ) − µ ( x ) y en este
caso, cualquiera que sea x ∈G.
Por ello, Matheron formula las ecuaciones del krigeado ordinario, conside-
rando funciones aleatorias Z(x) que verifican las dos condiciones:
1.o) E ( Z ( x + h ) − Z (x)) = 0, ∀x ∈ G.
( 2
)
2.o) Var ( Z ( x + h ) − Z (x)) = E ( Z ( x + h ) − Z ( x) ) = 2γ (h), ∀x ∈G.
es decir, transforma el problema en la estimación para funciones aleatorias Z(X)

que son estacionarias de segundo orden.
Toda función estacionaria de segundo orden es intrínseca, pero el recíproco no
es cierto.
El krigeado ordinario, a diferencia del krigeado simple, proporciona un esti-
mador lineal, independiente de E ( Z ( x ) ) , que es combinación lineal de los valores
n
Z ( xi ) , ∀i = 1, 2,..., n, siendo ∑ λ i = 1, por ser la media desconocida o por variar
i=1
de un punto a otro de la región.
Si la función Z(x) es estacionaria con media desconocida, la condición de uni-
n n
versalidad ∑ λ i = 1 asegura que el estimador Ẑ ( x ) = ∑ λ i Z ( x i ) sea centrado.
i=1 i=1
Matheron define el estimador en el krigeado ordinario para funciones Z(x) es-
tacionarias con media desconocida y para funciones intrínsecas del siguiente
modo:
n
con la condición de universalidad ∑ λ i = 1 y determina los valores de λi , ∀i = 1, 2,..., n,
i =1
para los que la varianza del error de estimación sea mínima.
Para que la varianza del error de estimación sea mínima:
n n
Teniendo en cuenta que Ẑ ( x ) = ∑ λ i Z ( xi ) y que debe ser ∑ λ i = 1, se puede
i =1 i=1
expresar la varianza del error en función de la covarianza:
Pero, como se explicó en el Epígrafe 14.8, para las funciones aleatorias esta-
cionarias de segundo orden, la covarianza está relacionada con el semivariograma:
o bien,
En consecuencia,
Se puede así escribir la varianza del error de estimación en función del semi-
variograma del siguiente modo:
Con esto se reduce el problema del krigeado ordinario al problema siguiente:

Determinar los valores λ1, λ2,...,λn que minimizan la función objetivo
n
Sujeta a la restricción ∑ λ i = 1.
i =1
Este problema se puede resolver utilizando los multiplicadores de Lagrange.
1.o) Se forma el Lagrangiano en el que en lugar de ν, como multiplicador de
Lagrange, aparece 2ν para simplificar el cálculo posterior. Así, se escribe:
Es decir, el Lagrangiano es:
2.o) Se minimiza el Lagrangiano. Las condiciones necesarias para que la

función L ( λ1 , λ2 ,..., λn , ν ) sea mínima es que sus derivadas parciales respecto de
λ1 , λ2 ,..., λn y de ν sean cero:
Por tanto:
Simplificando:
Este sistema se conoce como las ecuaciones del krigeado ordinario que en
forma matricial queda así:
Obsérvese que la matriz de los coeficientes del sistema tiene como elementos
en sus n primeras filas y sus n primeras columnas los valores de la función semi-
( )
variograma γ xi − x j ∀i, j ∈{1, 2,..., n} y que en la diagonal principal de esta
( )
submatriz aparecen ceros porque γ xi − x i = γ ( 0 ) = γ ( 0 ) = 0.
Resolviendo este sistema de n + 1 ecuaciones lineales, se obtienen los va-

lores de λ1 , λ2 ,..., λn , que determinan para el punto x el valor del estimador
n
Ẑ ( x ) = ∑ λ i Z ( xi ) a partir de los valores observados.
i =1
También se obtiene el valor de ν que proporciona, junto con los valores de las
ponderaciones λ1 , λ2 ,..., λn , la varianza del error de estimación, pues se sabe que:
y por las ecuaciones del krigeado se tiene:
Por tanto, la varianza del error es:
Para comprender mejor el krigeado ordinario, se aplica a continuación en dos

variables regionalizadas, la primera con soporte geométrico lineal y la segunda
con soporte geométrico plano.
EJEMPLO 14.17.
De la variable regionalizada Z(x), que define una función aleatoria unidimen-
3 + h para h > 0
sional, con semivariograma teórico γ (h) =  , se dan dos valores en
0 si h = 0
los puntos x1 = 0, x 2 = 4, que son Z ( x1 ) = 10, 30 y Z ( x 2 ) = 9, 70 y se quiere esti-
mar el valor de la variable en el punto x = 3, comprendido entre los anteriores.
2
El estimador es Ẑ ( x ) = ∑ λ i Z ( x i ) = λ1 Z ( x1 ) + λ2 Z ( x 2 ) siendo λ1 y λ2 la solu-
i =1
ción del sistema matricial:
Se calculan los valores del semivariograma necesarios:
Por tanto, el sistema a resolver es:
2
Así, el estimador es Zˆ ( 3) = ∑ λ i Z ( xi ) = 0, 3571 ⋅ Z ( x1 ) + 0, 6429 ⋅ Z ( x 2 ) .
i =1
Y, teniendo en cuenta los valores observados en los puntos muestreados, la es-
timación del valor de la variable en el punto x = 3 es:
Y la varianza del error es:

EJEMPLO 14.18.
La variable regionalizada Z(x) representa la cota sobre el nivel del mar. Se conoce la
cota en metros para tres localizaciones dadas por las coordenadas, también medidas en
metros, desde un punto de referencia. Los datos se presentan en la siguiente tabla:
Z(x) = Z((x, y))
x en metros y en metros
Cota en metros
20 10 525
30 20 640
35 15 510
50 + 20 h para h > 0

Si el variograma teórico para Z(x) es γ (h) =  estimar
 0 si h = 0
la cota en el punto determinado por el vector de posición x = (25, 15).
3
El estimador es Zˆ ( x ) = ∑ λ i Z ( xi ) .
i =1
Para calcular las ponderaciones λi, para i = 1,2,3 hay que resolver las ecua-
ciones del krigeado:
Se necesitan para las matrices del sistema los valores del semivariograma y,
para determinarlos, hay que calcular en primer lugar los módulos de los vectores
correspondientes:
Análogamente, se calculan:
Los valores de la función semivariograma para esas distancias son:
Las ecuaciones del krigeado son, por tanto:
La solución es:
Por tanto, la estimación de la cota en la localización x = (25, 15) es:
Y la varianza del error para esta estimación es:
De donde
Se puede comprobar también en este ejemplo de krigeado ordinario que el kri-

geado puntual es un método de interpolación exacto.
Si se quisiera determinar la cota en el punto x2 = (30, 20) observado, la estima-
3
)
ción que proporciona el método del krigeado es: z ∗ ( x 2 = ( 30, 20 ) = ∑ λ i Z ( xi ) ,
i =1
siendo las ponderaciones λi para i = 1,2,3 las soluciones del sistema:
Es decir,
Del que se obtiene:
De ahí que:
Y la varianza del error para esta estimación es:
lo que indica que no hay error de estimación en este punto.

El krigeado puntual es un interpolador exacto, porque si se utiliza para es-
timar uno de los valores observados proporciona siempre el mismo valor re-
gistrado.
Las ecuaciones del krigeado ordinario para variables regionalizadas Z(x) que
tienen como soporte una región del espacio tridimensional son las mismas que las
utilizadas en las dimensiones 1 y 2. Para el cálculo de la distancia entre las loca-
lizaciones, que es la distancia euclídea, se usa la fórmula:
Se requiere un número mayor de operaciones y éste crecerá cuanto más se

complique la fórmula del semivariograma teórico.
14.17. REGULARIZACIÓN. VARIABLES REGULARIZADAS
Hay variables regionalizadas que no se pueden definir en un punto o que el

valor puntual puede ser poco representativo del fenómeno. Por ejemplo, la con-
centración de sal, la cantidad de lluvia recogida, el nivel de cierto contaminante
disuelto en el agua, el porcentaje de porosidad de rocas, la concentración de Cu,
Pb, Hg en el sustrato vegetal, la temperatura del agua del mar en una zona, etc. En
estos casos se toma el valor medio de la variable regionalizada en una zona: un
segmento, un área o un volumen según se trate de variables con soporte lineal (la
resistencia del firme de una autopista en un tramo recto), plano (la precipitación
en una cuenca), o tridimensional (la ley de un mineral en un yacimiento), res-
pectivamente. El proceso de cálculo del valor medio de la variable regionalizada
en una región R se conoce como regularización.
Variable regularizada
Dada una variable regionalizada Z(x), la variable regularizada Z R(x) es la va-
riable cuyos valores son los valores medios de Z(x) en la región R y se define por
La variable regularizada de Z(x) en una región R es otra variable regionali-

zada y como tal se pueden estudiar sus propiedades y dar para ella las definiciones
y propiedades de este tipo de variables.
Si la variable Z(x) es intrínseca, su regularizada Z R(x) también es intrínseca,
y es importante observar que la variable regularizada Z R(x) tiene menor variabi-
lidad que Z(x).
Para trabajar con variables regularizadas se necesita definir su semivario-
grama, y para ello hay que tener en cuenta que las medidas pueden ser puntuales,
medias en una región o de las dos clases. Esto es lo que se tratará a continuación.
Semivariograma regularizado
Dada una variable regionalizada Z(x) estacionaria de segundo orden y con se-
mivariograma:
se trata ahora de definir el semivariograma correspondiente a la variable regula-

rizada, y para ello hay que definir el valor medio del semivariograma entre un
punto y un bloque, el semivariograma medio dentro de un bloque y también el
semivariograma entre dos bloques, entendiendo por bloque una región inter-
media entre un punto y la región G, dominio de variación de la función aleatoria
Z ( X ) = { Z ( x )}x∈G .
䊏 El valor medio del semivariograma entre un punto xi y un bloque B se de-

fine por la integral
siendo γ (xi, y) el semivariograma entre el punto xi y un punto x genérico del blo-

que B, e indicando por |B| la medida del bloque B, es decir, la longitud del seg-
mento, el área del bloque o el volumen según se trabaje con variables regionali-
zadas con soporte lineal, plano o tridimensional.
El valor medio del semivariograma entre un punto y xi un bloque B se denomina
el semivariograma regularizado de la variable Z(x) entre el punto xi y el bloque B.
䊏 Se define el valor medio del semivariograma dentro del bloque B me-

diante la integral
donde γ (x, y) es el semivariograma entre dos puntos x e y genéricos del bloque B.

Esta integral representa el valor medio del semivariograma γ (x, y), siendo x e
y dos puntos que se desplazan independientemente en el bloque B.
䊏 Análogamente, se define el semivariograma regularizado de Z(x) entre dos

bloques B1 y B2 por la integral
Representa el valor medio del semivariograma γ (x, y) siendo x un punto que

recorre el bloque B1 e y un punto genérico del bloque B2.
Si el bloque B se reduce a un punto x, entonces γ ( x i , B) = γ ( x i , x ) y
γ ( B, B) = γ ( x, x ) = 0.
En la práctica, para estimar γ ( xi , B) , se calcula
siendo x j , j = 1, 2,..., n puntos del bloque B y ηj los correspondientes pesos aso-

n
ciados con la condición de que ∑ η j = 1.
j =1
La elección de los puntos se suele hacer formando una red regular dentro del
1
bloque y en este caso los pesos son iguales, η j = , siendo n el número de puntos
utilizados. n
Del mismo modo, γ ( B1 , B2 ) se estima por
siendo:
x1i , i = 1, 2,..., n1 puntos del bloque B1

n1
ηi1 los correspondientes pesos asociados con la condición de que ∑ ηi1 = 1
i =1
x 2j , j = 1, 2,..., n2 son puntos del bloque B2
η 2j , j = 1 los pesos asociados a los puntos del bloque B2 con la condición de que
n2
∑ η 2j = 1.
j =1
La variable regularizada Z R(x) presenta menor variabilidad que la variable

Z(x) por lo que el semivariograma regularizado es mucho más suave que el se-
mivariograma experimental de la variable Z(x).
A continuación, se presentan las ecuaciones del krigeado por bloques que sir-
ven para estimar:
䊏 El valor medio de Z(x) en una región o bloque.

䊏 La estimación del valor de una variable regionalizada con datos puntuales
y valores medios en uno o más bloques.
䊏 La estimación del valor medio de una variable regionalizada con datos de
valores medios en bloques.
14.18. ECUACIONES DEL KRIGEADO POR BLOQUES
Para aquellas variables regionalizadas para las que un valor puntual puede ser
poco representativo del fenómeno, se utilizan valores medios de la variable re-
gionalizada en una zona o bloque que puede ser un segmento, un área plana o un
volumen, según se trabaje en dimensión 1, 2 ó 3.
Para estimar el valor de la variable en un bloque a partir de observaciones
puntuales, hay que trabajar con variables y semivariogramas regularizados.
El método de krigeado para variables regularizadas se conoce como krigeado
por bloques.
I. En primer lugar se plantea el problema siguiente: Dada una función alea-

toria Z(X) estacionaria con esperanza desconocida µ = E ( Z ( x )) , ∀x ∈G de la que
se conocen n valores Z ( xi ) , i = 1, 2,..., n, estimar el valor medio de Z(x) en un
1
bloque B, Z β ( B) = ∫ Z ( x )dx.
BB
n
Matheron utiliza el estimador Ẑβ ( B) = ∑ λ i Z ( xi ) con la condición de uni-
i =1
n
versalidad ∑ λ i = 1 y determina los valores de λi , ∀i = 1, 2,..., n para los que la
i=1
( )
varianza del error de estimación, σ e2 = Var Zˆ β ( B) − Z β ( B) sea mínima.
La varianza del error de estimación:
en función del semivariograma es:
n
Para minimizar σ 2e, sujeta a la restricción ∑ λ i = 1, se utiliza el Lagrangiano:
i =1
Para que el Lagrangiano sea mínimo han de ser:

Derivando y simplificando se obtiene:
Éstas son las ecuaciones del krigeado por bloques que permiten estimar la
media de n observaciones puntuales de la variable regionalizada.
En forma matricial son las siguientes:
La matriz de los coeficientes del sistema tiene como elementos en sus n pri-
meras filas y sus n primeras columnas los valores de la función semivariograma
( )
γ xi , x j ∀i, j ∈{1, 2,..., n} para la variable Z(x) y en la matriz del segundo
miembro aparecen los valores del semivariograma regularizado de la variable Z(x)
entre el punto y el bloque B.
Resolviendo este sistema de n + 1 ecuaciones lineales, se obtienen los valores
de λ1 , λ2 ,..., λ n que determinan para el punto x el valor del estimador
n
Ẑβ ( B) = ∑ λ i Z ( xi ) a partir de los valores observados.
i =1
que se puede simplificar, utilizando las ecuaciones del krigeado, obteniendo:
II. En general, para estimar Z β ( B) = 1 ∫ Z ( x )dx, valor medio de Z(x) en un

BB
bloque B, a partir de n valores medios en otros tantos bloques, Bi , i = 1, 2,..., n, se
n
utiliza el estimador Ẑβ ( B) = ∑ λ i Z ( Bi ) con la condición de universalidad
i =1
n
∑ λ i = 1. En este caso, las ecuaciones del krigeado por bloques tendrían la forma:
i=1
En forma matricial son las siguientes:
La solución del sistema proporciona los valores de λ1 , λ2 ,..., λn que determi-

nan para el bloque B el valor del estimador
La varianza del error de estimación quedaría:
Observación:
Las ecuaciones del krigeado por bloques si se limitan a bloques puntuales, esto es,
si cada bloque es un solo punto conducen a las ecuaciones del krigeado ordinario, te-
niendo en cuenta que si el bloque Bi se reduce al punto xi y el bloque B es el punto x,
( ) ( )
entonces γ Bi , B j = γ xi , x j , γ ( Bi , Bi ) = γ ( x i , xi ) = 0, γ ( xi , B) = γ ( x i , x ) y
γ ( B, B) = γ ( x, x ) = 0.
La varianza del error de estimación quedaría reducida a:
que coincide con la expresión obtenida en el Epígrafe 14.16.

EJEMPLO 14.19.
En una primera aproximación de batimetría en un lago se mide la profundidad
en la dirección lineal N-S. En la siguiente tabla se recogen los resultados obtenidos
a tres distancias y la profundidad media entre los puntos de esa dirección situados
entre 50 y 100 metros de la orilla Norte:
Distancia en m a la orilla N x 0 10 20 [50, 100]

Profundidad en m 0 3 5 16
Estimar el calado medio en el intervalo de 0 a 100 metros de la orilla Norte,

−h
 
aceptando como semivariograma teórico γ ( h ) = 5  1 − e 70  , si h > 0.
 
Si se designa por B el intervalo [0, 100] se pide calcular el valor del estimador
Siendo B1 = x1 = 10, B2 = x 2 = 20, B3 = [ 50,100 ] .

Para determinar las ponderaciones λi, para i = 1,2,3 hay que resolver las
ecuaciones del krigeado:
En primer lugar hay que calcular los valores del semivariograma regularizado:
Por tanto, las ecuaciones del krigeado son:
La solución de este sistema es:
La estimación del calado medio en el intervalo de 0 a 100 m de la orilla Norte es:
Para calcular la varianza del error para esta estimación:
se necesita el valor de γ ( B, B) .
Sustituyendo, se tiene:
14.19. INTERVALOS DE CONFIANZA PARA

LAS ESTIMACIONES
En el caso en que se supiera, o se pudiera aceptar, que la distribución de Z(x)

es normal en la localización xk, se podría dar un intervalo de confianza al nivel α,
o con coeficiente de confianza (1-α ), para el valor de Z(xk):
siendo σ e = σ e2 y z ∗ ( x k ) el valor del estimador Zˆ ( x ) en la localización x k , es

decir, una estimación del verdadero valor de Z(xk).
Por ejemplo, con coeficiente de confianza 0,95, el intervalo de confianza
para la estimación puntual de Z(xk) es:
Análogamente, un intervalo con coeficiente de confianza (1-α ), para el valor

de Z β (Bk) será:
EJEMPLO 14.20.
Con los datos del Ejemplo 14.19. y aceptando que el calado medio en el intervalo de
0 a 100 metros de la orilla Norte sigue una distribución normal, dar un intervalo con con-
fianza del 95% para el calado medio en dicho intervalo.
14.20. REPRESENTACIONES GRÁFICAS CON EL PROGRAMA

SURFER PARA ORDENADOR PERSONAL
En los ejemplos de estimación de variables regionalizadas presentados hasta

ahora se han utilizado pocas observaciones para facilitar la comprensión, pero en
la práctica habría que hacer muchos más cálculos para los que una calculadora e
incluso el programa DERIVE, con el que se han realizado las operaciones de los
ejercicios anteriores, resultarían insuficientes.
Técnicas geoestadísticas como el krigeado requieren el uso del ordenador
no sólo por el gran volumen de datos que se maneja sino también por las
operaciones necesarias para realizar los cálculos. Además, los ordenadores
permiten una visualización espacial mediante el trazado de curvas y super-
ficies.
Afortunadamente existen en la actualidad programas que se pueden instalar en
ordenadores personales, y que facilitan el gran número de cálculos que exige un
estudio geoestadístico.
Uno de los programas, que además de realizar los ajustes y los cálculos,
también permite hacer representaciones gráficas es SURFER, con el que se
pueden trazar mapas de curvas de nivel, o isolíneas, con las estimaciones cal-
culadas.
20
605 605 580

18
555
580
16 580
530
14 555
555
12
10
20 22 24 26 28 30 32 34
Mapa de curvas de nivel
También representar superficies con esas estimaciones en los puntos de

una red.
La superficie correspondiente al mapa anterior es:
600
550 34
32
20 30
18 28
16 26
14 24
12 22
10 20
Representación de las cotas en una malla de puntos
Los gráficos ayudan a entender mejor la variación de la variable regionaliza-

da en la zona estudiada.
En el Ejemplo 14.11. se ha realizado el análisis exploratorio de los datos
para la variable concentración de tetracloroetileno, utilizando STATGRAPHICS y
los resultados obtenidos son:
Media = 2.208,18; n = 51; Mediana = 183; Varianza = 2,8869 · 107;
Desviación típica = 5.372,99; Primer cuartil = 38; Tercer cuartil = 1.885;
Coeficiente de asimetría = 4,4830; Coeficiente de curtosis = 24,3991;
Coef. de variación = 2,4332.
Se observa una gran dispersión de los datos. El coeficiente de curtosis es muy
alto y es muy asimétrica. La media es mucho mayor que la mediana, es mayor in-
cluso que el tercer cuartil. El diagrama de caja y bigotes correspondiente es:
0 1 2 3 4
(x10.000)
Tetracloroetileno en ppb
Diagrama correspondiente a los valores de z(x), concentración en ppb

Se observan valores atípicos, datos muy alejados de la media por la derecha,

y una fuerte asimetría que son indicios de que los datos no se ajustan bien a una
distribución normal.
Se transformaron los datos tomando logaritmos neperianos y para los nuevos
datos el diagrama de caja y bigotes, que se presenta a continuación, refleja mayor
simetría que el anterior, corrigiendo todos los valores atípicos.
0 2 4 6 8 10 12
In TCE
Diagrama correspondiente a los valores de ln z (x)
Se puede aceptar que estos datos transformados se ajustan a una distribución

normal, como se probó en el Epígrafe 14.7. Son los que se utilizan para la estimación
y para hacer representaciones gráficas que se incluyen en el siguiente epígrafe.
14.21. ¿CÓMO HACER REPRESENTACIONES GRÁFICAS

CON SURFER?
Si se introducen los datos en el programa SURFER en una hoja de trabajo,

Worksheet, y se graban, el programa permite determinar valores estimados de la
variable en puntos de una red trazada sobre el mapa, entre los límites inferior y su-
perior de las coordenadas de los puntos observados.
Si además se abre una hoja gráfica, Plot Document, se pueden construir mapas
de curvas de nivel y representaciones en tres dimensiones, como se explicará a
continuación.
Al entrar en el programa SURFER aparece por defecto una hoja de dibujo.
Por ello, para introducir los datos en primer lugar hay que abrir una hoja de datos
con la opción:
File → New → Worksheet
en la que se incorporan los datos como en cualquier hoja de cálculo.
Una vez introducidos los datos, se guardan en un archivo con el nombre que
permita reconocerlos. Se pueden guardar en formato Excel e importarlos desde
ese programa, si se desea.
El siguiente paso consiste en crear una red sobre el mapa de la zona. La matriz
de datos no es visible, pero la utiliza el programa para estimar los valores de la va-
riable a partir de los datos proporcionados. Para ello se abre una hoja de dibujo
con la opción:
Window → Plot1
A continuación se elige en el menú de dibujo la opción:
Grid → Data
y se busca el archivo guardado que contiene los datos.
En el cuadro de diálogo que aparece se pueden cambiar los extremos mínimo
y máximo de los ejes. Una vez elegidos los valores de los extremos pulsando en el
cuadro OK, el programa crea el archivo con los datos de la red y las estimaciones
que utilizará para dibujar todas las gráficas.
Así, con la opción:
Map → Contour Map → New Contour Map
para datos del nivel piezométrico de un acuífero se ha obtenido como resultado la
siguiente gráfica:
35
30 620
25
20
620
15
10
520
5
0
0 5 10 15 20 25 30 35 40 45 50
En este mapa de curvas de nivel se observa que el nivel piezométrico no es re-

gular, esto tiene relación con los estratos en los que se encuentra confinado.
Un complemento a este mapa es la gráfica en tres dimensiones que también se
puede dibujar con el programa SURFER con la opción:
Map → Wireframe
Para los datos correspondientes al mapa de curvas de nivel anterior, el pro-

grama ofrece la siguiente gráfica de superficie, a partir de las estimaciones que
calcula el programa en los puntos de la red trazada sobre el mapa.
700
600
50
500 45
40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
Mediante la opción
Map → Surface → Open Gris
y abriendo el archivo que ha construido el programa a partir de los datos introduci-
dos y de las estimaciones de la variable objeto de estudio, para todos los puntos de
la red dibujada en el plano de la región, se obtiene una superficie suave y en escala
de color, de la que se incluye a continuación una copia en escala de grises.
700
600 50
500 45
35 40
30 35
30
25
25
20
20
15
15
10 10
5 5
0 0
Todos estos dibujos se han realizado con la versión 8, inglesa, de SURFER.

EJEMPLO 14.21.
Utilizando los datos de los Ejemplos 14.11. y 14.12. para los logaritmos nepe-
rianos de la concentración en ppb de tetracloroetileno en el agua de un acuífero, con
el programa SURFER, se obtiene el siguiente resumen estadístico:
xi yi ln (z(xi, yi))
Number of values 51 51 51
Sum 675 93.5 283.74
Minimum 0 0 2,4
Maximum 30 5 10.43
Range 30 5 8,03
Mean 13.2 1,83 5,5635
First quartile 5 1 3,665
Third quartile 20 3 7,4425
Variance 86.8 1,55 4,8537
Standard deviation 9,32 1,24 2,2031
Coef variation 0,70402 0,67835 0,39599
Skew 0,116 0,244 0,408
Kurtosis –1,161 -0.686 –0,884
También proporciona el resultado de la aplicación del contraste de normalidad

de Kolmogorov-Smirnov para los valores de los logaritmos neperianos de la
concentración de TCE:
Kolmogorov-Smirnov stat 0,088

Critical K-S stat, alpha = 0,10 0,168
Como el valor del estadístico de contraste 0,088 es menor que el valor crítico
para α = 0,10, es decir, no pertenece a la región crítica RCα=0,10 = [0,168,+⬁], se
acepta la normalidad de los datos.
El mapa de curvas de nivel para los logaritmos neperianos de la concentración
de TCE en el agua del acuífero es:
10
9 4
5
9
4
0
4
–5
–5 0 5 10 15 20 25 30 35
Este mapa da una idea de la concentración de tetracloroetileno, TCE, en la

zona estudiada y permite localizar dónde son más altas las concentraciones de esta
sustancia tóxica.
La siguiente gráfica tridimensional, para los puntos de la red que calcula el pro-
grama SURFER con los mismos datos, es una superficie virtual en la que las cotas más
altas indican zonas con mayor concentración de disolvente y por tanto mayor riesgo.
35
10 30
25
20
0
15
10 10
5 5
0 0
–5 –5
Y la superficie suavizada correspondiente que proporciona también el pro-

grama SURFER es:
35
10 30
25
0 20
10 15
10
5
5
0
0
–5 –5
Antes de terminar, nos gustaría observar que el avance producido en el cam-

po de la informática nos hace capaces de realizar operaciones a gran velocidad, lo
que permite una gran economía de esfuerzo y hace más asequibles técnicas inte-
resantes que hasta hace poco parecían impensables, a las que tienen acceso cada
vez un mayor número de usuarios. Una buena muestra son los métodos geoesta-
dísticos.
Pero no debemos olvidar que las máquinas son obra del hombre y es él quien
permite con su curiosidad, imaginación, intuición e inteligencia el avance en
cualquier rama de la ciencia, en este caso de la estadística, y con este avance se
construye una buena herramienta para todos los campos del saber.
Estamos en el camino de conseguir grandes logros en todas las disciplinas y
cada vez de un modo más rápido. Las máquinas también tendrán que progresar
porque el hombre, curioso por naturaleza, siempre quiere saber más.
14.22.1. En una población suficientemente extensa y con la misma proporción de

hembras de los genotipos AA, Aa y aa, respecto de un carácter diploide con domi-
nancia completa, se cruzan éstas con machos recesivos.
a) Determinar la matriz de transición de una generación a la siguiente.
b) Calcular el vector de probabilidades estacionario para la cadena.
c) ¿Qué se puede decir del vector de probabilidades a la larga?
14.22.2. Tres enfermeras E1, E2 y E3 comparten el mismo turno de trabajo en el mismo

servicio de un hospital. Se ha observado que si E1 atiende en una hora también lo hace en
la siguiente con probabilidad del 40%, acude E2 con probabilidad del 30% y el resto de las
veces acude E3. Si a una hora atiende E2, en la siguiente va E1 con probabilidad del
60%, E2 con probabilidad del 10% y el resto E3. Si atiende E3 la siguiente hora no acude y
con probabilidad 80% acude E2. Se decide quién empieza eligiendo al azar un papel de
una bolsa que contiene tres papeles uno con E1, otro con E2 y el tercero con E3.
a) Escribir la matriz de transición cada hora.
b) Dar una distribución estacionaria.
c) ¿La distribución lim P ( n ) depende de P(0)?
n→ `
14.22.3. En una ciudad sólo hay dos grandes aparcamientos, A1 en las proximidades del
centro comercial y A2 en las afueras. La zona comercial está abierta las veinticuatro ho-
ras del día. Los coches no se pueden dejar en la calle. Cada día a las 8.00 h los coches
de A2 salen hacia el centro comercial y los de A1 hacia las afueras, y a las 20.00 h los que
están en A1 van a A2 y recíprocamente. Sólo se producen movimientos cada doce horas.
a) Dar la matriz de transición de la Cadena de Markov que describe la situación.
b) ¿Esta matriz tiene vector fijo?, ¿qué significa?
c) ¿Tiene distribución estable la cadena? Razónese.
14.22.4. Para estudiar las migraciones de la actividad en una Comunidad Autónoma,

se plantea un modelo de Cadena de Markov con cuatro estados. F, funcionarios, E,
empresarios, T, trabajadores por cuenta ajena y P, parados. La probabilidad de tran-
sición observada entre estos estados cada comienzo de año es la siguiente: ningún
funcionario deja de serlo, de los empresarios pasan a funcionarios el 10%, siguen con
su empresa el 70% y el resto pasa a trabajar por cuenta ajena. De los trabajadores por
cuenta ajena, el 1% obtiene plaza de funcionario, el 30% crea una empresa y el 50%
sigue trabajando por cuenta ajena. De los que están parados el 1% logra plaza de fun-
cionario, el 14% crea una empresa y el 25% pasa a trabajar por cuenta ajena. Los
cambios se producen de este modo todos los años a comienzo del año.
a) Dar la matriz que describe los cambios de actividad cada año.
b) ¿Cuál es el vector fijo para esta cadena?
c) ¿Cuál será la situación a la larga?
14.22.5. Si en la Comunidad Autónoma se ha alcanzado el nivel de saturación

de funcionarios se considera un modelo de Cadena de Markov con tres estados
E, empresarios, T, trabajadores por cuanta ajena, y P, parados. Si las migracio-
nes de actividad, cada comienzo de año, son las que se reflejan en la siguiente
tabla:
E T P
E 0,8 0,2 0,1

T 0,2 0,6 0,3
P 0 0,2 0,6
a) Dar el vector fijo.

b) ¿Hay vector de probabilidad estable? ¿La situación a la larga depende de la
situación inicial?
14.22.6. El número de fallos en la conexión a Internet en una gran ciudad es varia-

ble, pero la media es de dos fallos por mes. Cuál es la probabilidad de que haya:
a) Un fallo en un mes.
b) Menos de dos fallos en el mes.
c) Al menos dos fallos en el mes.
14.22.7. En competiciones nacionales de hípica el número de caídas es una variable

aleatoria. Si la media de caídas es de 5 por temporada, calcular la probabilidad de que
el número de caídas en una temporada sea:
a) siete
b) cinco
c) seis
d) al menos una y no más de tres
e) al menos dos
f) como máximo cinco
g) más de cinco.
14.22.8. Una nueva marca promociona un yogur desnatado y enriquecido con trozos
visibles de frutas tropicales. La media de trozos de fruta por yogur es de 3,5. Calcu-
lar la probabilidad de que uno de esos yogures
a) tenga sólo un trozo de fruta

b) tenga al menos un trozo
c) no tenga ningún trozo
d) calcular el número de trozos que se encontrarán con mayor probabilidad en el
90% de los yogures.
14.22.9. En una gran plantación se observa una plaga que afecta a una media de 0,2
plantas por área. Calcular la probabilidad de que en una hectárea estén afectadas:
a) diecinueve plantas
b) ninguna
c) al menos 20.
14.22.10. En una gran ciudad se ha inspeccionado el estado de conservación de los

parques y jardines y se han clasificado en cuatro tipos: B, en buen estado, P, poco de-
teriorado, D, deteriorado e I, intransitable. Se ha detectado que el 60% están en
buen estado, el 20% poco deteriorados, el 15% deteriorados y el resto impracticables.
Se ha calculado que para dejar en buen estado uno del tipo P hay que gastar 6 €/m2,
si es del tipo D, 12 €/m2 y si es del I, 30 €/m2. Una vez que se aprueba arreglar un
parque hay que dejarlo en buen estado.
Cada año se deterioran los parques y jardines por el paso del tiempo y el mal uso.
Se supone que el deterioro se mantiene homogéneo en el tiempo, es decir, no cambia
de unos años a otros.
Se ha comprobado que el 10% de los que están en buen estado al comienzo del
año pasan al grupo P al año siguiente. De los parques clasificados como P pasan al gru-
po D al cabo de un año el 15% y de los del grupo D el 40% quedan impracticables.
El Ayuntamiento está estudiando un plan de conservación para realizar cada año
la reparación y dejar en buen estado el 30% de los que están poco deteriorados, el
15% de los que están deteriorados y el 10% de los que están intransitables.
a) Calcular el coste medio en €/m2 para la conservación de parques y jardines
durante el primer año del plan.
b) Dar la matriz de transición si no se pone en marcha el plan de conservación,
y en el caso de que se aplique dicho plan. Explicar si hay una situación esta-
ble a la larga en ambos casos.
c) Si se aplica el plan, indicar el índice de conservación de los parques y jardines
antes de aplicarlo y una vez alcanzada la situación estable. Tomar como me-
dida del índice de conservación el cociente entre la proporción de los que es-
tán en buen estado o poco deteriorados y la proporción restante.
d) Calcular el coste medio por metro cuadrado a la larga, al precio del año ac-
tual, para dejar en buen estado los parques y jardines si no se aplica el plan.
e) ¿Cuál es el coste medio por metro cuadrado a la larga si se aplica el plan con
los precios del año actual?
14.22.11. Si en el enunciado anterior en lugar de realizar cada año la reparación del

10% de los parques y jardines impracticables se repararan el 20% de éstos, sin cam-
biar los porcentajes a reparar de los otros estados, se pide:
a) Calcular el vector de probabilidad estable. Explicar el significado.
b) Dar el índice de conservación a la larga con el nuevo plan.
c) ¿Cuál sería el aumento del coste de conservación por metro cuadrado en la si-
tuación estacionaria, con los precios del año actual, respecto del plan indica-
do en el problema anterior?
14.22.12. Se conocen los siguientes valores de la función aleatoria Z (X) con soporte
lineal:
xi Z(xi)
2 25
3 53
5 34
9 47
10 51
Construir la función semivariograma experimental y dibujar la gráfica corres-

pondiente.
14.22.13. Se conoce el valor en dos puntos de una variable regionalizada Z(x) que
define una función aleatoria unidimensional, con semivariograma teórico corres-
pondiente:
 0, 24 h para h ≤ 5
γ (h ) = 
 1,2 si h > 5
y se pide estimar el valor de Z(x) en un punto intermedio.
a) Estimar Z(2) sabiendo que Z (1) = 8 y Z ( 3) = 6, 2.

b) Estimar Z(7) sabiendo que Z (1) = 8 y Z ( 9 ) = 3, 5.
c) Calcular la varianza del error en ambos casos.
d) Suponiendo que la distribución de Z(x) es normal para x = 2, dar un interva-
lo con confianza del 95% para la estimación de Z(2).
14.22.14. Se ha medido la temperatura superficial en cuatro puntos de una zona en la

que la temperatura media es de 35 °C. Las coordenadas de x1 son (0, 0), las de x2 son
(0, 10), las de x3 son (10, 0), las de x4 son (10, 10), y las temperaturas correspondientes
son: Z ( x1 ) = 27o C, Z ( x 2 ) = 34o C, Z ( x3 ) = 30o C, Z ( x 4 ) = 42o C. Estimar la tem-
peratura en el punto x de coordenadas (5, 5), teniendo en cuenta que el covariograma
−2 h
viene dado por C ( h ) = e 3 , si h ≥ 0.
14.22.15. La función aleatoria intrínseca Z(X) tiene soporte lineal, está definida en el
h
intervalo [10 m, 20 m] y su semivariograma teórico es: γ ( h ) = , ∀h ≥ 0. Estimar el
2
valor de la variable para x = 17 m y dar la varianza del error de estimación.
14.22.16. Se dispone de las cotas, medidas en metros, Z ( x1 ) = 672 m, Z ( x 2 ) = 630 m,

Z ( x3 ) = 645 m en los puntos x1 de coordenadas (30, 20), x 2 (40, 30), x3 (45, 25), las
coordenadas indican distancias en metros desde un punto O (0,0) de referencia. Sabiendo
que el semivariograma teórico para Z(x) es:
  h  h  3
15 3 − si 0 ≤ h ≤ 10
γ ( h ) =   10  10  

 30 si h > 10
a) Estimar la cota en x de coordenadas cartesianas (35, 25) respecto del punto O

de referencia y dar una medida del error de estimación.
b) Comprobar que el krigeado puntual es un método de interpolación exacto es-
timando la cota en (40, 30) y calculando la varianza del error de esa estima-
ción.
14.22.17. Se conocen los siguientes valores de la función aleatoria estacionaria en los

puntos del segmento: Z ( 0 ) = 24; Z ( 5) = 45; Z (10 ) = 14 y que su semivariograma es
h
γ ( h ) = , ∀h ≥ 0.
5
a) Dar una estimación del valor de la variable en el punto 3.
b) Sabiendo que Z(x) sigue una distribución normal dar un intervalo de con-
fianza con α = 0,05 para el valor de Z(3).
14.22.18. Estimar el valor de la función aleatoria intrínseca Z(X) sin deriva en el seg-
mento [3,4] sabiendo que Z (1) = 37; Z ( 2) = 40; Z ( 3) = 43 y Z ( 4 ) = 59 y que el se-
mivariograma teórico de Z(x) es γ ( h ) = h, ∀h ≥ 0.
14.22.19. Estimar el valor de la función aleatoria intrínseca y sin deriva del ejercicio
anterior si el semivariograma teórico de Z(x) es γ ( h ) = 1, ∀h ≥ 0. ¿Hay diferencia
con el resultado del problema anterior?
14.22.20. En el cauce de un río las pepitas de oro se distribuyen de forma aleatoria.

Si la media de pepitas por dm3 es 0,01, calcular la probabilidad de que se puedan en-
contrar en un m3:
a) 50 pepitas.
b) menos de 50 pepitas.
c) exactamente 9 pepitas.
d) al menos 9.
e) exactamente 10.
f) más de 15 pepitas.
Apéndice I
Tablas
APÉNDICE I 685
Tabla I. Áreas bajo la curva normal

1 e– —z2
f(z) = ——
1
2
√2π
F(z)
0 z
z 1 − z2 / 2
La tabla da el valor de F( z ) = ∫ e dz , función de distribución de la N(0,1)
−`
2π
para los valores 0 ≤ z ≤ 3,59. Así F(1,15) = 0,8749. Por la simetría de f(z) respecto del eje de
ordenadas también se puede utilizar la tabla para calcular probabilidades de los valores
−3, 59 ≤ z < 0, así F (−2, 21) = P ( Z < −2, 21) = P ( Z > 2, 21) = 1 − 0, 9864 = 0, 01336.
z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8116 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
Tabla II, Áreas bajo la curva de densidad de la ␹n2 a la izquierda de ␹␣,n

2
χ2n
P(χ2n ≤ χ2α;n)
0 χ2α;n
La tabla proporciona el valor de χ α2 ;n que deja a la izquierda probabilidad

P ( χ ≤ χ α ;n ) = 1 − α para distintos valores de α y diferentes valores de n = g.l.
2 2
) )
Así, χα2 =0,05;n =17 = 27, 587, es decir, P ( χ172 ≤ 27, 587 = 0, 95 ⇔ P ( χ172 > 27, 587 = 0, 05.
El valor χα2 =0,99;n=1 = 157 E − 06 = 0, 000157 es el valor que verifica:
1-α
n 0,005 0,01 0,025 0,05 0,10 0,50 0,90 0,95 0,975 0,99 0,995
1 393E-07 157E-06 982E-06 393E-05 158E-04 0,455 2,706 3,841 5,024 6,635 7,879
2 0,0100 0,0201 0,0506 0,103 0,211 1,386 4,605 5,991 7,378 9,210 10,597
3 0,0717 0,115 0,216 0,352 0,584 2,366 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 3,357 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 4,351 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 5,348 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 6,346 12,017 14,067 16,013 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 7,344 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 8,343 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 9,342 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 10,341 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 11,340 18,549 21,026 23,337 26,217 28,300
13 3,565 4,107 5,009 5,892 7,042 12,340 19,812 22,362 24,736 27,688 29,619
14 4,075 4,660 5,629 6,571 7,790 13,339 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 14,339 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 15,338 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 16,338 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 17,338 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 18,338 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 19,337 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 20,337 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 21,337 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,688 13,091 14,848 22,337 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 23,337 33,196 36,415 39,364 42,980 45,558
25 10,520 11,524 13,120 14,611 16,473 24,337 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 25,336 35,563 38,885 41,923 45,642 48,290
27 11,808 12,879 14,573 16,151 18,114 26,336 36,741 40,113 43,194 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 27,336 37,916 41,337 44,461 48,278 50,993
29 13,121 14,256 16,047 17,708 19,768 28,336 39,087 42,557 45,722 49,588 52,336
30 13,787 14,953 16,791 18,493 20,599 29,336 40,256 43,773 46,979 50,892 53,672
40 20,706 22,164 24,433 26,509 29,051 39,335 51,805 55,759 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 49,335 63,167 67,505 71,420 76,154 79,490
60 35,535 37,485 40,482 43,188 46,459 59,335 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 69,334 85,527 90,531 95,023 100,425 104,215
80 51,171 53,539 57,153 60,391 64,278 79,334 96,578 101,880 106,629 112,329 116,321
90 59,196 61,754 65,646 69,126 73,291 89,334 107,565 113,145 118,136 124,116 128,299
100 67,327 70,065 74,222 77,929 82,358 99,334 118,498 124,342 129,561 135,807 140,170
APÉNDICE I 687
Tabla III. Áreas bajo la curva de densidad de la tn a la izquierda de tα;n
tn
P(t ≤ tα;n)
0 tα;n
La tabla proporciona el valor de t α ;n que deja a la izquierda probabilidad

para distintos valores de α y diferentes valores de n = g.l.
P ( t ≤ tα ; n ) = 1 − α
Así, tα =0,10;n=15 = 1, 341 es decir, P(t15 ≤ 1, 341) = 0, 90 ⇔ P(t15 > 1, 341) = 0, 10.
1-α
n 0,600 0,700 0,750 0,800 0,900 0,950 0,975 0,990 0,995 0,999 0,9995
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 1,337 1,746 2,120 2,583 2,921 3,686 4,015
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
30 0,256 0,530 0,683 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
40 0,255 0,529 0,681 0,851 1,303 1,684 2,021 2,423 2,704 3,307 3,551
50 0,255 0,528 0,679 0,849 1,298 1,676 2,009 2,403 2,678 3,262 3,495
60 0,254 0,527 0,679 0,848 1,296 1,671 2,000 2,390 2,660 3,232 3,460
80 0,254 0,527 0,678 0,846 1,292 1,664 1,990 2,374 2,639 3,195 3,415
100 0,254 0,526 0,677 0,845 1,290 1,660 1,984 2,365 2,626 3,174 3,389
200 0,254 0,525 0,676 0,843 1,286 1,653 1,972 2,345 2,601 3,131 3,339
500 0,253 0,525 0,675 0,842 1,283 1,648 1,965 2,334 2,586 3,106 3,310
n > 500 0,253 0,524 0,674 0,842 1,282 1,645 1,960 2,326 2,576 3,090 3,291
Tabla IV. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
688
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
La siguiente tabla proporciona el valor de F
n , n ; α = 0,05
 1 2
1 2 1 2
(
que deja a su izquierda probabilidad P F[ n ,n ] ≤ F[ n ,n ];α =0,05 = 1 − 0, 05 = 0, 95 )
para distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
( ) (
Así, F[15,13];α =0.05 = 2, 53, es decir, P F[13,15] ≤ 2, 53 = 0, 95 ⇔ P F[13,15] > 2, 53 = 0, 05. )
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 246,0 248,0 250,1 251,1 251,8 252,2 253,3 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,46 19,47 19,48 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,62 8,59 8,58 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,75 5,72 5,70 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,50 4,46 4,44 4,43 4,40 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,81 3,77 3,75 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,38 3,34 3,32 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,08 3,04 3,02 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,86 2,83 2,80 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,70 2,66 2,64 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,57 2,53 2,51 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,47 2,43 2,40 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,38 2,34 2,31 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,31 2,27 2,24 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,25 2,20 2,18 2,16 2,11 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,19 2,15 2,12 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,15 2,10 2,08 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,11 2,06 2,04 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,07 2,03 2,00 1,98 1,95 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,04 1,99 1,97 1,95 1,90 1,84
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,84 1,79 1,76 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,74 1,69 1,66 1,64 1,58 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,69 1,63 1,60 1,58 1,51 1,44
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,65 1,59 1,56 1,53 1,47 1,30
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,55 1,50 1,46 1,43 1,35 1,25
⬁ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,46 1,39 1,35 1,32 1,22 1,00
Tabla V. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
(
La siguiente tabla proporciona el valor de Fn1,n2 ;α = 0,01 que deja a su izquierda probabilidad P F[ n1 ,n2 ] ≤ F[ n1, n2 ];α =0,01 = 1 − 0, 01 = 0, 99 para )
distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
3 , 17 3 , 17
Así, F[ 3,17];α =0,01 = 5, 18, es decir, P ( F[ ] ≤ 5, 18 ) = 0 , 99 ⇔ P ( F[ ] > 5, 18) = 0, 01.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 4.052 4.999 5.403 5.625 5.764 5.859 5.928 5.981 6.022 6.056 6.083 6.106 6.157 6.209 6.261 6.287 6.302 6.313 6.339 6.366
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,41 99,42 99,43 99,45 99,47 99,47 99,48 99,48 99,49 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,13 27,05 26,87 26,69 26,50 26,41 26,35 26,32 26,22 26,13
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,20 14,02 13,84 13,75 13,69 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,72 9,55 9,38 9,29 9,24 9,20 9,11 9,02
APÉNDICE I
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,56 7,40 7,23 7,14 7,09 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,31 6,16 5,99 5,91 5,86 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,52 5,36 5,20 5,12 5,07 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 4,96 4,81 4,65 4,57 4,52 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,56 4,41 4,25 4,17 4,12 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,25 4,10 3,94 3,86 3,81 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,01 3,86 3,70 3,62 3,57 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,82 3,66 3,51 3,43 3,38 3,34 3,25 3,17
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,66 3,51 3,35 3,27 3,22 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,52 3,37 3,21 3,13 3,08 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,41 3,26 3,10 3,02 2,97 2,93 2,84 2,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,31 3,16 3,00 2,92 2,87 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,23 3,08 2,92 2,84 2,78 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,15 3,00 2,84 2,76 2,71 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,09 2,94 2,78 2,69 2,64 2,61 2,52 2,42
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,70 2,55 2,39 2,30 2,25 2,21 2,11 2,01
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,52 2,37 2,20 2,11 2,06 2,02 1,92 1,80
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,42 2,27 2,10 2,01 1,95 1,92 1,81 1,68
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,35 2,20 2,03 1,94 1,88 1,84 1,73 1,60
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,41 2,34 2,19 2,03 1,86 1,76 1,71 1,66 1,53 1,35
689
⬁ 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,18 2,04 1,88 1,70 1,59 1,52 1,47 1,32 1,00
Tabla VI. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
690
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
(
La siguiente tabla proporciona el valor de Fn1,n2 ;α = 0,025 que deja a su izquierda probabilidad P F[ n ,n ] ≤ F[ n ,n ];α =0, 025 = 1 − 0, 025 = 0, 975
1 2 1 2
)
para distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
4 ,1 4 ,1
Así, F[1,4 ];α = 0,025 = 12, 22, es decir, P ( F[ ] ≤ 12, 22 ) = 0, 975 ⇔ P ( F[ ] > 12, 22 ) = 0, 025.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6 972,6 976,7 984,9 993,1 1.001,0 1.006,0 1.008,0 1.010,0 1.014,0 1.018,0
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,40 39,41 39,43 39,45 39,46 39,47 39,50 39,48 39,49 39,50
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,38 14,34 14,25 14,17 14,08 14,04 14,00 13,99 13,95 13,90
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,79 8,75 8,66 8,56 8,46 8,41 8,38 8,36 8,31 8,26
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,57 6,52 6,43 6,33 6,23 6,18 6,14 6,12 6,07 6,02
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,41 5,37 5,27 5,17 5,07 5,01 4,98 4,96 4,90 4,85
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,71 4,67 4,57 4,47 4,36 4,31 4,28 4,25 4,20 4,14
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,24 4,20 4,10 4,00 3,89 3,84 3,81 3,78 3,73 3,67
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,91 3,87 3,77 3,67 3,56 3,51 3,47 3,45 3,39 3,33
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,66 3,62 3,52 3,42 3,31 3,26 3,22 3,20 3,14 3,08
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,47 3,43 3,33 3,23 3,12 3,06 3,03 3,00 3,94 2,88
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,32 3,28 3,18 3,07 2,96 2,91 2,87 2,85 2,79 2,72
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,20 3,15 3,05 2,95 2,84 2,78 2,75 2,72 2,66 2,60
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,10 3,05 2,95 2,84 2,73 2,67 2,64 2,61 2,55 2,49
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 3,01 2,96 2,86 2,76 2,64 2,59 2,56 2,52 2,46 2,40
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,94 2,89 2,79 2,68 2,57 2,51 2,48 2,45 2,38 2,32
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,87 2,82 2,72 2,62 2,50 2,44 2,41 2,38 2,32 2,25
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,82 2,77 2,67 2,56 2,44 2,38 2,35 2,32 2,26 2,19
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,77 2,72 2,62 2,51 2,39 2,33 2,30 2,27 2,20 2,13
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,72 2,68 2,57 2,46 2,35 2,29 2,25 2,22 2,16 2,09
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,46 2,41 2,31 2,20 2,07 2,01 1,97 1,94 1,87 1,79
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,34 2,29 2,18 2,07 1,94 1,88 1,83 1,80 1,72 1,64
50 5,36 3,99 3,40 3,07 2,85 2,69 2,57 2,47 2,39 2,33 2,28 2,23 2,12 2,01 1,88 1,81 1,77 1,74 1,65 1,56
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,22 2,17 2,06 1,94 1,82 1,74 1,70 1,67 1,58 1,48
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,11 2,05 1,94 1,82 1,69 1,61 1,57 1,53 1,43 1,31
⬁ 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 2,00 1,94 1,83 1,71 1,57 1,48 1,44 1,39 1,27 1,00
Tabla VII. Áreas bajo la curva de densidad de la F[n1, n2] a la izquierda de F[n1, n2];α
F[n1,n2]
P(F[n1,n2] ≤ F[n1,n2];α)
0
La siguiente tabla proporciona el valor de F[ n1,n2 ];α =0,005 que deja a su izquierda probabilidad P ( F[ n ,n ] ≤ F[ n , n ];α =0 ,005 ) = 1 − 0, 005 = 0, 995 para
1 2 1 2
distintos valores de n1, grados de libertad del numerador, y diferentes valores de n2, grados de libertad del denominador.
Así, F[ 2,15];α = 0, 005 = 7, 70, es decir, P ( F[ 2,15] ≤ 7, 70 ) = 0, 995 ⇔ P ( F[ 2,15] > 7, 70 ) = 0, 005.
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 120 ⬁
1 16.211 20.000 21.615 22.500 23.056 23.437 23.715 23.925 24.091 24.224 24.325 24.426 24.630 24.836 25.044 25.148 25.201 25.253 25.359 25.465
2 198,5 199,0 199,2 199,2 199,3 199,3 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,5 199,5 199,5 199,5 199,5 199,5
3 55,55 49,80 47,47 46,19 45,39 44,84 44,43 44,13 43,88 43,69 43,54 43,39 43,08 42,78 42,47 42,31 42,23 42,15 41,99 41,83
4 31,33 26,28 24,26 23,15 22,46 21,97 21,62 21,35 21,14 20,97 20,84 20,70 20,44 20,17 19,89 19,75 19,68 19,61 19,47 19,32
5 22,78 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77 13,62 13,50 13,38 13,15 12,90 12,66 12,53 12,47 12,40 12,27 12,14
APÉNDICE I
6 18,63 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39 10,25 10,14 10,03 9,81 9,59 9,36 9,24 9,18 9,12 9,00 8,88
7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51 8,38 8,28 8,18 7,97 7,75 7,53 7,42 7,36 7,31 7,19 7,08
8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 7,11 7,01 6,81 6,61 6,40 6,29 6,23 6,18 6,06 5,95
9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,33 6,23 6,03 5,83 5,62 5,52 5,46 5,41 5,30 5,19
10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,75 5,66 5,47 5,27 5,07 4,97 4,91 4,86 4,75 4,64
11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,32 5,24 5,05 4,86 4,65 4,55 4,49 4,44 4,34 4,23
12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,99 4,91 4,72 4,53 4,33 4,23 4,17 4,12 4,01 3,90
13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,73 4,64 4,46 4,27 4,07 3,97 3,92 3,87 3,76 3,65
14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,52 4,43 4,25 4,06 3,86 3,76 3,71 3,66 3,55 3,44
15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,33 4,25 4,07 3,88 3,69 3,58 3,52 3,48 3,37 3,26
16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 4,19 4,10 3,92 3,73 3,54 3,44 3,38 3,33 3,22 3,11
17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 4,06 3,97 3,79 3,61 3,41 3,31 3,26 3,21 3,10 2,98
18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,95 3,86 3,68 3,50 3,30 3,20 3,15 3,10 2,99 2,87
19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,85 3,76 3,59 3,40 3,21 3,11 3,05 3,00 2,89 2,78
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,76 3,68 3,50 3,32 3,12 3,02 2,96 2,92 2,81 2,69
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,25 3,18 3,01 2,82 2,63 2,52 2,46 2,42 2,30 2,18
40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 3,03 2,95 2,78 2,60 2,40 2,30 2,23 2,18 2,06 1,93
50 8,66 5,93 4,85 4,25 3,87 3,59 3,39 3,24 3,11 3,01 2,92 2,84 2,67 2,49 2,29 2,18 2,12 2,07 1,94 1,80
60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,82 2,74 2,57 2,39 2,19 2,08 2,01 1,96 1,83 1,69
120 8,18 5,54 4,50 3,92 3,55 3,28 3,09 2,93 2,81 2,71 2,62 2,54 2,37 2,19 1,98 1,87 1,80 1,75 1,61 1,43
691
⬁ 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,44 2,36 2,19 2,00 1,79 1,67 1,59 1,53 1,36 1,00
Tabla VIII. Números aleatorios
51 55 88 69 58 28 99 35 07 44 75 41 93 22 53 64 39 07 10 63 76 35 87 03 04
79 88 08 13 85 34 57 72 69 78 13 58 54 74 92 38 70 96 92 52 06 79 85 45 82
63 18 44 69 66 09 23 68 35 01 26 00 99 53 93 61 28 52 70 05 48 34 56 65 05
61 86 90 92 10 70 15 39 25 70 99 93 86 52 77 65 15 33 59 05 28 22 87 26 07
47 86 96 98 29 06 58 71 96 30 24 18 46 23 34 27 85 13 24 44 49 18 09 79 49
74 39 60 59 81 48 50 86 54 48 22 06 34 72 52 82 21 15 65 20 33 29 71 11 15
91 29 12 03 61 96 48 95 03 07 16 66 98 56 79 77 21 30 27 12 90 49 22 23 62
36 93 89 41 26 29 70 83 51 99 74 20 52 36 87 09 41 15 09 98 60 16 03 18 87
00 42 31 57 90 12 02 07 15 23 47 37 17 31 54 08 01 88 63 39 41 88 92 10 88
56 53 27 59 33 35 72 67 47 77 34 45 70 08 18 27 38 90 16 75 09 72 95 84 29
49 41 31 06 70 42 18 64 84 73 31 65 52 53 37 97 15 12 03 17 31 65 19 69 24
64 51 12 85 94 57 24 16 92 09 84 38 76 22 00 27 69 85 29 81 94 78 70 21 90
12 38 59 98 67 62 44 72 00 41 86 79 63 22 55 40 76 26 84 57 32 08 58 37 40
13 64 81 07 83 02 17 79 28 14 22 40 98 95 17 82 06 53 31 51 72 51 39 35 76
22 42 96 40 90 60 73 96 53 97 86 26 29 13 15 38 26 61 77 80 20 75 82 72 82
32 63 95 73 89 73 44 99 05 18 77 31 91 58 24 16 74 11 53 44 10 13 85 57 61
65 61 88 54 93 43 69 64 07 34 04 35 56 27 09 24 86 61 85 53 83 45 12 99 11
18 48 13 93 55 34 91 97 27 37 83 28 71 67 11 52 97 86 21 78 58 76 17 80 69
92 06 34 13 59 71 74 17 32 27 55 56 33 53 77 57 68 93 22 03 91 87 14 77 43
96 45 60 33 01 07 17 21 85 93 85 86 88 72 87 08 62 40 53 10 07 02 90 80 44
92 21 46 88 67 63 93 95 17 80 35 73 53 38 18 15 89 79 54 30 12 73 86 74 51
69 89 74 39 82 15 94 51 41 67 98 83 71 94 22 52 08 52 85 87 06 65 31 91 51
44 10 58 21 66 72 84 29 31 98 84 06 59 73 98 23 65 09 29 75 63 47 56 10 08
88 84 27 83 42 29 72 23 19 66 56 45 65 79 20 71 53 20 25 22 85 61 64 02 64
12 95 44 91 06 01 82 77 45 12 67 43 93 12 83 41 16 25 25 89 67 07 02 40 05
23 53 43 37 15 26 27 62 50 96 72 79 46 14 05 14 53 40 65 39 73 85 28 90 34
25 33 78 88 75 62 17 11 69 84 63 22 32 98 65 87 08 13 63 04 23 54 57 91 13
52 19 94 30 94 65 42 86 28 55 80 74 00 55 98 78 10 70 49 20 95 46 53 15 32
APÉNDICE I 693
Tabla IX. Valores críticos Hα;[k,n–1] del contraste de Hartley

de homogeneidad de las varianzas
La tabla proporciona los valores de Hα ;[ k ,n−1] que dejan a la izquierda probabilidad 1-α,
esto es, P ( H ≤ Hα ;[ k , n−1] ) = 1 − α ⇔ P ( H > Hα ;[ k ,n−1] ) = α para distintos valores de k y de n-1, los
grados de libertad, siendo n el número de observaciones, fijo en los k niveles.
Los valores para α = 0,05 están en la parte superior de las casillas y para α = 0,01 en
la parte inferior
( )
Así, Hα = 0,05;[ k =9,n−1=7] = 13, 5, es decir, P Hα = 0,05; k =9,n−1= 7 > 13, 5 = 0, 05.
[ ]
(
El valor Hα = 0,01;[ k =9,n−1= 7] = 23 significa que P Hα =0,01;[ k =9,n−1=7] > 23 = 0, 01. )
k 2 3 4 5 6 7 8 9 10 11 12
n-1
α = 0,05 39,0 87,5 142 202 266 333 403 475 550 626 704
2
α = 0,01 199 448 729 1036 1362 1705 2063 2432 2813 3204 3605
α = 0,05 15,4 27,8 39,2 50,7 62,0 72,9 83,5 93,9 104 114 124
3
α = 0,011 47,5 85 120 151 184 21(6) 24(9) 28(1) 31(0) 33(7) 36(1)
α = 0,05 9,60 15,5 20,6 25,2 29,5 33,6 37,5 41,1 44,6 48,0 51,4
4
α = 0,01 23,2 37 49 59 69 79 89 97 106 113 120
α = 0,05 7,15 10,8 13,7 16,3 18,7 20,8 22,9 24,7 26,5 28,2 29,9
5
α = 0,01 14,9 22 28 33 38 42 46 50 54 57 60
α = 0,05 5,82 8,38 10,4 12,1 13,7 15,0 16,3 17,5 18,6 19,7 20,7
6
α = 0,01 11,1 15,5 19,1 22 25 27 30 32 34 36 37
α = 0,05 4,99 6,94 8,44 9,70 10,8 11,8 12,7 13,5 14,3 15,1 15,8
7
α = 0,01 8,89 12,1 14,5 16,5 18,4 20 22 23 24 26 27
α = 0,05 4,43 6,00 7,18 8,12 9,03 9,78 10,5 11,1 11,7 12,2 12,7
8
α = 0,01 7,50 9,9 11,7 13,2 14,5 15,8 16,9 17,9 18,9 19,8 21
α = 0,05 4,03 5,34 6,31 7,11 7,80 8,41 8,95 9,45 9,91 10,3 10,7
9
α = 0,01 6,54 8,5 9,9 11,1 12,1 13,1 13,9 14,7 15,3 16,0 16,6
α = 0,05 3,72 4,85 5,67 6,34 6,92 7,42 7,87 8,28 8,66 9,01 9,34
10
α = 0,01 5,85 7,4 8,6 9,6 10,4 11,1 11,8 12,4 12,9 13,4 13,9
α = 0,05 3,28 4,16 4,79 5,30 5,72 6,09 6,42 6,72 7,00 7,25 7,48
12
α = 0,01 4,91 6,1 6,9 7,6 8,2 8,7 9,1 9,5 9,9 10,2 10,6
α = 0,05 2,86 3,54 4,01 4,37 4,68 4,95 5,19 5,40 5,59 5,77 5,93
15
α = 0,01 4,07 4,9 5,5 6,0 6,4 6,7 7,1 7,3 7,5 7,8 8,0
α = 0,05 2,46 2,95 3,29 3,54 3,76 3,94 4,10 4,24 4,37 4,49 4,59
20
α = 0,01 3,32 3,8 4,3 4,6 4,9 5,1 5,3 5,5 5,6 5,8 5,9
α = 0,05 2,07 2,40 2,61 2,78 2,91 3,02 3,12 3,21 3,29 3,36 3,39
30
α = 0,01 2,63 3,0 3,3 3,4 3,6 3,7 3,8 3,9 4,0 4,1 4,2
α = 0,05 1,67 1,85 1,96 2,04 2,11 2,17 2,22 2,26 2,30 2,33 2,36
60
α = 0,01 1,96 2,2 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,7
α = 0,05 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
⬁
α = 0,01 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
1
Los números de esta fila que tienen la cifra de las unidades entre paréntesis indican que pueden tener
error de una o más unidades en esa cifra.
Tabla X. Valores críticos Dn;α del contraste de Kolmogorov-Smirnov

para una muestra
Para Dn = máx Fn ( x ) − F ( x ) , la tabla proporciona el valor de Dn;α que deja a la iz-

x
quierda probabilidad P( Dn ≤ Dn ;α ) = 1 − α para distintos valores de α y diferentes tamaños
muestrales n.
Así, Dn=15;α =0,10 = 0, 304, es decir, P( D15 ≤ 0, 304) = 0, 90 ⇔ P( D15 > 0, 304) = 0, 10.
1-α 0,80 0,90 0,95 0,98 0,99

n
1 0,900 0,950 0,975 0,990 0,995
2 0,684 0,776 0,842 0,900 0,929
3 0,565 0,636 0,708 0,785 0,829
4 0,493 0,565 0,624 0,689 0,734
5 0,447 0,509 0,563 0,627 0,669
6 0,410 0,468 0,519 0,577 0,617
7 0,381 0,436 0,483 0,538 0,576
8 0,358 0,410 0,454 0,507 0,542
9 0,339 0,387 0,430 0,480 0,513
10 0,323 0,369 0,409 0,457 0,489
11 0,308 0,352 0,391 0,437 0,468
12 0,296 0,338 0,375 0,419 0,449
13 0,285 0,325 0,361 0,404 0,432
14 0,275 0,314 0,349 0,390 0,418
15 0,266 0,304 0,338 0,377 0,404
16 0,258 0,295 0,327 0,366 0,392
17 0,250 0,286 0,318 0,355 0,381
18 0,244 0,279 0,309 0,346 0,371
19 0,237 0,271 0,301 0,337 0,361
20 0,232 0,265 0,294 0,329 0,352
21 0,226 0,259 0,287 0,321 0,344
22 0,221 0,253 0,281 0,314 0,337
23 0,216 0,247 0,275 0,307 0,330
24 0,212 0,242 0,269 0,301 0,323
25 0,208 0,238 0,264 0,295 0,317
26 0,204 0,233 0,259 0,290 0,311
27 0,200 0,229 0,254 0,284 0,305
28 0,197 0,225 0,250 0,279 0,300
29 0,193 0,221 0,246 0,275 0,295
30 0,190 0,218 0,242 0,270 0,290
40 0,165 0,189 0,210 0,235 0,252
50 0,148 0,170 0,188 0,211 0,226
60 0,136 0,155 0,172 0,193 0,207
70 0,126 0,144 0,160 0,179 0,192
80 0,118 0,135 0,150 0,167 0,179
90 0,111 0,127 0,141 0,158 0,169
100 0,106 0,121 0,134 0,150 0,161
n > 100 1,073/ √n 1,224/ √n 1,358/ √n 1,517/ √n 1,628/ √n
Apéndice II
Soluciones
a los problemas propuestos
Solución a los problemas propuestos del Capítulo 2
2.9.1. a) Mo = 2, 238 = 2 min 14,28 seg y Mo = 5, 4602 = 5 min 27,61 seg;

Me = 4, 5994 = 4 min 35,96 seg; P85 = 6, 3971 = 6 min 23,8 seg.
x − 3, 5
b) Haciendo yi = i se obtiene
1, 5
Deshaciendo el cambio
c)
Por tanto, el 8% de los tiempos de atención son inferiores o iguales a un
minuto.
2.9.2. Se verifica
2.9.3. x . 49, 2593; Me = 48; Mo = 42, 5. Hay una ligera asimetría hacia la iz-
quierda porque la mediana es menor que la media.
2.9.4.
Se verifica ma ≤ mg ≤ x ≤ mc .
2.9.5. Esta distribución es trimodal, las modas son 2,2, 5,5 y 8,2857 ⯝ 8,29. Esta
clase no es homogénea en cuanto a los resultados de este examen.
697
2.9.6. 72 km/h.
2.9.7. a) La velocidad media del rojo es vr = 3a 3 que es

=
a a a 1 1 1
+ + + +
v1 v2 v3 v1 v2 v3
la media armónica de las velocidades. La velocidad media del blanco es
v t + v2t + v3t v1 + v2 + v3 que es la media aritmética de las veloci-
vb = 1 =
3t 3 dades.
b) La velocidad media del blanco en mayor porque la media aritmética es

mayor que la media armónica.
c) v r = 94, 964 km/h y vb = 96, 6667 km/h.
2.9.8. 690,70 €/ordenador.
2.9.9. La media de esa muestra no es la media aritmética de las tres medias, es la me-
dia aritmética ponderada, tomando como pesos los tamaños de cada muestra, es decir,
2.9.10. 131,2%.
2.9.11. a) x = 94, 125 g; Dm = 7, 2469 g.

b) Me = 94, 25 g; Mo = 94, 5455 g; P27 = 89, 0667 g.
c) Sx = 10, 2706 g.
d) CV = 0, 1091 = 10, 91%;Ä g1 = 0, 1062, la distribución tiene una ligera asi-
metría hacia la derecha; g2 = 0,0304, el coeficiente de curtosis es muy pró-
ximo a cero, la distribución es casi mesocúrtica.
2.9.12. a) x = 49, 375 g; Me = 49 g; Mo = 47, 2727 g; D3 = 41 g.

b) Dm = 12, 5938 g.
c) Sx = 14, 9033 g.
d) CV = 0, 3018 = 30, 18%; g1 = 0, 0192, distribución ligeramente sesgada
hacia la derecha; g2 = –0,8992, la distribución es platicúrtica.
2.9.13. a) Para P1 : x1 = 23; Me1 = 23; Mo1 = 22, 23 y 25;

Para P2 : x 2 = 23; Me2 = 22, 5; Mo2 = 20;
Para P3 : x3 = 23; Me3 = 22, 5; Mo3 = 23;
b) S2 = 2, 5; S = 1, 5811; S2 = 25, 25; S = 5, 0249; S 2 = 24, 5; S = 4, 9498;
1 1 2 2 3 3
APÉNDICE II 699
c) Como los tres tienen la misma media es más regular el que tiene menor
desviación típica. Por tanto, el primero presenta mayor regularidad.
2.9.14. a) x = 43, 8 min;Ä Me = 40, 818 min; Mo = 35, 818 min;

b) Sx2 = 283, 96; Sx = 16, 8511 min;
c) CV = 0, 3847 = 38, 47%;
d) Q1 = 31, 7586 min; Q2 = Me = 40, 818 min; Q3 = 54 min;;
e) D4 = 36,9310 min
f) g1 = 0,7838, asimetría positiva; g2 = 0,4543, distribución leptocúrtica.
2.9.15. a)
Histograma
10
8
Frecuencia
0
20 30 40 50 60
Diámetros
b) x = 42, 14 cm; Q1 = 36 cm; Q2 = Me = 42 cm; Q3 = 48, 67 cm;

Mo = 41, 33 cm; P85 = 52, 6 cm; S = 9, 16 cm; g1 . −0, 106, ligera asime-
tría hacia la izquierda;
g2 ⯝ –0,51, distribución platicúrtica.
c) El diámetro mínimo de los vendidos es P35 = 38,49 cm.
2.9.16.
2.9.17. a) x = 7, 4371 miles de euros;

b) Q3 = 9, 397 miles de euros; P40 = 6, 2204 miles dee euros;
Me = 7, 5183 miles de euros; P91 = 10, 3082 miles de euros;
c) S2 = 5, 1151; S = 2, 2617 miles de euros;
x x
d) g1 = 0,1279, distribución ligeramente asimétrica hacia la derecha;
e) g2 = –1,2147, la distribución es platicúrtica.
2.9.18. a) x = 51, 64; Me = 52, 31; Mo = 53, 79;

b) Q1 = 37, 31; Q3 = 65, 96;
c) Dm = 16, 96;
d) Sx = 21, 07;
e) CV = 0, 4079 = 40, 79%;
f) g1 = –0,6294, distribución asimétrica hacia la izquierda y g2 = – 0,4386,
platicúrtica.
2.9.19. a) LP = 103,342; b) LP = 101,9278; c) LP = 106,8797.
2.9.20. Designando por x el número de plantas afectadas por la plaga y por

x − 50
y= se obtiene fácilmente:
10
y = −0, 2 ⇒ x = 48; Sy2 = 1, 9155 ⇒ Sx2 = 191, 55.
Por tanto, Sy = 1, 3840 ⇒ Sx = 13, 840; CV = 0, 2883 = 28, 83%; g1 = 0, 3108,

asimétrica hacia la derecha; g2 = −0, 3783, , platicúrtica.
3.10.1. r ⯝ 0,5578. La recta de regresión de y sobre x es y = 0,7170x + 6,9401 y la

de x sobre y es: x = 0, 4340 y + 8, 7677.
3.10.2. No, porque si fuese así r 2 = C yx ⋅ C xy = 15 > 1 y esto es imposible.
3.10.3. No, porque los coeficientes de regresión de ambas rectas tienen el mismo sig-
no que la covarianza de las variables y si éstas fueran las dos rectas de regresión una
tendría coeficiente de regresión positivo y el otro negativo.
Sxy 624
3.10.4. No son compatibles porque tendría que ser r 2 = 2 2 = . 0, 7959 y
Sx Sy 16 ⋅ 49
también r 2 = 0, 882 = 0, 7744.
3.10.5. a) y = 10, 7859 x + 480, 7640;

b) r 2 = 0, 9862; r = 0, 9931, el ajuste es muy bueno.
c) y = 3.025 €/mes.
3.10.6. a) Es correcta, pues si esa es la recta de regresión de y sobre x, será

1 3 3
C yx = − y C xy = − ⇒ r 2 = Cyx ⋅ Cxy = < 1. Compruebe que la
2 5 10
elección contraria conduciría a un valor del coeficiente de determinación
r2> 1, que es imposible.
APÉNDICE II 701
b) Es falsa, porque el coeficiente de correlación tiene el mismo signo que los

coeficientes de regresión.
3
c) Es falsa, pues de los datos se sigue que r 2 = C yx ⋅ C xy = , y como se
10
sabe que el signo del coeficiente de correlación es negativo, se deduce que
3
r=− .
10
d) Es correcta, como se deduce de la explicación anterior.
3.10.7. a) x = 39 años; y = 10, 2 cm; S 2 = 102, 3333; S 2 = 5, 2267;

x y
b) Sxy = 16, 5333;
c) y = 0, 1616 x + 3, 8990;
d) r 2 = 0, 5111; r = 0, 7149, la correlación entre las variables es alta.
8
3.10.8. a) 158; b) 134; c) 52; d) . 0, 0833;
96
e) x = 6, 66; Sx = 1, 7971; y = 6, 194; Sy = 2, 5529;
f) Tienen mayor dispersión las notas de estadística porque
g) Sxy .1, 1075; h) y = 0, 3429 x + 3, 9101; i) r . 0, 2414.
3.10.9. a) No es posible determinar una relación funcional entre estas dos varia-
bles, pero designando por x la temperatura media en grados centígrados y
por y el número de helados vendidos en la semana, la ecuación de la recta
de regresión de y sobre x es: y = 30, 68 x − 265, 62, que expresa una depen-
dencia estocástica entre ambas variables.
b) Una medida del grado de asociación entre las variables la proporciona el coe-
ficiente de determinación r 2 . 0, 8139. Indica que el 81,39% de la cantidad
de helados vendidos viene explicado por la temperatura media de la semana.
c) ( yˆ )
x =23 º C
. 440 helados.
d) La temperatura de 5 °C está muy alejada de los valores recogidos en la ta-
bla, y por tanto no se puede utilizar la recta de regresión ajustada a la nube
de puntos para dar la información.
3.10.10. a) La distribución marginal para 2.000 < x < 2.500 es:
y
1-10 10-20 20-30 30-40 40-50
x
2.000-2.500 20 6 14 8 1 n3. = 49
b) La distribución marginal para 10 < y < 20 es:
y
10-20
x
1.000-1.500 40
1.500-2.000 17
2.000-2.500 6
n.2 = 63
c) x = 18, 3 días; Sx = 10, 99 . 11 días; y = 1.620 €; Sy = 413, 04 €;

Sxy = −3, 225.
d) r 2 = 5, 0434 E-7 . 0. La correlación entre las variables es prácticamen-
te nula y, por tanto, el ajuste de una recta de regresión a esta distribución
bidimensional es muy malo.
3.10.11. a)
b) Como el coeficiente de correlación lineal es alto, existe dependencia li-
neal entre el gasto en los dos meses.
c)
d)
e)
f)
3.10.12. y = 0,9270x – 26,9039. El grado de ajuste de la nube de puntos a la recta de

regresión es bueno porque el coeficiente de correlación es r = 0,9367.
3.10.13. N = 9, 7490 ⋅ e 0,3355t . El ajuste es muy bueno porque el coeficiente de co-

rrelación lineal entre las variables transformadas v = ln N y t es: r = 0, 9994 muy
próximo a 1.
3.10.14. a)
b) c)
d) r 2 = 0, 6913; r = 0, 8315, la correlación entre las variables es muy alta,
es bueno el ajuste.
3.10.15. y = 0, 1151 ⋅ x 1,2108 . El ajuste es muy bueno porque el coeficiente de corre-

lación lineal entre las variables transformadas u = ln x y v = ln y es: r = 0,9824.
APÉNDICE II 703
3.10.16. a) La curva se obtiene ajustando una recta de regresión a las variables

transformadas u = ln x , v = ln y, esta recta es: v = 1, 6927u − 0, 4161 de
donde se deduce x = 0, 6596 ⋅ y1,6927 . Una medida de la correlación entre las
variables viene dada por el coeficiente de correlación entre las variables
transformadas u y v que es: r = 0,9491.
b) ( xˆ ) y=130 = 2.498, 2 gramos; ( xˆ ) y=170 = 3.934 gramos. La primera pre-
dicción es una interpolación entre los valores recogidos en la tabla y es por
ello más fiable que la segunda que es una extrapolación.
3.10.17. Tomando logaritmos en la ecuación de la regresión potencial se obtiene

ln y = ln a + b ln x . La ecuación de la recta de regresión de las variables transforma-
das v = ln y, u = ln x es: v = 0, 4476 + 0, 2128u. El coeficiente de correlación lineal
de estas variables es: r = 0, 9741 y por ello el ajuste es bueno. Deshaciendo los
cambios se obtiene y = 1, 5647 ⋅ x 0,2128 .
3.10.18. a) La curva se obtiene ajustando una recta de regresión a las variables

x y v = ln y, esta recta es: v = 0, 3545 x + 3, 4765 de donde se deduce
y = 32, 3445 ⋅ 1, 4255 x .El ajuste es casi perfecto porque el coeficiente de corre-
lación entre las variables transformadas x y v es: r = 0, 9999 . 1.
b) ( yˆ ) x =7 = 386, 88 . 387 individuos; ( yˆ ) = 159, 46 . 159 individuos.
x =4.5
La segunda predicción es más fiable por ser una interpolación en los valo-
res de la tabla.
3.10.19. La curva es ( 0, 0575 + 0, 0003 x ) y = 1. El grado de ajuste de los datos a esta

curva lo puede dar el coeficiente de correlación lineal de x y z = 1/y que es
rxz = 0, 9193. . El coeficiente de correlación es muy alto. El ajuste es muy bueno.
3.10.20. La curva ajustada a los datos de la tabla es: n = 2, 5149 ⋅ e 0.3581t y el ajuste es
bueno porque el coeficiente de correlación entre las variables t y ln n es r = 0,9934.
3.10.21. a) La ecuación de la recta de regresión de x sobre y es: x = 0, 1569 y + 6, 4337.

El coeficiente de correlación lineal es r = 0,9632. El ajuste es bueno.
b) La ecuación de la parábola de mínimos cuadrados es:
c) El coeficiente de determinación parabólico es R2 = 0,9663. El ajuste de

la parábola a la nube de puntos es muy bueno.
d) Es mejor el ajuste de la parábola que el de la recta de regresión, porque
el coeficiente de determinación parabólico es R2 = 0,9663 mayor que el co-
eficiente de determinación lineal r2 = 0,9277.
e) xˆ y=80 . 19, 6 m; xˆ y=100 . 20, 5 m. Es más fiable la estimación para el
diámetro de 80 cm, porque es una interpolación y la segunda es una extra-
polación.
3.10.22. La parábola de mínimos cuadrados es: y = 108, 61x 2 + 547, 52 x + 8173, 8.

El coeficiente de determinación parabólico es: R2 = 0,9866. El ajuste es bueno.
3.10.23. a) R = 9, 6843 ⋅ e 0,2467t . El ajuste es bueno porque el coeficiente de corre-

t
lación lineal entre las variables t y v = ln Rt es r . 0, 9566.
b) La renta inicial es R0 = 9,6843;
c) La renta estimada para el sexto año es: R6 ⯝ 42,55 miles de euros.
3.10.24. a) y = 25, 4380 e 0,3464 x . La tasa de crecimiento de la madera es d = 0,3464.

b) El coeficiente de correlación entre x y v = ln y es r . 0, 9926 es que es
muy próximo a la unidad y por tanto sí es satisfactorio el ajuste.
3.10.25. Sí se puede aceptar el ajuste de los datos a la curva y = 0, 0105 ⋅ x 1,5445 . El

ajuste es muy bueno porque el coeficiente de correlación de las variables transformadas
u = ln x y v = ln y es r = 0, 9986, que es muy próximo a la unidad.
3.10.26. y = 20, 4431 + 172, 4106 x . El coeficiente de correlación de las variables y

y u = 1/x es r ⯝ 0,8567.
3.10.27. y = 0, 0028 x 2.6890 . El ajuste es bueno, porque el coeficiente de correlación

entre las variables transformadas u = ln x, v = ln y, es r = 0,7689.
3.10.28. y = −0, 0089 x 2 + 0, 8062 x + 1, 1198. El coeficiente de determinación para-

bólico es R 2 . 0, 9809 que es muy próximo a la unidad y que indica, por tanto, que
el ajuste de la nube de puntos a la parábola es muy bueno.
4.12.1. Con la primera caja es mayor la probabilidad de ganar porque en la primera

1
caja P ( A1 ∩ Z2 ∩ A3 ∩ R4 ) = 1 y en la segunda caja P ( A1 ∩ Z2 ∩ A3 ∩ R4 ) = .
12 55
4.12.2. P(S) = 0,0074.
( )
4.12.3. P ( S ) = 1 − P S = 1 − 0, 0014 = 0, 9986.
4.12.4. a) P ( S1 ) = 0, 0186; b) P ( S2 ) = 0, 4360.
4.12.5. a) VR2,5 = 32.768; b) P ( S ) = 0, 000030518 = 3, 0518 ⋅ 10 −5 ;

c ) P ( S ) = 0, 000333 = 3, 33 ⋅ 10 −4.
APÉNDICE II 705
4.12.6. P(S) = 0,0022.
4.12.7. a) P ( S1 ) = 10 −5 ; b ) P ( S2 ) = 3, 3 ⋅ 10 −5 no es la misma.
4.12.8. P(S) = 0,375.
4.12.9. Si F significa que funciona el sistema de seguridad, P ( F = 10−6. )

4.12.10. P(S1 ) = 0, 2923; P(S2 ) = 0, 7077; P(S3 ) = 0, 0017. Por tanto, es más proba-
ble que haya al menos una doble entre las cuatro.
3 1
4.12.11. La probabilidad del suceso puede ser , o bien .
4 4
4.12.12. P(S1 ∩ S2 ) = 0, 2 = P(S1 ) ⋅ P(S2 ) luego, son independientes.
4.12.13. P( R) = P( M ∪ F ) = 6 . 0, 8571.
7
4.12.14. a) P ( A ) = 0, 0003; b ) P ( A ) = 0, 3; c ) P ( A ) = 0, 0006; d ) P ( A ) = 0, 2500.
4.12.15. P(S) = 0,0079.
4.12.16. a) P ( VV ) = 0, 2143; b ) P ( VM ) = 0, 5714; c ) P ( VV ∪ MM ) = 0, 4286.
4.12.17. a) P ( OOOO) = 0, 0025;

b) P ( FFFF ) = 0, 0025;
c ) P ( AAAA ) = 0, 000005139 = 5, 139 ⋅ 10−6 ;
d ) P ( S ) = 0, 000185014 = 1, 85014 ⋅ 10 −4.
7
4.12.18. P ( S ) = .
33
4.12.19. a) A ∪ B; b ) A ∪ B = A ∩ B; c ) S1 ∪ S3 .
4.12.20. A ∪ B = { x ∈R / 3 ≤ x ≤ 10} ; A = ( − `, 3) ∪ ( 7, + ` ) = { x ∈R / x < 3 ó x > 7} ;

A ∩ B = { x ∈R / 5 ≤ x ≤ 7} ; A − B = A ∩ B = { x ∈R / 3 ≤ x < 5}
4.12.21. a) E = { Ar , Ac, Ro} ; b ) P ( Ar ) = 0, 12; P ( Ac ) = 0, 36; P ( Ro ) = 0, 52;
( )
c ) P Ro = 0, 48.
V365,15
( )
4.12.22. a) P(S) = 1 − P S = 1 −
VR365,15
= 1 − 0, 7417 = 0, 2529;
V
( )
b) P(S) = 1 − P S = 1 − 365,25 = 1 − 0, 4313 = 0, 5687.
VR365,25
4.12.23. a) P ( S ) = 0, 186; b ) P ( M / S ) = 0, 6774.
4.12.24. a) Ä P ({20}) . 0, 00015; b) P ({1, 2, 3,..., 19}) = 0,99995;
( )
c ) P ( S ) = 1 − P S = 0, 0005.
4.12.25. No, el que apuesta a obtener cara antes del vigésimo lanzamiento tiene pro-
babilidad de acertar 0,9995, gana pues casi con seguridad.
4.12.26. P(T2/F) = 0,6047.
4.12.27. a) P ( D ) = 0, 0815; b) P ( M 3) = 0, 25; c ) P ( M 3 / D ) = 0, 1534;

d ) no son independientes, porque P ( D / M 3) = 0, 05 ≠ P ( D ) = 0, 0815,
o también porque P ( M 3 / D) = 0, 1534 ≠ P ( M 3) = 0, 25.
4.12.28. 0,4889.
4.12.29. 0,475.
4.12.30. a) Designando por Ti que funcione la toma i, el conjunto de todas las si-
{
tuaciones posibles es el espacio muestral: E = T1 ∩ T 2, T 1 ∩ T 2, T1 ∩ T 2, T1 ∩ T 2 }
( ) ( ) (
P ( T1 ∩ T 2 ) = 0, 81; P T1 ∩ T 2 = 0, 09; P T1 ∩ T 2 = 0, 09; P T1 ∩ T 2 = 0, 01; )
( )
b) P T1 ∩ T 2 = 0, 01.
4.12.31. a) 0,001; b) 0,0009.
4.12.32. a) P ( S1 ) = 0,007047839 = 7,04 ⋅ 10 –3 ; b ) P ( S2 ) = 0, 000000132 = 1,32 ⋅ 10 −7 .
4.12.33. a) 0,0345; b) 0,3060.
4.12.34. 1 1
a) P ( C ) = = 0, 01 = 1%; b ) P( D) = = 0, 1 = 10%; c) P ( C ∩ D ) = 0, 001;
100 10
d ) sí son compatibles porque P ( C ∩ D ) = 0, 001 ≠ 0;
e) sí son independientes porque P ( C ∩ D ) = P ( C ) ⋅ P ( D ) ;
f ) P ( C ∪ D ) = P ( C ) + P ( D ) − P ( C ∩ D ) = 0, 109.
4.12.35. Es mayor la probabilidad de que tengan diferentes sexos, porque

6 2
P ( D) = y P(M) = .
8 8
APÉNDICE II 707
4.12.36. a) P(S1 ) = 420 ; b ) P(S2 ) = 175 ; c ) P(S1 ) = . 406 .

1.001 1.001 1.001
4.12.37. a) 0,0083; b) 0,2917.
4.12.38. a) 0,8; b) 0,64; c) 0,36.
2
4.12.39. a) P ({n}) = , ∀n ∈N;
3n
b) P( A) = 0, 25; P( B) = 0, 0769; P( A ∩ B) = 0, 0027; P ( C ) = 0, 999983.
4.12.40. 0,6667.
4.12.41. a) 0,81; b) 0,01; c) 0,99.
4.12.42. 0,6585.
4.12.43. a) 0,81; b) 0,01; c) 0,99.
4.12.44. a) 576 formas distintas: b) 1,736 ⋅ 10 –3 = 1,736 E – 3 . 0,0017.
4.12.45. a) 210 formas; b) 126 elecciones incluyen las eléctricas; c) 0,6.
4.12.46. 2/5.
5.8.1. a) Sí, es una función de probabilidad de una variable aleatoria discreta porque
7
f ( x ) ≥ 0, ∀x ∈{−3, −2, −1, 0, 1, 2, 3} y además ∑ f ( xi ) = 1.
i=1
b) P( X ≤ 1) = 0, 7.
c) P(−1 ≤ X ≤ 2) = 0, 6.
5.8.2. a) P(S > 2.600 €) = 0,03.

b) µ = 3,39, venderá en un mes aproximadamente tres cuadros.
c) Smedio = 1.878 €/mes.
d) P(1.500 < X < 2.600) = 0,71.
5.8.3. a)
si x=1
b) si x=3
si x=5
si x=7
si x<1
si 1≤x<3
c) si 3≤x<5
si 5 ≤ x < 7
si x ≥ 7
d) E( X ) = µ = 5, 25; σ = 25, 75 . 5, 0744.

e) P( X ≤ 6) = 9 16 .
5.8.4. a) 0,1964; b) 0,2273; c) 0,7899.
5.8.5. 1,002E – 6 = 1,002 · 10–6, es decir, prácticamente nula.
5.8.6. a) P(X = 5) ⯝ 0,0245.

b) P(X ≥ 10) = 0,4031.
c) n = 2.000 invitaciones.
5.8.7. Si X , P(λ = 1), entonces P ( X > 10 ) = 1, 00477 ⋅ 10−8

y si X , P(λ = 5), entonces P ( X > 10 ) = 0, 013695.
Es mayor la probabilidad de que haya más de diez terremotos en la zona Z2.
5.8.8. a)
b) 0,9728.
5.8.9. 0,2344.
5.8.10. La cuota ha de ser al menos de 2.100 €/año por asegurado.
5.8.11. 0,1563.
APÉNDICE II 709
5.8.12. a)
b) La moda de la distribución, que es 1.
5.8.13. a)
b) 0,3225.
5.8.14. a)
b) E(X) = 0,375.
5.8.15. a)
b) 0,9964.
5.8.16. a) La distribución de X es hipergeométrica de parámetros: N = 500, n = 20,

p = 0,4.
b) µ = 8, σ ⯝ 2,1488.
c) P( X = 20) = 6, 0497 E − 9 . 0; P( X = 3) . 0, 01127; P( X = 15) . 0, 00107;
P( X = 5) . 0, 0731; P( X = 0) = 2, 8121E − 5 . 0.
5.8.17. a) 0,0064; b) 0,1131; c) 0,9997.
5.8.18. a) E(X) = 4,5; b) σ 2 = 4,365;

c) P( X = 4) = 0, 1922; P( X ≥ 4) = 0, 6616; P( X ≤ 4) = 0, 5307.
d) P( X = 4) = 0, 1898; P( X ≥ 4) = 0, 6577; P( X ≤ 4) = 0, 5321.
5.8.19. P( X ≥ 3) . 0, 0784. El número esperado de piezas defectuosas en el lote es

de una pieza.
x 10 − x
 10  9   7 
5.8.20. a) P( X = x ) =       parra x = 0, 1, 2,..., 10;
 x   16   16 
b) 0,9997; c) 0,2275.
5.8.21. a)
x 0 1 2 3 4 5 6
P(X = x) 0,056 0,084 0,224 0,360 0,036 0,096 0,144
b) µ = 3,1.
 200
5.8.22. a) f ( x ) = P( X = x ) =  0, 02 x 0, 98200− x , x = 0, 1, 2,..., 200;
 x 
b) µ = 4; σ 2 = 3, 92;
c) Como n ≥ 50 y p ≤ 0, 1 se puede aproximar esta distribución binomial
por una distribución de Poisson de parámetro λ = np = 4.
d) 0,0595.
e) P( X < 6) . 0, 7851.
  5  15 
   
  x   8 − x  si 0 ≤ x ≤ 5
5.8.23. a) f ( x ) =   20
  8 

 0 para los restantes valores de x
El recorrido de X es C = {0, 1, 2, 3, 4, 5} .
b) µ = 2, σ 2 . 0, 9473, σ . 0,9733.
5.8.24. a) 0,0020; b) 0,0337.
5.8.25. a) 0,9889; b) 0,9829; c) 0,6406.
 150
5.8.26. a) f ( x ) =  ( 0, 01) x ( 0.99)150− x , x = 0, 1, 2,..., 150.
 x 
b) µ = 1,5; c) La moda es 1; d) 0,9991.
5.8.27. a) 0,3576; b) 0,2774; c) Aproximadamente una.
5.8.28. 0,1709
5.8.29. a) Aproximadamente una; b) 0,7135.

APÉNDICE II 711
5.8.30. a) a = 4.
0 si x < 1
 1
 si 1 ≤ x < 2
 20
b) P( X ≤ x ) =  2
si 2 ≤ x < 3
 20

 M
1 si x ≥ 20
c) µ = 10,5.
d) b – a = 1.
e) a = 7 y b = 8.
5.8.31. a) 0,8120; b) 0,4828; c) 1,624k €.
6.12.1. a) α = 3
256 .
6.12.2. a) α = 1 ; b) F ( x ) = 2 arctg  e 2  ∀x ∈R.

x
2 π  
6.12.3. a) β = 3 .
32
 0 si x < 0
 3
 x si 0 < x ≤ 2

b) F( x ) =  32
 − 3 x 2 + 9 x − 11 si 2 < x ≤ 6
 64 16 16
 1 si x > 6

c) µ = 2,875.
d) 0,2650.
 0 si x < 0
 2
2 x
6.12.4. k = y la función de distribución es: F( x ) =  si 0 ≤ x ≤ 5
25  25
 1 si x > 5
6.12.5. a) La función f(x) es una función de densidad porque ∀x ∈R es positiva o

+`
cero y además
∫ f ( x ) dx = 1.
−`
b) E ( X ) = +`
∫− ` x ⋅ f ( x ) dx = 3, 5.
6.12.6. a) K = 4 .
21
 0 si x < 0
 4
x si 0 < x ≤ 1
b) F ( x ) =  7
− 2 x 2 + 16 x − 11 si 1 < x ≤ 4
 21 21 21
 1 si x > 4

c) µ = 64 .
35
6.12.7. a) β = k .
4
 0 si t ≤ 0
b) F ( t ) =  − kt
1 − e 4 si t > 0
c) 0,0067; d) 0,00665.
6.12.8. a) c = 3 .
11

 0 si x ≤ 0
 3
b) F ( x ) =  x si 0 < x < 2
 11
 3 2− x
 1 − 11 e si x ≥ 2
c) P ( A ∪ B) = 1; d) P (1, 5 < X < 3) = 0, 5929;

21
e) P ( X > 3 X > 2 ) = e −1 . 0, 3679; f) µ = . 1, 9091; σ 2 . 0, 8281;
11
µ3
g) γ 1 = . 3, 8126.
σ3
6.12.9. a) 735 estudiantes; b) 317 estudiantes; c) 1159 estudiantes; d) 230 estu-

diantes.
6.12.10. a) β = 1 ;
16
APÉNDICE II 713
0 si x < 0

b) F ( x ) =   x  −x4
1 −  1 + 4  e si x ≥ 0

c) P ( X ≤ 12) = 0, 8009; P ( 0 ≤ X ≤ 8) = 0, 5940;
P ( 0 ≤ X ≤ 12 X ≥ 8) =0,5095.
d) µ = 8, σ 2 = 32.
6.12.11. a) P ( Z > 1, 76) = 0, 0392; P ( Z < 1, 05 ) = 0, 8531; P ( Z > −0, 13 ) = 0, 5517;

P ( Z < −1, 14 ) = 0, 1271.
b) P (1, 18 < Z < 1, 39) = 0, 0367; P ( −1, 84 < Z < −0, 44 ) =0,29971.
c) P ( −2, 33 < Z < −0, 97 ) = 0, 8241.
d) P ( −2, 33 < Z < −0, 97) = 0, 8241.
6.12.12. P ( −1 < Z < 1) = 0, 6826

P ( −1.96 < Z < 1, 96) = 0, 9500
P ( −2 < Z < 2) = 0, 9544
P ( −2, 33 < Z < 2, 33) = 0, 9802
P ( −2, 58 < Z < 2, 58) = 0, 9902
P ( −3 < Z < 3) = 0, 9974.
6.12.13. a) z = 1,65; b) z = –1,47; c) z = 1,87; d) z = 0,38; e) z = 1,76; f) z = 0,83.
6.12.14. a) 0,9332; b) 0,2266; c) 0,3891; d) 0,8965.
6.12.15. 46.312 personas.
6.12.16. a) 2,94%; b) 44,83%; c) π 90 = 21.154,04 €.
6.12.17. a) 1.528.320 machos; b) 372.960 machos; c) 2.322.720 machos;

d) 2.380.320 machos.
6.12.18. a) K = 2.
 0 si x < 0

b) F ( x ) =  1
1 − (1 + x )2 si x ≥ 0

2 3 −3
c) µ = 1; κ 2 = 2 − 1 . 0, 4142; κ 1 = . 0, 1547.
3
6.12.19. a) 0,3707; b) 0,9525; c) 0,1596; d) 0,0129.
6.12.20. a) a = 20.
 0 si x < 0
 4
b) F ( x ) =  x ( 5 − 4 x ) si 0 < x < 1
 1 si x ≥ 1

2 2
c) µ = ; σ 2 = ; d) 0,8125; e) 0,1595.
3 63
6.12.21. a) K = 3 · 10–3
 0 si x ≤ 0
 −3 3
b) F( x ) = 1 − 10 (10 − x ) si 0 < x < 10
 1 si x ≥ 10

c) E(X) = 2,5 millones de euros.
d) 0,8278.
( ) ( )
6.12.22. P( A) = 0; P A ∩ B = 1; P A ∪ B = 1; P ( B ∩ A = 0; P ( B ∪ C ) = 1; )
1 2 1
P ( B ∩ C) =
2 3
)
; P ( D ∩ E = ; P ( C ∩ ( D ∪ E )) = ; P C ∩ E = 1.
2
( )
6.12.23. µ = 3,678 y σ = 5,5617.
6.12.24. a) M = 3.
 0 si x < 0
b) F ( x ) =  −3
1 − (1 + x ) si x ≥ 0
1 4
c) µ = ; κ1 = 3 − 1 . 0, 1006; κ 2 = 3 2 − 1 . 0, 2599.
2 3
6.12.25. a) 0,9544; b) 215 piezas se desechan; c) 651 piezas de las 2.000.
6.12.26.  0 si x<a
 1
a) F ( x ) =  ( x − a) si a ≤ x ≤ b
b − a
 1 si x>b
APÉNDICE II 715
 0 si x < a
 1
b) f ( x ) =  si a ≤ x ≤ b
b−a
 0 si x > b
b+a
c) E( X ) = ; todo punto del segmento [a, b] es moda; la mediana κ2
2
coincide en este caso con la media.
d) σ 2 =
( b − a )2 .
12
e) γ1 = 0, la distribución de X es simétrica. El coeficiente de curtosis es
µ 6
γ 2 = 44 − 3 = − < 0, la distribución es platicúrtica.
σ 5
6.12.27. a) α = 4/5.

 0 si x ≤ 0
 4
 x
b) F ( x ) =  si 0 < x < 1
 5
 4 1− x
1 − 5 e si x ≥ 1
c) P ( 0, 5 < X < 2) . 0, 6932; P ( X > 2 X > 1) = e −1 . 0, 3679;

P( A) = 0, 0125.
d) µ = 1,76; σ 2 = 1,0357.
e) γ1 = 1,8916 la distribución tiene asimetría hacia la derecha.
6.12.28. a) K = 16
9
 0 si x ≤ 1, 5

 16 x 3
b) F ( x ) =  − + 4x2 − 8x + 5 si 1, 5 < x < 3
 27
 1 si x ≥ 3
c) 0,9028.
d) 0,7469.
6.12.29. a) 5; b) 25 ; c) µ3 = 0 y µ4 = 125; d) γ1 = 0, la distribución es simétrica;

3
γ2 = –1,2, la distribución es platicúrtica.
1 4
6.12.30. µ = ; σ X2 = .
3 45
7.8.1. a) 0,2.
b)
X f1(x) Y f2(y)
0 0,3 3 0,6
1 0,7 6 0,4
c) µ X = 0, 7; µY = 4, 2; σ X2 = 0, 21; σ Y2 = 2, 16
d) σ XY = −0, 24
e) ρ . −0, 3563
0 si x < 0 ó y < 3
 0, 1 si ( 0 ≤ x < 1) y (3 ≤ y < 6 )

f) F ( x , y ) =  0, 3 si ( 0 ≤ x < 1) e ( y ≥ 6)
 0, 6 si (1 ≤ x ) y ( 3 ≤ y < 6 )

1 si (1 ≤ x ) e ( 6 ≤ y )
g) No son independientes X e Y, porque f (1, 6 ) = 0, 2 ≠ f1 (1) ⋅ f2 ( 6 ) = 0, 28.
7.8.2. 0,0443.
7.8.3. 4, 717474907 E - 6 . 0, 0000047. Es prácticamente imposible.
7.8.4. a) µ X = 2, 96; σ X2 . 0, 6784; µY = 3, 44; σ Y2 . 2, 2864.

b) σ XY . 1, 1376.
c)
X f1(x |Y = 5)
2 2/7
3 1/3
4 8/21
d)
Y f2(y |X = 3)
1 5/16
3 1/4
5 7/16
e) µ X Y =5 = 3, 0952; σ X Y =5 . 0, 6576.
2
APÉNDICE II 717
7.8.5. a) µ X = 45, 6; σ X . 8, 9241; µY = 11, 68; σ Y . 2, 5412.

b) σ XY . 15, 1920.
c) µY X =65 = 15; σ Y X =65 . 1, 9149.
d) µ X Y =16 = 56, 25; σ X Y =16 . 5, 9948.
7.8.6. a) La función de probabilidad conjunta f(x1, x2) y las dos marginales están
definidas en la siguiente tabla:
X2
0 1 2 3 4 f1(x1)
X1
0 0,0033 0,0138 0,0216 0,0150 0,0039 0,0576

1 0,0138 0,0576 0,0899 0,0624 0,0163 0,2400
2 0,0216 0,0899 0,1404 0,0974 0,0254 0,3747
3 0,0150 0,0624 0,0974 0,0676 0,0176 0,2600
4 0,0039 0,0163 0,0254 0,0176 0,0045 0,0677
f2(x2) 0,0576 0,2400 0,3747 0,2600 0,0677
b) La función de probabilidad de X1/ X2 = 3 es:
X1 f(xi |X2 = 3)
0 0,0576
1 0,2400
2 0,3747
3 0,2600
4 0,0677
4
∑ f ( xi X2 = 3) = 1
i= 0
7.8.7. 0,2023.
7.8.8. a) n ≥ 19; b) n ≥ 17.
7.8.9. a) 0,0201; b) 3,1170 · 10–8; c) 0,0191; d) 0,0221.
7.8.10.  1/ 9 si 0 ≤ x ≤ 3 y 0 ≤ y ≤ 3
a) f ( x , y) = 
0 para cualquier otro par ( x , y )
1 / 3 si 0 ≤ x ≤ 3 1 / 3 si 0 ≤ y ≤ 3
b) f1 ( x ) =  ; f2 ( y ) = 
 0 en el restto  0 en el resto
c) Son independientes X e Y, porque
f ( x , y ) = f1 ( x ) ⋅ f2 ( y ) , ∀x ∈[ 0, 3] , ∀y ∈[ 0, 3]
7.8.11. a)
X f1(x) Y f2(y)
0 0,25 0 0,30
1 0,18 1 0,25
2 0,13 2 0,16
3 0,34 3 0,29
4 0,10
b) µX = 1,86 hijos/familia; µY = 1,44 películas/mes.

c) No son independientes X e Y, porque
f ( 4, 3) = 0, 06 ≠ f1 ( 4 ) ⋅ f2 ( 3) = 0, 029.
d) P( X ≥ 3, Y ≥ 1) = 0, 36.
56
7.8.12. P(S) = .
225
Y
7.8.13. a) N(150, 3); b) Sxy = 3; c) X = + 100; d) 0,7572.
3
10 10 10
(
7.8.14. a) 1 − p2 ) ; b) 67.200 p (1 − p ) ; c) p = 1 / 2.
2
7.8.15. a) F( x ) =
π
( )
arctg e 2 x ∀x ∈R; b) 0,0428; c) 0,0856.
7.8.16. a) M = 5;
1
 ( 2 x + 4 ) si 0 ≤ x ≤ 1
b) 1 ( )  5
f x =
1
 (1 + 2 y ) si 1 ≤ y ≤ 3
f2 ( y ) =  10
c) No son independientes X e Y porque f ( x , y ) ≠ f1 ( x ) ⋅ f2 ( y ) .

APÉNDICE II 719
1 1
d) f ( y x = 0, 5) =  10 5
 + y si 1≤ y ≤3
e) µY = ; σ X2 =
32 37
15 450
2 si x + y ≤ 1, x ≥ 0, y ≥ 0
a) f ( x , y ) = 
7.8.17.
0 para los restantes valores de x e y
0 si x < 0 ó y < 0

b) F ( x , y ) = 2 xy si x + y ≤ 1, x ≥ 0, y ≥ 0
 1 si x + y > 1

 0 si x < 0

c) F1 ( x ) =  2 x − x si 0 ≤ x ≤ 1
2
 1 si x > 1

d) P ( X < 0, 5) = 3 4 ; P ( X < Y ) = 1 2 ; P ( X < 0.5 Y < 0, 5) = 2 3 ;
P ( X + Y < 0, 5) = 1 4 .
7.8.18. a) α = 1 5 .
 0 si x < 1 ó y < 1
( )
 1
b) F ( x, y ) =  3 x 2 y − xy2 − 3 x 2 + y2 + x − 3 y + 2 si 1 < x < 2, 1 < y < 3
 10
 1 si x > 2 ó y > 3
 (6 x − 4 ) si 1 < x < 2  (9 − 2 y ) si 1 < y < 3

1 1
c) f1 ( x ) =  5 ; f2 ( y ) =  10
 0 en el resto  0 en el resto
 0 x ≤1
( )
si
 1
d) F1 ( x ) =  3 x 2 − 4 x + 1 si 1 < x < 2
5
 1 si x≥2
 0 si y ≤ 1
( )
 1
F2 ( y ) =  − y 2 + 9 y − 8 si 1 < y < 3
 10
 1 si y ≥ 3
e) No son independientes X e Y, porque
f (1, 8, 2, 5) = 0, 58 π f1 (1, 8) ◊ f2 ( 2, 5) = 0, 544.
f) E ( X ) = 1, 6; σ X2 = 347 . 2, 3133.
150
g) 0,225.
7.8.19. a) 0,0865; b) 0,1348.
7.8.20. a) 33/2.
1
 ( 4 x + 9) si 0 ≤ x ≤ 1
b) f1 ( x ) =  11
0 si x < 0
 1
F1 ( x ) =  (
11
2x2 + 9x )
si 0 ≤ x ≤ 1

 1 si x > 1
1
 ( 2 + 6 y ) si 0 ≤ y ≤ 3
c) f2 ( y ) =  33
0 si y<0
 1
F2 ( y ) =  ( 3 y2 + 2 y ) si 0≤ y≤3
 33
 1 si y>3
0 si y < 0

 4 xy + 3 y 2
d) F ( y X = x ) =  si x0 ≤ y ≤ 3
 3 ( 4 x + 9)
1 si y > 3
0 si x < 0

 2 x 2 + 6 xy
F ( x Y = y) =  si 0 ≤ x ≤ 1
 2 + 6y
1 si x > 1
e) 0,3137.
7.8.21. 0,0612.
7.8.22. a) β = 6 .
5
 0 si x ≤ 0 ó y ≤ 0
 2 3
b) F ( x , y ) =  x 3 y + x 2 y 2 si 0 < x < 1, 0 < y < 1
 5 5
 1 si x > 1 ó y > 1
APÉNDICE II 721
6 2
(
 x +x
c) f1 ( x ) =  5
) si 0 < x < 1
2 6
 + y si 0 < y < 1
f2 ( y ) =  5 5
0 si x ≤ 0
 1
d) F1 ( x ) =  ( )
2 x 3 + 3 x 2 si 0 < x < 1
 5
1 si x ≥ 1
0 si y ≤ 0
 1
F2 ( y ) = 
5
(
2 y + 3 y2 ) si 0 < y < 1

 1 si y ≥ 1
e) 2
5
7.8.23. a) 12
7
 12  2 x
 x +  si 0 < x < 1
b) f1 ( x ) =  7  2
 0 en el resto

1
 ( 4 + 6 y ) si 0 < y < 1
f2 ( y ) =  7
5 23
c) µ X = ; σ X2 =
7 490
4 2 23
d) µY = ; σ Y =
7 294
e) ρ = – 0,0561. No son independientes X e Y.
7.8.24. a) 0,1790; b) 0,5197; c) 0,0877.
7.8.25. a) 0,0157; b) 0,0416.
7.8.26. −x
 e si x > 0
a) f1 ( x ) = 
 0 en el reesto
 0 si x ≤ 0
F1 ( x ) =  −x
1 − e si x > 0
−y
 e si y > 0
b) f2 ( y ) = 
 0 en el ressto
 0 si y ≤ 0
F2 ( y ) =  −y
1 − e si y > 0
 0 si y ≤ 0
c) F ( y X = x ) =  −y
1 − e sii y > 0
 0 si x ≤ 0
F ( x Y = y) =  −x
1 − e sii x > 0
d) Sí son independientes X e Y, porque F ( x Y = y) = F1 ( x ), ∀x ∈R.
−1
7.8.27. a) σ XY = ; ρ = −0, 0951.
27
7.8.28. a) α = 1
2
 x+y si 0 < x < 1 y 0 < y < 1
b) f ( x , y ) = 
 0 para cualquier otro par ( x , y )
 2 ( x + y)
 si 0 ≤ x ≤ 1
c) f ( x Y = y ) =  1 + 2 y
 0 en el resto

1 3 1
d) P ( X < 0, 5, Y < 0, 5) = ; P ( X < 0, 5) = ; P ( X < 0, 5 Y < 0, 5) =
8 8 3
) )
8.8.1. a) µ = 6, σ = 10 ; b) µ = E ( X = 6, σ 2X = 5; c) µ = E ( X = 6, σ 2X = 3, 75.
σ
8.8.2. Si X , N ( µ = 3.350, σ = 484) ⇒ X , N ( µ = 3.350, = 48, 4) por tanto
10
 3.500 − 3.350 
)
P ( X < 3.500 = P  Z <
 48, 4  = P ( Z < 3, 09 ) = 0,999.
8.8.3. a) X , N (18, 5 cm, 0, 0566 ) ; b) 0,9233; c) 185 lotes.

APÉNDICE II 723
8.8.4. a) 0,5; b) prácticamente nula; c) 0,9924.
8.8.5. a) µ = 4, 4, σ = 2, 5768.
)
b) E ( X = 4, 4; Var ( X = 3, 32.)
c) E ( X ) = 4, 4; Var ( X ) = 2, 49.
8.8.6. a) 0,0467; b) 0,2389; c) 0,6157.
8.8.7. a) 0,00087; b) 0,6915.
8.8.8. 0,0174.
8.8.9. a) 0,015; b) 0,4833; c) 0; d) 0,0149.
8.8.10. a) E ( X = µ = 3, 5;
)
σ2
b) Var ( X = ) n
= 1,4583.
n −1 2
c) E S ( )
2
=
n
σ = 1, 4583.
8.8.11. a) µ = E ( X = 68 cm y σ = 0, 6 cm.
) X
)
b) µ = E ( X = 68 cm y σ = 0, 5754 cm.
X
c) Cabe esperar 66, 8 cm < X < 68, 3 cm en 54 muestras y X > 67 cm en 77

muestras.
8.8.12. Es más exigente el primero, porque la probabilidad de rechazo de una parti-

da en el primero es de 0,3059 y en el segundo de 0,0132
8.8.13.  600
a) f ( x ) =   ( 0, 95) x ( 0, 05)600− x x = 0, 1, 2, ..., 600.
 x 
b) E ( X ) = µ = 570, σ 2 = 28, 5; c) 1; d) 0,5; e) 0,1515
8.8.14.  480  720 

 x   50 − x 
a) f ( x ) = , x = 0, 1, 2,..., 50; b) 0,4413.
 1.200
 50 
8.8.15. a) X sigue una distribución hipergeométrica de parámetros N = 100, n = 50,

p = 0,40; b) 0,0150.
8.8.16. 0,9974.
 1.600
8.8.17. a) f ( x ) =   ( 0, 8) x ( 0, 2)1600− x , x = 0, 1, 2,..., 1.600; b) cero;
 x 
c) 0,875.
8.8.18. a) 0,5; b) 1; c) 1; d) x1 = 1.943 y x2 = 2.057.
8.8.19. 0,9857.
8.8.20. a) 0,9182; b) 1; c) cero.
8.8.21. 0,999.
8.8.22. a) 560 árboles; b) 0,0001; c) 85,71%.
9.6.1. a) [0, 0,128]; b) [0,006, 0,054].
9.6.2. a) po , N ( p = 0, 3, σ = 0, 0374 ) ; b) aproximadamente una N(0,1);

c) 0,9962; d) IPa=0,05 = [0,23, 0,37].
9.6.3. a) N(120, 3); b) [115, 125].
9.6.4. a) 0, 225 ≤ p ≤ 0, 375; b) 0, 21 ≤ p ≤ 0, 39.
9.6.5. a) N(3.100, 50); b) [3.002, 3.198]; c) [2.971, 3.229].
9.6.6. a) pˆ , N ( 0, 57, 0, 0495) ; b) 47 y 67 respectivamente; c) 94, 9.416, 37.663

respectivamente.
9.6.7. a) 350; b) 15.085.
9.6.8. a) 1,325; b) 1,812; c) 2,650; d) 2,101; e) –1,325; f) –0,879; g) 2,473;

h) –0,5296; i) –2,334.
9.6.9. a) 0,1275; b) 0,0418.
9.6.10. a) 5,229; b) 26,217; c) 31,526; d) 26,336; e) 57,486.
9.6.11. 1.o) a = 6,908 y b = 28,845. 2.o) a = 51,171 y b = 116,321.
9.6.12. 1.o) a = 15,89. 2.o) b = 16,047.

APÉNDICE II 725
9.6.13. a) 0,1797; a) 0,0943.
9.6.14. a) 2,71; b) 3,51; c) 2,936; d) 0,369; e) 0,4708; f) 0,3049; g) 2,124.
9.6.15. a) IPα = 0,05 = [ 4, 9608 m, 5, 0392 m ] .

b) IPα =0,01 = [ 4, 9484 m, 5, 0516 m ] ;
c) Entre 4,9961 m y 5,0039 m.
d) Entre 4,9988 m y 5,0012 m.
e) IPα = 0,01 = [ 4, 9984 m, 5, 0016 m ] .
9.6.16. a) La proporción observada sigue una N(0,7, 0,046).
b) 0,9988.
c) Con probabilidad 0,95 se puede asegurar que el porcentaje de remisiones
está comprendido entre el 60,98% y 70,92%.
9.6.17. a) Para los varones N(65 cm, 2,5 cm) y para las mujeres N(60 cm, 2 cm).
b) Para los varones:
) )
P ( X ≤ 60 = 0, 0228; P ( 60 < X ≤ 65 = 0, 4777; P ( X > 65 = 0, 5. )
Para las mujeres:
) )
P ( X ≤ 60 = 0, 5; P ( 60 < X ≤ 65 = 0, 4938; P ( X > 65 = 0, 01. )
c) Para los varones IPα =0,10 = [ 60, 89 cm, 69, 13 cm ] .
Para las mujeres IPα =0,10 = [ 56, 71 cm, 63, 29 cm ] .
d) Para los varones IPα =0,05 = [ 60, 10 cm, 69, 9 cm ] .
Para las mujeres IPα =0,05 = [ 56, 08 cm, 63, 92 cm ] .
9.6.18. a) X1 − X 2 , N ( 5 cm, 3, 20 cm ) .
b) IPα =0,05 = [ −1, 272 cm, 11, 272 cm ] .
9.6.19. a) E ( X ) = 7 g/dl.
b) 1
( )
Var X = 0,1; Error típico =
10
. 0, 316.
c) IP
α = 0 ,05 = [ 6,38 g/dl, 7,62 g/dl ] .
9.6.20. a) Para la cuasivarianza IPα = 0,05 = [ 0, 3, 2, 11] .

Para la cuasidesviación típica IPα =0,05 = [ 0, 548, 1, 453] .
b) Para la cuasivarianza IPα =0,01 = [ 0, 193, 2, 621] .
Para la cuasidesviación típica IPα = 0,01 = [ 0, 439, 1, 619] .
9.6.21. a) IPα =0,05 = [ −2, 64, 1, 84 ] .

b) IPα =0,05 = [ 0, 547, 3, 985] .
10.11.1. a) Una estimación de µ es x = 61 µ g/m 3 ; b) ICα = 0,05 = [ 55, 67 ] ;

c) ICα = 0,05 = [58, 37, 63, 63] .
σ2
10.11.2. a) E ( X = µ, media poblacional de X, Var ( X =
) ) , siendo σ 2 la varianza
25
σ
poblacional de X, la desviación típica σ X = .
5
–  σ
b) La distribución de X es N  µ,  .
 5
c1) ICα = 0,10 = [ 4, 79, 6, 106 ] .
c2) ICα = 0,01 = [ 4, 6067, 6, 2893] .
c3) Para la varianza ICα = 0,05 = [1, 3790, 4, 3773] .
Para σ ICα = 0,05 = [1, 1743, 2, 0922] .
10.11.3. a) IC
α = 0 ,05 = [ 9, 06 cm, 11,14 cm ] .
b)
ICα =0,01 = 1,42 cm 2 , 11,82 cm 2  .
c) ICα =0,05 = [ 9, 94 cm, 10,26 cm ] .
10.11.4. a) n = 385; b) n = 43.
10.11.5. ICα =0,05 = [ 0, 26 min, 1, 74 min ] .
10.11.6. ICα =0,05 = [10, 46, 14, 29 ] .
10.11.7. a) ICα = 0,05 = [ 0, 75, 17, 96] .

b) Como 1 ∈ ICα =0,05 , no se puede admitir a este nivel que las varianzas
sean diferentes.
10.11.8. a) ICα = 0,01 = [ 4.303, 4.969] .

b) ICα =0,05 = [ 4.341, 4.931] .
c) Para σ 2 el ICα =0,10 = [167.663,5, 604.338,8] .
y para σ 2 el ICα =0,10 = [ 409,47, 777,39] .
10.11.9. a) ICα =0,05 = [ 0, 232, 1, 646 ] .

APÉNDICE II 727
b) A partir de los datos observados, no hay razones para suponer que no

son iguales las varianzas en las dos zonas, porque el intervalo de con-
fianza para el cociente de varianzas contiene la unidad.
10.11.10. a) ICα = 0,05 = [ 0, 11, 0, 21] . Se pueden comprobar las condiciones de

normalidad en los extremos del intervalo, a posteriori.
b) n ≥ 3.637.
10.11.11. a) ICα =0,05 = [17,03 g, 20,97 g] .

b) ICα =0,05 = [18, 12 g, 19,88 g] .
c) IC
α =0 ,05 = [17,13 g, 20,87 g ] .
d) IC  2 2

α =0 ,05 =  9,25 g , 34,13 g  .
10.11.12. a) ICα = 0,01 = [ 0, 444, 0, 526 ] . Se comprueba a posteriori que se cumplen

las condiciones de normalidad en los extremos del intervalo.
b) ICα =0,05 = [ 0, 454, 0, 516] . También se cumplen las condiciones de
normalidad en los extremos del intervalo.
10.11.13. ICα = 0,05 = [53, 67 ] .
10.11.14. a) Para σ 2 el ICα = 0,01 = [ 0, 50, 10, 19 ] y para σ el ICα = 0,01 = [ 0, 705, 3, 193] .
b) Para σ 2 el ICα = 0,05 = [ 0, 63, 5, 96 ] y para σ el ICα = 0,05 = [ 0, 793, 2, 442 ] .
10.11.15. a) ICα =0,10 = [ 228, 355 kg, 263,645 kg ] .

b) A partir de 253,788 kg
10.11.16. a) ICα = 0,10 = [1,59 seg, 2,41 seg] .

b) ICα = 0,01 = [1,36 seg, 2,64 seg ] .
c) Da mejor rendimiento la segunda porque el tiempo medio de impre-
sión es más de segundo y medio menor por unidad.
10.11.17. ICα = 0,05 = [ 0, 829, 0, 951] . Se puede afirmar con confianza del 95% que el
porcentaje está comprendido entre el 82,9% y el 95,1%
10.11.18. a) ICα =0,10 = [ 43,79 cm, 47,21 cm ] .

b) IC  2 2

α = 0 ,10 = 86,63 cm , 138,55 cm  .
10.11.19. a) ICα =0,10 = [ 8, 3 mm, 8,7 mm ] .

b) ICα = 0,10 = [ 6,8 mm, 9,6 mm ] .
10.11.20. a) pˆ = 0, 74.
b) 0,062.
c) ICα =0,05 = [ 0, 618, 0, 862 ] . Se verifican las condiciones de normalidad
en los extremos del intervalo.
10.11.21. a) Para la marca C el ICα =0,01 = [13.979, 36.421] . y para la marca M el

ICα = 0,01 = [15.579, 24.754 ] .
b) ICα = 0,05 = [ −699, 10.766 ] .
c) Sí se puede esperar para una de la marca C, pero es prácticamente im-
posible para una de la marca M.
10.11.22. a) [0,21, 0,29]; b) [0,19, 0,31].
10.11.23. a) n ≥ 42; b) n ≥ 125.
11.12.1.  H : p = 0, 25
a)  0 La RCα = 0,05 = ( − `, −1, 645] .
 H1 : p < 0, 25
 p.q 
b) Si H0 es cierta N(0,25, 0,0433). Si es cierta H1 será N  p, .
 100 
c) z = −2, 3094 ∈ RCα =0,05 . En consecuencia, no se acepta la hipótesis nula
a ese nivel. Se acepta, para α = 0,05 que el nuevo tratamiento T1 disminuye la
tasa de alergia.
11.12.2. Si el valor del estadístico pertenece a la RCα =0,01 , entonces también perte-
nece a la RCα =0,05 y por tanto también se rechaza al nivel α = 0,05 y a cualquier otro
nivel que verifique α > 0,01.
 σ 
11.12.3. a) N  1.110 kg/día , .
 n 
H : µ = 1.110
b) Hipótesis de contraste:  0
 H1: µ < 1.110
x − 1.110
El estadístico a utilizar es T =
s
n
APÉNDICE II 729
(
La región crítica pedida es RCα = 0,05 = − `, −tα =0,05;n−1 
c) Se acepta H0 al nivel α = 0,05. Con los datos de esta muestra y para el valor
de α dado no se puede aceptar que el promedio ha bajado en el último año.
d) Se rechaza H0 al nivel α = 0,05. Con los datos de la muestra de tamaño 256
se puede aceptar que el promedio ha bajado en el último año para α = 0,05 y
también para α < 0,001.
 H : p = 0, 95
11.12.4. Las hipótesis de contraste son  0 . Las regiones críticas para los
 H1 : p < 0, 95
valores dados de α son RCα = 0,05 = ( − `, −1, 645] , RCα =0,01 = ( − `, −2, 33] .
El valor del estadístico del contraste es z = – 0,9177 que no pertenece a ninguna
de las regiones críticas. Por tanto, con los datos proporcionados, no hay razones para
rechazar la hipótesis nula para los dos niveles de significación.
11.12.5. Como RCα = 0,001 ⊂ RCα =0,005 puede ocurrir que el valor del estadístico per-
tenezca a RCα =0,005 y no a la RCα =0,001 . En estos casos no se podría rechazar la hipó-
tesis nula para RCα =0,001 .
11.12.6. Es más exigente el primero, porque la probabilidad de rechazar una mues-

tra con ese criterio es 0,2588 y con el segundo es 0,0628.
11.12.7. Se rechaza la hipótesis p = 0,30 para α = 0,001 y se acepta la hipótesis p = 0,20.

Con los datos recogidos no hay razones para rechazar que el 20% de las personas leen al
menos un libro al mes pero no se puede admitir que el porcentaje sea del 30%.
11.12.8. a) No, pues se rechaza la hipótesis H0 : µ = 226 al nivel α = 0,001.

b) Sí, con los datos observados se acepta la hipótesis H0: µ = 227.
c) µ = 226, 68 y µ = 228, 30.
d) 226, 68 ≤ µ ≤ 228, 30.
11.12.9. a) No se puede admitir a ese nivel. Hay diferencia entre las proporciones
de los que viven en ciudades y los que residen en pueblos.
b) Se acepta que es mayor la proporción de los que residen en los pueblos
al nivel α = 0,05 y también al nivel α = 0,01.
11.12.10. a) La proporción de niñas, 0,5192, no es compatible con la equiprobabi-

lidad de nacimientos.
b) El nivel de significación del contraste es α = 0,0002.
11.12.11. Se acepta la igualdad de varianzas al nivel α = 0,05.
11.12.12. Se rechaza a los tres niveles la hipótesis nula de igualdad de proporciones

de los que sufrieron la enfermedad en los dos grupos. Por tanto, se puede admitir que
la vacuna primera es significativamente más eficaz contra el virus Ébola.
11.12.13. a) Sí hay diferencia significativa en la producción de madera de los dos

robledales.
b) El intervalo de confianza pedido para la diferencia de medias es:
ICα =0,001 = [11, 4348, 16, 5652]
Como este intervalo no contiene el 0, no se puede admitir la igualdad de las me-
dias poblacionales para α = 0,001.
11.12.14. Sí se puede admitir, a partir de esos datos, la igualdad de las proporciones

poblacionales.
11.12.15. a) Se acepta la igualdad de varianzas de los dos grupos de alumnos.

b) Se acepta también la igualdad de medias de los dos grupos.
Por tanto, no se puede admitir que sea mayor la media del primer grupo.
11.12.16. Con los datos recogidos no hay razones para suponer que la diferencia de
medias de los pesos antes y después de seguir la dieta no es de 4,5 kg.
11.12.17. Con los datos observados, no hay razones para suponer que la proporción
es diferente según el sexo.
11.12.18. a) No se puede aceptar con α = 0,05 la igualdad de las proporciones ob-

servadas.
b) Sí se puede admitir al nivel α = 0,05 que es menor la proporción de no
fumadores entre los enfermos de cáncer bronco-pulmonar.
11.12.19. Con los datos proporcionados, no hay razón para suponer que la media del co-
ciente intelectual de los chimpancés es inferior a la de los gorilas en más de 9 unidades.
11.12.20. Si se representan por X1 y X2 el crecimiento en cm/día del trigo tratado con

el abono natural y con el abono en experimentación respectivamente, hay que supo-
ner que X1 y X2 siguen distribuciones normales, que las dos muestras se eligen al azar
y que son independientes. Aceptando estos supuestos, se contrasta la igualdad de va-
rianzas de X1 y X2. Se puede aceptar la igualdad de las varianzas. Ahora se contrasta
la igualdad de las medias frente a la hipótesis alternativa H1: µ1 < µ2 . Para α = 0,05
no se puede aceptar la igualdad de las medias poblacionales. Por tanto, se puede su-
poner que el abono en experimentación aumenta el crecimiento del trigo.
11.12.21. El valor del estadístico de contraste pertenece a la RCα =0,05 y por tanto no
se puede aceptar a este nivel con los datos proporcionados la igualdad de las longi-
tudes medias de los huevos que deposita el cuclillo en nidos de carnicero y los que
deja en nidos de petirrojo.
11.12.22. Para las hipótesis de contraste y α = 0,001 la región de aceptación de H0 es:

APÉNDICE II 731
Por tanto,
De donde n = 50,2326. Esto indica que siempre que el tamaño de la muestra n ≥ 51

se detecta un aumento de la media en 2 unidades en el 95% de los casos con un nivel de
significación α = 0,001.
12.13.1. Hipótesis de contraste
El valor del estadístico ∑

4 (Oi − npi )2 = 7, 7778 ∉ RCα =0,05 = [ 7, 815, + ` ) . Los
i =1 npi
resultados son compatibles con el modelo.
 H0 : E(O1 ) = 33, E(O2 ) = 66, E (O3 ) = 33

12.13.2. Hipótesis: 
 H1 : E(Oi ) ≠ 132 ⋅ pi al menos para un valor de i
3
(Oi − npi )2 = 3, 273 ∉ RCα =0,05 = [ 5, 991, + ` ) .
i=1 npi
Se acepta la hipótesis de dominancia intermedia en el carácter forma.
H : E(O1 ) = 216, E (O2 ) = 72, E(O3 ) = 72, E (O4 ) = 24

12.13.3. Hipótesis:  0
 H1 : E(Oi ) ≠ 384 ⋅ pi al menos para un valor de i

4 (Oi − npi )2
= 311, 278 ∈ RCα = 0,005 = [12, 838, + ` ) .
npi i =1
Con estos datos no se puede aceptar la hipótesis dada. El valor del estadístico es
muy alto, la diferencia es significativa, esto indica ligamiento de los dos caracteres
observados.
2
Oi − npi )
12.13.4. a) El valor del estadístico ∑ (
3
= 432, 240 ∈ RCα =0,005 = [10, 597, + ` ) .
i =1 npi
No se puede aceptar la codominancia.
2
3 ( O − np )
b) El valor del estadístico ∑ i i
= 2, 886 ∉ RCα =0,05 = [ 5, 991, + ` ) .
i =1 npi
Con estos datos no hay razones para rechazar que se presenta epistasia simple
recesiva.
2
12.13.5. El valor del estadístico ∑ ∑

3 4 (O
ij − Eij ) = 9, 2238 ∉ RCα = 0,05 = [12, 592, + ` ) .
i=1 j =1 Eij
Por tanto no se puede admitir la dependencia entre el número de árboles que sobre-
viven y la parcela y especie repoblada.
2
12.13.6. Como ∑ ∑
2 4 (O ij − Eij )
= 5, 926 ∉ RCα = 0,05 = [ 7, 815, + ` ) , con estos datos
Eij
i=1 j =1
no hay razones para suponer que hay dependencia entre la época de vacunación y la in-
cidencia de la enfermedad.
2
12.13.7. Como ∑ ∑
(O 2 4 ij − Eij )
= 5, 926 ∉ RCα =0,05 = [ 7, 815, + ` ) , los resultados
Eij
i =1 j =1
de la muestra son compatibles con la hipótesis de dominancia completa.
 H : p = pi• ⋅ p• j ∀i = 1, 2, ∀j = 1, 2,..., 5
12.13.8. Las hipótesis del contraste son:  0 ij
 H1: pij ≠ pi• ⋅ p• j para algún i, j
2
Como ∑ ∑
2 5 (O ij − Eij )
= 10, 2877 ∈[9, 488, + ` ) se rechaza la hipótesis nula
Eij
i =1 j =1
para α = 0,05. No se acepta α = 0,05 para que la proporción es la misma en todas las
regiones.
12.13.9. λˆ = x = 1, 175. Las hipótesis de contraste son:

APÉNDICE II 733
El valor del estadístico es 18,439 ∈ RCα =0,005 = [10,597,+` ) .

Se rechaza la hipótesis nula al nivel α = 0,005.
12.13.10. La hipótesis a contrastar es: H0 : pij = pi• p• j , ∀i = 1, 2, 3, ∀j = 1, 2 frente a

la alternativa:
El valor del estadístico de contraste es 9, 6548 ∈ RCα =0,01 = [ 9, 210, + ` ) .

En consecuencia, se rechaza la hipótesis nula para α = 0,01. Sí influye el tipo de
fungicida en el tratamiento de la plaga.
12.13.11. a) µˆ = x = 4, 748; σˆ = s = 0, 997; X , N ( 4, 748, 0, 997 ) .

b) El valor del estadístico de contraste es 4, 6177 ∉ RCα = 0,05 = [ 7, 815, + ` ) .
Se acepta que la variable X , N ( µ = 4, 748, σ = 0, 997 ) .
12.13.12. a) No se puede admitir que X , N (5, 1, 2) porque el valor del estadístico

de contraste es 73, 1632 ∈ RCα =0,005 = [16, 750, + ` ) .
b) Se puede aceptar que X , N (4, 60, 1, 21) y entonces
P ( 4, 5 < X < 5, 5) = 0, 3023. El 30,23% de la población expuesta a la ra-
diactividad cuatro años tiene más de 4,5 millones de eritrocitos y me-
nos de 5,5 millones.
2
12.13.13. Como ∑ ∑
2 2 (O
ij − Eij )
= 266, 1123 ∈[ 7, 879, + ` ) se rechaza la hipótesis
i =1 j =1Eij
nula para α = 0,005. Se concluye que la curación depende de que hayan sido tratados
o no. Ese tratamiento es eficaz.
12.13.14. El valor del estadístico de contraste es 11,295 ∈ RCα =0,005 = [10, 597, + ` )
y por tanto no se acepta, con estos resultados, que la variable X sigue una distribución
de Poisson.
12.13.15. a) N ( µˆ = 85, 51, σˆ = 6, 03) .

2
b) Como ∑
6 (O ij − Eij ) = 15, 776 ∈[ 7, 815, + ` ) se rechaza la hipótesis
j =1 Eij
nula para α = 0,05. No se acepta, para α = 0,05, que los datos recogi-
dos se ajusten a la distribución normal indicada.
12.13.16. El valor del estadístico de contraste es 23, 798 ∈ RCα = 0,005 = [18, 548, + ` ) .
En consecuencia, se rechaza la hipótesis nula para α = 0,005. Sí influye el tra-
tamiento en la producción.
12.13.17. El valor del estadístico de contraste es:
Por tanto, no hay razones para rechazar la normalidad de la muestra para α = 0,10 o
lo que es lo mismo, con confianza del 90%.
12.13.18. El valor del estadístico de contraste es 54,70 que pertenece a la región crí-
tica RCα =0,01 = [13, 277, + ` ) y también a la RCα = 0,005 = [14, 860, + ` ) . Se rechaza la
independencia con confianza del 99,5%.
12.13.19. Aplicando el contraste de Kruskal-Wallis se obtiene
Se concluye que no perciben diferencias entre los vinos.
12.13.20. Sí se puede aceptar la homogeneidad de alturas, porque el valor del esta-

dístico de la prueba es 8, 69 ∉ RCα =0,05 = [12, 6, + ` ) .
12.13.21. Se acepta que X , N ( 6, 85, 2, 60 ) , pues el valor del estadístico de con-

traste es:
12.13.22. Sí, se acepta que X , P ( λ = 2, 08) porque el valor del estadístico de con-
traste es 1, 977 ∉ RCα = 0,05 = [ 7, 815, + ` ) .
12.13.23. Aplicando el contraste de Cochran, se obtiene el valor del estadístico
Hay diferencias significativas en las preferencias de los diez clientes.
12.13.24. Aplicando la prueba de Friedman, como el valor que se obtiene del esta-
dístico de contraste es: 11, 03 ∈ RCα =0,01 = [ 9, 210, + ` ) , se puede afirmar que hay di-
ferencias significativas entre las calificaciones de las tres pruebas.
12.13.25. Aplicando el contraste de Mann-Whitney se rechaza la igualdad de las me-

dianas en los dos lugares con confianza del 95%.
12.13.26. Aplicando la prueba de Mc Nemar, se obtiene un valor del estadístico de

contraste 6,368.
Como 6, 368 ∈ RCα =0,05 = [3, 841, + ` ) se puede concluir que los cambios observados
son casi significativos, pero no son significativos porque 6, 368 ∉ RCα =0,01 = [6, 635, + ` ) .
APÉNDICE II 735
12.13.27. Mediante la prueba de los rangos con signo de Wilcoxon se contrasta si se

puede aceptar que la mediana de los valores observados es de 60 días o inferior.
El valor del estadístico de contraste es −2, 17 ∈ RCα =0,05 = ( − `, −1, 645] y por
tanto la diferencia del tiempo de espera es casi significativa. Pero a partir de estos da-
tos no se puede concluir que la reducción del tiempo de espera en Urología sea sig-
nificativa porque −2, 17 ∉ RCα =0,01 = ( − `, −2, 33] .
12.13.28. Aplicando el contraste de Kruskal-Wallis, se obtiene un valor del esta-

dístico
En consecuencia, no hay razones para aceptar que existan diferencias en el peso

de los frutos para las cuatro zonas.
13.4.1. Aplicando el contraste de Bartlett, se obtiene el valor del estadístico de

contraste 1, 0435 ∉ RCα = 0,05 = [5, 991, + ` ) y por tanto, se acepta la igualdad de va-
rianzas.
13.4.2.
Variación g.l.
QN
Entre fechas QN = 0,5051 2 = 0, 2526
2
Fo = 0,4838
QR
Residual QR = 4,6988 9 = 0, 5221
9
Total Q = 5,2039 11
Con los datos recogidos no se puede afirmar que hay diferencia en la producción me-
dia de algodón, porque el valor del estadístico de contraste es F = 0, 4838 ∉ RCα =0 ,05 =
= [ 4, 26, + ` ) .
13.4.3. Aplicando el contraste de Bartlett se obtiene un valor del estadístico de

contraste 0, 9905 ∉ RCα =0,05 = [5, 991, + ` ) , en consecuencia se cumple la homoce-
dasticidad. Se realiza a continuación el contraste de las medias. No se puede admitir
que la diferencia en el peso medio de la lana limpia de los carneros sea significativa,
porque el valor del estadístico de contraste es F = 5,1081 ∉ RCα =0,01 = [ 5, 85, + ` ) .

contraste 6, 9348 ∈ RCα = 0,05 = [ 5, 991, + ` ) , por lo que se rechaza la igualdad de va-
rianzas para α = 0,05. Para α = 0,01 la región crítica es RCα =0,01 = [ 9, 210, + ` ) que
no contiene el valor del estadístico de contraste y en consecuencia se acepta la
igualdad de varianzas para α = 0,01, o lo que es lo mismo, con confianza 0,99. La di-
ferencia entre las varianzas es casi significativa, pero no es significativa.
13.4.5. a) Se acepta, aplicando el contraste de Bartlett, la igualdad de varianzas para

los tres tipos de abonos. No se acepta para α = 0,05 que la producción media es la
misma para estos tres tipos de abono.
b) No hay diferencia significativa en la producción media para los abonos 1 y 2.
Sí hay diferencia significativa en la producción media para los abonos 2 y 3.

contraste 1, 1625 ∉[ 5, 991, + ` ) . Se acepta la igualdad de varianzas. Realizando el
contraste de medias, se obtiene el valor del estadístico 3, 54 ∉ RCα = 0,05 = [ 3, 74, + ` ) .
No hay diferencia significativa entre las medias de las tres zonas.
13.4.7. Con el contraste de Bartlett se acepta la igualdad de las tres varianzas. El

ANOVA da un valor del estadístico de contraste 0, 5735 ∉ RCα = 0,05 = [ 4, 26, + ` ) .
Por tanto, con confianza del 95% se puede afirmar que no hay diferencia significativa
en la producción de las tres variedades de maíz.
13.4.8. Aplicando el contraste de Bartlett, no se puede aceptar la homocedasticidad.

Falla por tanto uno de los supuestos necesarios para aplicar el ANOVA. Para respon-
der a la pregunta formulada, se aplica el contraste no paramétrico de Kruskal-Wallis.
El valor del estadístico para este contraste es 38,4368 ∈ RCα =0,005 = [14, 860, + ` ) . La
diferencia en la producción es muy significativa. Como la prueba de Kruskal-Wallis
contrasta la igualdad de medianas, para ver qué tipo de terreno produce mejor rendi-
miento se dibujan los diagramas de caja y bigotes.
E
160 180 200 220 240
Se observa que el terreno que produce mejor rendimiento es el C y también que

en este terreno la muestra ofrece mayor dispersión.
APÉNDICE II 737
13.4.9. Aplicando el contraste de Bartlett, se acepta la igualdad de las varianzas para

las tres clases de semillas. El valor del estadístico de contraste en el ANOVA es
Se concluye que hay diferencia significativa en el rendimiento de estas tres va-

riedades.
Analizando las comparaciones múltiples, se puede afirmar que hay diferencia
significativa entre las variedades Cezanne y Rodrigo y también entre las variedades
Marius y Rodrigo. No hay diferencia significativa entre las variedades Marius y
Cezanne.
El mejor rendimiento se obtiene con la variedad Rodrigo.
13.4.10. Falta comprobar el supuesto de homocedasticidad para poder aplicar el

ANOVA. Aplicando el contraste de Bartlett, se obtiene el valor del estadístico
por tanto, se acepta la igualdad de varianzas.

Para contrastar la igualdad de las medias de los tres laboratorios, se reali-
za el análisis de la varianza. El estadístico correspondiente toma el valor
6, 224 ∉ RCα = 0,01 = [ 6, 93, + ` ) . Por tanto, no hay diferencias significativas entre
los resultados de los tres laboratorios.
13.4.11. a) Aplicando el contraste de Bartlett se obtiene:

2, 8638 ∉ RCα = 0,05 = [ 3, 841, + ` ) . Se acepta la igualdad de varianzas.
b) Se puede realizar el contraste de igualdad de medias porque se verifican los
supuestos previos. El valor del estadístico de contraste es:

Variación g.l.
Entre niveles QN = 0,3024 1 0,3024

F0 = 0,7541
Residual QR = 5,615 14 0,4011
Total Q = 5,9174 15
Como 0, 7541 ∉ RCα =0,05 = [ 4, 54, + ` ) no se rechaza la hipótesis nula. Los dos
abonos son igualmente efectivos en la producción del tomate.
Por tener que contrastar sólo dos tipos de abono, se puede verificar también la
igualdad de varianzas utilizando el estadístico
se acepta la igualdad de las dos varianzas. Y para contrastar la igualdad de medias se

puede utilizar el estadístico
llegando a la misma conclusión que con el ANOVA.

Obsérvese que el valor del estadístico correspondiente al ANOVA es el cuadra-
do del valor de la t para el contraste de medias.
13.4.12. a) En primer lugar, se comprueba que se puede aceptar que las tres muestras
proceden de poblaciones normales. Como son de tamaño pequeño, se calculan los co-
eficientes de asimetría y de curtosis para las tres y se observa que en todas ambos coe-
ficientes están comprendidos entre –2 y 2 que es el rango esperado para las distribu-
ciones normales. Como las tres muestras son independientes, falta contrastar la igualdad
de las varianzas. El contraste de Bartlett permite aceptar la igualdad de varianzas. Por
darse los tres supuestos, se plantea el contraste de igualdad de las medias. El valor del
estadístico del ANOVA es Fo = 218, 875 ∈ RCα = 0,005 = [ 6, 734, + ` ) . Las diferencias
entre los resultados para los tres tipos de fungicidas son muy significativas.
b) Realizando las comparaciones múltiples, se observan diferencias significativas
entre F1 y F3 y entre F2 y F3, pero no entre las dos primeras para las que el valor del
estadístico es t . 1, 3327 ∉ RCα =0,01 = ( − `, −2, 787 ] ∪ [ 2, 787, + ` ) . Se puede afir-
mar, a partir de los datos recogidos, que los dos primeros fungicidas son igualmente
eficaces. El tercero da un porcentaje medio de semillas infectadas mucho menor. De
los tres fungicidas el más eficaz es el tercero.
13.4.13. Utilizando el contraste de Bartlett, se comprueba que no hay diferencias sig-

nificativas entre las varianzas de las tres muestras.
El valor del estadístico de contraste para el ANOVA es 3, 07 ∉ RCα =0,05 =
= [ 3, 32, + ` ) . No hay razones para suponer que la longitud media no es la misma para
los tres perros.
13.4.14. a) αˆ = 79, 5824, βˆ = −0, 4969.

b) ρˆ = −0, 4830.
c) Se rechaza la hipótesis H0 : β = 0 con confianza del 90%, porque el valor del
estadístico de contraste −1, 9890 ∈ RCα =0,10 = ( − `, −1, 771] ∪ [1, 771, + ` ) .
Por tanto, con confianza del 90% se afirma que existe una relación lineal entre la
longitud de la cola, Y, y la del ala, X, que es: Y = 79, 5824 − 0, 4969 X .
13.4.15. a) αˆ = 1, 4516, βˆ = 0, 2022.
b) ρˆ = 0, 998.
APÉNDICE II 739
c) El coeficiente de asimetría de los valores de ln Y es muy próximo a cero y el

de curtosis es −1, 36 ∈[ −2, 2] ; el diagrama de caja y bigotes para estos valores es:
1,5 1,8 2,1 2,4 2,7 3

In Y
Se puede aceptar que la muestra procede de una distribución normal. En el con-

traste de hipótesis para β, se rechaza H0 : β = 0 para α = 0,01. Por tanto la relación
entre X y ln Y es estadísticamente significativa.
13.4.16. a) V = −0, 7066 + 0, 7386U.

b) ρˆ = 0, 9105.
c) Utilizando el programa Statgraphics se comprueba que los coeficientes de
asimetría, –0,30, y de curtosis, –0,45, así como el diagrama de caja y bigotes
0 0,4 0,8 1,2 1,6 2 2,4

In Y
permiten aceptar que la muestra procede de una distribución normal. En el contraste

de hipótesis para β, se rechaza la hipótesis nula β = 0 con confianza del 99%. Por
tanto, la relación lineal entre las variables U = ln X y V = ln Y es muy significativa.
13.4.17. a) αˆ = 0, 3285, βˆ = 0, 2274.

b) ρˆ = 0, 9845.
c) Los coeficientes de asimetría y de curtosis están ambos comprendidos entre
–2 y 2, no hay razones para rechazar que la muestra procede de una distribución
normal. Al realizar el contraste para β, se rechaza la hipótesis H0 : β = 0 con
confianza del 99%. La relación lineal entre las variables U = ln X y V = ln Y es

muy significativa.
13.4.18. a) αˆ = 28, 6094 y βˆ = −0, 1424.

b) ρˆ = − 0, 4857.
H : β = 0
c) Al realizar el contraste  0 se obtiene como valor del estadís-
 H1 : β ≠ 0
tico to = −1, 9246 ∈ RCα =0,10 = ( − `, −1, 782] ∪ [1, 782, + ` ) . En consecuencia
se rechaza la hipótesis nula H0 : β = 0 con confianza del 90%. La
relación lineal entre las variables X e Y no es significativa porque
to = −1, 9246 ∉ RCα =0,01 = ( − `, −3, 055] ∪ [ 3, 055, + ` ) .
No hay razones para rechazar la hipótesis H0 : β = 0 con confianza del 99%.
13.4.19. Los valores estimados de los parámetros de la recta de regresión Y = α + β X

a partir de los datos recogidos son: αˆ = 3, 1867 y βˆ = 0, 5884.
El valor estimado del coeficiente de correlación entre las variables X e Y es:
ρˆ = 0.997. Se acepta que la relación Y = 3, 1866 + 0, 5884 X entre las producciones
de las dos variedades es muy significativa porque el valor del estadístico del contraste
para β es 37, 0369 ∈ RCα = 0,001 = ( − `, −5, 405] ∪ [ 5, 405, + ` ) .
13.4.20. El contraste de Bartlett proporciona un valor del estadístico
por tanto, no hay diferencia significativa entre las varianzas. Se puede aplicar el
ANOVA. El valor del estadístico para el contraste de igualdad de medias es:
No hay diferencias significativas entre las plantas de las tres zonas.
13.4.21. a) El valor del estadístico de Bartlett es 2, 678 ∉ RCα =0,05 = [ 5, 991, + ` )

y por tanto, se acepta la igualdad de las varianzas para las tres marcas. Se
realiza ahora el contraste de medias. El estadístico correspondiente es
12, 522 ∈ RCα =0,01 = [ 5, 62, + ` ) . Hay diferencias significativas entre las tres marcas
en cuanto al contenido medio de EPA.
b) Para contrastar la diferencia en el contenido medio de EPA entre las marcas
L1 y L2, se calcula el valor de
Se acepta la igualdad del contenido medio de EPA para las dos primeras marcas.
APÉNDICE II 741
13.4.22. En primer lugar se contrasta la igualdad de varianzas para las tres

lagunas. El contraste de Bartlett proporciona el valor del estadístico 0, 5706 ∉ RCα = 0,05 =
= [5, 991, + ` ) . Se acepta la igualdad de varianzas.
Para el contraste de medias se obtiene Fo = 0, 5118 ∉ RCα =0,01 = [ 7, 56, + ` ) . Se
acepta que no hay diferencias significativas en el contenido medio de nitrógeno en el
agua de las tres lagunas.
13.4.23. a) βˆ = 1,1767, αˆ = 1,0669.

La ecuación de la recta de regresión ajustada es: A = 1, 0669 + 1, 1767 L.
Como la estimación del coeficiente de correlación es: ρ̂ = r . 0,997 que es po-
sitivo, al aumentar los valores de la longitud también aumentan los de anchura.
También se ve en la recta de regresión de A sobre L, porque la pendiente tiene el mis-
mo signo que el coeficiente de correlación entre las variables L y A.
b) En primer lugar se comprueba mediante el contraste de Bartlett que las va-
rianzas de las muestras de anchuras para cada medida de longitud considerada son
iguales. Una vez comprobada, se trata de contrastar las hipótesis:

Variación g.l.
Entre grupos QE = 0,3917 8 QE QE

= 0, 04896
8
Fo = 8 = 1, 8202
QD
QD 40
Residual QD = 1,076 40 = 0, 0269
40
Total Qδ = 1,4677 48
Como el valor del estadístico de contraste
se acepta la hipótesis nula,
no hay razones para rechazar el ajuste de los datos dados a la recta de regresión
µi = 1,0669 + 1,1767 Li. Esta recta de regresión se puede utilizar para estimar los va-
lores medios de la anchura a partir de la longitud de los esqueletos.
14.22.1. 0 0 0
 
a) M =  1 1 / 2 0  .
 0 1 / 2 1 
0
b) El vector estacionario es P =  0  .
 
 1 
0
 
c) lim P ( n ) = P =  0  . A la larga todos los descendientes serán recesivos.
n →`
 1 
14.22.2.  0, 4 0, 6 0, 2 
 
a) M =  0, 3 0, 1 0, 8  .
 0, 3 0, 3 0 
11 / 26   0, 4231
b) P =  9 / 26  .  0, 3462  .
 6 / 26   0, 2307 
11 / 26 
c) lim P ( n ) = P =  9 / 26  porque la matriz tiene un solo autovalor de
n→ `  
 6 / 26 
módulo uno. Los autovalores de M son –0,3, –0,2 y 1. La distribución
lim P ( n ) no depende de P(0).
n →`
0 1 
14.22.3. a) M =  .
1 0 
1 / 2
b) P =   , si un día determinado la mitad de los coches están en A1 y
1 / 2 
la otra mitad en A2 y cada 12 horas se desplazan de la forma indicada,
siempre se dejarán el 50% en cada aparcamiento.
c) Esta cadena no tiene distribución estable, porque la matriz de transición
tiene dos autovalores de módulo 1, que son 1 y –1.
1  0  1
Si P ( 0 ) =   ⇒ P (1) =   ⇒ P ( 2 ) =   ⇒ .... El comportamiento es cíclico.
0
  1
  0
APÉNDICE II 743
14.22.4.  1 0, 1 0, 01 0, 01
 0 0, 7 0, 3 0, 14 
a) M =  .
 0 0, 2 0, 5 0, 25
 
 0 0 0, 19 0, 6 
1
0
b) P =   .
0
 
0
1 
0 
c) lim P ( n ) = P =   . A la larga todos serían funcionarios.
n→ ` 0 
 
0 
14.22.5.  5 / 11
a) P =  4 / 11 .
 2 / 11
b) Como la matriz tiene por autovalores 1, 0,6732 y 0,3268 sí hay vector
 5 / 11
de probabilidad estable: lim P ( n ) = P =  4 / 11 independientemente de
n→ `
 2 / 11
la situación inicial.
Este vector da la proporción de empresarios, 5/11, de trabajadores por cuenta
ajena, 4/11 y de parados, 2/11, a la larga cualquiera que sea la situación inicial.
14.22.6. a) 0,2707; b) 0,4060; c) 0,5940.
14.22.7. a) 0,1044; b) 0,1755; c) 0,1462; d) 0,2583; e) 0,0404; f) 0,6160; g) 0,3840.
14.22.8. a) 0,1057; b) 0,9698; c) 0,0302;

6 3, 5x −3.5
x =1 x!
d) 1,2,3,4,5,ó 6 porque ∑ e . 0, 9045.
14.22.9. a) 0,0888; b) 2,0612 · 10–9 ⯝ 0; c) 0,5297.
14.22.10. a) 0,78 €/m2.
b) Sin aplicar el plan de conservación, la matriz de transición de la cadena es:

0 
0 
que tiene por vector de probabilidad estable P =   .
0 
 
1 
A la larga todos los parques y jardines quedan impracticables.
Aplicando el plan de conservación, la matriz de transición de la cadena que mo-
deliza la situación de los parques y jardines es:
 0, 655
 0, 146 
El vector de probabilidad estable en este caso es: P =  .
 0, 04 
 
 0, 159 
A la larga el 65,5% estarán en buen estado, el 14,6% poco deteriorados, el 4%
deteriorados y el 15,9% intransitables.
c) Antes de aplicar el plan, el índice de conservación es 4 y después de aplicar el
plan y alcanzar la situación estable es 4,025
d) 30 €/m2.
e) 0,8118 €/m2.
 0, 7122 
 0, 1583 
14.22.11. a) El vector de probabilidad estable en este caso es: P =   . Con el
 0, 0432 
 
 0, 0863 
nuevo plan, a la larga el 71,22% de los parques y jardines estarán en buen estado, el
15,83% poco deteriorados, el 4,32% deteriorados y el 8,63% impracticables.
b) 6,722.
c) 0,0687 €/m2. Mejora el índice de conservación considerablemente con un li-
gero aumento del coste por metro cuadrado.
APÉNDICE II 745
14.22.12. Con los datos dados la función semivariograma experimental es:
h g*(h)
0 0
1 200
2 80,5
3 40,5
4 84,5
5 144,5
6 18
7 122
8 338
La gráfica correspondiente es:
400
300
200
100
0
0 2 4 6 8
14.22.13. a) La estimación del valor de la variable en el punto x = 2 es z* (2) = 7,1.

b) Análogamente, se obtiene z* (7) = 4,4.
c) Para la primera estimación la varianza del error es σ e2 = 0, 24 y para la
segunda estimación σ e2 = 0, 864.
d) ICα =0,05 = [ 6, 1398, 8, 0602 ] .
14.22.14. Z * (x) . 34, 9o C.

14.22.15. z * (17) . 29, 4 y σ e2 = 0, 21.
14.22.16. a) z * ( x ) . 650, 15 m; σ e = 5, 9765 da una medida del error de esta esti-

mación. b) z * ( x 2 ) = 630 m. Para esta estimación es σ e2 = 0 por lo que no hay error.
14.22.17. a) z * ( 3) . 36, 6; b) ICα =0,05 = [ 35, 24, 37, 96 ] .
14.22.18. Indicando por B = [ 3, 4 ] la estimación del valor de la función en este in-

tervalo es: z β* ( B ) = 51.
14.22.19. En este caso z β* ( B ) = 44, 75 que es diferente de la estimación del proble-

ma anterior, porque en aquél el semivariograma depende de la distancia. El valor es
más alto, porque en los puntos más próximos los valores observados son más altos
que en los más alejados.
14.22.20. a) cero; b)1; c) 0,1251; d) 0,6672; e) 0,1251; f) 0,0835.

BIBLIOGRAFÍA
1. Alfaro Sironvalle, M. A. Estimación de Recursos Mineros. Paris. Centre de Geosta-

tistique de l’Ecole des Mines de Paris. 2007.
2. Armitage, P. Berry, G. Estadística para la Investigación Biomédica. Barcelona. Doy-
ma. 1992.
3. Azorín Poch. F. Curso de muestreo y aplicaciones. Madrid. Aguilar. 1969.
4. Berk, K. N. y Carey, P. Análisis de Datos con Microsoft® Excel. Actualizado para Of-
fice 2000. Madrid. Paraninfo Thomson Learning. 2001.
5. Billingsley, P. Probability and Measure.New York. Third edition. John Wiley &
Sons. 1995.
6. Box, G. E. P., Hunter, W. G., Hunter, J. S. Estadística para Investigadores. Intro-
ducción al Diseño de Experimentos, Análisis de Datos y Construcción de Modelos.
Barcelona. Reverté, S. A. 1989.
7. Blaesild, T. y Granfeldt, J. Statistics with applications in Biology and Geology. USA.
Chapman&Hall/CRC. 2003.
8. Calot, G. Curso de Estadística Descriptiva. Madrid. Trad. Cano Sevilla, F. J. Para-
ninfo. 1988.
9. Canavos, G. C. Probabilidad y Estadística. Aplicaciones y métodos. México. Mc-
Graw-Hill. 2003.
10. Cano Sevilla, F. J. Cálculo de Probabilidades y Estadística. Madrid. UNED. 1974.
11. Cullmann, G. Initiation aux Chaînes de Markov. Méthodes et Applications. Paris.
Masson. 1975.
12. Cullmann, G. Les Chaînes de Markov Multiples. Programmation Dynamique. Paris.
Masson. 1980.
13. Davis, J. G. Statistics and Data Analysis in Geology. New York. John Wiley. 1973.
14. Deutsch, C. V. y Journel, A. G. GSLIB Geostatistical Software Library and User’s
Guide. New York. Second Edition. Oxford University Press. 1998.
15. Diggle, P. J., Ribeiro, P. J. Jr. Model-based Geostatistics. New York. Springer. 2007.
16. Downie, N. M. y Heath, R. W. Métodos Estadísticos Aplicados. Madrid. Del Castillo.
1971.
17. Dretzke, B. J. Statistics with Microsoft-Excel. USA. Second edition. Prentice Hall.
2001.
18. Edwards, A. L. An Introduction to Linear Regression and Correlation. New York.

Second edition. W. H. Freeman and Company. 1984.
19. Fisher, R. A. Statistical Methods Experimental Design and Scientific Inference. Ox-
ford. Oxford University Press. 1995.
20. Fisher, LL. D. y Van Belle, G. Biostatistics. A methodology for the Health Sciences.
New York. John Wiley & Sons, Inc. 1993.
21. Gibbons, J. D. y Chakraborti, S. Nonparametric Statistical Inference. New York.
Third Edition, Revised and Expanded. Marcel Dekker. 1992.
22. Girault, M. Processus aléatoires. Paris. Dunod. 1965.
23. Gómez Villegas, M. A. Inferencia estadística. Madrid. Díaz de Santos. 2005.
24. González Manteiga, Ma T. Modelos Matemáticos Discretos en las Ciencias de la
Naturaleza. Teoría y problemas. Madrid. Díaz de Santos. 2003.
25. Hogg, R. V. y Craig, A. T. Introduction to Mathematical Statistics. New York.
Fourth Edition. Macmillan Publishing Company. 1989.
26. Hogg, R.V. y Tanis, E. A. Probability and Statistical Inference. New York. Macmil-
lan Publishing Company. 1988.
27. Johnson, R. y Bhattacharyya, G. Statistics: Principles and Methods. New York. John
Wiley & Sons Publisher. 1987.
28. Journel, A. G. Fundamentals of Geostatistics in Five Lessons. Washington. American
Geophysical Union. 2000
29. Kalbfleisch, J. G. Probabilidad e Inferencia estadística. Madrid. Tomos 1 y 2. AC.
1984.
30. Kitanidis, P. K. Introduction to Geostatistics. Applications in Hydrogeology. Cam-
bridge. Cambridge University Press. 1997.
31. Little, T. M. y Hills, F. J. Métodos estadísticos para la investigación en la Agricultura.
Mexico. Trillas. 1984.
32. Martínez Calvo, Ma C., Fernández Bermejo, E., González Manteiga, Ma T., Lahoz
Beltrá, R., Perales Graván, C. Matemáticas Básicas para Biólogos. Proyecto de In-
novación Educativa PIE 2003/3. Editorial Complutense, 2005. ISBN 84-7491-786-7
33. Martínez Calvo, Ma C., González Manteiga, Ma T., Fernández Bermejo, E., Pérez de
Vargas Luque, A., Lahoz Beltrá, R. Proyecto 439 de Innovación y Mejora de la Ca-
lidad Docente, convocatoria 2005. Problemas y ejercicios de autoevaluación
34. Massey, F. J. «The Kolmogorov-Smirnov test for goodness of fit» Journal of the
American Statistical Association, Vol. 46, N.o 253, págs. 68-78. Marzo 1951.
35. Matheron, G. Cours de Géostatistique. Paris. Ecole Nationale Supérieure des Mines.
1969.
36. Matheron, G. La Teoría de las variables regionalizadas y sus aplicaciones. Paris. Eco-
le Nationale Supérieure des Mines. 1970.
37. Matheron, G. Les Variables Régionalisées et leur estimation. Paris, Masson,
1965.
38. Mendenhall, W., Scheaffer, R. L. y Wackerly, D. D. Estadística Matemática con Apli-
caciones. Mexico. Grupo Editorial Iberoamérica. 1986.
39. Mendenhall, W. Sincich, T. Probabilidad y Estadística para Ingeniería y Ciencias.
Mexico. Cuarta Edición. Prentice-Hall Hispanoamericana, S.A. 1997.
40. Miller, L. H. «Table of percentage points of Kolmogorov statistics» Journal of the
American Statistical Association, Vol.51, N.o 273, págs. 111-121. Marzo 1956.
41. Mills, R. L. Estadística para Economía y Administración. Bogotá. McGraw-Hill.
1977.
BIBLIOGRAFÍA 749
42. Miranda-Salas, M. y Condal, A. R. «Importancia del análisis estadístico exploratorio

en el proceso de interpolación espacial: caso de estudio Reserva Forestal Valdivia.
Bosque (Valdivia). Vol. 24, N.o 2, págs. 29-42. Agosto 2003.
43. Mood, A.M., Graybill, F. A., Boes, D. C. Introduction to the Theory of Statistics. Sin-
gapore. McGraw-Hill International Book Company. 1974.
44. Moore D. S. The Basic Practice of Statistics. New York. Fourth edition. W. H. Free-
man and Company. 2007.
45. Moral García, F. J. «Aplicación de la geoestadística a las ciencias ambientales» Eco-
sistemas. Año XIII, N.o 1/2004.
46. Moral García, F. J. La Representación Gráfica de las Variables Regionalizadas.
Geoestadística Lineal. Universidad de Extremadura. 2003.
47. Muruzábal Irigoyen, J. J. Elementos de Estadística. Madrid. Colegio de Ingenieros de
Caminos, Canales y Puertos. 2005.
48. Novo Sanjurjo, V. Estadística Teórica y Aplicada. Madrid. Sanz y Torres. 2004.
49. Novo Sanjurjo, V. Problemas de Cálculo de Probabilidades y Estadística. Madrid.
Sanz y Torres. 2004.
50. Olea, R.A. Geostatistics for engineers and earth scientists. London. Kluwer Academic
Publishers. 1999.
51. Pagano, M., Gauvreau, K. Fundamentos de Bioestadística. Madrid. Segunda edi-
ción. Paraninfo Thomson Learning. 2001.
52. Pearson, A. V. y Hartley, H. O. Biometrics tables for statisticians. Cambridge. Cam-
bridge University Press. 1972.
53. Peña Sánchez de Rivera, D. Análisis de Series Temporales. Madrid, Alianza Editorial
S. A. 2005.
54. Peña Sánchez de Rivera, D. Estadística. Modelos y métodos. 1. Fundamentos. Madrid.
Segunda edición. Alianza Universidad Textos. 1991.
55. Peña Sánchez de Rivera, D. Estadística. Modelos y métodos. 2. Modelos lineales y se-
ries temporales. Madrid. Segunda edición. Alianza Universidad Textos. 1989.
56. Pérez López, C. Métodos Estadísticos con Statgraphics para Windows. Técnicas
Básicas. Madrid. RaMa. 1998.
57. Pérez López, C. Muestreo estadístico. Conceptos y problemas resueltos. Madrid.
Pearson Prentice Hall. 2005.
58. Pérez López, C. Estadística Práctica con Statgraphics®. Técnicas Básicas. Madrid.
Prentice Hall. 2002.
59. Pérez de Vargas Luque, A. y Martínez Calvo, Ma C. Estadística Biométrica. Madrid,
Síntesis. 2000.
60. Pérez de Vargas Luque, A. y Abraira, V. Bioestadística. Madrid. Centro de Estudios
Ramón Areces. 1996.
61. Quesada Paloma, V., Isidoro Martín. A. y López Martín, L. A. Curso y ejercicios de
Estadística: aplicación a las ciencias biológicas, médicas y sociales. Madrid. Alam-
bra Universidad. 1982.
62. Ríos García, S. Métodos Estadísticos. Madrid. Del Castillo, S.A. 1970.
63. Rohatgi, V. K. An Introduction to Probability Theory and Mathematical Statistics.
New York. John Wiley & Sons, 2001.
64. Rohatgi, V. K. Statistical Inference. New York. John Wiley & Sons, 2003.
65. Rosner, B. Fundamentals of Biostatistics. USA. Fourth edition. Duxbury Press. 1995.
66. Ross, S. M. Introduction to Probability and Statistics for engineers and scientists.
New York. John Wiley & Sons Publisher. 1987.
67. Ross, S. M. Introduction to Probability Models. London. Fifth Edition. Academic

Press, Inc. 1993.
68. Ruiz-Maya, L. Métodos Estadísticos de Investigación. Introducción al Análisis de la
Varianza. Madrid. INE. 1977.
69. Samper Calvete, F. J. y Carrera Ramírez, J. Geoestadística. Aplicaciones a la hidro-
logía subterránea. Barcelona. Segunda Edición. CIMNE. 1996.
70. Sánchez del Río, C. Análisis de errores. Madrid. Eudema. 1989.
71. Sánchez-Crespo Rodríguez, J. L. y García España, E. Estadística Descriptiva. Madrid,
INE. 1961.
72. Sarabia, A. y Mate, C. Problemas de Probabilidad y Estadística. Elementos teóricos.
Cuestiones. Aplicaciones con Statgraphics. Madrid. Clagsa. 1993.
73. Sokal, R. B. y Rohlf, F. J. Introducción a la Bioestadística. Barcelona. Reverté.
1980.
74. Thomas, D. C. Statistical Methods in Genetic Epidemiology. New York. Oxford
University Press. 2004.
75. Vargas Sabadía, A. Estadística descriptiva e inferencial. Cuenca. Universidad de
Castilla-La Mancha. 1996.
76. Viedma, J. A. Exposición intuitiva y problemas resueltos de Métodos Estadísticos.
Fundamentos y Aplicaciones. Madrid. Del Castillo, S.A. 1981.
77. Walpole R. E. Introduction to Statistics. New York. Third Edition. Macmillan Pub-
lishing Company. 1982.
78. Walpole R. E. y Myers R. H. Probabilidad y Estadística para Ingenieros. Mexico. In-
teramericana. 1982.
79. Webster, R. y Oliver, M. A. Geostatistics for Environmental Scientists. England.
Second Edition. John Wiley & Sons, Ltd. 2007.
80. Woodworth, G. G. Biostatistics. A Bayesian Introduction. New Jersey. John Wiley &
Sons, Inc. 2004.
81. Yeargers, E. K., Shonkwiler, R. W. y Herod, J. V. An introduction to the Mathematics of
Biology. With Computer Algebra Models. Boston. Birkhäuser. 1996.
82. Zar, J. H. Biostatistical Analysis. Mexico. Third Edition. Prentice Hall. 1996.
Direcciones de interés en Internet:

http://www.ine.es/
Portal del Instituto Nacional de Estadística Español.
http://www.mecd.es/
Página Oficial del Ministerio de Educación y Ciencia Español.
http://www.mecd.es/educa/ccuniv/
Secretaría General del Consejo de Coordinación Universitaria.
http://www.inm.es/
Portal del Instituto Nacional de Meteorología.
http://www.sema.org.es/
Sociedad Española de Matemática Aplicada.
BIBLIOGRAFÍA 751
http://www.rsme.es/
Real Sociedad Matemática Española.
http://www.mat.ucm.es/IMI/
Instituto de Matemática Interdisciplinar.
http://www.kuleuven.ac.be/ucs/java/
Colección de applets en Java que permiten representar conceptos estadísticos.
http://www.stat.vt.edu/~sundar/java/applets/
Un entorno interactivo en Java para la enseñanza de la Estadística.
http://www.du.edu/psychology/methods/concepts/
Portal con enlaces a páginas Web que permiten mostrar applets de probabilidad, dis-
tribuciones, regresión y correlación, inferencia.
http://e-stadistica.bio.ucm.es/
Aula Virtual de Bioestadística. Dpto. Matemática Aplicada (Biomatemática) Facultad
de CC. Biológicas de la UCM.
http://www.statgraphics.net/
Portal de STATGRAPHICS®
http://www.ai-geostats.org/
Web con información de Geoestadística y Estadística Espacial.
http://www.goldensoftware.com/
Portal de SURFER® y GRAPHER®
http://epp.eurostat.ec.europa.eu/
EUROSTAT. Servicio de información estadística de la Unión Europea.
http://geologia.co.uk/paleopag/index.php
Página de geología, paleontología, medio ambiente…
http://www.gslib.com/
Página de información de Geostatistical Software Library.
http://freestatistics.altervista.org/en/data.php
Fuente de datos estadísticos proporcionada por los institutos nacionales de todo el
mundo.
http://freestatistics.altervista.org/en/stat.php
Software estadístico de libre acceso.
http://freestatistics.altervista.org/en/comp.php
Comparación de software estadístico de libre acceso y tipo de análisis que realizan.
ÍNDICE ANALÍTICO
Ajuste de una parábola de segundo grado, Bayes, teorema de, 175

137 Bernoulli, distribución de, 210
Alcance, 631 Binomial, distribución, 212
Álgebra de sucesos, 159 Binomial negativa, distribución, 218
Amplitud de intervalo, 37, 403 Bondad de ajuste, 479
Análisis de la regresión lineal simple, 559 prueba χ2 de, 480, 487
con varias medidas de la variable Y
para un mismo valor de X, 573 Cadenas de Markov, 598
Análisis de la varianza, 540-548 Caracteres,
con un factor de variación, 542 cualitativos, 17
Análisis estructural, 614 cuantitativos, 18
de los datos, 640 Características de forma, 67
Análisis exploratorio de los datos, 613, Cartogramas, 39
619 Centiles, 51
ANOVA, 539-548 Central, teorema, 325
simple, 554 Chebyshev, desigualdad de, 255, 380, 405
Aproximacion de la distribución, Chi-cuadrado, 358 (Ver también χ2 )
binomial por la normal, 327 Clases de estimadores, 345
binomial por una de Poisson, 230 Cochran, prueba Q de, 519
de Poisson por la normal, 332 Coeficiente,
χ2 por la normal, 360 de asimetría, 207, 254
Asimetría, de Fisher, 67
negativa, 207, 254 de Pearson, 68
positiva, 207, 254 de correlación,
Axiomática de probabilidad, 165 de Pearson, 106, 119
lineal, 299
Baricentro, 105 de curtosis, 69, 207, 254, 259
Barras, diagrama de, 39, 40 de Fisher, 70
Bartlett, de determinación,
contraste de, 549 lineal, 115
prueba de, 549 parabólico, 137
de regresión de x sobre y, 113 Desigualdad de Chebyshev, 255, 380, 405

de regresión de y sobre x, 113 Desviación,
de sesgo, 67, 207, 254, 259 absoluta media, 62
de variación, 206, 253 estándar, 63
de Pearson, 64 típica, 63, 204
Comparaciones múltiples, 556 Diagrama,
procedimientos a posteriori de, 556 de barras, 39, 40
Conjunto de estados de la cadena, 598 de caja y bigotes, 74, 620, 671
Contraste(s), (Ver también Pruebas) de dispersión, 102, 108
Bilateral(es), 425, 450, 454, 456 de rectángulos o de barras, 38
de Bartlett, 549 de tallo y hojas, 79, 82
de Hartley, 548 Distribución(es),
de hipótesis, 423 bidimensional(es), 99, 273, 305
no paramétricos, 479 binomial, 212
para el parámetro β, 563 negativa, 218
paramétrico(s), 423, 424 condicionadas, 104, 277
de la menor diferencia significativa continuas, 294
(método LSD), 557 continua uniforme, 257
de la t de Student, 539 de Bernoulli, 210
–
de normalidad de Kolmogorov-Smir- de la variable aleatoria X , 335
nov, 674 de Pascal, 216, 219
de rangos de Friedman, 521 de Poisson, 226
de significación de la regresión lineal de probabilidad(es),
simple, 566 acumulada bidimensional, 274
χ2 de McNemar, 509 continua(s), 241
no paramétricos, 479 de equilibrio, 601
paramétrico(s), 423, 424 de una proporción observada, 336
potencia del, 431 discreta(s), 191
U de Mann-Whitney, 515 uniforme, 208
unilaterales, 425, 452, 455, 460 exponencial, 357
Corrección, F de Snedecor-Fisher, 365
de continuidad, 328, 330 gamma, 356
de Sheppard, 63 geométrica, 215, 216
Correlación lineal, coeficiente, 299 hipergeométrica, 220
Covarianza, 106, 296, 623 marginal(es), 103, 275, 292
Covariograma, 629 multinomial, 285
Criterio de decisión, 428 normal, 258
Cuantiles, 51, 53, 206, 253 bidimensional, 305
Cuartiles, 53, 206, 253 multidimensional, 308
Cuasivarianza(s) simétrica, 207, 254
marginales, 105 t de Student, 361
muestral, 63, 354 χ2 , 358
Curtosis, coeficiente de, 69, 207, 259 aproximación por la normal, de la, 360
Dominio de variación, 614
De Moivre, teorema de, 327
Deciles, 54 Ecuaciones,
Densidad marginales, funciones de, 293 del krigeado,
Deriva, 622, 631 ordinario, 655
ÍNDICE ANALÍTICO 755
por bloques, 664 F de Snedecor-Fisher, distribución de, 365

simple, 646 Factor de corrección para poblaciones fi-
normales, 111 nitas, 352
Efecto pepita, 628 Fisher,
puro, 641 coeficiente de, 67, 70
Error, asimetría de, 67
de muestreo, 352 curtosis de, 70
de tipo I, 430-432, 435, 436 índice de, 91
de tipo II, 430-432, 435, 436 Frecuencia,
típico del estimador, 352, 373, 374 absoluta, 33, 162
histograma, 42
Espacio, polígono, 40, 41,42
muestral, 157 acumulada, 35
probabilístico, 165 histograma, 45
Esperanza, polígono, 45
de una función de X , 282 relativa, 35, 162
matemática, 201, 250, 277, 293, 622 histograma, 43, 44
Estacionaria de segundo orden, 628 polígono, 43, 44
Estadígrafos, 48, 319 acumulada, 35
Estadística, histograma, 45
aplicada, 612 polígono, 45
espacial, 612
Friedman, contraste de rangos, 521
clásica, 642
Función(es),
Estadístico(s), 48, 319, 337, 345
aleatoria(s), 614, 615
apropiado para el contraste, 425, 471,
estacionarias, 628
472
intrínsecas, 631
Estereogramas, 103
característica, 301
Estimación,
de la varianza σ2, 354
de densidad, 244, 264
de una proporción, 353 conjunta, 289
del valor de la variable, 615 marginales, 293
espacial, 614 de distribución, 242
por krigeado, 643 bidimensional, 288
puntual, 351 conjunta, 288
Estimador(es), 337, 345 marginales, 292
centrado(s), 345, 373 de probabilidad, 197
clases, 345 acumulada, 199
consistentes, 347 acumulada conjunta, 274
de máxima verosimilitud, 560 bidimensional, 274
del semivariograma, 624 conjunta, 274
eficientes, 348 estructural, 623
puntuales, 372 gamma, 355
suficientes, 348 generatriz, 282
Estimar, 404, 405 de momentos, 282, 301
Estocástico, proceso, 595, 598 intrínseca, 632
Estrictamente estacionaria, 628 variograma, 623
Experimento aleatorio, 157
Exponencial, distribución, 357 Geométrica, distribución, 215, 216
Geostadística, 597, 612, 642 para las estimaciones, 668

lineal, 622 para σ, 403
Grados de libertad, 359, 362, 365 para p, 400
Gráficos de sectores, 37 para µ, 396
para µY X = x = α + β x , 579
Hartley, de probabilidad, 374, 375
contraste de, 548 con riesgo α para cuasidesviación tí-
prueba de, 548 pica s, 382
Hipergeométrica, distribución, 220 con riesgo α para el cociente de cua-
Hipótesis, sivarianzas, 386
alternativa, 424 con riesgo α para la diferencia de
de homocedasticidad, 545, 560 medias X1 − X2, 383
nula, 424 con riesgo α para la diferencia de
para el parámetro β, proporciones muestrales, 387
contraste de, 563 con riesgo α para p̂, 378
Histograma de frecuencias, con riesgo α para s2, 381
con riesgo α para X , 375
absolutas, 42 –
acumuladas, 45
relativas, 43 χ2 , distribución, 358
acumuladas, 45 Ji-cuadrado, 358
Homocedasticidad, 545, 560
Homogeneidad, prueba χ2 de, 500 Kolmogorov-Smirnov, prueba de, 503,
620, 674
Independencia, Krigeado, 614, 639, 641
de variables aleatorias, 278, 295 estimación por, 643
prueba χ2 de, 496 ordinario, 643, 650
Índice, ecuaciones del, 655
complejo o compuesto, 87 por bloques, 643, 663
de Dependencia Espacial, 641 ecuaciones del, 664
de Fisher, 91 puntual, 643
de Laspeyres, 88 simple, 643, 644
de Paasche, 90 ecuaciones del, 646
de Precios de Consumo (IPC), 88 tipos de, 642
de Sauerbeck, 88 Kruskal-Wallis, prueba de, 524
simple, 87
Inferencia estadística, 319 Lagrangiano, 654, 663
Interpolación o estimación espacial, 614 Laplace, regla de, 164
Intersección de sucesos, probabilidades Laspeyres, índice de, 88
de la, 173 Leptocúrtica, 70, 207, 254
Intervalo(s), Ley del azar, 164
amplitud de, 37, 403 Límite, teorema del, 325
de confianza, 395, 399 Límites reales, 36
para β, 578 Lindeberg-Lévy, teorema de, 326
para el cociente de varianzas, 412 Localización, 614
para la diferencia de medias, 406 LSD, método, 557
para la diferencia de proporciones,
409 Mann-Whitney, contraste U de, 515
para la varianza poblacional, 401 Marca(s) de clase(s), 36, 101
Markov, cadenas de, 598 respecto,

Matriz de transición, 599 de la media, 67
en una etapa, 599 del baricentro, 105
Máxima verosimilitud, del origen, 66, 105
estimadores de, 560 Muestra, 12
método de la, 348 tamaño de la, 403-405
McNemar, contraste χ2 de, 509 Muestreo,
Media, 250, 620 aleatorio simple, 14
aritmética, 49 con reemplazamiento, 14, 372
ponderada, 49 estratificado, 15
armónica, 50 irrestrictamente aleatorio, 14
cuadrática, 50 por conglomerados o áreas, 16
geométrica, 50 sin reemplazamiento, 14, 372
Mediana, 51, 74, 206, 620
Medias marginales, 104 Noción de riesgo, 429
Medidas, Normal, distribución, 258
de dispersión, 61 bidimensional, 305
de frecuencia, 56 multidimensional, 308
de posición, 48 Nube de puntos, 102, 108
de tamaño, 48 Nugget effect, 628
Mejor estimador lineal insesgado, 643 Número(s),
Meseta, 631 de grados de libertad, 359
Mesocúrtica, 70, 207, 254, índice(s), 85
Método,
de la máxima verosimilitud, 348 outliers, 75, 620
de los momentos, 351
de mínimos cuadrados, 110, 136, 642 P-valor, 437-439
LSD, contraste de la Menor Diferencia Paasche, índice de, 90
Significativa, 557 Parámetro(s), 319, 337, 345
Moda, 56, 206, 253 Pascal, distribución de, 216, 219
Modelo(s), Pearson, coeficiente de,
efecto pepita puro, 633 asimetría, 68
esférico, 636 correlación de, 106, 119
con efecto pepita, 636 distribución χ2, 358
exponencial, 638 variación, 64
con pepita, 638 Percentiles, 54, 207, 254
gaussiano, 637 Pictogramas, 39
lineal, 634 Platicúrtica, 70, 207, 254
acotado, 635 Polígonos de frecuencias absolutas, 41
potencial, 634 Población, 12
teóricos de semivarigrama, 632 Poblaciones finitas, factor de corrección,
Momento(s), 352
central de orden r, 203 Poisson,
respecto de la media, 203, 251 aproximación de una distribución bino-
respecto del origen, 204, 252 mial por una de, 230
método de los, 351 aproximación por la normal de la dis-
para las distribuciones marginales, 275, tribución de, 332
293 distribución de, 226
proceso de Hartley, 548

espacial de, 610 de Kolmogorov-Smirnov, 503, 620,
temporal de, 604 674
Polígono de frecuencias, de Kruskal-Wallis, 524
absolutas, 40, 42 de los rangos con signo de Wilcoxon,
acumuladas, 45 512
relativas, 43 χ2 de,
acumuladas, 45 bondad de ajuste, 480
Potencia de un contraste, 431 homogeneidad, 500
Precisión, 403-405 independencia, 496
Probabilidad(es) Q de Cochran, 519
a posteriori, 175 unilaterales,
a priori, 175 para µ, 445
de la intersección de sucesos, 173 para p, 441
de transición, 598 para σ2, 448
de una región plana, 289 Puntos críticos, (Ver también Valores crí-
del suceso B condicionado a A, 171 ticos) 363, 366, 367
en espacios muestrales infinito-nume-
rables, 179 Rango(s), 61, 75,631
propiedades de la, 166 con signo de Wilcoxon, prueba de, 512
total, teorema de la, 174 intercuartílico, 620
Proceso, Realización, 614-615
de Poisson, Recorrido,
espacial, 610 intercuartílico, 62, 75
temporal, 604 Recta,
estocástico, 595 de regresión de x sobre y, 113
de parámetro discreto, 598 de regresión de y sobre x, 110
espacial, 615 Región,
homogéneo en el tiempo, 598 crítica, 426, 430, 471, 472
temporal, 598 de aceptación, 426
Propiedades de la probabilidad, 166 Regionalizadas, variables, 597
Proporción, Regla de Laplace, 164
observada, distribución de una, 336 Regresión de tipo,
estimación de una, 353 exponencial, 130
Prueba(s), (Ver también Contrastes) homográfica o hiperbólica, 135
bilateral(es), potencial, 134
para µ, 443 Regresión lineal simple,
para p, 439 análisis de la, 559
para σ2, 44 con varias medidas de la variable Y
de Bartlett, 549 para un mismo valor de X, 573
de comparación, contraste de significación de la, 566
de dos proporciones, 450 Riesgo α, 403
de dos varianzas, 453
de dos medias, 456 σ-álgebra, 161
de conformidad, Sauerbeck, índice de, 88
con una varianza teórica, 447 Semivariograma, 622, 623, 630, 632
con una proporción teórica, 439 estimador de, 624
con una media teórica, 443 experimental, 623-625, 627
modelos teóricos de, 632 Valor(es),

muestral, 624 atípico(s), 75, 620
regularizado, 661 crítico(s), (Ver también Puntos críticos),
Significación de la regresión lineal sim- 360, 367-369, 386, 387, 484,505,
ple, contraste de, 566 556, 558
Sistema de ecuaciones normales, 137 tablas, 685-691, 693, 694
Sondeo, tasa de, 226 esperado, 250
Sucesión de variables aleatorias, 325 Variable(s),
Suceso(s), aleatoria(s), 192, 241
aleatorio, 159 bidimensional (X, Y), 274, 287
B condicionado a A, 163 continua, 241
compuesto, 160 discreta, 192, 193, 273
contrario a S, 159 espacial, 614
dependientes e independientes, 171 independencia de, 295
elemental, 160 regionalizada, 614
–
imposible, 159 X , 335
probabilidad de la intersección de, 173 continua, 19
seguro, 159 dependiente, 110, 559
Suma de cuadrados, discreta, 18
de las desviaciones, 575 estadística, 31
de los errores, bidimensional, 99
dentro de los grupos, 575 explicativa, 110, 559
entre grupos, 575 independiente, 110, 559
interniveles, 545 regionalizadas, 597, 612, 613
residual o intranivel, 544 regularizada, 660
respuesta, 110, 559
t de Student, Varianza(s), 62, 203, 278, 293, 623
distribución, 361 análisis de la, 540
contrastes de la, 539 estimación de la, 354
Tablas, 685-694 del error, 645, 649, 652, 653, 655, 663
Tamaño de la muestra, 403-405 de estimación, 647, 664
Tasa de sondeo, 226 marginal(es), 105
Tendencia, 622, 631 Variograma, 622, 623
Teorema(s), Vector,
central, 325 aleatorio bidimensional, 274, 287
de Bayes, 175 de probabilidades,
de De Moivre, 327 estable, 602
de la probabilidad total, 174 estacionario, 601
de Lindeberg-Lévy, 326 fijo, 601
del límite, 325 Verosimilitudes, 175
Test de Hipótesis (Ver Contrastes y Prue-
bas) Wilcoxon, prueba de los rangos con signo
Tipificar la variable, 260 de, 512

2009 3ST4D15T1C4 4PL1C4D4 Un4 V1510N 1nstrum3nt4l PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

2009 3ST4D15T1C4 4PL1C4D4 Un4 V1510N 1nstrum3nt4l PDF

Caricato da

Copyright:

Formati disponibili

ESTADÍSTICA APLICADA

UNA VISIÓN INSTRUMENTAL

Reservados todos los derechos.

«No está permitida la reproducción total o parcial de este libro,

Ediciones Díaz de Santos

Diseño de cubierta: Ángel Calvete

POR QUÉ Y PARA QUÉ SE HA ESCRITO ESTE LIBRO ..................... XIX

PRÓLOGO .................................................................................................. XXI

2. Estadística descriptiva unidimensional

2.4.2. Medidas de dispersión ...................................................... 61

3. Estadística descriptiva bidimensional

4.5. Axiomática para la probabilidad. Propiedades de la probabilidad ... 164

5. Distribuciones de probabilidad discretas

6. Distribuciones de probabilidad continuas

6.9. Características de forma ............................................................ 254

7. Distribuciones bidimensionales y multidimensionales

8. Inferencia estadística. Teoremas del límite

8.4.3. Teorema de De Moivre ..................................................... 327

9. Estimación de los parámetros de una población

10. Intervalos de confianza de los parámetros de una población

11. Contrastes de hipótesis paramétricos

11.8.2. Contrastes unilaterales ................................................. 452

12. Contrastes no paramétricos

13. Análisis de la varianza y análisis de la regresión

13.2.3. ¿Cómo hacerlo con STATGRAPHICS? ....................... 554

14. Una introducción a los procesos estocásticos y a la estadística espacial:

14.1. Introducción ............................................................................. 595

14.12.7. Modelo gaussiano ..................................................... 637

Soluciones a los problemas propuestos ................................................... 697

¿Un libro más de Estadística? No, un libro distinto. No es un libro teórico, no

El profesor tendrá un papel más de tutor que de transmisor de conocimientos y ha

El propósito principal de esta obra es presentar la estadística desde el punto de

ciones en la biología, en la medicina, en hidrología, en edafología, y en otros cam-

Departamento de Paleontología de la Facultad de Ciencias Geológicas, a los an-

FIGURA 1.1. Usuarios de Internet en 2006.

Se advierte que las cantidades absolutas dan una información importante,

Figura 1.2. Datos históricos de pluviometría.

FIGURA 1.3. Mediana y cuartiles para retribución por cargos.

Son también frecuentes las representaciones gráficas, pues la información

FIGURA 1.4. Variación de porcentajes de propiedad de acciones.

FIGURA 1.5. Variación anual de PIB mundial y de las exportaciones de mercancías.

Los diagramas de barras permiten ver diferentes resúmenes y compararlos. En

FIGURA 1.6. Comparación de las precipitaciones en mm en las cuencas españolas.

En el mapa de la Figura 1.6, elaborado por el Instituto Nacional de Meteorolo-

FIGURA 1.8. Comparación del estado de la educación en la Unión Europea.

FIGURA 1.9. Comparación de la incidencia de la gripe en España por grupos de edad.

FIGURA 1.10. Venta de periódicos e índices de difusión por Comunidades Autónomas

LATITUD (KM) (DISTANCIA AL PARALELO CORTIJO DE LA TORRE - CARCAMO)

FIGURA 1.12. Relación entre la presencia de los isótopos oxígeno-18 y deuterio

En la Figura 1.12, se refleja la relación entre los isótopos oxígeno-18 y deuterio,

9. Comparar los rendimientos medios de dos grupos de trabajadores que re-

Aunque el origen de la estadística es remoto, esta rama de las matemáticas es de

Se entiende por estadística el conjunto de técnicas y teorías que permiten al-

1. Planificar la recolección de los datos necesarios y suficientes para realizar

La estadística es una ciencia construida sobre la estadística descriptiva, el cál-

1.2. CONCEPTOS GENERALES BÁSICOS

Se ha obtenido así una muestra de tamaño 10 en la que no aparece ningún ele-

Cada vez que se repite la operación de Guardar resultados, el programa pro-

1.3. TIPOS DE MUESTREO ALEATORIO EN POBLACIONES

Hay distintos procedimientos aleatorios para elegir de los N elementos de una

1. Muestreo aleatorio simple. Se selecciona el primer elemento de la muestra

babilidad de elegir un elemento determinado de la población depende de los se-

3. Muestreo estratificado. Si la población que se pretende estudiar no es ho-