Estadística bidimensional y correlación

OPOSICIONES OBSERVADOR DE METEOROLOGÍA MATEMÁTICAS
TEMA 8
Estadística descriptiva bidimensional. Relaciones entre dos
variables estadísticas. Parámetros estadísticos bidimensionales:
medias y desviaciones típicas marginales, covarianza. Coeficiente
de correlación lineal. Regresión lineal.
INTRODUCCIÓN. 1
Definición de Estadística: la palabra estadística procede del vocablo "estado"

pues era función principal de los gobiernos de los estados establecer registros de
población, nacimientos, defunciones, etc. Hoy en día la mayoría de las personas
entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen
publicar en los periódicos. En la actualidad se entiende por estadística como un
método para tomar decisiones, de ahí que se emplee en multitud de estudios
científicos.
La estadística se puede dividir en dos partes:
 Estadística descriptiva o deductiva, que trata del recuento , ordenación y

clasificación de los datos obtenidos por las observaciones . Se construyen
tablas y se representan gráficos, se calculan parámetros estadísticos que
caracterizan la distribución, etc.
 Estadística inferencial o inductiva, que establece previsiones y conclusiones
sobre una población a partir de los resultados obtenidos de una muestra . Se
apoya fuertemente en el cálculo de probabilidades.
Algunas definiciones:
Población: es el conjunto de todos los elementos que cumplen una

determinada característica. Ejemplo: alumnos matriculados en estudios
universitarios en toda España.
Muestra: cualquier subconjunto de la población. Ejemplo: alumnos

matriculados en estudios universitarios en Xàtiva.
Carácter estadístico: es la propiedad que permite clasificar a los individuos,

puede haber de dos tipos:
 Cuantitativos: son aquellos que se pueden medir. Ejemplo: nº de hijos,

altura, temperatura,…
 Cualitativos: son aquellos que no se pueden medir. Ejemplo: profesión, color
de ojos, estado civil,…
http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

+34963520174 https://www.facebook.com/meteoares/
Variable estadística: es el conjunto de valores que puede tomar el carácter

estadístico cuantitativo (pues el cualitativo tiene "modalidades’’) . Puede ser de dos
tipos:
 Discreta: si puede tomar un número finito de valores. Ejemplo : nº de hijos

 Continua: si puede tomar todos los valores posibles dentro de un intervalo.
Ejemplo: temperatura, altura.
Frecuencia absoluta 𝒇𝒊 : (de un determinado valor xi) al número de veces que se

repite dicho valor.
Frecuencia absoluta acumulada 𝑭𝒊 : (de un determinado valor xi) a su frecuencia 2

absoluta más la suma de las frecuencias absolutas de todos los valores anteriores.
Frecuencia relativa 𝒉𝒊 : es el cociente siguiente, donde N es el número total de

datos.
𝑓𝑖
ℎ𝑖 =
𝑁
Frecuencia relativa acumulada Hi: Es el cociente definido por:
𝐹𝑖
𝐻𝑖 =
𝑁
Si las frecuencias relativas las multiplicamos por 100 obtenemos los

porcentajes correspondientes.
Tratamiento de la información: se deben de seguir los siguientes pasos:
 recogida de datos
 ordenación de los datos
 recuento de frecuencias
 agrupación de los datos, en caso de que sea una variable aleatoria continua
o bien discreta pero con un número de datos muy grande se agrupan en
clases. Nº de clases =√𝑁 . Los puntos medios de cada clase se llaman
marcas de clase. Además se debe adoptar el criterio de que los intervalos
sean cerrados por la izquierda y abiertos por la derecha.
 construcción de la tabla estadística que incluirá, clases, marca de clase, fi,
Fi, hi , Hi .
Ejemplo: Las notas de Matemáticas de un grupo de 1º de bachillerato del IES Serra

Perenxisa de Torrent, en el curso 2010/2011, han sido las siguientes :
534128987667987710159980888957
Construir una tabla de frecuencias. La tabla correspondiente a esta serie de

valores es la siguiente:

𝒙𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 𝑯𝒊
0 2 2 2/30 2/30
1 3 5 3/30 5/30
2 1 6 1/30 6/30
3 1 7 1/30 7/30
4 1 8 1/30 8/30
5 3 11 3/30 11/30
6 2 13 2/30 13/30
3
7 5 18 5/30 18/30
8 7 25 7/30 25/30
9 5 30 5/30 30/30
30 1
Representaciones gráficas: para hacer más clara y evidente la información que

nos dan las tablas se utilizan los gráficos, que pueden ser:
 Diagramas de barras (datos cualitativos y cuantitativos de tipo discreto). En

el eje y se pueden representar frecuencias absolutas o relativas.
 Histogramas. Se utilizan cuando hay datos cuantitativos de tipo continuo o

discreto con un gran número de datos. El histograma consiste en levantar
sobre cada intervalo un rectángulo cuyo área sea igual a su frecuencia
absoluta
á𝑟𝑒𝑎 = (𝑏𝑎𝑠𝑒) · (𝑎𝑙𝑡𝑢𝑟𝑎)

𝑓𝑖 = ∆𝑥𝑖 · 𝑛𝑖
La altura de cada rectángulo vendrá dada por ni que se llama función de

densidad. Si por ejemplo un intervalo es doble de ancho que los demás su altura 𝑛𝑖
debe ser la mitad de la frecuencia absoluta y así no se puede inducir a errores.
Normalmente la amplitud de los intervalos es constante por lo que ni será
proporcional a 𝑓𝑖 y por tanto podemos tomar 𝑓𝑖 como la altura 𝑛𝑖 ya que la forma del

gráfico será la misma , aunque ahora el área del rectángulo ya no sea exactamente
la frecuencia absoluta (a no ser que la amplitud del intervalo sea igual a 1).
 Polígono de frecuencias. Se une con una línea la parte superior de cada

barra.
8
7
frecuencias absolutas fi
6 4
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
notas
 Diagrama de sectores
 Cartogramas
 Pirámides de población
 Diagramas lineales
 Pictogramas

CÁLCULO DE PARÁMETROS ESTADÍSTICOS:
Medidas de centralización:
 Media aritmética :
∑𝑖𝑖=1 𝑥𝑖 ∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖
𝑥̅ = =
𝑁 𝑁
En el caso de que los datos estén agrupados en clases, se tomará la marca de

clase como xi . No siempre se puede calcular la media aritmética como por ejemplo
cuando los datos son cualitativos o los datos están agrupados en clases abiertas. 5
En el siguiente ejemplo, notas en Matemáticas obtenidas por los 30 alumnos

de una clase, la distribución es:
𝒙𝒊 𝒇𝒊 𝒇𝒊 · 𝒙𝒊
0 2 0
1 3 3
2 1 2
3 1 3
4 1 4
5 3 15
6 2 12
7 5 35
8 7 56
9 5 45
30 175
Así que la media aritmética es:
∑𝑖𝑖=1 𝑥𝑖 ∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 175

𝑥̅ = = = = 5,83
𝑁 𝑁 30
 Moda : es el valor de la variable que presenta mayor frecuencia absoluta .

Puede haber más de una. Cuando los datos están agrupados en clases se
puede tomar la marca de clase o utilizar la fórmula :
𝑑1
𝑀𝑜 = 𝐿𝑖𝑛𝑓 + ∆
𝑑1 + 𝑑2

Donde Linf es el límite inferior de la clase modal , ∆ es la amplitud del intervalo ,

𝑑1 es diferencia entre la 𝑓𝑖 de la clase modal y la 𝑓𝑖 de la clase anterior y 𝑑2 es la
diferencia entre la fi de la clase modal y la fi de la clase posterior .
La moda si sirve para datos cualitativos, pero no tiene por qué situarse en la zona
central del gráfico.
Ejemplo: en el ejercicio de las notas de matemáticas la moda sería Mo=8, ya que el

valor 𝑥𝑖 = 8 es el valor que más veces se repite (su frecuencia es de 7).
 Mediana: es el valor de la variable tal que el número de observaciones

menores que él es igual al número de observaciones mayores que él. Si el 6
número de datos es par, se puede tomar la media aritmética de los dos
valores centrales.
Cuando los datos están agrupados la mediana viene dada por el primer valor de
la variable cuya Fi excede a la mitad del número de datos . Si la mitad del número
de datos coincide con Fi se tomará la semisuma ente este valor y el siguiente.
Cuando los datos estén agrupados en clases se puede utilizar reglas de tres o bien
la fórmula :
𝑁
− 𝐹𝑖−1
𝑀 = 𝐿𝑖𝑛𝑓 +∆· 2
𝑓𝑖
Gráficamente se hace a partir del polígono de frecuencias acumuladas.
Ejemplo : En el caso de las notas podrías ordenar de menor a mayor los datos y
obtendríamos : 0 0 1 1 1 2 3 4 5 5 5 6 6 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9
el quinceavo dato es el 7, y el dieciseisavo dato es el 7, de modo que:
7+7
𝑀𝑒 = =7
2
También se podría observar las Fi y ver que en el 7 se excede a la mitad del nº

de datos, es decir, sobrepasa el 15.
 Cuantiles : son parámetros que dividen la distribución en partes iguales ,

así por ejemplo la mediana los divide en dos partes iguales , los cuartiles son
tres valores que dividen a la serie de datos en cuatro partes iguales , los
quintiles son cuatro valores que lo dividen en 5 partes , los deciles en 10 y
los percentiles en 100 . Se calculan de la misma manera que la mediana.
Medidas de dispersión:
 Rango o recorrido: es la diferencia entre el mayor valor y el menor . Ejemplo

: Para el caso del ejemplo que estamos considerando, el Rango sería:
𝑅𝑎𝑛𝑔𝑜 = 9 − 0 = 9

 Varianza s2: es la media aritmética de los cuadrados de las desviaciones

respecto a la media (desviación respecto a la media: 𝑑 = 𝑥𝑖 − 𝑥̅ ).
∑𝑖𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑖𝑖=1 𝑓𝑖 · (𝑥𝑖 − 𝑥̅ )2 ∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2

𝑠2 = = = − 𝑥̅ 2
𝑁 𝑁 𝑁
Al igual que la media en el caso de que los datos estén agrupados en clases, se
tomará la marca de clase como xi.
Se llama desviación típica s a la raíz cuadrada de la varianza. Es más útil que

la varianza ya que tiene las mismas dimensiones que la media.
7
𝜎 = √𝑠 2
Ejemplo: En el ejemplo de las notas:
𝒙𝒊 𝒇𝒊 𝒇𝒊 · 𝒙𝒊 𝒙𝟐𝒊 𝒇𝒊 · 𝒙𝟐𝒊
0 2 0 0 0
1 3 3 1 3
2 1 2 4 4
3 1 3 9 9
4 1 4 16 16
5 3 15 25 75
6 2 12 36 72
7 5 35 49 245
8 7 56 64 448
9 5 45 81 405
30 175 1277
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2
2
1277
𝑠 = − 𝑥̅ 2 = − 5,832 = 8,58
𝑁 30
𝜎 = √8,58 = 2,93
 Coeficiente de variación: es el cociente entre la desviación típica y la media

aritmética. Valores muy bajos indican muestras muy concentradas.
𝜎 2,93
𝐶𝑉 = = = 0,50
𝑥̅ 5,83

Tipificación de la variable estadística: relación entre la media y la

desviación típica.
Para poder comparar dos valores de la variable estadística en distribuciones

distintas será preciso tipificar los valores, es decir, corregirlos en función de la
media y de la desviación típica de la variable en cada una de las distribuciones.
𝑥−𝑥
𝑧=
𝜎
Por ejemplo, un alumno obtiene un 6 en un examen en el que, el conjunto de

la clase ha obtenido, una media de 5,5 y una desviación típica de 1,5. En otro 8
examen obtiene un 6,5 cuando el conjunto de la clase ha obtenido un 6,2 de media
con una desviación típica de 1,25 . ¿Cuál de las dos notas ha sido mejor en relación
con el conjunto de la clase?
𝑥 − 𝑥 6 − 5,5 𝑥 − 𝑥 6,5 − 6,2

𝑧1 = = = 0,33 𝑧2 = = = 0,20
𝜎 1,5 𝜎 1,25
Vemos que ha sido mejor la primera calificación.
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL.

Cuando trabajamos en un estudio estadístico y observamos
simultáneamente dos caracteres en un mismo individuo obtenemos pares de
resultados, por ejemplo, al observar en una persona su edad y su peso.
Los distintos valores de las modalidades que pueden adoptar estos

caracteres forman un conjunto de pares, que representamos por (X, Y) y llamamos
variable estadística bidimensional.
Los dos caracteres observados no tienen por qué ser de la misma clase, así
nos podemos encontrar con las siguientes situaciones:
Tipos variables ( X, Y ) Ejemplo

Dos caracteres Categórica / Categórica Sexo y color del pelo.
cualitativos
Dos caracteres Discreta / Discreta Nº de hermanos y nº de hijos.
cuantitativos
Continua / Continua Perímetros craneal y del tórax
Discreta / Continua Pulsaciones y temperatura.
Uno cualitativo y Categórica / Discreta Sexo y número de libros leídos.
otro cuantitativo
Categórica / Continua Color del pelo y talla.

Es decir, ahora nuestra unidad de estudio es el par (X, Y) y dos pares están
repetidos cuando sus respectivos valores son iguales. Otro factor a tener en cuenta
es que el número de modalidades distintas que adopta el carácter X no tiene por
qué ser el mismo que el que adopta el carácter Y:
X = { x1, x2, x3, ..., xs } ; Y = { y1, y2, y3, ..., yt }
Los datos se suelen ordenar por tablas. Parece que lo más lógico es ordenar
éstos pares de datos en una tabla de doble entrada, donde tengan cabida los s
valores de la variable X y los t valores de la variable Y. Donde nij es el número
de veces que aparece repetido el par (xi, yi) y que llamaremos frecuencia absoluta
del par (xi, yi). 9
𝒀 𝒚𝟏 𝒚𝟐 … 𝒚𝒋 … 𝒚𝒕
𝑿
𝒙𝟏 𝑛11 𝑛12 … 𝑛1𝑗 … 𝑛1𝑡
𝒙𝟐 𝑛21 𝑛22 … 𝑛2𝑗 … 𝑛2𝑡
… … … … … … …
𝒙𝒊 𝑛𝑖1 𝑛𝑖2 … 𝑛𝑖3 … 𝑛𝑖4
… … … … … … …
𝒙𝒔 𝑛𝑠1 𝑛𝑠2 … 𝑛𝑠3 … 𝑛𝑠𝑡
Una tabla de doble entrada también se puede expresar como una tabla
simple, de forma que siempre es posible pasar de una a otra según convenga. Las
tablas simples reflejan el comportamiento de la variable estadística bidimensional
(X, Y) a partir de los valores individuales que toman cada una de las variables
estadísticas unidimensionales X e Y.
𝒙𝒊 𝒚𝒊 𝒏𝒊
𝒙𝟏 𝑦1 𝑛1
𝒙𝟐 𝑦2 𝑛2
𝒙𝟑 𝑦3 𝑛3
… … …
𝒙𝒌 𝑦𝑘 𝑛𝑘
𝑘
∑ 𝑛𝑖 = 𝑁
𝑖=1

Observaciones:
- La frecuencia relativa del par (xi, yi) la denotamos por 𝑓𝑖𝑗 ,

𝑛𝑖𝑗
𝑓𝑖𝑗 =
𝑁
- La suma de las frecuencias absolutas es igual al número de pares
observados (N).
𝑠 𝑡
∑ ∑ 𝑛𝑖𝑗 = 𝑁
𝑖=1 𝑗=1
- La suma de las frecuencias relativas es igual a la unidad.

𝑠 𝑡 𝑠 𝑡 10
𝑛𝑖𝑗 ∑𝑠𝑖=1 ∑𝑡𝑗=1 𝑛𝑖𝑗
∑ ∑ 𝑓𝑖𝑗 = ∑ ∑ = =1
𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Representaciones gráficas.
- Diagramas de dispersión. Es la representación sobre unos ejes cartesianos de

los distintos valores de las variables (X, Y). En el eje de abscisas representamos los
valores de X y en el de ordenadas los valores de Y, de tal forma que cada par viene
representado por un punto del plano X×Y. En el caso de que las dos variables estén
agrupadas en intervalos el diagrama se construye mediante casillas que tienen
dentro tantos puntos como el valor de la frecuencia absoluta correspondiente a los
intervalos X e Y. Si las variables que componen el par son una discreta y otra
continua se utilizan las marcas de clase.
Y
Diagrama de Dispersión
yj
xi X
- Diagramas de frecuencias. Como en un diagrama de dispersión no puede

quedar reflejado las veces que se repite un par o un intervalo, hemos de recurrir a
una representación en tres dimensiones de (X, Y). Dos son para la variable
bidimensional y una dimensión para expresar las frecuencias.

En la figura siguiente la variable X toma los valores 10, 15,... y la variable Y

los valores 0, 1,2,...; en el eje Z están representadas las frecuencias absolutas del
par (X, Y).
11
Distribuciones marginales.
Si en una tabla de doble entrada tenemos en cuenta solamente la variable

X y el recuento de sus frecuencias, sin que para nada intervengan los valores de la
Y, esta distribución se denomina distribución marginal de la variable X, siendo nxi
el número de elementos observados cuando la variable X es xi (frecuencia marginal
del valor xi). Análogamente, cuando tomamos la variable Y, sin tener en cuenta
para nada los valores de X.
De las frecuencias absolutas marginales se obtienen las frecuencias

relativas marginales. Y de igual forma podemos obtener las medias, varianzas y
desviaciones típicas marginales.
Frecuencias
absolutas ∑ 𝑓𝑥𝑖 = 𝑁 ∑ 𝑓𝑦𝑗 = 𝑁
marginales 𝑖 𝑗
Frecuencias 𝑓𝑥𝑖 𝑓𝑦𝑗

relativas marginales ℎ𝑥𝑖 = ℎ𝑦𝑗 =
𝑁 𝑁
Medias marginales ∑𝑠𝑖=1 𝑓𝑥𝑖 · 𝑥𝑖 ∑𝑡𝑗=1 𝑓𝑦𝑗 · 𝑦𝑗

𝑥̅ = 𝑦̅ =
𝑁 𝑁
Varianzas ∑𝑖𝑖=1 𝑓𝑥𝑖 · 𝑥𝑖2 ∑𝑖𝑖=1 𝑓𝑦𝑗 · 𝑦𝑗2

marginales 𝑠𝑥2 = − 𝑥̅ 2 𝑠𝑦2 = − 𝑦̅ 2
𝑁 𝑁
Desviaciones Típicas
marginales 𝜎𝑥 = √𝑠𝑥2 𝜎𝑦 = √𝑠𝑦2

Covarianza.
La covarianza1 que es la media aritmética de las desviaciones de cada una

de las variables respecto a sus medias respectivas.
∑ 𝑓𝑖 · (𝑥𝑖 − 𝑥) · (𝑦𝑖 − 𝑦) ∑𝑖 𝑓𝑖 · 𝑥𝑖 · 𝑦𝑖
𝑠𝑥𝑦 = =⋯= − 𝑥̅ · 𝑦̅
𝑁 𝑁
Una covarianza positiva indica que las diferencias (𝑥𝑖 − 𝑥) e (𝑦𝑖 − 𝑦), tienen
el mismo signo, es decir, la correlación es positiva. Cuando los valores altos de una
de las variables suelen mayoritariamente corresponderse con los valores altos de la
otra, y lo mismo se verifica para los pequeños valores de una con los de la otra, se 12
corrobora que tienden a mostrar comportamiento similar lo que se refleja en un
valor positivo de la covarianza.
Por el contrario, una covarianza negativa indica que las diferencias (𝑥𝑖 −
𝑥) e (𝑦𝑖 − 𝑦), tienen signos opuestos, es decir, la correlación es negativa. Cuando
una de las variables se encuentra por encima de su media, la otra está por debajo,
esto es, cuando aumenta una de las variables, disminuye la otra. O, lo que es lo
mismo, cuando a los mayores valores de una variable suelen corresponder en
general los menores de la otra, expresando un comportamiento opuesto, la
covarianza es negativa.
El signo de la covarianza, por lo tanto, expresa la tendencia en la relación

lineal entre las variables. La versión normalizada de la covarianza, el coeficiente de
correlación, indica la magnitud de la especificidad de la relación lineal.
La covarianza es invariante ante los cambios de origen en cualquiera de las

dos variables. Sin embargo, depende de los cambios de unidad, ya que si se cambia
de unidad de medida en ambas variables la covarianza se modifica
proporcionalmente a ambos cambios. Por ejemplo, si en vez de x e y, las nuevas
variables son u y v, en donde 𝑢 = 𝑎 + 𝑏𝑥 y 𝑣 = 𝑐 + 𝑑𝑦, entonces la nueva
covarianza será 𝑠′𝑥𝑦 = 𝑏 · 𝑑 · 𝑠𝑥𝑦 .
 Si 𝑠𝑥𝑦 > 0 , hay dependencia directa (positiva), es decir, a grandes valores de x

corresponden grandes valores de y.
 Si 𝑠𝑥𝑦 = 0 . Una covarianza 0 se interpreta como la no existencia de una relación
lineal entre las dos variables estudiadas.
 Si 𝑠𝑥𝑦 < 0, hay dependencia inversa o negativa, es decir, a grandes valores de x
corresponden pequeños valores de y.
La covariancia también se puede simbolizar por XY , (X,Y) o por cov(X,Y). También como xy ,
1
(x,y) o por cov(x,y).

El punto de coordenadas (𝑥̅ , 𝑦̅), recibe el nombre de punto medio de la

distribución bidimensional y es tal que si se suspendiera la nube de puntos
apoyándola en él, el diagrama estaría en equilibrio, dicho de otro modo es el centro
de gravedad de la distribución.
Otra forma de definir la covarianza es a partir del valor esperado2 de las

variables (esperanza matemática , 𝐸[𝑋]).
𝑠𝑥𝑦 = 𝐸[𝑋𝑌] − 𝐸[𝑋] · 𝐸[𝑌]
A la vista de esta expresión podemos concluir que:

13
- Si 𝐸[𝑋𝑌] > 𝐸[𝑋] · 𝐸[𝑌] ⇒ 𝑠𝑥𝑦 > 0
- Si 𝐸[𝑋𝑌] < 𝐸[𝑋] · 𝐸[𝑌] ⇒ 𝑠𝑥𝑦 < 0
- Si 𝐸[𝑋𝑌] = 𝐸[𝑋] · 𝐸[𝑌] ⇒ 𝑠𝑥𝑦 = 0
Podemos establecer, por otro lado, la relación que existe entre la covarianza
y las desviaciones típicas de las variables. A partir de la desigualdad de Cauchy-
Schwarz3
|𝑐𝑜𝑣(𝑋, 𝑌)| ≤ 𝜎𝑥 𝜎𝑦
O, lo que es lo mismo:
−𝜎𝑥 𝜎𝑦 ≤ 𝑐𝑜𝑣(𝑋, 𝑌) ≤ 𝜎𝑥 𝜎𝑦
Matriz de covarianza.
Dada una variable estadística n-dimensional (x1,x2,x3,...,xn) con n>2,

llamaremos matriz de varianzas-covarianzas (matriz de varianzas) (matriz de
covarianzas), V, a la matriz cuadrada, que disponga en su diagonal principal de las
varianzas de cada una de las distribuciones marginales unidimensionales, y en los
elementos no-diagonales (i,j) de las correspondientes covarianzas entre cada dos
variables sij
2
En estadística la esperanza matemática (también llamada esperanza, valor esperado, media
poblacional o media) de una variable aleatoria X es el número E [ X ] que formaliza la idea de valor
medio de un fenómeno aleatorio. Cuando la variable aleatoria es discreta, la esperanza es igual a la
suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso.
Por lo tanto, representa la cantidad media que se "espera" como resultado de un experimento
aleatorio cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite
un elevado número de veces. 𝐸[𝑋] = ∑𝑛𝑖 𝑥𝑖 · 𝑝(𝑥𝑖 ).
3
La desigualdad de Cauchy-Schwarz dice que si la desviación típica de X, o de Y, es
pequeña, entonces la covarianza de X e Y también es pequeña.

 s12 s12 .. s1n 

 
s s22 .. s2 n 
V   21
 .. .. .. .. 
s .. sn2 
 n1 sn 2
Propiedades
1. Esta matriz es simétrica respecto a su diagonal principal.
2. Esta matriz es definida positiva 14
3. El determinante de esta matriz (también llamado determinante de momentos) es

siempre no negativo
s12 s12 .. s1n

s s22 .. s2 n
L  det V  21 0
.. .. .. ..
sn1 sn 2 .. sn2
4. En el caso bidimensional, con dos variables x e y, tendremos:
 s2 sxy  s x2
 s x2 s y2  s xy 
s xy
V   x   L
2
 s yx s y2  s yx sy 2
Correlación o dependencia. Coeficiente de correlación lineal4.
Es el parámetro que cuantifica la relación entre dos variables. Se define

como:
𝑠𝑥𝑦
𝑟=
𝜎𝑥 𝜎𝑦
Según sea el valor de este coeficiente tenemos:
 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total
entre las dos variables denominada relación directa: cuando una de ellas aumenta, la
otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todavía relaciones no lineales entre las dos
variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia
total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la
otra disminuye en proporción constante.
4
https://es.wikipedia.org/wiki/Coeficiente_de_correlación_de_Pearson

Hay que tener cuidado con la confusión frecuente entre correlación y

causalidad. Que dos fenómenos estén correlacionados no implica, de ninguna
manera, que uno sea causa del otro. Es muy frecuente que una correlación fuerte
indica que los dos caracteres dependen de un tercero que no ha sido medido. Este
tercer carácter se llama factor de confusión5( variable confusora).
Por ejemplo, que exista una fuerte correlación entre la recaudación de

impuestos en España y la criminalidad en Italia, indica que ambos están ligados al
aumento global de la población. Otro ejemplo, el precio del trigo y la población de
roedores están negativamente correlacionados, porque ambos dependen del nivel de
la cosecha de trigo. Y un ejemplo más, si se relaciona o compara la mortalidad
anual en Marbella y Toledo, hay más mortalidad, significativa, en Marbella. 15
¿Significa esto que en Marbella la gente se muere más? Pues, no, significa que
tenemos un factor de confusión. Una variable que nos confunde, que hace que
veamos una relación que, en realidad, no existe. Sucede que en Marbella la edad
media es mucho mayor porque mucha gente al jubilarse se va a vivir allí y, por lo
tanto, es lógico que esa zona acabará teniendo más mortalidad anual superior a
otras zonas.
Puede ser que una fuerte correlación exprese una verdadera causalidad,
como entre el número de cigarrillos que se fuma al día y la aparición de un cáncer
de pulmón. Pero no es la estadística la que demuestra la causalidad, ella permite
solamente detectarla. La influencia del consumo del tabaco en la aparición de un
cáncer de pulmón ha sido científicamente demostrada en la medida en que se
pudieron analizar los mecanismos fisiológicos y bioquímicos que hacen que el
alquitrán y la nicotina induzcan errores en la reproducción del código genético de
las células.
Matriz de correlación.
En el caso de estar analizando una distribución n-dimensional con n>2

podemos construir la llamada matriz de correlación, que es una matriz
conformada por n filas y por n columnas. Se trata de una matriz simétrica; es
decir, que los valores de los elementos aij de la matriz, es el mismo valor en los
elementos aji de la matriz.
La matriz de correlación nos explica cómo se encuentran relacionadas cada

una de las variables con otra variable. Su diagonal siempre contendrá el valor de
1. Si tiene un valor 0, nos indicará que no tiene ninguna relación con esa
variable, por lo menos no lineal; es decir, pueda que tenga una relación cuadrática
o de otro grado.
Cuando la correlación es positiva, esto nos indica que su proyección de la

regresión lineal va a tender a crecer conjuntamente con la contra variable.
Cuando la correlación es negativa, esto nos indica que su proyección de la

regresión lineal va a tender a decrecer conjuntamente con la contra variable.
5
Las variables de confusión, también llamadas terceras variables, son variables que el investigador
no controló o no eliminó y que dañan la validez interna de un experimento.

1 𝑟12 … 𝑟1𝑛
𝑟21 1 … 𝑟2𝑛
𝑅=( )
… … … …
𝑟𝑛1 𝑟𝑛2 … 1
Regresión lineal. Rectas de regresión.
Consiste en ajustar lo más posible la nube de puntos de un diagrama de

dispersión a una curva. Cuando esta es una recta obtenemos la recta de regresión
lineal, cuando es una parábola, regresión parabólica, cuando es una exponencial, 16
regresión exponencial, etc. (lógicamente r debe ser distinto de 0 en todos los casos).
Para calcular la recta de regresión se aplica el método de los mínimos

cuadrados, que consiste en determinar una recta que cumpla que la suma de los
cuadrados de las distancia de todos los puntos de la nube a los puntos de la recta
con igual abscisa, sea mínima. Es decir, dados los puntos del diagrama de
dispersión (xi,yi), a cada valor xi le corresponde un valor yRi en la recta de regresión.
El método de los mínimos cuadrados consiste en hacer mínima la suma de todos los
cuadrados (yi-yRi)2.
Una vez que conocemos la mayor o menor relación entre las variables con el
coeficiente de correlación lineal y que hemos calculado las rectas de regresión,
podemos utilizarlas para predecir el valor de una de las variables a partir de la
otra. Después de haberlo calculado los valores que nos interesan, podemos
preguntarnos si este dato obtenido es fiable o no. Esto dependerá de dos cuestiones.
La primera que exista correlación lineal entre ambas variables. El dato será
más fiable cuanto más se aproxime el coeficiente de correlación lineal a 1 o a -1. La
segunda que las rectas de regresión se han obtenido para unos valores concretos de
X y de Y. Aunque exista una correlación lineal fuerte, si intentamos hacer
predicciones para valores de las variables lejanos a los estudiados, podemos
llevarnos sorpresas. Es decir, para que sea fiable una estimación, además de la
primera condición, los valores de X e Y tienen que estar dentro del dominio de los
estudiados.
La recta de regresión de y sobre x es:
𝑠𝑥𝑦
𝑦 − 𝑦̅ = (𝑥 − 𝑥̅ )
𝑠𝑥2

en la cual se hace mínima la distancia entre los valores yj obtenidos

experimentalmente y los valores teóricos de y. Esta fórmula permite calcular el
valor estimado de y para un determinado valor de x.
𝑠𝑥𝑦
A valor 𝑠𝑥2
se le llama coeficiente de regresión de y sobre x (nos da la
pendiente de la recta de regresión).
La recta de regresión de x sobre y es:
𝑠𝑥𝑦
𝑥 − 𝑥̅ = (𝑦 − 𝑦̅)
𝑠𝑦2
17
en la cual se hace mínima la distancia entre los valores xi obtenidos
experimentalmente y los valores teóricos de x.
𝑠𝑥𝑦
A valor se le llama coeficiente de regresión de x sobre y.
𝑠𝑦2
Es importante destacar que las pendientes de las rectas de regresión tienen

el mismo signo que la covarianza y, por lo tanto, el mismo signo que el coeficiente
de correlación. Si la correlación es positiva, las rectas de regresión tendrán
pendiente positiva, y negativa si el coeficiente de correlación es negativo.
Caso práctico: Utilización de tablas bidimensionales de frecuencias.
En ocasiones cuando se trata de muchos datos o éstos se presentan

agrupados, se presentan en forma de tablas de doble entrada. En la siguiente tabla
se presentan las notas de Matemáticas y de Física de 30 alumnos de 1º de
bachillerato del IES Miguel Hernández de Alicante:
Mat, xi I 2,5 , 5) SF 5 , 6) B 6 , 7) N 7 , 8,5) SB8,5, 10)
Fis, yi
I 2,5 , 5) 4 2 1 0 0 7
SF 5 , 6) 2 4 2 1 0 9
B 6 , 7) 1 2 3 0 0 6
N 7 , 8,5) 0 1 2 1 2 6
SB8,5, 10) 0 0 0 1 1 2
7 9 8 3 3

Los datos están agrupados por intervalos correspondientes a: Insuficiente

(de 2,5 a 5), Suficiente (de 5 a 6), Bien, (de 6 a 7), Notable (de 7 a 8,5) y
Sobresaliente (de 8,5 a 10). La última columna representa los alumnos totales que
han obtenido la nota del intervalo correspondiente en la asignatura de Física, y la
última fila representa los alumnos totales que han obtenido la nota del intervalo
correspondiente en la asignatura de Matemáticas.
La marca de clase de cada intervalo la obtendremos hallando la media

aritmética entre los extremos de cada intervalo. Por ejemplo, la casilla de
Insuficiente de Física tiene una marca de clase de:
2,5 + 5 18
𝑥𝑖 = = 3,75
2
Para calcular la recta de regresión, en primer lugar, se habrá de convertir la

tabla de doble entrada en una tabla simple y sustituir cada intervalo por su marca
de clase. La tabla así obtenida es:
xi yi fi xifi yifi xi2fi yi2fi xiyifi

3,75 3,75 4 15 15 56,25 56,25 56,25
3,75 5,5 2 7,5 11 28,125 60,5 41,25
3,75 6,5 1 3,75 6,5 14,0625 42,25 24,375
5,5 3,75 2 11 7,5 60,5 28,125 41,25
5,5 5,5 4 22 22 121 121 121
5,5 6,5 2 11 13 60,5 84,5 71,5
5,5 7,75 1 5,5 7,75 30,25 60,0625 42,625
6,5 3,75 1 6,5 3,75 42,25 14,0625 24,375
6,5 5,5 2 13 11 84,5 60,5 71,5
6,5 6,5 3 19,5 19,5 126,75 126,75 126,75
7,75 5,5 1 7,75 5,5 60,0625 30,25 42,625
7,75 6,5 2 15,5 13 120,125 84,5 100,75
7,75 7,75 1 7,75 7,75 60,0625 60,0625 60,0625
7,75 9,25 2 15,5 18,5 120,125 171,125 143,375
9,25 7,75 1 9,25 7,75 85,5625 60,0625 71,6875
9,25 9,25 1 9,25 9,25 85,5625 85,5625 85,5625
Sumas: 30 179,75 178,75 1155,6875 1145,563 1124,938
Las medias de las variables son:
∑ 𝑥𝑖 𝑓𝑖 179,75 ∑ 𝑦𝑖 𝑓𝑖 178,75
𝑥= = = 5,99 𝑦= = = 5,96
𝑁 30 𝑁 30
Las desviaciones típicas son:
∑ 𝑥 2 𝑓𝑖 2 1155,6875
𝜎𝑥 = √ 𝑖 − 𝑥 = √ − 5,992 = 1,63
𝑁 30

∑ 𝑦 2 𝑓𝑖 2 1145,563
𝜎𝑦 = √ 𝑖 − 𝑦 = √ − 5,962 = 1,63
𝑁 30
Y la covarianza:
∑𝑖 𝑓𝑖 · 𝑥𝑖 · 𝑦𝑖 1124,938
𝑠𝑥𝑦 = − 𝑥̅ · 𝑦̅ = − 5,99 · 5,96 = 1,80
𝑁 30
El coeficiente de correlación lineal de Pearson es:

19
𝑠𝑥𝑦 1,80
𝑟= = = 0,6775
𝜎𝑥 𝜎𝑦 1,63 · 1,63
Si determinamos ahora (r2·100)% obtendremos una medida de la fiabilidad

de las predicciones que se pueden realizar con la recta de regresión.
0,67752 · 100 = 45,90%
Vemos que la correlación no es muy fiable en este caso. Se trata de una

correlación positiva (a más nota en matemáticas, más nota en Física), pero débil.
La recta de regresión de y sobre x será:
𝑠𝑥𝑦 1,80
𝑦 − 𝑦̅ = (𝑥 − 𝑥̅ ) → 𝑦 − 5,96 = (𝑥 − 5,99)
𝑠𝑥2 1,632
𝑦 = 0,68𝑥 + 1,90
El diagrama de dispersión con la recta de regresión determinada se

visualiza en el siguiente gráfico:

PROBLEMAS.
1. Del conjunto de datos 2,2,5,7,9,9,9,10,10,11,12,18, ¿cuál es su moda?
a) 9 b) 10 c) 11 d) 7
La moda de una serie de valores, es el que más se repite. En este caso M o=9.
Cuya frecuencia es 3 (aparece tres veces). La respuesta correcta es la a).
2. La relación entre varianza y desviación típica es: a) La desviación típica es el 20

cuadrado de la varianza. b) La desviación típica es la raíz cuadrada de la varianza.
c) Son iguales. d) No hay relación entre ellas.
La respuesta correcta es la b)
3. En estadística descriptiva: a) La amplitud no es un índice de dispersión. b) El

intervalo intercuartiles no es un índice de dispersión. c) La desviación típica no es
un índice de dispersión. d) Ninguno de los apartados anteriores es correcto.
Tanto la Amplitud (Rango o Intervalo), la Desviación Típica y el Recorrido

(Intervalo) Intercuartílico, son medidas de la dispersión. Por lo que la opción
correcta es la d)
4. Las marcas de clase de una distribución de frecuencias de temperaturas son:

12,7ºC, 13,4ºC, 14,1ºC, 14,8ºC, 15,5ºC, 16,2ºC, 15,9ºC. ¿Cuáles son los límites reales
de la cuarta clase?.
a) 14,1ºC y 15,5ºC b) 14,5ºC y 15,2ºC c) 14,45ºC y 15,15ºC d) 14,4ºC y 15,2ºC
Los puntos medios de cada intervalo de clase son las marcas de clase. Así pues,
tenemos siete intervalos cuyas marcas de clase son los valores de la tabla.
Intervalo de clase Marca de clase
Ti,Ti+1
T1,T2 12,7
T2,T3 13,4
T3,T4 14,1
T4,T5 14,8
T5,T6 15,5
T6,T7 16,2
T7,T8 15,9

Observamos que entre dos marcas de clase consecutivas hay 0,7ºC de

diferencia, es decir que cada marca de clase pertenece a una clase cuyos límites
inferior y superior son T-0,35 y T+0,35.
Así pues la cuarta clase tiene como límites 14,8-0,35 y 14,8+0,35. Es decir
14,45 y 15,15.
La respuesta correcta es pues la c).
5. Dados los conjuntos de puntos siguientes: 21
Conjunto 1 8 8 9 9 9 9 9 10 10
Conjunto 2 1 3 6 9 9 11 13 14 15
Calcular: a) La media aritmética de cada uno de los dos conjuntos. b) La moda de

cada uno. c) La mediana de cada uno. d) ¿Qué conjunto es más disperso?
a) La media aritmética del conjunto 1 es:
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 2 · 8 + 5 · 9 + 2 · 10
𝑥̅ = = =9
𝑁 9
La del conjunto 2 es:
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 1 + 3 + 6 + 2 · 9 + 11 + 13 + 14 + 15
𝑥̅ = = =9
𝑁 9
b) La moda (el valor que más se repite) del conjunto 1 es: Mo(1)=9
La moda del conjunto 2 es la misma, Mo(2)=9
c) La mediana es el valor que ocupa la posición central de la distribución. En un

conjunto impar, se trata del elemento central, que deja a su izquierda tantos
valores como a su derecha.
Me(1)=9 Me(2)=9
d) En el conjunto 1 los valores están más agrupados en torno a la media. En el

conjunto 2 la dispersión es mayor. De todas formas si calculamos la desviación
típica para cada conjunto.
Para el conjunto 1, la varianza es:
2
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2 2
2 · 82 + 5 · 92 + 2 · 102
𝑠 = − 𝑥̅ = − 92 = 0,444
𝑁 9
Así que la desviación típica, será:

𝜎 = √𝑠 2 = √0,444 = 0,666
Repitiendo los cálculos para el conjunto 2,
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2 12 + 32 + 62 + 2 · 92 + 112 + 132 + 142 + 152

𝑠2 = − 𝑥̅ 2 = − 92
𝑁 9
= 21,11
Y la desviación típica es, por tanto, 22
𝜎 = √𝑠 2 = √21,11 = 4,59
Como se aprecia la desviación del conjunto 2 es mucho mayor que la del conjunto 1.
6. En 1798, el científico inglés Henry Cavendish midió la densidad de la Tierra a

través de una balanza de torsión. Realizó 29 observaciones y obtuvo los siguientes
valores (en g/cm3):
5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65
5,57 5,53 5,63 5,29 5,44 5.34 5,79 5,10 5,27 5,39
5,42 5,47 5,63 5,34 5,46 5,30 5,75 5.68 5,85
a) Obtén la media, la mediana de estos datos, la varianza, la desviación típica y el

coeficiente de variación. b) Agrupa los datos en 5 clases de amplitud 0,25,
considerando como límite inferior de la primera clase el valor 4,75 y construye el
correspondiente histograma de frecuencias relativas.
a) Ordenando de menor a mayor las observaciones de la tabla anterior, y

representándolas en una tabla de frecuencias, tenemos:
Xi (g/cm3) fi xifi Fi fixi2
4,88 1 4,88 1 23,81
5,07 1 5,07 2 25,70
5,10 1 5,10 3 26,01
5,26 1 5,26 4 27,68
5,27 1 5,27 5 27,77
5,29 2 10,58 7 55,97
5,30 1 5,30 8 28,09
5,34 2 10,68 10 57,03
5,36 1 5,36 11 28,73
5,39 1 5,39 12 29,05
5,42 1 5,42 13 29,38
5,44 1 5,44 14 29,59

5,46 1 5,46 15 29,81

5,47 1 5,47 16 29,92
5,50 1 5,50 17 30,25
5,53 1 5,53 18 30,58
5,55 1 5,55 19 30,80
5,57 1 5,57 20 31,02
5,58 1 5,58 21 31,14
5,61 1 5,61 22 31,47
5,63 2 11,26 24 63,39
5,65 1 5,65 25 31,92 23
5,68 1 5,68 26 32,26
5,75 1 5,75 27 33,06
5,79 1 5,79 28 33,52
5,85 1 5,85 29 34,22
Totales 29 158 862,17
Como N=29 es impar, su mitad es 14,5 y la mediana será el valor de xi cuya

frecuencia absoluta acumulada ocupe el puesto número 15, o sea, Me=5,46. Para la
media tenemos:
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 158
𝑥̅ = = = 5,45
𝑁 29
La varianza será:
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2 862,17

𝑠2 = − 𝑥̅ 2 = − 5,452 = 0,0275
𝑁 29
Y la desviación típica:
𝜎 = √𝑠 2 = √0,0275 = 0,17
b) Para los valores agrupados en 5 clases de amplitud 0,25, tendremos:

clases xi fi ni
4,75-5,00 4,875 1 0,0345
5,00-5,25 5,125 3 0,1034
5,25-5,50 5,375 13 0,4483
5,50-5,75 5,625 10 0,3448
5,75-6,00 5,875 2 0,0690
29 1

Y el histograma de frecuencias relativas ni es:
14
12
10
frecuencia
6
24
4
0
4,875 5,125 5,375 5,625 5,875
marcas de clase
7. La Torre inclinada de Pisa es una maravilla arquitectónica. Su creciente

inclinación ha generado numerosos estudios sobre su futura estabilidad. En la
siguiente tabla se presentan las medidas de su inclinación durante los años 1978 a
1987. Los datos de la inclinación se han codificado como décimas de mm. Por exceso
de 2.9000 m. De forma que la inclinación del año 1978, que fue de 2.9667, aparece
en la tabla con el valor 667.
Año 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987
Inclinación 667 673 688 696 698 713 717 725 742 757
a) Representa gráficamente estos datos. ¿Crees que la inclinación de la torre

tiene una tendencia lineal que crece con el tiempo? b) Calcula la recta de
regresión de la inclinación frente el tiempo. c) En 1918 la inclinación de la torre
fue de 2.9071 m. ¿Cuál sería el valor ajustado según la recta que has obtenido en
b) ¿¿Cuál crees que es la causa de la diferencia entre ambos valores?
a) La gráfica pedida en forma de nube de puntos sería:

Inclinación / años
770
760
750
740
730
720
710
700
690
680 25
670
660
1976 1978 1980 1982 1984 1986 1988
Y se puede observar que la línea de tendencia, aunque se ve que la

inclinación aumenta con el tiempo, no tiene pendiente constante por tanto la
inclinación de la torre no presenta una tendencia lineal con el tiempo.
b) Llamemos Y a la variable inclinación y X a la variable años, la recta de

mínimos cuadrados de Y sobre X tiene por ecuación:
𝑠𝑥𝑦
𝑦 − 𝑥̅ = (𝑥 − 𝑥̅ )
𝑠𝑥2
Vamos a construir la tabla

Años, 𝒙𝒊 Inclinación, 𝒚𝒊 𝒙𝟐𝒊 𝒚𝟐𝒊 𝒙𝒊 · 𝒚𝒊
1978 667 3 912 484 444 889 1 319 326

1979 673 3 916 441 452 929 1 331 867
1980 688 3 920 400 473 344 1 362 240
1981 696 3 924 361 484 416 1 378 776
1982 698 3 928 324 487 204 1 383 436
1983 713 3 932 289 508 369 1 413 879
1984 717 3 936 256 514 089 1 422 528
1985 725 3 940 225 525 625 1 439 125
1986 742 3 944 196 550 564 1 473 612
1987 757 3 948 169 573 049 1 504 159
∑ 𝒙𝒊 = 𝟏𝟗 𝟖𝟐𝟓 ∑ 𝑦𝑖 = 7 076 ∑ 𝑥𝑖2 = 39 303 145 ∑ 𝑦𝑖2 = 5 014 478 ∑ 𝑥𝑖 · 𝑦𝑖 = 14028948
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 19825
𝑥̅ = = = 1982,5
𝑁 10
∑𝑖𝑖=1 𝑦𝑖 ∑𝑖𝑖=1 𝑓𝑖 · 𝑦𝑖 7076

𝑦̅ = = = = 707,6
𝑁 𝑁 10

∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2 39 303 145

𝑠𝑥2 = − 𝑥̅ 2 = − 1982,52 = 8,25
𝑁 10
∑𝑖 𝑓𝑖 · 𝑥𝑖 · 𝑦𝑖 14028948
𝑠𝑥𝑦 = − 𝑥̅ · 𝑦̅ = − 1982,5 · 707,6 = 77,8
𝑁 10
Sustituyendo en la recta de regresión:
77,8
𝑦 − 707,6 = (𝑥 − 1982,5)
8,25
26
𝑦 = 9,43𝑥 − 17987,98
c) Para x=1918, se obtiene de la recta anterior:
𝑦 = 9,43 · 1918 − 17987,98 = 98,76 ≈ 99
Y la inclinación en dicho año sería de 2.9099 m. La discrepancia entre el valor

observado y el ajustado es debida a la no linealidad perfecta de los puntos de la
tabla dada.
8. En la siguiente tabla se presenta la superficie quemada (en miles de Ha) en los

incendios forestales registrados en España durante los años 1985 a 1993.
Año 1985 1986 1987 1988 1989 1990 1991 1992 1993
Superficie 486 278 146 130 340 197 252 98 88
quemada
a) Dibuja la nube de puntos correspondiente a estos datos. b) Obtén el coeficiente

de correlación entre ambas variables y comenta su significado.
a) La nube de puntos es:
Superficie quemada / Años

600
500
400
300
200
100
0
1984 1986 1988 1990 1992 1994

b) Vamos construir la tabla de valores.
Años, xi Miles de Ha, yi xi2 yi2 xi··yi

1985 486 3940225 236196 964710
1986 278 3944196 77284 552108
1987 146 3948169 21316 290102
1988 130 3952144 16900 258440
1989 340 3956121 115600 676260
1990 197 3960100 38809 392030
1991 252 3964081 63504 501732
1992 98 3968064 9604 195216
1993 88 3972049 7744 175384
∑ 𝒙𝒊 =17901 ∑ 𝑦𝑖 =2015 ∑ 𝑥𝑖2 =35605149 ∑ 𝑥𝑖2 =586957 ∑ 𝑥𝑖 𝑦𝑖 =4005982 27
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 17901
𝑥̅ = = = 1989
𝑁 9
∑𝑖𝑖=1 𝑦𝑖 ∑𝑖𝑖=1 𝑓𝑖 · 𝑦𝑖 2015

𝑦̅ = = = = 223,89
𝑁 𝑁 9
∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2 35605149

𝑠𝑥2 = − 𝑥̅ 2 = − 19892 = 6,67
𝑁 9
𝜎𝑥 = √𝑠𝑥2 = √6,67 = 2,58
∑𝑖𝑖=1 𝑓𝑖 · 𝑦𝑖2 586957

𝑠𝑦2 = − 𝑦̅ 2 = − 223,892 = 15090,71
𝑁 9
𝜎𝑦 = √𝑠𝑦2 = √15090,71 = 122,84
∑𝑖 𝑓𝑖 · 𝑥𝑖 · 𝑦𝑖 4005982
𝑠𝑥𝑦 = − 𝑥̅ · 𝑦̅ = − 1989 · 223,89 = −208,10
𝑁 9
𝑠𝑥𝑦 −208,10
𝑟= = = −0,657
𝜎𝑥 𝜎𝑦 2,58 · 122,84
Se trata de una correlación negativa (al aumentar una variable la otra tiende a
disminuir) y no muy buena. Hay una cierta correlación entre ambas magnitudes
pero no se puede predecir sin mucho error la superficie quemada en años otros
años.

TEMA 9
Variable aleatoria discreta. Función de probabilidad. Media y
varianza de una función de probabilidad discreta. Distribución
binomial. Variable aleatoria continua. Función de densidad.
Función de distribución, media y varianza. La distribución
normal. Ampliación: Inferencia
28
VARIABLE ALEATORIA DISCRETA.
En gran cantidad de experimentos aleatorios es necesario cuantificar los
resultados, es decir, asignar a cada resultado del experimento un número, con el fin
de poder realizar un estudio matemático. Por ejemplo, consideremos el experimento
aleatorio que consiste en lanzar tres monedas, supongamos que a cada elemento de
su espacio muestral6
E={ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx}
le asignamos un número real, el correspondiente al número de caras. En este

ejemplo, los valores asociados a cada uno de los 8 experimentos aleatorios serían: 3,
2, 2, 2, 1, 1, 1 ,0.
Esta correspondencia que acabamos de construir es una función del espacio

muestral E en el conjunto de los números reales ℝ. A esta función la llamaremos
variable aleatoria y la denotaremos por X. En este ejemplo, la variable aleatoria es
discreta.
Supongamos ahora el experimento aleatorio que consiste en lanzar dos dados,

podemos asignar a cada resultado la suma de los puntos aparecidos en cada dado
(variable aleatoria discreta).
Consideremos el experimento que consiste en elegir al azar 500 personas y

medir su estatura. La ley que asocia a cada persona con su talla es una variable
aleatoria (continua).
Consideremos el experimento que consiste en elegir al azar 100 sandias de una

plantación y pesarlas. La ley que asocia a cada sandía su peso es una variable
aleatoria (continua).
6
Al conjunto formado por todos los sucesos elementales (cada uno de los resultados de un fenómeno
aleatorio, que no se puede descomponer en otros más simples), se le llama espacio muestral o suceso
seguro, puesto que ocurre siempre que se realiza el experimento. Generalmente se representa por la
letra E.

Variable aleatoria.
Una variable aleatoria es una función, X, que hace corresponder un número

real a cada uno de los sucesos del espacio muestral. Se dice que hemos definido una
variable aleatoria para un experimento aleatorio cuando hemos asociado un valor
numérico a cada resultado del experimento.
Sea E el espacio muestral asociado a un experimento. Se llama variable

aleatoria a toda aplicación del espacio muestral E en el conjunto de los números
reales (es decir, asocia a cada elemento de E un número real).
E ℝ 29
CCC 3
CC+
C+C 2
+CC
C++ 1
+C+
++C 0
+++
Se utilizan letras mayúsculas X, Y,... para designar variables aleatorias, y

las respectivas minúsculas (x, y, ...) para designar valores concretos de las mismas.
Si un experimento con espacio muestral E, tiene asociada la variable

aleatoria X, es natural que se planteen preguntas como: ¿Cuál es la probabilidad de
que X tome un determinado valor?, esto nos lleva a establecer, por convenio, la
siguiente notación:
(X=x) representa el suceso "la variable aleatoria X toma el valor x", y

p(X=x) representa la probabilidad de dicho suceso.
(X<x) representa el suceso "la variable aleatoria X toma un valor menor a x",
y p(X<x) representa la probabilidad de que la v.a. X tome un valor menor a x.
(X ≤ x) representa el suceso "la variable aleatoria X toma un valor menor o

igual a x",y p(X ≤x) representa la probabilidad de que la v.a. X tome un valor menor
o igual a x.
Si una variable aleatoria sólo toma valores enteros, es decir, un número

finito de valores o infinito numerable diremos que es discreta (los ejemplos de los
dados y las monedas). Si teóricamente, puede tomar todos los valores de un

intervalo de ℝ, diremos que es continua (los ejemplos de los pesos de las sandías y
las tallas de las personas).
FUNCIÓN DE PROBABILIDAD.
Consideremos una v.a. discreta X, que toma los valores x1, x2,..., xn.
Supongamos que conocemos la probabilidad de que la variable X tome dichos
valores, es decir, se conoce que:
30
p(X=x1) = p1 , p(X=x2) = p2, p(X=x3) = p3, ..., p(X=x1) = pn ,
en general p(X=xi) = pi
La función de probabilidad f(x) de la v.a. X es la función que asigna a cada

valor xi de la variable su correspondiente probabilidad pi.
La representación gráfica más usual de la función de probabilidad es un

diagrama de barras no acumulativo.
Para que la función de probabilidad de una variable esté correctamente

definida, la probabilidad de cada uno de los posibles valores de la variable debe ser
un número no negativo y la suma de todas ellas ha de ser 1. Es decir, se debe
cumplir:
𝑝(𝑥𝑖 ) ≥ 0, ∀ 𝑖
𝑛
∑ 𝑝(𝑥𝑖 ) = 1
𝑖=1
Por ejemplo si la probabilidad de que salga cara en un lanzamiento de una

moneda es 0,6, y se lanza la moneda tres veces, la función de probabilidad de la
variable X=”número de caras” es:
Suceso: +++ p(0)=0,43=0,064
Sucesos: C++,+C+,++C p(1)=3·0,42·0,6=0,288
Sucesos: CC+,C+C,+CC p(2)=3·0,4·0,62=0,432
Suceso: CCC p(3)=0,63=0,216
En la figura siguiente está representada esta distribución de probabilidad

de la variable X=”número de caras”, para una probabilidad de obtener cara en cada
lanzamiento de 0,6

Función de probabilidad (p=0,6)

0,5
0,45
0,4
0,35
0,3
0,25
0,2
31
0,15
0,1
0,05
0
0 1 2 3
Obsérvese que la función está bien definida puesto que todas las
probabilidades son números positivos, y su suma es 1.
Además de la función de probabilidad, para facilitar los cálculos de

probabilidades resulta interesante considerar la función acumulativa de
probabilidad de la variable, o función de distribución. Es decir, no nos interesa
tanto conocer la probabilidad de que la v.a. X tome exactamente un determinado
valor xi, cuanto la probabilidad de que tome valores menores o iguales que un cierto
valor xi. En tales casos es necesario acumular los distintos valores de la función de
probabilidad hasta el valor deseado. Así pues, la función de distribución es una
nueva aplicación que asocia a cada valor de la v.a. discreta la probabilidad
acumulada hasta ese valor (la probabilidad de que la v.a. tome valores menores o
iguales a xi). Esta función se representa por:
𝐹(𝑥): ℝ → ℝ 𝑥 → 𝐹(𝑥) = 𝑝(𝑋 ≤ 𝑥)
Se calcula:
𝐹(𝑥) = 𝑝(𝑋 ≤ 𝑥) = ∑ 𝑝(𝑥𝑖 )

𝑥𝑖 ≤𝑥
Hay que señalar que el dominio de la función de distribución es todo el

conjunto de números reales, sean o no valore de la variable aleatoria. Para la
función de probabilidad, cualquier número real que no sea uno de los posibles
valores de la variable, tiene como valor funcional 0. Es decir si k no pertenece al
recorrido de la variable, entonces p(k)=0. Sin embargo mediante la función de
distribución, aunque un número no esté en el recorrido de la variable, su valor
funcional no tiene por qué ser 0.

Sus propiedades se pueden resumir en:
- 𝐹(𝑥) es una probabilidad tal que 0 ≤ 𝐹(𝑥) ≤ 1
- 𝐹(𝑥) = 0 ∀𝑥 < 𝑥1
- 𝑓(𝑥) = 1 ∀𝑥 ≥ 𝑥𝑛
- Es constante en cada intervalo [𝑥𝑖 , 𝑥𝑖+1 [
- Es continua por la derecha en cada punto

32
- Es creciente
- 𝑝(𝑎 < 𝑥 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
Podemos expresar la función de distribución de la siguiente forma. Sea X

una v.a. cuya función de probabilidad es:
𝑿 𝒙𝟏 𝒙𝟐 … 𝒙𝒏
𝒇(𝒙) = 𝒑(𝑿 = 𝒙) 𝑝1 𝑝2 … 𝑝𝑛
Entonces, su función de distribución es:
0 𝑠𝑖 𝑥 < 𝑥1
𝑝1 𝑠𝑖 𝑥1 ≤ 𝑥 < 𝑥2
𝑝1 + 𝑝2 𝑠𝑖 𝑥2 ≤ 𝑥 < 𝑥3
𝐹(𝑥) =
… …
𝑝1 + 𝑝2 + ⋯ + 𝑝𝑛−1 𝑠𝑖 𝑥𝑛−1 ≤ 𝑥 < 𝑥𝑛
{ 1 𝑠𝑖 𝑥 ≥ 𝑥𝑛
Todas las variables discretas tienen una función de distribución escalonada.

Los saltos de la función se producen, precisamente, en los valores del recorrido de
la variable, siendo la magnitud del salto el valor de la probabilidad del
correspondiente valor de la variable.
En el ejemplo anterior de lanzar una moneda tres veces siendo p=0,6 la

probabilidad de obtener cara cada vez, la función de distribución de la variable
X=”número de caras” es:
0 𝑠𝑖 𝑥 < 0
0,064 𝑠𝑖 0 ≤ 𝑥 < 1
𝐹(𝑥) = 0,352 𝑠𝑖 1 ≤ 𝑥 < 2 7
0,784 𝑠𝑖 2 ≤ 𝑥 < 3
{ 1 𝑠𝑖 𝑥 ≥ 3

Su gráfica es:
33
Por otro lado, la función de distribución se utiliza para determinar de una

forma casi inmediata la probabilidad de que la variable tome valores en un
determinado intervalo. Puesto que F(a)=p(X≤a) incluye la probabilidad de que la
variable tome el valor a, F(b)-F(a) de termina la probabilidad de que la variable
tome valores entre a y b, per excluyendo a a.
Por ejemplo, la probabilidad de que el número de caras obtenidas sea mayor

que 0 pero menor o igual que 2, es la diferencia entre los valores de la función de
distribución para estos dos valores de la variable:
𝑝(0 < 𝑥 ≤ 2) = 𝐹(2) − 𝐹(0) = 0,784 − 0,064 = 0,720
Las dos funciones que se han descrito, la función de probabilidad y la

función de distribución, junto con el recorrido de la variable, constituyen lo que se
conoce como distribución de probabilidad de la variable.
P1. Considérese la variable aleatoria X=”suma de puntos que se obtiene al

lanzar dos dados”. Determínese su recorrido, su función de probabilidad y su
función de distribución.
Se trata de una variable aleatoria discreta cuyo recorrido es finito. La

variable puede tomar cualquier número natural, comprendido entre 2 y 12, de
modo que el recorrido es:
7
El valor 0,352, correspondiente a los puntos entre 1 y 2, es el resultado de la suma de 0,064+0,288, que
son las probabilidades de los valores 0 y 1. Del mismo modo, el valor 0,784 es el resultado de la suma
0,064+0,288+0,432 que son las probabilidades de los valores 0, 1 y 2

𝑅(𝑋) = {2, 3, 4, 5, 6, 7, 8,9,10, 11, 12}
La función de probabilidad viene determinada por la siguiente tabla:
Valores de X 2 3 4 5 6 7 8 9 10 11 12
Sucesos 1,2 1,2 1,3 1,4 1,5 1,6 2,6 3,6 4,6 5,6 6,6
elementales 34
asociados8 2,1 2,2 2,3 2,4 2,5 3,5 4,5 5,5 6,5
3,1 3,2 3,3 3,4 4,4 5,4 6,4
4,1 4,2 4,3 5,3 6,3
5,1 5,2 6,2
6,1
Probabilidad 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/3 1/36
p(x)
O bien, se puede expresar con la siguiente fórmula:
6 − |7 − 𝑥|
𝑝(𝑥) = { si 𝑥 = 2, 3, … ,12
36
0 para cualquier otro valor
Por otra parte, su función de distribución es:
Si x (-,2) 2,3) 3,4) 4,5) 5,6) 6,7) 7,8) 8,9) 9,10) 10,11) 11,12) 12,)
F(x) 0 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1
8
La expresión “sucesos elementales asociados” hace referencia a las distintas combinaciones de dados
para obtener la suma dada. Por ejemplo para obtener suma 3, un dado puede salir en ¡ y el otro en 2, o
bien al revés. Es decir hay dos posibilidades de obtener suma 3.

MEDIA Y VARIANZA DE UNA FUNCIÓN DE PROBABILIDAD

DISCRETA.
Para describir el comportamiento de la distribución de probabilidad de una
variable hay que estudiar dos características. Estas son: el promedio y la
dispersión.
Para describir el promedio de utiliza el valor esperado, media o esperanza

matemática, mientras que para describir la dispersión se utilizan la varianza y su
raíz cuadrada, la desviación típica.
35
Media de una variable aleatoria discreta.
La media de una variable aleatoria discreta representa el valor central

alrededor del cual los valores de la variable aleatoria tienden a agruparse. Se
representa por . También se le llama valor esperado o esperanza matemática,
términos que hacen referencia al promedio de la ganancia esperada por un jugador
al apostar. Por eso, en ocasiones también se representa por 𝐸[𝑥], que se lee
“esperanza de X”.
Se calcula de la siguiente manera:
𝜇 = 𝐸[𝑥] = ∑ 𝑥𝑖 · 𝑝(𝑥𝑖 )
𝑖
P2. Determinar la esperanza de la variable X=”número de caras obtenidas”

al lanzar una moneda tres veces, siendo la probabilidad de obtener cara cada vez
p=0,6.
Ya hemos visto anteriormente que los valores de la función y su función de

probabilidad son:
𝒙𝒊 0 1 2 3
𝒑(𝒙𝒊 ) 0,064 0,288 0,432 0,216
Así pues:
𝜇 = 𝐸[𝑥] = ∑ 𝑥𝑖 · 𝑝(𝑥𝑖 ) = 0 · 0,064 + 1 · 0,288 + 2 · 0,432 + 3 · 0,216 = 1,8

𝑖
Esto quiere decir que, al repetir indefinidamente la experiencia de lanzar la

moneda tres veces, como promedio se obtendrán 1,8 caras.

Varianza y desviación típica de una variable aleatoria discreta.
Para medir la dispersión de la variable respecto de la media se utilizan la

varianza y la desviación típica. La varianza y la desviación típica se determina con
las siguientes expresiones.
𝑠 2 = ∑ 𝑥𝑖2 · 𝑝(𝑥𝑖 ) − 𝜇2 → 𝜎 = √𝑠 2
𝑖
P3. Determinar la varianza y la desviación típica del problema P2. 36
Vamos a construir la siguiente tabla:
𝒙𝒊 𝒑(𝒙𝒊 ) 𝒙𝒊 · 𝒑(𝒙𝒊 ) 𝒙𝟐𝒊 𝒙𝟐𝒊 · 𝒑(𝒙𝒊 )
0 0,064 0 0 0
1 0,288 0,288 1 0,288
2 0,432 0,864 4 1,728
3 0,216 0,648 9 1,944
 1 1,8 3,960
De donde:
𝑠 2 = ∑ 𝑥𝑖2 · 𝑝(𝑥𝑖 ) − 𝜇2 = 3,960 − 1,82 = 0,72 → 𝜎 = √𝑠 2 = √0,72 = 0,8485

𝑖

DISTRIBUCIÓN BINOMIAL.
Supongamos que un experimento aleatorio tiene las siguientes características:
1. El experimento consta de un número n de pruebas.
2. En cada prueba del experimento sólo son posibles dos resultados: el suceso 𝐴
(éxito) y su contrario 𝐴̅ (fracaso).
3. El resultado obtenido en cada prueba es independiente de los resultados

obtenidos anteriormente. Las n pruebas son independientes entre sí.
37
4. La probabilidad del suceso 𝐴 es constante, la representamos por p, y no
varía de una prueba a otra. La probabilidad de 𝐴̅ es q=1-p.
Todo experimento que tenga estas características diremos que sigue el modelo
de la distribución Binomial. A la variable X que expresa el número de éxitos
obtenidos en cada prueba del experimento, la llamaremos variable aleatoria
binomial.
La variable binomial es una variable aleatoria discreta, sólo puede tomar los
valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay
que considerar todas las maneras posibles de obtener k-éxitos y (n-k) fracasos
debemos calcular éstas por combinaciones (número combinatorio n sobre k).
La distribución Binomial se suele representar por B(n,p) siendo n y p los

parámetros de la función de probabilidad.
Función de Probabilidad de la v.a. Binomial
La función de probabilidad de la distribución Binomial, que indica la probabilidad

de obtener k éxitos al realizar n pruebas, es:
𝑛
𝑝(𝑋 = 𝑘) = ( ) · 𝑝𝑘 · 𝑞 𝑛−𝑘
𝑘
Parámetros de la Distribución Binomial
Los parámetros más importantes que caracterizan una distribución

binomial son la media y la varianza9.
La media es: 𝜇 = 𝐸[𝑥] = 𝑛𝑝
La varianza es: 𝑠 2 = 𝑛𝑝𝑞
La desviación típica es: 𝜎 = √𝑠 2 = √𝑛𝑝𝑞
9
La varianza se puede representar también como 𝜎 2 .

Función de Distribución de la v.a. Binomial
Viene dada por la expresión:
𝑛 𝑛 𝑛
𝐹(𝑥𝑖 ) = 𝑝(𝑋 ≤ 𝑥𝑖 ) = ( ) 𝑝0 𝑞 𝑛 + ( ) 𝑝1 𝑞 𝑛−1 + ⋯ + ( ) 𝑝𝑘 𝑞 𝑛−𝑘
0 1 𝑘
siendo k el mayor número entero menor o igual a xi.
Esta función de distribución proporciona, para cada número real xi, la

probabilidad de que la variable X tome valores menores o iguales que xi.
38
El cálculo de las 𝐹(𝑥𝑖 ) = 𝑝(𝑋 ≤ 𝑥𝑖 ) puede resultar laborioso, por ello se han
construido tablas para algunos valores de n y p que nos facilitan el trabajo10.
En resumen, sea X una variable aleatoria discreta correspondiente a una

distribución binomial, entonces:
𝑝(𝑋 = 𝑘) ⇒ 𝑘, número de éxitos 0 ≤ 𝑘 ≤ 𝑛

𝑛, número de pruebas 𝑛>0
𝐵(𝑛, 𝑝) ⇒ {
𝑝, probabilidad de éxito 0 ≤ 𝑝 ≤ 1
P4. Una máquina fabrica una determinada pieza y se sabe que produce un 7 por
1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas
sólo haya una defectuosa.
Se trata de una distribución binomial de parámetros B(50, 0'007) y debemos

calcular la probabilidad p(X=1).
50 50
𝑝(𝑋 = 1) = ( ) · 0,0071 · (1 − 0,007)50−1 = ( ) 0,007 · 0,99349 = 0,248
1 1
P5. La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la

probabilidad de que una vez administrada a 15 pacientes:
a) Ninguno sufra la enfermedad
b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad
Se trata de una distribución binomial de parámetros B(15, 0'72)
a) Es decir, que el porcentaje de éxito sea de 15 casos, de la totalidad de los

pacientes,.
15
𝑃(𝑋 = 15) = ( ) · 0,7215 · 0,280 = 0,00724 → 0,724%
15
10
Se puede consultar dichas tablas en : http://www.uv.es/~montes/nau_gran/tablas.pdf

b) En este caso, el porcentaje de éxitos es nulo.
15
𝑃(𝑋 = 0) = ( ) · 0,720 · 0,2815 = 5,097 · 10−9 → 5,097 · 10−7 %
0
c) Es decir, que el número de éxitos sea de 13.
15
𝑃(𝑋 = 13) = ( ) · 0,7213 · 0,282 = 0,11503 → 11,503%
13
39
P6. La probabilidad de que el carburador de un coche salga de fábrica defectuoso
es del 4 por 100. Hallar:
a) El número de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviación típica.
a) Se nos está pregu7ntando por la media de esta distribución:
𝜇 = 𝑛𝑝 = 1000 · 0,04 = 40
40 carburadores defectuosos.
b) La varianza es:
𝑠 2 = 𝑛𝑝𝑞 = 1000 · 0,04 · 0,96 = 38,4
y la desviación típica
𝜎 = √𝑛𝑝𝑞 = √38,4 = 6,19
P6. Un examen de matemáticas tipo test consta de 10 preguntas cada una de ellas
con cuatro respuestas posibles. Calcúlese la probabilidad de: a) sacar un cinco en el
examen contestando al azar cada pregunta; b) aprobar dicho examen contestando
al azar las preguntas.
a) Se trata de una distribución binomial B(10, 0,25) en la que la probabilidad de

contestar bien una pregunta es del 25% (unan de 4 opciones) y la de fallar es del
75%. De modo que la probabilidad de que el número de éxitos sea k=5
10
𝑃(𝑋 = 5) = ( ) · 0,255 · 0,7510−5 = 0,0584 → 5,84%
5
Podíamos habernos ayudado de las tablas de probabilidades puntuales de la

distribución binomial que se ha referenciado anteriormente. Al observar esas
tablas, vemos que para n=10, k=5 y p=0,25 la probabilidad es 0,0584.

40
b) En este caso, para aprobar el examen hemos de obtener un 5 en la prueba, o un
6, o un 7, 8, 9 o10.
La probabilidad pedida (usando la tabla de probabilidades puntuales de la

distribución binomial), es:
𝑝(𝑋 ≥ 5) = 𝑝(𝑋 = 5) + 𝑝(𝑋 = 6) + 𝑝(𝑋 = 7) + 𝑝(𝑋 = 8) + 𝑝(𝑋 = 9) + 𝑝(𝑋 = 10)
𝑝(𝑋 ≥ 5) = 0,0584 + 0,0162 + 0,0031 + 0,0004 + 0,0000 + 0,0000 = 0,0781 → 7,81%
Podíamos habernos ayudado de la tabla de probabilidades acumuladas de la

distribución binomial. Ya que la probabilidad de obtener una puntuación superior o
igual a cinco es la opuesta de obtener una puntuación de cuatro o inferior.
𝑝(𝑋 ≥ 5) = 1 − 𝑝(𝑋 ≤ 4) = 1 − 0,9219 = 0,0781 → 7,81%
Si alguien considera la posibilidad de aprobar el primer examen tipo test de la oposición a Observador de
Meteorología contestando al azar, ha de tener en cuenta que n=70 y que, como hay 4 respuestas posibles en
cada pregunta, p=0,25. De modo que se trata de una distribución binomial B(70 , 0,25).
Tanto si hace el cálculo directamente o si se ayuda de las tablas o si recurre a calculadoras on line (por ejemplo:
https://www.geogebra.org/probability), llegará al resultado de que dicha probabilidad es nula.
Moraleja: hay que estudiar y no dejar la contestación a las preguntas en manos del azar .

VARIABLES ALEATORIAS CONTINUAS

Ya hemos visto anteriormente que si en un experimento aleatorio a cada
suceso aleatorio elemental le asignamos un valor numérico obtenemos una variable
aleatoria. Es decir, una variable que lleva asociada una probabilidad. La
probabilidad de un valor concreto de la variable es la probabilidad que corresponde
a los sucesos aleatorios elementales a los que hemos asignado ese valor numérico.
Por ejemplo, en el experimento aleatorio "lanzar un dado" asignamos a cada

cara del dado su valor numérico (esta asignación aparece de forma natural). Así
generamos una variable aleatoria que toma seis valores, del 1 al 6 con igual
probabilidad (1/6) cada uno de ellos. Pero, con este mismo experimento, podemos 41
generar otras variables aleatorias (no tan naturales) como puede ser : asignar el
valor 1 a las caras que son múltiplos de tres y el valor 0 a las que no lo son,
apareciendo una variable aleatoria que tiene dos valores, el 1 con probabilidad 1/3
y el 0 con probabilidad 2/3.
Crear una variable aleatoria no tiene mucho sentido sino la vamos a utilizar
en un determinado contexto, por ejemplo, podemos utilizar la segunda variable
aleatoria que hemos creado para apostar si sale o no múltiplo de tres. Así pues, una
variable aleatoria se construye al atribuir un número (positivo, negativo o cero) a
cada uno de los sucesos aleatorios que forman el espacio muestral de un
experimento aleatorio. La probabilidad de cada valor de la variable es la
probabilidad conjunta de los sucesos que dan lugar a ese valor. Es decir, definimos
una variable aleatoria como una aplicación del espacio muestral sobre el conjunto
de los números reales .
Ya sabemos que según la amplitud del campo de variación de la función

podemos distinguir : variables aleatorias discretas y variables aleatorias continuas.
De la misma forma que en estadística descriptiva, una variable aleatoria es
discreta si toma valores en un conjunto finito o infinito numerable. Y una variable
aleatoria es continua si puede tomar valores en un conjunto infinito no numerable.
Como ejemplo típico de variable aleatoria discreta tenemos la distribución
binomial, y como ejemplo típico de variable aleatoria continua vamos a ver ahora la
distribución normal.
Como hemos visto hay variables aleatorias que pueden tomar cualquier
valor de un intervalo real de la forma (a, b), (a, +), (-, b), (-, +) o uniones de
ellos. A las variables de este tipo se las denomina variables aleatorias continuas.
Supongamos por ejemplo, que vamos a realizar un experimento aleatorio

que consiste en seleccionar una persona y apuntar su peso. Podemos crear una
variable aleatoria cuyos valores sean el número de kilogramos que pesa la persona
observada. En este caso, el rango de valores posibles se extiende entre los límites
naturales, pero la continuidad de esta variable aleatoria radica en el carácter
continuo de lo que medimos, el peso, es decir, en el hecho de que entre dos valores
posibles se podrían obtener infinitos valores intermedios, también posibles si
utilizáramos aparatos con suficiente precisión. Estos "infinitos" en el interior del
rango de la variable es lo que diferencia a las variables continuas de las discretas.

Sin entrar en profundidades, consideramos que una distribución de

probabilidad es cualquier mecanismo que nos ayuda a obtener las probabilidades
de los valores de una variable si es discreta, o las probabilidades de intervalos de la
variable si es continua. Si la variable aleatoria es discreta es posible asignar
probabilidades a cada uno de los valores puntuales de la variable. En contra,
cuando es continua cada uno de los infinitos valores posibles tendrá probabilidad
cero y sólo podremos hablar de probabilidad dentro de intervalos.
Distribuciones de probabilidad con variable aleatoria continua. Función de

Distribución y Función de Densidad. 42
Si la variable aleatoria es continua hay infinitos valores posibles de la

variable y entre cada dos de ellos se podrían definir infinitos valores más. En estas
condiciones, y como ya hemos dicho, no es posible deducir la probabilidad de un
valor puntual de la variable, como se puede hacer en el caso de variables aleatorias
discretas. Pero sí es posible calcular la probabilidad acumulada hasta un cierto
valor (función de distribución), más tarde podremos analizar cómo cambia la
probabilidad acumulada en cada punto (estos cambios no son probabilidades sino
otro concepto que denominamos densidad de probabilidad).
Como queremos definir los conceptos de función de densidad y de

distribución para variables aleatorias continuas, vamos a partir de la idea intuitiva
de que tales funciones son "modelos" de las distribuciones de frecuencias de la
variable aleatoria considerada.
Ejemplo 1. Pretendemos observar la altura de un grupo de personas y vamos a

seleccionar a una persona de forma totalmente aleatoria. La probabilidad de que la
altura de esa persona sea exactamente 1,62894635... m es cero. Pero la
probabilidad de que la altura de esa persona esté entre 1,62 m y 1,63 m tendrá un
valor concreto y casi con certeza que será mayor que la probabilidad de que esté
entre 2,10 m y 2,11 m. Por tanto, la densidad de probabilidad en el entorno de
1,625 m es mayor que la densidad de probabilidad en el entorno de 2,105 m. Sin
embargo, que el valor exacto 1,62894635 tenga probabilidad cero de ocurrir no
implica que sea imposible que ocurra. De hecho, cualquier persona que
seleccionemos tendrá una altura concreta y exacta que tenía probabilidad cero de
suceder.
Ejemplo 2. Sea X la v.a. que describe la duración de los neumáticos de una

determinada marca y modelo. Los valores de una variable estadística continua
siempre se consideran agrupados en intervalos de clase, luego no tiene sentido
plantearse la probabilidad de resultados "aislados" (como, por ejemplo, la
probabilidad de que un neumático dure, exactamente, 56.000 km , 235 m , 47 cm y
6 mm). En todo caso, esas probabilidades deben valer cero. Pero sí podemos
preguntarnos, por ejemplo, ¿cuál es la probabilidad de que un neumático dure
menos de 50.000 km? o ¿cuál es la probabilidad de que un neumático dure entre
60.000 y 70.000 km?.
Tanto en el ejemplo 1 como en el 2 si queremos hallar esas probabilidades

tendremos que recurrir a métodos empíricos y usar técnicas estadísticas: tomar una

muestra, examinar y anotar las frecuencias observadas. Entonces tomaremos como

valor de la probabilidad de un suceso s1 la frecuencia observada de éste:
𝑝(𝑠1 ) = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎(𝑠1 ).
Ejemplo 3. Supóngase que se mide el tiempo que tarda un autobús en

recorrer la distancia existente entre dos paradas consecutivas de su recorrido. Sin
el cronómetro utilizado tiene una precisión hasta los segundos, una medida de 85 s
debe tomarse como un valor medio, estando comprendido el verdadero valor entre
84,5 y 85,5 s. De hecho, se puede determinar la probabilidad de que el autobús
tarde entre 84,5 y 85,5 s en recorrer la distancia entre las dos paradas, pero no la
probabilidad de que tarde exactamente 85 s. 43
En general, en variables continuas lo adecuado es calcular probabilidades de

que la variable tome valores dentro de intervalos en lugar de hacerlo para puntos
concretos.
Para explicitar esto, en cada variable continua se define una función,

llamada función de densidad, que se representa por 𝑓(𝑥) y que mide la masa de
probabilidad por unidad de variación de la variable, de donde toma su nombre.
Dada la función de densidad de una variable, para obtener la probabilidad de que
la variable tome un valor comprendido en un intervalo [𝑥 , 𝑥 + ∆𝑥], hay que
multiplicar la densidad de probabilidad, supuesta constante en el intervalo, por la
amplitud del intervalo:
𝑝(𝑥 < 𝑋 < 𝑥 + ∆𝑥) = 𝑓(𝑥) · ∆𝑥
Puesto que la función de densidad no tiene por qué ser constante, este
cálculo es una aproximación, que resulta tanto mejor cuanto menor sea la amplitud
del intervalo. Para obtener el valor exacto de la probabilidad en el intervalo, se
puede descomponer en n subintervalos y calcular el límite de la suma de las
probabilidades en cada uno de esos subintervalos, cuando n tiende a infinito. Es
decir, hacer la integral:
𝑛 𝑏
𝑝(𝑎 < 𝑥 < 𝑏) = lim ∑ 𝑓(𝑥) · (𝑥𝑖+1 − 𝑥𝑖 ) = ∫ 𝑓(𝑥)𝑑𝑥
𝑛→∞ 𝑎
𝑖=1
Como f(x) ha de ser necesariamente positiva, esta integral es el área del

recinto que limita la función de densidad sobre el eje de abscisas entre las abscisas
x=1 y x=b. De modo que el cálculo de probabilidades en variables continuas se
reduce a un cálculo de áreas.
Así pues, la función de densidad de una variable aleatoria, X, es una

función 𝑓(𝑥) tal que:
1. 𝑓(𝑥) ≥ 0 ∀𝑥
+∞
2. ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
3. 𝑝(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥

Por otro lado, al ser la probabilidad puntual igual a 0, si a y b son dos

valores cualesquiera del dominio de la función de densidad, se tiene que:
𝑏
𝑝(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑝(𝑎 ≤ 𝑋 < 𝑏) = 𝑝(𝑎 < 𝑋 ≤ 𝑏) = 𝑝(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥
𝑎
Del mismo modo que se hizo en las variables discretas, para facilitar el
cálculo de probabilidades en variables continuas, se define la función de
distribución, que da el área encerrada por la gráfica de la función de densidad
sobre el eje OX desde - hasta x.
𝑥 44
𝐹(𝑥) = 𝑝(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑥)𝑑𝑥
−∞
Por tanto, si se dispone de la función de distribución, F(x), se pueden hallar

probabilidades aplicando las siguientes relaciones:
- 𝑝(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑝(𝑎 < 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
- 𝑝(𝑋 ≥ 𝑎) = 𝑝(𝑋 > 𝑎)1 − 𝑝(𝑋 ≤ 𝑎) = 1 − 𝐹(𝑎)
P7. Dada la función:
𝟐 − 𝒌𝒙 𝐬𝐢 𝟎 ≤ 𝒙 ≤ 𝟏
𝒇(𝒙) = {
𝟎 𝐞𝐧 𝐜𝐚𝐬𝐨 𝐜𝐨𝐧𝐭𝐫𝐚𝐫𝐢𝐨
Calcular el valor de k para que sea una función de densidad de una v.a., hallar su
función de distribución y calcular la probabilidad de que la variable esté
comprendida entre 0,2 y 0,5.
Para que 𝑓(𝑥) sea una función de densidad debe cumplir que:
+∞
∫ 𝑓(𝑥)𝑑𝑥 = 1
−∞
Como 𝑓(𝑥) vale 0, excepto en el intervalo 0,1, esta condición se reduce a:
1
∫ 𝑓(𝑥)𝑑𝑥 = 1
0
Es decir,
1 1 1
𝑥2
∫ 𝑓(𝑥)𝑑𝑥 = ∫ (2 − 𝑘𝑥)𝑑𝑥 = 1 → [2𝑥 − 𝑘 ] = 1 → 𝑘=2
0 0 2 0
La función de distribución será:

𝑥
𝐹(𝑥) = ∫0 (2 − 2𝑥)𝑑𝑥 ∀𝑥 comprendido entre 0 y 1. Es decir,
0 𝑥<0
𝐹(𝑥) = {2𝑥 − 𝑥 2 ∶ 0 ≤ 𝑥 ≤ 1
1 𝑥>1
A partir de la función de distribución se calcula de una forma rápida y fácil la

probabilidad de que la variable tome valores en un intervalo:
𝑝(0,2 < 𝑥 < 0,5) = 𝐹(0,5) − 𝐹(0,2) = (2 · 0,5 − 0,52 ) − (2 · 0,2 − 0,22 ) = 0,75 − 0,36
= 0,39 → 39%
45
Media y varianza de una variable continua.
La esperanza (o valor esperado, o media) de una variable continua se define

como el valor promedio de la variable:
+∞
𝜇 = 𝐸[𝑋] = ∫ 𝑥 · 𝑓(𝑥)𝑑𝑥
−∞
Tiene las siguientes propiedades:
1. La esperanza de una constante, es la constante 𝐸[𝑘] = 𝑘
2. La esperanza de la suma de dos funciones g(x) y h(x) que

dependen de la misma variable aleatoria X, es la suma de las
esperanzas de dichas funciones 𝐸[𝑔(𝑥) + ℎ(𝑥)] = 𝐸[𝑔(𝑥)] +
𝐸[ℎ(𝑥)]
P8. Determinar la esperanza matemática de la variable definida en el P7.
La función de densidad de la variable del problema anterior es:
2 − 2𝑥 si 0 ≤ 𝑥 ≤ 1
𝑓(𝑥) = {
0 en caso contrario
Según la definición:
+∞ 1 1 1
𝑥2 𝑥3 1
𝜇 = 𝐸[𝑋] = ∫ 𝑥 · 𝑓(𝑥)𝑑𝑥 = ∫ 𝑥(2 − 2𝑥)𝑑𝑥 = 2 ∫ (𝑥 − 𝑥 2 )𝑑𝑥 = 2 [ − ] =
−∞ 0 0 2 3 0 3

La varianza de una v.a. continua es:
𝑉(𝑋) = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 = 𝐸[𝑋 2 ] − 𝜇2
Para calcular la varianza hay que calcular por separado 𝐸[𝑋 2 ] y 𝜇2
La varianza tiene las siguientes propiedades:
1. La varianza de una variable no se modifica si se incrementan todos

los valores de la variable en la misma cantidad. Es decir,
𝑉[𝑋 + 𝑘] = 𝑉[𝑋]. 46
2. Si se multiplica una variable por un valor constante, su varianza

queda multiplicada por el cuadrado de la constante. Es decir,
𝑉[𝑘𝑋] = 𝑘 2 𝑉[𝑋]
P9. Determinar la varianza y la desviación típica de la variable de P7.
Se calcula en primer lugar:
+∞ 1
1
𝐸[𝑋 2 ] = ∫ 𝑥 2 𝑓(𝑥)𝑑𝑥 = ∫ 𝑥 2 (2 − 2𝑥)𝑑𝑥 =
−∞ 0 6
Así pues, la varianza es:
1 1 2 1
𝑉(𝑋) = 𝐸[𝑋 2 ] − 𝜇2 = −( ) =
6 3 18
Y la desviación típica:
1
𝜎 = √𝑉(𝑋) = √ ≈ 0,236
18
Tipificación de una variable aleatoria continua.
Si X es una variable aleatoria de media  y desviación típica  , la

variable 𝑌 = (𝑋 − 𝜇)/𝜎 tiene de media 0 y de desviación típica 1, y se llama
tipificada de X.
Podemos decir que mide la desviación de X respecto de su media, tomando

como unidad la desviación típica de X.

LA DISTRIBUCIÓN NORMAL.
La mayor parte de las variables aleatorias continuas tienen una distribución
que acumula mucha densidad de probabilidad en los valores centrales pero va
decreciendo según la variable se aleja en cualquiera de los dos sentidos. Lo normal
es que haya pocos individuos con valores extremos, ya sea por debajo o por encima
de la media, y muchos individuos que tomen valores intermedios, próximos a la
media.11
Esta distribución es frecuentemente utilizada en las aplicaciones

estadísticas. Su propio nombre indica su extendida utilización, justificada por la
frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su 47
comportamiento a esta distribución. Muchas variables aleatorias continuas
presentan una función de densidad cuya gráfica tiene forma de campana.
La importancia de la distribución normal se debe principalmente a que hay

muchas variables asociadas a fenómenos naturales que siguen el modelo de la
normal
 Caracteres morfológicos de individuos (personas, animales, plantas,...) de

una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...
 Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un
fármaco, o de una misma cantidad de abono.
 Caracteres sociológicos, por ejemplo: consumo de cierto producto por un
mismo grupo de individuos, puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente intelectual, grado de
adaptación a un medio,...
 Errores cometidos al medir ciertas magnitudes.
 Valores estadísticos muestrales, por ejemplo: la media.
 Otras distribuciones como la binomial o la de Poisson son aproximaciones
normales, ...
Y en general cualquier característica que se obtenga como suma de muchos

factores.
Se define la distribución normal en términos de su función de densidad. Una

variable aleatoria presenta una distribución normal si su función de densidad es:
11
La expresión matemática de la función de densidad de la distribución normal fue descubierta por De
Moivre (https://es.wikipedia.org/wiki/Abraham_de_Moivre) en 1773 como límite de la distribución
binomial. Así mismo Laplace (https://es.wikipedia.org/wiki/Pierre-Simon_Laplace) y Gauss
(https://es.wikipedia.org/wiki/Carl_Friedrich_Gauss) , también la estudiaron y finalmente se la llama
curva gaussiana en honor de este último

1 1 𝑥−𝜇 2
− ( )
𝑓(𝑥) = 𝑒 2 𝜎
𝜎√2𝜋
Los parámetros de una distribución normal son  y , que corresponden a la

media y a la desviación típica. De modo que las variables X que presentan una
distribución normal de media , y desviación típica , se representan por:
𝑋~𝑵(𝝁, 𝝈)
La curva normal12, o campana de Gauss, es una curva simétrica
𝑓(𝑥) 48
1
𝜎√2𝜋
Campana de Gauss
𝜇 − 2𝜎 𝜇 − 𝜎 𝜇 𝜇 + 𝜎 𝜇 + 2𝜎 x
Esta curva tiene estas características:
1. Su dominio son todos los números reales 𝐷𝑜𝑚 𝑓(𝑥) = ℝ
1
2. Su máximo está en el punto (𝜇, 𝜎 )
√2𝜋
3. Los puntos de inflexión están en 𝑥 = 𝜇 − 𝜎 y 𝑥 =𝜇+𝜎
4. El eje OX es una asíntota horizontal.
5. Es simétrica respecto a la recta 𝑥 = 𝜇 .
6. Es creciente en el intervalo - , 𝜇 − 𝜎 y decreciente en  𝜇 + 𝜎 , +
7. En cuanto a su signo, es una función siempre positiva.
8. El área total bajo la curva es 1, ya que la curva es la gráfica de la función

de densidad de la variable.
+∞ 1 𝑥−𝜇 2
1 − ( )
Á𝑟𝑒𝑎 = ∫ 𝑒 2 𝜎 𝑑𝑥 =1
𝜎√2𝜋 −∞
12
https://es.wikipedia.org/wiki/Funci%C3%B3n_gaussiana

9. El área bajo la curva entre dos abscisas cualesquiera a y b, es decir, la

integral entre a y b de su función de densidad, representa la probabilidad de
que la variable tome un valor comprendido entre esas dos abscisas:
𝑏 1 𝑥−𝜇 2
1 − ( )
𝑝(𝑎 < 𝑥 < 𝑏) = ∫ 𝑒 2 𝜎 𝑑𝑥
𝜎√2𝜋 𝑎
Por ejemplo, para una distribución normal 𝑋~𝑵(𝟎, 𝟏), la probabilidad13 de que
un valor x esté comprendido entre -0,5 y 0,5 es:
0,5 1 𝑥−𝜇 2
1 − ( ) 49
𝑝(−0,5 < 𝑥 < 0,5) = ∫ 𝑒 2 𝜎 𝑑𝑥 = 0,3829
𝜎√2𝜋 −0,5
Como esta integral no se puede calcular en términos finitos, para

obtener probabilidades en una distribución normal se utilizan tablas14 donde
se han recopilado cálculos aproximados para estas integrales, o bien distinto
software informático15
10. El área bajo la curva entre los puntos de inflexión 𝑥 = 𝜇 − 𝜎 y 𝑥 = 𝜇 + 𝜎

vale 0,6827. Es decir la probabilidad de que el valor de la variable se
encuentre comprendido entre 𝑥 = 𝜇 − 𝜎 y 𝑥 = 𝜇 + 𝜎 es 0,6827. O, lo que es
lo mismo, el 68,27% (2/3 de los individuos) de los individuos que tienen una
característica con distribución normal, presentan valores centrales de esa
características. En una distribución normal 𝑋~𝑵(𝟎, 𝟏):
11. El área bajo la curva entre 𝑥 = 𝜇 − 2𝜎 y 𝑥 = 𝜇 + 2𝜎, es 0,9545. Es decir,

aproximadamente sólo el 5% de los individuos presenta una característica
13
Cálculo hecho con la ayuda de Geogebra https://www.geogebra.org/probability
14
http://www.uv.es/~montes/nau_gran/tablas.pdf
15
Por ejemplo, https://www.geogebra.org/

que difiere de la media en más de dos veces la desviación típica. En una

distribución normal 𝑋~𝑵(𝟎, 𝟏):
12. El área bajo la curva entre 𝑥 = 𝜇 − 3𝜎 y 𝑥 = 𝜇 + 3𝜎, es 0,9973. Es decir, 50

prácticamente la totalidad de los individuos tienen un valor de la variable
que difiere de la media en valor absoluto menos que tres veces la desviación
típica. En una distribución normal 𝑋~𝑵(𝟎, 𝟏):
Puesto que la práctica totalidad de los valores de la variable se encuentran

comprendidos entre 𝑥 = 𝜇 − 3𝜎 y 𝑥 = 𝜇 + 3𝜎, a este intervalo se le llamará
recorrido significativo de la variable. A medida se reduce la desviación típica, el
recorrido significativo también lo hace.
𝟏
Por ejemplo, en una distribución 𝑋~𝑵 (𝟎, ):
√𝟐
El recorrido significativo es entre -2,1213 y 2,1213.
En una distribución 𝑋~𝑵(𝟎, 𝟏), el recorrido significativo es entre -3 y 3,:

En una distribución 𝑋~𝑵(𝟎, √𝟐), el recorrido significativo es entre -4,23 y

4,23 :
51
P10. Se sabe que la talla de una población de 800 personas se distribuye según una
normal de media =1,75 m y desviación típica =0,10 m. Hállese el recorrido
significativo de la variable y el número aproximado de individuos cuya estatura
está en los intervalos: a) 𝒙 = 𝝁 − 𝟑𝝈 y 𝒙 = 𝝁 − 𝟐𝝈; b) 𝒙 = 𝝁 − 𝟐𝝈 y 𝒙 = 𝝁 − 𝝈
c) 𝒙 = 𝝁 − 𝝈 y 𝒙 = 𝝁 ; d) 𝒙 = 𝝁 y 𝒙 = 𝝁 + 𝝈; e) 𝒙 = 𝝁 + 𝝈 y 𝒙 = 𝝁 + 𝟐𝝈; f)
𝒙 = 𝝁 + 𝟐𝝈 y 𝒙 = 𝝁 + 𝟑𝝈.
El recorrido significativo es el intervalo comprendido entre 𝑥 = 𝜇 − 3𝜎 y

𝑥 = 𝜇 + 3𝜎. En este caso, será entre 𝑥 = 1,45 y 𝑥 = 2,05. Con ello lo que se
pretende decir es que prácticamente toda la población presenta una valor de la
variable comprendido entre 1,45 y 2,05. Ello no excluye que pueda existir algún
caso extraño, con talla inferior a 1,45 o superior a 2,05.
Para saber el número de individuos en los intervalos propuestos, vamos a

calcular en primer lugar los valores extremos de dichos intervalos:
𝜇 − 3𝜎 = 1,45 𝜇 − 2𝜎 = 1,55 𝜇 − 𝜎 = 1,65
𝜇 + 𝜎 = 1,85 𝜇 + 2𝜎 = 1,95 𝜇 + 3𝜎 = 2,05

Entre 1,45 y 2,05 está prácticamente la totalidad de los individuos y

entre 1,55 y 1,95 está el 95,45% de los individuos lo que supone:
800 · 0,9545 = 764 individuos
Por tanto habrá 800 − 764 = 36 individuos repartidos entre 1,45 y 1,55 y
entre 1,95 y 2,05. Como la distribución es simétrica, debe haber 18 individuos entre
1,45 y 1,55 y otros 18 entre 1,95 y 2,05.
Del mismo modo, entre 1,65 y 1,85 debe haber el 68,37%, es decir, 546 individuos.
Por tanto habrá 218 individuos repartidos en los intervalos [1,55 , 1,65] y [1,85 ,
2,05]. En cada uno de ellos habrá 109 personas. 52
Cálculo de probabilidades en una distribución normal.
Para poder calcular probabilidades en una distribución normal, es necesario

saber calcular el área bajo la curva de su función de densidad entre dos valores
cualesquiera. Puesto que este cálculo no es sencillo, se han elaborado tablas16 para
la función de distribución, 𝑭(𝒙) = 𝒑(𝑿 ≤ 𝒙). El problema es que para cada par (𝜇, 𝜎)
hay una distribución normal distinta, con una función de distribución distinta, y
parece que son necesarias muchas tablas, una para cada par (𝜇, 𝜎).
La función de distribución es:

𝑥 1 𝑥−𝜇 2
1 − ( )
𝐹(𝑥) = 𝑝(𝑋 ≤ 𝑥) = ∫ 𝑒 2 𝜎 𝑑𝑥 para − ∞ < 𝑥 < +∞
−∞ 𝜎√2𝜋
Corresponde al área sombreada de la siguiente gráfica:
Sin embargo como todas las distribuciones normales tienen propiedades

comunes respecto de sus parámetros, se puede reducir una de ellas a cualquier otra
mediante un cambio de la variable que ajuste los parámetros de ambas. Por tanto,
basta tener las tablas de una única distribución normal para poder calcular
probabilidades de otra.
Se han elaborado las tablas de la función de distribución de la más sencilla:

la N(0,1), y que se llama distribución normal estándar o tipificada.
16
https://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Tabla_para_imprimir:_Distribuci%C3%B3n_n
ormal

Tipificación de la variable.
Si una variable aleatoria, X, sigue una distribución normal de media  y

desviación típica , para calcular probabilidades que se refieran a ella, es preciso
hacer un cambio de variable, y así poder usar las tablas de distribución estándar. A
este se le llama tipificar o estandarizar una variable. Se trata de calcular los
valores de la variable referidos a su media, en unidades de la desviación típica. Es
decir, calcular cuántas veces la desviación típica, es mayor o menor que la media. Y
eso se resuelve mediante el cambio de variable:
𝑋−𝜇
𝑋 = 𝜇 + 𝑍𝜎 → 𝑍=
𝜎 53
𝑋−𝜇
En general, si X sigue una distribución normal N(,), la variable 𝑍 = 𝜎
sigue
una distribución normal N(0,1).
P11. Si X es una variable que sigue una distribución normal N(120,30), hallar la
probabilidad de que la variable tome valores menores a 125.
En primer lugar hay que tipificar la variable:
𝑋 − 𝜇 𝑋 − 120
𝑍= =
𝜎 30
Para X=125:
𝑋 − 𝜇 𝑋 − 120 125 − 120 1

𝑍= = = = = 0,1666 …
𝜎 30 30 6
Así pues:
𝑝(𝑥 < 125) ≡ 𝑝(𝑧 < 0,1666) = 𝐹(0,1666) ≈ 𝐹(0,17)
Vamos a determinar con la ayuda de las tablas. Se trata de determinar el área

coloreada de la siguiente gráfica:
El cálculo de 𝐹(0,17) = 𝑝(𝑧 < 0,17) lo hacemos observando directamente las tablas:
La columna 0,1 y la fila 0,07 se cruzan en el valor 0,5675. Así pues:
𝐹(0,17) = 𝑝(𝑧 < 0,17) = 0,5675 → 56,75%

𝑥 𝑥2
1 −
𝐹(𝑥) = 𝑝(𝑋 ≤ 𝑥) = ∫ 𝑒 2 𝑑𝑥
−∞ √2𝜋
54
Casos más frecuentes:
1. Determinar 𝑝(𝑧 ≤ 𝑎). La situación corresponde a la gráfica:
La determinación de la probabilidad se hace directamente de las tablas.

2. Determinar 𝑝(𝑧 > 𝑎). La situación corresponde a la gráfica:
Hemos de calcular el área no sombreada, de modo que:
𝑝(𝑧 > 𝑎) = 1 − 𝑝(𝑧 ≤ 𝑎)

55
3. Determinar 𝑝(𝑧 ≤ −𝑎). La situación corresponde a la gráfica:
Dado que en la tabla solamente aparecen valores positivos para z, por simetría se
tiene que:
𝑝(𝑧 ≤ −𝑎) = 𝑝(𝑧 > 𝑎)
Que es el caso anterior de modo que:
𝑝(𝑧 ≤ −𝑎) = 𝑝(𝑧 > 𝑎) = 1 − 𝑝(𝑧 ≤ 𝑎)
4. Determinar 𝑝(−𝑎 < 𝑧 ≤ 𝑏). La situación corresponde a la gráfica:
La determinación de la probabilidad pedida es:
𝑝(−𝑎 < 𝑧 ≤ 𝑏) = 𝑝(𝑧 ≤ 𝑏) − [1 − 𝑝(𝑧 ≤ 𝑎)]

5. Determinar 𝑝(𝑎 < 𝑧 ≤ 𝑏). La situación corresponde a la gráfica:
𝑝(𝑎 < 𝑧 ≤ 𝑏) = 𝑝(𝑧 ≤ 𝑏) − 𝑝(𝑧 ≤ 𝑎)

56
6. Determinar 𝑝(−𝑏 < 𝑧 ≤ −𝑎). La situación corresponde a la gráfica:
𝑝(−𝑏 < 𝑧 ≤ −𝑎) = 𝑝(𝑎 < 𝑧 ≤ 𝑏)
Aproximación de la Binomial por la Normal
De Moivre demostró que bajo determinadas condiciones (para n grande y

tanto p como q no estén próximos a cero) la distribución Binomial B(n, p) se puede
aproximar mediante una distribución normal 𝑁(𝑛𝑝 , √𝑛𝑝𝑞). De donde al tipificar:
𝑋 − 𝑛𝑝
𝑍= → 𝑁(0,1)
√𝑛𝑝𝑞
(Teorema de De Moivre)
Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más
próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta
con que se verifique: 𝑛𝑝 ≥ 5 y 𝑛𝑞 ≥ 5.
Gracias a esta aproximación es fácil hallar probabilidades binomiales, que

para valores grandes de n resulten muy laboriosos de calcular.
Sin embargo, para poder hacer cálculos, puesto que se pretende

aproximar una variable discreta, en la que 𝑝(𝑥 = 𝑘) ≠ 0, mediante una variable
continua en la que 𝑝(𝑥 = 𝑘) = 0, es también necesario hacer una corrección de

continuidad. Esta corrección consiste en asignar a cada valor puntual de la variable

discreta, k, un intervalo en la variable continua 𝑘 − 0,5 , 𝑘 + 0,5).
Por ejemplo, si deseamos calcular la probabilidad de que una variable B(40 ,

0,3) tome un valor comprendido entre 10 y 15, ambos inclusive, es decir queremos
hallar 𝑝(10 ≤ 𝑥 ≤ 15), al hacer el cálculo aproximado mediante la normal, hay que
calcular 𝑝(9,5 ≤ 𝑥 ≤ 15,5)
57
P12. Se sabe que tres de cada diez personas de un país tienen los ojos verdes. ¿Cuál
es la probabilidad de que en una reunión de 40 personas, haya al menos 5 que
tengan los mojos verdes?
Se trata de una distribución binomial B(40 , 0.3). En este caso:
𝑛𝑝 = 40 · 0,3 = 12 ≥ 5
𝑛𝑞 = 40 · 0,7 = 28 ≥ 5
De modo que podemos hacer la aproximación a la normal. Los parámetros de

esta distribución normal son:
𝑁(𝑛𝑝, √𝑛𝑝𝑞) → 𝑁(40 · 0,3 , √40 · 0,3 · 0,7) → 𝑁(12 , 2,90)
Hemos de hallar 𝑝(𝑥 ≥ 4,5)
Vamos a tipificar la variable:
4,5 − 12
𝑧= = −2,59
2,90
Si las tablas que estamos consultando tienen datos para valores negativos, entonces:
𝑝(𝑥 ≥ 4,5) = 𝑝(𝑧 ≥ −2,59) = 1 − 𝑝(𝑧 ≤ −2,59)
𝑝(𝑥 ≥ 4,5) = 𝑝(𝑧 ≥ −2,59) = 1 − 𝑝(𝑧 ≤ −2,59) = 1 − 0,0048 = 0,9952

Si las tablas que estamos usando no tiene datos para valores negativos de la variable,
hemos de aplicar las propiedades de la normal vistas anteriormente:
𝑝(𝑥 ≥ 4,5) = 𝑝(𝑧 ≥ −2,59) = 1 − 𝑝(𝑧 ≤ −2,59) = 1 − [1 − 𝑝(𝑧 ≤ 2,59)]

= 𝑝(𝑧 ≤ 2,59) = 0,9952
58
La gráfica de la función de distribución una vez tipificada es:
Área=0,9952 u2
P13. El primer examen para acceder al cuerpo de Observadores de Meteorología

del Estado, consta de una batería de 70 preguntas de respuesta múltiple (4
posibilidades por cada pregunta), de las cuales solamente una respuesta es la
válida. Calcúlese la probabilidad de superar dicho examen contestando al azar
las preguntas (suponiendo que para superar esta fase haya que acertar como
mínimo 35 preguntas)
La probabilidad de acertar cada pregunta es 0,25 y de no acertarla es 0,75. Para

superar la prueba, hay que acertar como mínimo 35 preguntas.
Se trata de una distribución binomial B(70 , 0,25), que podemos acercar a la

normal ya que:

𝑛𝑝 = 70 · 0,25 = 17,5 ≥ 5
𝑛𝑞 = 70 · 0,75 = 52,5 ≥ 5
De modo que la distribución normal a la que podemos aproximar es:
𝑁(𝑛𝑝, √𝑛𝑝𝑞) → 𝑁 (70 · 0,25 , √70 · 0,25 · 0,75) → 𝑁(17,5 , 3,62)
Así pues se nos pide que determinemos 𝑝(𝑥 ≥ 35). Efectuando la corrección de
continuidad, habremos de determinar 𝑝(𝑥 ≥ 34,5).
59
Tipificando la variable:
34,5 − 17,5
𝑧= = 4,70
3,62
El cálculo se reduce a determinar 𝑝(𝑧 ≥ 4,70)
Aplicando las propiedades de la función de distribución:
𝑝(𝑧 ≥ 4,70) = 1 − 𝑝(𝑧 ≤ 4,70) = 0
Las tablas no suelen dar datos para valores tan grandes de z. En la tabla dada
en el tema, el máximo valor para z es 1,9.
Si consultamos la tabla citada anteriormente17 el máximo valor es 3,4
Si hubiésemos usado el valor para 3,4 el resultado hubiera sido:
𝑝(𝑧 ≥ 4,70) = 1 − 𝑝(𝑧 ≤ 4,70) = 1 − 0,9998 = 2 · 10−4 → 0,02%
Es lógico suponer que para valores mayores de 3,4 la probabilidad se va

haciendo cada vez menor.
17

INFERENCIA18
La Estadística inferencial se encarga de extraer conclusiones acerca de la
población a partir de los resultados obtenidos de una muestra.
Distribución de la media muestral.
Dada una muestra aleatoria de tamaño n procedente de una población normal

con media  y desviación típica , el valor medio de las n observaciones se
llama media muestral19 y viene dada por:
X 1  X 2  ...  X n 60
X 
n
Por ejemplo, supongamos una población de cinco empresas que llevan en

funcionamiento 4, 6, 8, 10 y 12 años, respectivamente. Entonces la media de la
antigüedad es:
4  6  8  10  12
  8 años
5
Imaginemos ahora que vamos a tomar, al azar, una muestra de dos empresas
para determinar la media de funcionamiento. Es evidente que, dependiendo de
la muestra se obtendrán resultados diferentes. En la siguiente tabla se
muestran todas las posibles muestras aleatorios de tamaño dos y sus medias
muestrales.
Muestras de tamaño 2 Medias muestrales, X

4,4 4
4,6 5
4,8 6 La media de las medias muestrales es:
4,10 7
4,12 8 4  5  6  7  ...  12
6,4 5 X   8 años
6,6 6 25
6,8 7
6,10 8
6,12 9
8,4 6 Se puede concluir que la media de las medias
8,6 7
muestrales,  X , coincide con la media poblacional, .
8,8 8
8,10 9
8,12 10 X  
10,4 7
10,6 8
10,8 9
10,10 10
18
Una interesante colección de problemas sobre Inferencia Muestral se pueden encontrar en :
http://www3.uah.es/jmmartinezmediano/Segundo%20CS/MCCSS%20Tema%2009d%20Problemas%20d
e%20distribucion%20de%20la%20media%20muestral.pdf
19
http://e-stadistica.bio.ucm.es/glosario2/def_media_muestral.html

10,12 11
12,4 8
12,6 9
12,8 10
12,10 11
12,12 12
La distribución de las media muestral viene dada por las medias muestrales y
sus probabilidades respectivas. A partir de los datos recopilados en la tabla
anterior podemos construir esta otra tabla:
Probabilidad 61
Medias muestrales, X
4 1/25=0,04
5 2/25=0,08
6 3/25=0,12
7 4/25=0,16
8 5/25=0,20
9 4/25=0,16
10 3/25=0,12
11 2/25=0,08
12 1/25=0,04
Cuya gráfica es:
Distribución de la media muestral

0,25
0,2
0,15
0,1
0,05
0
4 5 6 7 8 9 10 11 12
Vamos a hallar ahora la desviación típica de las medias muestrales, calculando

en primer lugar la desviación típica poblacional:

 x  
2
(4  8) 2  (6  8) 2  (8  8) 2  (10  8) 2  (12  8) 2
 i
  2 2 años
N 5
Ahora vamos a hallar la desviación típica de la media muestral:
 X  X 
2
(4  8) 2  (5  8) 2  ...  (12  8) 2
X  i
  2 años
N 25
 2 2  62
  2  X 
X 2 2
Comprobamos que la desviación típica de la distribución muestral de la media

es igual a la desviación típica poblacional dividida por la raíz cuadrada del
tamaño muestral. Es decir:

X 
n
Como la distribución de la población es N (  ,  ) , la media muestral, X , sigue

una distribución:
  
X  N ( X ,  X )  N   , 
 n
Luego, la variable tipificada sigue una distribución normal N(0,1)
X  X X 
z   N (0,1)
X 
n

P14. En un servicio de atención al cliente, el tiempo de espera hasta recibir

atención es una variable normal de media 10 minutos y desviación típica 2
minutos. Se toman muestras aleatorias del tiempo de espera de los clientes que
llegan un día concreto. Se pide: a) ¿Cuál es la probabilidad de que el tiempo medio
de espera de una muestra de 25 clientes no supere los 9 minutos? b) ¿Cuál es la
distribución de la media muestral, si se toman muestras aleatorias de 64 clientes?
Especificar sus parámetros.
a) Las muestras de tamaño n obtenidas de una población de media  y desviación

  
típica , N (  ,  ) , siguen una distribución normal N   ,  . En nuestro caso,
 n
63
 2 
para n=25 y N(10,2), las muestras se distribuyen según N 10,   10, 0,4 .
 25 
En nuestro caso
 9  10 
p( X  9)  p Z    p(Z  2,5)  1  p(Z  2,5)  1  0,9938  0,0062
 0,4 
b) En este caso, para n=64 y N(10,2), las muestras se distribuyen según

 2 
N 10,   10, 0,25
 64 
P15. Una máquina se encarga de llenar cajas de cereales. La cantidad de cereales

depositada en cada caja sigue una distribución normal de desviación típica 25g.
¿Cuál debe ser el peso medio del contenido de las cajas si, en una muestra aleatoria
de 100 cajas, la probabilidad de que el peso sea superior a 505 g es de 0,023?.
La variable aleatoria X=”peso de las cajas de cereales” sigue una distribución

normal X  N (  , 25) .
El peso medio muestral, X , sigue una distribución normal:
 25 
X  N   ,   N ( , 2,5)
 (100 
Se tiene que encontrar el valor de , sabiendo que
 505     505     505   
p( X  505)  p Z    1  p Z    0,023  p Z    0,977
 2,5   2,5   2,5 
En la tabla20 de distribución normal vemos que esta probabilidad es para un valor
k=2, de modo que:
 505   
 2    500 g
 2,5 
Así pues, el peso medio de las cajas es de 500g.
20

Teorema central del límite. Si una muestra aleatoria de tamaño n procede de una
población con media  y desviación típica, entonces en el caso de que el tamaño de la
muestra sea lo suficientemente grande (n>30), la media muestral X , tiene

aproximadamente una distribución normal de media  y desviación típica . Es decir:
n
  
X  N  , 
 n
Es decir, cualquiera que sea la distribución de la población de partida, la distribución de la media
muestral, X sigue una distribución normal, siempre que el tamaño muestral sea suficientemente
grande (n>30)
64
P16. La duración en minutos de las llamadas recibidas en un despacho profesional

tiene una duración media de 3,5 minutos y una desviación típica de 1,4 minutos.
Un día determinado se elige una muestra de 49 llamadas. ¿Cuál es la probabilidad
de que la duración media de las llamadas oscile entre 3 y 4 minutos?.
No sabemos la distribución de la población de partida, pero el tamaño de la

muestra, n=49, es lo suficientemente grande (n>30), como para poder aplicar el
Teorema central del límite.
 1,4 
X  N  3,5 ,   N (3,5 , 0,2)
 49 
Se nos pide que calculemos:

 3  3,5 X  3,5 4  3,5 
p(3  X  4)  p     p(2,5  Z  2,5)
 0,2 0,2 0,2 
Consultando en las tablas y aplicando las propiedades vistas anteriormente, vemos
que:
p(3  X  4)  p(2,5  Z  2,5)  p( Z  2,5)  1  ( p  2,5)  0,9938  (1  0,9938)  0,9876
De modo que, aproximadamente el 98,76% de las 49 llamadas tendrán una

duración media entre 3 y 4 minutos.
P17. El contenido en azúcar de un refresco de cola sigue una distribución de media

60 g con una desviación típica 20 g. Con el fin de verificar este dato se elige al azar
una muestra de 50 botes de dicho refresco y se analiza su contenido en azícar.
¿Cuál es la probabilidad de que el contenido medio en azúcar de la muestra supere
los 65g?
No sabemos la distribución de la población de partida, pero el tamaño de la

muestra, n=50, es lo suficientemente grande (n>30), como para poder aplicar el
Teorema central del límite.
 20 
X  N  60 ,   N (60 , 2,83)
 50 
Se nos pide que calculemos:

 X  60 65  60 
p( X  65)  p    p( Z  1,77)
 2,83 2,83 
Consultando en las tablas y aplicando las propiedades vistas anteriormente, vemos
que:
p( X  65)  p( Z  1,77)  1  p( Z  1,77)  1  0,9616  0,0384
De modo que, aproximadamente el 3,84% de los 50 botes de refresco tendrán una
cantidad de azúcar mayor de 65 g por bote.
Distribución de la proporción muestral.

65
Hay muchas ocasiones en las que interesa conocer el porcentaje o proporción
de observaciones que cumplan una determinada característica. Por ejemplo, una
presidenta de república desea saber el porcentaje o proporción de personas que le
votaron en las elecciones, o un vendedor de periódicos está interesado en conocer el
porcentaje o proporción de clientes que compran un determinado periódico. Es
decir, interesa conocer la proporción de éxitos en una muestra extraída de cierta
población.
Dada una muestra aleatoria de tamaño n en la que se produce x éxitos,

procedente de una población binomial con parámetro p, entonces la
proporción de éxitos de la muestra, p̂ , viene dada por:
x
pˆ 
n
y recibe el nombre de proporción muestral.
Por ejemplo, una persona candidata en unas elecciones municipales sondea entre
100 votantes y comprueba que solamente 25 le votarían. Entonces:
x 25
pˆ  
n 100
Es evidente que, si hubiera escogido otra muestra, posiblemente el resultado sería
diferente. Entonces, lo que interesa es conocer cómo se distribuye la proporción
muestral, teniendo en cuenta cuáles son la media y la desviación típica en la
distribución binomial.
Cuando el tamaño de la muestra es grande, la proporción muestral sigue una

distribución normal.
 pq   pq 
pˆ  N    p,     N  p, 
 n  
 n 

P18. Se sabe que el 40 % de los estudiantes de 2º curso y de Ciencias Ambientales

de una determinada provincia son aficionados al baloncesto. Si se elige una
muestra de 200 estudiantes, ¿cuál es la probabilidad de que el porcentaje de
aficionados de dicha muestra oscila entre el 35% y el 45%?
De esta población sabemos que p  0,40 y, por lo tanto

q  1  p  1  0,40  0,60
Además, n=200, tamaño de muestra que es suficientemente grande para poder
considerar que la proporción muestral sigue una distribución normal.
 pq   0,40·0,60 
pˆ  N  p,   N  0,40 ,   0,40 , 0,035 66
 n  
 200 
Ahora, tipificamos la variable:
pˆ  0,40
Z
0,035
Con lo que, según las condiciones enunciadas en el problema:
 0,35  0,40 pˆ  0,40 0,45  0,40 

p(0,35  pˆ  0,45)  p     p(1,43  Z  1,43)  0,8472
 0,035 0,035 0,035 
El porcentaje de aficionados al fútbol se encontrará entre el 35% y el 45% en

aproximadamente el 84,72% de las muestras de los 200 estudiantes de 2º curso de
Ciencias Ambientales.
Estimación puntual y estimación por intervalos.
Estimación puntual.
La estimación puntual utiliza un solo valor obtenido a partir de la muestra,

para estimar un parámetro de la población. Por ejemplo, imaginemos que la dueña
de una frutería quiere estar interesada en saber el gasto medio diario de sus
clientes, o bien en conocer el porcentaje de familias con niños que viven en el
pueblo. Para ello, puede recurrir a una muestra representativa de la población de
clientes y a una muestra de familias del barrio y, a partir de esos datos, podría
estimar la media y la proporción de poblaciones, respectivamente. Supongamos que
decide anotar el gasto de los diez primeros clientes que entran en la tienda un día
determinado y resultan los siguientes valores:
Cliente Cliente Cliente Cliente Cliente Cliente Cliente Cliente Cliente Cliente
1 2 3 4 5 6 1 8 9 10
5,30€ 3,00€ 7,20€ 12,50€ 8,00€ 6,30€ 4,20€ 3,70€ 10,50€ 4,50€
El gasto medio es:
5,30  3,00  7,20  12,50  8,00  6,30  4,20  3,70  10,50  4,50
x  6,52€
10
Esta estimación puntual de la media poblacional nos permite inferir que el gasto
medio diario de los clientes es de 6,52€.

Dada una muestra aleatoria simple de tamaño n procedente de una población con media  , se
puede utilizar el valor de la media muestral x , para estimar la media de la población  . Es la
llamada estimación puntual de la media.
Si la propietaria de esta frutería, observa que en una muestra de 200

mujeres de entre 25 y 45 años, 120 de ellas han afirmado que tienen hijos entre 2 y
14 años, puede hacer la siguiente estimación: como la proporción de mujeres con
hijos en esas edades es:
x 120
pˆ    0,60
n 200
Se puede estimar que el porcentaje de potenciales clientes infantiles de la frutería 67
es del 60%. También en este caso se estima la proporción de la población mediante
la estimación puntual de los datos de la muestra.
Si p es el parámetro de una población binomial B(1, p), entonces se puede utilizar la

proporción de una muestra de esa población, p̂ , para realizar una estimación puntual del
parámetro poblacional, p, y se llama estimación puntual de la proporción.
Estimación por intervalo.
Continuando con el ejemplo anterior, si la dueña de esta tienda estima que

el gasto medio diario de sus clientes se encuentra entre 5 y 7 €, entonces la
estimación realizada es mediante el intervalo (5, 7).
La estimación por intervalo de un parámetro poblacional consiste en determinar,

basándose en la información de la muestra, un intervalo en el cual probablemente se
encuentre dicho parámetro. Este intervalo suele ir acompañado de una medida que refleje
la confianza que se tiene acerca de que el verdadero valor del parámetro se encuentra en
dicho intervalo, y se llama nivel de confianza.
Por ejemplo, si el intervalo (5, 7) está dado con un nivel de confianza del
90%, se está expresando que la dueña de la frutería confía en un 90% de que el
gasto medio de sus clientes se encuentra entre 5 y 7 €.
El nivel de confianza, expresado en tanto por uno se designa por
1-
e indica la confianza que se tiene acerca de que el verdadero valor del

parámetro se encuentre en dicho intervalo
Un intervalo de confianza tiene un límite inferior y un límite superior.

Ahora bien, estos límites inferior y superior variarán dependiendo de la muestra
elegida. De hecho, es muy probable que en otras muestras del ejemplo se
obtuvieran intervalos como (5,20 , 6,90) o (4,90 , 7,30), por ejemplo.

Un nivel de confianza del 90%, o 0,90, indica que si se construyen todos los
intervalos de confianza posibles, el 90% de ellos contendrá el verdadero valor del
parámetro que se desea estimar, y, por tanto, un 10% de que no lo contendrá.
Ahora bien, si se toman 100 muestras aleatorias de tamaño n de una misma
población y se calculan los límites de confianza para cada muestra, se epera que el
90% de los intervalos así construidos contengan el verdadero valor del parámetro, y
el 10% restante no lo contengan. Pero en la práctica sólo se dispondrá de un
intervalo de confianza y no se sabe si está dentro de los del 90% o de los del 10%.
Por eso se habla de un nivel de confianza del 90%.
68
Intervalo de confianza para la media  de una población con desviación
típica  conocida.
Ahora lo que interesa es encontrar un intervalo de confianza para estimar la

media  de una población en la que se conoce la desviación típica .
Población normal.
Sea una población que sigue una distribución normal N(, ) de desviación
típica conocida. Se toma una muestra aleatoria n y se obtiene una media muestral
x . Si se desea encontrar un intervalo de confianza (1-) de contener a la media 
de la población, basta con determinar dos valores:  z  y z  tales
2 2
 
p  z   z  z    1  
 2 2 
/2 /2
1-
 z z
2 2
x
Como z   N(0,1), entonces  z  y z  se obtienen de las expresiones
 2 2
n
siguientes:
  
p Z   z   
 2 
2
  
p Z  z   
 2 
2
El intervalo para la media poblacional  a un nivel de confianza (1-) es:

    
 x  z , x  z o bien x  z
 n 
 2 n 2 2 n

El intervalo está centrado en la media muestral, x , y se le resta y suma z
2 n
P19. Una máquina se encarga de llenar cajas de cereales de 500 g. El peso de estas
cajas sigue una distribución normal con desviación típica 4 gramos. En una
muestra aleatoria simple de 50 cajas se obtuvo un peso medio de 498 g. Hallar un 69
intervalo de confianza del 95% para el peso medio de todas las cajas llenadas por
esa máquina.
La población sigue una distribución N(, 4) y la muestra de tamaño n=50 tiene una
media muestral x  498g . Si el nivel de confianza es de 0,95 entonces:
 0,05
1    0,95    1  0,95  0,05    0,025
2 2
Debido a que, teniendo en cuenta las propiedades de la variable tipificada:
      
p Z   z   p Z  z   1  p Z  z  
 2   2   2 
2
Podemos concluir que:
   0,05
p Z  z   1   1   0,975
 2 
2 2
Consultando las tablas de la distribución normal, observamos que esta
probabilidad de 0,975 corresponde a un valor de 1,96. De modo que:
z  1,96
2
0,975
1,96
Así pues, el intervalo para la media poblacional  con un nivel de confianza del 95%
es el siguiente:

     4 4 
 x  z , x  z   498  1,96 , 498  1,96 
 
n  50 
 2 n 2 50
 (498  1,11 , 498  1,11)  (496,89 , 499,11)
Se tiene el 95% de confianza de que el peso medio de las cajas de cereales se

encuentre entre 496,89 y 499,11. Además, se sabe que el 95% de todos los
intervalos de confianza construidos contendrán el verdadero valor de .

95%
( ) 70
496,89g 499,11g
P20. En una muestra de 10 bebés recién nacidos se obtuvieron las siguientes

medidas en centímetros: 44, 68, 57, 48, 66, 47, 60, 53, 51 y 68. Si se sabe que la
longitud de los recién nacidos sigue una distribución normal con desviación típica
de 8,9 cm, encontrar un intervalo de confianza del 90% para el peso medio de los
recién nacidos.
Se trata de una población que sigue una distribución normal N(, 8,9) y en la
muestra de tamaño n=10 se tiene que:
x x i

44  68  57  48  66  47  60  53  51  68 562
  56,2cm
n 10 10
Para un nivel de confianza de 0,90 , se tiene que:
 0,10
1    0,90    1  0,90  0,10    0,05
2 2
Debido a que, teniendo en cuenta las propiedades de la variable tipificada:

      
p Z   z   p Z  z   1  p Z  z  
 2   2   2 
2
Podemos concluir que:
   0,10
p Z  z   1   1   0,95
 2 
2 2
probabilidad de 0,95 corresponde a un valor de 1,645, ya que el valor 0,95 se
encuentra equidistante entre 1,64 y 1,65. De modo que:
z  1,645
2

71
es el siguiente:
     8,9 8,9 
 x  z , x  z   56,2  1,645 , 56,2  1,645 
  
n  10 
 2 n 2 10
 (51,6 , 60,8)
Se tiene el 90% de confianza de que el peso medio de los bebés se encuentre entre
51,6 y 60,8. Además, se sabe que el 90% de todos los intervalos de confianza
construidos contendrán el verdadero valor de .

90%
( )
51,6g 60,8g
El peso medio de los recién nacidos estará comprendido entre 51,6 cm y 60,8 cm con
una confianza del 90%
P21. La temperatura durante los meses de verano en una ciudad sigue una
distribución normal de desviación típica 5ºC. Elegida una muestra y con un nivel
de confianza del 98% se obtiene un intervalo (25ºC , 30ºC). Calcúlese la media y el
tamaño de la muestra elegida.
Se trata de una distribución normal N(, 5). Como el nivel de confianza es del 98%,
podemos establecer que:
 0,02
1    0,98    1  0,98  0,02    0,01
2 2
   0,02
Y como p Z  z    1   1   0,99 , de donde, y con la ayuda de las tablas y
 2 
2 2
hacemos una interpolación lineal, obtenemos que z  2,367, ya que el valor 0,99
2
no aparece en las tablas, siendo los más cercanos 0,9898 y 0,9901 correspondientes,
respectivamente, a los valores 2,32 y 2,33.

x  x1 y  y1 0,9900  0,9898 y  2,32

    y  2,3267
x2  x1 y2  y1 0,9901 0,9898 2,33  2,32
72
Así pues:
     5 5   11,6335 11,6335
 x  z , x  z   x  2,3267 , x  2,3267    x  , x  
 
n   n  n 
 2 n 2 n n
 (25 , 30)
De donde:
11,6335
x  25
n 11,6335 11,6335 23,2670 23,2670
 25   30   5  n  4,6534
11,6335 n n n 5
x  30
n
Con lo que el tamaño de la muestra es:

n  4,65342  21,65  22
Y la media es:
11,6335 11,6335
x  25  x  25   27,5º C
n 4,6534
Población no normal (n>30).
Consideremos ahora una muestra aleatoria de tamaño suficientemente

grande (n>30) y con una media muestral x , procedente de una población que no es
normal con media  y desviación típica  conocida. Como la población no sigue una
distribución normal, según el Teorema Central del Límite, se tiene:
x
z  N (0,1)

n
El intervalo aproximado Para la media poblacional  a un nivel d confianza
(1-) es el mismo que para una población normal. Es decir:

    
 x  z , x  z o bien x  z
 n 
 2 n 2 2 n
P22. Una muestra de 49 automóviles de una empresa de alquiler dio como

resultado que por término medio recorren 140 km a la semana. Por experiencias de
otras ocasiones se sabe que el número de kilómetros semanales recorridos por toda
la flota de automóviles tiene una desviación típica de 30 km. Construir un intervalo
con un nivel de confianza de 0,95 para la media poblacional, es decir, para el
número medio de kilómetros semanales recorridos por toda la flota de automóviles.
73
 0,05
1    0,95    1  0,95  0,05    0,025
2 2
Como
      
p Z   z   p Z  z   1  p Z  z  
 2   2   2 
2
Y
   0,05
p Z  z   1   1   0,975
 2 
2 2
probabilidad de 0,975 corresponde a un valor de 1,96. De modo que:
z  1,96
2
0,975
1,96
es el siguiente:
     30 30 
 x  z , x  z  140  1,96 , 140  1,96 
 
n  49 
 2 n 2 49
 (140  8,4 , 140  8,4)  (131,6 , 148,4)
131,6    148,4
Se tiene el 95% de confianza de que el número medio de kilómetros recorridos a la
semana por toda la flota estará comprendido entre 131,6 y 148,4.

Además, se sabe que el 95% de todos los intervalos de confianza construidos

contendrán el verdadero valor de .

95%
( )
131,6 km 148,4 km
74
Intervalo de confianza para la media  de una población con desviación típica 
desconocida.
Si la muestra estadística es pequeña (n<30), no se sigue una distribución

normal y no lo consideraremos.
Vamos a considerar el caso en el que la muestra tiene un tamaño grande

(n>30) procedente de una población con media  y desviación típica desconocida .
Y supondremos que la población sigue cualquier distribución, normal o no.
Entonces, a partir de la muestra, se obtiene la media muestral x y la
desviación típica muestral, s. Y se puede construir un intervalo de confianza para
la media poblacional  sin más que sustituir  por s. Es decir sustituiremos la
desviación típica de la población , que es desconocida, por la desviación típica de la
muestra, s.
Así pues, un intervalo aproximado para la media poblacional  con un nivel
d confianza (1-) es:
 s 
 o bien x  z 
s
 x  z , x  z
 n 
 2 n 2 2 n


Estadística bidimensional y correlación

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadística bidimensional y correlación

Caricato da

Copyright:

Formati disponibili

OPOSICIONES OBSERVADOR DE METEOROLOGÍA MATEMÁTICAS

Definición de Estadística: la palabra estadística procede del vocablo "estado"

La estadística se puede dividir en dos partes:

 Estadística descriptiva o deductiva, que trata del recuento , ordenación y

Población: es el conjunto de todos los elementos que cumplen una

Muestra: cualquier subconjunto de la población. Ejemplo: alumnos

Carácter estadístico: es la propiedad que permite clasificar a los individuos,

 Cuantitativos: son aquellos que se pueden medir. Ejemplo: nº de hijos,

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

Variable estadística: es el conjunto de valores que puede tomar el carácter

 Discreta: si puede tomar un número finito de valores. Ejemplo : nº de hijos

Frecuencia absoluta 𝒇𝒊 : (de un determinado valor xi) al número de veces que se

Frecuencia absoluta acumulada 𝑭𝒊 : (de un determinado valor xi) a su frecuencia 2

Frecuencia relativa 𝒉𝒊 : es el cociente siguiente, donde N es el número total de

Frecuencia relativa acumulada Hi: Es el cociente definido por:

Si las frecuencias relativas las multiplicamos por 100 obtenemos los

Tratamiento de la información: se deben de seguir los siguientes pasos:

Ejemplo: Las notas de Matemáticas de un grupo de 1º de bachillerato del IES Serra

Construir una tabla de frecuencias. La tabla correspondiente a esta serie de

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

Representaciones gráficas: para hacer más clara y evidente la información que

 Diagramas de barras (datos cualitativos y cuantitativos de tipo discreto). En

 Histogramas. Se utilizan cuando hay datos cuantitativos de tipo continuo o

á𝑟𝑒𝑎 = (𝑏𝑎𝑠𝑒) · (𝑎𝑙𝑡𝑢𝑟𝑎)

La altura de cada rectángulo vendrá dada por ni que se llama función de

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

 Polígono de frecuencias. Se une con una línea la parte superior de cada

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

CÁLCULO DE PARÁMETROS ESTADÍSTICOS:

En el caso de que los datos estén agrupados en clases, se tomará la marca de

En el siguiente ejemplo, notas en Matemáticas obtenidas por los 30 alumnos

Así que la media aritmética es:

∑𝑖𝑖=1 𝑥𝑖 ∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖 175

 Moda : es el valor de la variable que presenta mayor frecuencia absoluta .

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

Donde Linf es el límite inferior de la clase modal , ∆ es la amplitud del intervalo ,

Ejemplo: en el ejercicio de las notas de matemáticas la moda sería Mo=8, ya que el

 Mediana: es el valor de la variable tal que el número de observaciones

Gráficamente se hace a partir del polígono de frecuencias acumuladas.

el quinceavo dato es el 7, y el dieciseisavo dato es el 7, de modo que:

También se podría observar las Fi y ver que en el 7 se excede a la mitad del nº

 Cuantiles : son parámetros que dividen la distribución en partes iguales ,

 Rango o recorrido: es la diferencia entre el mayor valor y el menor . Ejemplo

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

 Varianza s2: es la media aritmética de los cuadrados de las desviaciones

∑𝑖𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑖𝑖=1 𝑓𝑖 · (𝑥𝑖 − 𝑥̅ )2 ∑𝑖𝑖=1 𝑓𝑖 · 𝑥𝑖2

Se llama desviación típica s a la raíz cuadrada de la varianza. Es más útil que

Ejemplo: En el ejemplo de las notas:

 Coeficiente de variación: es el cociente entre la desviación típica y la media

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

Tipificación de la variable estadística: relación entre la media y la

Para poder comparar dos valores de la variable estadística en distribuciones

Por ejemplo, un alumno obtiene un 6 en un examen en el que, el conjunto de

𝑥 − 𝑥 6 − 5,5 𝑥 − 𝑥 6,5 − 6,2

Vemos que ha sido mejor la primera calificación.

ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL.

Los distintos valores de las modalidades que pueden adoptar estos

Tipos variables ( X, Y ) Ejemplo

http://meteoares.blogspot.com.es/ www.observadordemeteorologia.com info@aresacademia.com

X = { x1, x2, x3, ..., xs } ; Y = { y1, y2, y3, ..., yt }

𝒙𝟐 𝑛21 𝑛22 … 𝑛2𝑗 … 𝑛2𝑡

𝒙𝒊 𝑛𝑖1 𝑛𝑖2 … 𝑛𝑖3 … 𝑛𝑖4

𝒙𝒔 𝑛𝑠1 𝑛𝑠2 … 𝑛𝑠3 … 𝑛𝑠𝑡