Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadística Descriptiva
Estadística Descriptiva
1 Introducción
La Estadística Descriptiva se utiliza para describir las características básicas de los datos de
un estudio. Proporciona información simplificada sobre la muestra y las medidas. Ésta
junto con el análisis de gráficos simples, constituyen la base de prácticamente todos los
análisis cuantitativos de datos.
No debemos confundir la estadística descriptiva con la inferencia estadística. En el caso de
la estadística descriptiva se describe simplemente cuáles son los datos o qué muestran. Por
el contrario, la inferencia estadística pretende alcanzar conclusiones que van más allá de la
simple descripción de los datos. Por ejemplo, podemos usar la inferencia estadística para
intentar predecir el estado de opinión de la población a partir de una muestra de datos
(intención de voto previo a comicios). Por lo tanto, la inferencia estadística se usa para, a
partir de una colección de datos, establecer conclusiones a situaciones más generales, y
será estudiado en próximos temas.
Una ventaja que proporciona la estadística descriptiva es la de presentar descripciones
cuantitativas de los datos en un formato manejable. Un ejemplo claro es el desarrollo de
una investigación científica/técnica en la que podemos recoger una cantidad considerable
de información (datos), pudiendo representar algún tipo de medida tomada de un gran
número de individuos. Es aquí donde la estadística descriptiva despliega todo su potencial
ya que nos ayuda a mostrar una gran cantidad de datos de forma sencilla. Como ejemplo
podemos considerar el valor que representa la tasa de piezas defectuosas que se producen
en un proceso industrial, es decir el promedio de fallos. Este valor se determina
simplemente como el cociente entre el número de piezas defectuosas y el número total de
piezas producidas. Si este promedio, en términos porcentuales, fuese del 11,5% indicaría
que de cada muestra de 200 unidades producidas 23 tendrían defectos. Como podrás
comprobar una simple cifra describe un gran número de eventos discretos.
2 Conceptos básicos
2.1. Población estadística o Universo
Conjunto de elementos (sujetos, objetos, entidades abstractas, etc.) que comparten
una o más características en común.
2.2. Unidad estadística o individuo
Cada elemento que forma parte de la población estadística o universo.
Tema II 2
Estadística Descriptiva
2.3. Muestra
Subconjunto de elementos del universo o la población. El número de elementos de la
misma recibe el nombre de tamaño muestral.
2.4. Caracteres
Cualidades o propiedades de los individuos de la población bajo estudio, que pueden,
a su vez, ser de dos tipos:
2.4.1.Cuantitativas: Son aquellas que pueden ser cuantificables o expresarse a través
de un número (altura, peso, edad,...). Reciben el nombre de variables estadísticas
cuantitativas o simplemente “variables”. A su vez, las variables cuantitativas
pueden clasificarse en:
2.4.1.1. Discretas: Pueden tomar una cantidad finita o infinita, pero numerable,
de posibles valores. Ejemplos: miembros de la unidad familiar, nº de
plantas de un edificio, nº de fallecidos por accidente laboral, etc.
2.4.1.2. Continuas: Pueden tomar cualquier valor de entre los infinitos valores
encerrados en un intervalo dado. Ejemplos: la presión atmosférica, el peso,
la temperatura, etc.
2.4.2.Cualitativas (o categóricas): Son aquellas que no se pueden cuantificar (estado
civil, nacionalidad, profesión,...). Reciben el nombre de variables estadísticas
cualitativas o “atributos” y adoptan modalidades.
Las variables, a su vez, se pueden clasificar atendiendo a su nivel de medición:
Nominal: los individuos se clasifican por categorías. Por ejemplo, el género
(masculino, femenino), el estado civil (casado/a, soltero/a, viudo/a,
divorciado/a), especialidades de titulación (Mecánica, Electrónica, Eléctrica,
Organización Industrial, entre otros), etc.
Ordinal: cuando es posible establecer una relación de orden entre las distintas
modalidades de la variable: curso de estudios dentro del grado (1º, 2º, 3º, 4º),
clasificación en un examen (matrícula de honor, sobresaliente, notable,
aprobado, suspenso), etc.
Intervalo: cuando se posee una unidad de medida constante y arbitraria en la
que existe un cero arbitrario o relativo, que no indica la ausencia de la
característica que se está midiendo. Suele prevalecer la relación de orden
“mayor que” (>). Por ejemplo, temperatura, altitud en relación al nivel del
mar, etc.
Tema II 3
Estadística Descriptiva
Razón: cuando se posee una unidad de medida constante y arbitraria en la que
existe un cero “absoluto”. Suele prevalecer la relación de orden “mayor que”
(>): peso, edad, estatura, ingresos familiares, etc.
2.5. Dato
Es el resultado de la observación de un determinado carácter en cada uno de los
individuos de la muestra.
Con el fin de ilustrar los distintos conceptos introducidos en este apartado se presenta el
siguiente ejemplo, donde la población (universo) son los trabajadores de una empresa en
la que se seleccionaron cuatro individuos como muestra:
3 Medidas y representaciones gráficas para variables unidimensionales
Una vez definida la población (universo), la selección de individuos mediante una muestra,
las variables estadísticas y la recogida de datos, la Estadística Descriptiva se centra en
estructurar, organizar y resumir dichos datos para que éstos sean comprensibles y
significativos. Por lo que serán organizados en tablas que recogerán de forma sistemática y
ordenada toda la información procedente de las distintas observaciones sobre los
individuos que forman parte de la muestra objeto de estudio. A continuación, para una
mejor interpretación de la información obtenida, ésta será organizada mediante tablas de
frecuencias y serán diseñadas diferentes representaciones gráficas como ayuda
fundamental, y en ocasiones imprescindible, tanto para poder interpretar los datos como
para presentar la información que aportan.
3.1. Ordenación y organización de los datos
Dependiendo del tipo de variable estadística bajo estudio, los datos podrán
organizarse de las siguientes maneras:
3.1.1.Caso discreto: Supongamos que se tiene una variable estadística discreta, que
representa la “edad de los alumnos de clase” y que puede tomar los valores
, ,…, 17,18,19, … ,24,25 . Se toma una muestra de tamaño
10, obteniéndose datos (19,22,21,20,22,22,19,20,21,22) que son los valores
Tema II 4
Estadística Descriptiva
que toma la variable para cada uno de los 10 individuos de la muestra. Definimos
ahora los indicadores más frecuentes que pueden usarse para organizar los datos
3.1.1.1. Recorrido: Diferencia entre el mayor y el menor de los valores que
puede tomar la variable cuantitativa. En el ejemplo anterior: 25‐17=8.
3.1.1.2. Frecuencia absoluta de un valor : Número de veces ( ) que aparece
repetido dicho valor en el conjunto de las observaciones. En nuestro
ejemplo: 2.
3.1.1.3. Frecuencia relativa de un valor : Es el cociente ( ) entre la frecuencia
absoluta del valor y el número de observaciones. En el ejemplo:
2
10 0.2.
3.1.1.4. Frecuencia absoluta acumulada de un valor : Suma de las frecuencias
absolutas de los valores inferiores o iguales a . Se expresa como
∑ y se cumple que .
3.1.1.5. Frecuencia relativa acumulada de un valor : Suma de las frecuencias
relativas de los valores inferiores o iguales a . Se expresa como
∑ , cumpliéndose que 1.
3.1.1.6. Tanto por ciento de un valor : Porcentaje de las observaciones que se
corresponde con el valor (cuantitativas) o modalidad (cualitativas) . Se
denota por % x100.
3.1.1.7. Tabla de frecuencias: Para construir la tabla de frecuencias de una
variable discreta se deben ordenar de menor a mayor los distintos valores
de la misma, y anotar sus correspondientes frecuencias.
En el ejemplo:
19 2 1/5 2 1/5
20 2 1/5 4 2/5
21 2 1/5 6 3/5
22 4 2/5 10 1
3.1.1.8. Propiedades de las frecuencias: Sea el número de observaciones
realizadas, entonces se cumple
Tema II 5
Estadística Descriptiva
(a) ∑
(b) ∑ 1
(c) ∑ ;∑ 1
(d) , 2, … ,
3.1.2.Caso continuo: Aquel en el que las variables pueden tomar cualquier valor dentro
de un intervalo definido. Normalmente se aplica cuando se han realizado muchas
observaciones y el campo de variabilidad de la variable estadística es muy
amplio. Ante tal situación, trataremos de agrupar los valores de la variable en
intervalos, que reciben el nombre de intervalos de clase o clase, y que son
elegidos apropiadamente para no perder demasiada información. En este caso,
se realizan recuentos de las observaciones que caen dentro de cada uno de los
intervalos. No cabe duda que el tomar como unidad de estudio el intervalo y no
cada uno de los valores de la variable representa una simplificación del trabajo
estadístico, pero a costa de una pérdida de parte de la información.
Precisamente por este último motivo es aconsejable elegir un número de
intervalos que equilibre ambos criterios: simplificación, pérdida de información.
Pasaremos a continuación a definir aspectos concretos de los intervalos:
3.1.2.1. Amplitud del intervalo: Diferencia entre el extremo superior y el
inferior del intervalo, pudiéndose distinguir dos casos: intervalos de
amplitud constante e intervalos de amplitud variable. Por comodidad se
suele realizar el reparto de información en intervalos de amplitud fija.
3.1.2.2. Elección de los intervalos de clase: Se suelen tener en cuenta los
siguientes criterios a la hora de elegir los intervalos:
(i) Ningún valor de la variable debe coincidir con los extremos de los
intervalos o límites de las clases.
(ii) Los límites han de ser sencillos (con pocas cifras decimales).
(iii) La unión de todas las clases debe recorrer el conjunto total de posibles
valores que puede tomar la variable.
(iv) Las clases no deben solaparse, con lo que cada observación se
clasificará en una única clase. Para ello los intervalos suelen ser
semiabiertos del tipo , o , . En ocasiones los intervalos nos
vienen dados de forma que no se solapan: 120‐139, 140‐149, 150‐159,
160‐169. En estas circunstancias es aconsejable elegir adecuadamente
nuevos intervalos que contengan a los anteriores y que no modifiquen
el número de observaciones en cada uno de los primeros: 119’5‐139’5,
139’5‐149’5, 149’5‐159’5,159’5‐169’5; de manera que se satisfaga (iii).
A este tipo de intervalos se les da el nombre de intervalos con límites
reales de clase.
Tema II 6
Estadística Descriptiva
(v) Las clases suelen ser de igual amplitud, evitando desequilibrios entre
el número de observaciones de unas y el de otras.
3.1.2.3. Marcas de clase: Si bien cada clase viene determinada por sus límites
(intervalo , o , ) es de utilidad considerar un valor que
represente la información que contiene cada clase. Es por ello que
definimos como marca de clase al punto medio del intervalo .
Pasamos ahora a definir distintos indicadores relativos a las variables
continuas:
(i) Frecuencia absoluta de la clase : Se define como el número de
observaciones que se encuentran dentro de la clase .
(ii) Frecuencia relativa de la clase : Se calcula como el cociente entre la
frecuencia absoluta y el número total de observaciones.
(iii) Frecuencias absoluta y relativa acumulada de la clase : En caso de
que las clases estén ordenadas de forma creciente, se definirán como el
resultado de sumar a la correspondiente frecuencia absoluta o relativa
de la clase las frecuencias absolutas o relativas de las clases anteriores.
La siguiente tabla ilustra cómo debe recogerse esta información.
,
2
,
2
,
2
,
2
Veamos, mediante un ejemplo, cómo se pueden definir intervalos de
clase. En la siguiente tabla se recoge el rendimiento de 42 lotes
consecutivos de un sustrato cerámico, en el que se ha aplicado un
recubrimiento metálico mediante un proceso de sedimentación por
vapor. Se pide que construyamos una distribución de frecuencias.
94.1 87.3 94.1 92.4 84.6 85.4
93.2 84.1 92.1 90.6 84.1 86.6
90.6 90.1 95.9 89.1 85.4 91.7
91.4 95.2 88.2 88.8 89.7 87.5
88.2 86.1 86.4 86.4 87.6 84.2
86.1 94.3 85.0 85.1 85.1 85.1
95.1 93.2 84.9 84.1 89.6 90.5
De los datos se comprueba que el menor valor observado es 84.1, que
el mayor valor observado es 95.9, y que por lo tanto el recorrido es
95.9 ‐ 84.1=11.8 12. Supongamos que queremos intervalos de
Tema II 7
Estadística Descriptiva
amplitud 2, entonces tendríamos 12⁄2 6 intervalos con lo que la
tabla de frecuencias quedaría como:
3.2. Representaciones gráficas
A continuación mostramos distintos métodos gráficos que nos facilitarán la tarea de
describir los datos ya que muestran rápidamente una imagen visual de estos.
3.2.1.Diagrama de barras: método adecuado para representar las frecuencias de una
variable discreta. En el eje de abscisas se disponen los distintos valores que toma
la variable y sobre cada uno de ellos se traza una línea perpendicular, cuya altura
es la frecuencia (absoluta o relativa) de dicho valor. A continuación mostramos
una tabla que recoge la altura, la edad y el sexo de una muestra de 10 individuos
que acuden a revisión médica de rutina.
Gráfica 1. Diagrama de barra de frecuencias absolutas
Tema II 8
Estadística Descriptiva
3.2.2.Histograma: método gráfico adecuado para representar las frecuencias de una
variable agrupada en intervalos. En este caso, las frecuencias se representan
mediante áreas de rectángulos, cuyas bases se corresponderán con la amplitud
del intervalo y la altura será tal que el área coincida con la frecuencia de la clase
(absoluta o relativa).
3.2.3.Polígono de frecuencias: Distinguimos dos casos:
3.2.3.1. Variable discreta: Se obtiene uniendo los extremos superiores de las
barras del diagrama de barras.
3.2.3.2. Variable agrupada en intervalos: Se obtiene uniendo los puntos medios
de los extremos superiores de cada rectángulo del histograma.
3.2.4.Diagrama de frecuencias acumuladas (o diagrama de barras acumulativo):
Representación para variables discretas en la que mostraremos en el eje de
abscisas los distintos valores de la variable. Para cada uno de ellos
proyectaremos verticalmente un segmento de recta cuya longitud se
Tema II 9
Estadística Descriptiva
3.2.5.Polígono de frecuencias acumuladas: Método gráfico usado para variables
agrupadas en clases o intervalos. En el eje de abscisas se mostrarán
concatenados los distintos intervalos de clase. En el extremo superior de cada
intervalo ( , , … , ) se proyectará verticalmente un segmento de recta con
longitud igual a la frecuencia acumulada (relativa o absoluta) del mismo. Si
elegimos frecuencias acumuladas absolutas la altura máxima se consigue el
último intervalo, que tendrá frecuencia . Por el contrario, si nos decidimos por
polígono de frecuencias acumuladas relativas la altura máxima alcanzada será la
unidad (o, equivalentemente, el 100%).
Otros tipos de representaciones gráficas frecuentemente usados en las ciencias
sociales o de la salud son los diagramas circulares o por sectores que aparecen
en las encuestas o estudios clínicos.
3.3. Representaciones numéricas
En ocasiones es conveniente extraer un único valor o un número reducido de valores
de la información obtenida para facilitar la comparación entre distintas muestras o
poblaciones. Estos valores o medidas descriptivas tratan de reflejar ciertos aspectos
globales del conjunto de datos y son principalmente de dos tipos: medidas de
tendencia central o de posición y las medidas de dispersión o variabilidad. Para definir
las más usuales, admitiremos que la variable estadística toma los valores
, , … , con las frecuencias , , … , , respectivamente.
Tema II 10
Estadística Descriptiva
3.3.2.Medidas de tendencia central o de posición
3.3.2.1. Media aritmética ( )
∑
La media aritmética (también llamada promedio o simplemente media)
de un conjunto finito de números es igual a la suma de todos sus
valores dividida entre el número de sumandos. Cuando el conjunto es
una muestra aleatoria recibe el nombre de media muestral siendo uno
de los principales estadísticos muestrales. Expresada de forma más
intuitiva, podemos decir que la media (aritmética) es la cantidad total
de la variable distribuida a partes iguales entre cada observación. Por
ejemplo, si en una habitación hay tres personas, la media de dinero
que tienen en sus bolsillos sería el resultado de tomar todo el dinero
de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir,
la media es una forma de resumir la información de una distribución
(dinero en el bolsillo) suponiendo que cada observación (persona)
tuviera la misma cantidad de la variable. También la media aritmética
puede ser denominada como centro de gravedad de una distribución,
el cual no está necesariamente en la mitad. Una de las limitaciones de
la media aritmética es que se trata de una medida muy sensible a los
valores extremos: valores muy altos tienden a aumentarla mientras
que valores muy bajos tienden a reducirla, lo que implica que puede
dejar de ser representativa de la población.
Suele utilizarse en negocios y economía para calcular las tasas de
cambio promedio, las tasas de crecimiento promedio o tasas
promedio.
Para simplificar los cálculos se suele tomar logaritmos:
log log
Tema II 11
Estadística Descriptiva
1 1
log log log log
∑
10,
Esta medida es menos sensible que la media aritmética a los valores
extremos. Sin embargo, es de significado estadístico menos intuitivo
que la media aritmética, su cálculo es más difícil y en ocasiones no
queda determinada; por ejemplo, con que sólo un valor de la variable
sea cero entonces la media geométrica se anula. Solo es relevante la
media geométrica si todos los números son positivos. Como hemos
visto, si uno de ellos es 0, entonces el resultado es 0. Si hubiera un
número negativo (o una cantidad impar de ellos) entonces la media
geométrica sería o bien negativa, o bien inexistente en los números
reales. La media geométrica es relevante cuando varias cantidades son
multiplicadas para producir un total.
3.3.2.3. Media cuadrática ( )
∑
Es la raíz cuadrada de la media aritmética de los cuadrados de los
valores. A veces la variable toma valores positivos y negativos, como
ocurre, por ejemplo, en los errores de medida. En tal caso se puede
estar interesado en obtener un promedio que no recoja los efectos del
signo. Este problema se resuelve, mediante la denominada media
cuadrática. Consiste en elevar al cuadrado todas las observaciones (así
los signos negativos desaparecen), en obtener después su media
aritmética y en extraer, finalmente, la raíz cuadrada de dicha media
para volver a la unidad de medida original. Suele utilizarse en
aplicaciones de física. Por ejemplo, en los sistemas de distribución de
energía, los voltajes y las corrientes suelen expresarse en términos de
sus valores
∑
Al igual que la media geométrica, esta medida carecerá de sentido si
algún valor de la variable es cero. Por eso no es aconsejable su empleo
Tema II 12
Estadística Descriptiva
3.3.2.5. Mediana ( )
Es la medida central que, supuestos los valores de la variable
ordenados en forma creciente, deja igual número de observaciones
inferiores que superiores a ella.
Si el número de observaciones es impar, la mediana se
correspondería con el valor que ocupa la posición de la lista
ordenada de valores ( es el operador valor entero superior o ceil en
inglés, y devuelve el menor de los enteros mayores o iguales a ). Por
ejemplo, si 1,3,7,10,15,22,36 , entonces la mediana sería el
valor que ocupa la posición 4, es decir, el 10. En caso contrario, si
el número de observaciones es par, la mediana se obtendría como la
media aritmética de los dos valores centrales, es decir,
⁄2. Por ejemplo, si añadimos una observación más al
conjunto definido anteriormente: 1,3,7,10,15,22,36,42 , la
mediana sería 10 15 ⁄2 12.5
Para el caso general de una distribución de frecuencias, existen dos
estrategias para calcular la mediana dependiendo del tipo de variable
aleatoria: discreta o agrupada en intervalos de clase. Veamos cada una
de ellas.
Variable discreta
a) Dividimos el número de observaciones entre 2.
b) Comprobamos si el número calculado, , se encuentra en la
tabla de frecuencias absolutas acumuladas . En este caso, el
valor coincide con la frecuencia absoluta acumulada de algún
valor y, por tanto, ésta ordenada corresponde a los
infinitos puntos del intervalo , . Como quiera que la
mediana debe ser un único punto, tomamos el punto medio de
dicho intervalo: .
c) En caso contrario, estará comprendido entre dos valores de
dicha tabla y, en este caso, la mediana será aquel valor de la
Tema II 13
Estadística Descriptiva
variable que corresponda al mayor, es decir, la abscisa que
corresponde a la ordenada .
Ejemplo: Se administró la vacuna de la gripe estacional a una
muestra de 42 individuos, a los que, pasado un periodo de
cinco horas, se les tomó la temperatura obteniendo los
siguientes datos:
Se pide que a) calcules los valores de todas las posibles medias
y b) la mediana.
Está claro que la variable estadística temperatura en grados es
continua aunque, debido a que toma muy pocos valores
distintos, podemos tratarla como discreta. Lo primero que
haremos es completar la tabla de frecuencias:
log log
37 1 1 1369 1.568 1.568
37.2 5 6 6919.2 1.570 7.850
37.5 15 21 21093.75 1.574 23.610
38 6 27 8664 1.579 9.474
38.1 10 37 14516.1 1.580 15.800
38.5 5 42 7411.25 1.585 7.925
39 0 42 0 1.591 0
59973.3 66.227
a)
∑ 1587
37.78
42
.
10 37.74
∑ 59973.3
37.78
42
42
37.78
∑ 1.111
Tema II 14
Estadística Descriptiva
b)
Variable agrupada en intervalos de clase
a) Dividimos el número de observaciones entre 2.
b) Llevamos el valor a la columna de frecuencias absolutas
acumuladas ( ).
c) Si este valor se encuentra en la tabla, es que será la
frecuencia absoluta acumulada de un cierto intervalo de clase
[ , ) y, por tanto, la mediana será el extremo superior del
mismo .
d) En caso contrario, estará comprendido entre dos valores y
, que corresponderá a las frecuencias absolutas
acumuladas de dos intervalos , y , ,
respectivamente. En consecuencia, la mediana se haya en el
intervalo , , y su posición exacta se calcula mediante
semejanza de triángulos en el histograma o polígono de
frecuencias acumuladas empleando la siguiente interpolación:
⁄2
Ejemplo: Las estaturas (en centímetros) de un grupo (muestra)
de dieciséis alumnos de la asignatura se recogen en la
siguiente tabla:
Se pide que:
a) Agrupes los datos en cuatro intervalos de amplitud
constante.
b) Calcules las medias aritmética, geométrica y armónica.
c) Determines la mediana.
Tema II 15
Estadística Descriptiva
3.3.2.6. Moda ( )
Es el valor de la variable que tiene máxima frecuencia. En caso de
haber varios valores con máxima frecuencia, la moda no será única;
por lo que la distribución podrá ser bimodal, trimodal, etc. Cuando la
variable viene agrupada en intervalos de clase, hablaremos de
intervalo modal, que se corresponderá con aquel intervalo del
histograma cuyo rectángulo sea el de mayor área por unidad de base.
Para determinar la posición exacta del valor de la variable que
representa la moda dentro del intervalo, supongamos que [ , ) es el
Tema II 16
Estadística Descriptiva
; con
3.3.2.7. Cuartiles
Se definen como los tres valores de la variable que dividen las
observaciones en cuatro partes iguales:
Primer cuartil ( ⁄ ): Valor de la variable que deja la cuarta parte de
las observaciones menores o iguales a él y las tres cuartas partes
superiores a él. Para su cálculo se procede como en el caso de la
mediana ( ), pero tomando la cuarta parte de las observaciones ( ).
Segundo cuartil ( ⁄ ): Es el valor de la variable que deja las dos
cuartas partes (la mitad) de las observaciones menores o iguales a él, y
que se corresponde con la mediana.
Tercer cuartil ( ⁄ ): Valor de la variable que deja inferiores o iguales a
él las tres cuartas partes de las observaciones y la cuarta parte de éstas
Tema II 17
Estadística Descriptiva
superiores a él. Su cálculo se efectúa de manera análoga al de la
mediana, pero tomando las tres cuartas partes de .
Ejemplo: Hallar los cuartiles de la siguiente variable:
3.3.2.8. Deciles
3.3.2.9. Centiles o percentiles
El percentil ‐ésimo ( ) representa el valor de la variable que deja
inferiores o iguales a él las /100 partes de las observaciones, es
decir, el por 100, con tomando valores enteros desde 1 al 99. Para
determinar el valor correspondiente al ‐ésimo se procede
análogamente al cálculo de deciles, cuartiles y mediana.
3.3.3.Medidas de dispersión o concentración
Las medidas de tendencia central vistas anteriormente reducen la información
de una muestra a un único valor, pero, en ocasiones, éste será más
representativo de la realidad de las observaciones que en otras. Por ejemplo,
veamos el comportamiento de las siguientes variables e :
Tema II 18
Estadística Descriptiva
En ambos casos la media aritmética es 500, pero la variable está mucho más
dispersa que la , por lo que parece lógico pensar que la representatividad de
es mayor que la de .
3.3.3.1. Varianza ( )
La varianza de una variable estadística se define como:
∑
Es evidente que al ser una suma de cuadrados tomará siempre
valores positivos. En el caso en que 0 se entenderá que todas las
observaciones están concentradas en un mismo punto, por lo que la
dispersión será nula (mínima).
3.3.3.2. Desviación típica o estándar ( )
Se corresponde con la raíz cuadrada positiva de la varianza, y viene
definida por la siguiente expresión:
∑
3.3.3.3. Desviación media ( )
Se define, respecto a un promedio , de la siguiente forma:
∑ | |
Si el promedio fuese la media aritmética:
Tema II 19
Estadística Descriptiva
∑ | |
Y si fuese la mediana:
∑ | |
Estas medidas de dispersión vienen dadas en las unidades que tiene la
variable (años, temperatura, centímetros, etc.), por lo que no son
útiles en los casos en que queramos establecer una comparación entre
dispersiones de dos muestras que vengan expresadas en distintas
unidades. En su lugar se recurre a medidas de dispersión dadas en
números abstractos (adimensionales), independientes de la
heterogeneidad de las unidades observadas.
Su fórmula expresa la desviación estándar como porcentaje de la
media aritmética, mostrando una mejor interpretación porcentual del
grado de variabilidad que la desviación típica o estándar. Por otro lado
presenta problemas ya que a diferencia de la desviación típica este
coeficiente es variable ante cambios de origen. Por ello es importante
que todos los valores sean positivos y su media de por tanto un valor
positivo. Es decir, no se puede hallar cuando 0.
A mayor valor de C.V. mayor heterogeneidad de los valores de la
variable; y a menor C.V., mayor homogeneidad en los valores de la
variable. Suele representarse por medio de las siglas C.V.
. . 100
Se define este coeficiente con respecto al promedio de la siguiente
manera:
Tema II 20
Estadística Descriptiva
. .
| |
. . . | |
o . . . | |
3.3.3.6. Momentos
Los momentos de una distribución son unos valores que la
caracterizan, de tal modo que dos distribuciones son iguales, si tienen
todos sus momentos iguales, y son tanto más parecidas cuanto mayor
sea el número de momentos iguales que tengan.
En una distribución de frecuencias, se llama momento de orden
respecto al parámetro , al valor:
∑
Donde , con 1, … , son los distintos valores de la variable, o las
marcas de clase si es que la distribución está agrupada en intervalos; y los ,
con 1, … , son las frecuencias respectivas.
En particular, nos interesarán dos casos:
a) Momentos respecto al origen (si 0)
∑ 0 ∑
b) Momentos respecto a la media o centrales (si )
∑
Para los que se cumplen las siguientes igualdades:
∑
1, ,
1, 0,
Tema II 21
Estadística Descriptiva
Hay que tener en cuenta que se pueden determinar expresiones que
relacionen los momentos centrales con los momentos respecto al
origen. Basta hacer uso del binomio de Newton.
3.3.4.Medidas de asimetría y apuntamiento
En este tema nos vamos a referir a ciertas medidas que nos van a dar una idea de
la forma de la distribución, sin necesidad de realizar su representación gráfica. La
distribución NORMAL, cuya representación gráfica es la campana de Gauss, será el
modelo de comparación para la simetría y la curtosis de cualquier distribución de
frecuencias.
3.3.4.1. Distribuciones simétricas
3.3.4.2. Distribuciones asimétricas
a) Asimetría a la derecha o positiva
Se caracteriza porque la gráfica de las frecuencias presenta cola
por la derecha, es decir, éstas descienden más lentamente por la
derecha que por la izquierda. En este caso,
Tema II 22
Estadística Descriptiva
b) Asimetría a la izquierda o negativa
Se caracteriza porque la gráfica presenta cola a la izquierda, es
decir, las frecuencias decrecen más lentamente por la izquierda
que por la derecha. Contrariamente al caso anterior:
.
3.3.4.3. Coeficientes de asimetría
Valores que permiten definir la asimetría o simetría de una distribución
sin necesidad de representarla. Nos devuelve el grado de asimetría o
sesgo de una distribución.
a) Coeficiente de asimetría de Pearson
Parece razonable pensar que tiene sentido calcular este coeficiente
en distribuciones donde la moda sea única.
0 í
0 í
0 í
b) Coeficiente de asimetría de Fisher
0 í
0 í
0 í
3.3.4.4. Coeficiente de apuntamiento o curtosis
Estadística Descriptiva
El índice o coeficiente de curtosis indicará cuál es el apuntamiento de
la distribución en comparación con la distribución normal (o campana
de Gauss) que tiene un coeficiente de curtosis igual a 3, y se calcula
aplicando la siguiente expresión:
3 á : ú
3 : ú
3 : ú
Ejemplo: Para la siguiente muestra alturas de alumnos de una
Universidad calcula los coeficientes de asimetría (Fisher) y la curtosis.
Altura (pulgadas) Marca de clase )
[60,63) 61 5 305
[63,65) 64 18 1152
[65,68) 67 42 2814
[68,71) 70 27 1890
[71,74) 73 8 584
2.6932
0.14 0 í
√8.5275
199.3759
2.74 ú
√8.5275
4 Variables estadísticas bidimensionales
Se analizan en este apartado aquellas situaciones en las que el estadístico realiza la
observación simultánea de dos caracteres en el individuo, obteniéndose, por tanto, pares
de resultados. Por ejemplo, es el caso de observar en una persona su peso y su edad. Los
distintos valores de las modalidades que pueden adoptar estos caracteres forman un
conjunto de pares, que representaremos por ( , ), y llamaremos variable estadística
bidimensional.
Tema II 24
Estadística Descriptiva
Hay que tener en cuenta que los dos caracteres observados no tienen por qué ser de la
misma clase. Así, se nos pueden presentar las siguientes situaciones:
‐ Dos caracteres cualitativos. Por ejemplo, sexo y ocupación de una persona.
‐ Dos caracteres cuantitativos. Por ejemplo, peso y estatura de una persona.
‐ Uno cualitativo y otro cuantitativo. Por ejemplo, titulación y antigüedad en la
empresa.
A su vez, en el caso de dos caracteres cuantitativos, las variables que representan sus
valores pueden clasificarse de la siguiente manera:
‐ e discretas. Por ejemplo, nº de hermanos y nº de hijos de una persona.
‐ e continuas. Por ejemplo, presión sanguínea y nivel de glucosa en sangre.
‐ discreta e continua. Por ejemplo, nº de hijos de una familia y estatura del padre.
‐ continua e discreta. Por ejemplo, temperatura corporal y nº de pulsaciones por
minuto de una persona.
4.1. Tablas de doble entrada
Cuando trabajamos con variables bidimensionales hemos de considerar que nuestra
unidad de estudio es el par ( , ), y que dos pares serán repetidos sólo cuando sus
respectivas componentes sean iguales.
Por otro lado, se ha de tener en cuenta que el número de modalidades distintas que
adopta el carácter no tiene por qué ser el mismo que el que adopta el carácter :
,…, , ,…,
Por lo tanto, parece lógico ordenar los datos de la mejor forma posible en una tabla
de doble entrada con tantas celdas como sean necesarias para que puedan
almacenarse los valores distintos de la variable y los valores distintos de la
variable . Con ello, se podrá establecer el número de veces que se repite cada par de
valores posibles formado por el producto cartesiano de los dos conjuntos numéricos.
De esta forma, denotaremos por al número de repeticiones del par ( , ), y que
recibirá el nombre de frecuencia absoluta del par ( , ). Análogamente al caso
unidimensional, se denotará por a la frecuencia relativa del par ( , ),
donde representa el número total de pares observados.
Tema II 25
Estadística Descriptiva
Llegados a este punto, debemos destacar dos propiedades:
(1) La suma de las frecuencias absolutas es igual al número de pares observados:
(2) La suma de las frecuencias relativas es igual a uno.
∑ ∑
1
Ejemplo: Se ha consultado a 35 individuos sobre su edad ( ) y su estatura ( )
obteniéndose los siguientes valores de la variable ( , ), con 1, … , y
1, … , :
Obsérvese que se han considerado las correspondientes marcas de clase en cada
intervalo.
4.2. Representaciones gráficas
4.2.1.Diagrama de dispersión
Es la representación sobre el plano cartesiano de los distintos valores de la
variable ( , ). En el eje de abscisas se disponen los valores de y en el de
Tema II 26
Estadística Descriptiva
ordenadas los valores de , de forma que cada par se representaría por un punto
en el plano .
En el caso de que las dos variables fuesen agrupadas en intervalos, el diagrama
se obtiene mediante “casillas” que tuviesen dentro tantos puntos como el valor
de la frecuencia absoluta correspondiente a sendos intervalos en la y en la .
Si las variables son una discreta y otra continua se trabajaría con las marcas de
clase y se reduciría al caso de las dos discretas.
4.2.2.Diagramas de frecuencias
Dado que en el diagrama de dispersión no puede reflejarse las veces que se
repite una misma observación o un intervalo, hacemos uso de una
representación en tres dimensiones: dos son para la variable bidimensional y la
tercera para indicar las frecuencias.
En caso de que las dos variables sean dadas en intervalos la frecuencia será el
volumen del paralelepípedo correspondiente.
4.3. Distribuciones marginales
Imaginemos que se han elegido al azar 150 transeúntes a los que se les ha consultado
la edad en años (variable ) y el nº de monedas que lleva en el bolsillo (variable ).
Con esta información se ha elaborado la siguiente tabla de doble entrada:
Tema II 27
Estadística Descriptiva
El valor almacenado en cada posición relaciona una edad con el número de monedas.
Así, por ejemplo, de la tabla se extrae que hay 25 individuos con 10 años que no
portaban ninguna moneda. Además, se puede comprobar fácilmente que la suma de
todos los números que la completan es justamente ciento cincuenta.
Supongamos ahora que estamos interesados en conocer:
a) ¿Cuántas personas tenían 10 años?, ¿cuántas quince?, …, ¿cuántas treinta?
b) ¿Cuántas personas no llevaban monedas?, ¿cuántas llevaban una?, …, ¿cuántas
seis?
Para responder a las preguntas del apartado a) hemos de tener en cuenta solamente
la variable y el recuento de frecuencias, sin que intervenga la variable .
Donde ∑ es el número de elementos observados con edad es . Por
ello, a se le da el nombre de frecuencia marginal del valor , y la tabla
representada con la variable y sus frecuencias forman la distribución marginal de .
Análogamente se responde al segundo bloque de preguntas para la variable .
Estadística Descriptiva
A partir de las frecuencias absolutas marginales se pueden obtener las frecuencias
relativas marginales: y . Que en nuestro ejemplo darían los
siguientes valores:
4.3.1.Propiedades de las frecuencias marginales
i. ∑
ii. ∑
iii. ∑ 1; ∑ 1
iv. ∑
v. ∑
vi. ∑ ∑ ∑ (comprobarlo)
vii. ∑ ∑ ∑ (comprobarlo)
4.3.2.Medias y varianzas marginales
Tema II 29
Estadística Descriptiva
4.4. Distribuciones condicionadas
Supongamos que, en el ejemplo anterior, deseamos saber la distribución de la
variable , pero solamente para los individuos con dieciocho años. Como podrás
comprobar, estamos condicionando los valores de la variable al valor de 18. La
distribución obtenida así recibe el nombre de distribución de la variable
condicionada a 18. En este caso, las frecuencias relativas marginales cambian ya
que se obtiene respecto al número de individuos que cumple la condición 18, es
decir, veintidós individuos y no con respecto al tamaño de la muestra (150).
Análogamente, si quisiéramos obtener la distribución de la variable para aquellos
individuos que sólo portaban tres monedas en el bolsillo, que es lo mismo que
determinar la distribución de la variable condicionada a 3, se tendría:
Formalmente, podemos expresar estas distribuciones de la siguiente manera:
, ,…,
, ,…,
Con sus respectivas frecuencias relativas condicionadas
;
Tema II 30
Estadística Descriptiva
4.5. Momentos
Se define el momento respecto al par de valores , de órdenes y de la
siguiente forma:
∑ ∑
, ,
Y tienen especial interés dos casos particulares:
a) Momentos respecto al origen ( 0, 0)
∑ ∑ 0 0 ∑ ∑
,
b) Momentos centrales o respectos a las medias ( , )
∑ ∑
,
c) Momentos particulares para valores específicos de y
∑ ∑ ∑ ∑ ∑ ∑
= 1 ,
∑ ∑ ∑
∑
,
∑ ∑ ∑
∑
,
4.6. Regresión
Al estar estudiando dos caracteres en cada individuo, podría ser interesante analizar
la existencia de relaciones o dependencias entre ellas. En este sentido podemos
distinguir dos tipos: funcional o aleatoria. El primer caso (funcional) se da si entre las
dos variables se puede establecer una expresión matemática que las relacione. Por
ejemplo, si medimos los radios ( ) y las longitudes ( ) de una muestra de
circunferencias, observamos que, conociendo el valor de , se puede obtener el
valor de , ya que 2 . Por el contrario, entre dos variables habrá dependencia
aleatoria si no puede establecerse ninguna expresión matemática que las relacione.
Valdría como ejemplo el considerar a la edad de los individuos de una muestra de
Tema II 31
Estadística Descriptiva
varones mayores de dieciocho años y a la altura de estos. No se podrá obtener
ninguna expresión que nos devuelva la altura exacta que un varón tendrá a la edad
de años.
Cabe destacar que podemos encontrarnos pares de variables entre las que no se da
ningún tipo de relación.
En cualquier caso, la observación de una variable estadística bidimensional ( , )
implica la representación del correspondiente diagrama de dispersión y, tras ello, se
plantea el principal problema de la regresión, que no es otro que intentar ajustar una
función de ecuación conocida a la nube de puntos para, de esta manera, obtener una
regla que permita obtener el valor aproximado de una de las variables a partir de la
otra.
Las funciones o líneas de regresión pueden adoptar algunas de las siguientes formas:
: ó
: · ó
á : ó ó
ú : ó ú
ó : ó ó
1
é : ó ó
La elección de la línea de regresión dependerá de la forma que tome la nube de
puntos. Una vez elegida dicha función hemos de estimar los correspondientes
parámetros a partir de los datos observados. Por ejemplo, si la línea elegida es de la
forma , deberemos estimar los parámetros , y . Ya, por
último, debemos comprobar si el ajuste es el idóneo o no. Para ello se empleará
cualquiera de los tests para validar la bondad del ajuste. El más usado es el de
(chi‐cuadrado), que se estudiará en temas posteriores.
Regresión Lineal mínimo cuadrática
Si la recta es la función que mejor se ajusta a la forma de la nube de puntos,
podremos distinguir entre:
Tema II 32
Estadística Descriptiva
Vamos a suponer en cada par ( , ) que al valor observado le corresponde un
valor observado o experimental y otro teórico , que sería el que se obtendría
aplicando la ecuación de la recta: . A la distancia entre el valor
observado ( ) y el teórico ( ) se la denota como . Pues el método
de los mínimos cuadrados consiste en elevar estas distancias al cuadrado para
que no puedan contrarrestarse los signos positivos y negativos, y hacer mínima la
suma. Es decir, habrá que minimizar la siguiente expresión:
Admitiremos que se descartarán multiplicidades y que cada par de valores sólo se
repite una sola vez (en caso contrario, si cada par se repite , la ecuación a
minimizar sería ∑ ∑ , pero obtendríamos los
mismos resultados). Por lo tanto,
Para minimizar la expresión anterior, calcularemos las derivadas parciales con
respecto a los dos parámetros ( , ),
2 ·
Tema II 33
Estadística Descriptiva
2 · 1
e igualaremos a cero, obteniendo:
0
0
que por propiedades del sumatorio nos quedaría:
0
0
Ahora, si dividimos las dos expresiones por , al tener cada par de datos
frecuencia absoluta igual a la unidad, se alcanza que:
∑ ∑ ∑ ∑
0
∑ ∑ 1 ∑
0
Que sustituyendo por los correspondientes momentos devuelve
0
0
y representa un sistema de dos ecuaciones con dos incógnitas ( , ), con
soluciones:
Por lo que la expresión de la recta de regresión de la variable sobre la es:
de donde
Tema II 34
Estadística Descriptiva
b) Recta de regresión de sobre . Contrariamente al caso anterior, en esta
situación se obtendrán los valores aproximados de la variable en función de los
valores de la variable . Para ello se toman las distancias sobre las
horizontales (sobre el eje que representa la variable ) y se aplica el mismo
método de mínimos cuadrados visto en la sección anterior, que al desarrollarlo
nos devuelve la recta de regresión de sobre .
0 ó
0 ó
0 ó
0 ó
0 ó
0 ó
Para el resto de ajustes se recomienda que consultes cualquiera de los libros
recomendados en la bibliografía.
4.7. Correlación
A diferencia de la regresión, que estudia la posible obtención de los valores de una
variable en función de los de la otra, la correlación estudia el tipo de dependencia que
existe entre ambas variables mediante el cálculo de los coeficientes de correlación. De
entre ellos, nos limitaremos a estudiar el coeficiente de correlación lineal. Éste no es
más que un valor abstracto que determinará el grado de ajuste entre una nube de
puntos y una recta de regresión, y viene definido por la media geométrica de los
coeficientes de regresión lineal:
Tema II 35
Estadística Descriptiva
· ·
·
Una vez introducido el coeficiente de correlación lineal, y en relación a los valores
experimentales y teóricos , podemos definir lo que se conoce como varianza
residual, que viene dada por la expresión:
, donde
que, en el caso de regresión lineal respecto a la variable (de forma análoga se podría
calcular con respecto a la variable ), toma la siguiente forma:
1 0
A partir de esta última expresión podemos despejar como:
1
De lo que se deduce que 1 para asegurar que 0. Por tanto,
1 1 1
Se puede establecer la relación entre el coeficiente de correlación y los coeficientes
de regresión
a) Relación entre y :
·
· · · ·
· ·
·
b) Relación entre y :
·
· · · ·
· ·
·
Correlación lineal directa e inversa
Atendiendo a las expresiones anteriores se puede realizar la siguiente observación:
Tema II 36
Estadística Descriptiva
b) Si 0 0 (puesto que 0 y 0), diremos que la correlación
entre las variables es inversa ya que la recta de regresión de sobre es
decreciente.
c) Del mismo modo se puede obtener las relaciones para la recta de regresión de
sobre .
Otra observación que puede realizarse a partir de la expresión de la varianza residual
1 es que permite hacer una interpretación gráfica del coeficiente de
correlación.
Si 0 y 0, lo que indica que las dos rectas son
perpendiculares y las variables son incorreladas.
Si 1 0, lo que implica que todos los puntos están situados sobre
la recta de regresión y, por tanto, entre las dos variables existe dependencia
funcional (recta de regresión creciente).
Si 1 0, entonces los puntos de la nube se encuentran sobre la
recta de regresión y entre las variables se da dependencia funcional (recta de
regresión decreciente).
Si 0 1 o si 1 0, las variables están tanto más correladas en
cuanto el coeficiente se aproxime más a 1 ó 1, respectivamente. En ambos
casos existe una dependencia aleatoria entre las variables.
Tema II 37
Estadística Descriptiva
Por último, cabe destacar que no puede darse el caso de que una recta de
regresión sea creciente y la otra decreciente ya que:
0 0 0
0 0 0