Sei sulla pagina 1di 37

Tema II 1 

Estadística Descriptiva

Estadística Descriptiva 

1 Introducción 

La Estadística Descriptiva se utiliza para describir las características básicas de los datos de 
un  estudio.  Proporciona  información  simplificada  sobre  la  muestra  y  las  medidas.    Ésta 
junto  con  el  análisis  de  gráficos  simples,  constituyen  la  base  de  prácticamente  todos  los 
análisis cuantitativos de datos.  

No debemos confundir la estadística descriptiva con la inferencia estadística. En el caso de 
la estadística descriptiva se describe simplemente cuáles son los datos o qué muestran. Por 
el contrario, la inferencia estadística  pretende alcanzar conclusiones que van más allá de la 
simple  descripción  de  los  datos.  Por  ejemplo,  podemos  usar  la  inferencia  estadística  para 
intentar  predecir  el  estado  de  opinión  de  la  población  a  partir  de  una  muestra  de  datos 
(intención de voto previo a comicios). Por lo tanto, la inferencia estadística se usa para, a 
partir  de  una  colección  de  datos,  establecer  conclusiones  a  situaciones  más  generales,  y 
será estudiado en próximos temas. 

Una  ventaja  que  proporciona  la  estadística  descriptiva  es  la  de  presentar  descripciones 
cuantitativas  de  los  datos en  un  formato  manejable.  Un  ejemplo  claro  es  el  desarrollo  de 
una investigación científica/técnica en la que podemos recoger una cantidad considerable 
de  información  (datos),  pudiendo  representar  algún  tipo  de  medida  tomada  de  un  gran 
número de individuos. Es aquí donde la estadística descriptiva despliega todo su potencial 
ya que nos ayuda a mostrar una gran cantidad de datos de forma sencilla. Como ejemplo 
podemos considerar el valor que representa la tasa de piezas defectuosas que se producen 
en  un  proceso  industrial,  es  decir  el  promedio  de  fallos.  Este  valor  se  determina 
simplemente como el cociente entre el número de piezas defectuosas y el número total de 
piezas  producidas.  Si  este  promedio,  en  términos  porcentuales,  fuese  del  11,5%  indicaría 
que  de  cada  muestra  de  200  unidades  producidas  23  tendrían  defectos.  Como  podrás 
comprobar una simple cifra describe un gran número de eventos discretos.  

2 Conceptos básicos 

2.1. Población estadística o Universo 

Conjunto  de  elementos  (sujetos,  objetos,  entidades  abstractas,  etc.)  que  comparten 
una o más características en común. 

2.2. Unidad estadística o individuo 

Cada elemento que forma parte de la población estadística o universo. 
Tema II 2 

Estadística Descriptiva

2.3. Muestra 

Subconjunto de elementos del universo o la población. El número de elementos de la 
misma recibe el nombre de tamaño muestral.  

2.4. Caracteres 

Cualidades o propiedades de los individuos de la población bajo estudio, que pueden, 
a su vez, ser de dos tipos: 

2.4.1.Cuantitativas: Son aquellas que pueden ser cuantificables o expresarse a través 
de un número (altura, peso, edad,...). Reciben el nombre de variables estadísticas 
cuantitativas  o  simplemente  “variables”.  A  su  vez,  las  variables  cuantitativas 
pueden clasificarse en: 
2.4.1.1. Discretas: Pueden tomar una cantidad finita o infinita, pero numerable, 
de  posibles  valores.  Ejemplos:  miembros  de  la  unidad  familiar,  nº  de 
plantas de un edificio, nº de fallecidos por accidente laboral, etc. 
2.4.1.2. Continuas: Pueden tomar cualquier valor de entre los infinitos valores 
encerrados en un intervalo dado. Ejemplos: la presión atmosférica, el peso, 
la temperatura, etc. 
 

2.4.2.Cualitativas  (o  categóricas):  Son  aquellas  que  no  se  pueden  cuantificar  (estado 
civil,  nacionalidad,  profesión,...).  Reciben  el  nombre  de  variables  estadísticas 
cualitativas o “atributos” y adoptan modalidades. 

Las variables, a su vez, se pueden clasificar atendiendo a su nivel de medición: 

 Nominal:  los  individuos  se  clasifican  por  categorías.  Por  ejemplo,  el  género 
(masculino,  femenino),  el  estado  civil  (casado/a,  soltero/a,  viudo/a, 
divorciado/a),  especialidades  de  titulación  (Mecánica,  Electrónica,  Eléctrica, 
Organización Industrial, entre otros), etc. 
 Ordinal: cuando es posible establecer una relación de orden entre las distintas 
modalidades de la variable: curso de estudios dentro del grado (1º, 2º, 3º, 4º), 
clasificación  en  un  examen  (matrícula  de  honor,  sobresaliente,  notable, 
aprobado, suspenso), etc. 
 Intervalo: cuando se posee una unidad de medida constante y arbitraria en la 
que  existe  un  cero  arbitrario  o  relativo,  que  no  indica  la  ausencia  de  la 
característica  que  se  está  midiendo.  Suele  prevalecer  la  relación  de  orden 
“mayor  que”  (>).  Por  ejemplo,  temperatura,  altitud  en  relación  al  nivel  del 
mar, etc. 
Tema II 3 

Estadística Descriptiva

 Razón: cuando se posee una unidad de medida constante y arbitraria en la que 
existe un cero “absoluto”. Suele prevalecer la relación de orden “mayor que” 
(>): peso, edad, estatura, ingresos familiares, etc. 
2.5. Dato 

Es  el  resultado  de  la  observación  de  un  determinado  carácter  en  cada  uno  de  los 
individuos de la muestra.  

Con el fin de ilustrar los distintos conceptos introducidos en este apartado se presenta el 
siguiente ejemplo, donde la población (universo) son los trabajadores de una empresa en 
la que se seleccionaron cuatro individuos como muestra: 

Nivel de medición  Nivel nominal  Nivel ordinal Nivel cuantitativo discreto Nivel cuantitativo continuo


Martín es  Elena terminó la  María tiene 70 pulsaciones por 
DATO  Juan tiene 32 dientes
electricista  secundaria minuto 
Unidad de análisis  Martín  Elena Juan María 
Variable  Oficio  Nivel de instrucción Cantidad de piezas dentarias Frecuencia cardíaca 
Categoría o valor  Electricista  Secundaria completa 32 70 
Unidad de medida  ‐‐‐‐‐‐‐‐‐‐‐‐‐  ‐‐‐‐‐‐‐‐‐‐‐‐ Diente Pulsaciones por minuto

3 Medidas y representaciones gráficas para variables unidimensionales 

Una vez definida la población (universo), la selección de individuos mediante una muestra, 
las  variables  estadísticas  y  la  recogida  de  datos,  la  Estadística  Descriptiva  se  centra  en 
estructurar,  organizar  y  resumir  dichos  datos  para  que  éstos  sean  comprensibles  y 
significativos. Por lo que serán organizados en tablas que recogerán de forma sistemática y 
ordenada  toda  la  información  procedente  de  las  distintas  observaciones  sobre  los 
individuos  que  forman  parte  de  la  muestra  objeto  de  estudio.  A  continuación,  para  una 
mejor interpretación de la información obtenida, ésta será organizada mediante tablas de 
frecuencias  y  serán  diseñadas  diferentes  representaciones  gráficas  como  ayuda 
fundamental, y en ocasiones imprescindible, tanto para poder interpretar los datos como 
para presentar la información que aportan. 

3.1. Ordenación y organización de los datos 

Dependiendo  del  tipo  de  variable  estadística  bajo  estudio,  los  datos  podrán 
organizarse de las siguientes maneras: 
 
3.1.1.Caso discreto: Supongamos que se tiene una variable estadística   discreta, que 
representa  la  “edad  de  los  alumnos  de  clase”  y  que  puede  tomar  los  valores 
, ,…, 17,18,19, … ,24,25 .  Se  toma  una  muestra  de  tamaño 
10, obteniéndose   datos (19,22,21,20,22,22,19,20,21,22) que son los valores 
Tema II 4 

Estadística Descriptiva

que toma la variable para cada uno de los 10 individuos de la muestra. Definimos 
ahora los indicadores más frecuentes que pueden usarse para organizar los datos 

 
3.1.1.1. Recorrido:  Diferencia  entre  el  mayor  y  el  menor  de  los  valores  que 
puede tomar la variable cuantitativa. En el ejemplo anterior: 25‐17=8. 
3.1.1.2. Frecuencia absoluta de un valor  : Número de veces ( ) que aparece 
repetido  dicho  valor  en  el  conjunto  de  las  observaciones.  En  nuestro 
ejemplo:  2. 
3.1.1.3. Frecuencia relativa de un valor  : Es el cociente ( ) entre la frecuencia 
absoluta  del  valor    y  el  número  de  observaciones.  En  el  ejemplo: 
2
10 0.2. 
3.1.1.4. Frecuencia absoluta acumulada de un valor  : Suma de las frecuencias 
absolutas  de  los  valores  inferiores  o  iguales  a    .  Se  expresa  como 
∑  y se cumple que  . 
3.1.1.5. Frecuencia relativa acumulada de un valor  : Suma de las frecuencias 
relativas  de  los  valores  inferiores  o  iguales  a    .  Se  expresa  como 
∑  , cumpliéndose que  1. 
3.1.1.6. Tanto por ciento de un valor  : Porcentaje de las observaciones que se 
corresponde  con  el  valor  (cuantitativas)  o  modalidad  (cualitativas)  .  Se 
denota por % x100. 

3.1.1.7. Tabla  de  frecuencias:  Para  construir  la  tabla  de  frecuencias  de  una 
variable discreta se deben ordenar de menor a mayor los distintos valores 
de la misma, y anotar sus correspondientes frecuencias. 

En el ejemplo: 

19 2 1/5 2 1/5
20 2 1/5 4 2/5
21 2 1/5 6 3/5
22 4 2/5 10 1

 
3.1.1.8. Propiedades  de  las  frecuencias:  Sea    el  número  de  observaciones 
realizadas, entonces se cumple 
Tema II 5 

Estadística Descriptiva

(a) ∑  
(b) ∑ 1 
(c) ∑ ;∑ 1 
(d) , 2, … ,  
 

3.1.2.Caso continuo: Aquel en el que las variables pueden tomar cualquier valor dentro 
de un intervalo definido. Normalmente se aplica cuando se han realizado muchas 
observaciones  y  el  campo  de  variabilidad  de  la  variable  estadística  es  muy 
amplio.  Ante  tal  situación,  trataremos  de  agrupar  los  valores  de  la  variable  en 
intervalos,  que  reciben  el  nombre  de  intervalos  de  clase  o  clase,  y  que  son 
elegidos  apropiadamente  para  no  perder  demasiada  información.  En  este  caso, 
se realizan recuentos de las observaciones que caen dentro de cada uno de los 
intervalos. No cabe duda que el tomar como unidad de estudio el intervalo y no 
cada uno de los valores de la variable representa una simplificación del trabajo 
estadístico,  pero  a  costa  de  una  pérdida  de  parte  de  la  información. 
Precisamente  por  este  último  motivo  es  aconsejable  elegir  un  número  de 
intervalos que equilibre ambos criterios: simplificación, pérdida de información. 
Pasaremos a continuación a definir aspectos concretos de los intervalos: 
 
3.1.2.1. Amplitud  del  intervalo:  Diferencia  entre  el  extremo  superior  y  el 
inferior  del  intervalo,  pudiéndose  distinguir  dos  casos:  intervalos  de 
amplitud  constante  e  intervalos  de  amplitud  variable.  Por  comodidad  se 
suele realizar el reparto de información en intervalos de amplitud fija. 
3.1.2.2. Elección  de  los  intervalos  de  clase:  Se  suelen  tener  en  cuenta  los 
siguientes criterios a la hora de elegir los intervalos: 
 
(i) Ningún  valor  de  la  variable  debe  coincidir  con  los  extremos  de  los 
intervalos o límites de las clases. 
(ii) Los límites han de ser sencillos (con pocas cifras decimales). 
(iii) La unión de todas las clases debe recorrer el conjunto total de posibles 
valores que puede tomar la variable. 
(iv) Las  clases  no  deben  solaparse,  con  lo  que  cada  observación  se 
clasificará  en  una  única  clase.  Para  ello  los  intervalos  suelen  ser 
semiabiertos  del  tipo  ,  o  , .  En  ocasiones  los  intervalos  nos 
vienen dados de forma que no se solapan: 120‐139, 140‐149, 150‐159, 
160‐169. En estas circunstancias es aconsejable elegir adecuadamente 
nuevos intervalos que contengan a los anteriores y que no modifiquen 
el número de observaciones en cada uno de los primeros: 119’5‐139’5, 
139’5‐149’5, 149’5‐159’5,159’5‐169’5; de manera que se satisfaga (iii). 
A este tipo de intervalos se les da el nombre de intervalos con límites 
reales de clase. 
Tema II 6 

Estadística Descriptiva

(v) Las  clases  suelen  ser  de  igual  amplitud,  evitando  desequilibrios  entre 
el número de observaciones de unas y el de otras. 
3.1.2.3. Marcas de clase: Si bien cada clase viene determinada por sus límites 
(intervalo  ,  o  , ) es de utilidad considerar un valor que 
represente  la  información  que  contiene  cada  clase.  Es  por  ello  que 
definimos  como  marca  de  clase    al  punto  medio  del  intervalo  . 
Pasamos  ahora  a  definir  distintos  indicadores  relativos  a  las  variables 
continuas: 
 
(i) Frecuencia  absoluta  de  la  clase  :  Se  define  como  el  número  de 
observaciones que se encuentran dentro de la clase  . 
(ii) Frecuencia relativa de la clase  : Se calcula como el cociente entre la 
frecuencia absoluta y el número total de observaciones. 
(iii) Frecuencias  absoluta  y  relativa  acumulada  de  la  clase  :  En  caso  de 
que las clases estén ordenadas de forma creciente, se definirán como el 
resultado de sumar a la correspondiente frecuencia absoluta o relativa 
de la clase las frecuencias absolutas o relativas de las clases anteriores. 
La siguiente tabla ilustra cómo debe recogerse esta información. 
 

,  
2
,  
2

,
2
,  
2

Veamos,  mediante  un  ejemplo,  cómo  se  pueden  definir  intervalos  de 
clase.  En  la  siguiente  tabla  se  recoge  el  rendimiento  de  42  lotes 
consecutivos  de  un  sustrato  cerámico,  en  el  que  se  ha  aplicado  un 
recubrimiento  metálico  mediante  un  proceso  de  sedimentación  por 
vapor. Se pide que construyamos una distribución de frecuencias.  
 
94.1 87.3 94.1 92.4 84.6 85.4
93.2 84.1 92.1 90.6 84.1 86.6
90.6 90.1 95.9 89.1  85.4  91.7
91.4 95.2 88.2 88.8 89.7 87.5
88.2 86.1 86.4 86.4 87.6 84.2
86.1 94.3 85.0 85.1 85.1 85.1
95.1 93.2 84.9 84.1 89.6 90.5

De los datos se comprueba que el menor valor observado es 84.1, que 
el  mayor  valor  observado  es  95.9,  y  que  por  lo  tanto  el  recorrido  es 
95.9  ‐  84.1=11.8 12.  Supongamos  que  queremos  intervalos  de 
Tema II 7 

Estadística Descriptiva

amplitud  2,  entonces  tendríamos  12⁄2 6  intervalos  con  lo  que  la 
tabla de frecuencias quedaría como: 
 

84,86 85 12 0.2857 12 0.2857


86,88 87 8 0.1904 20 0.4761
88,90 89 6 0.1428  26  0.6189
90,92 91 6 0.1428 32 0.7617
92,94 93 4 0.0952 36 0.8569
94,96 95 6 0.1428 42 1

 
3.2. Representaciones gráficas 

A  continuación  mostramos  distintos  métodos  gráficos  que  nos  facilitarán  la  tarea  de 
describir los datos ya que muestran rápidamente una imagen visual de estos.  

3.2.1.Diagrama de barras: método adecuado para representar las frecuencias de una 
variable discreta. En el eje de abscisas se disponen los distintos valores que toma 
la variable y sobre cada uno de ellos se traza una línea perpendicular, cuya altura 
es  la  frecuencia  (absoluta  o  relativa)  de  dicho  valor. A  continuación  mostramos 
una tabla que recoge la altura, la edad y el sexo de una muestra de 10 individuos 
que acuden a revisión médica de rutina. 

Altura  Edad Sexo: “Hombre” 0, “Mujer” 1


1,70  21 1
1,80  24 0
1,50  16 0
1,95  27 0
1,55  16 1
1,40  12 1
1,41  12 0
1,80  25 1
1,67  17 0
1,65  20 1

Gráfica 1. Diagrama de barra de frecuencias absolutas 
Tema II 8 

Estadística Descriptiva

3.2.2.Histograma:  método  gráfico  adecuado  para  representar  las  frecuencias  de  una 
variable  agrupada  en  intervalos.  En  este  caso,  las  frecuencias  se  representan 
mediante áreas de rectángulos, cuyas bases se corresponderán  con la amplitud 
del intervalo y la altura será tal que el área coincida con la frecuencia de la clase 
(absoluta o relativa). 
 

 
 
3.2.3.Polígono de frecuencias: Distinguimos dos casos: 
3.2.3.1. Variable  discreta:  Se  obtiene  uniendo  los  extremos  superiores  de  las 
barras del diagrama de barras. 

 
3.2.3.2. Variable agrupada en intervalos: Se obtiene uniendo los puntos medios 
de los extremos superiores de cada rectángulo del histograma. 

 
3.2.4.Diagrama  de  frecuencias  acumuladas  (o  diagrama  de  barras  acumulativo): 
Representación  para  variables  discretas  en  la  que  mostraremos  en  el  eje  de 
abscisas  los  distintos  valores  de  la  variable.  Para  cada  uno  de  ellos 
proyectaremos  verticalmente  un  segmento  de  recta  cuya  longitud  se 
Tema II 9 

Estadística Descriptiva

corresponderá  con  la  frecuencia  (absoluta  o  relativa)  acumulada  relativa  a  ese 


valor. Es decir, el valor   en el eje de abscisas tendrá una ordenada  . 

 
3.2.5.Polígono  de  frecuencias  acumuladas:  Método  gráfico  usado  para  variables 
agrupadas  en  clases  o  intervalos.  En  el  eje  de  abscisas  se  mostrarán 
concatenados  los  distintos  intervalos  de  clase.  En  el  extremo  superior  de  cada 
intervalo  ( , , … , )  se  proyectará  verticalmente  un  segmento  de  recta  con 
longitud  igual  a  la  frecuencia  acumulada  (relativa  o  absoluta)  del  mismo.  Si 
elegimos  frecuencias  acumuladas  absolutas  la  altura  máxima  se  consigue  el 
último intervalo, que tendrá frecuencia  . Por el contrario, si nos decidimos por 
polígono de frecuencias acumuladas relativas la altura máxima alcanzada será la 
unidad (o, equivalentemente, el 100%). 

Otros tipos de representaciones gráficas frecuentemente usados en las ciencias 
sociales o de la salud son los diagramas circulares o por sectores que aparecen 
en las encuestas o estudios clínicos. 

3.3. Representaciones numéricas 

En ocasiones es conveniente extraer un único valor o un número reducido de valores 
de  la  información  obtenida  para  facilitar  la  comparación  entre  distintas  muestras  o 
poblaciones.  Estos  valores  o  medidas  descriptivas  tratan  de  reflejar  ciertos  aspectos 
globales  del  conjunto  de  datos  y  son  principalmente  de  dos  tipos:  medidas  de 
tendencia central o de posición y las medidas de dispersión o variabilidad. Para definir 
las  más  usuales,  admitiremos  que  la  variable  estadística    toma  los  valores 
, , … ,  con las frecuencias  , , … , , respectivamente. 
Tema II 10 

Estadística Descriptiva

3.3.2.Medidas de tendencia central o de posición   

3.3.2.1. Media aritmética ( ) 


 

La media aritmética (también llamada promedio o simplemente media) 
de  un  conjunto  finito  de  números  es  igual  a  la  suma  de  todos  sus 
valores dividida entre el número de sumandos. Cuando el conjunto es 
una muestra aleatoria recibe el nombre de media muestral siendo uno 
de  los  principales  estadísticos  muestrales.  Expresada  de  forma  más 
intuitiva, podemos decir que la media (aritmética) es la cantidad total 
de la variable distribuida a partes iguales entre cada observación. Por 
ejemplo,  si  en  una  habitación  hay  tres  personas,  la  media  de  dinero 
que tienen en sus bolsillos sería el resultado de tomar todo el  dinero 
de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, 
la  media  es  una  forma  de  resumir  la  información  de  una  distribución 
(dinero  en  el  bolsillo)  suponiendo  que  cada  observación  (persona) 
tuviera la misma cantidad de la variable. También la media aritmética 
puede ser denominada como centro de gravedad de una distribución, 
el cual no está necesariamente en la mitad. Una de las limitaciones de 
la media aritmética es que se trata de una medida muy sensible a los 
valores  extremos:  valores  muy  altos  tienden  a  aumentarla  mientras 
que  valores  muy  bajos  tienden  a  reducirla,  lo  que  implica  que  puede 
dejar de ser representativa de la población. 

3.3.2.2. Media geométrica ( ) o (G) 

Suele  utilizarse  en  negocios  y  economía  para  calcular  las  tasas  de 
cambio  promedio,  las  tasas  de  crecimiento  promedio  o  tasas 
promedio. 

Para simplificar los cálculos se suele tomar logaritmos: 

  log log  
Tema II 11 

Estadística Descriptiva

1 1
log log log log  


10,  

Esta  medida  es  menos  sensible  que  la  media  aritmética  a  los  valores 
extremos.  Sin  embargo,  es  de  significado  estadístico  menos  intuitivo 
que  la  media  aritmética,  su  cálculo  es  más  difícil  y  en  ocasiones  no 
queda determinada; por ejemplo, con que sólo un valor de la variable 
sea  cero  entonces  la  media  geométrica  se  anula.  Solo  es  relevante  la 
media  geométrica  si  todos  los  números  son  positivos.  Como  hemos 
visto,  si  uno  de  ellos  es  0,  entonces  el  resultado  es  0.  Si  hubiera  un 
número  negativo  (o  una  cantidad  impar  de  ellos)  entonces  la  media 
geométrica  sería  o  bien  negativa,  o  bien  inexistente  en  los  números 
reales. La media geométrica es relevante cuando varias cantidades son 
multiplicadas para producir un total. 

3.3.2.3. Media cuadrática ( ) 


 

Es  la  raíz  cuadrada  de  la  media  aritmética  de  los  cuadrados  de  los 
valores.  A  veces  la  variable  toma  valores  positivos  y  negativos,  como 
ocurre,  por  ejemplo,  en  los  errores  de  medida.  En  tal  caso  se  puede 
estar interesado en obtener un promedio que no recoja los efectos del 
signo.  Este  problema  se  resuelve,  mediante  la  denominada  media 
cuadrática. Consiste en elevar al cuadrado todas las observaciones (así 
los  signos  negativos  desaparecen),  en  obtener  después  su  media 
aritmética  y  en  extraer,  finalmente,  la  raíz  cuadrada  de  dicha  media 
para  volver  a  la  unidad  de  medida  original.  Suele  utilizarse  en 
aplicaciones  de física. Por ejemplo, en los sistemas de distribución de 
energía, los voltajes y las corrientes suelen expresarse en términos de 
sus valores 

3.3.2.4. Media armónica (  o (H) 

 

Al  igual  que  la  media  geométrica,  esta  medida  carecerá  de  sentido  si 
algún valor de la variable es cero. Por eso no es aconsejable su empleo 
Tema II 12 

Estadística Descriptiva

en  distribuciones  donde  existan  valores  muy  pequeños.  La  media 


armónica  es  poco  sensible  a  la  existencia  de  determinados  valores 
mucho más grandes que  el conjunto de los otros, estando en cambio 
influida  por  valores  mucho  más  pequeños  que  el  conjunto.  La  media 
armónica  con  frecuencia  se  utiliza  como  una  medida  de  tendencia 
central  para  conjuntos  de  datos  que  consisten  en  tasas  de  cambios, 
como la rapidez (aceleración). 

3.3.2.5. Mediana ( ) 

Es  la  medida  central  que,  supuestos  los  valores  de  la  variable 
ordenados  en  forma  creciente,  deja  igual  número  de  observaciones 
inferiores que superiores a ella.  

Si  el  número  de  observaciones    es  impar,  la  mediana  se 
correspondería  con  el  valor  que  ocupa  la  posición    de  la  lista 
ordenada de valores (  es el operador valor entero superior o ceil en 
inglés, y devuelve el menor de los enteros mayores o iguales a  ). Por 
ejemplo,  si  1,3,7,10,15,22,36 ,  entonces  la  mediana  sería  el 
valor que ocupa la posición  4, es decir, el 10. En caso contrario, si 
el  número  de  observaciones  es  par,  la  mediana  se  obtendría  como  la 
media  aritmética  de  los  dos  valores  centrales,  es  decir, 
⁄2.  Por  ejemplo,  si  añadimos  una  observación  más  al 
conjunto  definido  anteriormente:  1,3,7,10,15,22,36,42 ,  la 
mediana sería  10 15 ⁄2 12.5 

Para  el  caso  general  de  una  distribución  de  frecuencias,  existen  dos 
estrategias para calcular la mediana dependiendo del tipo de variable 
aleatoria: discreta o agrupada en intervalos de clase. Veamos cada una 
de ellas. 

Variable discreta 

a) Dividimos el número de observaciones   entre 2. 
b) Comprobamos  si  el  número  calculado,  ,  se  encuentra  en  la 
tabla de frecuencias absolutas acumuladas  . En este caso, el 
valor   coincide con la frecuencia absoluta acumulada de algún 
valor    y,  por  tanto,  ésta  ordenada    corresponde  a  los 
infinitos  puntos  del  intervalo  , .  Como  quiera  que  la 
mediana debe ser un único punto, tomamos el punto medio de 
dicho intervalo:  . 
c) En  caso  contrario,  estará  comprendido  entre  dos  valores  de 
dicha  tabla  y,  en  este  caso,  la  mediana  será  aquel  valor  de  la 
Tema II 13 

Estadística Descriptiva

variable  que  corresponda  al  mayor,  es  decir,  la  abscisa  que 
corresponde a la ordenada  . 
 
Ejemplo:  Se  administró  la  vacuna  de  la  gripe  estacional  a  una 
muestra  de  42  individuos,  a  los  que,  pasado  un  periodo  de 
cinco  horas,  se  les  tomó  la  temperatura  obteniendo  los 
siguientes datos: 

Temperatura en grados 37 37.2 37.5 38  38.1  38.5  39


Número de individuos 1 5 15 6  10  5  0

Se pide que a) calcules los valores de todas las posibles medias 
y b) la mediana. 
 
Está claro que la variable estadística temperatura en grados es 
continua  aunque,  debido  a  que  toma  muy  pocos  valores 
distintos,  podemos  tratarla  como  discreta.  Lo  primero  que 
haremos es completar la tabla de frecuencias: 

  log   log
37 1 1 1369  1.568  1.568
37.2 5 6 6919.2  1.570  7.850
37.5 15 21 21093.75  1.574  23.610
38 6 27 8664  1.579  9.474
38.1 10 37 14516.1  1.580  15.800
38.5 5 42 7411.25  1.585  7.925
39 0 42 0 1.591  0
59973.3    66.227

a) 
 
∑ 1587
37.78 
42
.
10 37.74 
∑ 59973.3
37.78 
42
42
37.78 
∑ 1.111
Tema II 14 

Estadística Descriptiva

b) 

Variable agrupada en intervalos de clase 

a) Dividimos el número de observaciones   entre 2. 
b) Llevamos  el  valor    a  la  columna  de  frecuencias  absolutas 
acumuladas ( ). 
c) Si  este  valor  se  encuentra  en  la  tabla,  es  que    será  la 
frecuencia absoluta acumulada de un cierto intervalo de clase 
[ , ) y, por tanto, la mediana será el extremo superior del 
mismo  . 
d) En caso contrario,   estará comprendido entre dos valores   y 
,  que  corresponderá  a  las  frecuencias  absolutas 
acumuladas  de  dos  intervalos  ,   y  , , 
respectivamente.  En  consecuencia,  la  mediana  se  haya  en  el 
intervalo  , ,  y  su  posición  exacta  se  calcula  mediante 
semejanza  de  triángulos  en  el  histograma  o  polígono  de 
frecuencias acumuladas empleando la siguiente interpolación: 
 
⁄2
 
Ejemplo: Las estaturas (en centímetros) de un grupo (muestra) 
de  dieciséis  alumnos  de  la  asignatura  se  recogen  en  la 
siguiente tabla: 

160 172.4 168 167 175  179  180  198


164 166 174 177 182.5  185  191  173.5

Se pide que: 
a) Agrupes  los  datos  en  cuatro  intervalos  de  amplitud 
constante. 
b) Calcules las medias aritmética, geométrica y armónica. 
c) Determines la mediana. 
 
Tema II 15 

Estadística Descriptiva

3.3.2.6. Moda ( ) 

Es  el  valor  de  la  variable  que  tiene  máxima  frecuencia.  En  caso  de 
haber  varios  valores  con  máxima  frecuencia,  la  moda  no  será  única; 
por lo que la distribución podrá ser bimodal, trimodal, etc. Cuando la 
variable  viene  agrupada  en  intervalos  de  clase,  hablaremos  de 
intervalo  modal,  que  se  corresponderá  con  aquel  intervalo  del 
histograma cuyo rectángulo sea el de mayor área por unidad de base.   

Para  determinar  la  posición  exacta  del  valor  de  la  variable  que 
representa la moda dentro del intervalo, supongamos que [ , ) es el 
Tema II 16 

Estadística Descriptiva

intervalo  modal  correspondiente  al  rectángulo  con  mayor  área  por 


unidad  de  base.  Sean    y  ,  respectivamente  las  alturas  de  los 
rectángulos  colindantes  (izquierdo  y  derecho)  y    la  altura  del 
intervalo modal. La posición de la moda será la proyección sobre el eje 
de abscisas (intervalos) del punto de intercepción entre los segmentos 
de  recta  que  unen  los  puntos  ( , )  y  ( , )  con  ( , )  y  ( , ). 
Alternativamente, se puede determinar la moda de la siguiente forma: 
se  miden  las  diferencias  de  alturas  ( , ) 
correspondientes  al  rectángulo  del  intervalo  modal  con  los  intervalos 
anterior y posterior a él. A partir de estos valores, y como muestra la 
figura,  se  puede  determinar,  usando  semejanza  de  triángulos,  la 
proyección    sobre  el  intervalo  modal,  que  permitirá 
obtener el valor de la moda como: 

;   con   

3.3.2.7. Cuartiles 

Se  definen  como  los  tres  valores  de  la  variable  que  dividen  las 
observaciones en cuatro partes iguales: 

Primer  cuartil  ( ⁄ ):  Valor  de  la  variable  que  deja  la  cuarta  parte  de 
las  observaciones  menores  o  iguales  a  él  y  las  tres  cuartas  partes 
superiores  a  él.  Para  su  cálculo  se  procede  como  en  el  caso  de  la 
mediana ( ), pero tomando la cuarta parte de las observaciones ( ). 

Segundo cuartil ( ⁄ ): Es el valor de la variable que deja las dos 
cuartas partes (la mitad) de las observaciones menores o iguales a él, y 
que se corresponde con la mediana.  

Tercer cuartil ( ⁄ ): Valor de la variable que deja inferiores o iguales a 
él las tres cuartas partes de las observaciones y la cuarta parte de éstas 
Tema II 17 

Estadística Descriptiva

superiores  a  él.  Su  cálculo  se  efectúa  de  manera  análoga  al  de  la 
mediana, pero tomando las tres cuartas partes de  . 

Ejemplo: Hallar los cuartiles de la siguiente variable: 

3.3.2.8. Deciles 

Se define el  decil  ‐ésimo  ( ) como el valor de la variable que  deja 


/10 partes de las observaciones inferiores o iguales a él, es decir, el 
10   por  100,  donde  1,2, … ,9.  Para  su  cálculo,  procedemos 
como en el caso de la mediana y los cuartiles, tanto en el caso discreto 
como en el continuo. 

3.3.2.9. Centiles o percentiles 

El  percentil  ‐ésimo  ( )  representa  el  valor  de  la  variable  que  deja 
inferiores  o  iguales  a  él  las  /100  partes  de  las  observaciones,  es 
decir, el   por 100, con   tomando valores enteros desde 1 al 99. Para 
determinar  el  valor  correspondiente  al  ‐ésimo  se  procede 
análogamente al cálculo de deciles, cuartiles y mediana. 

3.3.3.Medidas de dispersión o concentración   

Las  medidas  de  tendencia  central  vistas  anteriormente  reducen  la  información 
de  una  muestra  a  un  único  valor,  pero,  en  ocasiones,  éste  será  más 
representativo  de  la  realidad  de  las  observaciones  que  en  otras.  Por  ejemplo, 
veamos el comportamiento de las siguientes variables   e  : 
Tema II 18 

Estadística Descriptiva

En ambos casos la media aritmética es 500, pero la variable   está mucho más 
dispersa que la  , por lo que parece lógico pensar que la representatividad de   
es mayor que la de  . 

3.3.3.1. Varianza ( ) 

La varianza de una variable estadística   se define como: 


 

Es  evidente  que  al  ser    una  suma  de  cuadrados  tomará  siempre 
valores positivos. En el caso en que  0 se entenderá que todas las 
observaciones  están  concentradas  en  un  mismo  punto,  por  lo  que  la 
dispersión será nula (mínima). 

3.3.3.2. Desviación típica o estándar ( ) 

Se  corresponde  con  la  raíz  cuadrada  positiva  de  la  varianza,  y  viene 
definida por la siguiente expresión: 


 

3.3.3.3. Desviación media ( ) 

Se define, respecto a un promedio  , de la siguiente forma: 

∑ | |
 

Si el promedio fuese la media aritmética: 
Tema II 19 

Estadística Descriptiva

∑ | |
 

Y si fuese la mediana: 

∑ | |
 

Estas medidas de dispersión vienen dadas en las unidades que tiene la 
variable  (años,  temperatura,  centímetros,  etc.),  por  lo  que  no  son 
útiles en los casos en que queramos establecer una comparación entre 
dispersiones  de  dos  muestras  que  vengan  expresadas  en  distintas 
unidades.  En  su  lugar  se  recurre  a  medidas  de  dispersión  dadas  en 
números  abstractos  (adimensionales),  independientes  de  la 
heterogeneidad de las unidades observadas.  

3.3.3.4. Coeficiente de variación de Pearson ( . .) 

Medida  de  dispersión  útil  para  comparar  dispersiones  a  escalas 


distintas pues es una medida invariante ante cambios de escala. Sirve 
para  comparar  variables  que  están  a  distintas  escalas  pero  que  están 
correlacionadas  estadísticamente  y  sustantivamente  con  un  factor  en 
común.  Es  decir,  ambas  variables  tienen  una  relación  causal  con  ese 
factor. 

Su  fórmula  expresa  la  desviación  estándar  como  porcentaje  de  la 
media aritmética, mostrando una mejor interpretación porcentual del 
grado de variabilidad que la desviación típica o estándar. Por otro lado 
presenta  problemas  ya  que  a  diferencia  de  la  desviación  típica  este 
coeficiente es variable ante cambios de origen. Por ello es importante 
que todos los valores sean positivos y su media de por tanto un valor 
positivo. Es decir, no se puede hallar cuando  0. 

A  mayor  valor  de  C.V.  mayor  heterogeneidad  de  los  valores  de  la 
variable;  y  a  menor  C.V.,  mayor  homogeneidad  en  los  valores  de  la 
variable. Suele representarse por medio de las siglas C.V. 

. . 100  

3.3.3.5. Coeficiente de variación media ( . . .) 

Se define este coeficiente con respecto al promedio   de la siguiente 
manera: 
Tema II 20 

Estadística Descriptiva

. .  
| |

En los casos que   o   tendríamos que  

. . . | |
   o  . . . | |
  

3.3.3.6. Momentos 

Los  momentos  de  una  distribución  son  unos  valores  que  la 
caracterizan, de tal modo que dos distribuciones son iguales, si tienen 
todos sus momentos iguales, y son tanto más parecidas cuanto mayor 
sea el número de momentos iguales que tengan.  

En  una  distribución  de  frecuencias,  se  llama  momento  de  orden   
respecto al parámetro  , al valor: 


 

Donde  ,  con  1, … ,   son  los  distintos  valores  de  la  variable,  o  las 
marcas de clase si es que la distribución está agrupada en intervalos; y los  , 
con  1, … ,  son las frecuencias respectivas. 

En particular, nos interesarán dos casos: 

a) Momentos respecto al origen (si  0) 

∑ 0 ∑
 

b) Momentos respecto a la media o centrales (si  ) 
 

 
 
Para los que se cumplen las siguientes igualdades: 

1, ,  
 
1, 0,  
 
Tema II 21 

Estadística Descriptiva

Hay  que  tener  en  cuenta  que  se  pueden  determinar  expresiones  que 
relacionen  los  momentos  centrales  con  los  momentos  respecto  al 
origen. Basta hacer uso del binomio de Newton. 
 
3.3.4.Medidas de asimetría y apuntamiento 

En este tema nos vamos a referir a ciertas medidas que nos van a dar una idea de 
la forma de la distribución, sin necesidad de realizar su representación gráfica. La 
distribución  NORMAL,  cuya  representación  gráfica  es  la  campana  de  Gauss,  será  el 
modelo  de  comparación  para  la  simetría  y  la  curtosis  de  cualquier  distribución  de 
frecuencias. 

3.3.4.1. Distribuciones simétricas 

Diremos  que  una  distribución  de  frecuencias  es  simétrica  cuando 


valores  de  la  variable  equidistantes  de  un  valor  central  tienen  las 
mismas frecuencias. En ese caso, se cumple que:  . 

3.3.4.2. Distribuciones asimétricas 

Aquellas  que    no  son  simétricas,  pudiendo  presentarse  dos  casos: 


asimetría a la derecha o a la izquierda. 

a) Asimetría a la derecha o positiva 
 
Se  caracteriza  porque  la  gráfica  de  las  frecuencias  presenta  cola 
por  la  derecha,  es  decir,  éstas  descienden  más  lentamente  por  la 
derecha que por la izquierda. En este caso,   
 

 
Tema II 22 

Estadística Descriptiva

b) Asimetría a la izquierda o negativa 

Se  caracteriza  porque  la  gráfica  presenta  cola  a  la  izquierda,  es 
decir,  las  frecuencias  decrecen  más  lentamente  por  la  izquierda 
que  por  la  derecha.  Contrariamente  al  caso  anterior: 

3.3.4.3. Coeficientes de asimetría 

Valores que permiten definir la asimetría o simetría de una distribución 
sin  necesidad  de  representarla.  Nos  devuelve  el  grado  de  asimetría  o 
sesgo de una distribución. 

a) Coeficiente de asimetría de Pearson 

Parece razonable pensar que tiene sentido calcular este coeficiente 
en distribuciones donde la moda sea única. 

  
0 í          
0 í  
0 í          

b) Coeficiente de asimetría de Fisher 

0 í          
0 í  
0 í          

3.3.4.4. Coeficiente de apuntamiento o curtosis 

Si  observamos  las  gráficas  correspondientes  a  las  tres  distribuciones 


que se muestran en la siguiente figura, vemos que, a pesar de que el 
área  encerrada  por  ellas  debe  ser  la  unidad,  presentan  un 
apuntamiento distinto.  
Tema II 23 

Estadística Descriptiva

El índice o coeficiente de curtosis indicará cuál es el apuntamiento de 
la distribución en comparación con la distribución normal (o campana 
de  Gauss)  que  tiene  un  coeficiente  de  curtosis  igual  a  3,  y  se  calcula 
aplicando la siguiente expresión: 

3 á         : ú
3         : ú  
3         : ú

   

Ejemplo:  Para  la  siguiente  muestra  alturas  de  alumnos  de  una 
Universidad calcula los coeficientes de asimetría (Fisher) y la curtosis. 

Altura (pulgadas) Marca de clase  )   
[60,63) 61  5  305
[63,65) 64  18  1152
[65,68) 67  42  2814
[68,71) 70  27  1890
[71,74) 73  8  584

2.6932
0.14 0 í    
√8.5275

199.3759
2.74 ú  
√8.5275

4 Variables estadísticas bidimensionales 

Se  analizan  en  este  apartado  aquellas  situaciones  en  las  que  el  estadístico  realiza  la 
observación simultánea de dos caracteres en el individuo, obteniéndose, por tanto, pares 
de resultados. Por ejemplo, es el caso de observar en una persona su peso y su edad. Los 
distintos  valores  de  las  modalidades  que  pueden  adoptar  estos  caracteres  forman  un 
conjunto  de  pares,  que  representaremos  por  ( ,  ),  y  llamaremos  variable  estadística 
bidimensional. 
Tema II 24 

Estadística Descriptiva

Hay que tener en cuenta que los dos caracteres observados no tienen por qué ser de la 
misma clase. Así, se nos pueden presentar las siguientes situaciones: 

‐ Dos caracteres cualitativos. Por ejemplo, sexo y ocupación de una persona. 
‐ Dos caracteres cuantitativos. Por ejemplo, peso y estatura de una persona. 
‐ Uno  cualitativo  y  otro  cuantitativo.  Por  ejemplo,  titulación  y  antigüedad  en  la 
empresa. 
 
A  su  vez,  en  el  caso  de  dos  caracteres  cuantitativos,  las  variables  que  representan  sus 
valores pueden clasificarse de la siguiente manera: 
 
‐  e   discretas. Por ejemplo, nº de hermanos y nº de hijos de una persona. 
‐  e   continuas. Por ejemplo, presión sanguínea y nivel de glucosa en sangre.  
‐  discreta e   continua. Por ejemplo, nº de hijos de una familia y estatura del padre. 
‐  continua e   discreta. Por ejemplo, temperatura corporal y nº de pulsaciones por 
minuto de una persona. 
 
4.1. Tablas de doble entrada 
 
Cuando trabajamos con variables bidimensionales  hemos de considerar que  nuestra 
unidad de estudio es el par ( , ), y que dos pares serán repetidos sólo cuando sus 
respectivas componentes sean iguales. 
Por otro lado, se ha de tener en cuenta que el número de modalidades distintas que 
adopta el carácter   no tiene por qué ser el mismo que el que adopta el carácter  : 
 
,…, ,             ,…,  
 
Por lo tanto, parece lógico ordenar los datos de la mejor forma posible en una tabla 
de  doble  entrada  con  tantas  celdas  como  sean  necesarias  para  que  puedan 
almacenarse  los    valores  distintos  de  la  variable    y  los    valores  distintos  de  la 
variable  . Con ello, se podrá establecer el número de veces que se repite cada par de 
valores posibles formado por el producto cartesiano de los dos conjuntos numéricos. 
De esta forma, denotaremos por   al número de repeticiones del par ( , ), y que 
recibirá  el  nombre  de  frecuencia  absoluta  del  par  ( , ).  Análogamente  al  caso 
unidimensional,  se  denotará  por    a  la  frecuencia  relativa  del  par  ( , ), 
donde   representa el número total de pares observados.  
 
Tema II 25 

Estadística Descriptiva

 
Llegados  a este punto, debemos destacar dos propiedades: 
(1) La suma de las frecuencias absolutas es igual al número de pares observados:  
 

 
(2) La suma de las frecuencias relativas es igual a uno. 
 
∑ ∑

   

Ejemplo:  Se  ha  consultado  a    35  individuos  sobre  su  edad  ( )  y  su  estatura  ( ) 
obteniéndose  los  siguientes  valores  de  la  variable  ( , ),  con  1, … ,   y 
1, … , : 

 
Obsérvese  que  se  han  considerado  las  correspondientes  marcas  de  clase  en  cada 
intervalo. 
 
4.2. Representaciones gráficas 
 
4.2.1.Diagrama de dispersión 

Es  la  representación  sobre  el  plano  cartesiano  de  los  distintos  valores  de  la 
variable  ( , ).  En  el  eje  de  abscisas  se  disponen  los  valores  de    y  en  el  de 
Tema II 26 

Estadística Descriptiva

ordenadas los valores de  , de forma que cada par se representaría por un punto 
en el plano  . 

En el caso de que las dos variables fuesen agrupadas en intervalos, el diagrama 
se obtiene mediante “casillas” que tuviesen dentro tantos puntos como el valor 
de la frecuencia absoluta correspondiente a sendos intervalos en la    y en la  . 
Si las variables son una discreta y otra continua se trabajaría con las marcas de 
clase y se reduciría al caso de las dos discretas. 

4.2.2.Diagramas de frecuencias 

Dado  que  en  el  diagrama  de  dispersión  no  puede  reflejarse  las  veces  que  se 
repite  una  misma  observación  o  un  intervalo,  hacemos  uso  de  una 
representación en tres dimensiones: dos son para la variable bidimensional y la 
tercera para indicar las frecuencias. 

En  caso  de  que  las  dos  variables  sean  dadas  en  intervalos  la  frecuencia  será  el 
volumen del paralelepípedo correspondiente. 

4.3. Distribuciones marginales 

Imaginemos que se han elegido al azar 150 transeúntes a los que se les ha consultado 
la edad en años (variable  ) y el nº de monedas que lleva en el bolsillo (variable  ). 
Con esta información se ha elaborado la siguiente tabla de doble entrada: 
Tema II 27 

Estadística Descriptiva

El valor almacenado en cada posición relaciona una edad con el número de monedas. 
Así,  por  ejemplo,  de  la  tabla  se  extrae  que  hay  25  individuos  con  10  años  que  no 
portaban ninguna moneda. Además, se puede comprobar fácilmente que la suma de 
todos los números que la completan es justamente ciento cincuenta. 

Supongamos ahora que estamos interesados en conocer: 

a) ¿Cuántas personas tenían 10 años?, ¿cuántas quince?, …, ¿cuántas treinta? 
b) ¿Cuántas  personas  no  llevaban  monedas?,  ¿cuántas  llevaban  una?, …,  ¿cuántas 
seis? 

Para responder a las preguntas del apartado a) hemos de tener en cuenta solamente 
la variable   y el recuento de frecuencias, sin que intervenga la variable  . 

Donde  ∑   es  el  número  de  elementos  observados  con  edad  es  .  Por 
ello,  a    se  le  da  el  nombre  de  frecuencia  marginal  del  valor  ,  y  la  tabla 
representada con la variable y sus frecuencias forman la distribución marginal de  . 

Análogamente se responde al segundo bloque de preguntas para la variable  .  

Siendo  ∑  la frecuencia marginal del valor  , y que recoge el número de 


individuos observados que llevan   monedas en el bolsillo, con independencia de la 
edad.  Al  igual  que  en  el  caso  anterior,  la  tabla  representada  con  la  variable    y  sus 
frecuencias marginales recibe el nombre de distribución marginal de  . 
Tema II 28 

Estadística Descriptiva

Ambas distribuciones marginales, las de las variables   e  , se pueden almacenar en 


la misma tabla de doble entrada, añadiendo una columna y una fila adicional. 

A  partir  de  las  frecuencias  absolutas  marginales  se  pueden  obtener  las  frecuencias 
relativas  marginales:    y  .  Que  en  nuestro  ejemplo  darían  los 

siguientes valores: 

4.3.1.Propiedades de las frecuencias marginales 
 
i. ∑  
ii. ∑  
iii. ∑ 1; ∑ 1 
iv. ∑  
v. ∑  
vi. ∑ ∑ ∑                               (comprobarlo) 
vii. ∑ ∑ ∑                              (comprobarlo) 
 
 
4.3.2.Medias y varianzas marginales 
 
Tema II 29 

Estadística Descriptiva

A  partir  de  las  distribuciones  marginales  respectivas  de  las  variables    e    


podemos definir sus medias, varianzas y desviaciones típicas: 
 

 
 
4.4. Distribuciones condicionadas 

Supongamos  que,  en  el  ejemplo  anterior,  deseamos  saber  la  distribución  de  la 
variable  ,  pero  solamente  para  los  individuos  con  dieciocho  años.  Como  podrás 
comprobar, estamos condicionando los valores de la variable   al valor de  18. La 
distribución  obtenida  así  recibe  el  nombre  de  distribución  de  la  variable   
condicionada a  18. En este caso, las frecuencias relativas marginales cambian ya 
que se obtiene respecto al número de individuos que cumple la condición  18, es 
decir,  veintidós  individuos  y  no  con  respecto  al  tamaño  de  la  muestra  (150). 
Análogamente, si quisiéramos obtener la distribución de la variable   para aquellos 
individuos  que  sólo  portaban  tres  monedas  en  el  bolsillo,  que  es  lo  mismo  que 
determinar la distribución de la variable   condicionada a  3, se tendría: 

Formalmente, podemos expresar estas distribuciones de la siguiente manera: 

, ,…,  

, ,…,  

Con sus respectivas frecuencias relativas condicionadas 

;      

 
Tema II 30 

Estadística Descriptiva

4.5. Momentos 

Se  define  el  momento  respecto  al  par  de  valores  ,   de  órdenes    y    de  la 
siguiente forma: 

∑ ∑
, ,  

Y tienen especial interés dos casos particulares: 

a) Momentos respecto al origen ( 0, 0) 
 
∑ ∑ 0 0 ∑ ∑
,  
 
b) Momentos centrales o respectos a las medias ( , ) 
 
∑ ∑
,  
 
c) Momentos particulares para valores específicos de   y   
 
∑ ∑ ∑ ∑ ∑ ∑
= 1  ,

∑ ∑ ∑  
  ∑
  ,  
∑ ∑ ∑  
  ∑
  ,  
 

 
4.6. Regresión 
 
Al estar estudiando dos caracteres en cada individuo, podría ser interesante analizar 
la  existencia  de  relaciones  o  dependencias  entre  ellas.  En  este  sentido  podemos 
distinguir dos tipos: funcional o aleatoria. El primer caso (funcional) se da si entre las 
dos  variables  se  puede  establecer  una  expresión  matemática  que  las  relacione.  Por 
ejemplo,  si  medimos  los  radios  ( )  y  las  longitudes  ( )  de  una  muestra  de 
circunferencias,  observamos  que,  conociendo  el  valor  de  ,  se  puede  obtener  el 
valor de  , ya que  2 . Por el contrario, entre dos variables habrá dependencia 
aleatoria si no puede establecerse  ninguna expresión matemática que las relacione. 
Valdría como ejemplo el considerar a   la edad de los individuos de una muestra de 
Tema II 31 

Estadística Descriptiva

varones  mayores  de  dieciocho  años  y  a    la  altura  de  estos.  No  se  podrá  obtener 
ninguna expresión que nos devuelva la altura exacta   que un varón tendrá a la edad 
de   años.   
Cabe destacar que podemos encontrarnos pares de variables entre las que no se da 
ningún tipo de relación. 
En  cualquier  caso,  la  observación  de  una  variable  estadística  bidimensional  ( , ) 
implica la representación del correspondiente diagrama de dispersión y, tras ello, se 
plantea el principal problema de la regresión, que no es otro que intentar ajustar una 
función de ecuación conocida a la nube de puntos para, de esta manera, obtener una 
regla que permita obtener el valor aproximado de una de las variables a partir de la 
otra. 
Las funciones o líneas de regresión pueden adoptar algunas de las siguientes formas: 
 
:  ó    
:  · ó    
á : ó   ó  
ú : ó   ú  
ó : ó   ó  
1
é : ó   ó  
 
La  elección  de  la  línea  de  regresión  dependerá  de  la  forma  que  tome  la  nube  de 
puntos.  Una  vez  elegida  dicha  función  hemos  de  estimar  los  correspondientes 
parámetros a partir de los datos observados. Por ejemplo, si la línea elegida es de la 
forma  ,  deberemos  estimar  los  parámetros  ,   y  .  Ya,  por 
último,  debemos  comprobar  si  el  ajuste  es  el  idóneo  o  no.  Para  ello  se  empleará 
cualquiera  de  los  tests  para  validar  la  bondad  del  ajuste.  El  más  usado  es  el  de   
(chi‐cuadrado), que se estudiará en temas posteriores. 
 

 
 
Regresión Lineal mínimo cuadrática 
 
Si  la  recta  es  la  función  que  mejor  se  ajusta  a  la  forma  de  la  nube  de  puntos, 
podremos distinguir entre: 
 
Tema II 32 

Estadística Descriptiva

a) Recta de regresión de   sobre  . En este caso obtendremos valores aproximados 


de la variable   conocidos los de la  . La ecuación de la recta será  , y 
debemos  estimar  los  valores  de  los  parámetros    y    usando  los  datos 
observados de la variable bidimensional y el método de los mínimos cuadrados, 
que se explica a continuación. 
 

 
 
Vamos a suponer en cada par ( , ) que al valor observado   le corresponde un 
valor observado o experimental   y otro teórico  , que sería el que se obtendría 
aplicando  la  ecuación  de  la  recta:  .  A  la  distancia  entre  el  valor 
observado ( ) y el teórico ( ) se la denota como  . Pues el método 
de  los  mínimos  cuadrados  consiste  en  elevar  estas  distancias  al  cuadrado  para 
que no puedan contrarrestarse los signos positivos y negativos, y hacer mínima la 
suma. Es decir, habrá que minimizar la siguiente expresión: 
 

 
Admitiremos que se descartarán multiplicidades y que cada par de valores sólo se 
repite  una  sola  vez  (en  caso  contrario,  si  cada  par  se  repite  ,  la  ecuación  a 
minimizar  sería  ∑ ∑ ,  pero  obtendríamos  los 
mismos resultados). Por lo tanto,  
 

 
Para  minimizar  la  expresión  anterior,  calcularemos  las  derivadas  parciales  con 
respecto a los dos parámetros ( , ), 

2 ·  
Tema II 33 

Estadística Descriptiva

2 · 1 

e igualaremos a cero, obteniendo: 

0
 
0

 
que por propiedades del sumatorio nos quedaría: 
 

0
 
0

 
Ahora,  si  dividimos  las  dos  expresiones  por  ,  al  tener  cada  par  de  datos 
frecuencia absoluta igual a la unidad, se alcanza que: 
 
∑ ∑ ∑ ∑
0
 
∑ ∑ 1 ∑
0
 
Que sustituyendo por los correspondientes momentos devuelve 
 
0
 
0
y  representa  un  sistema  de  dos  ecuaciones  con  dos  incógnitas  ( , ),  con 
soluciones: 

 
Por lo que la expresión de la recta de regresión de la variable   sobre la   es: 
 
 

de donde 
 
Tema II 34 

Estadística Descriptiva

 
 
b) Recta  de  regresión  de    sobre  .  Contrariamente  al  caso  anterior,  en  esta 
situación se obtendrán los valores aproximados de la variable   en función de los 
valores  de  la  variable  .  Para  ello  se  toman  las  distancias    sobre  las 
horizontales  (sobre  el  eje  que  representa  la  variable  )  y  se  aplica  el  mismo 
método  de  mínimos  cuadrados  visto  en  la  sección  anterior,  que  al  desarrollarlo 
nos devuelve la recta de regresión de   sobre  . 

Para  distinguir  las  pendientes  de  ambas  rectas  las  denotaremos, 


respectivamente,  por    y  ,  que  reciben  el  nombre  de  coeficientes  de 
regresión de las rectas y determinarán el carácter de esta. 

0     ó          
0     ó            
0     ó          

0     ó          
0     ó            
0     ó          

Para  el  resto  de  ajustes  se  recomienda  que  consultes  cualquiera  de  los  libros 
recomendados en la bibliografía.  

4.7. Correlación 

A  diferencia  de  la  regresión,  que  estudia  la  posible  obtención  de  los  valores  de  una 
variable en función de los de la otra, la correlación estudia el tipo de dependencia que 
existe entre ambas variables mediante el cálculo de los coeficientes de correlación. De 
entre ellos, nos limitaremos a estudiar el coeficiente de correlación lineal. Éste no es 
más  que  un  valor  abstracto  que  determinará  el  grado  de  ajuste  entre  una  nube  de 
puntos  y  una  recta  de  regresión,  y  viene  definido  por  la  media  geométrica  de  los 
coeficientes de regresión lineal: 
Tema II 35 

Estadística Descriptiva

· ·  
·

Una  vez  introducido  el  coeficiente  de  correlación  lineal,  y  en  relación  a  los  valores 
experimentales    y  teóricos  ,  podemos  definir  lo  que  se  conoce  como  varianza 
residual, que viene dada por la expresión: 
 

, donde   

 
que, en el caso de regresión lineal respecto a la variable  (de forma análoga se podría 
calcular con respecto a la variable  ), toma la siguiente forma: 
 
1 0 
 
A partir de esta última expresión podemos despejar   como: 

1  

 
De lo que se deduce que  1 para asegurar que  0. Por tanto, 

1 1 1 

Se puede establecer la relación entre el coeficiente de correlación y los coeficientes 
de regresión 

a) Relación entre   y  : 

·
· · · ·  
· ·
·
b) Relación entre   y  : 

·
· · · ·  
· ·
·
 
Correlación lineal directa e inversa 
 
Atendiendo a las expresiones anteriores se puede realizar la siguiente observación: 
Tema II 36 

Estadística Descriptiva

a) Si  0 0  (puesto  que  0  y  0),  diremos  que  la  correlación 


entre  las  variables  es  directa  ya  que  la  recta  de  regresión  de    sobre    es 
creciente. 

 
 
b) Si  0 0  (puesto  que  0  y  0),  diremos  que  la  correlación 
entre  las  variables  es  inversa  ya  que  la  recta  de  regresión  de    sobre    es 
decreciente. 

 
 
c) Del mismo modo se puede obtener las relaciones para la recta de regresión de   
sobre  . 
 
Otra observación que puede realizarse a partir de la expresión de la varianza residual 
1  es que permite hacer una interpretación gráfica del coeficiente de 
correlación. 
 Si  0   y  0,  lo  que  indica  que  las  dos  rectas  son 
perpendiculares y las variables son incorreladas. 
 Si  1 0, lo que implica que todos los puntos están situados sobre 
la recta de regresión y, por tanto, entre las dos variables existe dependencia 
funcional (recta de regresión creciente). 
 Si  1 0, entonces los puntos de la nube se encuentran sobre la 
recta de regresión y entre las variables se da dependencia funcional (recta de 
regresión decreciente). 
 Si  0 1  o  si  1 0,  las  variables  están  tanto  más  correladas  en 
cuanto el coeficiente se aproxime más a 1 ó  1, respectivamente. En ambos 
casos existe una dependencia aleatoria entre las variables. 
Tema II 37 

Estadística Descriptiva

Por  último,  cabe  destacar  que  no  puede  darse  el  caso  de  que  una  recta  de 
regresión sea creciente y la otra decreciente ya que: 

0   0 0 

0   0 0 

Potrebbero piacerti anche