Sei sulla pagina 1di 22

ESTADISTICA DESCRIPTIVA

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y


describe un conjunto de datos con el propósito de facilitar el uso, generalmente con el
apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos
como las medidas de centralización y de dispersión que describen el conjunto estudiado.

INTRODUCCIÓN A LA ESTADISTICA

CONCEPTOS BÁSICOS

La ESTADISTICA es la ciencia que le facilita al hombre el estudio de datos masivos, pasa


de esa manera sacar conclusiones valederas y efectuar predicciones razonables de ellos; y
así mostrar una visión de conjunto clara y de más fácil apreciación, así como para
describirlos y compararlos.
En una forma práctica, la ESTADÍSTICA nos proporciona los métodos científicos para la
recopilación, organización, resumen, representación y ANALISIS de DATOS, o análisis de
hechos, que se presenten a una valuación numérica; tales como son: Características
biológicas o sociológicas, fenómenos físicos, producción, calidad, población riqueza,
impuestos, cosechas, etc.
Definición de Estadística
Minguez que define la Estadística como "La ciencia que tiene por objeto aplicar las leyes
de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen
y hacer su predicción próxima".
La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa
concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis
de estos datos unos significados precisos o unas previsiones para el futuro.

CLASIFICACIÓN DE LA ESTADISTICA

Estadística Descriptiva.
Es aquella que consiste en la evaluación de un fenómeno por medio de la observación y su
posterior presentación en datos y gráficos con el fin de detallar el mismo fenómeno y su
comportamiento.

Los pasos por medio de los cuales procede la estadística descriptiva son los siguientes:

1. Recolectar: en efecto los datos deben ser obtenidos de forma consecuente de una
muestra, es decir, los mismos deben proceder de la observación exacta de un
fenómeno y de su comportamiento, solo así es posible recabar toda la información
necesaria.
2. Analiza: no basta con la simple observación, los datos deben ser sometidos a una
serie de estudios con el fin de evaluarlos y proceder a su respectiva categorización,
los datos deben ser sometidos a procesos analíticos con el fin de proyectar los
resultados y si estos son o no consecuentes para la investigación.
3. Caracterización o categorización, esto equivale al proceso de agrupación de los
datos en distintos grupos con el fin de que los mismos puedan presentarse de forma
segmentada para una mejor apreciación de los resultados.

Estadística inferencial.
Refiere al estudio particular de una población con el fin de apreciar el comportamiento
determinado de la misma, en efecto, el proceso de estudio procede es de una muestra, con
la finalidad de obtener de la mismas las alternativas o probabilidades que pudieron
ocasionar que el fenómeno se suscitará.

Para poder entender el concepto de estadística inferencial, es menester proceder al estudio


de los conceptos básicos de la misma, como es población y muestra.

TIPOS DE VARIABLES

Variable cualitativa
Las variables cualitativas son aquellas car acterísticas o cualidades que no
pueden ser calculadas con números, sino que lo hacen con palabras.
Este tipo de variable, a su vez se divide en las siguientes:

 Cualitativa nominal: Aquellas variables que no siguen ningún orden en


específico. Por ejemplo: Colores (Negro, Naranja, Amarillo).

 Cualitativa ordinal: Aquellas que siguen un orden o jerarquía. Por


ejemplo: Nivel socioeconómico (Alto, medio, bajo).

 Cualitativa binaria: En este caso, las variables son solamente dos. Por
ejemplo: Si o No, Hombre o Mujer.

Variable cuantitativa
Las variables cuantitativas son aquellas características o cualidades que sí
pueden expresarse y medirse a través de números .
Este tipo de variable a su vez se divide en:

 Cuantitativa discreta: Aquella variable que usa valores enteros y no


finitos. Por ejemplo: La cantidad de familiares que tiene una persona (2,
3, 4 ó más)
 Cuantitativa continua: Aquella variable que utiliza valores finitos y
objetivos. Suele caracterizarse por utilizar valores decimales. Por
ejemplo: El peso de una persona (64.3 Kg, 72.3 Kg, etc) .

NIVELES DE MEDICION RECOPILACIÓN DE DATOS

Una vez que seleccionamos el diseño de investigación apropiado y la muestra adecuada de


acuerdo con nuestro problema de estudio e hipótesis, la siguiente etapa consiste en
recolectar los datos pertinentes sobre las variables involucradas en la investigación.
Recolectar los datos implica tres actividades estrechamente vinculadas entre si:
a. Seleccionar un instrumento de medición de los disponibles en el estudio
del comportamiento o desarrollar uno (el instrumento de recolección de los datos).
Este instrumento debe ser válido y confiable, de lo contrario no podemos basarnos en
sus resultados.
b. Aplicar ese instrumento de medición. Es decir, obtener las observaciones y
mediciones de las variables que son de interés para nuestro estudio (medir variables).
c. Preparar las mediciones obtenidas para que puedan analizarse correctamente (a esta
actividad se le llama codificación de datos).

PRESENTACIÓN DE DATOS DE UNA SOLA VARIABLE

Las Distribuciones de Frecuencias para datos de una sola variable cuantitativas pueden
realizarse:
1. Utilizando los valores de la variable (Variable Discreta) cuando esta solo asume algunos
valores.

2. Utilizando intervalos de clase (Variable Continua) cuando los datos pueden contener
grandes cantidades de valores (peso, estatura etc)
La tabla de distribución de los datos de una variable discreta contiene: valor de la variable,
frecuencia absoluta, frecuencia acumulada, frecuencia relativa, frecuencia relativa
acumulado. Siendo la suma de las frecuencias absolutas el número de observaciones y la
suma de las frecuencias relativas 1.
Con respecto a la tabla de distribución en una variable continua se le agregaran los límites
aparentes, el punto medio y los limites reales.
Las variables cualitativas y discretas pueden ser presentadas en gráficos de barras.
Las variables discretas y continuas pueden ser presentadas en gráficos circulares y ojivas.
Las variables continuas pueden ser presentadas en histogramas y polígonos de frecuencias
DISTRIBUCIÓN DE FRECUENCIAS

En estadística, se le llama distribución de frecuencias a la agrupación de datos en


categorías mutuamente excluyentes que indican el número de observaciones en cada
categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La distribución de
frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número
existente en cada clase.

PRESENTACIÓN GRAFICA DE DATOS

GRAFICA DE BARRAS

Un diagrama de barras, también conocido como gráfico de barras o diagrama de columnas,


es una forma de representar gráficamente un conjunto de datos o valores, y está
conformado por barras rectangulares de longitudes proporcionales a los valores
representados.

GRAFICA DE PASTEL

Un gráfico circular o gráfica circular, también llamado "gráfico de pastel", "gráfico de


tarta", "gráfico de torta" o "gráfica de 360 grados", es un recurso estadístico que se utiliza
para representar porcentajes y proporciones. El número de elementos comparados dentro de
una gráfica circular suele ser de más de cuatro.
El gráfico circular más temprano conocido se atribuye generalmente al escocés William
Playfair, en la obra Statistical Breviary de 1801.
HISTOGRAMA

Se utiliza para la representación de variables cuantitativas continuas, cada intervalo se


representa sobre el eje OX , este será la base del rectángulo que se dibuja sobre él con
altura igual o proporcional a su frecuencia absoluta. Como los intervalos son consecutivos,
los rectángulos quedan adosados. Si se utilizarán rectángulos de amplitud diferente, el área
del rectángulo es la que tendría que ser proporcional a la frecuencia absoluta
correspondiente a ese intervalo. Histograma acumulativo, si se utiliza la frecuencia absoluta
acumulativa.

POLIGONO DE FRECUENCIA

Polígono de frecuencia es el nombre que recibe una clase de gráfico que se crea a partir de
un histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor
altura de estas columnas.
OJIVA

En estadística, la ojiva es un polígono frecuencial acumulado, es decir, que permite ver


cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de
solo exhibir los números asignados a cada intervalo.

GRAFICAS LINEALES

Los gráficos de líneas se utilizan para mostrar el valor cuantitativo en un intervalo o


intervalo de tiempo continuo. Se usa con mayor frecuencia para mostrar tendencias y
relaciones (cuando se agrupan con otras líneas). Los gráficos de línea también ayudan a dar
un «panorama general» en un intervalo, para ver cómo se ha desarrollado durante ese
período.

Los gráficos de líneas se representan dibujando primero los puntos de datos en una
cuadrícula cartesiana, y luego conectando una línea entre estos puntos. Típicamente, el eje
Y tiene un valor cuantitativo, mientras que el eje X tiene una escala de categoría o
secuenciada. Los valores negativos se pueden mostrar debajo del eje X.
GRAFICAS DE PUNTOS

Los gráficos de puntos son útiles para mostrar datos cuantitativos de una forma organizada.
Los gráficos de puntos usan varios puntos para trazar datos a lo largo de un eje ordinal. Un
gráfico de puntos es similar a un gráfico de líneas, pero sin las líneas. Solamente se
muestran los puntos de datos.
En el ejemplo siguiente se muestran los ingresos de cada línea de producto.

ANALISIS DESCRIPTIVO DE DATOS DE UNA SOLA VARIABLE

MEDIDAS DE TENDENCIA CENTRAL

Las características globales de un conjunto de datos estadísticos pueden resumirse mediante


una serie de cantidades numéricas representativas llamadas parámetros estadísticos. Entre
ellas, las medidas de tendencia central, como la media aritmética, la moda o la mediana,
ayudan a conocer de forma aproximada el comportamiento de una distribución estadística.

Medidas de centralización

Se llama medidas de posición, tendencia central o centralización a unos valores


numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una
variable estadística. Estas medidas se conocen también como promedios.
Para que un valor pueda ser considerado promedio, debe cumplirse que esté situado entre el
menor y el mayor de la serie y que su cálculo y utilización resulten sencillos en términos
matemáticos.

Se distinguen dos clases principales de valores promedio:

 Las medidas de posición centrales: medias (aritmética, geométrica, cuadrática,


ponderada), mediana y moda.
 Las medidas de posición no centrales: entre las que destacan especialmente los
cuantiles.

Las medidas de centralización son parámetros representativos de distribuciones de


frecuencia como las que ilustra la imagen.

Media aritmética

Se define media aritmética de una serie de valores como el resultado producido al sumar
todos ellos y dividir la suma por el número total de valores. La media aritmética se
expresada como .

Dada una variable x que toma los valores x1, x2, ..., xn, con frecuencias absolutas
simbolizadas por f1, f2, ..., fn, la media aritmética de todos estos valores vendrá dada por:

MEDIA PONDERADA

En algunas series estadísticas, no todos los valores tienen la misma importancia. Entonces,
para calcular la media se ponderan dichos valores según su peso, con lo que se obtiene
una media ponderada.
Si se tiene una variable con valores x1, x2, ..., xn, a los que se asigna un peso mediante
valores numéricos p1, p2, ..., pn, la media ponderada se calculará como sigue:

MEDIA GEOMETRICA

En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números


(por decir n números) es la raíz n-ésima del producto de todos los números; es
recomendada para datos de progresión geométrica, para promediar razones, interés
compuesto y números índice.

Propiedades

 El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de


los valores de la variable.
 La media geométrica de un conjunto de números positivos es siempre menor o igual
que la media aritmética:

La igualdad sólo se alcanza si .

Ventajas

 Considera todos los valores de la distribución


 Es menos sensible que la media aritmética a los valores extremos.
Desventajas

 Es de significado estadístico menos intuitivo que la media aritmética.


 Su cálculo es más difícil.

 Si un valor entonces la media geométrica se anula o no queda


determinada.

Solo es relevante la media geométrica si todos los números son positivos. Como
hemos visto, si uno de ellos es 0, entonces el resultado es 0. Si hubiera un número
negativo (o una cantidad impar de ellos) entonces la media geométrica sería o bien
negativa, o bien inexistente en los números reales.

En muchas ocasiones se utiliza su trasformación en el manejo estadístico de


variables con distribución no normal.

La media geométrica es relevante cuando varias cantidades son multiplicadas para


producir un total.

MEDIANA

La mediana es un estadístico de posición central que parte la distribución en dos, es


decir, deja la misma cantidad de valores a un lado que a otro.
Para calcular la mediana es importante que los datos estén ordenados de mayor a menor, o
al contrario de menor a mayor. Esto es, que tengan un orden.

La mediana, junto con la media y la varianza es un estadístico muy ilustrativo de una


distribución. Al contrario que la media que puede estar desplazada hacia un lado o a otro,
según la distribución, la mediana siempre se sitúa en el centro de esta. Dicho sea paso, a la
forma de la distribución se le conoce como curtosis. Con la curtosis podemos ver hacia
dónde está desplaza la distribución. Ver curtosis

Formula:

Una vez definida la mediana vamos a pasar a calcularla. Para ello, necesitaremos una
fórmula.

La fórmula no nos dará el valor de la mediana, lo que nos dará es la posición en la que está
dentro del conjunto de datos. Debemos tener en cuenta, en este sentido, si el número total
de datos u observaciones que tenemos (n) es par o impar. De tal forma que la fórmula de la
mediana es:

 Cuando el número de observaciones es par:


Mediana = (n+1) / 2 = Media de las observaciones
 Cuando el número de observaciones es impar:
Mediana = (n+1) / 2 = Valor de la observación

Es decir, que si tenemos 50 datos ordenados preferiblemente de menor a mayor, la mediana


estaría en la observación número 25,5. Esto es el resultado de aplicar la fórmula para un
conjunto de datos par (50 es número par) y dividir entre 2. El resultado es 25,5 ya que
dividimos entre 50+1. La mediana será la media entre entre la observación 25 y la 26.En el
próximo epígrafe lo veremos más detenidamente, con ejemplos visuales.

MODA

La moda es una medida de tendencia central que indica el valor que más se repite en un
grupo de números. En un mismo estudio puede haber más de una moda, esto ocurre cuando
dos (bimodal) o más números (multimodal) se repiten la misma cantidad de veces siendo
este es el máximo número de veces del conjunto. También puede darse el caso a la inversa
y que en una muestra no haya moda por la ausencia de repetición de los datos, a esto se le
llama muestra amodal.

Símbolo de la moda

La moda es una medida que se relaciona con la frecuencia en la que aparece un dato en un
supuesto. La moda puede aparecer tanto en datos cualitativos como
cuantitativos. El símbolo de la moda es: Mo

Ejemplos de moda

En los siguientes de moda, podremos calcular la moda de una serie de números


aprendiendo a indentificarla de manera clara y sencilla. A continuación, os mostramos
algunos ejemplos de cálculo de la moda en estadística:

Basándonos en la premisa de que la moda equivale al valor más repetido en una muestra, y
observando esta correlación de números: 4,3,2,7,7,7,9,5,9,9,1,9, podemos afirmar que la
moda es 9.
En el siguiente ejemplo encontramos una muestra bimodal, ya que los número 6 y 9 tienen
las frecuencias más altas y se repiten las mismas veces: 9,3,4,6,7,8,6,9,0,7,6,9,1,6,9.

Por último en el siguiente estudio tenemos una muestra amodal, puesto que las cifras no se
repiten con una frecuencia mayor que los otros datos: 2,3,7,9,8,5,0.

CLASIFICACIÓN DE LA ESTADISTICA

En cuanto a la clasificación de la estadística podemos encontrar 4 diferentes tipos:

Descriptiva o deductiva: Solo se encarga de mostrar el resultado de los datos que se


estudiaron de forma específica, sin generalizaciones.

Inferencial o inductiva: Al contrario de la estadística descriptiva, la inferencial si incluye


datos y resultados generales y de investigación amplia.

Aplicada: Con este tipo, se utilizan los dos métodos anteriores, luego de investigar,
estudiar y analizar se dan resultados específicos y también resultados generalizados.

Matemática: Esta se relaciona mucho con la estadística descriptiva y la inferencial, sin


embargo, la estadística matemática va más allá, pues utiliza análisis y álgebra, dando así un
punto de vista enfocado y formal.
DISTRIBUCIÓN DE FRECUENCIAS

Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la


variable por filas. En las columnas se dispone el número de ocurrencias por cada valor,
porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de
la información que contienen los datos.

Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la


exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes
datos.

La inspección de los datos originales no permite responder fácilmente a cuestiones como


cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la
magnitud de la diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable
acompañados del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.

f: Frecuencia (también se simboliza como ni).

La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria
de los individuos del grupo estudiado es indiferente.

La interpretación de los datos ha sido facilitada porque se ha reducido el número de


números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la
variable y 5 frecuencias).

Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son el
número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"),
frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores
iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia
acumulada también es definida incluyendo al valor de referencia), frecuencias acumuladas
relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores
iguales o inferiores al de referencia, y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos:

La distribución de freciemcias es:

La reducción de datos mediante el agrupamiento en frecuencias no facilita su


interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla agrupamos
los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en
los intervalos:

Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente
que el intervalo con mayor número de datos es el 34-39, o que el 75% de los datos tiene
valor inferior a 46.

Este tipo de tabla es denominado "tabla de datos agrupados en intervalos"

Elementos básicos de las tablas de intervalos:

Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una
distribución de frecuencias

Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla.
Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes
del intervalo con mayor número de frecuencias son 34 y 39.

Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se contara
con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y
39.5

Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por dos. Mc
del intervalo del ejemplo= 36.5

Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto inferior.
En el ejemplo es igual a 6.
PRESENTACIÓN GRAFICA DE DATOS

En los análisis estadísticos, es frecuente utilizar representaciones visuales complementarias


de las tablas que resumen los datos de estudio. Con estas representaciones, adaptadas en
cada caso a la finalidad informativa que se persigue, se transmiten los resultados de los
análisis de forma rápida, directa y comprensible para un conjunto amplio de personas.

Tipos de representaciones gráficas

Cuando se muestran los datos estadísticos a través de representaciones gráficas, se ha de


adaptar el contenido a la información visual que se pretende transmitir. Para ello, se barajan
múltiples formas de representación:

 Diagramas de barras: muestran los valores de las frecuencias absolutas sobre un


sistema de ejes cartesianos, cuando la variable es discreta o cualitativa.
 Histogramas: formas especiales de diagramas de barras para distribuciones
cuantitativas continuas.
 Polígonos de frecuencias: formados por líneas poligonales abiertas sobre un sistema de
ejes cartesianos.
 Gráficos de sectores: circulares o de tarta, dividen un círculo en porciones
proporcionales según el valor de las frecuencias relativas.
 Pictogramas: o representaciones visuales figurativas. En realidad son diagramas de
barras en los que las barras se sustituyen con dibujos alusivos a la variable.
 Cartogramas: expresiones gráficas a modo de mapa.
 Pirámides de población: para clasificaciones de grupos de población por sexo y edad.

ANALISIS DESCRIPTIVO DE DATOS DE UNA SOLA VARIABLE

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o


generalizar resultados de una muestra a una población. Se estudia en particular a un
reducido número de individuos a los que tenemos acceso con la idea de poder generalizar
los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se
efectúa por medio de métodos estadísticos basados en la probabilidad.
La población representa el conjunto grande de individuos que deseamos estudiar y
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que reúne
unas características determinadas.

La muestra es el conjunto menor de individuos (subconjunto de la población accesible y


limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener
conclusiones generalizables a la población ). El individuo es cada uno de los componentes
de la población y la muestra. La muestra debe ser representativa de la población y con ello
queremos decir que cualquier individuo de la población en estudio debe haber tenido la
misma probabilidad de ser elegido.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas
podemos señalar 3:

a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos


tiempo.

b.Como consecuencia del punto anterior ahorraremos costes.

c. Estudiar la totalidad de los pacientes o personas con una característica


determinada en muchas ocasiones puede ser una tarea inaccesible o imposible
de realizar.

d.Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las


observaciones y mediciones realizadas a un reducido número de individuos
pueden ser más exactas y plurales que si las tuviésemos que realizar a una
población.

e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de


una población al indicar los criterios de inclusión y/o exclusión.

Tipos de datos

Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso,
talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en
cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables
incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a
cada variable.

La naturaleza de las observaciones será de gran importancia a la hora de elegir el método


estadístico más apropiado para abordar su análisis. Con este fin, clasificaremos las
variables, a grandes rasgos, en dos tipos 3-5: variables cuantitativas o variables cualitativas.
a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o
expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos:

 Variables cuantitativas continuas, si admiten tomar cualquier valor


dentro de un rango numérico determinado (edad, peso, talla).

 Variables cuantitativas discretas, si no admiten todos los valores


intermedios en un rango. Suelen tomar solamente valores enteros
(número de hijos, número de partos, número de hermanos, etc).

b.Variables cualitativas. Este tipo de variables representan una cualidad o


atributo que clasifica a cada caso en una de varias categorías. La situación más
sencilla es aquella en la que se clasifica cada caso en uno de dos grupos
(hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o
binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación
no es suficiente y se requiere de un mayor número de categorías (color de los
ojos, grupo sanguíneo, profesión, etcétera).

En el proceso de medición de estas variables, se pueden utilizar dos escalas:

 Escalas nominales: ésta es una forma de observar o medir en la que


los datos se ajustan por categorías que no mantienen una relación de
orden entre sí (color de los ojos, sexo, profesión, presencia o
ausencia de un factor de riesgo o enfermedad, etcétera).
 Escalas ordinales: en las escalas utilizadas, existe un cierto orden o
jerarquía entre las categorías (grados de disnea, estadiaje de un
tumor, etcétera).
Estadística descriptiva

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos),
procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el
sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías,
reflejando habitualmente el porcentaje que representan del total, y expresándolo en una
tabla de frecuencias.

Para variables numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:

a. ¿Alrededor de qué valor se agrupan los datos?

b.Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy


concentrados? ¿muy dispersos?

a. Medidas de tendencia central


Las medidas de centralización vienen a responder a la primera pregunta. La medida más
evidente que podemos calcular para describir un conjunto de observaciones numéricas es su
valor medio. La media no es más que la suma de todos los valores de una variable dividida
entre el número total de datos de los que se dispone.

Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80. La media de edad de estos sujetos será de:

Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la
variable en cuestión, el valor medio vendrá dado por:
Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la
observación equidistante de los extremos.

La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima
de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor
observamos la secuencia:

15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los
dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media
de estos dos valores nos dará a su vez 60, que es el valor de la mediana.

Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es


muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible
a dichos cambios.

Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda,
siendo éste el valor de la variable que presenta una mayor frecuencia.

En el ejemplo anterior el valor que más se repite es 60, que es la moda


b. Medidas de dispersión
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos
es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad. De
todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los cuadrados
de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por
tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide
la variable estudiada.

En el ejemplo anterior la varianza sería:


Sx2=

La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la


distribución y se expresa en las mismas unidades de medida de la variable. La desviación
típica es la medida de dispersión más utilizada en estadística.

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la


estadística nos interesa para realizar inferencias poblacionales, por lo que en el
denominador se utiliza, en lugar de n, el valor n-1.

Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:

Aunque en muchos contextos se utiliza el término de desviación típica para referirse a


ambas expresiones.

En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como
denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el
resultado seria 21,79.

El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta
segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la
población y posee las propiedades que necesitamos para realizar inferencias a la población.

Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la
amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el
menor de la distribución.

Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad más importantes, conviene destacar algunas características
de la varianza y desviación típica:

 Son índices que describen la variabilidad o dispersión y por tanto cuando los
datos están muy alejados de la media, el numerador de sus fórmulas será grande
y la varianza y la desviación típica lo serán.

 Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación


típica. Para reducir a la mitad la desviación típica, la muestra se tiene que
multiplicar por 4.

 Cuando todos los datos de la distribución son iguales, la varianza y la desviación


típica son iguales a 0.

 Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier
cambio de valor será detectado.

Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de
dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la
media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar
la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos el peso de 5
pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica (s) =
10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166
mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa,
el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la
desviación típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar
dos variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variación:

CV de la variable peso =

CV de la variable TAS =

A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre
cuando los valores de su media y mediana están próximos), se usan para describir esa
variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y
la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además
los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición.
El percentil es el valor de la variable que indica el porcentaje de una distribución que es
igual o menor a esa cifra.

Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de
sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que
dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos por
tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3).