Sei sulla pagina 1di 10

Grupo 7

2 y 4 de febrero

Tema 3. VARIABLES CUANTITATIVAS. PARMETROS Y ESTADSTICOS


Las variables numricas cuantitativas, cuyos valores pueden ser ordenados ya que se miden
numricamente, pueden ser:
- Discretas
- Continuas

VARIABLES NUMRICAS DISCRETAS


Las variables discretas son variables numricas que no se pueden dividir.
Grficamente, se representan mediante:
- Diagramas de barras: entre las barras se deja un hueco que indica que no existen
valores intermedios posibles (no se puede tener 2,5 hijos). Los diagramas de barras
suelen ser ms adecuados para representar variables cualitativas o cuantitativas
discretas.

Diagramas de sectores: suelen ser adecuados para comparar variables en trminos de


porcentajes. Tambin se utilizan para comparar los valores que adopta una variable en
diferentes poblaciones.

VARIABLES NUMRICAS CONTINUAS


Las variables continuas pueden representar cualquier valor numrico. Destacan en el rea de
la salud ya que permiten medir gran cantidad de indicadores biolgicos (talla, peso).
Las variables continuas tienden a ser tratadas como variables discretas, con un nivel de detalle
variable y seleccionable (se puede elegir el n de decimales a tener en cuenta).
A partir de los datos brutos o simples, se realizan tablas de frecuencia:
1. Se organizan varias clases o categoras (tantas como sea conveniente, aunque se suele
calcular la raz cuadrada del nmero total de datos para saber cuntas clases se
podran hacer). La amplitud de las clases puede variar, pero es conveniente que todas
tengan la misma amplitud para que la representacin grfica sea ms sencilla y exacta.
Los lmites de cada clase tienen la misma precisin que la medida con la que se han
tomado los datos brutos (mismo n de decimales).
2. Se establecen las fronteras de cada clase, para precisar qu valores se incluyen en cada
clase. La frontera superior es el punto medio entre el lmite superior (LS) de la primera
clase y el lmite inferior (LI) de la siguiente clase.
3. Se calculan las marcas de clase, que son el punto medio entre fronteras.
4. Se calcula la frecuencia absoluta, que es el nmero de sujetos que se incluye en cada
clase.
5. Se calcula la frecuencia relativa, que es la proporcin de sujetos que se encuentran en
cada clase en relacin con el total.
6. Se calcula la frecuencia acumulada, que es el nmero de sujetos que se incluyen hasta
el momento (la suma de los datos de una clase ms los que se encuentran en la
anteriores).

Grficamente, se representan mediante:


- Diagramas de tallo hojas
- Histograma y polgono de frecuencias
- Diagrama de cajas

Diagramas de tallo hojas


A partir de una lista de distintos valores en bruto para una variable, se elabora un diagrama
donde los datos se colocan de la siguiente manera: se busca el valor ms bajo y el valor ms
alto que adopta la variable y se colocan en los extremos de una lnea vertical, en el lado
izquierdo. Entre ellos se aaden valores intermedios, que formarn el tallo. De este tallo, en
el lado derecho de la lnea, saldrn las hojas, que harn referencia a los decimales
encontrados en la investigacin para cada nmero entero del tallo.
En algunos casos, se puede encontrar el mismo valor dos veces en el tronco. La diferencia
estar en un asterisco, que permitir separar los decimales correspondientes a dicho nmero
en dos filas. Ejemplo: 13 = 13,0-13,4 13*= 13,5-13,9.

De este modo, se puede observar en un golpe de vista cmo se distribuyen los valores ms
frecuentes y los ms extremos. Adems, el diagrama de tallo hojas sirve para calcular
percentiles.
En este diagrama, la frecuencia acumulada se
representa en la columna de profundidad.
Se inicia desde el extremo superior e inferior,
sumando los valores correspondientes
separadamente y en cada uno de los dos
sentidos hasta llegar a la mediana. En la
mediana se indica slo la frecuencia absoluta
de la clase a la que corresponde.

Histograma y polgono de frecuencias


Se realiza a partir de una tabla de frecuencias (absolutas o acumuladas). Las barras en un
histograma se colocan pegadas, ya que las variables pueden tomar cualquier valor. Cada
intervalo de clase se divide en subclases. Tiene sentido realizarlo cuando todas las clases
tienen la misma amplitud.

El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad
(porcentaje o frecuencia) de individuos en el intervalo, es decir, el rea de cada barra es
proporcional a la frecuencia de su clase (esto sucede cuando todas la clases tienen la misma
amplitud) y la altura de la barra coincide con la frecuencia. El rea total del histograma es
siempre 1, y resulta de la suma de la frecuencia relativa de todas las clases.
Si las bases no son de igual amplitud, la altura de la barra no coincide con la frecuencia o
porcentaje de la base.
Sobre el histograma, se unen los puntos medios de cada columna o clase, lo que resulta en un
polgono de frecuencias. El rea bajo el polgono de frecuencias es la misma que el rea bajo el
histograma.

En el caso de las frecuencias absolutas, el resultado es el siguiente:

En el caso de las frecuencias acumuladas, en cuyo caso el polgono de frecuencias toma el


nombre de ojiva, el resultado es el siguiente:

Para calcular porcentajes o proporciones para un valor determinado de la variable situado en


uno de los ejes (11,95), se dibuja una lnea paralela a dicho eje que corta en el eje contrario,
obteniendo el valor correspondiente. La funcin permite calcular el nmero acumulado de
individuos por debajo de un determinado valor, por lo que es muy til para calcular
percentiles.

Diagrama de caja (Tukey)


El diagrama de es una representacin que, mediante 5 datos (mnimo, cuartiles y mximo),
intenta resumir toda la informacin. Suelen dar una buena idea de la distribucin.

La zona central (caja) contiene al 50% central de las observaciones y sus lmites son el primer
cuartil (percentil 25) y el tercer cuartil (percentil 75). Su tamao se llama rango intercuartlico
(R.I.). En el centro de la caja se representa una raya vertical, la mediana o percentil 50. Muchas
veces, los bigotes no llegan hasta los extremos, no se separan ms de la caja de 1,5 RI
Los extremos o bigotes pueden representar:
a) El valor mnimo y el mximo

0.04
0.02

densidad

0.06

0.08

Diagrama de cajas de Tukey: Resumen en 5 nmeros

P25

P50

P75

Mx.

0.00

Mn.

40

45

50

55

60

65

Velocidad (Km/h) de 200 vehculos en ciudad

b) Una distancia de 1,5 R.I. de cada extremo de la caja. En este caso, los bigotes no llegan
hasta los extremos y los datos situados ms all de esa distancia se consideran
anmalos y as se marcan.

0.03
0.02
0.01

P25

Mn.

P50

P75

Mx.

0.00

densidad

0.04

Diagrama de cajas de Tukey: Resumen en 5 nmeros

80

90

100

110

120

Velocidad (Km/h) de 200 vehculos en autova

130

140

El diagrama de cajas suele aparecer en publicaciones y sirve para comparar tratamientos,


diferencias entre sexos es decir, da una primera aproximacin de si un subgrupo es
llamativamente diferente a otro. El diagrama de cajas y el histograma pueden aparecer
superpuestos.

PARMETROS Y ESTADSTICOS
Un parmetro es una cantidad numrica calculada sobre una poblacin. La idea es resumir
toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros). Ejemplo: la
altura media de los individuos de un pas.
Un estadstico es una cantidad numrica calculada sobre una muestra. Si un estadstico se usa
para aproximar un parmetro tambin se le suele llamar estimador. Ejemplo: la altura media
de los alumnos de una clase.
Normalmente interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a
toda la poblacin, se calcula un estimador sobre una muestra y se confa en que sean
prximos. Para ello, hay que elegir la muestra de manera que el error se confiablemente
pequeo.

Estadsticos
Hay 4 reas de una distribucin en las que puede ser interesante calcular un estadstico:
- Posicin, localizacin o centralizacin: La localizacin se refiere a la situacin
promedio de los valores de una variable a lo largo de la recta de los nmeros reales.
Se refiere a un valor intermedio o central e implica que pueden existir valores
superiores o inferiores a dicho valor. Indican valores con respecto a los que los datos
parecen agruparse o dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Como una variable continua puede tomar infinitos valores en
cualquier intervalo fijado, se calcula el intervalo en el que se localizan los datos
mediante medidas de localizacin: la media, mediana, moda, los cuantiles, percentiles,
cuartiles, deciles (estos cuatro ltimos dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos).
- Dispersin: La dispersin se refiere al promedio de las distancias de cada dato,
respecto de un valor promedio o central. Por tanto, indican la mayor o menor
concentracin de los datos con respecto a las medidas de centralizacin, es decir,
cunto se alejan los datos de la medida de centralizacin. Son la desviacin tpica,
coeficiente de variacin, rango, varianza
- Forma o centralizacin: Permite calcular si hay mayor cantidad de valores por encima
o por debajo de la mediana o media. Son la asimetra y el apuntamiento o curtosis.

Estadsticos de posicin
Los estadsticos de posicin son los cuartiles, percentiles que no son ms que la divisin en
puntos de una distribucin.
-

Cuantil: se define el cuantil de orden como un valor de la variable por debajo del
cual se encuentra una frecuencia acumulada . Por tanto, indica el valor de la variable

por debajo del cual se encuentra una proporcin (tanto por 1) determinada. Casos
particulares son los percentiles, cuartiles, deciles, quintiles
Ejemplo: El cuantil de orden 0,36 permite expresar un valor que deja un 36% de los
valores por debajo. El cuantil 0,5 coincide con la mediana (50%).
-

Percentil: resulta de la divisin de una distribucin en 100 grupos (percentil de orden k


= cuantil de orden k/100). Indica el valor de la variable por debajo del cual se
encuentra un porcentaje determinado de observaciones. El percentil 50 es la mediana.
El percentil de orden 15, deja por debajo el 15% de los casos y el 85% por encima

Cuartil: resulta de la divisin de la muestra en 4 grupos con frecuencias similares.


o Primer cuartil = percentil 25 = cuantil 0,25
o Segundo cuartil = percentil 50 = cuantil 0,5 = mediana
o Tercer cuartil = percentil 75 = cuantil 0,75

Esta informacin sobre percentiles y cuartiles es de utilidad para presentar los datos en
diagramas de cajas o de Tukey.
-

Media (mean): Es la media aritmtica (promedio) de los valores de una variable. Es la


suma de los valores dividido por el tamao muestral.
Es un buen indicador cuando los datos se concentran simtricamente con respecto a
ese valor, pero es muy sensible a valores extremos. Por eso es til observar a la vez la
media y la mediana para as poder comparar si toman valores muy diferentes. Es el
centro de gravedad de los datos.

x
i

Ejemplo: la media de 2, 2 ,3, 7 es (2+2+3+7)/4=3,5


-

Mediana (median): es un valor que divide a las observaciones en dos grupos con el
mismo nmero de individuos (percentil 50), es decir, el valor que divide en dos partes
iguales la distribucin. Si el nmero de dato es par, se elige la media de los dos datos
centrales.
No es sensible a valores extremos, por lo que es conveniente cuando los datos son
asimtricos.
Ejemplo 1: la mediana de 1, 2, 4, 5, 6, 6, 8 es 5
Ejemplo 2: la mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5

Moda (mode): es el valor o los valores donde la distribucin de frecuencia alcanza un


mximo, es decir, los que ms se repiten.
Ejemplo: la moda de 1, 2, 4, 5, 6, 6, 8 es 6

Estadsticos de dispersin o variabilidad


Los estadsticos de dispersin miden el grado de dispersin (variabilidad) de los datos,
independientemente de su causa. Miden los diferentes valores que puede tomar una variable.
Las razones que llevan a la existencia de datos diferentes se denominan fuentes de
variabilidad. Ej: los estudiantes, partiendo del mismo nivel de conocimiento, obtienen
calificaciones diferentes. Esto se debe a las fuentes de variabilidad (diferencias individuales,
variabilidad por azar).
Encontramos diferentes medidas de dispersin:
-

Amplitud o rango (range): es la diferencia entre observaciones extremas, es decir,


entre el valor mximo y el mnimo. Es muy sensible a los valores extremos.
Ejemplo: el rango de 2, 1, 4, 3, 8, 4 es (8-1)=7

Rango intercuartlico (interquartile range): es la distancia entre el primer y el tercer


cuartil. Es parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores, por lo que no es tan sensible a valores extremos.
R. I = P75 P25

Varianza (variance): mide el promedio de las desviaciones (al cuadrado) de las


observaciones con respecto a la media y representa cun lejos se encuentra un valor
de la media. Sus unidades son el cuadrado de las de la variable. Es sensible a valores
extremos. Se calcula restando la media al valor conocido, elevndolo al cuadrado y
dividindolo por n.
2 =

1
( )2

Desviacin tpica o estndar (standard deviation): es la raz cuadrada de la varianza y


representa cun lejos se encuentra un valor de la media como media. Tiene la misma
dimensionalidad (unidades) que la variable.
= 2
A una distancia de una desviacin tpica de la media hay ms de la mitad de los datos
(68% aprox.). A una distancia de dos desviaciones tpicas de la media se incluyen casi
todos los datos (95% aprox.).

Coeficiente de variacin o variabilidad relativa: es la razn entre la desviacin tpica y


la media. Representa qu tamao tiene la desviacin tpica respecto a la media. Es
frecuente mostrarla en porcentajes.
=

Es una cantidad adimensional (no tiene unidades), interesante para comparar la


variabilidad de diferentes variables. No debe usarse cuando la variable presenta
valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

Estadsticos de forma
-

Asimetra o sesgo: una distribucin es simtrica si la mitad izquierda de su distribucin


es la imagen especular de su mitad derecha (distribucin gaussiana).
En las distribuciones simtricas, media y mediana coinciden y, si slo hay una moda,
tambin coincide. Por lo tanto, las discrepancias entre las medidas de centralizacin
son indicacin de asimetra. La asimetra es positiva o negativa en funcin de a qu
lado se encuentra la cola de distribucin. En resumen:
o La distribucin de los datos es simtrica si la mediana y la media coinciden
(media = mediana)
o La distribucin tiene asimetra izquierda o de signo negativo cuando la
mediana es mayor que la media (media < mediana)
o La distribucin tiene asimetra derecha o de signo positivo cuando la mediana
es menos que la media (media > mediana).

Hay diferentes estadsticos que sirven para detectar la asimetra. Pueden estar
basados en diferencias entre estadsticos de tendencia central (media, mediana,
moda), en la diferencia entre el 1 y el 2 cuartiles y el 2 y el 3 o en desviaciones
consigo al cubo con respecto a la media (calculadas por el ordenador).
El coeficiente de asimetra resta la moda a la media y la divide por la desviacin
estndar. En funcin del signo del estadstico diremos que la asimetra es positiva o
negativa.
o En las distribuciones simtricas, la asimetra es nula, ya que la moda coincide
con la media.
o En las distribuciones asimtricas negativas o de asimetra izquierda, la moda es
mayor a la media, por lo que el resultado ser negativo.
o En las distribuciones asimtricas positivas o de asimetra derecha, la moda es
menor que la media, por lo que el resultado ser positivo.

Apuntamiento o kurtosis: indica el grado de apuntamiento (aplastamiento) de una


distribucin con respecto a la distribucin normal o gaussiana. Es adimensional.
Segn el valor del coeficiente de Fisher (g2), en la distribucin se pueden distinguir tres
tipos de distribuciones:
o Leptocrtica (apuntada): Los valores estn muy ajuntados, por lo que se
concentran en una zona ms estrecha (ej. edad de los estudiantes de la clase).
g2>3 curtosis > 0
o Mesocrtica (como la normal): g2=3 curtosis = 0
o Platicrtica (aplanada): Los valores estn muy separados, por lo que se
observa un apuntamiento mayor g2<3 curtosis < 0
=1( )4

2 =
4

Apuntada

1.5

0.3

0.8

0.5

0.1

1.0

0.2

0.6
0.4
0.2

x s
68 %

x s

0.0

57 %

-1

0.0

x s
82 %
0.0

-2

Aplanada

2.0

Apuntada como la normal

-3

-2

-1

0.0

0.2

0.4

0.6

0.8

1.0

Potrebbero piacerti anche