Sei sulla pagina 1di 24

1

T. 4 Estadsticos de dispersin

1. Variables categricas: la razn de variacin y el ndice de variacin


cualitativa.
2. Variables ordinales: el rango y el rango intercuartil.
3. Variables cuantitativas: la varianza, la desviacin tpica y el coeficiente de
variacin.

En diversos textos de Estadstica se hace referencia a la dispersin o variabilidad como la razn de


ser de esta disciplina; por ejemplo, de Veaux, Bock y Velleman (2003) afirman de forma rotunda en
su manual Intro Stats lo siguiente: Statistics is about variation.. En efecto, si no existi
ese
heterogeneidad o dispersin en las variables que estudiamos, sera muy fcil resumir la informacin
de las mismas, no haciendo ninguna falta los mtodos estadsticos.

Origen de la variabilidad: la dispersin en los valores de los sujetos en una variable puede deberse
a diferentes causas, a las cuales se suele hacer referencia como fuentes de variabilidad de los datos
en la variable. Por ejemplo, la variabilidad en las calificaciones de Anlisis de los estudiantes del
grupo E del curso 05/06 en septiembre (ver histograma), a qu puede deberse? En este caso, una
fuente de variabilidad fundamental ser el conocimiento y dominio de la materia. Es de esperar que
diferencias individuales en este aspecto sean la principal causa de la dispersin existente en l
as
calificaciones de la asignatura.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
2
- Ahora bien, suponiendo que todos los alumnos hubieran tenido el mismo dominio y nivel de
conocimientos de la asignatura, es de esperar que las notas hubiesen sido las mismas?

- Otras posibles fuentes de variabilidad: lo bien que se haya dormido la noche antes del examen,
la capacidad para afrontar situaciones estresantes, la habilidad para responder al tipo
de
preguntas planteadas en el examen (objetivas, abiertas), la fiabilidad y validez del instrumento
de medida (el examen), cmo nos haya sentado el desayuno o comida previa al examen, etc.

A continuacin se presentan una serie de ndices estadsticos y representaciones grfi


cas
orientados a describir cul es la dispersin de una variable.

Ejemplo: Los siguientes polgonos de frecuencias suavizados muestran grficamente l


a
distribucin de una misma variable (X) en dos grupos distintos de sujetos (A y B), cul de
los dos grupos tiene mayor variabilidad en dicha variable?

1. Variables categricas: la razn de variacin y el ndice de variacin cualitativa.

1.1. La razn de variacin (RV)

Se obtiene a partir de la siguiente expresin, donde nMo representa la frecuencia absoluta de la


categora de la variable que sea la moda:
nMo
RV 1
n

La RV indica el grado en que los valores observados en la muestra no coinciden con el de la moda
.
Cuanto ms prximo sea nMo a n, ms cercano a 0 ser RV, indicando que el valor de muchos caso
s
coincide con el de la moda (=> poca dispersin). Cuanto menor sea la frecuencia absoluta de
la

Xi Frec. absoluta (ni Frec. relativa (pi) Gabriel Molina y Mara F. Rodri
go 0 12 0,24
1 10 0,2 Estadstica descriptiva en Psicolo
ga 2 10 0,2
Curso 2009-2010
3 18 0,36 3
moda re 50 1,00 specto al tamao de la muestra y
, por lo tanto, mayor la frecuencia absoluta de otros valores
que no son la moda, Xms
i Frec.
prximo a 1absoluta
ser RV(n(=>
i) Frec.dispersin).
mucha relativa (pi) Porcentaje (%i)
soltero/a 15 0,3 30
casado/a 20 0,4 40
Ejemplo: Sea la variable
separado/a Religin
11que se profesa [Codificacin:
0,22 0: Catlica; 1: Protestante;
22
El valor de la razn de variacin ser igual a: RV 1 50 0.64
2: Otra; 3: Ninguna],
viudo/a de la que se4 han obtenido datos0,08para una muestra de 50 8personas, cuya
distribucin de frecuencias se muestra
50 a continuacin: 1,00 100

18

Ejercicio 1: Obtener la RV en la distribucin de frecuencias de la variable Estado civil que s


e
present en los dos temas previos.

Ejercicio 2: Inventa dos distribuciones de frecuencias para la variable Estado civil en que la RV
sea, respectivamente, tan baja y tan alta como sea posible.
1.2. El ndice de variacin cualitativa (IVC)
1 p2 i

Se obtiene a travs de la siguiente frmula, donde k es el nmero de categoras de la variable y pi


la frecuencia relativa asociada a cada una de ellas:

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
4
k

IVC i1

(k 1) k

El IVC expresa el grado en que los casos2 estn 2dispersos


2 en las diferentes categoras de la variable,
1 (0.24 0.2 0.2 0.36 )
alcanzando su mximo (IVC = 1) en el caso en que las frecuencias relativas sean iguales para todas
las categoras de la variable (caso que se corresponde al de una variable con una distribuci
n
uniforme). El IVC sera igual a 0 cuando la frecuencia relativa de una categora de la variable fuese
igual a 1, esto es, el caso en que todos los casos tuviesen el mismo valor observado en la variable
(dispersin nula).

Ejemplo de obtencin del IVC para la variable categrica Religin que se profesa:

2
IVC 0.98
(4 1) 4

Ejercicio 3: Obtener el IVC de la variable Estado civil.

Ejercicio 4: Inventa dos distribuciones de frecuencias para la variable Religin que se profesa en
que el IVC sea, respectivamente, tan bajo y tan alto como sea posible.

2. Variables ordinales: el rango y el rango intercuartil.

2.1. El rango

Tambin denominado como amplitud, consiste en obtener la diferencia entre el mayor y el menor
valor observado de la variable:
Rango = Mximo M
Xi ni %i na %a
ni 1 23 19,0 23 19 mo
2 36 29,7 59 48,7
3 47 38,9 106 87,6 Ejemplo de obtenci
n d 4 15 12,4 121 100 el rango para la var
iabl 121 100 e con los datos reco
gid os con la pregunta
Ansiedad que siente cuando se encuentra con mucha gente alrededor de un test orientado a
medir la ansiedad (escala de respuesta: 1: Nada; 2: Algo; 3: Bastante; 4: Mucha.).

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Xi ni %i %a Curso 2009-2010
5 2 21 10,5 10,5
3 31 15,5 26
4 36 18 44
5 47 23,5 67,5
6 38 19 86,5
7 27 13,5 100
200 100

Rango = 4 1 = 3

La principal desventaja del rango es que al basarse su clculo en los valores mnimo y mximo, si
la distribucin tiene valores atpicos, su clculo se ver muy influido por los mismos. En est
os
casos, el rango puede proporcionar valores que no sean buenos indicadores de la verdad
era
dispersin de los datos -por ejemplo, en la variable X :{8, 8, 9, 10, 10, 12, 50}, el rango es igual a
42 cuando, en realidad, todos los datos, salvo uno, son bastante homogneos.

Ejercicio 5: Obtener el Rango de la variable obtenida a partir de los datos recogidos con
la
pregunta: Se valora en los empleados la creatividad y la capacidad de creacin de un test
de
cultura organizacional en empresas que se aplic a una muestra de 200 empleados de diferente
s
empresas [1: Muy en desacuerdo; 2: Bastante en desacuerdo; 3: Algo en desacuerdo; 4: Ni
en
desacuerdo ni de acuerdo; 5: Algo de acuerdo; 6: Bastante de acuerdo; 7: Muy de acuerdo]:
En lo que respecta a la interpretacin del rango, tanto ste como el resto de ndices de variabilidad
que se van a tratar a continuacin (exceptuando, parcialmente, el coeficiente de variacin) ofrecen
resultados que no tienen una interpretacin directa en trminos absolutos -qu significa un rango
de 4 o un rango de 10, mucha o poca dispersin?
- El nico caso en que la interpretacin de estos ndices es absoluta es cuando dan igual a
0,
indicando la ausencia de variabilidad en los datos de la variable -caso por otra parte bastante

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
6
excepcional. Valores mayores que 0 indicarn dispersin en los datos, tanto mayor cuant
o
mayor sea ese valor, pero sin existir un techo que nos permita establecer interpretaciones e
n
trminos absolutos.
- La interpretacin de estos ndices depende de la naturaleza de la variable considerada y de la
escala utilizada al ser medida -por ejemplo, un rango de 10 en la variable Peso (kg) en u
na
muestra de personas adultas s que nos da una idea de la variabilidad de esa variable: se trata de
una variable con muy poca dispersin dado que cabra esperar que, en una muestra de personas
adultas, la diferencia entre el valor mximo y el mnimo de peso fuese bastante mayor que 10.
Sin embargo, en otros muchos ejemplos la interpretacin podra resultar mucho ms incierta,
por ejemplo, un rango de 840 milisegundos en la variable tiempo de reaccin para reconocer un
determinado estmulo visual, indica mucha o poca dispersin? Tal vez para alguien co
n
experiencia en experimentos de tiempo de reaccin con estmulos visuales, ese valor de rango
s que le permita interpretar la variabilidad de los datos asociada a ese resultado pero, en caso
de no contar con esa formacin, puede resultar ms que aventurado realizar una interpretacin
al respecto.
- Ahora bien, s que es posible con los mismos realizar interpretaciones en trminos relativos, por
ejemplo, establecer en dos muestras de las que se tiene datos en una misma variable, cul de los
dos tiene una mayor dispersin en sus datos o, tambin, comparar la dispersin de los datos de
una misma variable medida en dos momentos temporales distintos. No olvidar que no tendr
sentido comparar estos ndices de dispersin cuando se obtengan para variables diferentes -tan
solo una salvedad a esta ltima afirmacin:: cuando se trate de variables que estn expresadas
en las mismas unidades y que tenga sentido comparar (por ejemplo, las variables ingresos
y
gastos mensuales para una muestra de consumidores).

2.2. El rango intercuartil

El rango o amplitud intercuartil (RIC) se obtiene como diferencia entre los cuartiles 3 y 1:

RIC = Q3 Q1

Una variante del mismo es el conocido como amplitud o rango semi-intercuartil:

RSIC = (Q3 Q1)/2

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
7
Ambos ndices tienen como ventaja respecto al Rango que no se ven afectados por la existencia
de
valores atpicos en la variable, pues no se obtienen a partir de los dos valores ms extremos
de la
variable sino a partir de dos valores ms centrados como son el Q3 y el Q1.

Ejemplo de obtencin del RIC y del RSIC para la variable Ansiedad que siente cuando se
encuentra con mucha gente alrededor (ver distribucin de frecuencias ms arriba).

RIC = 3 - 2 = 1 RSIC = (3 2)/2 = 0,5

Ejercicio 6: Obtener el RIC y del RSIC de la variable Se valora en los empleados la creatividad y
la capacidad de creacin (ver distribucin de frecuencias ms arriba).
Una representacin grfica de una variable basada en los Q3 y Q1 (y tambin en la mediana), cuy
a
utilizacin est cada vez ms extendida, es el conocido como diagrama de caja y bigotes, el cua
l
ofrece informacin simultanea sobre la posicin y variabilidad de la distribucin de frecuencias de
la variable. Como veremos ms adelante, tambin ofrece informacin sobre la asimetra de
la
distribucin y sobre la posible existencia de valores atpicos en los datos de la variable. Adems e
s
un grfico muy utilizado con la finalidad de comparar grupos.

Como ejemplo, el diagrama de caja y bigotes de la variable Se valora en los empleados


la
creatividad y la capacidad de creacin obtenida a partir de una muestra de 200 empleados d
e
diferentes empresas:
Frecuencia

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
8
El mismo se construye situando la escala de respuesta de la variable en el eje vertical y dibujando
una caja delimitada por la mediana y los cuartiles 1 y 3 (la distancia entre ambos es, precisamente,
el rango intercuartil), y unos bigotes que se extienden hasta los valores ms extremos de la variable
que se encuentren dentro de 1,5 veces la longitud de la caja medida desde los lados de la misma.
Los valores ms all de 1,5 veces la longitud de la caja, cuando existan, se representan por puntos y
suelen indicar valores anmalos (atpicos o extremos) por lo raro de los mismos en relacin
al
grueso de los datos.
Se muestra a continuacin el diagrama de barras de la misma variable a fin de que p
ueda
puntuacin diferencial (di) correspondiente a ese dato ( di i X ). Intuitivamente, el ndice de
compararse con el correspondiente diagrama de caja y bigotes:

50

40

30

20

10

0
2 3 4 5 6 7

"Se valora en los empleados la creatividad y la capacidad de creacin"

Ejercicio 7: Realizar la representacin grfica de la variable Ansiedad que siente cuando s


e
encuentra con mucha gente alrededor con un diagrama de caja y bigotes.

3. Variables cuantitativas: la varianza, la desviacin tpica y el coeficiente de


variacin.

3.1. La varianza y la desviacin tpica

La distancia de los valores de una variable respecto a su media aritmtica ofrece, de for
ma
intuitiva, el fundamento para la propuesta de un ndice de dispersin. Cuanto mayor sean es
as
distancias, ms dispersos sern los datos; cuanto menor, ms homogneos resultarn ser.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
9
Esa distancia de un dato (Xi) respecto a la media es ms conocida en estadstica como desviacin o
X

dispersin ms sencillo basado en este concepto consistira en la obtencin del promedio de la


s
desviaciones ( di ):
i (X X )
i
di d
n
n

Ejemplo de clculo para la variable X: {6, 7, 4, 2, 5, 6}:

(X X ) (6 5) (7 5) (4 5) (2 5) (5 5) (6 0
i
5 ) 0
n 66

La anterior frmula nos planteara una contrariedad importante si la utilizramos como ndice de
dispersin: siempre va a dar 0, sea cual sea el conjunto de datos que consideremos. As, ot

ras
variantes de esa expresin han sido propuestas a fin de superar este inconveniente. Una de ellas ha
sido la desviacin media (DM), la cual se basa en obtener el valor absoluto de todas
las
desviaciones, esto es, transformando en positivas todas aqullas que sean negativas:

i Xi X
DM d
n
n

Ejemplo de clculo para la variable X: {6, 7, 4, 2, 5, 6}, siend di Xi :


X
o
65 75 45 2555 65
XX 8 1,33
DM 66
i

En el caso en que la DM se obtenga a partir de una distribucin de frecuencias:

d
DM
n
Xi X

Tratndose de una buena opcin, la DM ha sido ampliamente desconsiderada en la prctic


a,
bsicamente por resultar poco manejable a nivel algebraico en demostraciones matemticas. Otra
propuesta alternativa que a la postre ha resultado ser la ms utilizado en la prctica consiste
en 2
2 2

Gabriel Molina y Mara F. Rodrigo


2 2 22 2
2 (6 5) (7 5) (4 5) (2Estadstica
5) (5 descriptiva en Psicologa
5) (6 5)
Tiempo (seg) ni pi Curso
16 2009-2010
1 9 3 0,15
10 8 0,4 i X )2
11 6 0,3 (X n
12 2 0,1
13 1 0,05
sX2 2
n (

2
X
i
s d
n

A la expresin del numerador de esta frmula se la conoce en la literatura estadstica como suma
de cuadrados (SC), por lo que la anterior frmula puede quedar expresada como:

sX = SCX / n

Ejemplo de clculo para la variable X: {6, 7, 4, 2, 5, 6}:


2
( iX) 2, 67
sX X
2 n
66
n

- En el caso en que la varianza se obtenga a partir de una distribucin de frecuencias:


2
i i X)
n
elevar al cuadrado las desviaciones. Se trata del ndice de la varianza ( sX o X ):

Ejemplo de clculo de la varianza para la variable Tiempo empleado en completar u


n
laberinto por una muestra de 20 ratas (n = 20):
x

93108116 12 2 131
20
2 2 2 2 2
3 (9 10,5) 8(10 10,5) 6(1110,5) 2(12 10,5) 1(1310,5)
20

Una frmula alternativa en el clculo de la varianza a partir la informacin de una distribucin de


2
frecuencias consiste en sumar el producto de cada desviacin al cuadrado por su frecuen
cia
relativa:

sX p i ( X i X )2

Ejercicio 8: Obtener la DM, sX y sX de una variable cuantitativa X para la que se han obtenido los
Gabriel Molina y Mara F. Rodrigo
Estadstica descriptiva en Psicologa
Curso 2009-2010
1
Ejemplo para la variable Tiempo empleado en completar un laberinto:
2 2 2 2 2 2 2
s 0,15(9 10,5) 0, 4(10 10,5) 0,3(1110,5) 0,1(12 10,5) 0,05(13 10,5) 1,05 seg

Al calcular la varianza de una variable, las unidades del valor resultante son el cuadrado de
la
unidad de medida de la variable en cuestin, lo cual complica la interpretacin del mismo.
La
desviacin tpica/estndar ( sX o X ), al obtenerse como raz cuadrada de la varianza, ya no tiene este
X 10,5seg
inconveniente pues la unidad en que se exprese ser la misma que la de la variable a partir de la que
se haya obtenido.
sx2 1,05seg2
sX sX

Ejemplo de clculo de la desviacin tpica para la variable Tiempo empleado en completar


un laberinto:

sX 1, 05 1, 02 seg
2
2

siguientes datos para un grupo reducido de 7 sujetos: X: {6, 7, 4, 3, 5, 4, 6}

Ejercicio 9: Inventar 2 conjuntos de 6 datos (valores enteros entre 0 y 10, se pueden repetir) cada
uno con X =7 pero diferente sx.
Ejercicio 10 Inventar 5 datos (valores enteros entre 0 y 10, se pueden repetir), que tengan
Sx
mnima (diferente de 0).

Ejercicio 11 Inventar 6 datos (valores enteros entre 0 y 10, se pueden repetir), que tengan
Sx
mxima.

Una particularidad de la desviacin estndar es que si tenemos una variable cuya distribucin de
frecuencias se ajusta a la curva normal (campana de Gauss), entonces resulta ya conocido
el
porcentaje de casos cuyos valores observados quedan entre los valores X k veces la sx.
P Nombre variable N Mnimo Mximo Rango Media Desv. tp. CV or
Peso_G1 5 70 81 11 75,00 4,18 5,57 ejemplo, si k =
Peso_G2 5 59 94 35 75,20 14,55 19,35
1 PesoElef_G3 5 4800 5100 300 4960,00 119,37 2,40 (es decir, la m
e PesoElef_G4 5 4200 6800 2600 5180,00 1028,1 19,85 dia una vez e
Altura_G5 5 1,68 1,77 0,09 1,72 ,036 2,12
l valor de la desv
Altura_G6 5 1,45 1,98 0,53 1,74 ,227 13,04
i acin tpica), p
odemos afirmar que
el 68% de los sujetos tendrn sus valores en esa variable entre los valores X 1 sx. Grficamente,
para k = 1, 2 y 3 en una variable X distribuida normalmente:

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1

X 1 sx X + 1 sx X 2 sx X + 2 sx X 3 sx X + 3 sx

Ejercicio 12: Tras haber recogido datos de estatura para un grupo de 500 sujetos, se ha obtenido
2
que la media es igual a 170 cm y la varianza igual a 81 cm . Sabiendo que la distribucin de
la
variable se ajusta a la curva normal: (1) entre qu valores de estatura estn el 68% central de los
sujetos?; (2) el 99,7 % central de los sujetos mide entre ... y ... ; (3) cuntos sujetos miden entr
e
161 y 179 cm?

3.2. El coeficiente de variacin

La varianza o la desviacin tpica nos permiten comparar la dispersin de diferentes distribuciones


de frecuencias obtenidas para una misma variable en diferentes grupos de sujetos. Por ejemplo, las
desviaciones tpicas de las variables Peso_G1 (=4,18) y Peso_G2 (=14,55) evidencia la diferente
variabilidad de la variable Peso en los dos grupos en que ha sido medida (ver datos origina
les
debajo de la tabla de estadsticos).

Peso_G1 (kg.): {73, 77, 81, 74, 70} Peso_G2 (kg.): {65, 94, 86, 72, 59}
PesoElef_G3 (kg.): {4800, 4950, 5100, 4900, 5050} PesoElef_G4 (kg.): {4200, 5500, 6800, 4500, 4900}
Altura_G5 (m.): {1,70, 1,72, 1,77, 1,75, 1,68} Altura_G6 (m.): {1,45, 1,56, 1,98, 1,91, 1,80}

Esa misma diferencia en variabilidad tambin se puede observar en los datos de los dos grupos en
que fue medida la variable Altura (Altura_G5 y Altura_G6), ponindose de manifiesto como

Gabriel Molina y Mara F. Rodrigo


100XCV Estadstica descriptiva en Psicologa
urso 2009-2010
1
los valores de la desviacin estndar estn intrnsecamente vinculados a la escala de medida de la
variable considerada. As, para la variable Altura son aparentemente bajos los valores de Sx, e
n
comparacin con los obtenidos para la variable Peso (Peso_G1 y Peso_G2), aun cuando en el
grupo G6 existe una dispersin considerable en los valores observados de Altura, tal como se pone
de manifiesto si observamos los datos originales de esta variable para ese grupo. Parece obvio que
no resulta coherente comparar la dispersin de variables de diferente naturaleza con coeficientes
que se expresan en las mismas unidades que las de las variables.
Incluso la comparacin de la variabilidad para diferentes subgrupos en una misma variable puede
resultar desacertada en algunos casos al hacerla con la desviacin tpica, en concreto, cuando s
e
trate de subgrupos con medias bastante distintas en la variable en cuestin. Ello es debido a q
ue
suele haber en las variables una asociacin entre la posicin de los datos y su dispersin: posicin
mayor => variabilidad mayor. A modo de ejemplo, si miramos en la tabla las desviaciones tpicas
para la variable Peso medida en dos grupos de elefantes (PesoElef_G3 y PesoElef_G4), s
e
observa como son valores muy elevados, por lo menos en comparacin con los obtenidos con los
dos grupo s de personas. Sin embargo, si nos
fijamos e Ciudad A Ciudad B n los datos originales correspondient
X = 24000 X = 15000
es a Sx = 3300 Sx = 2900
PesoElef_G3, se pone de manifiest
o como, en realidad, se trata de un conjunto de datos muy
homogneo para lo que sera de esperar para una muestra de elefantes. Conclusin
, si
comparramos las desviaciones tpicas correspondientes a PesoElef_G3 y Peso_G2 podramos
llegar a conclusiones totalmente equvocas.

Este problema de la comparacin de la variabilidad de subgrupos con medias bien distintas puede
soslayarse a travs de un ndice propuesto por K. Pearson, el coeficiente de variacin (CVX), el cual
relativiza el peso de la desviacin tpica dividindola por la media (en consecuencia, no tie
ne
unidades):
SX
X

En la prctica, el CV puede tomar cualquier valor por encima de 0, ahora bien, tal como sealan
Solanas et al. (2005), es habitual que no pase de 100 y valores por encima pondran de manifiesto
una dispersin excepcionalmente alta en los datos. En ese caso, se aconseja indagar las fuentes de
variabilidad de los datos, pues podra existir algn tipo de error o sesgo en la recogida de los datos
que diera lugar a una dispersin tan elevada.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1
Como se puede observar en la tabla de estadsticos para nuestro ejemplo, los resultados del CV son
ms acordes a la realidad de los datos, por lo que se pone de manifiesto su conveniencia a la hora de
comparar la variabilidad de subgrupos con medias diferenciadas. Es ms, al tratarse de
un
coeficientes adimensional, puede resultar tambin til para comparar la dispersin de variable
s
distintas -cuando ello tenga sentido-, como podra ser el caso de las variables de Altura respecto a
las de Peso en nuestro ejemplo.

Ejercicio 13: Obtener todas las medidas de dispersin presentadas en este tema para la variable N
de hijos a partir de la distribucin de frecuencias de los datos:
Xi
0 40
1 80
2 60
3 20

Ejercicio 14: Tenemos datos sobre el gasto anual en nuevas tecnologas en los colegios pblicos de
2 ciudades En cul de las 2 ciudades presenta ms dispersin esta variable? (Aplquese el ndice
ms apropiado para este caso)

3.3. Algunas anotaciones sobre los ndices de dispersin orientados a variables cuantitativas

Al estar basados en la media, se hace extensible a los mismos lo que se coment al tratar e
ste
ndice, en concreto, su sensibilidad a valores anmalos o atpicos, valores que se apartan en exceso
del grueso de los valores (=> distribuciones de frecuencias muy asimtricas), por lo que
se
recomienda en estos casos no aplicarlos.

Anlogamente a lo que ocurre con la media y que ya comentamos en el tema precedente,


la
varianza, la desviacin tpica y el CV tambin son aplicados en la prctica a variables ordinales. Ya
se vio entonces, los pros y los contras de tal uso.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1

No se debe olvidar, como ocurra en el tema precedente y ocurrir en otros sucesivos, que l
os
ndices presentados para un determinado tipo de variable, tambin son aplicables para variables de
orden superior -por ejemplo, los ndices presentados para las variables categricas se pueden aplicar
a los tipos de variables tratadas a posteriori.

3.4. Visualizacin grfica de la dispersin con variables cuantitativas

Al igual que con las variables ordinales, el diagrama de caja y bigotes resulta tambin
adecuado como representacin grfica de la posicin y dispersin de variables cuantitativas.
En variables cuya distribucin contiene valores atpicos, el diagrama de caja y bigotes ofrece
una identificacin inequvoca de los mismos (los puntos que van ms all de los bigote
s,
esto es, los casos cuyo valor en la variable es superior a 1,5 veces el RIC ms el Q3, o bien,
los casos cuyo valor es inferior a 1,5 veces el RIC menos el Q1).

Ejemplo de diagrama de caja y bigotes con una distribucin de frecuencias con valores atpicos
(variable Salario actual para los 474 empleados de una empresa de servicios). Se muestr
a
tambin el histograma de la misma variable a fin de que pueda compararse co
n el
correspondiente diagrama de caja y bigotes

$140.000
29

$120.000

32

343
$100.000
103
454
431
$80.000 35
66
88
283
387
$60.000 406
348

$40.000

$20.000

$0

Salario actual

Ntese que, dada la presencia de valores tan atpicos en la distribucin de esta variable, n
o
sera adecuado en este caso describir la dispersin de la misma a partir de los ndices
de
dispersin orientados a variables cuantitativas.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1

Una faceta del anlisis estadstico en que los diagramas de caja y bigotes resultan especialmente
convenientes es para comparar la posicin y variabilidad, bien de una misma variable medida e
n
diferentes subgrupos de casos, bien de una misma variable medida en diferentes momen
Salarioactual

tos
temporales. A continuacin se muestra un ejemplo del primer caso, en concreto se trata de
la 161

variable Salario actual para cada una de las tres categoras laborales diferenciadas en una empresa
de servicios:

$140.000
29
$130.000

$120.000

$110.000 32
343
$100.000
Distancia(mm)delcentrodelapituitariaalafisuraptrigo-

$90.000

$80.000 218
$70.000
272
$60.000

$50.000 447
146
$40.000

206
$30.000
386
126
$20.000

$10.000

$0
maxilar

Administrativo Seguridad Directivo


Categora laboral

Otro ejemplo en que se comparan 4 subgrupos de sujetos definidos en funcin de la edad (8,
10, 12 y 14 aos) en la variable Distancia en mm del centro de la pituitaria a la fi
sura
ptrigo-maxilar por medio de un diagrama de caja y bigotes:

32,0

48

30,0

28,0
81

26,0
24,0

22,0
36

20,0
40

18,0

8 10 12 14

Edad en aos

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1

Tambin es posible representar cada uno de los 4 grupos de sujetos mediante un histograma
y comparar los mismos, sin embargo, el diagrama de caja y bigotes ofrece ms ventajas en lo
que al aprovechamiento del espacio grfico se refiere. Adems, se evita el problema de que
cada subgrupo pueda estar representado en una escala diferente, pudindose provocar l
a
percepcin de diferencias no existentes

Ejemplo en que se comparan 2 subgrupos de sujetos en una misma variable (Distancia en


mm. del centro ...) por medio de sendos histogramas:

Si nos fijamos bien no se trata en realidad de 2 subgrupos sino del mismo, lo nico q
ue
cambia de un histograma al otro es la escala del eje horizontal. Ahora bien, una prime
ra
impresin rpida podra habernos conducido a concluir errneamente que los dos subgrupos
tienen una posicin grupal similar, siendo el segundo menos disperso en sus valor
es.
Consecuencia de ello, cuando se plantee utilizar histogramas a la hora de comparar grupos en
una misma variable, se debe tener cuidado de que stos sean representados con la mis
ma
escala en el eje de la variable.

Los diagramas de caja y bigotes los podemos encontrar representados horizontalmente, como es el
caso del que se muestra a continuacin el cual adems aparece superpuesto sobre un histograma de

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1
la misma variable. Ambos muestran grficamente la distribucin de frecuencias de la variabl
e
Altura (cm) para una muestra de sujetos adultos. Destacar que el diagrama de caja y bigotes que
aparece en esta figura es una versin simplificada de la versin original propuesta por John
W.
Tukey que puede encontrarse en algunos manuales de anlisis de datos. Se diferencia del original en
que los bigotes se extienden hasta el valor mnimo y mximo de la distri
bucin,
independientemente de lo alejados que estn de los lados de la caja.
Ejercicio 15: A partir del grfico anterior, decir cules son los valores de los siguientes ndice
s
estadsticos: el mnimo y el mximo, el Q1, la mediana, el P75, la moda, el rango y el RIC.

Ejercicio 16: A continuacin se muestra la distribucin de frecuencias de la variable Antigedad


en la empresa, medida a partir del N de meses desde el contrato para los 474 empleados de una
empresa de servicios. Adems se muestra el diagrama de barras y algunos estadsticos descriptivos
obtenidos con SPSS. A partir de esta informacin: 1) Obtener el diagrama de caja y bigotes.
2)
Decidir cules seran los ndices de dispersin ms adecuados.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
1
Xi ni % %a
0 11 7,33 7,33
1 30 20 27,33
2 41 27,33 54,66
3 27 18 72,66
4 19 12,67 85,33
5 14 9,33 94,66
Ejercicio 17: A 6 5 3,33 98 continuacin se muestra la distribucin de frecuencia
s de la variable N de visitas
7 2 1,33 99,33
al servicio de 10 1 0,67 100 urgencias hospitalario durante el pasado ao, obt
enida para un 150 100 a muestra de 150
sujetos diagnosticados con hipocondra. A partir de sta: 1) dibujar el diagrama de barras y el de
caja y bigotes para esta distribucin de frecuencias. 2) decidir cules seran los ndices de dispersin
ms adecuados para este caso y calcularlos.

Gabriel Molina y Mara F. Rodrigo


Estadstica descriptiva en Psicologa
Curso 2009-2010
2

Referencias:

De Veaux, R. D., Bock, D. E. y Velleman, P. (2003). Intro Stats. Boston: Addison-Wesley.


Pea, D. y Romo, J. (1997). Introduccin a la estadstica para las ciencias sociales. Madr
id:
McGraw-Hill.
Solanas, A., Salafranca, L., Fauquet, J. y Nez, M. I. (2005). Estadstica descriptiva en Ciencias
del Comportamiento. Madrid: Thompson.
Gabriel Molina y Mara F. Rodrigo
Estadstica descriptiva en Psicologa
Curso 2009-2010

Potrebbero piacerti anche