Sei sulla pagina 1di 118

1

"ESTADSTICA DESCRIPTIVA"
1.1 Parte bsica

2
1.1.1 Introduccin a la Estadstica
1.1.1.1 Concepto de Estadstica y Estadsticas
La primera acepcin del trmino "Estadstica", que tiene origen
histrico, hace
referencia a una determinada informacin numrica; esta acepcin se
encuentra cada da
ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros
y cifras en el
que se encuentra inmersa: P. I. B., ndices de precios, tasas de
inflacin, evolucin del
paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de
votantes,
porcentajes de personas que padecen una determinada enfermedad, etc.
Una segunda acepcin entiende la estadstica como una ciencia que
facilita los
mtodos precisos para la obtencin de informacin numrica, y que tambin
proporciona mtodos de anlisis de esa informacin recogida y mtodos de
investigacin aplicables al resto de las Ciencias. La primera se
corresponde bsicamente
con la estadstica descriptiva y la segunda con la estadstica
inferencial.
1.1.1.2 Etapas del anlisis estadstico
Las diversas fases por las que atraviesa el anlisis estadstico son:
a) Recogida de datos, que no por ser elemental, est exenta de
dificultades e
indicaciones que hay que observar, ya que una recogida mal efectuada
puede
ocasionar un sesgo de la informacin y del posterior anlisis, por lo que
el
objeto de la investigacin debe plantearse de una manera minuciosa, as
como
la organizacin del trabajo de campo necesario para la recogida de datos.
b) Ordenacin y presentacin de los datos, y que suele presentarse
mediante
unas tablas de simple o de doble entrada.
c) Resumen de la informacin, para tratar de describir las
caractersticas ms
relevantes que pueden tener los datos, y que se realiza mediante la
determinacin de parmetros estadsticos que intentan resumir toda la
informacin que aporte el conjunto de datos.

3
d) Anlisis estadstico, a travs de mtodos facilitados por la
Estadstica
Matemtica, para tratar de verificar hiptesis sobre regularidades que
pueden
detectarse en las etapas previas.
1.1.1.3 Poblacin y muestra
Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de
individuos o elementos que tienen unas caractersticas comunes.
Dado que no siempre es posible estudiar todos los elementos de la
poblacin, ya
sea por razones econmicas, de rapidez de obtencin de la informacin, o
porque los
elementos se destruyen en el proceso de la investigacin, con frecuencia
es necesario
examinar slo una parte de la poblacin, que se denomina muestra; para
que una
muestra sea vlida como objeto de estudio, ha de ser representativa de la
poblacin, es
decir ha de tener las mismas caractersticas, en los caracteres
estudiados, que la
poblacin.
1.1.1.4 Caracteres de una poblacin
Llamaremos variable al carcter objeto de estudio, que puede tomar
distintos
valores.
Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o
no,
valores cuantificables.
Las variables de tipo cuantitativo, que estudian caracteres
cuantificables, pueden
clasificarse de diversas formas: variables discretas o continuas, segn
que slo puedan
tomar valores aislados o, por el contrario, todos los valores de un
intervalo.
1.1.1.5 Tipos de escalas
En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar
las
variables segn el tipo de escala utilizada, distinguiendo:
. Escala nominal: el carcter estudiado se clasifica en categoras no
numricas, sin que puedan establecerse ninguna relacin de orden entre
ellas,

4
por ejemplo: las profesiones laborales, el estado civil, la ideologa
poltica, el
sexo, etc.
. Escala ordinal: el carcter estudiado es de tipo no numrico, pero se
pueden establecer algn tipo de orden entre las distintas categoras.
Este es el
caso del nivel de estudios (primarios, medios, superiores), los tipos de
clases
sociales (baja, media, alta),etc.
. Escala de intervalo: puede establecerse alguna unidad de medida y
cuantificar numricamente la distancia existente entre dos observaciones.
Es la
escala cuantitativa, encontrndose en este caso gran nmero de variables
entre
ellas, como por ejemplo: salarios, presupuestos, gastos, etc.
. Escala de proporcin: son aquellas variables en las que adems de una
unidad de medida, se fija un punto origen, que marca el cero. En este
tipo
pueden considerarse la edad, el peso, el nmero de unidades en stock en
un
inventario, etc.

5
1.1.2 Variables estadsticas
unidimensionales
1.1.2.1 Distribucin de frecuencias. Clases.
Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de
los
datos obtenidos en la observacin de una muestra o poblacin para as
poder proceder
con ms facilidad a su estudio.
Empezaremos estudiando las frecuencias en sus diversas clases:
. Frecuencia absoluta: es el nmero de veces que se repite cada valor de
la
variable en el conjunto de todas las observaciones de la misma. En
general la frecuencia
absoluta del dato xi se representa por f i
. Frecuencia relativa: es el cociente entre la frecuencia absoluta y el
nmero
total de datos u observaciones. El nmero total de datos lo representamos
por n, y la
frecuencia relativa del dato xi se representa por hi
Se verifica por lo tanto: hi = fi/n
. Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas
de
los valores inferiores o iguales al considerado. Evidentemente los
valores de la variable
deben de estar ordenados en forma creciente.
En general, la frecuencia absoluta acumulada del dato xi se representa
por Fi
Evidentemente, la ltima frecuencia absoluta acumulada coincide con el
tamao de la
muestra.
Se verifica pues: Fi
= f j
j=1
i
!
. Frecuencia relativa acumulada: es el cociente entre la frecuencia
absoluta
acumulada y el nmero total de datos u observaciones. Anlogamente a la
anterior, los
valores de la variable deben de estar ordenados en forma creciente, es
decir, la escala
debe de ser numrica o, al menos, ordinal.

6
La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia
relativa
acumulada del dato xi de la variable se representa por Fi, y verifica:
Hi
=
Fi
n
=
f j
j=1
i
!
n
1.1.2.2 Propiedades de las frecuencias
1 La suma de las frecuencias absolutas coincide con tamao de la
muestra:
f i
i
! = n
2 Todas las frecuencias absolutas son positivas y menores o iguales que
n .
0 = fi = n
3 La suma de las frecuencias relativas es 1:
hi
i
! =1
4 Todas las frecuencias relativas son positivas y menores o iguales que
1:
0 = hi = n
5 La frecuencia absoluta acumulada correspondiente a un valor de la
variable se
obtiene sumando la frecuencia absoluta acumulada del valor anterior, con
la frecuencia
absoluta del dato.
DISTRIBUCIN DE FRECUENCIAS
Llamaremos distribucin de frecuencias al conjunto de los valores que
toma una
variable, junto con sus frecuencias correspondientes. As pues, para
determinar una
distribucin de frecuencias debemos conocer todos los valores xi de la
variable y
cualquiera de las columnas de frecuencias (pues el paso de una a otra es
inmediato).

7
Distinguiremos dos tipos fundamentales de distribucin de frecuencias:
las no
agrupadas en intervalos y las agrupadas en intervalos.
La distribucin de frecuencias no est agrupada en intervalos cuando cada
valor
de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente,
sobre todo en
variables de tipo continuo, que el nmero de valores distintos que toma
la variable es
demasiado grande; en este caso, para mayor comodidad en el tratamiento de
la
informacin, parece aconsejable agrupar esos valores en intervalos,
teniendo en cuenta
que lo que ganamos en manejabilidad lo perdemos en informacin de la
distribucin.
En la agrupacin en intervalos hay que tener en cuenta tres aspectos:
a) Que el mximo de informacin se obtiene en la recogida de datos y
que sta se pierde al agrupar en intervalos.
b) Las distribuciones agrupadas en intervalos no se presentan realmente
as, sino que es el investigador el que las agrupa para manejar mejor los
datos.
c) Al agrupar hay que tener en cuenta las frecuencias.
Un intervalo queda determinado por sus extremos y, en general, el
intervalo isimo
se representa por [Li-1,Li), donde Li es el extremo superior del
intervalo y Li-1 el
extremo inferior del mismo.
Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos
superior
e inferior: ai = Li - Li-1
Esta amplitud puede ser constante para todos los intervalos, o variable,
aunque es
ms cmodo que sea constante.
Cuando un investigador decide agrupar los datos en intervalos se
encuentra con dos
cuestiones iniciales:
1.- Cmo se debe tomar la amplitud, constante o variable?
2.- Cuntos intervalos conviene tomar ?
La respuesta a estas pregunta depende de la naturaleza del problema, y
aunque
hay muchas reglas escritas en los textos de estadstica, en la prctica
suelen resultar
estriles.

8
Posteriormente se hace un recuento de los datos que corresponden a cada
intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un
problema
cuando un dato coincide con alguno de los extremos de los intervalos;
como regla
general, se toman los intervalos cerrados por la izquierda y abiertos por
la derecha [Li1,Li), es decir, se incluirn dentro del intervalo los datos que
coincidan con el extremo
inferior del mismo, y se excluirn de ste los que coincidan con su
extremo superior,
incluidos, por lo tanto, en el intervalo posterior. Para evitar este
problema de incluir o
no incluir los datos en los intervalos, los extremos se suelen tomar con
un decimal ms
que los de los datos, siendo, normalmente este decimal un 5.
Por ltimo cabe destacar que tomaremos como representante de cada
intervalo su
punto medio, que denominaremos marca de clase, y designaremos por ci. As
la marca
de clase del intervalo [Li-1,Li) ser:
ci =
Li!1 + Li
2
EJEMPLO 1.1:
Investigados los precios por habitacin de 50 hoteles de una ciudad, se
han
obtenido los siguientes resultados:
7000 3000 5000 4000 5000 7000 4000 7500
8000 5000 5000 500 3000 7000 10000 15000
5000 7500 12000 8000 4000 5000 3000 5000
10000 3000 4000 5000 7000 5000 3000 4000
7000 4000 7000 5000 4000 7000 10000 7500
7000 8000 7500 7000 7500 8000 7000 7000
12000 8000
Determinar la distribucin de precios:
a) Sin agrupar en intervalos.
b) Agrupadas en 5 intervalos de amplitud constante.
Solucin:
a)
Precio (xi) en miles 3 4 5 7 7.5 8 10 12 15
N de hoteles (fi) 5 7 10 11 6 5 3 2 1

9
b)
Precio en intervalos marca de clase (xi) N de hoteles (fi)
[3000, 5500)
[5500, 8000)
[8000, 10500)
[10500, 13000)
[13000, 15500)
4250
6750
9250
11750
14250
22
17
8
2
1

10
1.1.3 Representaciones grficas
La informacin proporcionada por las tablas de distribucin de
frecuencias es
bastante completa, pero tiene la dificultad de que su lectura requiere un
cierto tiempo y
capacidad de comparacin para relativizar la informacin de unas clases
respecto de las
otras. Adems, en la experiencia del lector, al comenzar a leer un
determinado artculo
(cientfico o no), su vista se dirige primero al ttulo, luego a los
grficos y, finalmente, a
las tablas.
As pues, las representaciones grficas constituyen uno de los
principales y ms
sencillos mtodos de exponer la informacin, por su capacidad de impactar
al lector con
muy poco esfuerzo por su parte, dando una informacin rpida y global de
los datos,
siendo tiles incluso al investigador, pues le permiten tener una idea
general de los
resultados y, a veces, sugerir nuevas hiptesis.
1.1.3.1 Tipos de representaciones grficas
Los diversos tipos de grficos utilizados son:
1 DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DE
FRECUENCIAS NO AGRUPADAS:
En un sistema de ejes de coordenadas cartesianas, se representan en el
eje de
abscisas los valores de la variable, y en el de ordenadas las
frecuencias. Posteriormente,
sobre cada valor de la variable se levanta una barra vertical de altura
proporcional a la
frecuencia, ya sea absoluta o relativa.
Sobre el eje de abscisas la escala de medida puede ser cualquiera y no
coincidir
con la escala del eje de ordenadas. Incluso el cero del eje de abscisas
no tiene porque
coincidir con el cero de la medida utilizada.
EJEMPLO 1.2:
Supongamos una variable X que presenta los siguientes valores :
xi = { a, e, i, o, u }
con las siguientes frecuencias: f1 = 1 f2 = 2 f3 =1 f4 = 3 f5 = 3,
correspondientes a las veces que aparecen dichas vocales en una frase.

11
Construya el diagrama de barras correspondiente y el diagrama de barras
acumulado, o diagrama de escalera.
Solucin:
Podemos presentar entonces la siguiente tabla:
xi fi Fi hi Hi
a 1 1 0,1 0,1
e 2 3 0,2 0,3
i 1 4 0,1 0,4
o 3 7 0,3 0,7
u 3 10 0,3 1
El diagrama de barras correspondiente aparece en la figura 1.1:
.
0
1
2
3
4
VOCALES
a e i o u
FRECUENCIAS
Figura 1.1: Diagrama de brarras
Si lo que queremos representar son las frecuencias acumuladas, se procede
igual
que en el caso anterior con los ejes cartesianos y levantando sobre cada
valor de la
variable, una altura proporcional (igual) a la frecuencia acumulada,
uniendo mediante
trazos horizontales el extremo de cada coordenada con el siguiente; este
diagrama
recibe el nombre de diagrama de escalera (ver figura 1.2).

12
Figura 1.2: Diagrama de barras acumulado. (Diagrama de escalera)
Los grficos de diagrama de barras y de escalera suelen utilizarse en
variables de
tipo cualitativo, o en las de tipo cuantitativo discretas.
2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE
FRECUENCIAS NO AGRUPADAS EN INTERVALOS:
Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en
cada valor de
la variable una ordenada de altura igual a la frecuencia absoluta (o
relativa) de dicho
valor, uniendo a continuacin con una poligonal dichas ordenadas. La
primera ordenada
se une con el cero del eje de abscisas, teniendo en cuenta que si hay
algn valor de la
variable con frecuencia cero tambin ha de ser considerado y unir dicho
dato con los
anteriores.
Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):

13
Figura 1.3: Polgono de frecuencias.
Anlogamente se procedera con las frecuencias acumuladas (ver figura
1.4).
.
VOCALES
FRECUENCIAS ACUMULADAS
5
10
a e i o u
Figura 1.4.: Polgono de frecuencias acumulado.
Estos polgonos de frecuencias se utilizan cuando la variable es de tipo
cualitativo
o cuando es de tipo cuantitativo discreta.
3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS
AGRUPADAS EN INTERVALOS
Se construyen levantando, sobre cada intervalo de la variable, un
rectngulo de
rea proporcional a la frecuencia absoluta de dicho intervalo. Si los
intervalos son de
amplitud constante, las alturas de los rectngulos sern iguales a las
frecuencias
absolutas respectivas, pues al ser las bases iguales las reas son
proporcionales a las
alturas; pero si las amplitudes de los intervalos son diferentes, las
alturas de los
rectngulos deben calcularse dividiendo la frecuencia absoluta por la
longitud del
intervalo; sta se puede representar por ai y vale pues:
ai =
f i
ci
y de esta forma, el rea del rectngulo coincide con la frecuencia:
Si = ai ci =
f i
ci
ci = f i

14
La altura ai correspondera a la frecuencia correspondiente a cada unidad
de
medida de la variable en cada intervalo, y se le conoce a veces, con el
nombre de
densidad de frecuencia del intervalo.
EJEMPLO 1.3:
La distribucin del saldo de imposiciones en las Cajas de Ahorros viene
dada en
la tabla siguiente:
Saldo N provincias
4-6,9
7-8,9
9-14,9
15-29,9
30-59,9
60-99,9
=100
6
7
17
13
4
2
1
Representar el histograma correspondiente
Solucin:
Como los intervalos son de amplitud no constante, hay que calcular las
alturas de
los mismos, obtenindose la siguiente tabla:
intervalos fi alturas Fi hi Hi Grados
4 -6.9 6 2 6 0.12 0.12 43.2
7 -8.9 7 3.5 13 0.14 0.26 50.4
9 -14.9 17 2.8 30 0.34 0.60 122.4
15 -29.9 13 0.8 43 0.26 0.86 93.6
30 -59.9 4 0.1 47 0.08 0.94 28.8
60 -99.9 2 0.05 49 0.04 0.98 14.4
= 100 1 0 50 0.02 1.00 7.2
Total 50 1.00 360.0
que da lugar al histograma de la figura 1.5:

15
Figura 1.5: Histograma. (Saldo de imposiciones en Cajas de Ahorros).
4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE
FRECUENCIAS AGRUPADAS
Para construir este grfico se levanta en el extremo superior de cada
intervalo una
ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas.
La primera
ordenada se une al extremo inferior del primer intervalo, prolongando el
polgono desde
ese punto a la izquierda sobre el eje x, y prolongando tambin por la
derecha a partir del
extremo superior del ltimo intervalo, con una recta paralela al eje de
abscisas. Suele
utilizarse esta representacin sobre todo en el caso de que las
frecuencias sean
acumuladas. En este caso la altura correspondiente al extremo superior
del ltimo
intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si
las frecuencias son
relativas.
EJEMPLO 1.4:
El polgono de frecuencias acumuladas para el ejemplo estudiado de las
distribuciones del saldo de las Cajas de Ahorros viene dado por el
grfico que aparece
en la figura 1.6:

16
Figura 1.6: Polgono de frecuencias acumuladas. (Saldo de imposiciones en
Cajas de Ahorros).
En el caso de representar las frecuencias no acumuladas se procede de
diferente
forma, uniendo los puntos medios de los lados superiores de los
rectngulos del
histograma y prolongando por los extremos hasta cortar al eje X en los
puntos medios
de las bases del primer y del ltimo rectngulo (ver figura 1.7).
5
4
3
2
1
10 20 30 40 50 60 70 80 90 100
x
i
Alturas
Figura 1.7: Polgono de frecuencias. (Saldo de imposiciones en Cajas de
Ahorros).
El rea del polgono cerrado resultante es igual al rea de los
rectngulos
formados mediante el histograma.

17
A veces se representan en el mismo grfico el histograma y el polgono de
frecuencias.
5 DIAGRAMA DE SECTORES
Este caso, en una circunferencia se representan sectores circulares cuyo
ngulo
central coincida con la frecuencia absoluta (no se puede utilizar para
acumuladas) o
relativa del elemento, representando, mediante colores o incluyendo
dentro de dicho
sector el nombre de la clase o elemento a representar. Vale tanto para
frecuencias
agrupadas, como no agrupadas.
Previamente hay que calcular los grados que corresponde a cada elemento
multiplicando la frecuencia correspondiente a cada dato por el cociente
entre 360 y el
total de datos:
gi
= f i
360
n
EJEMPLO 1.5:
Obtener el grfico de sectores correspondiente a los datos anteriores de
las cajas
de ahorros:
Solucin:
intervalos fi alturas Fi hi Hi Grados
4 -6.9 6 2 6 0.12 0.12 43.2
7 -8.9 7 3.5 13 0.14 0.26 50.4
9 -14.9 17 2.8 30 0.34 0.60 122.4
15 -29.9 13 0.8 43 0.26 0.86 93.6
30 -59.9 4 0.1 47 0.08 0.94 28.8
60 -99.9 2 0.05 49 0.04 0.98 14.4
= 100 1 0 50 0.02 1.00 7.2
Total 50 1.00 360.0
y su representacin en sectores en la figura 1.8:

18
Figura 1.8: Diagrama de sectores. (Saldo de imposiciones en Cajas de
Ahorros).
EJEMPLO 1.6:
Los datos siguientes corresponden a gastos de inversin publicitaria en
los pases
de la C.E.E. durante el ao 1.986
PASES INVERSIN
(MILLONES $)
R.F.A
INGLATERRA
FRANCIA
ESPAA
HOLANDA
ITALIA
DINAMARCA
BLGICA
GRECIA
IRLANDA
8.234
6.915
4.663
3.000
2.970
2.846
1.084
464
164
127
No se poseen datos de Portugal y
Luxemburgo
Representar el correspondiente diagrama de sectores
Solucin:
El grfico de sectores aparece en la figura 1.9:

19
INGLATERRA
FRANCIA
ESPA A
HOLANDA
ITALIA
DINAMARCA
IRLANDA
BELGICA
GRECIA
R.F.A
Figura 1.9: Diagrama de Sectores. Inversin publicitaria en la C.E.
(datos de 1.986)
En este grfico se observa que cuando ciertos datos presentan una
frecuencia baja,
en relacin con los dems, su sector circular seria no detectable
visualmente, por lo que
se une con otros de frecuencias tambin bajas, dndole el nombre de
"otros", o bien, si
es posible, indicando todos los elementos que lo forman.
6 PICTOGRAMAS
Son dibujos alusivos a la distribucin que se pretende estudiar y que
mediante su
forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible,
de la misma.
Consideremos el siguiente ejemplo:
EJEMPLO 1.7:
Representar el pictograma correspondiente a la tabla de datos siuiente:
PASES INVERSIN
(MILLONES $)
BRASIL
MJICO
ARGENTINA
VENEZUELA
CHILE
PERU
COLOMBIA
ECUADOR
URUGUAY
BOLIVIA
PARAGUAY
101.750
100.000
50.300
35.880
20.690
14.300
13.430
7.540
4.990
3.340
1.890

20
Solucin:
BRASIL MEXICO ARGENTINA VENEZUELA CHILE PERU ECUADOR BOLIVIA URUGUAU
PARAGUAY
DEUDA EXTERNA
DE AMERICA LATINA
(Diciembre 1986)
COLOMBIA
Figura 1.10: Pictograma (Deuda externa de Amrica Latina)
En el caso anterior, el rea de la figura debe de ser proporcional a la
frecuencia,
aunque existe tambin la posibilidad de que una figura represente un
nmero
determinado de frecuencias, y entonces contenga este dato.
Este tipo de representacin suele utilizarse en las distribuciones
cualitativas, como
por ejemplo en la siguiente:
EJEMPLO 1.8:
El censo ganadero espaol, en el mes de Septiembre de 1.977, segn
fuentes del
Ministerio de Agricultura, era:
GANADO N DE CABEZAS
(EN MILES)
BOVINO
OVINO
CAPRINO
PORCINO
EQUINO
4.538
14.539
2.206
9.804
762
TOTAL 31.846
Represente el correspondiente pictograma

21
Solucin:
El correspondiente pictograma sera de la forma que aparece en la figura
1.11:
Figura 1.11: Pictograma (Censo ganadero espaol)
7 CARTOGRAMAS
Son los grficos realizados sobre mapas, representando el carcter
estudiado en
ciertas regiones, sealando las zonas con distintos colores o tramas,
poniendo de
manifiesto las diferencias existentes entre las regiones del plano. Se
suelen utilizar para
representar densidades demogrficas de una nacin, la renta per capita,
ndices de
lluvia, etc.
8 DIAGRAMAS DE PERFIL RADIAL:
Se toma un punto de partida y se trazan tantos radios como modalidades
tenga la
variable estudiada y despus, sobre estos radios, se toma una distancia
al centro
proporcional a la frecuencia de cada modalidad. Uniendo los puntos
extremos de cada
radio se obtiene un polgono cerrado, que es el perfil radial.
En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura
1.12):

22
Equino
Caprino
Bovino
Porcino
Ovino
0 5000 10000
Figura 1.12: Perfil radial (Censo ganadero espaol)
9 DIAGRAMAS LINEALES
Se utilizan para mostrar las fluctuaciones de un determinado carcter
estadstico
con el paso del tiempo. Interesa nicamente la altura de la lnea,
referida a la base del
diagrama, que se levanta con una longitud proporcional al valor del
carcter estudiado
en dicho mes.
Con frecuencia se aprovecha para representar sobre la misma escala varios
diagramas lineales muy relacionados entre s.
Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.
ENERO
FEBRERO
MARZO
ABRIL
MAYO
JUNIO
JULIO AGOSTO
SEPTIEMBRE
EVOLUCION DE LA
TASA DE INFLACION
6'0
6'3 6'2
5'8
4'9 4'9
4'5 4'4
0'7 1'1
1'7
2
1'9 1'9
2'9 2'9
3'8
6'0
EVOLUCION DEL IPC
(Acumulado en 1987)
Figura 1.13: Diagrama lineal

23
El grfico anterior (figura 1.13) reproduce un diagrama aparecido en
DIARIO 16,
que expresa la evolucin del IPC y la tasa de inflacin durante los nueve
primeros
meses del ao 1.987.
A veces se unen en un mismo grfico varios grupos para considerarlos
conjuntamente, compararles y observar donde las distribuciones coinciden
o se separan,
permitiendo as un anlisis grfico comparativo.
As, el grfico siguiente (figura 1.14) muestra los polgonos de
frecuencias
porcentuales correspondientes a las distribuciones de ingresos en
familias de poblacin
blanca y negra en los Estados Unidos.
Poblacin
negra
Poblacin
blanca
Indice de
integracin=0'71
0
2'0
4'0
6'0
8'0
10'0
12'0
14'0
1000$ 2000$ 5000$ 10000$ 15000$ 25000$ 50000$
%
Figura 1.14: Polgonos de frecuencias porcentuales

24
1.1.4 Medidas de tendencia central
Las tablas de distribuciones de frecuencia ofrecen toda la informacin
disponible,
pero a veces, debido a su extensin nos encontramos con dificultades a la
hora de su
interpretacin, por lo que interesa resumirla con el fin de facilitar,
tanto su anlisis
como la comparacin entre distintas muestras o poblaciones. En este
proceso de sntesis
se buscan valores que determinen el comportamiento global del fenmeno
estudiado
Las medidas de sntesis de la distribucin se consideran operativas
cuando:
a) Intervienen todos y cada uno de los elementos en su formacin.
b) Es siempre calculable.
c) Es nica para cada distribucin de frecuencias.
Estos valores se denominan medidas de posicin, en general son promedios
de los
valores y pueden ser de tendencia central o no. Slo tienen sentido si la
variable es
cuantitativa.
Entre las ms importantes estn la media aritmtica, la mediana, la moda
y los
cuantiles; adems de stos, tambin estudiaremos la media geomtrica, la
media
armnica, la media cuadrtica y la media aritmtica ponderada.
1.1.4.1 Media aritmtica
Se define como la suma de todos los valores de la distribucin, dividida
por el n
total de datos. Si designamos por xi al valor de la variable X, que se
repite fi veces, la
media aritmtica ser:
x =
x1
n
f1 +
x2
n
f2 +!+
xk
n
f k =
xif i
i=1
k
!
n
=
xif i
n i=1
n
! = xihi
i=1

k
!

25
EJEMPLO 1.9:
Por ejemplo, sea la variable X que representa los pesos en kilogramos de
10
estudiantes y que presenta los valores:
xi={ 54, 59, 63, 64 }
con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media
aritmtica.
Solucin:
La media aritmtica vendr dada por:
x =
54.2 + 59.3 + 63.4 + 64.1
10
=
108 +177 + 252 + 64
10
=
601
10
= 60.1Kg
En el caso de que las variables estuvieran agrupadas en intervalos no se
podra
utilizar dicha expresin, por no saber el valor exacto de la variable,
usndose en este
caso como xi la marca de clase del intervalo.
Vemoslo con el siguiente ejemplo:
EJEMPLO 1.10:
Consideraremos la siguiente tabla de distribucin de frecuencias:
Intervalo fi Marca de clase
30-40
40-50
50-60
3
2
5
35
45
55
Total 10
Calcular la media aritmtica de los datos
Solucin:
Resultar, segn la definicin dada, que
x =
xif i
n
! =
35.3 + 45.2 + 55.5
10
= 47

26
No obstante, y dado que la media aritmtica est muy influenciada por los
valores
extremos de las observaciones, no siempre sirve para representar lo que
ocurre en cada
una de stas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11:
La tabla siguiente recoge el nmero total de goles marcados en los ocho
primeros
campeonatos de liga de primera divisin correspondientes a las temporadas
en que han
participado en el mismo 20 equipos:
Temporada Nmero de goles
87-88 909
88-89 868
89-90 921
90-91 822
91-92 913
92-93 954
93-94 989
94-95 966
Calcular e interpretar la media aritmtica.
Solucin:
Calculada la media aritmtica se observa que es 917,75; no obstante, este
valor es
poco representativo de lo ocurrido en cada temporada, puesto que
solamente en los aos
89-90 y 91-92 se obtuvo un nmero de goles prximo a dicho valor,
mientras que en el
resto de temporadas se obtuvieron bastantes ms ( 92-93, 93-94 y 94-95 )
o bastantes
menos ( 87- 88, 88-89, 90-91).
Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?,
acaso hubo
alguna ocasin en la que solamente penetr en la portera el 75% del
baln?.

27
PROPIEDADES DE LA MEDIA ARITMTICA:
1. La suma de las desviaciones de los valores de la variable respecto a
su media es 0.
(xi ! x )f i
i=1
k
" = xif i
i=1
k
" ! x f i
i=1
k
" = n
xif i
i=1
k
"
n
! x n = nx ! x n = 0
2. Si a todos los valores de la variable les sumamos una constante k, la
media
aritmtica queda aumentada en esa constante.
Si consideramos la distribucin ( xi + k, fi ) su media ser:
x
'
= xi
' fi
n
i=1
k
! = x( i + k)
f i
n
i=1
k
! = xi
fi
n
i=1
k
! + k
f i
n
i=1
k
! = x + k
3. Si a todos los valores de la variable los multiplicamos por una
constante k, su media
aritmtica queda multiplicada por esa constante.
Para demostrar esta propiedad basta considerar la distribucin ( xik , fi
), su media
ser:
x ' ' = xi

' ' f i
n i=1
k
! = xi( k)
f i
n i=1
k
! = k xi
f i
n i=1
k
! = kx
4. Si a una variable X le efectuamos una transformacin lineal de la
forma Y = aX + b,
con a y b constantes, la media de la nueva variable queda afectada por
dicha
transformacin lineal:
y = ax + b
La demostracin es consecuencia inmediata de las propiedades 2 y 3 de
la
media.

28
VENTAJAS E INCONVENIENTES
Como ventajas de utilizar la media aritmtica como un promedio para
sintetizar
los valores de la variable podemos citar las siguientes:
- Considera todos los valores de la distribucin.
- Es siempre calculable (en variable cuantitativa).
- Es nica.
Como inconvenientes de la utilizacin de la media aritmtica cabe citar
que, a
veces, puede dar lugar a conclusiones errneas, cuando la variable
presenta valores muy
extremos, que influyen mucho en la media, hacindola poco representativa.
1.1.4.2 Media aritmtica ponderada
Se calcula esta media aritmtica cuando cada valor de la variable tiene
asociado
una ponderacin o un peso, distinto de la frecuencia, y que le haga tener
ms o menos
importancia en la distribucin.
En este caso si el dato xi tiene un peso wi, su media ponderada sera:
x p
=
xiwi
i=1
k
!
wi
i=1
k
!
Si cada dato presenta una frecuencia fi, la media ponderada sera:
x p
=
xi f iwi
i=1
k
!
f iwi
i=1
k
!

29
EJEMPLO 1.12
Veamos un ejemplo de un estudiante que realiza tres exmenes de media
hora,
una hora y una hora y media respectivamente, obteniendo unas puntuaciones
de 50, 80
y70.
Por la duracin de los exmenes cabra atribuirles las ponderaciones de
1, 2 y 3
respectivamente.
xi 50 80 70
Ponderacin 1 2 3
Calcular la puntuacin media del alunno.
Solucin:
Obtendramos la siguiente media aritmtica ponderada:
x =
50.1 + 80.2 + 70.3
1 + 2 + 3
=
420
6
= 70
1.1.4.3 Media geomtrica
Se define como la raz n-sima del producto de todos los n valores de la
distribucin:
G = x
1
f
1x
2
f
2!x
k
f
n k
Tomando logaritmos quedara: logG =
1
n
f i logxi
i=1
k!
"
#
$ %
&
'
Es decir, el logaritmo de la media geomtrica es la media aritmtica de
los logaritmos
de los valores. En su clculo se suele utilizar esta propiedad.
Veamos, por ejemplo, cmo calcular la renta media durante varios periodos
de
tiempo.

30
EJEMPLO 1.13
Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y
al 8%
durante un tercero, cul es la renta media a la que est invertido el
dinero durante los
tres aos?.
Solucin:
Cabra esperar que la solucin fuera la media aritmtica de las tres
rentas, es decir
el 5%, pero la realidad es otra; en efecto:
Teniendo en cuenta que:
C 1 + rm ( )3
=C 1 + r1 ( ) 1 + r2 ( ) 1 + r3 ( )
Se verificar que
1 + rm = 1 + r1 ( ) 1 + r2 ( ) 1+ r3 ( ) 3
Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales,
expresadas en tanto por uno, ms uno.
En nuestro problema: 1 + rm = 3 1.03!1.05!1.08 = 1.0497 es decir, el
rdito medio
es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como
pareca ser.
Veamos otro ejemplo en el que interese utilizar logaritmos.
EJEMPLO 1.14
Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente:
Talla en cm. 100 120 125 140
Frecuencia 10 5 4 3
Calcular la talla media
Solucin:
La media geomtrica sera:
G = 100
10
!120
5
!125
4
!140
22 3

31
Para calcular el valor de G tomaremos logaritmos, de manera que:
logG =
1
22
10 log100 ( + 5 log120 + 4 log125 + 3 log140) =
=
1
22
45.22193 = 2.05554
G = anti log 2.05554 = 113.6cm
La media geomtrica tiene una ventaja sobre la media aritmtica y es que
es
menos sensible a los valores extremos.
Como inconvenientes principales sealar que tiene un significado
estadstico
menos intuitivo que la media aritmtica, su clculo es difcil y a veces
no se puede
calcular (si un valor de la variable es 0).
1.1.4.4 Media armnica
Se define como el inverso de la media aritmtica de los inversos de los
valores de
la variable. Es decir:
A =
n
1
xi
f i
i=1
k
!
Como ventajas podemos mencionar que intervienen todos los valores de la
variable y que, en ciertos casos, es ms representativa que la media
aritmtica.
Como inconvenientes hay que citar la gran influencia de los valores
pequeos y
que a veces no se puede calcular (si un valor de la variable es 0). Se
suele utilizar para
promediar velocidades, tiempos, etc.
EJEMPLO 1.15:
Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos.
En un
sentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin
circula a una
velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.

32
Calcular la velocidad media del recorrido total debemos calcular la media
armnica.
Solucin:
En este caso, si queremos calcular la velocidad media debemos calcular la
media
armnica.
v =
espacio
timpo
=
2s
t1
+ t2
Pero
t1 =
s
v1
=
100Km
60Km h
t2 =
s
v2
=
100Km
70Km h
Luego, sustituyendo, obtenemos que:
v =
2s
t1 + t2
=
200Km
100Km
60Km h
+
100Km
70Km h
=
2Km
1
60 h
+
1
70h
= 64.62Km h
RELACION ENTRE LAS MEDIAS
La relacin existente entre estas tres medias es:
H ! G ! x cuando las tres medias existen.
1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la
variable de
menor a mayor, deja igual nmero de frecuencias a su izquierda que a su
derecha, es

decir, el valor que ocupa el lugar central. Puede entenderse tambin como
aquel valor
cuya frecuencia absoluta acumulada es n/2.

33
DATOS SIN AGRUPAR
. N impar de trminos
Si la distribucin est sin agrupar, y hay un n impar de trminos, la
mediana ser
el que ocupa la posicin central. Por ejemplo, si los valores de la
variable son
{ 1 , 2 , 3 , 4 , 5 }
la mediana sera Me = 3
. N par de trminos
Pero si hay un n par de trminos habra dos trminos centrales y se toma
como
mediana la media aritmtica de ellos. Por ejemplo, si los valores de la
variable son
{1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}
La mediana seria: Me =
7 + 9
2
= 8
DATOS CON FRECUENCIAS
. Variable discreta
Si los datos presentan diferentes frecuencias, el mtodo ms prctico es
buscar en
la columna de frecuencias acumuladas n/2.
EJEMPLO 1.16:
Si la distribucin es:
xi fi Fi
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
Total 35
Calcular la mediana

34
Solucin:
n
2
=
35
2
=17.5
La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el
de lugar
26 todos los valores son 7.
Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi
. Variable continua o datos agrupados en intervalos
En el caso de estar la distribucin agrupada en intervalos (sean o no de
la misma
amplitud) al buscar el valor que ocupa el lugar n/2 nos encontramos con
un intervalo, el
intervalo mediano, y no con un dato. Para determinar un nico
representante de dicho
intervalo como mediana, determinaremos el elemento que en el polgono de
frecuencias
acumuladas toma de frecuencia n/2.
Figura 1.15: Polgono acumulativo de frecuencias para el clculo de la
Mediana

35
En el grfico de la figura 1.15 se observa la forma de determinar la
mediana.
La mediana vale:
Me = Li-1 + m
Como los tringulos ABC Y AB'C' son semejantes, resulta que:
AC
AC'
=
BC
B' C'
es decir:
m
ci
=
n
2
! Fi!1
Fi ! Fi!1
por lo tanto:
m =
n
2
! Fi!1
f i
ci
De lo anterior se deduce que la Mediana se calcula de la siguiente forma:
Me = Li!1 +
n
2
! Fi!1
f i
ci
VENTAJAS E INCONVENIENTES
Como ventajas de la mediana podemos citar que no est influida por los
valores
extremos como en el caso de la media, y adems tiene sentido en casos de
distribuciones en escala ordinal (datos que pueden ser ordenados), siendo
la medida ms
representativa de estos por describir la tendencia central de los mismos.
Como inconvenientes puede ser la determinacin de sta en los casos de
variables
agrupadas en intervalos.

36
EJEMPLO 1.17:
Sea la siguiente distribucin de salarios y calculemos el salario
mediano.
Clase Salario anual N de obreros N acumulado
de obreros
1
2
3
4
5
20000 a 25000
25000 a 30000
30000 a 35000
35000 a 40000
40000 a 45000
100
150
200
180
41
------671
100
250
450
630
671
Solucin:
Tenemos que n
2
=
671
2
= 335.5, valor que nos indica que el salario anual mediano
pertenece a la tercera clase.
La amplitud del tercer intervalo es ci = 5000, luego:
Me = 30000 +
335.5 ! 250
200
5000 = 3000 + 2137.5
es decir, Me = 321375
1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de
frecuencias, es decir, el que tiene mayor frecuencia absoluta.
Para calcular la moda, en el caso que la distribucin no est agrupada o
est agrupada en
intervalos, se procede de forma diferente:
DISTRIBUCIN SIN AGRUPAR EN INTERVALOS DE CLASE
La moda es el valor ( o valores ) que presenten mayor frecuencia
absoluta.

37
EJEMPLO 1.18:
Consideremos la siguiente distribucin:
xi 1 2 5 7 10 13
fi 3 4 9 10 7 2
Observando la fila de frecuencias, se ve que Mo = 7
Puede ocurrir que una distribucin presente ms de una moda (bimodal,
trimodal,
etc.), e incluso que presente una moda absoluta y alguna moda relativa.
Las
representaciones serian (ver figuras 1.16 y 1.17):
Figura 1.16: Representacin de una distribucin con una nica moda y otra
bimodal
Figura 1.17: Modas en una distribucin bimodal

38
DISTRIBUCIN AGRUPADA EN INTERVALOS DE CLASE
Si la distribucin est agrupada en intervalos, se proceder de forma
diferente
segn que la amplitud sea constante o no.
. Amplitud constante
Si la amplitud es constante, la mxima frecuencia nos determina un
intervalo, el
intervalo modal, pero hay que seleccionar un valor de ese intervalo que
haga el papel de
moda. En este caso hay varios criterios: unos seleccionan el extremo
inferior del
intervalo, otros el extremo superior y otros la marca de clase, pero
habr que tener en
cuenta que la moda estar ms cerca del intervalo contiguo de mayor
frecuencia.
Figura 1.18: Histograma para el clculo de la Moda
Es claro que Mo = Li-1 + m . Veamos la determinacin de "m".
Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos
iguales, se puede establecer la proporcin:
OQ
PO
=
BB'
AA'
!
OQ
PO
+1 =
BB'
AA'
+1!
OQ+ PO
PO
=
BB' +AA'
AA'
invirtindola resulta:

39
PO
OQ+ PO
=
AA'
BB' +AA'
!
m
ci
( " m) + m
=
d1
d1 + d2
siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo
modal y los
intervalos anterior y posterior respectivamente. Por lo tanto la moda
valdra:
Mo = Li!1 +
d1
d1 + d2
ci
EJEMPLO 1.19:
Calculemos la Moda de la siguiente distribucin:
Intervalo Frecuencia
0 - 25
25 - 30
50 - 75
75 - 100
20
40
100
60
Total 220
Solucin:
El intervalo modal es el 50 - 75, y como
d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40
resulta que Mo = 50 +
60
60 + 40
25 = 50 +15 = 65
. Amplitud no constante
Si la amplitud de los intervalos es variable, teniendo en cuenta que la
altura del
rectngulo indica la densidad de frecuencia, el intervalo modal ser el
que tenga mayor
densidad de frecuencia, es decir mayor altura.
EJEMPLO 1.20:
Calculemos la Moda de la siguiente distribucin:

40
Intervalo fi ci ai
4 -7
7 - 9
9 - 15
15 - 30
30 - 60
60 - 100
ms de 100
6
7
17
13
4
2
1
3
2
6
15
30
40
-2
3,5
2,8
0,8
0,1
0,05
--Total 50
Solucin:
Primero se procede a buscar la mayor altura:
ai = fi / ci
Se contina como en el caso anterior sustituyendo la frecuencia por la
altura.
El intervalo modal es el 7-9, y por lo tanto:
d1 = 3,5 - 2 = 1,5
d2 = 3,5 - 2,8 = 0,7
As la moda ser:
Mo = 7 +
1.5
1.5 + 0.7
25 = 7 +1.36 = 8.36
VENTAJAS E INCONVENIENTES
Como ventajas de la moda cabe citar que cuando la distribucin es de
escala
nominal (no susceptible de ordenacin) es la medida ms representativa,
pues no es
posible hacer operaciones con sus observaciones, y por tanto no se pueden
calcular las
otras medidas. Adems igual que la mediana, no viene influida por los
valores extremos
de la variable.

Como inconveniente cabe citar el modo de calcularla en los casos de


variables
agrupadas en intervalos y el hecho de que utiliza un nico dato de la
distribucin.

41
Calculemos en un ejemplo la media aritmtica, la moda y la mediana de una
distribucin para hacernos una idea de cul de ellas es la medida de
centralizacin ms
representativa en la situacin estudiada.
EJEMPLO 1.21:
El sueldo anual de los 25 trabajadores de una empresa viene expresado en
la
tabla siguiente:
Director 10.000.000 pts.
Gerente 6.000.000 pts.
Dos ingenieros 4.000.000 pts. cada uno.
Tres peritos 2.500.000 pts. cada uno.
Cinco encargados 2.000.000 pts. cada uno.
Contable 1.800.000 pts. cada uno.
Resto plantilla 1.300.000 pts. cada uno.
Calcular la media, la moda y la media y efectuar un estudio comparativo
de los
resultados.
Solucin:
Calculando la media aritmtica de los sueldos vemos que es de 2.356.000
pts.
cantidad que, adems de no ser el sueldo de ningn empleado de la
compaa, da una
idea poco aproximada de la realidad, toda vez que la mayora de los
trabajadores ganan
bastante menos de esa cantidad.
La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es
1.800.000
pts. Estas dos medidas indican ms claramente la situacin en la empresa,
siendo la
moda la que mejor resume la situacin.

42
1.1.5 Medidas de posicin no
centrales
Estos valores no reflejan ninguna tendencia central, sino una posicin de
la
distribucin, dividindola a sta en partes iguales. Cabe citar entre los
de uso ms
frecuente: cuartiles, deciles y percentiles.
1) Los cuartiles son tres valores que dividen a la distribucin en cuatro
partes
iguales, estando en cada una de ellas el 25% de sus observaciones. Se
indican con Qi.
2) Los deciles son nueve valores que dividen a la distribucin en diez
partes
iguales, estando en cada una de ellas el 10% de las observaciones. Se
indican por Di.
3) Los percentiles son noventa y nueve valores que dividen a la
distribucin en
cien partes iguales, dejando un 1% de las observaciones entre cada dos de
ellos
consecutivos. Se nombran por Pi.
Hay que tener en cuenta algunas relaciones entre ellos, como son:
Me = Q2 = D5 = P50
Q1 = P25 ; Q3 = P75
D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60
Para el clculo de todos los cuantiles el proceso es anlogo al clculo
de la
mediana, sustituyendo n/2 por r.n/k, siendo r el orden del cuantil y k
las partes en que
dicho cuantil divide a la distribucin. As en los cuartiles k = 4 y r =
1, 2, 3 ; en los
deciles k = 10 y r = 1, 2,....., 9, y en los percentiles k = 100 y r = 1,
2, 3,....., 99.
Se procede pues buscando en las frecuencias acumuladas el valor de rn/k,
y si la
distribucin est agrupada, el cuantil r/k ser:
Cr k = Li!1 +
r
n
k
! Fi!1
f i
ci

43
VENTAJAS E INCONVENIENTES
Las ventajas e inconvenientes son las mismas que los de la mediana.
EJEMPLO 1.22:
En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4,
P88
Solucin:
Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el
25000 - 30000
Q1
= 25000 +
671
4
!100
150
5000 = 25000 + 2258.3 = 27258.3
Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el
35000 - 40000
Q3
= 35000 +
3
671
4
! 450
180
5000 = 35000 +1479.16 = 36479.16
Para D4: como 4.671/10 = 2684 , el intervalo del cuarto decil es el
30000 - 35000
D4 = 30000 +
4
671
4
! 2500
200
5000 = 30000 + 460 = 30460
Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y
ocho es el 35000
- 40000
P88 = 35000 +
88
671
4
! 450
180
5000 = 35000 + 3902.2 = 38902.2

44
1.1.6 Medidas de dispersin
En el apartado anterior hemos definido una serie de medidas de tendencia
central,
cuyo objetivo era tratar de sintetizar toda la informacin disponible,
pero cabe
preguntarse posteriormente si esa medida es o no representativa de la
distribucin de
frecuencias.
Si consideramos dos variables X e Y con distribuciones:
xi 0 500 1000 yi 499 501
fi 1 1 1 fi 1 1
Las medias son :
x =
0 + 500 +1000
3
= 500 y =
499 + 501
2
= 500
Las dos medias son iguales y sin embargo las dos distribuciones son muy
diferentes pues los valores de X estn mucho ms dispersa que los de Y.
As pues, para intentar medir la representatividad de una determinada
medida
debemos de cuantificar la separacin de los valores de la distribucin
respecto de dicha
medida. As pues, resulta necesario que, para completar la informacin de
un promedio
(por ejemplo media aritmtica), ste vaya acompaado de uno o varios
coeficientes que
nos midan el grado de dispersin de la distribucin de la variable con
respecto a l.
Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.
1.1.6.1 Medidas de dispersin absoluta
Cabe citar entre stas el recorrido, el recorrido intercuartlico, la
desviacin
media, la varianza y la desviacin tpica. Todas son referidas en general
a un
promedio.

45
RECORRIDO O RANGO:
Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor
de la
distribucin:
Re = Max (xi) - Min (xi)
Si este recorrido es pequeo respecto al nmero de datos puede entenderse
que
existe poca dispersin.
Tiene el inconveniente de que se ve totalmente influenciado por los
valores
extremos (con los que se calcula).
RECORRIDO INTERCUARTLICO:
Es la diferencia existente entre el tercer y el primer cuartil
RI = Q3 - Q1
En esta medida se suprimen el 25% superior e inferior de la distribucin,
y por lo
tanto no se ve influenciado por los valores extremos, y nos indica la
longitud del
intervalo en el que estn el 50% central de los valores
En algunos casos se utiliza el recorrido semiintercuartlico que se
define como
la mitad del recorrido intercuartlico.
RSI = (Q3 -Q1)/2
DESVIACIN MEDIA:
Esta medida de dispersin hace referencia a un promedio, cosa que no
hacen las
anteriores; puede entenderse como la media de las desviaciones de los
datos de la
variable respecto al promedio utilizado; no obstante, para evitar que las
desviaciones
positivas queden compensadas por las negativas y que esta desviacin
media resulte
igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el
valor absoluto de la
desviacin de los datos respecto del promedio.
As se definir la desviacin media respecto de la media como:

46
Dx = xi ! x
f i
n i=1
k
"
Tambin se puede utilizar la desviacin media respecto de la mediana
como:
DMe = xi ! Me
f i
n i=1
k
"
Las dos nos indicaran la dispersin de los datos respecto del promedio
utilizado,
en el caso de que sta fuera grande el promedio sera poco
representativo.
VARIANZA:
Se define como la media de los cuadrados de las desviaciones de los
valores de la
variable respecto de la media aritmtica, es decir:
s
2
= (xi ! x )2 f i
n
= xi ( ! x )2
hi
i=1
k
"
i=1
k
"
Se utiliza el cuadrado para lograr que todas las desviaciones sean
positivas; nos
indica la mayor o menor dispersin de los valores de la variable respecto
de la media
aritmtica, y por lo tanto, su representatividad.
Tiene el inconveniente de no venir expresada en las mismas unidades que
la
variable, sino en el cuadrado de las mismas, por ello se utiliza ms la
siguiente.
DESVIACIN TPICA O ESTNDAR:
Se define como la raz cuadrada positiva de la varianza, es decir:
s = xi ( ! x )2 f i
n i=1
k
" = xi ( ! x )2
hi
i=1
k
"
Al ser la raz cuadrada de la varianza viene expresada en las mismas
unidades que

la variable, lo que la hace ms apta como medida de dispersin que la


varianza, siendo
en la actualidad la ms utilizada.

47
A menudo, en lugar de dividir entre el tamao de los datos, n, se divide
entre n-1,
obtenindose la llamada cuasivarianza:
s
2
= xi ( ! x )2 f i
n !1 i=1
k
"
y cuasidesviacin tpica:
s = xi ( ! x )2 f i
n !1 i=1
k
"
Siendo la relacin entre la varianza y la cuasivarianza la siguiente:
s
2
=
n
n !1
s
2
PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIN TPICA:
. La varianza y la desviacin tpica no pueden ser negativas, por ser
suma de
cuadrados:
s2 = 0, s = 0
. Si en una distribucin le sumamos a todos los valores de la variable
una
constante, la varianza y la desviacin tpica no varan.
Si en la distribucin (xi fi) de media x = xi
f i
n i=1
k
! , y de varianza
s
2
= xi ( ! x )2 f i
n i=1
k
" sumamos a todos los elementos una constante k, obtenemos otra
distribucin de variable x'i = xi + k .
Como, x ' = x + k resulta que la varianza de la nueva distribucin ser:

48
s'
2
= xi
( ' ! x' )2 f i
n
i=1
k
" = x[( i + k) ! (x ! k)]
2 f i
n
i=1
k
" =
= xi ( ! x )2 f i
n i=1
k
" = s
2
es decir, que la varianza no varia, y por lo tanto, la desviacin tpica
tampoco.
. Si en una distribucin multiplicamos a todos los valores de la variable
por
una constante, la varianza queda multiplicada por el cuadrado de la
constante y la
desviacin tpica queda multiplicada por la constante.
En efecto:
Si tomamos la distribucin xi
''
= kxi teniendo en cuenta que x ' = kx , resulta que
la varianza de la nueva distribucin vale:
s' '
2
= xi
' ' ( ! x' ')2 f i
n
i=1
k
" = kx( i + kx )
f i
n
i=1
k
" =
= k
2
xi ( ! x )2 f i
n i=1
k
" = k
2
s
2
y por ser la desviacin tpica la raz cuadrada de la varianza queda:

s' ' = s' '


2
= k
2
s
2
= ks
CLCULO PRCTICO DE LA VARIANZA*
En la prctica, al calcular la varianza conviene tener en cuenta la
siguiente
expresin:
* La media, la varianza y la desviacin tpica las proporciona
directamente cualquier
calculadora de bolsillo, luego nomerece la pena hacer perder tiempo al
alumno
escribiendo tablas con xifi etc.

49
s
2
= (xi ! x )
2 f i
n
i=1
k
" = xi
2 ! 2xix + x
2 ( ) f i
n
i=1
k
" =
= xi
2 f i
n i=1
k
" ! 2x xi
f i
n i=1
k
" + x
2 f i
n i=1
k
" = xi
2 f i
n i=1
k
" ! 2x
2
+ x
2
= x
2 ! x
2
Veamos el clculo de la varianza y desviacin tpica en los ejemplos 1.9
y 1.10:
xi fi
54
59
63
64
2
3
4
1
10
x = xi
f i
i n
! = 60.1Kg

s2 = s
2
= xi
2 f i
n i=1
k
! " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2
s = 12.69 = 3,5623 Kg.
En el ejemplo de datos agrupados en intervalos es:
Intervalo marca de
clase
fi
30-40
40-50
50-60
35
45
55
3
2
5
10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76
S = 76 = 8,718

50
1.1.6.2 Medidas de dispersin relativas
En el caso de intentar comparar la dispersin de dos distribuciones
mediante
alguna de las medidas de dispersin halladas antes, no podramos efectuar
tal
comparacin porque las distribuciones, en general, no vendrn dadas en
las mismas
unidades y tampoco porque los promedios en general tambin sern
diferentes. Por ello,
para poder comparar las dispersiones, es preciso definir medidas de
dispersin
adimensionales.
Entre stas se encuentra el coeficiente de variacin de Pearson.
COEFICIENTE DE VARIACIN DE PEARSON:
Es el cociente entre la desviacin tpica y el valor absoluto de la media
aritmtica.
CV =
s
x
Este coeficiente es adimensional luego permite comparar las dispersiones
de dos
distribuciones diferentes.
A menudo se le suele utilizar en forma de porcentaje, empleando CV =
s
x
100
Obviamente, a mayor CV menor es la representatividad de x , pues la
desviacin
tpica ser mayor comparada con la media.
1.1.7 Momentos
Existen dos tipos de momentos:
1.1.7.1 Momentos centrales (respecto a la media
aritmtica)

51
Se define el momento central de orden r respecto de la media aritmtica x
como
la media aritmtica de las potencias de orden r de las desviaciones de
los datos respecto
de la media:
mr = (xi ! x )r f i
n i=1
k
"
En particular, se verifica que:
- El momento central de orden 0 vale 1:
m0 = xi ( ! x )0 f i
n i=1
k
" =
f i
n i=1
k
" =
n
n
= 1
- El momento central de orden 1 vale 0:
m1 = xi ( ! x )1 f i
n i=1
k
" = xi
f i
n i=1
k
" ! x
f i
n i=1
k
" = x ! x
n
n
= 0
- El momento de orden 2 es la varianza.
1.1.7.2 Momentos con respecto al origen
Se define el momento de orden r con respecto al origen como la media
aritmtica
de las potencias de orden r de los datos de la variable:
ar = xi
r f i
n i=1
r
!
Como casos particulares cabe destacar:
- El momento de orden 0 vale 1:
a0 = xi
0 f i
n i=1

k
!
f
n
k
!
-

" x
i
i=1
= 1
El momento de orden 1 es la media aritmtica

52
Existe una relacin entre los dos momentos, que nos da una forma reducida
de
calcular la varianza:
s
2
= m2 = (xi ! x )2 f i
n i=1
k
" = xi
2 f i
n i=1
k
" ! x
2
= a2 ! a1
2

53
1.1.8 Medidas de forma
Para tratar de conocer una distribucin no basta con conocer sus medidas
de
dispersin y de posicin, sino que es necesario, en general, conocer
algunos aspectos
ms de la misma.
Dado que la diversidad de comportamientos de las xi de la distribucin se
haca
ms patente al realizar la representacin grfica, vamos a tratar de
determinar a
continuacin ms medidas, segn la "forma" de la representacin;
clasificaremos estas
medidas en dos grupos: medidas de asimetra y medidas de curtosis o
apuntamiento.
1.1.8.1 Medidas de asimetra
Tienen por objeto establecer el grado de simetra (o asimetra) de una
distribucin
sin necesidad de realizar la representacin grfica.
Entenderemos la simetra respecto al eje determinado por la media
aritmtica, de
tal forma que diremos que una distribucin es simtrica cuando los
valores de la
variable equidistantes de este valor central tengan la misma frecuencia,
en caso
contrario diremos que es asimtrica, siendo esta asimetra negativa o a
izquierda si es
ms larga la rama de la izquierda, es decir, las frecuencias descienden
ms lentamente
por la izquierda que por la derecha; analogamente llamaremos asimetra
positiva o a
derechas aquella en que la rama de la derecha es ms larga, es decir las
frecuencias
descienden ms lentamente por la derecha que por la izquierda.
COEFICIENTE DE ASIMETRA DE FISHER
Debemos buscar ahora una medida adimensional que recoja las desviaciones
positivas y negativas de los valores respecto de la media.
La figura 1.19 nos muestra las distintas distribuciones:

54
Mo
g
1
>0
x
_
g =0
1
Distribucin simtrica Distribucin asimtrica
a la derecha
Mo
g <0
1
Distribucin asimtrica
a la izquierda
Figura 1.19: Distintos tipos e distribuciones segn su simetria
Dado que
(xi ! x )
f i
n i=1
k
" = 0
hay que buscar una medida que venga influida por el signo; sta ser:
m3 = xi ( ! x )3 f i
n i=1
k
"
ya que
si la curva es simtrica m3 = 0
si la curva tiene asimetra positiva o a derechas, m3 > 0
si la curva tiene asimetra negativa o a izquierdas, m3 < 0
Para que no tenga dimensin debemos dividirla por una medida con las
mismas
unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.

55
g1 =
m3
s
3 =
(xi ! x )3 f i
i=1 n
k"
xi ( ! x )2 f i
i=1 n
k"
#
$
%
&
'
(
3
2
Siendo su interpretacin:
Si g1 > 0 la distribucin es asimtrica positiva o a derecha.
Si g1 = 0 la distribucin es simtrica.
Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.
COEFICIENTE DE ASIMETRA DE PEARSON
Otra medida de asimetra es el coeficiente de asimetra de Pearson
definido por:
Ap
=
x !Mo
s
Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la
distribucin
es asimtrica positiva o a derechas x > Mo y si la distribucin es
asimtrica negativa o
a izquierdas x < Mo, su interpretacin ser:
Ap = 0 la distribucin es simtrica.
Ap > 0 la distribucin es asimtrica positiva (derechas)
Ap < 0 la distribuciones asimtrica negativa (izquierdas)
Tiene el inconveniente de que no puede utilizarse en distribuciones
bimodales, por
ello Pearson demostr empricamente que
x ! Mo " 3(x !Me)
por lo que algunos autores utilizan como coeficiente de asimetra de
Pearson
Ap =
3(x ! Me)
s
Existen otros tipos de coeficientes de asimetra, pero son menos
utilizados.

56
1.1.8.2 Medidas de curtosis o apuntamiento
Estas medidas, aplicadas a distribuciones unimodales simtricas o con
ligera
asimetra, tratan de estudiar la distribucin de frecuencias en la zona
central, dando
lugar a distribuciones muy apuntadas, o poco apuntadas.
Para estudiar el apuntamiento, debemos hacer referencia a una
distribucin tipo
que consideraremos la distribucin "Normal"; sta corresponde a fenmenos
muy
corrientes en la naturaleza cuya representacin grfica es la campana de
Gauss.
Si una distribucin tiene mayor apuntamiento que la normal diremos que es
"leptocrtica", si tiene menor apuntamiento que la normal la llamaremos
"platicrtica",
y a las que tengan igual apuntamiento que la normal las llamaremos
"mesocrticas".
Veamos esto en unas figuras 1.20a y b:
Figura 1.20: Diferentes distribuciones segn su apuntamiento. Comparacin
con la Normal
En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como
coeficiente de
apuntamiento o curtosis.
g2 =
m4
s
4 =
(xi ! x )4 f i
i=1 n
k"
xi ( ! x )2 f i
i=1 n
k"
#
$
%
&
'
(
2
siendo la interpretacin la siguiente:

57
Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica).
Si g2 = 3 la curva tiene el mismo apuntamiento que la normal
(mesocrtica).
Si g2 < 3 la curva es menos apuntada que la normal (platicrtica).
A veces se utiliza como coeficiente de curtosis:
g2
=
m4
s
4
! 3
y la comparacin ser con 0, obtenindose:
g2 = 0 (mesocrtica).
g2 > 0 (leptocrtica).
g2 < 0 (platicrtica)
NOTA: El clculo de m3 y m4 es ms prctico utilizando las frmulas:
m3 = a3 - 3a2a1 + 2a1
3
m4 = a4 - 4a3a1 + 6a2a1
2 - 3a1
4
siendo a1 = x .
1.1.9 Medidas de concentracin
Aunque "dispersin" y "concentracin" tengan significados opuestos en el
lenguaje coloquial, en estadstica no coincide el concepto de
concentracin con la
acepcin normal del vocablo.
La "dispersin" hace referencia a la variabilidad de los datos, a las
diferencias
existentes entre ellos y la representatividad de los promedios.
La "concentracin", por su parte, se refiere al mayor o menor grado de
igualdad
en el reparto de todos los valores de la variable.
Estas medidas de concentracin tienen especial aplicacin a variables
econmicas
(rentas, salarios, etc.), pues lo que interesa es la mayor o menor
igualdad en el reparto
entre los componentes de la poblacin, es decir, que est equitativamente
repartida.

58
Llamaremos, pues, concentracin al grado de equidad en el reparto de la
suma
total de la variable considerada.
La concentracin es mxima si uno solo de los elementos recibe el total
de la
variable, mientras que la concentracin ser mnima o equidistribuida si
todos los
elementos perciben la misma cantidad.
Entre los ndices de concentracin que estudiaremos se encuentran el
ndice de
Gini y la curva de Lorenz.
1.1.9.1 Curva de Lorenz
Es una representacin grfica de la concentracin.
Llamando
ur
= xif i
i=1
r
! , pr
=
Fr
n
100 , qr
=
ur
n
100
Si representamos los valores pr en el eje de abscisas y los valores qi en
el eje de
ordenadas, dibujando en el cuadrado de lado 100 los puntos pi y qi, y
unindolos, queda
determinada una poligonal llamada "curva de Lorenz".
Vemoslo en un ejemplo econmico (tengamos en cuenta que lo anterior no
es
aplicable a todo tipo de variables):
Supongamos que tenemos k trabajadores, con salarios x1 = x2 = ... =xk
ordenados
en sentido creciente. Queremos saber como se reparte la suma total de
salarios
S = xi
i=1
k
!
entre los k trabajadores.
La concentracin es mxima si x1 = x2 = ........= xk-1 = 0; xk = S es
decir, un solo
trabajador recibe todo y el resto nada.

59
La concentracin es mnima si x1 = x2 = .........= xk, es decir, todos
los
trabajadores reciben lo mismo.
Para determinar el ndice de concentracin se forman las columnas
siguientes:
1- xifi que denota el salario recibido por los ni trabajadores.
2- Fi columna de frecuencia absolutas acumuladas.
3- ur, acumulador de la primera columna que denota el salario total
recibido
por los Fr primeros trabajadores, siendo su valor ur = xif i
i=1
r
!
4- pr, que es la frecuencia relativa acumulada en tantos por 100:
pr
=
Fr
n
100
5- qr, que es el porcentaje del salario total que reciben los Ni
primeros
trabajadores:
qr
=
ur
n
100
Si la concentracin fuese mnima, pr = qr igualmente repartida.
Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100
La representacin de la curva de Lorenz sera:

60
Figura 1.21: Curva de Lorenz
Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):
pi %
qi %
Distribucin de concentracin mnima pi %
qi %
Distribucin de concentracin mxima
(a) (b)
Figura 1.22: Casos extremos de concetracin
Como propiedades de esta curva de Lorenz pueden citarse las siguientes:
- La curva es siempre creciente, pues la ordenacin de salarios es de
menor a mayor.
- La curva empezar en el origen O = (0,0) y terminar en el (100,100)B
- La curva est siempre situada por debajo de la diagonal.
- La concentracin ser menor cuanto ms prxima est la curva de Lorenz
a la
diagonal.
1.1.9.2 ndice de Gini
Se define el ndice de concentracin de Gini por :
IG =
(pi ! qi )
i=1
k!1
"
pi
i=1
k!1
"

61
Si la concentracin es mnima (pi = qi) vale 0 y si la concentracin es
mxima
(q1 = q2 =........= qk-1 = 0) vale 1.
As pues el ndice de Gini varia de 0 a 1, siendo menor la concentracin
y en
consecuencia ms justa y equitativa la distribucin cuanto ms prximo
est a cero,
mientras que la concentracin ser mayor cuanto ms prximo est a 1 (Ver
figura
1.23).
Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de
resumir
en un solo nmero lo recogido en la curva de Lorenz, a veces, dos
distribuciones de
aspectos muy diferentes pueden tener dos ndices de concentracin de Gini
iguales,
como indican las curvas de la figura 1.23.
Figura 1.23: Diferentes curvas de Lorenz

62
"REPRESENTACIONES GRAFICAS"
1.2 Ampliacin

63
Quizs fuese interesante, presentar el tema de las representaciones
grficas
al alumno, mediante una introduccin desde la perspectiva del lenguaje
grfico y de su utilidad y difusin en el mundo que nos rodea. Sera una
buena forma de motivarle para que prestase atencin sobre la importancia
de saber leer de forma correcta los grficos ms usuales.
1.2.1 El lenguaje grfico
El lenguaje grfico es el "conjunto de smbolos y convenios que permiten
comunicar una informacin cuantitativa de la manera ms eficiente
posible"
(GETE-ALONSO y del BARRIO, 1990).
Este lenguaje se sirve de numerosos signos y smbolos que han
evolucionado con
el tiempo y que encontramos en casi todas las manifestaciones de la
actividad humana,
emplendose para expresar de manera rpida y sucinta ideas, objetos y
situaciones, en
muchas ocasiones con significado universal.
1.2.1.1 El lenguaje grfico en la vida cotidiana
Si nos detenemos un momento a pensar en el mundo que nos rodea vemos como
el lenguaje grfico se utiliza en absolutamente todo nuestro entorno
(figura 1.24).
Lo encontramos en las instrucciones de lavado de cualquier prenda de
vestir, en la
informacin sobre los transportes metropolitanos de cualquier ciudad, en
las teclas que
hacen funcionar los electrodomsticos, en los mapas de carreteras, en la
informacin
acerca de la calidad y categora de restaurantes y hoteles, en las
seales que regulan el
trfico, en el parte diario acerca del estado del tiempo, en los emblemas
y distintivos de
organizaciones y sociedades, etc. etc.

64
Figura 1.24.- Importancia y actualidad del lenguaje grfico
(Tomada de AVILA-ZARZA, 1993)
1.2.1.2 El lenguaje grfico como herramienta de
comunicacin social
Hace ya tiempo que las representaciones grficas abandonaron las
publicaciones
especializadas, en las que se utilizan como herramienta de comunicacin y
anlisis de
datos estadsticos, para pasar a formar parte de las herramientas de
comunicacin social
(televisin, prensa, propaganda...).
La generalizada utilizacin de las representaciones grficas es sin duda
sorprendente.
Podemos encontrarlas en billetes, como el de diez Marcos alemanes de la
figura
1.25, en el que aparece representada la curva normal de Gauss.

65
Figura 1.25: Billete de diez marcos alemanes, en el que est impresa
la Curva Normal de Gauss
Tambin es posible encontrarlas ya en obras dirigidas al gran pblico,
cuya
nica intencin es entretener. As ocurre, por ejemplo, con la conocida
novela de ficcin
"Parque Jursico" (CRICHTON, M. 1990-92) en la que un Diagrama de perfil
- (ver
figura 1.26) sirve de base argumental.
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos
inmersos en una "sociedad estadstica", entendiendo como tal aqulla en
la que los
ciudadanos piensan, razonan y toman decisiones en base a anlisis
estadsticos de
datos.

66
Aunque en Espaa la Estadstica dista an de ocupar un lugar como el que,
por
ejemplo, tiene en un pas como Japn, donde los peridicos de mayor
difusin e
importancia incluyen los viernes una seccin dedicada al control
estadstico de calidad y
en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta
mediante un
clsico Steam and Leaf (ROMERO, 1991)* , somos en la actualidad
espectadores de un
cambio significativo.
Cada vez en mayor medida se recurre a datos y anlisis estadsticos para
transmitir
la informacin, siendo los Mtodos Grficos de carcter descriptivo la
herramienta de la
que no se puede prescindir** .
Un claro ejemplo de esta situacin de transicin, se produjo a raz de
las
elecciones generales realizadas en los dos ltimos comicios en nuestro
pas, donde no
slo los resultados de las encuestas, sino tambin los aspectos
relacionados con aqullas
eran objeto de anlisis estadstico, siendo los mtodos grficos las
autnticas estrellas
en la transmisin de la informacin.
1.2.2 El poder de los mtodos grficos
"Una imagen vale ms que mil palabras"*** . No slo el lenguaje grfico
es importante; el poder de las representaciones grficas es un hecho.
La visin es la modalidad sensorial dominante del ser humano; nuestro
cerebro
est altamente capacitado para el manejo de informacin visual, siendo
capaz de
reconocer y procesar imgenes grficas con una simple inspeccin ocular.
As, est comnmente aceptado por la comunidad cientfica que, en
general, una
representacin grfica proporciona mayor informacin acerca de las
caractersticas y
patrones de los datos, que un texto o una presentacin tabular de los
mismos.
* Nos preguntamos, cuntos lectores en Espaa, sin y con conocimientos
estadsticos
bsicos podran ser capaces de interpretar uno similar...?.
** Todo ello ha motivado no sacrificar en el apartado de mtodos grficos
la inclusin
de aqullos, que an no siendo histricamente recientes, son an "grandes
desconocidos".
*** Provervio Chino

67
1.2.2.1 Los riesgos del Anlisis de Datos sin la
utilizacin de grficos
LOS DIAGRAMAS DE ANSCOMBE
El peligro de llevar a cabo anlisis de datos sin la utilizacin de
grficos puede
ponerse de manifiesto con los conocidos Diagramas de Anscombe (ANSCOMBE,
1973) (ver figura 6.19), los cuales evidencian cmo cuatro grupos de
datos que
producen idnticas rectas de Regresin (incluida la ordenada en el origen
y la
pendiente), idnticos coeficientes de correlacin e idnticos errores
estndar,
corresponden en realidad a casos muy diferentes.
Como seala TUKEY (1962), gran parte del poder e importancia de los
Mtodos Grficos, es que nos permiten percibir aquello que nunca
esperbamos ver.
1.2.2.2 Los grficos como herramienta de engao
ESPACIO PERCEPTIVO Y ESPACIO MATEMTICO EUCLDEO
A pesar de la reconocida importancia y poder del lenguaje grfico, el
proceso
perceptivo y cognoscitivo que se produce durante la inspeccin de un
grfico no es del
todo conocido.
En las Matemticas los espacios se construyen a partir de unos axiomas, y
se
describen y definen por una geometra. Hay varios tipos de espacios
matemticos,
definidos por sus correspondientes geometras (topolgico, proyectivo,
afn,
eucldeo...). El ms conocido y utilizado, es el Espacio Eucldeo.
El espacio fsico en el que vivimos, puede considerarse aproximadamente,
y
teniendo en cuenta el alcance de nuestra percepcin, como un espacio
matemtico
eucldeo. Admitir que el espacio fsico es eucldeo no equivale a que el
perceptual lo
sea, y as, aun no est claro que la idea subjetiva de distancia, por
ejemplo, coincida con
la distancia fsica definida en relacin con las coordenadas
rectangulares. Segn
VURPILLOT (1979), el espacio visual binocular es un espacio de curvatura
negativa
al que la geometra hiperblica de Lobatchefsky describra de forma ms
adecuada.

68
Sin embargo, y a pesar de esta controversia acerca de si el espacio
perceptivo
coincide con en el espacio matemtico eucldeo, es ste -por aproximacin
al espacio
fsico- el que generalmente utilizamos para representar el mundo.
No obstante, representadas en un espacio Eucldeo, las cosas no son
siempre
aquello que parecen ser.
Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente
humana funciona como una totalidad, y no son los sentidos, sino el
sujeto, quien
percibe".
ILUSIONES GEOMTRICAS
Lo que acabamos de comentar se pone especialmente de manifiesto en las
conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura
1.27a y b)
Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud,
parecen de diferente tamao
(b): Ilusin de PoggendorfLas lneas oblicuas son colineales
Estas distorsiones perceptivas, conocidas ya a principios de siglo,
deberan ser
tenidas en cuenta en el contexto de los Mtodos Grficos. Son sin embargo
pocos los
estudios experimentales realizados que examinan el papel de las
distorsiones
perceptivas (ilusiones geomtricas) en relacin con la utilizacin de los
grficos, y la
mayora de ellos no son conocidos por el usuario medio, como afirman
SPENCE &
LEWANDOWSKY (1990).
POULTON (1985) ha investigado ilusiones similares a la clsica de
Poggendorf,
mediante experimentos que sugieren que las relaciones de lneas
inclinadas sobre los
ejes vertical y horizontal de los grficos pueden producir errores de
lectura, que se
incrementan a medida que aumenta la distancia a los ejes.

69
SOLUCIONES PARA MITIGAR LAS ILUSIONES GEOMETRICAS
POULTON (1985) propone:
. que los todos los grficos muestren los cuatro ejes.
. que todos los ejes estn graduados.
INCONVENIENTES DE LAS REPRESENTACIONES GRFICAS
Las representaciones grficas tienen ventajas, pero tambin sus
inconvenientes. La
frase "una imagen vale ms que mil palabras" podra cambiarse por esta
otra "una imagen
miente ms que 1000 nmeros" (SWOBODA, 1975).
Las representaciones grficas deberan proporcionar con una sola mirada
aquella idea del material estadstico que vena dada por la comparacin
de
muchos nmeros y datos.
Pero... no siempre es as. Los errores y malentendidos surgen cuando el
lector es
distrado o no est suficientemente preparado y adquiere una idea que no
se
corresponde con los datos originales.
10000
9000
8000
7000
6000
I II III IV
(a)
9500
9000
8500
8000
7500
I II III IV
(b)
I/II II/III III/IV
9%
8%
7%
6%
5%
(c)
Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un
crecimiento moderado. Los mismos datos
pueden expresar un crecimiento explosivo y optimista (b). Se puede
obtener una curva ascendente primero, y
descendente despus si se toman los ndices de crecimiento de uno a otro
perodo en lugar de
los nmeros absolutos (c). (Adaptada de SWOBODA, 1975).

70
No se pueden juzgar nunca las imgenes solas, sino que siempre
deben considerarse tambin los nmeros y las escalas.
1.2.3 Representaciones grficas
ms usuales
1.2.3.1 Introduccin
El artculo publicado por TUKEY en 1962, "The Future of Data Analysis",
fue el
germen que proporcion un inusitado auge de Mtodos Grficos en la
Estadstica,
inaugurando una nueva era en este campo, al otorgarles un papel central
en anlisis
exploratorios.
Sin embargo, la importancia y protagonismo que entonces se prevea, no
lleg a
hacerse realidad hasta ms tarde. Fue en la dcada de los 70 cuando
aparecen
publicaciones sobre el tema, tanto histricas (ROYSTON, 1970), como de
recapitulacin (FIENBERG, 1977), o de carcter novedoso (CHERNOFF, 1973;
TUKEY, 1977). Incluso tiene lugar un Simposio sobre el tema (WANG &
LAKE,1978).
La aparicin, desarrollo y generalizada utilizacin de los ordenadores
fue y es, sin
duda, la causa fundamental.
1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin
grfica:
SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo,
realizan
una clasificacin de los distintos mtodos grficos en tres grandes
grupos:
-Grficos utilizados en Anlisis Exploratorios.
-Grficos usados en Anlisis Confirmatorios.
-Grficos para la Comunicacin y/o Presentacin de los resultados.

71
Esta clasificacin de los Mtodos Grficos, resulta de un gran atractivo
por su
sencillez y didctica.
En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo
cientfico
en donde tienen cabida las representaciones grficas.
Figura 1.29: Posible implementacin de los mtodos grficos en el proceso
del Anlisis de Datos, segn NAGEL & DOBBERKAU (1988)
ALONSO (1982) realiza una clasificacin en funcin de la finalidad
estadstica y
las caractersticas tcnicas de los distintos mtodos grficos. En ella,
stos son
clasificados en cuatro grupos de tcnicas.
-Tcnicas de Representacin Grfica de la distribucin de Probabilidad,
para una o varias variables.
-Tcnicas que proporcionan el Perfil (o evolucin) a lo largo del tiempo,
o
del espacio, etc., de una o varias variables, bien para individuos, bien
para
poblaciones.
-Tcnicas que presentan las proximidades entre individuos y poblaciones,
de acuerdo con los valores que toman para varias variables.
-Tcnicas que permiten obtener grupos jerarquizados de individuos o
poblaciones, en base a los valores que toman para varias variables.

72
En base al procedimiento grfico y la tcnica estadstica subyacente, en
el
Anlisis Multivariante pueden distinguirse claramente dos grandes grupos
de tcnicas
grficas:
. Mtodos Multivariantes Grficos (MMG).
. Mtodos Grficos Multivariantes (MGM).
Los Mtodos Multivariantes Grficos son potentes herramientas de
diagnosis basadas
en el anlisis de grandes matrices de datos, que mediante complejos
procesos
algebraicos asentados sobre mtodos numricos, permiten representar la
informacin
del hiperespacio de partida en un subespacio de dimensiones reducidas.
Evidentemente se trata de procedimientos sumamente interesantes, pero que
escapan al contenido del presente captulo.
Los Mtodos Grficos Multivariantes slo exigen efectuar una
transcripcin
geomtrica de los datos correspondientes a un conjunto de variables, en
una
representacin grfica.
Este tipo de mtodos permiten resumir la informacin, y constituyen
directamente
un procedimiento grfico descriptivo. Entre ellos tenemos:
.Diagramas de Dispersin Mltiple.
.Figuras de Representacin (Grficos Pictoriales o Iconos).
.Curvas de Andrews.
Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver
figura
1.30)
1.2.3.3 Representaciones grficas en el anlisis
multivariante
MTODOS GRFICOS UNIVARIANTES MULTIPLES
Muchas de las representaciones utilizadas en anlisis multivariante no
son en s
mismas multidimensionales ya que, a pesar de ser un conjunto de grficas
que forman
una representacin unitaria, cada una de ellas por separado slo muestra
una dimensin
(o a lo sumo dos) de los datos referidos a varias variables o
dimensiones. Desde ellas no

73
se puede mostrar una variacin comn. Son por ello Mtodos Grficos
Univariantes
Mltiples, ms que multivariantes.
Evidentemente, son muchas las posibilidades que permiten las
representaciones
univariantes en el anlisis de los datos correspondientes a varias
variables. Sin embargo,
estas representaciones no difieren en sus caractersticas de los mtodos
grficos
univariantes pero debido a su importancia, popularidad y utilizacin en
todos los
mbitos, merece la pena hacer referencia a tres tcnicas:
.Stem & leaf, Box-plot *
.Diagrama de dispersin** .
Curvas de Andrews Mapas Estadsticos
Grficos Pictoriales
o Figurativos
Diagrama de Dispersion
Mltiple



Figura 1.30: Algunos Mtodos Grficos Multivariantes
(Tomado de AVILA-ZARZA (1993) con permiso del autor)
.Stem & leaf
* Ambos son mtodos grficos de gran utilidad en la comparacin de dos o
ms series
de datos, de ah su importancia dentro del anlisis multivariante
** Mediante esta representacin grfica es como generalmente se presentan
los
resultados en la mayora de los mtodos multivariantes grficos (MGM).

74
La representacin Stem & Leaf*** es una representacin intermedia entre
una tabla y un grfico. Muestra los valores con cifras, aunque su perfil
es el
de un histograma.
Este tipo de representacin se debe a TUKEY (1977). (Ver figura 1.31).
Construccin de un diagrama Steam & Leaf
1.- Se debe escribir a la izquierda de una lnea vertical, de arriba
hacia abajo,
todos los posibles dgitos principales del conjunto de datos.
2.- Luego se representa cada dato a la derecha de la lnea, escribiendo
sus dgitos
secundarios en la fila apropiada.
Lectura del grfico
La longitud de cada fila nos muestra el nmero de valores en cada
intervalo, por
lo que representa esencialmente un histograma lateral, solventando una
limitacin del
histograma, ya que permite identificar los valores originales de cada
intervalo.
La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los
50 estados
de Estados Unidos ordenados segn la variable "voto medioambiental",
cuyos datos
aparecen en la tabla 1.1. Esta variable mide cmo la delegacin
congresista de cada
estado vot en relacin a temas de medioambiente durante el ao 1984.
Refleja el
porcentaje de veces que sus votos estuvieron de acuerdo con las
recomendaciones del
grupo "The League of Conservation Voters". As el valor de Idaho, 12,
significa que el
voto de sus representantes estuvo de acuerdo con la liga en el 12% de las
ocasiones.
1 267
2 6
3 33345699
4 01477779
5 123456667799
6 224999
7 02222499
8 26
9 6
Figura 1.31: Representacin Stem & leaf de la tabla 1.1
*** Literalmente traducido, diagrama de tallo y hojas

75
Se observa claramente cmo el rango del porcentaje vara desde 12 hasta
96.
Tambin puede apreciarse como la distribucin es aproximadamente
simtrica de modo
que el valor mediano (siendo este valor 55%) se encuentra en el intervalo
de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo
correspondiente).

76
Estado
Porcentaje
de voto
medioamb.
Estado
Porcentaje
de voto
medioamb.
Idaho 12 S. Dakota 55
Utah 16 Illinois 56
Alaska 17 Montana 56
Wyoming 26 Missouri 56
Alabama 33 Ohio 57
Mississippi 33 Washington 57
Virinia 33 California 59
Nebraska 34 N. Dakota 59
Arizona 35 Maryland 62
Arkansas 36 Pnnsylvania 62
Texas 39 Hawaii 64
Kansas 39 Delaware 69
Louisiana 40 Michigan 69
Kentucky 41 W. Virginia 69
N. Carolina 47 Minnesota 70
Tennessee 45 New York 72
New Mexido 47 Wisconsin 72
Nevada 47 New Hampsh. 72
S. Carolina 47 New Jersey 72
Colorado 47 Iowa 74
Georgia 49 Maine 79
Florida 51 Connecticut 79
Oclahoma 52 Massachusetts 82
Oregon 53 Rhode Island 86
Indiana 54 Vermont 96
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de
EE.UU. en 1984:
Porcentaje de acuerdo con "The League of Conservation Voters".
(Tomado de HAMILTON, 1990)
Este mtodo tambin es de gran utilidad para la comparacin de dos o ms
series
de datos, como hemos dicho con anterioridad, representando un diagrama
steam & leaf
para cada serie.
.Box-plot
Esta representacin grfica, tambin debida a TUKEY (1977), puede ser
traducida
como Caja con Bigotes o Representacin Caja, aunque se conoce usualmente
con el
nombre de Box-plot o bien Box and Whiskers plot.
Es un mtodo grfico simple para resumir la informacin, proporcionando
una rpida impresin de las caractersticas ms importantes de una
distribucin.

77
Figura 1.32: Diagrama que muestra un Box-plot, en el que se indican
los percentiles que son representados en el grfico
Esta representacin (Figura 1.32), consiste bsicamente en una caja
dispuesta
verticalmente que 'encierra' el recorrido intercuartlico; es decir, la
lnea inferior indica
el primer cuartil (25 percentil), y la lnea superior seala el tercer
cuartil (75 percentil). Otra
lnea intermedia marca el 50 percentil o Mediana as como su posicin
relativa en
relacin al rango intercuartlico.
Los Whiskers (bigotes), o lneas que se prolongan verticalmente, marcan
los
valores extremos en algunos casos. En grandes conjuntos de datos, marcan
el 10 y 90 e
incluso 5 y 95 percentil.
Usualmente, los 'bigotes' indican el 10 y 90 percentil, siendo sealados
los puntos
extremos o aberrantes ("Outliers"), con pequeos crculos o estrellas* .
Una variante del mtodo anterior es la que se conoce con el nombre de
Notched
Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33;
dicha
variante no es ms que un 'Box-plot con muescas', siendo las muescas la
indicacin del
intervalo de confianza para la medida de tendencia central usada, es
decir, la Mediana.
Ambos mtodos son especialmente convenientes para comparar dos o ms
conjuntos de datos.
* Usualmente aparece as implementado en la mayora de los programas de
ordenador,
por ejemplo en el programa Stat-View 4.01 (ABACUS, 1993)

78
Figura 1.33: Diagrama de un Notched Box-plot, en el
que se indica el nuevo valor que es representado.
En el grfico de la figura 1.34 podemos comparar la presencia (en
porcentaje) una
especie de lagartija (Podarcis muralis) en tres hbitats diferentes en la
Sierra de
Guadarrama (tomado de MARTIN-VALLEJO, 1990).
Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis
muralis
presenta en la ocupacin de tres tipos de hbitat en la Sierra de
Guadarrama:
Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).

79
Incluso en algunos programas combinan informacin en un mismo grfico,
como
puede observarse en el siguiente (figura 1.35) realizado con el JMP (SAS
Institute Inc.
1989-94), en el cual adems de un Box-plot aparece la informacin sobre
la media y su
intervalo de confianza.*
Figura 1.35: Grfico obtenido con el programa JMP. Adems de un Box-plot
aparece informacin sobre la media aritmtica y su intervalo de
confianza.
.Diagramas de dispersin
Un Diagrama de puntos, ms conocido como Diagrama de Dispersin, es un
mtodo simple pero eficiente para ilustrar un determinado comportamiento
o bien
analizar una distribucin en particular; su finalidad puede ser la de
poner de manifiesto
una relacin entre variables, analizar proximidades entre individuos y/o
poblaciones,
localizar outliers...
Por ser un mtodo suficientemente conocido, no se realizar un estudio
detallado
de dicha representacin, si bien -dada su importancia- se comentarn
algunas de las
posibilidades que permite en el estudio de datos multivariantes.
La informacin visual de un diagrama de dispersin puede ser incrementada
mediante varias herramientas adicionales (CHAMBERS & KLEINER, 1982); por
ejemplo, mediante un Box-plot paralelo marginal para cada variable. (Ver
figura 1.36).
* Ver el apartado 4.1.3 relativo a intervalos de confianza

80
.
25
20
15
10
5
0
0 10 20 30
SA
AV
SG
LE
SO
P
BU
VA
ZA
BARBECHO
PASTIZAL
Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de
la superficie de
cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y
Len.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)
Para representar las relaciones entre ms de dos variables, una
posibilidad es
aadir una tercera, obteniendo as un Diagrama de Dispersin
Tridimensional, como
se muestra en la figura 1.37.
Figura 1.37: Diagrama de Dispersin Tridimensional, de la superficie de
cultivo
dedicada a Barbecho, Prado y Herbceo en las provincias de Castilla y
Len.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)

81
Existen sistemas grficos de ordenador (SYSTAT, JMP, SPSS), que permiten
mediante la opcin denominada 'SPIN'- la 'exploracin multivariante' de
estas
representaciones tridimensionales, al rotar la nube de puntos alrededor
de cualquier eje
en la pantalla, y visualizar de este modo todos los puntos, y sus
posiciones relativas. El
resultado puede llegar a ser realmente espectacular con el uso del color
en la
representacin.
De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre
otros),
esta importante innovacin grfica constituye una de las ms potentes
tcnicas de
anlisis visual de datos multivariantes existentes en la actualidad.
Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos'
que salen
al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido
posible por el
desarrollo que en los ltimos tiempos han sufrido los ordenadores; el
movimiento en
tiempo real de la nube tridimensional exige operar con una gran cantidad
de datos con
potencia y rapidez.
.Matriz de Diagramas de Dispersin
Otra forma de representar relaciones entre ms de dos variables, es
dibujando
pares de variables mediante diagramas de dispersin, que son ordenados en
una
Scatterplot Matrix , o Matriz de Diagramas de Dispersin (figura 1.38),
proporcionando de este modo, en una nica imagen visual, todos los pares
posibles;
todas las variables.
Aunque cada diagrama por separado muestra tan slo dos dimensiones de los
datos (no es posible detectar una variacin comn), en ocasiones esta
representacin
univariante mltiple puede ser efectiva en la deteccin de 'outliers', o
patrones de los
datos.
Los Diagramas de Dispersin Mltiples, nombre con el cual tambin se
conoce
a este tipo de representacin, son anlogos grficos de las matrices de
covarianzas o
correlaciones utilizadas en la mayor parte de las tcnicas grficas
multivariantes. En
este sentido podran considerarse tcnicas grficas multivariantes.

82
Figura 1.38: Matriz de diagramas de dispersin de la superficie de
cultivo dedicada a
Barbecho, Prado, Herbceo y Pastizal en las provincias de Castilla y
Len.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)
MTODOS GRFICOS MULTIVARIANTES (MGM)
Los Mtodos Grficos Multivariantes, como hemos apuntado con
anterioridad,
son mtodos que simplemente exigen efectuar una transcripcin geomtrica
de los datos
(correspondientes a un conjunto de n variables, n>2 ), en una
representacin grfica.
Constituyen directamente por ello un procedimiento descriptivo.
Cmo podemos representar grficamente valores de ms de tres variables
en una representacin grfica?
Cuando los datos tienen ms de dos o tres dimensiones, la representacin
grfica
se hace complicada: las dimensiones del plano no son capaces de acoger un
mayor
nmero de variables que los que acoge la representacin cartesiana
convencional, o la
tridimensional; por lo tanto se requiere otro tipo de representacin.
Existen diferentes mtodos para representar datos multivariantes,
prcticamente
tantos como autores se han ocupado del tema. No se realizar por ello una
revisin
exhaustiva ni una descripcin detallada de los MGM; solamente se
enumerarn algunas
de las tcnicas existentes en la actualidad, y nicamente se expondrn
con cierto detalle
las ms importantes y actuales que permiten la representacin grfica de
entidades
definidas por varias variables, como son las Caras de Chernoff (CHERNOFF,
1973), y
las Curvas de Andrews (ANDREWS, 1972), o las Gotas de Fourier.

83
Como en todo Anlisis Multivariante, se parte de una matriz de datos que
contiene
la informacin de los valores que los individuos toman para cada una de
las variables a
estudiar, que ser la que se representar de forma grfica.
Antes de representar dicha matriz pictricamente, debe cuestionarse cual
ser el
uso que se dar a dicha representacin, y el objetivo final de la misma;
teniendo en
cuenta, adems, que por lo general sern los individuos las entidades
representadas.
Todo ello en base a elegir el mtodo de representacin ms adecuado.
La prctica totalidad de los Mtodos Grficos Multivariantes que se
conocen,
no son otra cosa que 'constructos pictricos', (tambin conocidos como
grficos pictoriales o figurativos, o simplemente 'Iconos'), formados por
elementos geomtricos (puntos, rectas, curvas, tringulos, crculos...)
que
varan en funcin de los valores que toman las variables en los
individuos a los
que representan.
Algunos de los muchos MGM existentes, son los que aparecen esquematizados
en
la figura 1.39. (Tomada de AVILA-ZARZA, 1993).
Entre los mtodos representados en esta figura, unos se caracterizan
porque las
variables se representan como longitudes de las componentes grficas; es
el caso de los
Polgonos o Estrellas (rayos circulares emanando de un origen comn), o
los Glifos, (segmentos
que se extienden desde un crculo); otros -es el caso de las Caras de
Chernoff- representan
las variables mediante caractersticas faciales (excentricidad de la
cara, la curvatura de la boca o
la inclinacin de los ojos...), etc..
La mayora de las tcnicas se encuentran ya informatizadas, de modo que
el
investigador tan slo deber determinar el orden de asignacin de las
variables para su
construccin.

84
Grficos de veleta
Polgonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
Figura 1.39: Algunos tipos de Mtodos Grficos Multivariantes
(tomada de AVILA-ZARZA, 1993)
Interpretacin de las representaciones grficas multivariantes
Cada elemento de un icono no puede ser convertido al valor numrico; las
transformaciones que en general suelen realizarse, son lo suficientemente
complejas
para que nosotros podamos interpretar esos valores mentalmente con la
simple
observacin visual de los mismos.
La correcta interpretacin de estos mtodos consiste, fundamentalmente,
en
buscar grficos similares. Entidades con similares valores para las
variables
tendrn formas parecidas; y entidades con diferentes valores, presentaran
formas diferentes.
Esto nos permitir encontrar patrones de variacin similares, en
contraposicin
con otros tipos de patrn, y por tanto, por ejemplo, establecer grupos o
'Clusters'. Si se
desea obtener informacin acerca de los valores de partida, deber
volverse sobre los
datos originales y examinar los valores correspondientes, y cmo estos
determinan los
grficos.

85
Veamos, de manera simplificada, alguno de estos mtodos.
.Polgonos o Estrellas
Determinan perfiles configurados por segmentos que parten de un origen
comn, y cuya longitud corresponde al valor que -para cada entidad- toma
la
variable a la cual dicho segmento representa.
Las figuras 1.40 y 1.41, son un ejemplo de este tipo de representacin
ASALTOS
ROBOS
ALLANAMIENTOS
DE MORADA
HURTOS
ROBOS DE
COCHES
ASESINATOS VIOLACIONES
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la
asignacin de las
variables a cada segmento, para el ejemplo de la figura 1.41
Figura 1.41: Iconos de estrella representando los datos de la
criminalidad en diversas
ciudades de EE.UU. (datos originales de EVERITT, 1993).

86
Para hacer la representacin ms visible, los extremos de los segmentos
pueden
ser conectados entre si. El programa de ordenador SYSTAT (WILKINSON &
EVANSTON, 1988), presenta los resultados (tras la aplicacin de este
mtodo),
mediante los polgonos que resultan de la conexin de estos segmentos,
pero sin que los
mismos aparezcan.
Como en otros grficos figurativos, es conveniente ordenar las variables
de tal
manera que aquellas que estn correlacionadas aparezcan prximas.
.Gotas o Manchas de Fourier
Se trata de otro mtodo de representacin grfica multivariante (Ver
figura. 1.42)
Esta est determinada por la funcin de Fourier:
f ( t) =
y1
2
+ y2sen(t) + y3 cos(t) + y4sen(2t) + y5 cos(2t)
donde y es una variable p-dimensional y t vara desde -3,14 hasta 3,14.
El resultado de esta transformacin es un conjunto de formas onduladas
hechas a
partir del seno y el coseno, que trasladadas a coordenadas polares, toman
el parecido
de manchas, gotas o amebas.
Cada individuo vendr representado por una gota, de modo que podremos
encontrar clusters de individuos "parecidos" cuando las gotas que los
representan tengan
una forma similar. La forma de las gotas dependen del orden de
introduccin de las
variables en la funcin de Fourier.
La informacin contenida en las gotas de Fourier es la misma que la de
las curva
de Andrews (que veremos al final del captulo) pero con la ventaja de que
no se solapan
y pueden ser utilizadas como smbolos en otro tipo de representaciones
grficas.

87
Avila Burgos Leon
Palencia Salamanca Segovia
Soria Valladolid Zamora
Figura 1.42: Gotas de Fourier representando las provincias de
Castilla Len en cuanto a diferentes variables de produccin agraria.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)
.Caras de Chernoff
No se ra!. Estas son las primeras palabras con las que se presenta a
los lectores
este mtodo de representacin de datos multivariantes en el manual
SYGRAPH, que
trata de las representaciones grficas que el programa estadstico para
ordenador
SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin
de los que
desconociendo el mtodo, se encuentran de pronto con caras de rasgos
caricaturizados
en una ponencia o en un trabajo de investigacin; quizs para
contrarrestar la aparente
falta de seriedad (argumento esgrimido por sus detractores), que puede
inducir a ms de uno a
descartarlo sin haberlo tomado en consideracin.
Figura 1.43: Caras de Chernoff correspondientes a las provincias de
Salamanca y Valladolid,
epresentando la variabilidad de cultivos. (Grfica cedida por VICENTE
TAVERA y cols., 1993)

88
El mtodo original, aparecido en el trabajo "Using faces to represent
points in
k-dimensional space graphically", que fue publicado en 1973 en Journal of
the
American Statistical Association, se debe a H. CHERNOFF, al que no le
caus trauma
alguno enfrentarse al reparo psicolgico que los investigadores pronto
tuvieron con el
mismo (ALONSO, 1982).
CHERNOFF (1982) comenta, que buscaba un mtodo grfico sencillo que
representara, de forma compacta, un nmero importante de variables, de
forma que
causase el mximo impacto en el observador, y permitiese un buen
contraste y
clasificacin de las entidades representadas. De entre todas las
posibilidades, eligi las
caras para aprovechar la capacidad de reconocimiento del observador
humano, que
puede discriminar muchas caras diariamente, y por el impacto o reaccin
emocional que
dichas caras provocan, lo que acenta su poder de captacin de atencin y
su carcter
nemotcnico.
El principio heurstico de las caras de Chernoff est basado, pues, en la
capacidad
del hombre para reconocer, comparar y agrupar caras.
Este procedimiento grfico, que requiere la utilizacin de un programa de
ordenador para ser realizado, concentra la informacin de cada individuo
en un rostro
humano caricaturizado, cuyos rasgos reflejan cada una de las variables o
"descriptores"
(Figura 1.43).
Originalmente, las caras estaban determinadas por 18 parmetros tales
como la
longitud de la nariz, el tamao de los ojos o la curvatura de la boca
(CHERNOFF,
1973.). Los 18 parmetros o facciones que originalmente determinaban el
dibujo de las
Caras de CHERNOFF, son los que aparecen en la figura 1.44.
Estos 18 parmetros son los que se hacen variar, reflejando as el
comportamiento
de cada una de las variables en todas las entidades o individuos (caras)
representados.
En la figura 1.45 se esquematiza la serie de parmetros que se hacen
variar, lo que
permite representar hasta 18 variables.

89
1. Anchura de la cara.
2. Nivel de la oreja.
3. Altura de la cara.
4. Excentricidad de la elipse superior cara.
5. Excentricidad de la elipse inferior cara .
6. Longitud de la nariz .
7. Posicin centro de la boca.
8. Curvatura de la boca.
9. Longitud de la boca.
10. Altura del centro de los ojos.
11. Separacin de los ojos.
12. Inclinacin de los ojos.
13. Excentricidad de los ojos .
14. Longitud ojo.
15. Posicin de las pupilas.
16. Altura de la ceja.
17. ngulo de la ceja.
18. Longitud de las cejas.
Figura 1.44: parmetros de las caras de Chernoff
Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff,
segn BRUCKNER (1978).
A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988),
que incluye nariz y oreja
Las variaciones de los rasgos caricaturizados dan una apariencia concreta
a la
cara, que representa un punto en un espacio de 18 dimensiones. En
espacios de
dimensin menor, es decir, cuando el nmero de variables es menor que el
de facciones,
se asignan las variables a los primeros rasgos, tomando los rasgos
restantes un valor
constante para mantener la imagen facial completa (participan en las
figuras sin variar),
por ejemplo.

90
Cada variable estudiada se asigna a uno de los parmetros que controlan
los
rasgos, de forma que el valor del parmetro facial sea proporcional al
valor que toma la
variable en el individuo a representar. Para ello se deja variar el
parmetro dentro de un
rango de variabilidad preestablecido, de manera que la estructura global
mantenga las
caractersticas bsicas de una cara. Algunos parmetros faciales varan
libremente
(dimetro de la oreja), pero la mayora quedan supeditados a la exigencia
anterior y
dependen de otras caractersticas faciales.
La asignacin de cada variable a cada parmetro facial es optativa. Hay
usuarios
del mtodo que prefieren efectuar una asignacin al azar, mientras que
otros establecen
una correspondencia intencionada.
Existen otras variantes de caras.
La variante de Davis (BRUCKNER, 1978) aade dos variables ms (anchura de
nariz y
dimetro de orejas). (Ver figura 1.45).
EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la
intencin de que
resulten menos caricaturescas.
NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.
Un programa que permite representar la variante de Davis, es el programa
CHER,
implementado por ALONSO en colaboracin con M.A. Campos.
Otros programas que implementan las Caras son:
. ASYM: Programa en Fortran.
. SCHPBACH (1984): Versin para IBM. PC.
. SAS-Macro con caras asimtricas.
Aplicaciones
Algunas aplicaciones que se pueden encontrar en la literatura, abarcan
casos tan
diversos como* :
* Caracterizacin de presas del Guadiana por sus variables ecolgicas
(ALONSO, 1982).
* Estudio de los resultados de las elecciones municipales en 27
poblaciones catalanas
(ALONSO, 1982).
* Estudio sobre la poltica sovitica en frica (WANG & LAKE, 1978).
* Nos ha parecido apropiado incluir estas referencias para que el
profesor tenga acceso a
un material complementario al que se ofrece en este trabajo

91
* Estudio econmico de las grandes compaas petrolferas (BRUCKNER,
1978).
* Clasificacin de tipos de enfermos mentales caracterizados por diversos
test (MEZZICH
& WORTHINGTON, op. cit.).
* Asignacin de caras con distintas actitudes faciales a enfermedades
mentales (JACOB,
78).
* Agrupacin de distintas ciudades caracterizadas por variables
demogrficas y
ambientales (HUFF & BLACK, 1978).
* Estudio de la polica secreta sovitica (WANG & LAKE 1978).
* Estudio de los crteres de la Luna (PIKE, 1974)
* Perfiles de la personalidad psiquitrica (MEZZICH & WORTHINGTON, op.
cit.)
* Variabilidad de Cultivos en la comunidad Castellano-Leonesa (VICENTE
TAVERA y
col., 1993). (Ver figura 1.46).
LEON
PALENCIA
BURGOS
VALLADOLID
ZAMORA
SALAMANCA
AVILA
SEGOVIA
SORIA
CACERES
TOLEDO
MADRID
GUADALAJARA
RIOJA
ALAVA
VIZCAYA
CANTABRIA
ASTURIAS
LUGO
ORENSE
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las
provincias de Castilla-Len,
representando la variabilidad de cultivos. (Grfica cedida por VICENTE
TAVERA y cols. 1993).

92
Ventajas e inconvenientes.
Ventajas
1.- Facilidad de reconocimiento global de la informacin contenida en las
caras;
se trata de una caracterstica de la percepcin humana confirmada por
diversos
estudios experimentales. JACOB (1978) demostr que los sujetos sin
preparacin
o conocimiento de las variables representadas, pueden juzgar con caras
con
razonable exactitud
2.- Los datos representados pueden ser heterogneos y no se exige ninguna
condicin estadstica.
3.- Con este mtodo resulta sencillo efectuar agrupaciones por
similitudes de
rasgos.
4.- Es una Tcnica que permite concentrar la informacin de todas las
variables en
una figura muy compacta.
Tanto la asignacin intencionada de rasgos, como la subjetividad al
seleccionar
determinadas facciones para identificar similitudes, puede constituir una
ventaja o una
desventaja segn las exigencias del trabajo y del observador, ya que
otros mtodos aparentemente neutros- tambin presentan riesgos de subjetividad.
Diversos autores abogan por una estricta aleatoriedad en la asignacin de
rasgos
(ALONSO, 1982), as como efectuar diversas asignaciones para corroborar
las
agrupaciones, evitando as los posibles efectos subjetivos de la
clasificacin.
Otros, por el contrario, defienden la asignacin intencionada y
aprovechar dichos
factores subjetivos (HUFF & BLACK; 1978).
Inconvenientes
1.- Necesidad de un dispositivo grfico y un programa.
2.- Prdida de informacin directa de los valores concretos de las
variables
(comn a la prctica totalidad de los MGM).
3.- Dificultad de reconocimiento, cuando se tiene un grupo muy numeroso
de
caras, o cuando existe un nmero elevado de variables.
4.- Interdependencia de los rasgos que hace que, cuando uno de ellos
adopta un
valor muy alto, puede modificar otros (que en principio deberan ser
iguales a los
presentados por otra cara no deformada por dicha interdependencia).

93
BRUCKNER (1978) sugiere la normalizacin de los rasgos (reducirlos a
reas
limitadas) para evitarlo.
5.- Existencia de rasgos que destacan ms que otros en la discriminacin,
por lo
que HUFF & BLACK (1978) recomiendan efectuar un anlisis de la varianza y
asignar a los rasgos ms significativos (boca, ojos, anchura cara, etc.)
las variables
con mayor varianza. Una variable puede ser portadora de mayor
informacin, si
se representa por la curvatura de la boca, que por el tamao de las
cejas.
6.- Debe tenerse precaucin a la hora de asignar los rangos de los
parmetros
faciales, pues si se eligen muy amplios y las variables tienen poca
variabilidad no
se obtiene discriminacin alguna . En cambio, si no se determinan
correctamente
los rangos de variabilidad de las variables, puede suceder que los rasgos
se salgan
de la cara.
. Curvas de Andrews.
ANDREWS (1972) propone un tcnica muy simple, conocida como "Curvas de
Andrews", para obtener una representacin visual de datos multivariantes,
donde cada
punto es representado en una suma de funciones trigonomtricas.
Este mtodo, a caballo entre el perfil y la reduccin de la dimensin,
consiste en
representar a cada individuo, que presenta los valores muestrales
(x1, ..., xk) de las
variables consideradas, mediante un grafo de la funcin peridica:
f ( t) =
x1
2
+ x2sen( t) + x3 cos( t) + x4sen(2t) + x5 cos(2t)
para valores de t comprendidos entre - p< t < p.
Este tipo de funciones son fcilmente trazables mediante un dispositivo
grfico y
un sencillo programa, obtenindose, para los individuos considerados,
series de curvas
que permiten la interpretacin posterior (Figura 1.47 y 1.48).
Los clusters y puntos aberrantes, son revelados por el hecho de que las
distancias
entre dos funciones son concebidas proporcionales a la distancia eucldea
de los objetos
en el espacio p dimensional original, por la preservacin de la media y
la desviacin.
Interpretacin.

94
ANDREWS (1972), destaca el hecho de que cada curva recoge y resume
informacin de todas las variables que afectan al individuo, de manera
que las
diferencias entre individuos para alguna de ellas debe resultar
manifiesta en alguna
parte de las respectivas curvas.
Figura 1.47: Curvas de Andrews de los porcentajes de nutrientes en
distintos productos
alimenticios. Recogidos por el Departamento de Agricultura de E.E. U.U.
.
-180 -90 0 90 180
0
1000
2000
3000
4000
GRADOS
-1000
-2000
COMPONENTE DE FOURIER
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la
criminalidad de
diecisis ciudades diferentes de EE.UU.
La conservacin de las distancias eucldeas originales para las curvas
permite,
segn el autor, afirmar que dos curvas similares a lo largo del recorrido
de t
corresponden a individuos prximos.

95
Por ello, al analizar un conjunto de curvas se deben buscar aquellos
valores de t
que permiten identificar o discriminar al mximo algunos grupos de ellos
y efectuar, si
se cumplen las condiciones necesarias, un contraste para la significacin
de la
agrupacin.
Dado que la primera impresin de un conjunto numeroso de curvas (el autor
desaconseja superar las 10) puede resultar desconcertante (figura 1.48),
suele realizarse
una representacin previa de varias curvas por separado (mejor si se
tienen grupos de
referencia), de forma que pueden identificarse dichos valores de t que
permitan
interpretar las proximidades de nuevas curvas que se vayan aadiendo.
Como hay variables que estn asociadas a elementos cclicos de la funcin
con
distinta frecuencia y se discrimina mejor en las curvas las bajas
frecuencias, es
aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos
correspondientes a las
variables ms importantes en la discriminacin, es decir, las que
reflejan ms
variabilidad.
Sin embargo, se carece de informacin acerca de la relacin concreta de
las
distintas crestas de la curva con los valores de las variables, al
perderse toda la
informacin directa.
BIBLIOGRAFIA CITADA
ABACUS (1993). StatView 4.01. Berkeley.
ALONSO, G. (1982). 'Nuevos mtodos de representacin grfica de datos
multivariantes. Publicaciones
de Bioestadstica y Biomatemtica. 5. Eunibar. Universidad de Barcelona.
ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28:
125-136.
ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American
Statistician, 27: 17-21.
ANUARIO DE ESTADISTICA AGRARIA (1990). Publicado por el Ministerio de
Agricultura, Pesca y
Alimentacin. Datos correspondientes a 1987.
AVILA-ZARZA, C. (1993). Mtodos Grficos Multivariantes y su Aplicacin
en las Ciencias de la Vida.
Trabajo de Grado. Dpto. de Estadstica y Matemtica Aplicadas.
Universidad de Salamanca.
BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation
of Multivariate Data.
(P.C.C. Wang, ed.). pp.: 93-121. Academic Press.
CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for
multivariate data & clustering'. In
Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) NortHolland P.C.

96
CHERNOFF, H. (1973). 'The use of faces to represent points in kdimensional space graphically'. Journal
of the American Statistical Association, 68: 361-368.
CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical
Sciences. I: 436-438. John Wiley &
Sons. New York.
CRICHTON, M. (1990-92). Parque Jursico. Ed. Plaza y Jans.
DAVIS, F. (1988). La Comunicacin no Vergal. Alianza Editorial. Madrid.
EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New
York.
EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data.
Heinemann Educational Books.
London.
FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report,
304. Dep. Appl. Statistics.
University of Minnessota, 44.
GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with
applications to principal component
analysis'. Biometrika, 58: 453-467.
GETE-ALONSO, J.C. y BARRIO, V. del (1990). Lenguaje Grfico. Alhambra.
Madrid.
HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied
Statiscs. Brooks/Cole
Publishing Company. California.
HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for
regional analysis'. In Graphical
Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218.
Academic Press. New York.
JACOB, R.J.K. (1978). 'Facial representation of multivariate data'. In
Graphical Representation of
Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New
York.
JMP. (1989-94). SAS Institute Inc.
MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies
Simptridas del Genero
Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de
Salamanca.
MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical
representation of
multidimensional psychiatric diagnostic data'. In Graphical
Representation of Multivariate Data (P.C.C
Wang, ed.) pp.: 123-142. Academic Press. New York.
McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots'
Amer. Stat., 32: 12-36.
NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory
data analysis: An
overview'. In Classification and Related Methods of Data Analysis.
Elsevier Science P.B.V. Holland.
NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data.
(Wang, ed.) Academic
Press. New York.
PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate
clasification and mode of origin'. Earth

and Planetary Science Letters, 22: 245-255.


PINILLOS, J.L. (1973). La Mente Humana. Salvat. Pamplona.
POULTON, E.C. (1985). 'Geometric illusions in reading graphs'.
Perceptions and Psichophisics. 37: 543548.
ROMERO-VILLAFRANCA, R. (1991). Estadstica: Proyecto de Innovacin
Educativa. Dpto. de
Estadstica e Investigacin Operativa. Universidad Politcnica de
Valencia.

97
ROYSTON, E. (1970). 'Studies in the history of probability and
Statistics. A note on the history of the
graphical presentation of data'. Biometrika, 43 (3,4): 241; 247.
SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In
Encyclopedia of Statistical
Sciences. John Wiley & Sons. New York.
SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern
Methods of Data Analysis
(J. Fox & J. Scott Long, eds.). Sage Publications. Newbury.
SWOBODA, H. (1975). El Libro de la Estadstica Moderna. Ediciones Omega.
Barcelona.
TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist.
33: 1.
TUKEY, J.W. (1977). Exploratory Data Analysis. M.A. Adisson-Wesley.
Reading.
VICENTE,S.; GALINDO, M.P.; VICENTE-VILLARDON, J.L.; MARTIN, A.; BARRERA,
I. y
FERNANDEZ-GOMEZ, M.J. (1993). 'Anlisis grfico y descripcin estructural
de la variabilidad de
cultivos en Castilla-Len'. Investigacin Agraria, Vol 8(3):315-329.
VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse
& Piaget Eds.). Paids.
Buenos Aires.
WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate
techniques in poligy
sciences'. In Graphical representation of multivariate data (P.C.C. Wang,
ed.) pp: 15-38. Academic
Press. New York.
WILKISON, & EVANSTON (1988-91). SYSTAT. SYSTAT Inc.

98
"REPRESENTACIONES GRFICAS"
1.3 Trabajo de investigacin

99
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta
unidad temtica, utilizando para ello datos reales tomados de la
evaluacin del profesorado universitario durante el curso acadmico
1991-92. Est planteado de forma que pueda ser utilizado como ejercicio
de prcticas para los alumnos, como recapitulacin de las ideas de esta
unidad.
1.3.2 Planteamiento del trabajo
Durante el curso acadmico 1991-92 las autoridades de la Universidad de
Salamanca llevaron a cabo un estudio sobre la calidad de la docencia.
Para ello se prepar un cuestionario con 28 preguntas relacionadas con
seis reas
diferentes de la tarea del Profesor:
Apartado 1.- Consta de tres preguntas relativas al cumplimiento de las
obligaciones docentes del Profesor.
Apartado 2.- Tres preguntas relativas a la calidad y desarrollo del
programa.
Apartado 3.- Cinco preguntas relativas al dominio de la asignatura por
parte del profesor que la imparte.
Apartado 4.- Seis preguntas relativas a la interaccin del profesor con
los alumnos.
Apartado 5.- Tres preguntas relativas a los exmenes.
Apartado 6.- Tres preguntas relativas a la valoracin global del
profesor.
Para cada uno de los profesores que imparte la asignatura, los alumnos
deben
rellenar un cuestionario en el que a cada una de las preguntas se le debe
asignar una
valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el
profesor no
satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que
el profesor
satisface plenamente el supuesto. La evaluacin se realiza en horas de
clase normal,
pasando el cuestionario a los alumnos que en dicho momento se encuentren
en clase.

100
Trabajaremos sobre tres preguntas que consideramos importantes:
La n 3 del cuestionario: "El profesor est accesible para sus alumnos
fuera del horario de clase?"
La n 7: "El profesor parece dominar la asignatura que imparte"
La n 26: "Piensa que el Profesor que imparte esta asignatura es un
buen Profesor"
En este caso, vamos a trabajar sobre los resultados de la evaluacin
docente
obtenidos por un Profesor del Departamento de Estadstica y Matemtica
Aplicadas de
la Universidad de Salamanca, en las diferentes asignaturas que imparti
durante el
citado curso acadmico. A este profesor, le llamaremos de ahora en
adelante "Mrs. X".
1.3.3 Desarrollo del trabajo
Cuando se realiza un trabajo de investigacin, deberemos tener en cuenta,
en
primer lugar, cul es la poblacin en estudio. En este caso, podemos
considerar 4
poblaciones. Cada poblacin estar formada por los alumnos de cada una de
las 4
asignaturas que imparti Mrs. X durante dicho curso.
Generalmente, no se analiza la poblacin completa, sino que se elige un
subconjunto de la misma sobre la que se realiza el estudio, y que se
denomina muestra.
Obviamente la muestra elegida deber ser representativa de la poblacin
de la que es
extrada, es decir, los individuos de la muestra han de contener todas
las caractersticas
relevantes de la poblacin, lo que podemos conseguir por ejemplo tomando
una muestra
aleatoria de la poblacin (ver para ms informacin, el captulo sobre
muestreo). En el
estudio de la universidad se pasa el cuestionario a los alumnos que un
da determinado
se encuentran en clase.
La caracterstica que se pretende estudiar -que se denomina variable- es
en este
caso la opinin de los alumnos acerca de cada uno de los items que hemos
citado con
anterioridad. La variable en este caso es una variable ordinal, siendo
los valores que
puede tomar 1, 2, 3, 4 y 5. Obviamente, la eleccin de la escala no
garantiza que dos
alumnos que otorguen la misma puntuacin al profesor, en una determinada
pregunta,
estn realmente realizando la misma valoracin.

101
1.3.3.1 Tabulacin de los resultados
Generalmente, al llevar a cabo un estudio estadstico, solemos
encontrarnos con
una gran cantidad de datos, cuya interpretacin, y ni siquiera su
presentacin, es fcil.
Es lo que ocurre en este caso. Por ello, en primer lugar necesitamos
realizar un proceso
que nos permita condensar la informacin de manera que podamos obtener
los rasgos
ms sobresalientes. Por ello dispondremos los datos de manera ordenada y
sistemtica
en una tabla de distribucin de frecuencias.
A partir de los resultados obtenidos por "Mrs. X", en las asignaturas que
imparti
durante el citado curso acadmico, se construyeron las correspondientes
tablas de
distribucin de frecuencias. As, para evitar presentar los datos brutos
obtenidos en el
anlisis presentamos a continuacin las tablas de distribucin de
frecuencias para cada
uno de los tems (variables) analizadas y para cada muestra (tablas 1.2,
1.3 y 1.4):
a) "El profesor est accesible para los alumnos"
Frecuencia
Valor de la
variable
Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
1 4 17 11 0
2 6 23 14 3
3 2 19 29 5
4 4 18 17 7
5 0 26 30 8
ni 16 103 101 23
Tabla 1.2
b) "Domina la asignatura que imparte?"
Frecuencia
Valor Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
(Libre dispos.)
1 0 2 1 0
2 0 3 3 0
3 0 3 3 0

4 4 10 11 0
5 12 85 83 23
ni 16 103 101 23
Tabla 1.3

102
c) "Es un buen Profesor?"
Frecuencia
Valor Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
1 1 12 2 0
2 0 8 7 0
3 4 25 21 1
4 4 31 35 7
5 7 27 36 15
ni 16 103 101 23
Tabla 1.4
A partir de la informacin suministrada por las tablas anteriores vemos
cules han
sido los tamaos de las muestras extradas de cada una de las 4
poblaciones en estudio
(denotadas con ni (i=1,...,4)).
1.3.3.2 Representaciones grficas
La informacin proporcionada por las tablas puede ser bastante completa,
pero
tiene la dificultad de que su lectura requiere un cierto tiempo y
capacidad de
comparacin para relativizar la informacin de unas clases respectos de
las otras.
Las representaciones grficas constituyen uno de los principales mtodos
de
exponer la informacin, siendo uno de los ms sencillos, por su capacidad
de impactar
al lector con muy poco esfuerzo por su parte, (de modo que incluso los
profanos en la
materia pueden entenderlos). Por ejemplo, siempre que el lector se
disponga a leer un
determinado artculo (cientfico, divulgativo, o simplemente un artculo
publicado en un
peridico) su vista se dirige en primer trmino al ttulo del mismo, para
pasar luego a
los grficos y por ltimo a las tablas.
Dado que de los grficos obtenemos una informacin rpida y global de los
resultados, pasaremos en este punto a realizar diversas representaciones
grficas de los
resultados anteriores.
Por ejemplo, podemos realizar, para la pregunta "El profesor est
accesible para
los alumnos" el diagrama de barras para la opinin de los alumnos de la
asignatura de
Bioestadstica sera el que se muestra en la figura 1.49:

103
Figura 1.49: Diagrama de barras para la asignatura Bioestadstica de la
Facultad de Biologa
Si quisisemos comparar los resultados para las cuatro asignaturas,
podramos
presentar el grfico siguiente (figura 1.50):
1 2 3 4 5
0
10
20
30
40
BIOESTAD.
BIOEST. MED.
AN. DATOS
AMP. BIOEST.
Est accesible para los alumnos?
PUNTUACION
frecuencia
Figura 1.50: Diagrama de barras comparativo para las cuatro asignaturas.
A simple vista, parece que es para los alumnos de las asignaturas de
Anlisis de

104
Datos y Ampliacin de Bioestadstica, para los que menos disponible est
Mrs. X. Sin
embargo, los grficos, por dar una informacin ms general que las
tablas, son ms
susceptibles a alteraciones, conscientes o no, que pueden inducir a
error. El lector, debe
fijarse atentamente en el grfico, y comprobar que en el eje de
ordenadas se ha
representado la frecuencia (nmero de alumnos que han dado una
determinada
puntuacin al profesor en relacin al tem considerado). Esto nos hace
observar, con
ms detenimiento, y teniendo en cuenta la informacin de las tablas de
frecuencias, que
el nmero de alumnos de cada muestra no es el mismo, por lo que la
representacin de
las frecuencias absolutas, no nos permite realizar comparaciones
aceptables en dichos
casos.
Por lo tanto, sera ms conveniente, si lo que quisisemos es comparar
las
respuestas en las diferentes asignaturas que utilizsemos frecuencias
relativas o
porcentajes.
As, con la utilizacin de stos ltimos, el diagrama de barras
correspondiente
sera el que se muestra a continuacin (figura 1.51):
1 2 3 4 5
0
10
20
30
40
BIOESTAD.
BIOEST. MED.
AN. DATOS
AMP. BIOEST.
Est accesible para los alumnos?
PUNTUACION
porcentaje
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada
asignatura
Fijmonos por ejemplo, en la puntuacin de 2: En el grfico de la figura
1.50, se
observa que el mayor nmero absoluto de alumnos que dan dicha puntuacin
son los de
Bioestadstica de Biologa. Sin embargo, si nos fijamos en el grfico de
la figura 1.51,

105
podemos observar cmo esa interpretacin debe hacerse con cautela, ya que
el tamao
de la muestra en cada caso es distinto, y as, son los alumnos de
Ampliacin de
Bioestadstica los que en trminos relativos dan con mayor frecuencia esa
puntuacin.
(23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de
2, mientras
que en ampliacin de Bioestadstica son 6 de 16).
1.3.3.3 Resumen de la informacin
El siguiente paso en un anlisis consiste en encontrar unas cuntas
medidas que
nos permitan resumir o describir la informacin recogida,
proporcionndonos una idea lo ms clara posible- de los resultados.
Deberemos, en primer lugar, averiguar la tendencia central, es decir,
encontrar un
nmero con la propiedad de que la mayora de los datos de la muestra
estn agrupados
en torno a l (lo cual ya lleva implcita la idea de variacin, pues no
tendra sentido
promediar un carcter no variable). Esta medida de tendencia central va a
sustituir al
conjunto de observaciones, por lo tanto deber ser representativa del
mismo. Adems
deber ir acompaada de una medida que nos indique la dispersin de los
datos.
En las siguientes tablas (tablas 1.5, 1.6 y 1.7) aparece la descriptiva
bsica para
cada una de las preguntas analizadas. Se ha anotado, la media, la
desviacin tpica (o
estndar) el coeficiente de variacin. Tambin se seala cul es el valor
ms frecuente
(moda).
"El profesor est accesible para los alumnos"
Descriptiva bsica
Asignatura n Media Desviacin
estndar
Coeficiente de
variacin
Moda
Ampliacin de
Bioestadstica 16 2,375 1,147 48,314 2
Bioestadstica
(Biologa) 103 3,126 1,439 46,046 5
Bioestadstica
(Medicina) 101 3,406 1,336 39,211 5
Anlisis de Datos 23 3,87 1,058 27,332 5
Tabla 1.5
Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es
mayor

106
en la asignatura de anlisis de datos, siendo el valor medio ms pequeo
el
correspondiente a la asignatura de Ampliacin de Bioestadstica. Por lo
tanto, parece
que Mrs. X est ms accesible para los alumnos de la asignatura Anlisis
de datos que
para los de Ampliacin de Bioestadstica. La mayor variabilidad en la
respuesta se da en
los alumnos de Ampliacin de Bioestadstica (su coeficiente de variacin
es 48.314%) y
la menor en la de Anlisis de Datos. Excepto en la asignatura de
Ampliacin de
Bioestadstica, en la que la puntuacin ms frecuente ha sido 2, en el
resto la puntuacin
modal ha sido 5.
"Domina la asignatura que imparte?"
Descriptiva bsica
Asignatura n Media Desviacin
estndar
Coeficiente de
variacin
Moda
Ampliacin de
Bioestadstica 16 4,75 0,447 9,415 5
Bioestadstica
(Biologa) 103 4,68 0,831 17,757 5
Bioestadstica
(Medicina) 101 4,703 0,756 16,066 5
Anlisis de Datos 23 5 0 0 5
Tabla 1.6
El anlisis de los resultados se hara de igual forma que en el caso
anterior. En
este caso, cabe destacar la opinin de los alumnos de la asignatura
Anlisis de Datos, ya
que todos, sin excepcin han dado la mxima puntuacin al profesor Mrs.
X.
"Es un buen profesor?"
Descriptiva bsica
Asignatura n Media Desviacin
estndar
Coeficiente de
variacin
Moda
Ampliacin de
Bioestadstica 16 4 1,155 28,868 5
Bioestadstica
(Biologa) 103 3,515 1,282 36,486 4
Bioestadstica
(Medicina) 101 3,95 1,014 25,659 5
Anlisis de Datos 23 4,609 0,583 12,651 5
Tabla 1.7

107
En el siguiente grfico (figura 1.52), se han representado las
puntuaciones medias
para cada asignatura y para cada tem analizado:
A la vista de los resultados obtenidos, tras el anlisis descriptivo de
los datos,
podemos observar cmo los alumnos de las cuatro asignaturas, dan a Mrs. X
la mayor
puntuacin en el tem de Domina la asignatura? y la menor en el tem
Est
accesible?.
Figura 1.52
Como hemos apuntado con anterioridad, cualquier paquete estadstico
estndar
permite realizar una representacin grfica de tipo Box-plot.
La figura 1.53 representa los "Box-Plot" para la pregunta "Est
accesible para
los alumnos?" . Aqu se ha representado un Box-Plot para cada asignatura.

108
,5
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
Bioestadstica Bioest Medicina Anlisis datos Ampliacin Bioest.
Units
Figura 1.53: Box plot para los resultados a la pregunta Est accesible a
los alumnos?
NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X
lleva
realmente el mismo sistema de atencin para todos los alumnos. Refleja
por tanto la
"percepcin del alumno", ya que no existan diferencias reales.

Potrebbero piacerti anche