Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
"ESTADSTICA DESCRIPTIVA"
numricas, sin que puedan establecerse ninguna relacin de orden entre ellas,
pueden establecer algn tipo de orden entre las distintas categoras. Este es el
caso del nivel de estudios (primarios, medios, superiores), los tipos de clases
sociales (baja, media, alta),etc.
unidad de medida, se fija un punto origen, que marca el cero. En este tipo
pueden considerarse la edad, el peso, el nmero de unidades en stock en un
inventario, etc.
Se verifica pues:
F i = !f j
j=1
!f j
Hi =
F i j=1
=
n
n
! fi = n
i
! hi = 1
i
DISTRIBUCIN DE FRECUENCIAS
Llamaremos distribucin de frecuencias al conjunto de los valores que toma una
variable, junto con sus frecuencias correspondientes. As pues, para determinar una
distribucin de frecuencias debemos conocer todos los valores xi de la variable y
cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).
es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo
inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior,
incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o
no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms
que los de los datos, siendo, normalmente este decimal un 5.
Por ltimo cabe destacar que tomaremos como representante de cada intervalo su
punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca
de clase del intervalo [Li-1,Li) ser:
ci =
L i!1 + Li
2
EJEMPLO 1.1:
Investigados los precios por habitacin de 50 hoteles de una ciudad, se han
obtenido los siguientes resultados:
7000
3000
5000
4000
5000
7000
4000
7500
8000
5000
5000
500
3000
7000
10000
15000
5000
7500
12000
8000
4000
5000
3000
5000
10000
3000
4000
5000
7000
5000
3000
4000
7000
4000
7000
5000
4000
7000
10000
7500
7000
8000
7500
7000
7500
8000
7000
7000
12000
8000
7.5 8
10
12
15
N de hoteles (fi)
10
11
b)
Precio en intervalos
[3000, 5500)
[5500, 8000)
[8000, 10500)
[10500, 13000)
[13000, 15500)
N de hoteles (fi)
22
17
8
2
1
10
EJEMPLO 1.2:
Supongamos una variable X que presenta los siguientes valores :
xi = { a, e, i, o, u }
con las siguientes frecuencias: f1 = 1
f2 = 2
f3 =1
f4 = 3
correspondientes a las veces que aparecen dichas vocales en una frase.
f5 = 3,
11
Solucin:
Podemos presentar entonces la siguiente tabla:
xi
fi
Fi
hi
Hi
0,1
0,1
0,2
0,3
0,1
0,4
0,3
0,7
10
0,3
FRECUENCIAS
VOCALES
12
13
FRECUENCIAS ACUMULADAS
10
i
VOCALES
14
EJEMPLO 1.3:
La distribucin del saldo de imposiciones en las Cajas de Ahorros viene dada en
la tabla siguiente:
Saldo
N provincias
4-6,9
7-8,9
9-14,9
17
15-29,9
13
30-59,9
60-99,9
100
fi
6
7
17
13
4
2
1
Total
50
alturas
2
3.5
2.8
0.8
0.1
0.05
0
Fi
6
13
30
43
47
49
50
hi
0.12
0.14
0.34
0.26
0.08
0.04
0.02
1.00
Hi
0.12
0.26
0.60
0.86
0.94
0.98
1.00
Grados
43.2
50.4
122.4
93.6
28.8
14.4
7.2
360.0
15
EJEMPLO 1.4:
El polgono de frecuencias acumuladas para el ejemplo estudiado de las
distribuciones del saldo de las Cajas de Ahorros viene dado por el grfico que aparece
en la figura 1.6:
16
Alturas
1
x
10
20
30
40
50
60
70
80
90
100
17
5 DIAGRAMA DE SECTORES
Este caso, en una circunferencia se representan sectores circulares cuyo ngulo
central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o
relativa del elemento, representando, mediante colores o incluyendo dentro de dicho
sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias
agrupadas, como no agrupadas.
Previamente hay que calcular los grados que corresponde a cada elemento
multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el
total de datos:
gi = f i
360
n
EJEMPLO 1.5:
Obtener el grfico de sectores correspondiente a los datos anteriores de las cajas
de ahorros:
Solucin:
intervalos
4 -6.9
7 -8.9
9 -14.9
15 -29.9
30 -59.9
60 -99.9
100
fi
6
7
17
13
4
2
1
Total
50
alturas
2
3.5
2.8
0.8
0.1
0.05
0
Fi
6
13
30
43
47
49
50
hi
0.12
0.14
0.34
0.26
0.08
0.04
0.02
1.00
Hi
0.12
0.26
0.60
0.86
0.94
0.98
1.00
Grados
43.2
50.4
122.4
93.6
28.8
14.4
7.2
360.0
18
EJEMPLO 1.6:
Los datos siguientes corresponden a gastos de inversin publicitaria en los pases
de la C.E.E. durante el ao 1.986
PASES
INVERSIN
(MILLONES $)
R.F.A
8.234
INGLATERRA
6.915
FRANCIA
4.663
ESPAA
3.000
HOLANDA
2.970
ITALIA
DINAMARCA
2.846
1.084
BLGICA
464
GRECIA
164
IRLANDA
127
19
R.F.A
INGLATERRA
FRANCIA
ESPA A
HOLANDA
ITALIA
DINAMARCA
IRLANDA
BELGICA
GRECIA
En este grfico se observa que cuando ciertos datos presentan una frecuencia baja,
en relacin con los dems, su sector circular seria no detectable visualmente, por lo que
se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si
es posible, indicando todos los elementos que lo forman.
6 PICTOGRAMAS
Son dibujos alusivos a la distribucin que se pretende estudiar y que mediante su
forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible, de la misma.
Consideremos el siguiente ejemplo:
EJEMPLO 1.7:
Representar el pictograma correspondiente a la tabla de datos siuiente:
PASES
BRASIL
MJICO
ARGENTINA
VENEZUELA
CHILE
PERU
COLOMBIA
ECUADOR
URUGUAY
BOLIVIA
PARAGUAY
INVERSIN
(MILLONES $)
101.750
100.000
50.300
35.880
20.690
14.300
13.430
7.540
4.990
3.340
1.890
20
Solucin:
DEUDA EXTERNA
DE AMERICA LATINA
(Diciembre 1986)
BRASIL
MEXICO
ARGENTINA
VENEZUELA
EJEMPLO 1.8:
El censo ganadero espaol, en el mes de Septiembre de 1.977, segn fuentes del
Ministerio de Agricultura, era:
GANADO
N DE CABEZAS
(EN MILES)
BOVINO
4.538
OVINO
14.539
CAPRINO
2.206
PORCINO
9.804
EQUINO
762
TOTAL
31.846
21
Solucin:
El correspondiente pictograma sera de la forma que aparece en la figura 1.11:
7 CARTOGRAMAS
Son los grficos realizados sobre mapas, representando el carcter estudiado en
ciertas regiones, sealando las zonas con distintos colores o tramas, poniendo de
manifiesto las diferencias existentes entre las regiones del plano. Se suelen utilizar para
representar densidades demogrficas de una nacin, la renta per capita, ndices de
lluvia, etc.
22
Caprino
Bovino
Equino
0
5000 10000
Porcino
Ovino
Figura 1.12: Perfil radial (Censo ganadero espaol)
9 DIAGRAMAS LINEALES
Se utilizan para mostrar las fluctuaciones de un determinado carcter estadstico
con el paso del tiempo. Interesa nicamente la altura de la lnea, referida a la base del
diagrama, que se levanta con una longitud proporcional al valor del carcter estudiado
en dicho mes.
Con frecuencia se aprovecha para representar sobre la misma escala varios
diagramas lineales muy relacionados entre s.
Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.
3'8
2'9
2
1'9
1'7
ABRIL
0'7
ENERO
6'0
1'1
FEBRERO
6'0
MARZO
6'3
MAYO
2'9
SEPTIEMBRE
1'9
JUNIO
JULIO
AGOSTO
6'2
EVOLUCION DE LA
TASA DE INFLACION
5'8
4'9
4'9
4'5
4'4
23
%
14'0
12'0
Poblacin
blanca
10'0
Poblacin
negra
8'0
6'0
4'0
Indice de
integracin=0'71
2'0
0
1000$
2000$
5000$
10000$
15000$
25000$
50000$
24
! xif i n
k
x1
x2
xk
xf
i=1
x = f1 +
f 2 +!+
fk =
= ! i i = ! x ih i
n
n
n
n
i=1 n
i =1
25
EJEMPLO 1.9:
Por ejemplo, sea la variable X que representa los pesos en kilogramos de 10
estudiantes y que presenta los valores:
xi={ 54, 59, 63, 64 }
con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media aritmtica.
Solucin:
La media aritmtica vendr dada por:
x=
EJEMPLO 1.10:
Consideraremos la siguiente tabla de distribucin de frecuencias:
Intervalo
fi
Marca de clase
30-40
35
40-50
45
50-60
55
Total
10
26
No obstante, y dado que la media aritmtica est muy influenciada por los valores
extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada
una de stas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11:
La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros
campeonatos de liga de primera divisin correspondientes a las temporadas en que han
participado en el mismo 20 equipos:
Temporada
Nmero de goles
87-88
909
88-89
868
89-90
921
90-91
822
91-92
913
92-93
954
93-94
989
94-95
966
27
" x if i
! xn = nx ! xn = 0
x' =
'
! xi
i=1
fi
=
n
! (x i
i=1
+ k)
fi
=
n
! xi
i=1
k f
fi
+ k! i = x + k
n
i=1 n
3. Si a todos los valores de la variable los multiplicamos por una constante k, su media
aritmtica queda multiplicada por esa constante.
Para demostrar esta propiedad basta considerar la distribucin ( xik , fi ), su media
ser:
k
k
k
f
f
f
x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx
n
i =1 n
i=1
i=1 n
28
VENTAJAS E INCONVENIENTES
Como ventajas de utilizar la media aritmtica como un promedio para sintetizar
los valores de la variable podemos citar las siguientes:
- Considera todos los valores de la distribucin.
- Es siempre calculable (en variable cuantitativa).
- Es nica.
! xi wi
xp = i=1k
! wi
i=1
! xi f iwi
xp = i=1k
! f iw i
i=1
29
EJEMPLO 1.12
Veamos un ejemplo de un estudiante que realiza tres exmenes de media hora,
una hora y una hora y media respectivamente, obteniendo unas puntuaciones de 50, 80
y70.
Por la duracin de los exmenes cabra atribuirles las ponderaciones de 1, 2 y 3
respectivamente.
xi
50
80
70
Ponderacin
x=
G = n x11 x 22 !x kk
Tomando logaritmos quedara: log G =
%
1 "$ k
! f i logx i '
n # i=1
&
30
EJEMPLO 1.13
Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y al 8%
durante un tercero, cul es la renta media a la que est invertido el dinero durante los
tres aos?.
Solucin:
Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir
el 5%, pero la realidad es otra; en efecto:
Teniendo en cuenta que:
Se verificar que
1 + r m = 3 (1 + r1)(1 + r 2 )(1+ r3 )
Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales,
expresadas en tanto por uno, ms uno.
En nuestro problema: 1 + r m = 3 1.03!1.05!1.08 = 1.0497 es decir, el rdito medio
es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como pareca ser.
Veamos otro ejemplo en el que interese utilizar logaritmos.
EJEMPLO 1.14
Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente:
Talla en cm.
Frecuencia
100
10
120
5
125
4
22
10
100
140
3
31
1
(10 log100 + 5 log120 + 4 log125 + 3 log140) =
22
1
=
45.22193 = 2.05554
22
log G =
n
A= k
1
! fi
i=1xi
Como ventajas podemos mencionar que intervienen todos los valores de la
variable y que, en ciertos casos, es ms representativa que la media aritmtica.
Como inconvenientes hay que citar la gran influencia de los valores pequeos y
que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para
promediar velocidades, tiempos, etc.
EJEMPLO 1.15:
Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos. En un
sentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin circula a una
velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.
32
espacio
2s
=
timpo
t1 + t 2
Pero
s
100Km
=
v1 60 Km h
s
100 Km
t2 =
=
v 2 70Km h
t1 =
2s
200Km
2Km
= 100 Km
=
100Km
1
1 = 64.62Km h
t1 + t 2
+
+
60 Km h 70 Km h 60 h 70h
1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de
menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es
decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor
cuya frecuencia absoluta acumulada es n/2.
33
N impar de trminos
N par de trminos
Pero si hay un n par de trminos habra dos trminos centrales y se toma como
mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son
{1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}
La mediana seria: M e =
7+9
=8
2
EJEMPLO 1.16:
Si la distribucin es:
xi
1
2
5
7
10
13
Total
Calcular la mediana
fi
3
4
9
10
7
2
35
Fi
3
7
16
26
33
35
34
Solucin:
n 35
=
= 17.5
2 2
La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el de lugar
26 todos los valores son 7.
Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi
35
AC
BC
=
AC' B' C'
es decir:
n
m 2 ! F i!1
=
c i Fi ! Fi!1
por lo tanto:
n
! Fi !1
2
m=
ci
fi
De lo anterior se deduce que la Mediana se calcula de la siguiente forma:
n
! Fi !1
Me = L i !1 + 2
ci
fi
VENTAJAS E INCONVENIENTES
Como ventajas de la mediana podemos citar que no est influida por los valores
extremos como en el caso de la media, y adems tiene sentido en casos de
distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms
representativa de estos por describir la tendencia central de los mismos.
Como inconvenientes puede ser la determinacin de sta en los casos de variables
agrupadas en intervalos.
36
EJEMPLO 1.17:
Sea la siguiente distribucin de salarios y calculemos el salario mediano.
Clase
Salario anual
N de obreros
1
2
3
4
5
20000 a 25000
25000 a 30000
30000 a 35000
35000 a 40000
40000 a 45000
100
150
200
180
41
------671
N acumulado
de obreros
100
250
450
630
671
Solucin:
n 671
=
= 335.5 , valor que nos indica que el salario anual mediano
2
2
pertenece a la tercera clase.
Tenemos que
Me = 30000 +
335.5 ! 250
5000 = 3000 + 2137.5
200
es decir, Me = 321375
1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de
frecuencias, es decir, el que tiene mayor frecuencia absoluta.
Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en
intervalos, se procede de forma diferente:
37
EJEMPLO 1.18:
Consideremos la siguiente distribucin:
xi
fi
1
3
2
4
5
9
7
10
10
7
13
2
Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal
38
OQ BB'
OQ
BB'
OQ + PO BB' +AA'
=
!
+1 =
+1 !
=
PO AA'
PO
AA'
PO
AA'
invirtindola resulta:
39
PO
AA'
m
d1
=
!
=
OQ + PO BB' +AA'
( c i " m ) + m d1 + d2
siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los
d1
c
d1 + d 2 i
EJEMPLO 1.19:
Calculemos la Moda de la siguiente distribucin:
Intervalo
0 - 25
25 - 30
50 - 75
75 - 100
Total
Frecuencia
20
40
100
60
220
Solucin:
El intervalo modal es el 50 - 75, y como
d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40
resulta que Mo = 50 +
60
25 = 50 + 15 = 65
60 + 40
Amplitud no constante
Si la amplitud de los intervalos es variable, teniendo en cuenta que la altura del
rectngulo indica la densidad de frecuencia, el intervalo modal ser el que tenga mayor
densidad de frecuencia, es decir mayor altura.
EJEMPLO 1.20:
Calculemos la Moda de la siguiente distribucin:
40
Intervalo
4 -7
7-9
9 - 15
15 - 30
30 - 60
60 - 100
ms de 100
fi
6
7
17
13
4
2
1
Total
50
ci
3
2
6
15
30
40
--
ai
2
3,5
2,8
0,8
0,1
0,05
---
Solucin:
Primero se procede a buscar la mayor altura:
ai = fi / ci
Se contina como en el caso anterior sustituyendo la frecuencia por la altura.
El intervalo modal es el 7-9, y por lo tanto:
d1 = 3,5 - 2 = 1,5
d2 = 3,5 - 2,8 = 0,7
As la moda ser:
Mo = 7 +
1.5
25 = 7 + 1.36 = 8.36
1.5 + 0.7
VENTAJAS E INCONVENIENTES
Como ventajas de la moda cabe citar que cuando la distribucin es de escala
nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es
posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las
otras medidas. Adems igual que la mediana, no viene influida por los valores extremos
de la variable.
Como inconveniente cabe citar el modo de calcularla en los casos de variables
agrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.
41
EJEMPLO 1.21:
El sueldo anual de los 25 trabajadores de una empresa viene expresado en la
tabla siguiente:
Director
10.000.000 pts.
Gerente
6.000.000 pts.
Dos ingenieros
Tres peritos
Cinco encargados
Contable
Resto plantilla
42
n
! F i!1
C r k = L i !1 + k
ci
fi
r
43
VENTAJAS E INCONVENIENTES
Las ventajas e inconvenientes son las mismas que los de la mediana.
EJEMPLO 1.22:
En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4, P88
Solucin:
Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000
671
! 100
Q1 = 25000 + 4
5000 = 25000 + 2258.3 = 27258.3
150
Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el 35000 - 40000
671
! 450
Q3 = 35000 + 4
5000 = 35000 + 1479.16 = 36479.16
180
3
Para D4: como 4.671/10 = 2684 , el intervalo del cuarto decil es el 30000 - 35000
671
! 2500
D4 = 30000 + 4
5000 = 30000 + 460 = 30460
200
4
Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y ocho es el 35000
- 40000
P88 = 35000 +
88
671
! 450
4
5000 = 35000 + 3902.2 = 38902.2
180
44
500
1000
yi
499
501
fi
fi
x=
0 + 500 + 1000
= 500
3
y=
499 + 501
= 500
2
Las dos medias son iguales y sin embargo las dos distribuciones son muy
diferentes pues los valores de X estn mucho ms dispersa que los de Y.
As pues, para intentar medir la representatividad de una determinada medida
debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha
medida. As pues, resulta necesario que, para completar la informacin de un promedio
(por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que
nos midan el grado de dispersin de la distribucin de la variable con respecto a l.
Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.
45
RECORRIDO O RANGO:
Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la
distribucin:
RECORRIDO INTERCUARTLICO:
Es la diferencia existente entre el tercer y el primer cuartil
RI = Q3 - Q1
En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo
tanto no se ve influenciado por los valores extremos, y nos indica la longitud del
intervalo en el que estn el 50% central de los valores
En algunos casos se utiliza el recorrido semiintercuartlico que se define como
la mitad del recorrido intercuartlico.
RSI = (Q3 -Q1)/2
DESVIACIN MEDIA:
Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las
anteriores; puede entenderse como la media de las desviaciones de los datos de la
variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones
positivas queden compensadas por las negativas y que esta desviacin media resulte
igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la
desviacin de los datos respecto del promedio.
As se definir la desviacin media respecto de la media como:
46
k
f
D x = " xi ! x i
n
i=1
Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado,
en el caso de que sta fuera grande el promedio sera poco representativo.
VARIANZA:
Se define como la media de los cuadrados de las desviaciones de los valores de la
variable respecto de la media aritmtica, es decir:
k
k
2f
2
s2 = " ( xi ! x ) i = " (x i ! x) h i
n i =1
i=1
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos
indica la mayor o menor dispersin de los valores de la variable respecto de la media
aritmtica, y por lo tanto, su representatividad.
Tiene el inconveniente de no venir expresada en las mismas unidades que la
variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.
" ( x i ! x)
i =1
2 fi
=
" (x i ! x) hi
2
i =1
Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que
la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo
en la actualidad la ms utilizada.
47
A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1,
obtenindose la llamada cuasivarianza:
k
s2 = " ( xi ! x )2
i=1
fi
n !1
y cuasidesviacin tpica:
s =
" ( xi ! x )
2 fi
n !1
i=1
s2 =
n 2
s
n !1
cuadrados:
s2 0,
s0
s2 = " ( xi ! x )
k
f
x = ! xi i , y de varianza
i=1 n
2 fi
48
(
i=1
k
k
f
= " ( xi ! x )2 i = s2
n
i=1
k
k
2 fi
f
s' ' 2 = " x'i' ! x' '
= " ( kx i + kx) i =
n i=1
n
i =1
k
f
= " k2 (xi ! x )2 i = k2 s2
n
i =1
49
k
f
2 fi
= " x 2i ! 2xi x + x 2 i =
n i =1
n
i=1
k
k
k f
k
f
f
f
= " x2i i ! 2x " x i i + x 2 " i = " x 2i i ! 2x 2 + x 2 = x 2 ! x 2
n
n
i=1
i=1 n
i =1 n
i =1
s 2 = " ( xi ! x )
fi
54
59
63
64
1
10
f
x = ! x i i = 60.1 Kg
n
i
k
2
2f
s2 = s = ! xi i " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2
n
i=1
s = 12.69 = 3,5623 Kg.
marca de
clase
fi
30-40
35
40-50
45
50-60
55
5
10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76
S = 76 = 8,718
50
s
x
s
100
x
1.1.7 Momentos
Existen dos tipos de momentos:
51
m r = " (xi ! x )
i=1
r fi
r
f
a r = ! xri i
i=1 n
52
Existe una relacin entre los dos momentos, que nos da una forma reducida de
calcular la varianza:
k
s = m 2 = " (x i ! x)
2
i =1
k
2f
2
2
= " x i i ! x = a 2 ! a1
n i =1 n
2 fi
53
54
g >0
g =0
_
x
Mo
Distribucin asimtrica
a la derecha
Distribucin simtrica
g <0
1
Mo
Distribucin asimtrica
a la izquierda
Figura 1.19: Distintos tipos e distribuciones segn su simetria
Dado que
k
" (x i ! x)
i =1
fi
=0
n
hay que buscar una medida que venga influida por el signo; sta ser:
k
m 3 = " (x i ! x)
i =1
3 fi
ya que
si la curva es simtrica m3 = 0
si la curva tiene asimetra positiva o a derechas, m3 > 0
si la curva tiene asimetra negativa o a izquierdas, m3 < 0
Para que no tenga dimensin debemos dividirla por una medida con las mismas
unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.
55
m
g1 = 33 =
s
3f
" (x i ! x) ni
i =1
#k
2 f &2
xi ! x) i
(
"
%$
n ('
i=1
Siendo su interpretacin:
Si g1 > 0 la distribucin es asimtrica positiva o a derecha.
Si g1 = 0 la distribucin es simtrica.
Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.
Ap =
x ! Mo
s
x ! Mo " 3( x ! Me)
por lo que algunos autores utilizan como coeficiente de asimetra de Pearson
Ap =
3( x ! Me)
s
56
4f
" ( xi ! x ) i
m
g 2 = 44 = i=1
s
#k
2
x i ! x)
(
"
%$i =1
fi &
n ('
57
m
g 2 = 44 ! 3
s
y la comparacin ser con 0, obtenindose:
g2 = 0 (mesocrtica).
g2 > 0 (leptocrtica).
g2 < 0 (platicrtica)
58
u r = ! xif i ,
i=1
pr =
Fr
u
100 , q r = r 100
n
n
S = ! xi
i=1
59
F
pr = r 100
n
5- qr, que es el porcentaje del salario total que reciben los Ni primeros
trabajadores:
u
q r = r 100
n
Si la concentracin fuese mnima, pr = qr igualmente repartida.
Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100
La representacin de la curva de Lorenz sera:
60
Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):
qi %
qi %
(a)
pi %
(b)
pi %
" (p i ! q i )
i
I G = =1k !1
" pi
i =1
61
62
"REPRESENTACIONES GRAFICAS"
1.2 Ampliacin
63
64
65
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos
inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los
ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de
datos.
66
67
68
ILUSIONES GEOMTRICAS
Lo que acabamos de comentar se pone especialmente de manifiesto en las
conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura 1.27a y b)
Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao
(b): Ilusin de PoggendorfLas lneas oblicuas son colineales
69
7000
6000
9000
I
II
(a)
III
IV
8500
9%
8%
8000
7%
7500
6%
I
5%
II
III
IV
(b)
I/II
II/III
III/IV
(c)
Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un crecimiento moderado. Los mismos datos
pueden expresar un crecimiento explosivo y optimista (b). Se puede obtener una curva ascendente primero, y
descendente despus si se toman los ndices de crecimiento de uno a otro perodo en lugar de
los nmeros absolutos (c). (Adaptada de SWOBODA, 1975).
70
1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin grfica:
SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan
una clasificacin de los distintos mtodos grficos en tres grandes grupos:
-Grficos utilizados en Anlisis Exploratorios.
-Grficos usados en Anlisis Confirmatorios.
-Grficos para la Comunicacin y/o Presentacin de los resultados.
71
72
73
se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes
Mltiples, ms que multivariantes.
Evidentemente, son muchas las posibilidades que permiten las representaciones
univariantes en el anlisis de los datos correspondientes a varias variables. Sin embargo,
estas representaciones no difieren en sus caractersticas de los mtodos grficos
univariantes pero debido a su importancia, popularidad y utilizacin en todos los
mbitos, merece la pena hacer referencia a tres tcnicas:
Stem & leaf, Box-plot *
Diagrama de dispersin** .
Diagrama de Dispersion
Mltiple
Curvas de Andrews
Grficos Pictoriales
o Figurativos
Mapas Estadsticos
74
La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los 50 estados
de Estados Unidos ordenados segn la variable "voto medioambiental", cuyos datos
aparecen en la tabla 1.1. Esta variable mide cmo la delegacin congresista de cada
estado vot en relacin a temas de medioambiente durante el ao 1984. Refleja el
porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del
grupo "The League of Conservation Voters". As el valor de Idaho, 12, significa que el
voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.
1
2
3
4
5
6
7
8
9
267
6
33345699
01477779
123456667799
224999
02222499
26
6
***
75
Se observa claramente cmo el rango del porcentaje vara desde 12 hasta 96.
Tambin puede apreciarse como la distribucin es aproximadamente simtrica de modo
que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo correspondiente).
76
Estado
Idaho
Utah
Alaska
Wyoming
Alabama
Mississippi
Virinia
Nebraska
Arizona
Arkansas
Texas
Kansas
Louisiana
Kentucky
N. Carolina
Tennessee
New Mexido
Nevada
S. Carolina
Colorado
Georgia
Florida
Oclahoma
Oregon
Indiana
Porcentaje
de voto
medioamb.
12
16
17
26
33
33
33
34
35
36
39
39
40
41
47
45
47
47
47
47
49
51
52
53
54
Estado
S. Dakota
Illinois
Montana
Missouri
Ohio
Washington
California
N. Dakota
Maryland
Pnnsylvania
Hawaii
Delaware
Michigan
W. Virginia
Minnesota
New York
Wisconsin
New Hampsh.
New Jersey
Iowa
Maine
Connecticut
Massachusetts
Rhode Island
Vermont
Porcentaje
de voto
medioamb.
55
56
56
56
57
57
59
59
62
62
64
69
69
69
70
72
72
72
72
74
79
79
82
86
96
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984:
Porcentaje de acuerdo con "The League of Conservation Voters".
(Tomado de HAMILTON, 1990)
77
78
Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis muralis
presenta en la ocupacin de tres tipos de hbitat en la Sierra de Guadarrama:
Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).
79
Diagramas de dispersin
Un Diagrama de puntos, ms conocido como Diagrama de Dispersin, es un
mtodo simple pero eficiente para ilustrar un determinado comportamiento o bien
analizar una distribucin en particular; su finalidad puede ser la de poner de manifiesto
una relacin entre variables, analizar proximidades entre individuos y/o poblaciones,
localizar outliers...
Por ser un mtodo suficientemente conocido, no se realizar un estudio detallado
de dicha representacin, si bien -dada su importancia- se comentarn algunas de las
posibilidades que permite en el estudio de datos multivariantes.
La informacin visual de un diagrama de dispersin puede ser incrementada
mediante varias herramientas adicionales (CHAMBERS & KLEINER, 1982); por
ejemplo, mediante un Box-plot paralelo marginal para cada variable. (Ver figura 1.36).
80
25
SA
AV
20
PASTIZAL
SG
15
LE
SO
10
ZA
P
BU
5
VA
0
0
10
20
30
BARBECHO
Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de la superficie de
cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y Len.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)
81
Existen sistemas grficos de ordenador (SYSTAT, JMP, SPSS), que permiten mediante la opcin denominada 'SPIN'- la 'exploracin multivariante' de estas
representaciones tridimensionales, al rotar la nube de puntos alrededor de cualquier eje
en la pantalla, y visualizar de este modo todos los puntos, y sus posiciones relativas. El
resultado puede llegar a ser realmente espectacular con el uso del color en la
representacin.
De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros),
esta importante innovacin grfica constituye una de las ms potentes tcnicas de
anlisis visual de datos multivariantes existentes en la actualidad.
Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos' que salen
al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido posible por el
desarrollo que en los ltimos tiempos han sufrido los ordenadores; el movimiento en
tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con
potencia y rapidez.
82
83
Como en todo Anlisis Multivariante, se parte de una matriz de datos que contiene
la informacin de los valores que los individuos toman para cada una de las variables a
estudiar, que ser la que se representar de forma grfica.
Antes de representar dicha matriz pictricamente, debe cuestionarse cual ser el
uso que se dar a dicha representacin, y el objetivo final de la misma; teniendo en
cuenta, adems, que por lo general sern los individuos las entidades representadas.
Todo ello en base a elegir el mtodo de representacin ms adecuado.
La prctica totalidad de los Mtodos Grficos Multivariantes que se conocen,
no son otra cosa que 'constructos pictricos', (tambin conocidos como
grficos pictoriales o figurativos, o simplemente 'Iconos'), formados por
elementos geomtricos (puntos, rectas, curvas, tringulos, crculos...) que
varan en funcin de los valores que toman las variables en los individuos a los
que representan.
Algunos de los muchos MGM existentes, son los que aparecen esquematizados en
la figura 1.39. (Tomada de AVILA-ZARZA, 1993).
Entre los mtodos representados en esta figura, unos se caracterizan porque las
variables se representan como longitudes de las componentes grficas; es el caso de los
Polgonos o Estrellas (rayos circulares emanando de un origen comn), o los Glifos, (segmentos
que se extienden desde un crculo);
etc..
84
Grficos de veleta
Polgonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
85
Polgonos o Estrellas
Determinan perfiles configurados por segmentos que parten de un origen
comn, y cuya longitud corresponde al valor que -para cada entidad- toma la
variable a la cual dicho segmento representa.
Las figuras 1.40 y 1.41, son un ejemplo de este tipo de representacin
ASESINATOS
VIOLACIONES
ROBOS
ROBOS DE
COCHES
ASALTOS
HURTOS
ALLANAMIENTOS
DE MORADA
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignacin de las
variables a cada segmento, para el ejemplo de la figura 1.41
86
y
f(t) = 1 + y 2sen(t) + y3 cos(t) + y 4sen(2t) + y5 cos(2t)
2
donde y es una variable p-dimensional y t vara desde -3,14 hasta 3,14.
87
Avila
Burgos
Palencia
Salamanca
Soria
Valladolid
Leon
Segovia
Zamora
Caras de Chernoff
No se ra!. Estas son las primeras palabras con las que se presenta a los lectores
este mtodo de representacin de datos multivariantes en el manual SYGRAPH, que
trata de las representaciones grficas que el programa estadstico para ordenador
SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin de los que
desconociendo el mtodo, se encuentran de pronto con caras de rasgos caricaturizados
en una ponencia o en un trabajo de investigacin; quizs para contrarrestar la aparente
falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a ms de uno a
descartarlo sin haberlo tomado en consideracin.
88
89
1. Anchura de la cara.
2. Nivel de la oreja.
3. Altura de la cara.
4. Excentricidad de la elipse superior cara.
5. Excentricidad de la elipse inferior cara .
6. Longitud de la nariz .
7. Posicin centro de la boca.
8. Curvatura de la boca.
9. Longitud de la boca.
10. Altura del centro de los ojos.
11. Separacin de los ojos.
12. Inclinacin de los ojos.
13. Excentricidad de los ojos .
14. Longitud ojo.
15. Posicin de las pupilas.
16. Altura de la ceja.
17. ngulo de la ceja.
18. Longitud de las cejas.
Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff, segn BRUCKNER (1978).
A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja
90
Cada variable estudiada se asigna a uno de los parmetros que controlan los
rasgos, de forma que el valor del parmetro facial sea proporcional al valor que toma la
variable en el individuo a representar. Para ello se deja variar el parmetro dentro de un
rango de variabilidad preestablecido, de manera que la estructura global mantenga las
caractersticas bsicas de una cara. Algunos parmetros faciales varan libremente
(dimetro de la oreja), pero la mayora quedan supeditados a la exigencia anterior y
dependen de otras caractersticas faciales.
La asignacin de cada variable a cada parmetro facial es optativa. Hay usuarios
del mtodo que prefieren efectuar una asignacin al azar, mientras que otros establecen
una correspondencia intencionada.
Existen otras variantes de caras.
La variante de Davis (BRUCKNER, 1978) aade dos variables ms (anchura de nariz y
dimetro de orejas). (Ver figura 1.45).
EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la intencin de que
resulten menos caricaturescas.
NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.
Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a
un material complementario al que se ofrece en este trabajo
91
VIZ CAYA
ASTURIAS
CANTABRIA
ALAVA
LUGO
LEON
RIOJA
ORENSE
PALENCIA
BURGOS
VALLA DOLID
SORIA
ZAMORA
GUADAL AJARA
SALAMANCA
SEGOV IA
AVILA
MADRID
CACE RE S
TOL EDO
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-Len,
representando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols. 1993).
92
Ventajas e inconvenientes.
Ventajas
1.- Facilidad de reconocimiento global de la informacin contenida en las caras;
se trata de una caracterstica de la percepcin humana confirmada por diversos
estudios experimentales. JACOB (1978) demostr que los sujetos sin preparacin
o conocimiento de las variables representadas, pueden juzgar con caras con
razonable exactitud
2.- Los datos representados pueden ser heterogneos y no se exige ninguna
condicin estadstica.
3.- Con este mtodo resulta sencillo efectuar agrupaciones por similitudes de
rasgos.
4.- Es una Tcnica que permite concentrar la informacin de todas las variables en
una figura muy compacta.
Tanto la asignacin intencionada de rasgos, como la subjetividad al seleccionar
determinadas facciones para identificar similitudes, puede constituir una ventaja o una
desventaja segn las exigencias del trabajo y del observador, ya que otros mtodos aparentemente neutros- tambin presentan riesgos de subjetividad.
Diversos autores abogan por una estricta aleatoriedad en la asignacin de rasgos
(ALONSO, 1982), as como efectuar diversas asignaciones para corroborar las
agrupaciones, evitando as los posibles efectos subjetivos de la clasificacin.
Otros, por el contrario, defienden la asignacin intencionada y aprovechar dichos
factores subjetivos (HUFF & BLACK; 1978).
Inconvenientes
1.- Necesidad de un dispositivo grfico y un programa.
2.- Prdida de informacin directa de los valores concretos de las variables
(comn a la prctica totalidad de los MGM).
3.- Dificultad de reconocimiento, cuando se tiene un grupo muy numeroso de
caras, o cuando existe un nmero elevado de variables.
4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un
valor muy alto, puede modificar otros (que en principio deberan ser iguales a los
presentados por otra cara no deformada por dicha interdependencia).
93
f(t) =
x1
+ x 2 sen(t) + x3 cos(t) + x 4 sen(2t) + x 5 cos(2t)
2
94
4000
COMPONENTE DE FOURIER
3000
2000
1000
0
-1000
-2000
-180
-90
0
GRADOS
90
180
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de
diecisis ciudades diferentes de EE.UU.
95
BIBLIOGRAFIA CITADA
ABACUS (1993). StatView 4.01. Berkeley.
ALONSO, G. (1982). 'Nuevos mtodos de representacin grfica de datos multivariantes. Publicaciones
de Bioestadstica y Biomatemtica. 5. Eunibar. Universidad de Barcelona.
ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136.
ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21.
ANUARIO DE ESTADISTICA AGRARIA (1990). Publicado por el Ministerio de Agricultura, Pesca y
Alimentacin. Datos correspondientes a 1987.
AVILA-ZARZA, C. (1993). Mtodos Grficos Multivariantes y su Aplicacin en las Ciencias de la Vida.
Trabajo de Grado. Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca.
BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data.
(P.C.C. Wang, ed.). pp.: 93-121. Academic Press.
CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In
Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.
96
CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal
of the American Statistical Association, 68: 361-368.
CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley &
Sons. New York.
CRICHTON, M. (1990-92). Parque Jursico. Ed. Plaza y Jans.
DAVIS, F. (1988). La Comunicacin no Vergal. Alianza Editorial. Madrid.
EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York.
EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books.
London.
FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics.
University of Minnessota, 44.
GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component
analysis'. Biometrika, 58: 453-467.
GETE-ALONSO, J.C. y BARRIO, V. del (1990). Lenguaje Grfico. Alhambra. Madrid.
HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole
Publishing Company. California.
HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical
Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York.
JACOB, R.J.K. (1978). 'Facial representation of multivariate data'. In Graphical Representation of
Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York.
JMP. (1989-94). SAS Institute Inc.
MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simptridas del Genero
Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca.
MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of
multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C
Wang, ed.) pp.: 123-142. Academic Press. New York.
McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36.
NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An
overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland.
NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic
Press. New York.
PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth
and Planetary Science Letters, 22: 245-255.
PINILLOS, J.L. (1973). La Mente Humana. Salvat. Pamplona.
POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543548.
ROMERO-VILLAFRANCA, R. (1991). Estadstica: Proyecto de Innovacin Educativa. Dpto. de
Estadstica e Investigacin Operativa. Universidad Politcnica de Valencia.
97
ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the
graphical presentation of data'. Biometrika, 43 (3,4): 241; 247.
SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical
Sciences. John Wiley & Sons. New York.
SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis
(J. Fox & J. Scott Long, eds.). Sage Publications. Newbury.
SWOBODA, H. (1975). El Libro de la Estadstica Moderna. Ediciones Omega. Barcelona.
TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1.
TUKEY, J.W. (1977). Exploratory Data Analysis. M.A. Adisson-Wesley. Reading.
VICENTE,S.; GALINDO, M.P.; VICENTE-VILLARDON, J.L.; MARTIN, A.; BARRERA, I. y
FERNANDEZ-GOMEZ, M.J. (1993). 'Anlisis grfico y descripcin estructural de la variabilidad de
cultivos en Castilla-Len'. Investigacin Agraria, Vol 8(3):315-329.
VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse & Piaget Eds.). Paids.
Buenos Aires.
WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy
sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic
Press. New York.
WILKISON, & EVANSTON (1988-91). SYSTAT. SYSTAT Inc.
98
"REPRESENTACIONES GRFICAS"
99
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta
unidad temtica, utilizando para ello datos reales tomados de la
evaluacin del profesorado universitario durante el curso acadmico
1991-92. Est planteado de forma que pueda ser utilizado como ejercicio
de prcticas para los alumnos, como recapitulacin de las ideas de esta
unidad.
Para cada uno de los profesores que imparte la asignatura, los alumnos deben
rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una
valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el profesor no
satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que el profesor
satisface plenamente el supuesto. La evaluacin se realiza en horas de clase normal,
pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.
100
101
Frecuencia
Valor de la
variable
1
2
3
4
5
ni
Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
4
6
2
4
0
16
17
23
19
18
26
103
11
14
29
17
30
101
0
3
5
7
8
23
Tabla 1.2
Frecuencia
Valor
Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
1
2
3
4
5
ni
0
0
0
4
12
16
2
3
3
10
85
103
1
3
3
11
83
101
0
0
0
0
23
23
Tabla 1.3
(Libre dispos.)
102
Frecuencia
Valor
Ampliacin
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
1
2
3
4
5
ni
1
0
4
4
7
16
12
8
25
31
27
103
2
7
21
35
36
101
0
0
1
7
15
23
Tabla 1.4
A partir de la informacin suministrada por las tablas anteriores vemos cules han
sido los tamaos de las muestras extradas de cada una de las 4 poblaciones en estudio
(denotadas con ni (i=1,...,4)).
103
frecuencia
30
20
10
0
1
3
PUNTUACION
A simple vista, parece que es para los alumnos de las asignaturas de Anlisis de
104
Datos y Ampliacin de Bioestadstica, para los que menos disponible est Mrs. X. Sin
embargo, los grficos, por dar una informacin ms general que las tablas, son ms
susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe
fijarse atentamente en el grfico, y comprobar que en el eje de ordenadas se ha
representado la frecuencia (nmero de alumnos que han dado una determinada
puntuacin al profesor en relacin al tem considerado). Esto nos hace observar, con
ms detenimiento, y teniendo en cuenta la informacin de las tablas de frecuencias, que
el nmero de alumnos de cada muestra no es el mismo, por lo que la representacin de
las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos
casos.
Por lo tanto, sera ms conveniente, si lo que quisisemos es comparar las
respuestas en las diferentes asignaturas que utilizsemos frecuencias relativas o
porcentajes.
As, con la utilizacin de stos ltimos, el diagrama de barras correspondiente
sera el que se muestra a continuacin (figura 1.51):
Est accesible para los alumnos?
40
porcentaje
30
BIOESTAD.
BIOEST. MED.
AN. DATOS
AMP. BIOEST.
20
10
0
1
3
PUNTUACION
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura
105
podemos observar cmo esa interpretacin debe hacerse con cautela, ya que el tamao
de la muestra en cada caso es distinto, y as, son los alumnos de Ampliacin de
Bioestadstica los que en trminos relativos dan con mayor frecuencia esa puntuacin.
(23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de 2, mientras
que en ampliacin de Bioestadstica son 6 de 16).
Descriptiva bsica
Asignatura
Ampliacin de
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
Media
Desviacin
estndar
Coeficiente de
variacin
Moda
16
2,375
1,147
48,314
103
3,126
1,439
46,046
101
3,406
1,336
39,211
23
3,87
1,058
27,332
Tabla 1.5
Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor
106
Descriptiva bsica
Asignatura
Ampliacin de
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
Media
Desviacin
estndar
Coeficiente de
variacin
Moda
16
4,75
0,447
9,415
103
4,68
0,831
17,757
101
4,703
0,756
16,066
23
Tabla 1.6
Descriptiva bsica
Asignatura
Ampliacin de
Bioestadstica
Bioestadstica
(Biologa)
Bioestadstica
(Medicina)
Anlisis de Datos
Media
Desviacin
estndar
Coeficiente de
variacin
Moda
16
1,155
28,868
103
3,515
1,282
36,486
101
3,95
1,014
25,659
23
4,609
0,583
12,651
Tabla 1.7
107
Figura 1.52
108
5,5
5
4,5
4
3,5
Units
3
2,5
2
1,5
1
,5
Bioestadstica
Bioest Medicina
Figura 1.53: Box plot para los resultados a la pregunta Est accesible a los alumnos?
NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X lleva
realmente el mismo sistema de atencin para todos los alumnos. Refleja por tanto la
"percepcin del alumno", ya que no existan diferencias reales.