Sei sulla pagina 1di 3

Mtodos descriptivos

13.

53

Puede utilizarse la tcnica mostrada en el Ejercicio 7 de la Seccin 1.4 para calcular s2,
a partir de los datos anotados en la distribucin de frecuencias. Para hacerlo emplearemos un atajo:

En primer lugar, para obtener


multiplicamos cada valor de x por su frecuencia correspondiente y sumamos estos valores; despus, multiplicamos el cuadrado de
cada x por la frecuencia correspondiente y lo sumamos para obtener
. Finalmente,
estos valores se sustituyen en la frmula del atajo para obtener s2. En el caso de los datos
del Ejercicio 7 de la Seccin 1.4:

La varianza muestral para estos datos es:

a) Utilizar esta tcnica para comprobar los valores del Ejemplo 1.5.4, y la Tabla 1.20.
b) Utilizar esta tcnica para determinar la varianza muestral de los datos del Ejercicio
2 de la Seccin 1.4.
1.6. DIAGRAMA DE CAJAS (OPCIONAL)
El diagrama de cajas es una representacin grfica de un conjunto de datos que facilita la
percepcin visual de su localizacin, extensin, y del grado y la direccin del sesgo. Tambin permite identificar los datos atpicos. Es especialmente til cuando se desean comparar dos o ms conjuntos de datos. El mtodo de diseo que aqu se muestra es el de Lambert
H. Koopmans [7].
Construccin de un diagrama de cajas
1. Se construye una escala de referencia horizontal o vertical.
2. Determinar la mediana muestral, q1, q3, e iqr tal como se ha explicado en la Seccin 1.5.
3. Determinar dos puntos f1, yf3, denominados separadores interiores, mediante:
f1 = q1- l.5(iqr)
f3 = q3+ l.5(iqr)
Los puntos por debajo de f1 o por encima de f3 se considerarn atpicos.
4. Determinar dos puntos a1 y a3 denominados valores adyacentes. El punto a1 es el
dato ms cercano a f1 sin que su valor est por debajo de f3. El punto a3 es el dato ms
cercano av f3, sin que su valor est por encima de f3.

54

Estadstica para Biologa y Ciencias de la Salud

5. Determinar dos puntos F1 y F3 denominados separadores exteriores, mediante:


F1 = q1 - 2(1.5)(iqr)
F3 = q3 + 2(1.5)(iqr)
6. Situar los puntos hallados hasta ahora sobre la escala horizontal o vertical. Sus posiciones relativas se muestran en la Figura 1.25a.
7. Construir una caja con los extremos en q1 y q3 con una lnea interior dibujada en la
mediana, tal como se muestra en la Figura 1.256.
8. Indicar los valores adyacentes con el smbolo x, y conectarlos a la caja con lneas
punteadas. Estas lneas punteadas se llaman patillas o bigotes. Situar los datos;
puntuales que estn entre separadores interiores y exteriores y representarlos mediante crculos abiertos. Se considera que estos puntos son datos atpicos moderados
Indicar los datos puntuales que caen fuera de separadores exteriores mediante asteriscos. Se considera que estos puntos son datos atpicos extremos (vase Fig. 1.25c).
La localizacin de la lnea central de la caja es una indicacin de la forma de la distribucin. Si la lnea est descentrada, sabremos que la distribucin est sesgada en la direccin
del extremo ms largo de la caja.
Antes de ilustrar esta tcnica, debe aclararse la idea de separadores. Puede demostrarse
que, al muestrear a partir de una distribucin normal, una distribucin simtrica en forma de
campana que se estudiar detalladamente en el Captulo 5, slo aproximadamente 7 valores
de cada 1000 caern fuera de los separadores interiores. Puesto que estos valores son muy
inusuales, se consideran atpicos. Los datos atpicos deben tratarse con cuidado pues, como se
habr apreciado, su presencia puede tener un impacto crucial sobre x, s2, s y el rango, es decir,
sobre las medidas usuales de posicin y variacin. Cuando se encuentre un dato atpico.
debera considerarse su origen. Es legtimo un dato cuyo valor, inusualmente, es grande c
pequeo? Es un valor mal registrado? Es el resultado de algn error o accidente en te
experimentacin? En los dos ltimos casos puede borrarse el punto del conjunto de datos y
completarse el anlisis con los datos restantes. En el primer caso, sugerimos que se d
conocer la presencia del dato atpico y que los estadsticos se citen con y sin ste. De esta
forma, el investigador, que es el experto en la materia, puede tomar la decisin de incluir o no
el dato atpico en futuros anlisis.
(a)

(b)

(c)

Figura 1.25. (a) Posiciones relativas de la mediana


cuartiles (q1 y q3) valores adyacentes (a1
y a3), separadores interiores (f1 y f3) y separadores exteriores (F1 y F3). (b) Se dibuja una caja
que termina en (q1 y q3 ) y la lnea interior en (c) Los valores adyacentes se indican mediante una x,
los datos atpicos moderados se indican mediante crculos abiertos; los datos atpicos extremos se
indican con asteriscos.

Mtodos descriptivos

55

Ejemplo 1.6.1. En un estudio sobre la amnesia postraumtica tras una lesin craneal, la
variable estudiada fue el tiempo de hospitalizacin en das. En la Figura 1.26 se muestra el
diagrama de tallo y hojas para los datos. (Basado en la informacin publicada en Jerry Mysia
et al., Prospective Assessment of Posttraumatic Amnesia: A Comparison of GOAT and the
OGMS, Journal of Head Trauma Rehabilitation, marzo de 1990, pgs. 65-77). Para estos
datos, la posicin de la mediana es (n + l)/2 = 11 y la mediana es 40 das. La posicin cuartlica
es q = (localizacin truncada de la mediana + l)/2 = 6. Los puntos (q1 y q3) son 32 y 47,
respectivamente. El rango intercuartlico es irq = q 3 - q 1 = 15. Los separadores interiores son:
f1 =

q1-1.5(iqr)

f3 = q3 + 1.5(iqr)

= 32 - 22.5

= 47 + 22.5

= 9.5

= 69.5

Los valores adyacentes son a1 = 12ya 3 = 61. Los separadores exteriores son:
F1 = q1 - 2(1.5)(iqr) F3 = q3 + 2(1.5)(iqr)
= 32-45

=47 + 45

= -13

= 92

El conjunto de datos contiene dos puntos, 8 y 89, que se califican como datos atpicos
moderados. El punto 108 se califica como dato atpico extremo. Obsrvese que, dado que F1 es
negativo, es fsicamente imposible observar un dato atpico extremo en el extremo inferior de la
escala. En la Figura 1.27 se muestra el diagrama de cajas. Obsrvese que la lnea central de la caja
est cerca de su centro, indicando una distribucin casi simtrica. Con respecto a los datos atpicos, son observaciones reales que deben tenerse en cuenta, o son el resultado de errores en la
recogida de datos? En este caso, sera fcil comprobar los registros de los pacientes para determinar la respuesta, y ello debera hacerse antes de proceder a cualquier otro anlisis de los datos.
Un punto ms a resaltar: el test de deteccin de datos atpicos est basado en el supuesto
de que los datos provienen de una distribucin normal. Si la distribucin es asimtrica, es
probable que los valores que definen la cola larga de la asimetra se identificarn como datos
0
1
2
3
4
5
6
7
8
9
10

Figura 1.26. Diagrama de tallo y hojas para los datos del Ejemplo 1.6.1.
Los datos representan el tiempo de hospitalizacin de los pacientes con
amnesia postraumtica en das (n = 21).

8
2
7
0 2 5 6
0 0 0 0 12 5 7
0 2
1
9
8

10

20

30

40

50

60

70

80

90

100

x
Figura 1.27. Diagrama de cajas para los datos del Ejemplo 1.6.1.

110

Potrebbero piacerti anche