Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 INTRODUCCIN
2.2 ARREGLO ORDENADO
2.3 DATOS AGRUPADOS Y
DISTRIBUCIN DE
FRECUENCIAS
2.t
2.6 RESUMEN
INTRODUCCIN
En el captulo 1 se estableci que la toma de mediciones y el proceso de conteo
producen nmeros que contienen informacin. El objetivo de la gente que aplica
herramientas estadsticas a esos nmeros es determinar la naturaleza de esa
informacin. Esta tarea es mucho ms fcil si los nmeros estn organizados y
resumidos. Cuando se hacen las mediciones sobre entidades de una poblacin o
muestra, los valores resultantes estn disponibles para el investigador o
estadstico como una masa de datos desorganizados. Las mediciones que no han
sido organizadas, procesadas o manejadas de al guna otra forma se les llama datos
crudos (materia prima). A menos que el nmero de observaciones sea
extremadamente pequeo, es improbable que esos datos crudos proporcionen
suficiente informacin hasta que sean puestos en algn orden.
En este captulo se ensean algunas tcnicas para organizar y procesar datos de
tal manera que sea ms fcil determinar qu informacin contienen. Lo ms actual
en procesamiento de datos es el clculo de un nmero individual que de alguna
manera incluye informacin importante acerca de los datos que sirvieron para
calcularlo. A estos nmeros individuales utilizados para describir datos se les llama
medidas descriptivas. Despus de estudiar este captulo el estudiante podr calcular
algunas medidas descriptivas tanto para poblaciones como para muestras de datos.
El propsito de este captulo es desarrollar en el estudiante habilidades
para poder manejar la informacin numrica que se encuentre como profesional
en ciencias de la salud. Entre mejor capacitado est para manejar tal informacin,
tendr una mejor idea del ambiente y de las fuerzas que generan la informacin.
15
16
2.2
CAPTULO 2
ESTADSTICA DESCRIPTIVA
ARREGLO ORDENADO
El primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo
ordenado es una lista de valores de un grupo (sea poblacin o muestra) en orden de
magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el
nmero de mediciones a ordenar es bastante grande.
Un arreglo ordenado permite determinar con rapidez los valores de las medi
ciones ms pequeas, de las ms grandes, y otros aspectos acerca de los datos arre
glados que pudieran necesitarse en caso de urgencia. A continuacin se muestra la
construccin de un arreglo ordenado con los datos que se estudiaron en el ejemplo
1.4.1.
EJEMPLP 2.2.1
La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron
en el estudio de residentes de Groenlandia, estudiados en el ejemplo 1.4.1. Como
puede apreciarse, esta tabla desordenada requiere de mucha investigacin para
determinar informacin bsica como la edad de los individuos ms jvenes hasta
los ms viejos.
Solucin: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo
ordenado. Al referirse a la tabla 2.2.1 es posible determinar rpidamen
te la edad del individuo ms joven (18) y la edad del ms viejo (63).
Tambin es posible identif::ar con facilidad que casi tres cuartas partes
Ani1isisporcomptdadora
Cuando se requieren clculos adicionales y organiza
cin de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre
glo ordenado. Si los datos son analizados por computadora, esto no es aconsejable
TABIA2.2.1
tabla 1.4.1
18
22
24
26
27
29
30
32
37
40
43
47
51
18
23
24
26
27
29
30
33
37
40
43
47
51
19
23
24
26
27
29
31
33
37
40
43
48
.52
19
23
24
26
28
29
31
33
37
40
44
48
52
20
23
25
26
28
29
31
34
37
40
44
48
53
21
23
25
26
28
30
31
34
38
40
44
48
53
21
23
25
27
28
30
31
34
38
41
45
48
53
21
23
25
27
28
30
31
34
38
41
45
48
53
22
24
26
27
28
30
31
34
38
41
45
49
56
22
24
26.
27
28
30
32
35
38
42
46
49
. 61
22
24
26
27
29
30
32
36
39
42
46
50
62
22
24
26
27
29
30
32
36
39
42
47
50
63
22
24
26
27
29
30
32
36
39
42
47
50
63
2.3
17
Dialogbox:
Manip > Sort
II
Session command:
Sort
MTB > Sort Cl C2;
SUBC>
By Cl.
FIGURA 2.2.1
pata preparar un arreglo ordenado, a menos que se necesite para propsitos de refe
rencia o para otro uso. La computadora no necesita que el usuario haga un arreglo
ordenado antes de meter los datos para construir la distribucin de frecuencias y
para hacer otros anlisis.
Si desea un arreglo ordenado, muchos paquetes de software para computado
r contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB
y que las edades de la tabla 1.4.1 estn en la columna l. El comando SORT Cl C2
clasifica las edades y las pone en la columna 2, como lo muestra la tabla 2.2.1. Si se
utiliza el paquete MINITAB para Windows, y los datos se colocan en la columna
l, el proceso es como sigue: con el mouse haga clic en Manip, luego en Sort,
escriba el en la caja etiquetada corno "Sort column[s]", escriba c2 en la caja eti
quetada como "Store sorted column[s] in" (para tener los datos clasificados en
c2), y escriba el en la caja etiquetada "Sort by column". Si desea ordenar en
forma descendente haga clic en "Descending". Si no se selecciona esa opcin en
este punto, el resultado es una clasificacin en orden ascendente. Finalmente, haga
clic en OK. La caja de dilogo para el ejemplo 2.2.l se muestra en la figura 2.2.1.
18
CAPTULO 2
ESTADSTICA DESCRIPTIVA
que las computadoras pueden ejecutar esos clculos a partir de grandes conjuntos
sin agrupacin previa, actualmente el propsito principal de agrupar los datos es el
de resumir la informacin. Se debe tener en mente que los datos contienen infor
macin y que el resumen es una forma sencilla para determinar su naturaleza.
Para agrupar un conjunto de observaciones se debe seleccionar un conjunto
de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de
observaciones pueda ser puesto en uno y slo uno de los intervalos. Estos intervalos
normalmente se identifican como intervalos de clase.
Una de las primeras consideraciones cuando se agrupan datos es la de cuntos
intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se
perdera informacin. Por otro lado, si se utilizan muchos intervalos, el objetivo de
resumir no se consigue. La mejor gua en este caso, as como para la toma de otras
decisiones sobre la agrupacin de datos, es el conocimiento de los datos. Puede ser
que los intervalos de clase queden determinados por los precedentes, como en el
caso de las tabulaciones anuales, en las que los intervalos de clase de los aos anteriores
se conservan para propsitos comparativos. Una regla emprica que habitualmente se
sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos,
los datos se han resumido en exceso y la informacin que contienen se habr perdido.
Si hay ms de 15 intervalos, los datos no fueron resumidos lo suficiente.
Quienes deseen guas ms especficas para decidir cuntos intervalos de clase
son necesarios, pueden utilizar la frmula propuesta por Sturges ( 1 ). Esta frmula
se enuncia k = 1 + 3.322(log 10 n), donde k es el nmero de intervalos de clase y n es
el nmero de valores en el conjunto de datos en observacin. La respuesta que se
obtiene con la regla de Sturges no es definitiva, sino que se debe considerar nica
mente como gua. El nmero de intervalos de clase especificado por esta regla
deber incrementarse o disminuirse por conveniencia y para lograr una presenta
cin ms clara.
Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar.
El logaritmo base 10 de 275 es 2.4393. Con la aplicacin de la frmula de Sturges
se obtiene k = 1 + 3.322(2.4393)::::: 9. En la prctica, otras consideraciones pueden
sugerir el uso de 8 o menos, o quiz 10 o ms intervalos de clase.
Otra pre gunta que se debe responder se refiere a la amplitud del intervalo de
clase. Los intervalos de clase generalmente deben ser de la misma amplitud, aun
que algunas veces esto es imposible. La amplitud se determina dividiendo el rango
entre k, que es el nmero de intervalos de clase. Simblicamente, la amplitud de los
intervalos de clase est dada por:
R
k
(2.3.1)
2.3
19
Existen otras reglas empricas que son de gran ayuda para armar intervalos
de clase tiles. Cuando la naturaleza de los datos los hace adecuados , la amplitud de
los intervalos de clase de 5 o 1 O unidades y amplitudes mltiplos de 1 O tienden a
hacer que el resumen sea ms comprensible. Cuando se utilizan estas amplitudes es
una buena prctica tener el lmite inferiorde cada extremo de intervalo en O o 5.
Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; el
primer intervalo de clase contiene las mediciones ms pequeas y el ltimo inter
e
valo contiene las mediciones ms grandes. Cuando sea st el caso, el lmite infe
rior del primer intervalo de clase debe ser menor o igual que la medicin ms
pequea en el conjunto de datos, y el lmite superior del ltim0 intervalo de clase
debe ser mayor o igual que la medicin ms grande.
Aunque muchos paquetes de software para microcomputadora contienen ru
tinas para construir intervalos de clase, frecuentemente requieren que el usuario
registre la amplitud del intervalo y el nmero de intervalos deseados. A continua
cin se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla
2.2.1 para ilustrar la construccin de la distribucin de frecuencias.
EJEMPLO 2.3.t
Se quiere saber cuntos intervalos de clase se tienen en la distribucin de frecuen
cias de datos y tambin se quiere saber qu tan amplios deben ser los intervalos.
Solucin: Para tener una idea del nmero de intervalos a utilizar, la aplicacin de
la regla de Sturges indica:
k = 1 + 3.322(log 169)
= 1 + 3.322(2.227886705)
"" 8
Ahora, al dividir el rango entre 8 para darse una idea de la ampli
tud de los intervalos de clase, se obtiene:
R = 63-18
k
45
8
=5_625
20
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Frecuencias relativas
En ocasiones, puede ser de utilidad conocer la pro
porcin, en lugar del nmero, de valores que caen dentro de un intervalo de clase
en particular. Esta informacin se obtiene dividiendo el nmero de valores en un
intervalo de clase particular entre el nmero total de valores. Si en el ejemplo ante
rior se pretende conocer la proporcin de valores entre 30 y 39, inclusive, se divide
47 entre 169, para obtener .2781. Esto indica que 47 de 169, 17/169, o 0.2781 de
los valores caen entre 30 y 39. Al multiplicar .2781 por 100 se obtiene el porcen
taje de valores entre 30 y 39. Con lo anterior se puede decir que el 27.81 por
ciento de los individuos tienen entre 30 y 39 aos de edad. Finalmente, a la pro
porcin de valores que caen dentro de un intervalo de clase se le conoce como la
frecuencia relativa de ocurrencias en ese intervalo.
Frecuencias
10-19
20-29
30-39
40-49
50-59
60-69
4
66
47
36
12
4
Total
169
2.3
21
clase
Frecuencia
Frecuencia
acumulada
10-19
20-29
30-39
40-49
50-59
60-69
4
66
47
36
12
4
4
70
117
153
165
169
Total
169
Frecuencia
relativa
Frecuencia
relativa
acumulada
.0237
.3905
.2781
.2130
.0710
.0237
.0237
.4142
.6923
.9053
.9763
1.0000
1.0000
El histograma
Es posible presentar una distribucin de frecuencias ( o
una distribucin de frecuencias relativas) grficamente en forma de histograma, que
es un tipo especial de grfica de barras.
22
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Caja de dilogo:
Comandos de la sesin:
MTB>
SUBC>
SUBC>
SUBC>
SUBC>
C2;
Counts;
CumCounts;
Percents;
CumPercents.
Resultados:
Resumen estadstico para variables discretas
C2
1
2
3
4
5
N
Count CumCnt
4
4
66
70
47
117
36
153
12
165
4
169
Percent
2.37
39.05
27.81
21.30
7.10
2.37
CumPct
2.37
41.42
69.23
90.53
97.63
100.00
169
FIGURA 2.3.1
Distribucin de frecuencia, frecuencias acumuladas, porcentajes y porcentajes
acumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como lo construy
el paquete MINITAB.
2.3
TABIA2.3.3
Datos de la
iabla 2.3.1 que muestra los
lmites COI'l-ectos de los
intervlos de clase
Intervalos de clase
9.5-19.5
19.5-29.5
29.5-39.5
39.5-49.5
49.5-59.5
59.5-69.5
Total
23
70
60
50
Frecuencias
4
66
47
36
12
4
169
::
5 40
30
20
10
14.5
otros sern un poco mayores que 29, cuando la medicin es precisa. Al considerar la
continuidad implcita de la variable, y suponiendo que los datos fueran redondeados
al entero positivo inferior ms prximo, entonces es lgico suponer que 19.5 y 29.5
son los lmites correctos para este segundo intervalo. Los lmites correctos para cada
intervalo de clase se toman como se muestra en la tabla 2.3.3.
Si se elabora una grfica utilizando estos lmites de intervalos de clase como la
base de los rectngulos, no habr separaciones entre las barras, y se obtendr el
histograma que se muestra en la fi gu ra 2.3.2. Se utiliz el paquete MINITAB para
elaborar el histograma. Se almacenaron los datos en la columna 1 y se le nombr
"Edad". El procedimiento se muestra en la fi gu ra 2.3.3. El mensaje 14.5:64:5/10
indica que el primer punto medio es 14.5, que el ltimo punto medio es 64.5 y que
los intervalos estn igualmente espaciados en incrementos de 10 unidades. Se con
sider un espacio delimitado por el eje horizontal y el lmite exterior formado por
las barras en la figu ra 2.3.2.
Caja de dilogo:
Comandos de la sesin:
Teclear Edad en X.
Clic Options. Elegir MidPoint. Teclear
14.5:64.5/10 en MidPoint/cutPoint positions:
Clic OK dos veces.
FIGURA 2.3.3
Caja de dilogo y comandos de la sesin de MINITAB para elaborar el
histograma a partir de los datos del ejemplo 1.4.l.
24
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Al espacio entre los lmites del histograma se le conoce como rea del
histograma. A cada observacin se le asigna una unidad de esta rea. Puesto que se
tienen 1 69 observaciones, el histograma tiene en total 1 69 unidades. Cada barra
contiene cierta proporcin del rea total, de acuerdo con la frecuencia. La segunda
barra, por ejemplo, contiene 66/ 1 69 del rea. Esto, como ya se estudi, es la fre
cuencia de ocurrencia de los valores entre 1 9.5 y 29.5. A partir de esto se observa
que las subreas del histograma definidas por las barras corresponden a las fre
cuencias de ocurrencia de valores entre los lmites de las reas de la escala horizon
tal. El porcentaje de una subrea particular del rea total del histograma es igual a
la frecuencia relativa de ocurrencia de los valores entre los puntos correspondientes
sobre el eje horizontal.
El polgono de frecuencia
70
70
60
60
"'
a
50
(.)
30
ro 50
e: 40
'5
40
<ll
:::,
(.)
!!?
!!?
u.. 20
20
10
10
30
FIGURA 2.3.4
Polgono de frecuencia para las
edades de 169 individuos incluidas en la tabla
2.2.1.
FIGURA 2.3.5
Histograma y polgono de fre
cuencia para las edades de 169 individuos inclui
das en la tabla 2.2. 1 .
2.3
25
EJEMPLO 2.3.2
Utilice los datos de edades de la tabla 2.2. l para construir un despliegue de tallo y
hojas.
Solucin: Puesto que todas las mediciones son nmeros de dos dgitos, se tienen
tallos y hojas de un dgito cada uno. Por ejemplo, la medicin 1 8 tiene
un tallo de l y una hoja de 8. La figur 2.3.6 muestra el despliegue de
tallo y hojas para los datos.
26
CAPTULO 2
Tallo
1
2
3
4
5
6
ESTADSTICA DESCRIPTIVA
Hoj a
8899
0 1112222223333333444444444 5 5 5 5 6 6 6 6 6 6 6666677777777 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4 4 4 4 5 6 6 6 7 7 71 7 8 8 8 8 8 9 9 9
0 0 0 0 00 1 1 1 2 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9
0 00112233336
1233
FIGURA 2.3.6
Comandos de la sesin:
Caja de dilogo:
>-
Resultados:
Despliegue en modo carcter de tallo y hojas
Stem-and-Leaf of ' Edad '
Leaf Uni t = 1 . 0
4
70
(47)
. 52
16
4
1
2
3
4
5
6
N= 1 6 9
8899
0 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 77 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 +
0 0 0 0 0 0 0 00 01111111222223334444456 6677777 8 8 8 8 8 9 9 9
0 0 0 0 0 0 1 1 1 2 2 2 2 3 3 3A4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9
00 0112233336
1233
FIGURA 2.3. 7
EJERCICIOS
27
1
2
2
3
3
4
4
5
5
6
169
8899
0 11 1222222 3 3 3 3 3 3 3 444444444
5 5 5 5 6 6 6 6 6 6 6 6 6 6 67 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4444
5 6 6 67777788888999
0 0 0 0 0 0 1 112 2 2 2 3 3 3 4 4 4
5 5 5 6 6 7 7 7 7 8 8 8 8 8 89 9
00011223333
6
1233
FIGURA 2.3.8
Despliegue de tallo y hojas preparado por el paquete MINITAB a partir
de los datos de las edades incluidas en la tabla 2.2. 1 , con intervalos de clase de amplitud = 5.
EJERCICIOS
2.3.1
28
CAPTUL0 2
ESTADSTICA DESCRIPTIVA
tenan entre 26 y 82 aos de edad. La siguiente tabla muestra los valores de Ki-67 (expresados en porcentajes) para esos pacientes.
10.1 2
10.15
1 9.30
33.00
9.63
1 .42
28.30
4.65
2 1 .09
1 .00
1 3.72
8.77
3.00
4.09
1 7.60
5.22
1 2 . 70
7.39
2 1 .36
1 1 .36
8. 1 2
3 . 14
4.33
5.07
8.10
4.23
1 3. 1 1
4.07
6.07
45.82
5.58
5.00
9.69
4.14
4.59
27.55
3.51
8.58
1 4.70
6.72
1 3. 1 0
1 0.80
5.48
16.40
1 1 .65
9.31
25. 1 1
1 9 .50
73.00
1 1 .95
27.00
32.90
9.40
4.70
9.20
50.00
5.00
30.00
4.00
49.85
24.89
28.85
5.00
9.20
2.00
4.84
1 0.00
75.00
14.79
15.00
4.32
12.82
10.00
8.37
2.03
1 0.00
9.83
9. 1 0
5 .00
5.60
3.32
9.75
1 0:54
23.50
4.40
26.30
7.40
1 2.60
1 5.92
17.84
33.30 .
9.03
9.80
35.40
14.00
6.20
1 0.00
1 5.00
1 0.00
25.00
29.70
29.55
19.80
44.20
4.87
3.00
9.79
1 9.83
20.00
8.99
40.00
5.69
4.50
4.12
6.20
2.69
6.27
6.55
1 1 .20
29.50
28. 1 0
1 3 . 52
7.37
27.30
32.60
26.80
1 .73
9.35
1 7.96
1 9.40
1 0.90
4.53
5 1 .20
2.43
5 1 .70
1 5.00
5.00
20.00
25.00
1 5 .00
20.00
1 9 .95
1 0.00
4.99
30.00
1 0.00
2.00
5 .00
20.00
5.00
3.97
1 8.79
1 .42
4.4 1
1 4.24
2.07
3 . 69
6.37
8.2 1
6.88
9.60
5.48
5.70
8.38
42.70
1 6.60
35.90
1 4.78
4 1 . 12
7.19
2.74
1 9.40
6.40
2.00
43 .50
3.60
1 5 .00
30.00
1 0.00
20.00
30.00
5.00
38:90
6.00
9.88
29. 1 0
2.96
9.50
4.77
4.55
30.00
1 3.76
1 8.57
1 .88
9. 1 1
3.12
5 .42
1 3.78
3.42
7.53
6.03
7.00
1 7.80
EJERCICIOS
29
Jarjour et al. (A-2) realizaron un estudio en el que se midieron los niveles de histamina del
fluido de lavado bronquialveolar (BAL, siglas en ingls) en individuos con rinitis alrgica,
individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la prote
na total (g/ml) en muestras de BAL. Los siguientes son los resultados de 6 1 muestras
analizadas:
76.33
77.63
149.49
54.38
55.47
5 1 .70
78. 1 5
85.40
4 1 .98
69.9 1
128.40
88. 1 7
58.50
84.70
44.40
FUENTE:
57.73
88.78
86.24
54.07
95.06
1 1 4.79
53.07
72.30
59.36
59.20
67. 1 0
109.30
82.60
62.80
6 1 .90
74.78
77.40
57.90
9 1 .47
7 1 .50
6 1 .70
1 06.00
61.10
63.96
54.41
83.82
79.55
1 53.56
70. 1 7
55.05
100.36
51.16
72. 10
62.32
73.53
47.23
35.90
72.20
66.60
59.76
95.33
73.50
62.20
67.20
44.73
57.68
30
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Ellis et al. (A-3) realizaron un estudio para investigar las caractersticas de unin de la imipramina
a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de
personas sanas y pacientes depresivos. Como parte del estudio, los investigadores obtuvieron
los valores mximos de unin a la molcula receptora (BmJ en estos individuos. Los siguientes
valores son de 57 inqividuos estudiados que fueron diagnosticados con depresin unipolar.
1 074
372
473
797
385
769
797
485
334
670
510
299
333
303
768
FUENTE :
392
475
319
301
556
3 00
339
488
1 1 14
761
571
306
80
607
1017
286
511
147
476
416
528
419
328
1 220
438
238
867
1 657
790
479
1 79
530
446
328
348
773
697
520
341
604
420
397
EJERCICIOS
31
4380
720
730
455
540
545
1 50
1 825
2920
270
284
330
1 000
1 460
360
1 20
1 095
330
540
730
1 095
365
1 80
2340
360
1 80
2005
717
3710
180
2555
4015
2885
730
3 1 60
910
360
466
2920
240
4745
88
545
90
1 670
360
727
1 275
344
2555
545
90
60
540
90
660
365
3 1 00
1 050
90
450
1 200
1 20
1 460
409
910
1 1 25
32
CAPTULO 2
2.3.5
2.3.6
ESTADSTICA DESCRIPTIVA
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 . 1 , inciso h.
e) por qu se cree que los datos estn inclinados de esa manera?
d) cmo podran utilizar los investigadores esta informacin en estudios posteriores?
e) cuntas mediciones son mayores que 729?
f) Qu porcentaje de mediciones es menor que 1 460?
La siguiente tabla muestra el nmero de horas de sueo de 45 pacientes de un hospital como
consecuencia de la administracin de cierto anestsico.
7
5
4
3
8
7 10 12
8
1
1
10
13
3
8
4
12 1 1
4
5
5
7
7
3
3
8
2
7
5
5
8 13
4
1
17
3
7
7
11
8
4
3
1 17
10
a) Construya a partir de estos datos:
Una distribucin de frecuencias
Un histograma
Un polgono de frecuencia
U na distribucin de frecuencias relativas
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3. 1, inciso h.
Los siguientes datos corresponden al nmero de nios que nacieron durante un ao, en 60
hospitales comunitarios:
30
37
32
39
52
2.3.7
55
55
26
56
57
27
52
40
59
43
45
34
28
58
46
56
54
53
49
54
48
42
54
53
31
45
32
29
30
22
49
59
42
53
31
32
35
42
21
24
57
46
54
34
24
47
24
53
28
57
56
57
59
50
29
28 1
210
1 88
190
1 87
194
222
201
195
191
192
235
1 35
151
1 34
206
264
203
227
175
260
239
233
157
193
193
249
172
230
236
212
258
220
204
264
218
175
234
1 68
152
1 79
166
204
238
3 12
198
205
198
232
258
225
159
219
205
214
24 1
252
173
217
1 55
179 1 8 1 149
223 1 86 190
2 1 1 245 1 5 1
229 1 9 1 200
227 190 2 1 2
1 49 164 225
2 1 0 178 1 59
187 1 89 237
249 196 223
2 1 5 197 2 1 0
(Contina)
EJERCICIOS
2 14
218
169
191
25 1
1 88
184
212
236
23 1
228
33
2.3.9
32
12
23.
45
38
21
54
64
55
35
43
45
10
44
56
39
37
34
55
45
60
53
22
46
57
Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgen
cias de dos hospitales urbanos. Construya un despliegue de tallo y hojas para cada conjunto
de datos. Qu sugiere la comparacin de los dos despliegues respecto a los dos hospitales?
Describa los dos conjuntos de datos con respecto a la simetra e inclinacin tal como se
estudi en el ejercicio 2.3 . 1 . inciso h.
Hospital A
249. 10
2 14.30
20 1 .20
1 71.10
248.30
202.50
195 . 1 0
239.80
222.00
209.70
222.20
2 13.30
245.70
2 1 2.50
233.90
2 14.40
225.50
2 13.00
201.70
229.80
205.90
1 9 1 .40
238.80
1 84.90
2 1 7.90
186.00
1 52.00
190.30
1 55.30
1 50.20
2 14.10
1 65.70
1 35.40
195.90
2 12.40
Hospital B
1 99.50
1 25.50
1 54.70
167.70
1 68.90
1 84.QO
143.50
1 45.30
203.40
166.70
1 73.20
190.40
1 54.60
1 86.70
1 78.60
34
CAPTULO 2
2.3. 10
ESTADSTICA DESCRIPTIVA
Para este ejercicio es necesario utilizar los datos del ejemplo l .4. 1 desplegados en la
tabla 1 .4. 1 .
a) Construya intervalos de clase con amplitud 5 para:
Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas
Una distribucin de frecuencias relativas acumuladas
Un histograma
Un polgono de frecuencia
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 . 1 , inciso h.
2.3. 1 1
Los objetivos de una investigacin realizada por Skjelbo et al. (A-5) fueron examinar: a) la
relacin entre el metabolismo de la doroguanida y la eficacia de la profilaxis contra la malaria; -o) el metabolismo de la mefenitona y su relacin con el metabolismo de la cloroguanida
entre habitantes de Tanzania. A partir de la informacin proporcionada por las muestras de
orina de 2 1 6 individuos, los investigadores calcularon el porcentje d inmutabilidad de Smefenitona hacia R-mefentona (porcentaje SIR). Los resultados son los siguientes:
0.0269
0.0760
0.0990
0.0990
0.0990
0.0990
0 . 1 050
0. 1 1 90
0.1460
0. 1550
0 . 1 690
0.1810
0 .2070
0. 2390
0.2470
0.27 1 0
0.2990
0.3400
0.3630
0.4090
0.4300
0.4680
0.5340
0.5930
0.6870
0.7860
0.9530
FUENTE:
0.0400
0 . 0850
0.0990
0;0990
0.0990
0.0990
0. 1 050
0. 1 200
0.1480
0 . 1570
0.1710
0. 1 880
0.2 1 00
0.2400
0.2540
0.2800
0.3000
0.3440
0.3660
0.4090
0.4360
0 .48 1 0
0.5340
0.60 1 0
0.6900
0.7950
0.9830
0.0550
0.0870
0.0990
0.0990
0.0990
0.0990
0. 1 080
0 . 1 230
0. 1490
0 . 1 600
0. 1 720
0 . 1 890
0.2 1 00
0.2420
0.2570
0.2800
0.3070
0.3480
0.3830
0.4 1 00
0.4370
0.4870
0.5460
0.6240
0.69 1 0
0.8040
0.9890
0.0550
0.0870
0.0990
0.0990
0.0990
0.0990
0. 1 080
0 . 1 240
0. 1490
. 0 . 1 650
0. 1 740
0. 1 890
. 0 . 2 140
0.2430
0 ..2600
0.2870
0.3 1 00
0.3490
0.3900
0.4160
0.4390
0.49 1 0
0.548
0.6280
0.6940
0.8200
1 .0 1 20
0.0650
0.0880
0.0990
0.0990
0.0990
0.0990
0. 1 090
0. 1 340
0. 1 500
0. 1 650
0. 1 780
0 . 1 920
0.2 1 5 0
0.2450
0.2620
0.2880
0.3 1 1 0
0.3520
0.3960
0.42 1 0
0.44 1 0
0.4980
0.5480
0.6380
.7040
0.8350
1 .0260
0.0670
0.0900
0.0990
0.0990
0.0990
0. 1 000
0 . 1 090
0. 1 340
0. 1500
0. 1 670
0 . 1 780
0. 1 950
0.2 1 60
0.2450
0.2650
0.2940
0.3 140
0.3,530
0.3990
0.4260
0.44 1 0
0.5030
0.5490
0.6600
0.7 1 20
0.8770
1 .0320
0 . 0700
0.0900
0.0990
0.0990
0.0990
0. 1 020
0. 1 090
0.1 370
0 . 1 500
0 . 1 670
0 . 1 790
0 ..1970
0.2260
0.2460
0.2650
0.2970
0.3 1 90
0.3 570.
0.4080
0.4290
0.4430
0.5060
0.5550
0.6720
0.7200
0.9090
1 . 0620
0.0720
0.0990
0.0990
0.0990
0.0990
0 . 1 040
0. 1 1 60
0. 1390
0 . 1 540
0 . 1 677
0 . 1790
0.20 1 0
0.2290
0.2460
0.2680
0.2980
0.32 1 0
0 .3630
0.4080
0.4290
0.4540
0.5220
0.5920
0.6820
0.7280
0.9520
1 . 1 60 0
EJERCICIOS
35
a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, fre
cuencia acumulada y frecuencia relativa acumulada; as como las siguientes grficas:
histograma, polgono de frecuencia y despliegtie de tallo y hojas.
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3. 1, inciso h.
e) Los investigadores definieron como metabolizantes de bajo rendimiento de mefenitona a
cualquier individuo con un porcentaje mefenitona SIR mayor a .9. cuntos y qu porcenta
je de individuos son metabolizantes de bajo rendimiento?
d) Cuntos y qu porcentaje de individuos tienen porcentajes menores que . 7, entre .3 y
.6999, inclusive, y mayores que .4999?
2.3.12
1.710
1 .700
1 .800
1 .730
1 .780
1.920
1.710
1 .790
1 .760
1 .690
1 .700
1 .880
1 .800
1.610
1 .760
1 .775
1.880
1 .630
1 .780
1 .690
1 .700
1 :820
1.790
1 .820
1 .760
1 . 690
1 .690
1 .760
1 .750
1 . 640
1 .720
1.740
1 .670
1 .840
1 .730
1.710
1 .730
1.640
1 .840
1 .800
1 .655
1 .8 1 0
1 .820
1 .720
1 .820
1 .690
1 .520
1 .830
1 .630
1 .760
1 .780
1 .900
1.780
1 .740
1 .730
1 .730
1 . 560
1 . 600
1 .830
1.620
1 .800
1 .720
1.800
1.710
1 .840
1 .780
1 .805
1 .760
1 .760
1 .850
1 .630
1 .830
1 .800
1 .750
1.810
1. 740
1 .820
1 .800
1 .700
1 .800
1 .650
1 .850
1.690
1 .720
1 .780
1 .800
1 .770
1 .820
1 .650
a) Construya con los datos las si guientes distribuciones: frecuencia, frecuencia relativa, fre
cuencia acumulada y frecuencia relativa acumulada; as como las siguientes grficas:
histograma, polgono de frecuencia y despliegue de tallo y hojas.
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3.1 , inciso h.
e) Cmo se puede explicar la forma de distribucin de estos datos?
d) Qu tan altos son el 6.42 por ciento de individuos ms altos?
e) Qu tan altos son el 1 0.09 por ciento de individuos de menor estatura?
36
CAPTULO 2
ESTADSTICA DESCRIPTIVA
2.4 ESTADSTICADESCRIPTIVA:
MEDIDAS DE TENDENCIA CENTRAL
Aunque las distribuciones de frecuencia sirven a propsitos muy tiles, existen
muchas situaciones en que se requieren otros tips de resumen de datos. Lo que se
necesita, en muchos casos, es la: posibilidad de condensar datos por medio de un
slo nmero llamado medida descriptiva. Las medidas descriptivas pueden calcularse
a partir de los datos de una muestra o de una poblacin. Para distinguirlas entre s
se tienen las siguientes definiciones:
DEFINICIONES
l. Una medida descriptiva calculada a partir de los datos
de una m1,1estra se llama estadstica.
2. Una medida descriptiva calculada a partir de los datos
de una poblacin se llama parmetro.
Algunos tipos de medidas descriptivas se pueden calcular a partir de un con
junto de datos. Sin embargo, este captulo se limita al estudio de las medidas de
tendencia central y de las medidas de dispersin. Las medidas de tendencia central se
consideran en esta seccin, y las medidas de dispersin, en la siguiente.
En cada una de las medidas de tendencia central, de las que se discuten slo
tres, nicamente un valor delconjunto de datos se considera como el representati
vo del todo. Las medidas de tendencia central conllevan informacin respecto al
valor promedio de un conjunto de valores. Tal como se ver, la palabra promedio se
puede definir en diversas formas.
Las tres medida de tendencia central de uso ms frecuente son: la media, la
moda y la mediana.
La medida de tendencia central ms conocida es la me
dia aritmtica. sta es la medida descriptiva que la mayora de las personas tienen
en mente cuando se habla de "promedio". El adjetivo aritmtica distingue a esta
media de otras que se puedan calcular. Puesto que no se estudian otras medias en
este libro, no debe ser causa de confusin si al referirse a la media aritmtica slo se
dice media. La media se obtiene sumando todos los valores en una poblacin o
muestra y dividiendo entre el nmero de valores sumados.
La media aritmtica
EJEMPLO 2.4.1
Obtenga la edad media de la poblacin de los 169 individuos registrados en la
tabla 1.4. 1.
Solucin:
27 + 27 + + 23 + 39
34.302
edad media = - - - - --169
Los tres puntos en el numerador representan valores que no se muestran para
economizar espacio.
2.3
37
= 27,
X2
= 27, . . . ,
X 169
= 39
En general, un valor comn para la variable aleatoria se designa con x;, y el valor
final en una poblacin finita de valores, con xN, donde N es el nmero de valores en
la poblacin. Por ltimo, se utiliza la letra griega para simbolizar la media de la
poblacin. Ahora se puede escribir la frmula general para la media de una pobla
cin finita como sigue:
N
L X
= .!:'.!..._
(2.4. 1 )
2.:
EJEMPLO 2.4.2
En el captulo 1 se obtuvo una muestra aleatoria simple de 1 O individuos a partir de
la poblacin mostrada en la tabla 1.4. 1 . Ahora corrsponde calcular la edad media
de los 1 O individuos en la muestra.
Solucin: Las edades (vase la tabla 1 .4.2) de los 1 0 individuos de la muestra son:
x 1 = 42, x2 = 28, x3 = 28, x4 61, x5 3 1 , x6 = 23, x7 = 50, x8 = 34, x9 = 32,
x10 = 37. Al sustituir los datos de la muestra en la ecuacin 2.4.2 se obtiene:
n
2. X;
42 + 28 + + 37 366
x = .i:L._
=
= - = 36.6
n
10
10
38
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Propiedades de la media
EJEMPLO 2.4.3
Encuentre la mediana de los datos contenidos en la tabla 2.2. 1 .
Solucin: En la tabla, los valores ya estn ordenados, de modo que slo se requiere
encontrar los qos valores medios. El valor medio es el (n + 1 )/2 =( 169+ 1 )/
2
1 70/2
85-simo. Contando desde el ms pequeo hasta el 85simo valor se observa que correspond al 3 1 . Por lo tanto, la edad me
diana de los 1 69 individuos es de 3 1 aos.
EJEMPLO 2.4.4
Obtenga ahora la edad mediana para los individuos de la muestra descrita en el
ejemplo 2.4.2.
2.5
39
La moda
EJEMPLO 2.4.5
Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla 2.2. 1 .
Solucin: E l conteo d e las edades e n l a tabla 2.2. 1 revela que la edad 2 6 ocurre
con ms frecuencia (l l veces). La moda para esta poblacin de edades
es de 26.
Para ilustrar un conjunto de valores que tiene ms de una moda, considere un
laboratorio con diez empleados cuyas edades son: 20, 2 1 , 20, 20, 34, 22, 24, 27, 27
y 27. Se puede decir que estos datos tienen dos modas 20 y 27. Una muestra que
consista en los valores 1 O, 2 1 , 33, 53 y 54 no tiene moda, puesto que todos los
valores son diferentes.
La moda se puede utilizar para describir datos cualitativos. Por ejemplo, su
ponga que los pacientes de una clnica de salud mental durante un ao dado reci
bieron uno de los siguientes diagnsticos: retardo mental, sndrome cerebral
orgnico, psicosis, neurosis y trastornos de personalidad. El diagnstico que ocurre
con mayor frecuencia en el grupo de pacientes se denominara diagnstico modal.
40
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Poblacin A
........
'
......
'
Poblacin B
''
FIGUBA 2.5. t
Dos distribuciones de frecuencias con igual
media pero diferente magnitud de dispersin.
para dos poblaciones que tienen medias iguales, pero diferente magnitud de varia
bilidad. La poblacin B, ms variable que la poblacin A, es ms dispersa. Si los
valores estn ampliamente esparcidos, la dispersin es mayor. Otros trminos sin
nimos de dispersin son: variacin, expansin y dispersin.
Una forma de medir la variacin en un
El rango o intervalo de variacin
conjunto de valores es calrulando el rango. ste es la diferencia entre el valor ms pe
queo y el ms grande en un conjunto de observaciones. Si se representa el rango como
R, el valor mayor como xv y el valor menor como xs, el rango se calrula como sigue:
(2.5. 1)
EJEMPLO 2.5.1
Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo 2.4.2.
Soh1cin:
= 61 - 23
. 38
2.5
41
cin se efecta mediante lo que se conoce como variancia. Por ejemplo, para calcu
lar la variancia de una muestra de valores, se resta la media de cada uno de los
valores individuales, las diferencias se elevan al cuadrado y despus se suman entre
s. Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la
media se divide entre el tamao de la muestra, menos 1 , para obtener la variancia
de la muestra . Si se asigna la letra s2 para simbolizar la variancia de la muestra, el
procedimiento descrito se expresa como sigue:
i=I
s-9 = -
--
n-1
(2.5.2)
EJEMPLO 2.5.2
. Calcule la variancia de las edades de los individuos estudiadas en el ejemplo 2.4.2.
Solucin: .
( 42 -36.6) 2 + (28 - 36.6) 2 + .. . + (37 36.6) 2
s2
=
1 1 96.399997
---
9
1 32.933333
9
Grados de libertad
La razn de dividir entre n - 1 , en lugar de entre n, como
hubiera de esperarse, es una consideracin terica conocida como grados de libertad.
En el clculo de la variancia, se puede decir que hay n - 1 grados de libertad. El
razonaminto es como sigue: la suma de las desviaciones de los valores individuales
con respecto a su media es igual a cero, hecho que puede demostrarse. Si se cono
cen los valores de n 1 de las desviaciones a partir de la media, entonces se conoce
el n-simo valor, ya que queda determinado automticamente debido a la restric
cin de que todos los valores de n se sumen a cero. Desde un punto de vista prcti
co, dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario
por razones del uso de la variancia de la muestra en los procedimientos de inferen
cia que se estudian posteriormente. El concepto de grados de libertad se tratar de
nuevo ms adelante. Los estudiantes interesados en profundizar en este aspecto
pueden consultar el artculo de Walker (2).
Cuando se calcula la variancia a partir de una poblacin finita de N valores, se
si gue el procedimiento recin descrito, excepto que se resta de cada x y se divide
entre N en lugar de N-1 . Si se asigna el smbolo cr2 para la variancia de una pobla
cin finita, la frmula es la s iguiente:
(2.5.3)
Desviacin estndar
42
CAPTULO 2
ESTADSTICA DESCRIPTIVA
_l, ( X - X) 2
(2.5.4)
- n -1
La desviacin estndar de una poblacin finita se obtiene con la raz cuadrada
de la cantidad resultante de la ecuacin 2.5.3.
S 2'
'\Jl.
i=l
= --
-=X
.
s
C.V. =
(100)
(2.5.5)
Muestra l
Muestra 2
25 aos
145 libras
10 libras
11 aos
80 libras
10 libras
2.5
43
10
c.v. = (1 00) = 1 2.5
80
N
10
MIN
2 3 . 00
MEAN
36 . 60
MAX
61 . 00
MEDIAN
33 . 00
2 8 . 00
TRMEAN
35 . 25
STDEV
1 1 . 53
SEMEAN
3 . 65
Q3
44 . 00
FIGURA 2.5.2
La impresin de medidas descriptivas calculadas a partir de la muestra de
edades del ejemplo 2.4.2 con el paquete de software estadstico MINITAB.
44
CAPTULO 2
ESTADSTICA DESCRIPTIVA
Caja de dilogo:
Stat
Comandos de l sesin:
Descriptive Statistics
10
MEAN
STANDARD
DEVIATION
MINIMUM
VALUE
3 6 . 600 0 0 0 0 0 1 1 . 5 2 9 67 1 87 . 2 3 . 0 0 0 0 0 0 0 0 6 1 . 0 0 0 0 0 00 0
VARIANCE
c.v.
3 . 6 4 6 0 0 2 3 8 3 6 6 . 0 0.0 0 0 0 0 0 1 3 2 . 9 3 3 3 3 3 3 3
31 . 502
STD ERROR
OF MEAN
MAXIMUM
VALUE
SUM
FIGURA 2.5.4
Salida impresa de las medidas descriptivas c.alculadas a partir de la muestra de edades del ejemplo 2.4.2, con el paquete SAS.
2.5
45
2(n + l)
n+I
.
= -- -s1ma observacin ordenada
(2.5.6)
Un IQR grande indica una magnitud mayor de variabilidad entre el 50 por ciento
central de las observaciones relevantes, y un IQR pequeo indica una magnitud peque
a de variabilidad entre las observaciones relevantes. Puesto que estas expresiones son
bastante vagas, es ms informativa la comparacin de la amplitud del intercuartil con
la magnitud del conjunto de datos completo. Se puede hacer la comparacin for
mando la razn del IQR con respecto a la amplitud (R) y multiplicando por 100. Es
decjr,. lOO(IQR/R) indica que el porcentaje de IQR es de toda la amplitud.
Grfica de caja con valores extrenws (box and whisker)
Un disposi
tivo visual muy til para comunicar la informacin contenida en un conjunto de
datos es la grfica de caja con valores extremos (algunas veces llamada slo boxplot).
Para la construccin de esta grfica se usan los cuartiles de un conjunto de datos, y
se siguen los cinco pasos que se mencionan a continuacin:
1: Representar a la variable de inters sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo iz
quierdo est alineado con el primer cuartil Q, y el extremo derecho del cua
dro quede alineado con el tercer cuartil Q3 .
3. Dividir el cuadro en dos partes con una lnea vertical que se alinee con la
mediana Q 2
4. Dibujar una lnea horizontal desde el extremo izquierdo del cuadro hasta el punto
en donde quede alineada con la medicin ms pequea en el conjunto de datos.
5. Dibujar otra lnea horizontal desde el extremo derecho del cuadro hasta el
punto donde se alinea con la medicin ms grande en el conjunto de datos.
46
CAPTULO 2
ESTADSTICA DESCRIPTIVA
TABIA 25.t
Dimett-os (cm) de sarcomas puros extirpados del pecho
de 20 mujeres
.::,
5.0
2.1
5.0
1 .2
5 .0
2.5
2.5
6.5
6.0
3.0
7.0
4.0
9.5
3.8
8.0
4.2
1 3.0
4.5
5.0
Fumrn: William C. Ptts, Virginia A Rojas, Michael J. Gaffey, Robert V. Rouse, Jos Esteban,
Henry F. Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasa
and Sarcomas of the Breast", AmericanJournal of Clinical Pathology, 95, 623-632.
10
Dimetro (cm)
FIGUR.\. 2.5.5
11
12
13
14
2.5
47
14
12
10
-
-o
'"'
E
6
4
2
FIGURA 2.5.6
Caja de dilogo:
Comandos de la sesin:
Stat
EDA Boxplot
Teclear Tumsze en Y.
En Data Display 1, seleccionar IQRange Box.
En Data Display 2, sekccionar Outlier Symbol.
Clic OK.
>
FIGURA 2.5. 7
>
48
CAPTUL0 2
ESTADSTICA DESCRIPTIVA
EJERCICIOS
Calcule para cada uno de los conjuntos de datos de los siguientes ejercicios, a) la media, b) la
mediana, c) la moda, d) la amplitud, e) la varianza, f) la desviacin estndar, g) el coeficiente
de variacin y h) la amplitud del intercuartil. Cada conjunto de datos debe considerarse
como una muestra. Para los ejercicios que se considere adecuado, prepare una grfica de caja
con valores extremos y estudie la utilidad que proporciona este dispositivo para'comprender
la naturaleza de los datos. Seleccione para cada ejercicio la medida de tendencia central que
pueda ser la ms apropiada para describir los datos. Establezca los razonamientos quejus
fican cada eleccin.
2.5.1
Treinta pacientes con limitaciones crnicas severas de respiracin son sujetos de estudio por
parte de Fernndez et al. (A-8), para invesgar la eficacia del tramiento para mejorar el inter
cambio de gases. Los siguientes valores representan la superficie corporal de los pacientes:
.2. 1 0
1.65
1 .74
1 .74
1.68
1.57
1 .83
2.76
1 .57
1 .90
1.71
1 .77
1.73
FUENTE: Enrique Fernndez, Paltiel Weiner, Ephraiin Meltzer, Mary M. Lutz, David
B. Badish y Reuben M. Cherniack, "Sustained Improvement in Gas Exchange After
Negative Pressure Venti.Iation for 8 Hours per Day on 2 Successive Days in Chronic
Airflow Limitation", American Revie.w of Respiratory Disease, 144, 390-394.
2.5.2
Los estudios de Dosman etal. (A 9) permiten concluir que la aspiracin de aire fro incrementa
la reacvidad bronquial al inhalar histamina en pacientes asmticos. Se estudiaron siete
pacientes asmtcos con edades entre 19 y 33 aos. Los valores de lnea de base (en litros por
minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes:
0
3.94
1 .47
2.06
2.36
3.74
3.43
3.78
2.5.3
A 17 paientes internados en los Aberdeen Teaching Hospitals, en Escocia, entre los aos de
1980 y mediados de 1988 se les diagnostic absceso heptico pigeno. Nueve pacientes
. murieron. En un artculo de la revista Age and Ageing, Sridharan et al. (A- 1 0) afirmaron que
"la elevada mortalidad por absceso heptico p igeno se debe; al menos en parte, a la falta de
sospecha clnica". Las 'edades de los individuos estudiados son las siguientes:
72
69 . 7 1
81
63
84
62
61
.78
76 84 67 86
87
76
69 64
FUENTE: G.V Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in the
Elderly", Age and Agei:ng, 19, 199-203. Cortesa de Oxford University Press.
2.5.4
Arinami et al. (A- 1 1) analizaron las respuestas auditivas del tallo cerebral en una muestra de
12 varones con retardo mental afectados por el s1drome de fragilidad del cromosoma X.
Los valores de IQ para cada individuo son los sigiientes:
17
22
17
18
17
19
34
26
14
33
21
29
FUENTE: Tadao Arinami, Miki Sato, Susumu Nakajima e Ikuko Kondo, "Auditory
Brain-stem Responses in the Fragile X Syndrome", American]ournal ofHuman Genetics,
43; 46-51 . Copyright" de la American Society of Human Genetics. Todos los dere
chos reservados. Publicacin de la Universidad de Chicago.
2.6
2.5.5
RESUMEN
49
2.5.6
El objetivo del estudio de Kuhnz et al. (A- 1 3) es analizar ciertos parmetros farmacocinticos
bsicos en mujeres tratadas con anticonceptivos trifsicos de ingestin oral. Los pesos (en
kilogramos) de las 10 mujeres que participaron en el estudio son:
62
53
57
55
69
64
60
59
60
60
FUENTE: Wilhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y
Mariane Mahler, "Single and Multiple Administration of a New Triphasic Oral
Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and
Total Testosterone Levels in Serum", Americanjournal of Obstetrics and Gynecology,
1 65, 596-602.
2.5. 7
2.5.8
2.5.9
2.5.10
2.5. 1 1
2.5.12
2.5.13
2.5.14
2.6
RESUNIEN
En este captulo se examinan varios procedimientos estadsticos descriptivos que
incluyen organizacin de datos por medio de arreglo ordenado, distribucin de
frecuencias, distribucin de frecuencias relativas, histogramas y polgonos de fre-
50
CAPTULO 2
ESTADSTICA DESCRIPTIVA
2.
3.
4.
5.
6.
7.
8.
Describa, desde su propio campo de estudio, una poblacin de datos donde podra ser til
conocer la tendencia central y la dispersin. Obtenga los valores reales o realistas a partir de
esa poblacin y calcule la media, mediana, moda, variancia y desviacin estndar.
9.
Recolecte un conjunto de datos reales o realistas, en su campo de estudio para construir una
distribucin de frecuencias, una distribucin de frecuencias relativas, un histograma y un
polgono de frecuencia.
10.
Calcule la media, mediana, moda, variancia y desviacin estndar para los datos del ejercicio 9.
1 1.
12.
26 28 34 26 25 26 26 30 34 28 25 26 3 1 25 25 25 25 28 25 25 25
FUENTE: Utilizado con autorizacin de Thomas W Uhde, M. D.
51
a) Combine estos valores con las puntuaciones del ejercicio 2.5. 1 4 y elabore una grfica de
tallo y hojas.
b) Con base en la grfica de despliegue de tallo y hojas, describa en una palabra la naturaleza
de los datos.
e) Por qu luce as la grfica del inciso b?
d) Para la combinacin de datos de ZAS calcule: la media, moda, mediana, variancia y
desviacin estndar.
13.
Consulte el ejercicio 1 2 y calcule, slo para los 21 controles sanos, la media, moda, mediana,
variancia y desviacin estndar.
14.
Consulte el ejercicio 1 2 y calcule para los 26 individuos con trastornos de pnico: la media,
moda, mediana, variancia y desviacin estndar.
15.
1 6.
1 7.
Swif et al. (A- 1 5 ) realizaron un estudio sobre la presencia de importantes enfermedades psi
quitricas en portadores heterocigticos del gen causante del sndrome de Wolfram. De acuer
do con los investigadores, el sndrome de Wolfram es un sndrome neurodegenerativo
autosmico recesivo, en el que 25 por ciento de los individuos que son homocigticos para la
enfermedad tienen severos sntomas psiquitricos que los conducen a intentos de suicidio u
hospitalizacin psiquitrica. Entre los individuos estudiados se encontr a 543 parientes
consanguneos de los pacientes con sndrome de Wolfram. A continuacin se muestra una
distribucin de frecuencia de las edades de estos parientes consanguneos:
Edad
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
Cantidad
55
93
1 13
90
85
73
29
5
Total
543
Con base en estos datos, elabore una distribucin de frecuencias relativas, una distribucin
de frecuencias acumuladas y una distribucin de frecuencias relativas acumuladas.
1 8.
La motivacin de un estudio realizado por Roberts et al. (A- 1 6) fue su preocupacin sobre si las
recomendaciones vigentes de los requerimientos dieteticos de energa probablemente subesti
man el total de energa necesaria en varones adultos jvenes. Los sujetos del estudio fueron 1 4
varones adultosjvenes sanos d e peso corporal normal, quienes desarrollaban d e tiempo com
pleto ocupaciones sedentarias como estudiantes o ayudantes de laboratorio. Los siguientes
valores son el ndice de masa corporal (kg/m2) para los 14 individuos en la muestra:
-- -
52
CAPTULO 2
24.4
23.0
30.4
20.6
ESTADSTICA DESCRIPTIVA
2 1 .4
26.0
25. l
2 1 .3
23.8
20.8
22.9
20.9
23.2
21.1
FUENTE: Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the
Doubly Labeled Witer Method", Americanjournal of Clinical Nutrition, 54, 499-505.
Consulte el ejercicio 1 8 . Los siguientes son los pesos (kg) y estaturas (cm) de los 14 individuos de la muestra estudiada por Roberts et al. (A- 1 6):
Pesos:
83.9
59.7
Estaturas: 1 85
161
99.0
64.6
1 80
177
63.8
78.8
173
1 74
7 1 .3
65.3
79.6
70.3
69.2
56.4
66.2
88.7
1 68
1 75
1 83
1 84
1 74
1 64
1 69
205
FUENTE: Susan B. Roberts, Melvin B. Heyman, WilliamJ. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the
Doubly Labeled Water Method", Americanjournal ofClinical Nutrition, 54, 499-505.
a) Para cada variable, calcule media, mediana, variancia, desviacin estndar y coeficiente de
variacin.
b) Para cada variable, elabore un despliegue de tallo y hojas, y una grfica de valores
extremos.
e) Qu conjunto de mediciones tiene mayor variabilidad, peso o estatura? Qu bases tiene
su respuesta?
20.
Nmero de casos
5-14
1 5-24
25-34
35-44
45-54
55-64
5
10
1 20
22
13
5
Total
1 75
Para estos datos elabore una distribucin de frecuencias acumuladas, una distribucin de
frecuencias relativas, una distribucin de frecuencias relativas acumuladas y un histograma.
21.
22.
53
Los siguientes valores corresponden a los niveles de SLP que se obtuvieron de una muestra
de 10 adultos aparentemente sanos: 4.07, 2.7 1 , 3.64, 3.37, 3.84, 3.83, 3.82, 4.2 1 , 4.04, 4.50.
Calcule para estos datos la media, mediana, variancia y desviacin estndar. Compare los
resultados con los del ejercicio 22. Qu es lo que sugieren estos resultados con respecto a
los niveles de SLP entre los pacientes con y sin diabetes mellitus? Estos resultados proveen
suficientes bases para tomar accin mdica? Explique su respuesta.
24.
A continuacin se muestran las edades de 48 pacientes internados de urgencia en un hospital. Elabore una grfica de tallo y hojas. cmo describira la forma de estos datos?
63
46
23
27
32
43
25
17
25.
23.9
53.7
23.1
38.9
4 1 .3
35
12
21
22
54
13
17
23
38
16
13
61
53
16
30
55
42
31
14
34
51
30
29
42
42
28
16
13
48
28
28
26
29.6
38.3
29.0
20.3
20.9
Mtodo 1
34.4 56.6
28.5 22.8
30. l 33.9
28.4 35 .5
46. 1 35.0
22.5
44.8
39.7
22.8
46. 1
29.7
4 1 .6
45.3
54.7
22. 1
23.2
3 1 .6
34.6
24.2
23.7
Mtodo 2
56.2 30.2
24.6 49.8
4 1 . 3 34. 1
2 1 . 1 40.7
35.7 29.2
27.2
22.6
26.7
39.8
27.4
21.8
48.9
20. 1
2 1 .4
23.2
27.
57
53
22
24
Se compararon dos mtodos para colectar sangre para estudios de coagulacin. Los siguien
tes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en ingls), de 30
pacientes en cada uno de los dos grupos. Elabore una grfica de valores extremos a partir de
cada conjunto de mediciones. Compare las dos grficas. Jndican alguna diferencia en l a
distribucin d e los valores d e APTr para ambos mtodos? Qu mtodo tiene mayor me
diana? Compare el IQR del mtodo 1 con el IQR del mtodo 2. Para cul mtodo es el IQR
un mayor porcentaje de R?
20.7
3 1 .2
24.9
22.9
52.4
26.
33
61
23
21
:, (x x)2 = un mnimo
nx = I, x
:, (x - x)
CAPTULO 2
54
ESTADSTICA DESCRIPTIVA
del curso del estudiante. Antes de tomar el primer examen se debe elegir si se quiere que la
calificacin sea la media o la mediana de las cinco calificaciones de los exmenes. cul
escogera el lector si fuera uno de los alumnos? por qu?
28.
Considere los siguientes intervalos de clases para elaborar una distribucin de frecuencias de los
niveles sricos de colesterol de los individuos que participaron en una campaa de deteccin:
c) 50-75
h) 50-74
75-99
75- 1 00
1 00- 1 24
1 00- 125
1 25-149
125-150
150- 1 7 5
150- 1 74
175-199
1 75-200
200-225
200-224
225-250
225-249
etc.
etc.
Qu intervalo de clase ser el ms conveniente para el objetivo? por qu? Establezca espe
cficamente por qu los otros dos son menos convenientes.
En un examen de estadstica se pidi a los estudiantes que elaboraran una distribucin de
frecuencias de los niveles de creatina en la sangre (unidades/litro) para una muestra de 300
individuos sanos. La media es de 95 y la desviacin estndar es de 40. Los estudiantes utili
zaron las si guientes amplitudes de los intervalos de clase:
a) 1
h) 5
d) 1 5
e) 1 0
f) 25
e) 20
a) 50-74
75-99
1 00- 149
1 50- 1 74
175-199
200-249
250-274
etc.
29.
30.
31.
32.
33.
34.
35.
BIBLIOGRAFA
55
recolectados en cada individuo est l a medicin del estado nutricional (peso real expresado
como porcentaje del peso esperado para cada estatura real). La siguiente tabla muestra los
valores de los estados nutricionales para los 107 casos de estudio.
73.3 54.6
85.4
82.4
92.3
55.5 68.3
76.5
76.9 1 00.0 65.9
80.5 7 1 .0
56.8 80.6
72.2
74.0
83.0 72.3 1 00.0
50.4 66.0
64.5
79.6
55.7
67.3
88.7
76.5 99.6
50.9 7 1 .0
72.7
64.8 74.0
66.3
79.3
72.6 80.7
72.4
78. 1
74.0 72.7
96.0
65.9 73.3 1 09.0
65.7
84.4
72.8 73.6
70.0 77.4
73.8
73.6
72.0 97.5 1 30.0 68. 1
70.0
76.4
79.6
59.7 89.6
50.5
86.4
76.9 74.6
64. 1
88.2
90.9 70.5
67.7
73.0
76.9
70.5
63.4 58.8
55.0
74.0
76.9 78. 1
68.6
7 1 .4 84.6 123.7 93.7
73.2
80.0
45.6 92.5
84.0
65.6 6 1 .3
66.3
80.2 76.9
77.5 76.9
70.0
60.6 59.0
84.7 78.2
9 1 .9
FUENTE: Utilizada con autorizacin del
67.5 76.9
82.6
doctor N. Thilothammal.
a) Para estos datos, calcule las siguientes medidas descriptivas: media, mediana, moda,
variancia, desviacin estndar, amplitud, primer cuartil, tercer cuartil e IQR.
b) Elabore las siguientes grficas: histograma, polgono de frecuencia, tallo y hojas, y valores
extremos.
e) Analice los datos en trminos de variabilidad. Compare el IQR con la amplitud. Qu
sugiere la comparacin respecto a la variabilidad de las observaciones?
d) Qu proporcin de mediciones est dentro de una desviacin estndar de la media, en
dos desviaciones estndar de la media y en tres desviaciones estndar de la media?
e) Qu proporcin de mediciones es menor que 1 00?
f) Qu proporcin de mediciones es menor que 50?
BIBUOGRAI<iA
l.
2,
3.
A-1.
A-2.
Bibliografa de metodologa
H. A. Sturges, "Toe Choice of a Class Interval" ,Journal ofthe American Statistical Association,
21 , 65-66.
Helen M. Walker, "Degrees of Freedom", Thejournal ofEducational Psychology, 31, 253-269.
John W. Tukey, Exploratory Data Analysis, Addison-Wesley, Reading, MA.
Bibliografa de aplicaciones
Silvio M. Veronese y Marcello Gambacorta, "Detection of Ki-67 Prolife:ration Rate in Breast
Cancer", American]ournal of Clinical Pathology, 95, 30-34.
Nizar N. Jarjour, William ]. Calhoun, Lawrence B. Schwartz y William W. Busse, "Elevated
Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with
Increased Airway Obstruction", American Review ofRespiratory Disease, 144, 83-87.
56
CAPTUL0 2
A-3.
A-4.
A-5.
A-6.
A-7.
A-8.
A-9.
A-10.
A-1 1 .
A-12.
A-13.
A-14.
A-15.
ESTADSTICA DESCRIPTIVA
Peter M. Ellis, Graham W. Mellsop, Ruth Beeston y Russell R. Cooke, "Platelet Tritiated Imipramine
Binding in Patients Suffering from Mania",Journal ofAjfective Disorders, 22, 105-1 1 O.
Helen Herrman, Patrick McGorry, Jennifer Milis y Bruce Singh, "Hidden Severe Psychiatric
Morbidity in Sentenced Prisoners: An Australian Study", American journal of Psychiatry, 1 48,
236-239.
Erik Skjelbo, Theonest K. Mutabingwa, lb Bygbjerg, Karin K. Nielsen, Lars F. Gram y Kim
Brl')sen, "Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the
S-Mephenytoin Oxidation in Tanzanians", Clinical Pharmacology & Therapeutics, 59, 304-3 1 1 .
Henrik Schmidt, Poul Erik Mortensen, S0ren Lars F0lsgaard y Esther A. Jensen, "Autotrans
fusion After Coronary Artery Bypass Grafting Halves the Number of Patients N eeding Blood
Transfusion", Annals of Thoracic Surgery, 61, 1 1 78- 1 1 8 1 .
William C . Pitts, Virginia A. Rojas, Michael J . Gaffey, Robert V. Rouse, Jos Esteban, Henry F.
Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasia and
Sarcomas of the Breast", Americanjournal of Clinical Pathology , 95, 623-632.
Enrique Femndez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, David B. Badish y Reuben
M. Chemiack, "Sustained Improvement in Gas Exchange After Negative Pressure Ventilation
for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation", American Review of
Respiratoiry Disease, 144, 390-394.
]. A. Dosman, W. C. Hodgson y D. W. Cockcroft, "Effect ofCold Air on the Bronchial Response
to Inhaled Histamine in Patients with Asthma", American Review of Respiratory Disease, 1 44,
45-50.
G. V. Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in the Elderly", Age
and Ageing, 19, 199-203.
Tadao Arinami, Miki Sato, Susumu Nakajima e Ikudo Kondo, "Auditory Brain-stem Responses
in the Fragile X Syndrome", American]ournal of Human Genetics, 43, 46-5 1 .
Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities
in Normal and Growth-Retarded Fetuses", American journal of Obstetrics and Gynecology, 1 65,
1 43- 1 5 1 .
Welhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y Marianne Mahler, " Sin
gle and Multiple Administration of a New Triphasic Oral Contraceptive to Women:
Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum",
American]ournal of Obstetrics and Gynecology , 1 65, 596-602.
t>4urray B. Stein y Thomas W. Uhde, "Endocrine, Cardiovascular, and Behavioral Effects of
Intravenous Protirelin in Patients with Panic Disorder", Archives ofGeneral Psychiatry, 48, 148-156.
Ronnie Gorman Swift, Diane O. Perkins, Charles L. Chase, Debra B. Sadler y Michael Swift,
"Psychiatric Disorders in 36 Families with Wolfram Syndrome", Americanjournal ofPsychiatry,
118, 775-779.
A-16.
Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vemon R.
Young, "Dietary Energy Requirements ofYoung Adult Men, Determined by Using the Doubly
Labeled Water Method", Americanjournal of Clinical Nutrition, 54, 499-505.
A-17.