Sei sulla pagina 1di 42

2.

1 INTRODUCCIN
2.2 ARREGLO ORDENADO
2.3 DATOS AGRUPADOS Y
DISTRIBUCIN DE
FRECUENCIAS

2.t

2.4 ESTADSTICA DESCRIPTIVA:

MEDIDAS DE TENDENCIA CENTRAL

2.5 ESTADSTICA DESCRIPTIVA:


MEDIDAS DE DISPERSIN

2.6 RESUMEN

INTRODUCCIN
En el captulo 1 se estableci que la toma de mediciones y el proceso de conteo
producen nmeros que contienen informacin. El objetivo de la gente que aplica
herramientas estadsticas a esos nmeros es determinar la naturaleza de esa
informacin. Esta tarea es mucho ms fcil si los nmeros estn organizados y
resumidos. Cuando se hacen las mediciones sobre entidades de una poblacin o
muestra, los valores resultantes estn disponibles para el investigador o
estadstico como una masa de datos desorganizados. Las mediciones que no han
sido organizadas, procesadas o manejadas de al guna otra forma se les llama datos
crudos (materia prima). A menos que el nmero de observaciones sea
extremadamente pequeo, es improbable que esos datos crudos proporcionen
suficiente informacin hasta que sean puestos en algn orden.
En este captulo se ensean algunas tcnicas para organizar y procesar datos de
tal manera que sea ms fcil determinar qu informacin contienen. Lo ms actual
en procesamiento de datos es el clculo de un nmero individual que de alguna
manera incluye informacin importante acerca de los datos que sirvieron para
calcularlo. A estos nmeros individuales utilizados para describir datos se les llama
medidas descriptivas. Despus de estudiar este captulo el estudiante podr calcular
algunas medidas descriptivas tanto para poblaciones como para muestras de datos.
El propsito de este captulo es desarrollar en el estudiante habilidades
para poder manejar la informacin numrica que se encuentre como profesional
en ciencias de la salud. Entre mejor capacitado est para manejar tal informacin,
tendr una mejor idea del ambiente y de las fuerzas que generan la informacin.

15

16

2.2

CAPTULO 2

ESTADSTICA DESCRIPTIVA

ARREGLO ORDENADO
El primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo
ordenado es una lista de valores de un grupo (sea poblacin o muestra) en orden de
magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el
nmero de mediciones a ordenar es bastante grande.
Un arreglo ordenado permite determinar con rapidez los valores de las medi
ciones ms pequeas, de las ms grandes, y otros aspectos acerca de los datos arre
glados que pudieran necesitarse en caso de urgencia. A continuacin se muestra la
construccin de un arreglo ordenado con los datos que se estudiaron en el ejemplo
1.4.1.
EJEMPLP 2.2.1
La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron
en el estudio de residentes de Groenlandia, estudiados en el ejemplo 1.4.1. Como
puede apreciarse, esta tabla desordenada requiere de mucha investigacin para
determinar informacin bsica como la edad de los individuos ms jvenes hasta
los ms viejos.
Solucin: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo
ordenado. Al referirse a la tabla 2.2.1 es posible determinar rpidamen
te la edad del individuo ms joven (18) y la edad del ms viejo (63).
Tambin es posible identif::ar con facilidad que casi tres cuartas partes

de los individuos tienen menos de 40 aos de edad.

Ani1isisporcomptdadora
Cuando se requieren clculos adicionales y organiza
cin de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre
glo ordenado. Si los datos son analizados por computadora, esto no es aconsejable
TABIA2.2.1
tabla 1.4.1
18
22
24
26
27
29
30
32
37
40
43
47
51

18
23
24
26
27
29
30
33
37
40
43
47
51

Arreglo ordenado de las edades de los individuos de la

19
23
24
26
27
29
31
33
37
40
43
48
.52

19
23
24
26
28
29
31
33
37
40
44
48
52

20
23
25
26
28
29
31
34
37
40
44
48
53

21
23
25
26
28
30
31
34
38
40
44
48
53

21
23
25
27
28
30
31
34
38
41
45
48
53

21
23
25
27
28
30
31
34
38
41
45
48
53

22
24
26
27
28
30
31
34
38
41
45
49
56

22
24
26.
27
28
30
32
35
38
42
46
49
. 61

22
24
26
27
29
30
32
36
39
42
46
50
62

22
24
26
27
29
30
32
36
39
42
47
50
63

22
24
26
27
29
30
32
36
39
42
47
50
63

2.3

DATOS AGRUPADOS Y DISTRIBUCIN DE FRECUENCIAS

17

Dialogbox:
Manip > Sort
II

Session command:
Sort
MTB > Sort Cl C2;
SUBC>
By Cl.

FIGURA 2.2.1

Caja de dilogo para el ejemplo 2.2.1.

pata preparar un arreglo ordenado, a menos que se necesite para propsitos de refe
rencia o para otro uso. La computadora no necesita que el usuario haga un arreglo
ordenado antes de meter los datos para construir la distribucin de frecuencias y
para hacer otros anlisis.
Si desea un arreglo ordenado, muchos paquetes de software para computado
r contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB
y que las edades de la tabla 1.4.1 estn en la columna l. El comando SORT Cl C2
clasifica las edades y las pone en la columna 2, como lo muestra la tabla 2.2.1. Si se
utiliza el paquete MINITAB para Windows, y los datos se colocan en la columna
l, el proceso es como sigue: con el mouse haga clic en Manip, luego en Sort,
escriba el en la caja etiquetada corno "Sort column[s]", escriba c2 en la caja eti
quetada como "Store sorted column[s] in" (para tener los datos clasificados en
c2), y escriba el en la caja etiquetada "Sort by column". Si desea ordenar en
forma descendente haga clic en "Descending". Si no se selecciona esa opcin en
este punto, el resultado es una clasificacin en orden ascendente. Finalmente, haga
clic en OK. La caja de dilogo para el ejemplo 2.2.l se muestra en la figura 2.2.1.

2.3 DATOS AGRUPADOS YDISTRIBUCIN


DE FRECUENCIAS
Aunque un conjunto de observaciones puede hacerse ms comprensible y ms sig
nificativo por medio de un arreglo ordenado, .es ms til el resumen que se obtiene
mediante la agrupacin de datos. Antes de la era de las computadoras, uno de los
principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el
clculo de varias medidas descriptivas, como porcentajes y promedios. Debido a

18

CAPTULO 2

ESTADSTICA DESCRIPTIVA

que las computadoras pueden ejecutar esos clculos a partir de grandes conjuntos
sin agrupacin previa, actualmente el propsito principal de agrupar los datos es el
de resumir la informacin. Se debe tener en mente que los datos contienen infor
macin y que el resumen es una forma sencilla para determinar su naturaleza.
Para agrupar un conjunto de observaciones se debe seleccionar un conjunto
de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de
observaciones pueda ser puesto en uno y slo uno de los intervalos. Estos intervalos
normalmente se identifican como intervalos de clase.
Una de las primeras consideraciones cuando se agrupan datos es la de cuntos
intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se
perdera informacin. Por otro lado, si se utilizan muchos intervalos, el objetivo de
resumir no se consigue. La mejor gua en este caso, as como para la toma de otras
decisiones sobre la agrupacin de datos, es el conocimiento de los datos. Puede ser
que los intervalos de clase queden determinados por los precedentes, como en el
caso de las tabulaciones anuales, en las que los intervalos de clase de los aos anteriores
se conservan para propsitos comparativos. Una regla emprica que habitualmente se
sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos,
los datos se han resumido en exceso y la informacin que contienen se habr perdido.
Si hay ms de 15 intervalos, los datos no fueron resumidos lo suficiente.
Quienes deseen guas ms especficas para decidir cuntos intervalos de clase
son necesarios, pueden utilizar la frmula propuesta por Sturges ( 1 ). Esta frmula
se enuncia k = 1 + 3.322(log 10 n), donde k es el nmero de intervalos de clase y n es
el nmero de valores en el conjunto de datos en observacin. La respuesta que se
obtiene con la regla de Sturges no es definitiva, sino que se debe considerar nica
mente como gua. El nmero de intervalos de clase especificado por esta regla
deber incrementarse o disminuirse por conveniencia y para lograr una presenta
cin ms clara.
Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar.
El logaritmo base 10 de 275 es 2.4393. Con la aplicacin de la frmula de Sturges
se obtiene k = 1 + 3.322(2.4393)::::: 9. En la prctica, otras consideraciones pueden
sugerir el uso de 8 o menos, o quiz 10 o ms intervalos de clase.
Otra pre gunta que se debe responder se refiere a la amplitud del intervalo de
clase. Los intervalos de clase generalmente deben ser de la misma amplitud, aun
que algunas veces esto es imposible. La amplitud se determina dividiendo el rango
entre k, que es el nmero de intervalos de clase. Simblicamente, la amplitud de los
intervalos de clase est dada por:

R
k

(2.3.1)

donde R (el rango) es la diferencia entre la observacin ms pequea y la ms


grande dentro del conjunto de datos. Por lo general, con este procedimiento se
obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el
sentido comn para elegir la amplitud (normalmente cercana a la que se obtiene
con la ecuacin 2.3.1) que sea ms conveniente.

2.3

DATOS AGRUPADOS Y DISTRIBUCIN DE FRECUENCIAS

19

Existen otras reglas empricas que son de gran ayuda para armar intervalos
de clase tiles. Cuando la naturaleza de los datos los hace adecuados , la amplitud de
los intervalos de clase de 5 o 1 O unidades y amplitudes mltiplos de 1 O tienden a
hacer que el resumen sea ms comprensible. Cuando se utilizan estas amplitudes es
una buena prctica tener el lmite inferiorde cada extremo de intervalo en O o 5.
Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; el
primer intervalo de clase contiene las mediciones ms pequeas y el ltimo inter
e
valo contiene las mediciones ms grandes. Cuando sea st el caso, el lmite infe
rior del primer intervalo de clase debe ser menor o igual que la medicin ms
pequea en el conjunto de datos, y el lmite superior del ltim0 intervalo de clase
debe ser mayor o igual que la medicin ms grande.
Aunque muchos paquetes de software para microcomputadora contienen ru
tinas para construir intervalos de clase, frecuentemente requieren que el usuario
registre la amplitud del intervalo y el nmero de intervalos deseados. A continua
cin se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla
2.2.1 para ilustrar la construccin de la distribucin de frecuencias.

EJEMPLO 2.3.t
Se quiere saber cuntos intervalos de clase se tienen en la distribucin de frecuen
cias de datos y tambin se quiere saber qu tan amplios deben ser los intervalos.

Solucin: Para tener una idea del nmero de intervalos a utilizar, la aplicacin de
la regla de Sturges indica:

k = 1 + 3.322(log 169)
= 1 + 3.322(2.227886705)
"" 8
Ahora, al dividir el rango entre 8 para darse una idea de la ampli
tud de los intervalos de clase, se obtiene:

R = 63-18
k

45
8

=5_625

Es evidente que un intervalo de clase con una amplitud de 5 o 1O es


ms conveniente y significativo para el lector. Suponga que se decide que
sea 10. Ahora es posible construir los intervalos. Puesto que el valor ms
pequeo en la tabla 2.2.1 es 18 y el mayor es 63, entonces los intervalos
inician con 1O y terminan con 69. Se obtienen los siguientes intervalos:
10-19
20-29
30-39
40-49
50-59
60-69

20

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Puede observarse que hay 6 de esos intervalos, es decir, dos menos


que el nmero de intervalos calculados con la regla de Sturges.
Algunas veces resulta til referirse al centro llamado punto medio
del intervalo de clase, el cual se determina sumando los lmites extre
mos del intervalo de clase y dividiendo entre 2: Por ejemplo, el punto

medio del intervalo de clase 10-19 es (10 + 19)/2= 14.5.


Cuando se agrupan datos manualmente, determinar el nmero de valores
que caen dentro de cada intervalo de clase es slo un problema de bsqueda en el
arreglo ordenado y conteo del nmero de observaciones que caen en los distintos
intervalos. Si se aplica esto al ejemplo anterior, se obtiene la tabla 2.3.1.
Una tabla de este tipo se conoce como distribucin de frecuencias. En ella se
muestra cmo se distribuyen los valores dentro de los intervalos de clase especifica
dos. Al consuJtarla, es posible determinar la frecuencia de ocurrencia de los valores
dentro de cualquiera de los intervalos.

Frecuencias relativas
En ocasiones, puede ser de utilidad conocer la pro
porcin, en lugar del nmero, de valores que caen dentro de un intervalo de clase
en particular. Esta informacin se obtiene dividiendo el nmero de valores en un
intervalo de clase particular entre el nmero total de valores. Si en el ejemplo ante
rior se pretende conocer la proporcin de valores entre 30 y 39, inclusive, se divide
47 entre 169, para obtener .2781. Esto indica que 47 de 169, 17/169, o 0.2781 de
los valores caen entre 30 y 39. Al multiplicar .2781 por 100 se obtiene el porcen
taje de valores entre 30 y 39. Con lo anterior se puede decir que el 27.81 por
ciento de los individuos tienen entre 30 y 39 aos de edad. Finalmente, a la pro
porcin de valores que caen dentro de un intervalo de clase se le conoce como la
frecuencia relativa de ocurrencias en ese intervalo.

TABIA 2.3.1 Distribucin


de frecuencias de las
edades de los 169
individuos incluidos en la
tabla 1.4.1 y2.2.1
Intervalos de clase

Frecuencias

10-19
20-29
30-39
40-49
50-59
60-69

4
66
47
36
12
4

Total

169

2.3

21

DATOS AGRUPADOS Y DISTRIBUCIN DE FRECUENCIAS

TABIA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada,


frecuencia relativa y frecuencia relativa acumulada de las edades de
los sujetos descritos en el ejemplo 1.4.t
Intervalos de

clase

Frecuencia

Frecuencia
acumulada

10-19
20-29
30-39
40-49
50-59
60-69

4
66
47
36
12
4

4
70
117
153
165
169

Total

169

Frecuencia
relativa

Frecuencia
relativa
acumulada

.0237
.3905
.2781
.2130
.0710
.0237

.0237
.4142
.6923
.9053
.9763
1.0000

1.0000

Para determinar la frecuencia de valores que caen dentro de dos o ms in


tervalos de clase, se obtiene la suma del nmero de valores que caen dentro de los
intervalos de clase correspondientes. Anlogamente, si se pretende conocer la
frecuencia relativa de ocurrencia de valores que caen dentro de dos o ms interva
los de clase, entonces, se suman las frecuencias relativas respectivas. Se pueden
sumar, o acumular, las frecuencias y las frecuencias relativas para facilitar la obten
cin de informacin acerca de las frecuencias o frecuencias relativas de valores
dentro de dos o ms intervalos de clase contiguos. La tabla 2.3.2 muestra los
datos de la tabla 2.3.1 con lasfrecuencias acumuladas, frecuencias relativas y frecuen
cias relativas acumuladas.
Si el inters est centrado en la frecuencia relativa de los valores que caen
entre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladas
de la tabla 2.3.2 y se resta .4142 de .9763 para obtener .5621.
Se puede utilizar el paquete de software estadstico MINITAB para obtener
una tabla comparable con la tabla 2.3.2. MINITAB gener los valores de la tabla
con las frecuencias relativas y frecuencias relativas acumuladas expresados en por
centajes. El procedimiento incluye asignar cdigos a los intervalos de clase y meter
la informacin a travs del teclado. Cuando se asignan los cdigos O, l , 2, 3, 4 y 5,
respectivamente, a las seis clases de intervalos, se debe teclear el siguiente comando:
MTB> Code (1O:19)0 (20:29)1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 el c2
La caja de dilogo, los comandos de la sesin y la salida se muestran en la
figura 2.3.1.

El histograma
Es posible presentar una distribucin de frecuencias ( o
una distribucin de frecuencias relativas) grficamente en forma de histograma, que
es un tipo especial de grfica de barras.

22

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Caja de dilogo:

Comandos de la sesin:

Stat >-- Tables >-- Tally


Teclear C2 en Variables. Verifique Counts,
Percents, Cumulative Counts y
Cumulative percents en Display. Clic OK

MTB>
SUBC>
SUBC>
SUBC>
SUBC>

C2;

Counts;
CumCounts;
Percents;
CumPercents.

Resultados:
Resumen estadstico para variables discretas
C2

1
2
3
4
5
N

Count CumCnt
4
4
66
70
47
117
36
153
12
165
4
169

Percent
2.37
39.05
27.81
21.30
7.10
2.37

CumPct
2.37
41.42
69.23
90.53
97.63
100.00

169
FIGURA 2.3.1
Distribucin de frecuencia, frecuencias acumuladas, porcentajes y porcentajes
acumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como lo construy
el paquete MINITAB.

Para construir un histograma, los valores de la variable respectiva se ponen


sobre el eje horizontal, y las frecuencias (o frecuencias relativas, si as se quiere) de
ocurrencia, en el eje vertical. Sobre cada intervalo de clase, arriba del eje hori
zontal, se levanta una barra rectangular, o celda, como algunas veces se le nom
bra, hasta que intercepte con la frecuencia respectiva. Las barras del histograma
deben ser adyacentes, y es necesario tomar en cuenta los lmites correctos de los
intervalos de clase para evitar la separacin de barras en la grfica.
El nivel de precisin que se observa en los datos obtenidos y que tienen medi
ciones obre una escala continua indica algn orden de redondeo. El orden de redon
deo refleja la preferencia personal del informante o las limitaciones de los instrumentos
de medicin empleados. Cuando una distribucin de frecuencia se construye a par
tir de los datos, los lmites de los intervalos de clase frecuentemente reflejan el grado
de precisin de los daws originales. Esto mismo se ha efectuado en el ejemplo. Sin
mbargo, se sabe que algunos de los valores que caen dentro del segundo intervalo
de clase, por ejemplo, probablemente sern un poco menores que 20 mientras que

2.3

DATOS AGRUPADOS Y DISTRIBUCIN DE FRECUENCIAS

TABIA2.3.3
Datos de la
iabla 2.3.1 que muestra los
lmites COI'l-ectos de los
intervlos de clase
Intervalos de clase
9.5-19.5
19.5-29.5
29.5-39.5
39.5-49.5
49.5-59.5
59.5-69.5
Total

23

70
60
50

Frecuencias
4
66
47
36
12
4
169

::
5 40
30
20
10

14.5

24.5 34.5 44.5 54.5 64.5


Edad

FIGURA 2.3.2 Histograma de las edades de


169 individuos a partir de la tabla 2.3.l.

otros sern un poco mayores que 29, cuando la medicin es precisa. Al considerar la
continuidad implcita de la variable, y suponiendo que los datos fueran redondeados
al entero positivo inferior ms prximo, entonces es lgico suponer que 19.5 y 29.5
son los lmites correctos para este segundo intervalo. Los lmites correctos para cada
intervalo de clase se toman como se muestra en la tabla 2.3.3.
Si se elabora una grfica utilizando estos lmites de intervalos de clase como la
base de los rectngulos, no habr separaciones entre las barras, y se obtendr el
histograma que se muestra en la fi gu ra 2.3.2. Se utiliz el paquete MINITAB para
elaborar el histograma. Se almacenaron los datos en la columna 1 y se le nombr
"Edad". El procedimiento se muestra en la fi gu ra 2.3.3. El mensaje 14.5:64:5/10
indica que el primer punto medio es 14.5, que el ltimo punto medio es 64.5 y que
los intervalos estn igualmente espaciados en incrementos de 10 unidades. Se con
sider un espacio delimitado por el eje horizontal y el lmite exterior formado por
las barras en la figu ra 2.3.2.

Caja de dilogo:

Comandos de la sesin:

Graph :,.. Histogram

MTB > Histogram 'Edad';


SUBC> MidPoint 14.5:64.5/10;
SUBC> Bar.

Teclear Edad en X.
Clic Options. Elegir MidPoint. Teclear
14.5:64.5/10 en MidPoint/cutPoint positions:
Clic OK dos veces.

FIGURA 2.3.3
Caja de dilogo y comandos de la sesin de MINITAB para elaborar el
histograma a partir de los datos del ejemplo 1.4.l.

24

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Al espacio entre los lmites del histograma se le conoce como rea del
histograma. A cada observacin se le asigna una unidad de esta rea. Puesto que se
tienen 1 69 observaciones, el histograma tiene en total 1 69 unidades. Cada barra
contiene cierta proporcin del rea total, de acuerdo con la frecuencia. La segunda
barra, por ejemplo, contiene 66/ 1 69 del rea. Esto, como ya se estudi, es la fre
cuencia de ocurrencia de los valores entre 1 9.5 y 29.5. A partir de esto se observa
que las subreas del histograma definidas por las barras corresponden a las fre
cuencias de ocurrencia de valores entre los lmites de las reas de la escala horizon
tal. El porcentaje de una subrea particular del rea total del histograma es igual a
la frecuencia relativa de ocurrencia de los valores entre los puntos correspondientes
sobre el eje horizontal.
El polgono de frecuencia

Una distribucin de frecuencia tambin puede


ser representada grficamente por medio de un polgono de frecuencia, que es una
clase especial de grfica lineal. Para dibujar este polgono, primero se hace una
marca arriba del punto medio de cada intervalo de clase, representado sobre el je
horizontal de la grfica, como se muestra en la figura 2.3.2. La altura con respecto
del eje horizontal de una marca dada corresponde a la frecuencia del intervalo de
clase. Al unir las marcas mediante lneas rectas se obtiene el polgono de frecuen
cia. La figu ra 2.3.4 muestra el polgono de frecuencia para los datos de edades de la
tabla 2.2. 1 .
Observe que el polgono cae sobre el eje horizontal e n los extremos e n los
puntos que corresponderan a los puntos medios en caso de haber una celda adi
cional en cada extremo del histograma correspondiente. Esto permite que el rea
total sea delimitada. El rea total baj o el polgono de frecuencia es i gual al rea bajo

70

70

60

60

"'
a

50

(.)

30

ro 50
e: 40

'5

40

<ll

:::,

(.)

!!?

!!?
u.. 20

20
10

10

30

1 4.5 24.5 34.5 44.5 54.5 64.5


Edad

FIGURA 2.3.4
Polgono de frecuencia para las
edades de 169 individuos incluidas en la tabla
2.2.1.

1 4.5 24.5 34.5 44.5 54.5 64.5


Edad

FIGURA 2.3.5
Histograma y polgono de fre
cuencia para las edades de 169 individuos inclui
das en la tabla 2.2. 1 .

2.3

DATOS AGRUPADOS Y DISTRIBUCIN DE .FRECUENCIAS

25

el histograma. La fi gura 2.3.5 muestra el polgono de frecuencia de la figura 2 . 3 .4


sobrepuesta al histograma de la figura 2.3.2. Esta fi gura permite observar la rela
cin entre las dos formas grficas para un mismo conjunto de datos.
Otro sistema grfico muy til para representar
conjuntos de datos cuantitativos es el despliegue de tallo y hojas. Un despliegue de
este tipo presenta una gran similitud con el histograma y tiene el mismo propsito.
Un despliegue construido correctamente, al igu al que un histograma, proporciona
informacin respecto al rango del conjunto de datos, muestra la ubicacin de la
mayor concentracin de mediciones y revela la presencia o ausencia de simetra.
Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la
informacin contenida en las mediciones individuales. Tal informacin se pierde
cuando las mediciones son asignadas a los intervalos de clase del histograma. Como
se ver ms adelante otra ventaja adicional del despliegue es que puede construirse
durante el proceso de marcaje, de tal forma que se elimina el paso intermedio (la
preparacin de un arreglo ordenado).
Para construir un despliegue se divide cada medicin en dos, la primera parte
se llamatallo y la segunda, hojas. El tallo se forma con uno o ms dgitos iniciales de la
medicin, y las hojas se forman con uno o ms de los dgitos restantes. Todos los
nmeros divididos se muestran en un solo despliegue; los tallos forman una columna
ordenada de menor a mayor. En la columna de tallos se incluyen todos aquellos que
se encuentren dentro del rango de los datos, aun cuando una medicin con ese tallo
no est en el conjunto de datos. Los renglones del despliegue contienen las hojas
ordenadas en una lista a la derecha de sus respectivos tallos. Cuando las hojas se
forman con ms de un dgito, todos los dgitos despus del primero se pueden bo
rrar. Los decimales, cuando ocurren en los datos originales, se omiten en el desplie
gu e. Los tallos se separan de sus hojas mediante una lnea vertical. As, se observa que
un despliegue tambin es un arreglo ordenado de los datos.
Los despliegues de tallo y hojas son ms eficientes en conjuntos de datos rela
tivamente pequeos. Como una norma, no es aconsejable utilizarlos en informes
anuales o en otros medios de difusin para el pblico en general. Son una ayuda
bsica para que investigadores y tomadores de decisiones comprendan la natura
leza de sus datos. Los histogramas son ms adecuados para las publicaciones de
circulacin externa. El si gu iente ejemplo ilustra la construccin del despliegu e
de tallo y hojas.

Despliegues de tallo y hojas

EJEMPLO 2.3.2
Utilice los datos de edades de la tabla 2.2. l para construir un despliegue de tallo y
hojas.

Solucin: Puesto que todas las mediciones son nmeros de dos dgitos, se tienen
tallos y hojas de un dgito cada uno. Por ejemplo, la medicin 1 8 tiene
un tallo de l y una hoja de 8. La figur 2.3.6 muestra el despliegue de
tallo y hojas para los datos.

26

CAPTULO 2

Tallo
1
2
3
4
5
6

ESTADSTICA DESCRIPTIVA

Hoj a
8899
0 1112222223333333444444444 5 5 5 5 6 6 6 6 6 6 6666677777777 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4 4 4 4 5 6 6 6 7 7 71 7 8 8 8 8 8 9 9 9
0 0 0 0 00 1 1 1 2 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9
0 00112233336
1233

FIGURA 2.3.6

Despliegue de tallo y hojas para las edades de 1 69 individuos incluidas en la tabla


2.2. l (unidad de tallo = 1, unidad de hoja = 1).

El paquete de software estadstico MINITAB se puede utilizar para


elaborar el despliegue de tallo y hojas. Con los datos en la columna l,
llamada "Edad", el paquete produce y presenta una salida como la que se
muestra en la fi gura 2.3. 7. El subcomando increment especifica la distancia
desde el primer tallo hasta el si guiente. Los nmeros en las columnas del
extremo izquierdo de la figura 2.3.7 proporcionan informacin respecto
al nmero de observaciones (hojas) en una lnea dada y por encima de
ella, o el nmero de observaciones en esa lnea y en la de abajo.

Comandos de la sesin:

Caja de dilogo:

>-

. Graph Characte Graphs


Stem-and-Leaf

>- Histograin >

MTB > Stem-and-Leaf ' Edad ' ;


SUBC> Increment 1 0 .

Teclear Edad en Variables. Teclear 1 O en Increment. Clic


OK.

Resultados:
Despliegue en modo carcter de tallo y hojas
Stem-and-Leaf of ' Edad '
Leaf Uni t = 1 . 0
4
70
(47)
. 52
16
4

1
2
3
4
5
6

N= 1 6 9

8899
0 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 77 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 +
0 0 0 0 0 0 0 00 01111111222223334444456 6677777 8 8 8 8 8 9 9 9
0 0 0 0 0 0 1 1 1 2 2 2 2 3 3 3A4 4 5 5 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9
00 0112233336
1233

FIGURA 2.3. 7

Despliegue de tallo y hojas preparado pr el paquete MINITAB a partir


de los datos de las edades incluidas en la tabla 2.2. 1 .

EJERCICIOS

27

Por ejemplo, el nmero 7 0 sobre l a segunda lnea indica que hay


70 observaciones (u hojas) en esa lnea y_en la de arriba. El nmero 52
en la cuarta lnea (contando desde arriba) dice que hay 52 observacio
nes en esa lnea y en todas las de abajo. El nmero entre parntesis
dice que hay 47 observaciones en esa lnea. Los parntesis indican la
lnea que contiene la observacin central si el nmero total de observa
ciones es impar, o las dos observaciones centrales si el nmero total de
observaciones es par.
El signo + al final de la segunda lnea de la figura 2.3.7 indica que
la frecuencia para esa lnea (el grupo de edades de 20 a 29) excede la
capacidad de la lnea, y que existe al menos una hoja adicional que no se
muestra. En este caso, la frecuencia para el grupo de edades de 20-29 es
de 66. En la lnea hay slo 65 hojas, as que el signo + indica que existe
una hoja ms, un 9, que no se muestra.

Una manera para no exceder la capacidad de la lnea es tener ms lneas. Esto


se puede hacer acortando la distancia entre las lneas, es decir, reduciendo la ampli
tud de los intervalos de clase. Para este ejemplo, se puede utilizar un intervalo de
clases con amplitud 5, as que la distancia entre las lneas es de 5. La figura 2.3.8
muestra el resultado producido por el paquete MINI1AB para el despliegue de
tallo y hojas.

Stem-and-Leaf o f ' Edad '


Leaf Uni t
1.0
4
30
70
3
( O}
69
52
33
16
5
4

1
2
2
3
3
4
4
5
5
6

169

8899
0 11 1222222 3 3 3 3 3 3 3 444444444
5 5 5 5 6 6 6 6 6 6 6 6 6 6 67 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4444
5 6 6 67777788888999
0 0 0 0 0 0 1 112 2 2 2 3 3 3 4 4 4
5 5 5 6 6 7 7 7 7 8 8 8 8 8 89 9
00011223333
6
1233

FIGURA 2.3.8
Despliegue de tallo y hojas preparado por el paquete MINITAB a partir
de los datos de las edades incluidas en la tabla 2.2. 1 , con intervalos de clase de amplitud = 5.

EJERCICIOS
2.3.1

En un estudio de la actividad proliferativa del cncer de seno, Veronese y Gambacorta (A- 1 )


utilizaron los mtodos inmunohistoqumico y de anticuerpos monoclonal Ki-67. Los investi
gadores obtuvieron tej ido tumoral de 203 pacientes con carcinoma de pecho. Los pacientes

28

CAPTUL0 2

ESTADSTICA DESCRIPTIVA

tenan entre 26 y 82 aos de edad. La siguiente tabla muestra los valores de Ki-67 (expresados en porcentajes) para esos pacientes.
10.1 2
10.15
1 9.30
33.00
9.63
1 .42
28.30
4.65
2 1 .09
1 .00
1 3.72
8.77
3.00
4.09
1 7.60
5.22
1 2 . 70
7.39
2 1 .36
1 1 .36
8. 1 2
3 . 14
4.33
5.07
8.10
4.23
1 3. 1 1
4.07
6.07
45.82
5.58
5.00
9.69
4.14
4.59
27.55
3.51
8.58
1 4.70
6.72
1 3. 1 0

1 0.80
5.48
16.40
1 1 .65
9.31
25. 1 1
1 9 .50
73.00
1 1 .95
27.00
32.90
9.40
4.70
9.20
50.00
5.00
30.00
4.00
49.85
24.89
28.85
5.00
9.20
2.00
4.84
1 0.00
75.00
14.79
15.00
4.32
12.82
10.00
8.37
2.03
1 0.00
9.83
9. 1 0
5 .00
5.60
3.32
9.75

1 0:54
23.50
4.40
26.30
7.40
1 2.60
1 5.92
17.84
33.30 .
9.03
9.80
35.40
14.00
6.20
1 0.00
1 5.00
1 0.00
25.00
29.70
29.55
19.80
44.20
4.87
3.00
9.79
1 9.83
20.00
8.99
40.00
5.69
4.50
4.12
6.20
2.69
6.27
6.55
1 1 .20
29.50
28. 1 0
1 3 . 52
7.37

27.30
32.60
26.80
1 .73
9.35
1 7.96
1 9.40
1 0.90
4.53
5 1 .20
2.43
5 1 .70
1 5.00
5.00
20.00
25.00
1 5 .00
20.00
1 9 .95
1 0.00
4.99
30.00
1 0.00
2.00
5 .00
20.00
5.00
3.97
1 8.79
1 .42
4.4 1
1 4.24
2.07
3 . 69
6.37
8.2 1
6.88
9.60
5.48
5.70

8.38
42.70
1 6.60
35.90
1 4.78
4 1 . 12
7.19
2.74
1 9.40
6.40
2.00
43 .50
3.60
1 5 .00
30.00
1 0.00
20.00
30.00
5.00
38:90
6.00
9.88
29. 1 0
2.96
9.50
4.77
4.55
30.00
1 3.76
1 8.57
1 .88
9. 1 1
3.12
5 .42
1 3.78
3.42
7.53
6.03
7.00
1 7.80

FUENTE: Utilizado con autorizacin de Silvio M. Veronese, Ph. D.

EJERCICIOS

29

a) Construya con los datos:


Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas
Una distribucin de frecuencias relativas acumuladas
Un histograma
Un polgono de frecuencia
b) Qu porcentaje de las mediciones es menor que 10?
e) Qu proporcin de individuos tiene mediciones mayores o iguales que 20?
d) Qu porcentaje de mediciones est entre 20 y 49, inclusive?
e) cuntas mediciones son mayores que 39?
t) Qu proporcin de las mediciones es menor que 1 O o mayor que 69?
g) Alguien selecciona aleatoriamente una medicin de este conjunto de datos y le pide que
adivine el valor. cul sera su respuesta? por qu?
h) La distribucin de frecuencias y sus histogramas pueden ser descritas de varias maneras
segn su forma. Por ejemplo, puede ser simtrica (la mitad izquierda es al menos aproxima
damente igual a la mitad de la derecha), con inclinacin a la izquierda (las frecuencias tien
den a incrementarse conforme las mediciones se incrementan en tamao), con inclinacin a
la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tama
o), o en forma de U (las frecuencias son-altas en cada extremo y cortas en el centro). Cmo
se describe esta distribucin?
2.3.2

Jarjour et al. (A-2) realizaron un estudio en el que se midieron los niveles de histamina del
fluido de lavado bronquialveolar (BAL, siglas en ingls) en individuos con rinitis alrgica,
individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la prote
na total (g/ml) en muestras de BAL. Los siguientes son los resultados de 6 1 muestras
analizadas:

76.33
77.63
149.49
54.38
55.47
5 1 .70
78. 1 5
85.40
4 1 .98
69.9 1
128.40
88. 1 7
58.50
84.70
44.40
FUENTE:

57.73
88.78
86.24
54.07
95.06
1 1 4.79
53.07
72.30
59.36
59.20
67. 1 0
109.30
82.60
62.80
6 1 .90

74.78
77.40
57.90
9 1 .47
7 1 .50
6 1 .70
1 06.00
61.10
63.96
54.41
83.82
79.55
1 53.56
70. 1 7
55.05

100.36
51.16
72. 10
62.32
73.53
47.23
35.90
72.20
66.60
59.76
95.33

73.50
62.20
67.20
44.73
57.68

Utilizado con autorizacin de Nizar N. Jarjour, M. D.

30

CAPTULO 2

ESTADSTICA DESCRIPTIVA

a) Construya con los datos:


Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas
Una distribucin de frecuencias relativas acumuladas
Un histograma
Un polgono de frecuencia

b) Qu porcentaje de mediciones est entre 55 y 1 14, inclusive?


e) cuntas mediciones son menores que 95?

d) Qu proporcin de las mediciones es mayor o igual que 75?


e) Qu porcentaje de mediciones es menor que 55 o mayor que 1 1 4.99?
f) Remtase al ejercicio 2.3 . 1 inciso h para describir la distribucin de protena total en las
muestras de BAL en trminos de simetra e inclinacin.
2.3.3

Ellis et al. (A-3) realizaron un estudio para investigar las caractersticas de unin de la imipramina
a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de
personas sanas y pacientes depresivos. Como parte del estudio, los investigadores obtuvieron
los valores mximos de unin a la molcula receptora (BmJ en estos individuos. Los siguientes
valores son de 57 inqividuos estudiados que fueron diagnosticados con depresin unipolar.
1 074
372
473
797
385
769
797
485
334
670
510
299
333
303
768
FUENTE :

392
475
319
301
556
3 00
339
488
1 1 14
761
571
306
80
607
1017

286
511
147
476
416
528
419
328
1 220
438
238
867
1 657
790
479

1 79
530
446
328
348
773
697
520
341
604
420
397

Utilizado con autorizacin de Peter E. Ellis.

a) Construya con los datos:


Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas
Una distribucin de frecuencias relativas acumuladas
Un histograma
Un polgono de frecuencia

b) Qu porcentaje de mediciones es menor que 500?


e) Qu porcentaje de mediciones est entre 500 y 999, inclusive?

EJERCICIOS

31

d ) Qu porcentaje de mediciones e s mayor que 749?


e) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 .1 , inciso h.
f) cuntas de las mediciones son menores que 1000?
2.3.4

El objetivo de un estudio de Henman et al. (A-4) era determinar la prevalencia de desrdenes


mentales severos en una muestra representativa de convictos de tres centros de readaptacin
socialen Melboume, Australia. Los tres grupos de convictos se clasificaron como: aquellos que
estuvieron de acuerdo en ser entrevistados, aquellos que rehusaron ser entrevistados y aquellos
que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar. Adems de
evaluar la prevalencia de desrdenes mentales entre los individuos, los investigadores ob
tuvieron informacin del tiempo de sentencia y tiempo de confinamiento al momento del
estudio. Los siguientes datos son el tiempo mnimo de sentencia (en das) para cada indivi
duo que rehus la entrevista.
18
4955
2 1 90
450
3650
2920
270
1 000
270
180
910
90
253
450
360
1460
1 095
635
1 953
844
360
570
95 1
540
450
450
730

4380
720
730
455

540
545

1 50
1 825
2920
270
284
330

1 000
1 460
360

1 20
1 095
330
540
730

1 095
365
1 80
2340
360
1 80
2005
717
3710
180
2555
4015
2885
730
3 1 60
910
360
466
2920
240
4745
88
545
90
1 670

360
727
1 275
344
2555
545
90
60
540
90
660
365
3 1 00
1 050
90
450
1 200
1 20
1 460
409
910

1 1 25

FUENTE: Utilizado con autorizacin de Helen


Herrman, M. D.

a) Construya con los datos:

Una distribucin de frecuencias


Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas

Una distribucin de frecuencias relativas


acumuladas
Un histograma
Un polgono de frecuencia

32

CAPTULO 2

2.3.5

2.3.6

ESTADSTICA DESCRIPTIVA

b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 . 1 , inciso h.
e) por qu se cree que los datos estn inclinados de esa manera?
d) cmo podran utilizar los investigadores esta informacin en estudios posteriores?
e) cuntas mediciones son mayores que 729?
f) Qu porcentaje de mediciones es menor que 1 460?
La siguiente tabla muestra el nmero de horas de sueo de 45 pacientes de un hospital como
consecuencia de la administracin de cierto anestsico.
7
5
4
3
8
7 10 12
8
1
1
10
13
3
8
4
12 1 1
4
5
5
7
7
3
3
8
2
7
5
5
8 13
4
1
17
3
7
7
11
8
4
3
1 17
10
a) Construya a partir de estos datos:
Una distribucin de frecuencias
Un histograma
Un polgono de frecuencia
U na distribucin de frecuencias relativas
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3. 1, inciso h.
Los siguientes datos corresponden al nmero de nios que nacieron durante un ao, en 60
hospitales comunitarios:
30
37
32
39
52

2.3.7

55
55
26
56
57

27
52
40
59
43

45
34
28
58
46

56
54
53
49
54

48
42
54
53
31

45
32
29
30
22

49
59
42
53
31

32
35
42
21
24

57
46
54
34
24

47
24
53
28
57

56
57
59
50
29

a) Construya a partir de estos datos:


Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Un histograma
Un polgono de frecuencia
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 . 1, inciso h.
En un estudio acerca de los niveles de resistencia fisica de estudiantes varones de reciente
ingreso a la universidad, se registraron las siguientes puntuaciones con base en algunas rutinas de ejercicios.
254
182
1 80
198
222
1 65
265
220
272
232

28 1
210
1 88
190
1 87
194
222
201
195
191

192
235
1 35
151
1 34
206
264
203
227
175

260
239
233
157
193
193
249
172
230
236

212
258
220
204
264
218
175
234
1 68
152

1 79
166
204
238
3 12
198
205
198
232
258

225
159
219
205
214
24 1
252
173
217
1 55

179 1 8 1 149
223 1 86 190
2 1 1 245 1 5 1
229 1 9 1 200
227 190 2 1 2
1 49 164 225
2 1 0 178 1 59
187 1 89 237
249 196 223
2 1 5 197 2 1 0
(Contina)

EJERCICIOS

2 14
218
169
191
25 1
1 88

278 252 283 205


2 1 3 172 1 59 203
187 204 180 261
1 24 199 235 1 39
206 173 236 2 1 5
1 95 240 163 208

184
212
236
23 1
228

33

172 228 193 1 30


1 17 1 97 206 1 98
2 1 7 205 2 1 2 2 1 8
1 16 1 82 243 2 1 7
1 83 204 1 86 1 34

a) Construya a partir de estos datos:


Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Un polgono de frecuencia
Un histograma
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3. 1, inciso h.
2.3.8

Las edades indicadas a continuacin corresponden a 30 pacientes atendidos en la sala de


urgencias de un hospital un viernes por la noche. Construya un despliegue de tallo y hojas
con esos datos. Describir estos datos con respecto a la simetra e inclinacin tal como se
estudi en el ejercicio 2 .3 . 1 , inciso h.
. 35
36
45
36
22

2.3.9

32
12
23.
45
38

21
54
64
55
35

43
45
10
44
56

39
37
34
55
45

60
53
22
46
57

Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgen
cias de dos hospitales urbanos. Construya un despliegue de tallo y hojas para cada conjunto
de datos. Qu sugiere la comparacin de los dos despliegues respecto a los dos hospitales?
Describa los dos conjuntos de datos con respecto a la simetra e inclinacin tal como se
estudi en el ejercicio 2.3 . 1 . inciso h.
Hospital A

249. 10
2 14.30
20 1 .20
1 71.10
248.30

202.50
195 . 1 0
239.80
222.00
209.70

222.20
2 13.30
245.70
2 1 2.50
233.90

2 14.40
225.50
2 13.00
201.70
229.80

205.90
1 9 1 .40
238.80
1 84.90
2 1 7.90

186.00
1 52.00
190.30
1 55.30
1 50.20

2 14.10
1 65.70
1 35.40
195.90
2 12.40

Hospital B

1 99.50
1 25.50
1 54.70
167.70
1 68.90

1 84.QO
143.50
1 45.30
203.40
166.70

1 73.20
190.40
1 54.60
1 86.70
1 78.60

34

CAPTULO 2

2.3. 10

ESTADSTICA DESCRIPTIVA

Para este ejercicio es necesario utilizar los datos del ejemplo l .4. 1 desplegados en la
tabla 1 .4. 1 .
a) Construya intervalos de clase con amplitud 5 para:
Una distribucin de frecuencias
Una distribucin de frecuencias relativas
Una distribucin de frecuencias acumuladas
Una distribucin de frecuencias relativas acumuladas
Un histograma
Un polgono de frecuencia
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3 . 1 , inciso h.

2.3. 1 1

Los objetivos de una investigacin realizada por Skjelbo et al. (A-5) fueron examinar: a) la
relacin entre el metabolismo de la doroguanida y la eficacia de la profilaxis contra la malaria; -o) el metabolismo de la mefenitona y su relacin con el metabolismo de la cloroguanida
entre habitantes de Tanzania. A partir de la informacin proporcionada por las muestras de
orina de 2 1 6 individuos, los investigadores calcularon el porcentje d inmutabilidad de Smefenitona hacia R-mefentona (porcentaje SIR). Los resultados son los siguientes:

0.0269
0.0760
0.0990
0.0990
0.0990
0.0990
0 . 1 050
0. 1 1 90
0.1460
0. 1550
0 . 1 690
0.1810
0 .2070
0. 2390
0.2470
0.27 1 0
0.2990
0.3400
0.3630
0.4090
0.4300
0.4680
0.5340
0.5930
0.6870
0.7860
0.9530
FUENTE:

0.0400
0 . 0850
0.0990
0;0990
0.0990
0.0990
0. 1 050
0. 1 200
0.1480
0 . 1570
0.1710
0. 1 880
0.2 1 00
0.2400
0.2540
0.2800
0.3000
0.3440
0.3660
0.4090
0.4360
0 .48 1 0
0.5340
0.60 1 0
0.6900
0.7950
0.9830

0.0550
0.0870
0.0990
0.0990
0.0990
0.0990
0. 1 080
0 . 1 230
0. 1490
0 . 1 600
0. 1 720
0 . 1 890
0.2 1 00
0.2420
0.2570
0.2800
0.3070
0.3480
0.3830
0.4 1 00
0.4370
0.4870
0.5460
0.6240
0.69 1 0
0.8040
0.9890

0.0550
0.0870
0.0990
0.0990
0.0990
0.0990
0. 1 080
0 . 1 240
0. 1490
. 0 . 1 650
0. 1 740
0. 1 890
. 0 . 2 140
0.2430
0 ..2600
0.2870
0.3 1 00
0.3490
0.3900
0.4160
0.4390
0.49 1 0
0.548
0.6280
0.6940
0.8200
1 .0 1 20

0.0650
0.0880
0.0990
0.0990
0.0990
0.0990
0. 1 090
0. 1 340
0. 1 500
0. 1 650
0. 1 780
0 . 1 920
0.2 1 5 0
0.2450
0.2620
0.2880
0.3 1 1 0
0.3520
0.3960
0.42 1 0
0.44 1 0
0.4980
0.5480
0.6380
.7040
0.8350
1 .0260

0.0670
0.0900
0.0990
0.0990
0.0990
0. 1 000
0 . 1 090
0. 1 340
0. 1500
0. 1 670
0 . 1 780
0. 1 950
0.2 1 60
0.2450
0.2650
0.2940
0.3 140
0.3,530
0.3990
0.4260
0.44 1 0
0.5030
0.5490
0.6600
0.7 1 20
0.8770
1 .0320

Utilizado con autorizacin de Erik Skjelbo, M. D.

0 . 0700
0.0900
0.0990
0.0990
0.0990
0. 1 020
0. 1 090
0.1 370
0 . 1 500
0 . 1 670
0 . 1 790
0 ..1970
0.2260
0.2460
0.2650
0.2970
0.3 1 90
0.3 570.
0.4080
0.4290
0.4430
0.5060
0.5550
0.6720
0.7200
0.9090
1 . 0620

0.0720
0.0990
0.0990
0.0990
0.0990
0 . 1 040
0. 1 1 60
0. 1390
0 . 1 540
0 . 1 677
0 . 1790
0.20 1 0
0.2290
0.2460
0.2680
0.2980
0.32 1 0
0 .3630
0.4080
0.4290
0.4540
0.5220
0.5920
0.6820
0.7280
0.9520
1 . 1 60 0

EJERCICIOS

35

a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, fre
cuencia acumulada y frecuencia relativa acumulada; as como las siguientes grficas:
histograma, polgono de frecuencia y despliegtie de tallo y hojas.
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3. 1, inciso h.
e) Los investigadores definieron como metabolizantes de bajo rendimiento de mefenitona a
cualquier individuo con un porcentaje mefenitona SIR mayor a .9. cuntos y qu porcenta
je de individuos son metabolizantes de bajo rendimiento?
d) Cuntos y qu porcentaje de individuos tienen porcentajes menores que . 7, entre .3 y
.6999, inclusive, y mayores que .4999?
2.3.12

Schmidt et al. (A-6) efectuaron un estudio para investigar si la autotransfusin de sangre


extrada del mediastino poda reducir el nmero de pacientes que necesitaba transfusiones
de sangre homloga y reducir la cantidad de sangre homloga transfundida utilizando crite
rios de transfusin fijos. La siguiente tabla muestra las estaturas en centmetros de 109 indi
viduos de los cuales 97 son varones.
1 .720
1 .730
1 .800
1 . 680
1 .760
1 .770
1 .750
1 .820
1 .700
1.840
1 .760
1.660
1 .600
1 .750
1 .960
1.810
1 .790
1 .780
1 .800
1.770

1.710
1 .700
1 .800
1 .730
1 .780
1.920
1.710
1 .790
1 .760
1 .690
1 .700
1 .880
1 .800
1.610
1 .760
1 .775
1.880
1 .630
1 .780
1 .690

1 .700
1 :820
1.790
1 .820
1 .760
1 . 690
1 .690
1 .760
1 .750
1 . 640
1 .720
1.740
1 .670
1 .840
1 .730
1.710
1 .730
1.640
1 .840
1 .800

1 .655
1 .8 1 0
1 .820
1 .720
1 .820
1 .690
1 .520
1 .830
1 .630
1 .760
1 .780
1 .900
1.780
1 .740
1 .730
1 .730
1 . 560
1 . 600
1 .830
1.620

1 .800
1 .720
1.800
1.710
1 .840
1 .780
1 .805
1 .760
1 .760
1 .850
1 .630
1 .830
1 .800
1 .750
1.810
1. 740
1 .820
1 .800

1 .700
1 .800
1 .650
1 .850
1.690
1 .720
1 .780
1 .800
1 .770
1 .820
1 .650

FUENTE: Utilizado con autorizacin de Henrik Schmidt, M. D.

a) Construya con los datos las si guientes distribuciones: frecuencia, frecuencia relativa, fre
cuencia acumulada y frecuencia relativa acumulada; as como las siguientes grficas:
histograma, polgono de frecuencia y despliegue de tallo y hojas.
b) Describa estos datos con respecto a la simetra e inclinacin tal como se estudi en el
ejercicio 2.3.1 , inciso h.
e) Cmo se puede explicar la forma de distribucin de estos datos?
d) Qu tan altos son el 6.42 por ciento de individuos ms altos?
e) Qu tan altos son el 1 0.09 por ciento de individuos de menor estatura?

36

CAPTULO 2

ESTADSTICA DESCRIPTIVA

2.4 ESTADSTICADESCRIPTIVA:
MEDIDAS DE TENDENCIA CENTRAL
Aunque las distribuciones de frecuencia sirven a propsitos muy tiles, existen
muchas situaciones en que se requieren otros tips de resumen de datos. Lo que se
necesita, en muchos casos, es la: posibilidad de condensar datos por medio de un
slo nmero llamado medida descriptiva. Las medidas descriptivas pueden calcularse
a partir de los datos de una muestra o de una poblacin. Para distinguirlas entre s
se tienen las siguientes definiciones:
DEFINICIONES
l. Una medida descriptiva calculada a partir de los datos
de una m1,1estra se llama estadstica.
2. Una medida descriptiva calculada a partir de los datos
de una poblacin se llama parmetro.
Algunos tipos de medidas descriptivas se pueden calcular a partir de un con
junto de datos. Sin embargo, este captulo se limita al estudio de las medidas de
tendencia central y de las medidas de dispersin. Las medidas de tendencia central se
consideran en esta seccin, y las medidas de dispersin, en la siguiente.
En cada una de las medidas de tendencia central, de las que se discuten slo
tres, nicamente un valor delconjunto de datos se considera como el representati
vo del todo. Las medidas de tendencia central conllevan informacin respecto al
valor promedio de un conjunto de valores. Tal como se ver, la palabra promedio se
puede definir en diversas formas.
Las tres medida de tendencia central de uso ms frecuente son: la media, la
moda y la mediana.
La medida de tendencia central ms conocida es la me
dia aritmtica. sta es la medida descriptiva que la mayora de las personas tienen
en mente cuando se habla de "promedio". El adjetivo aritmtica distingue a esta
media de otras que se puedan calcular. Puesto que no se estudian otras medias en
este libro, no debe ser causa de confusin si al referirse a la media aritmtica slo se
dice media. La media se obtiene sumando todos los valores en una poblacin o
muestra y dividiendo entre el nmero de valores sumados.

La media aritmtica

EJEMPLO 2.4.1
Obtenga la edad media de la poblacin de los 169 individuos registrados en la
tabla 1.4. 1.
Solucin:

Se procede de la sigu iente forma:

27 + 27 + + 23 + 39
34.302
edad media = - - - - --169
Los tres puntos en el numerador representan valores que no se muestran para
economizar espacio.

2.3

ESTADSTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL

37

Es conveniente generalizar el procedi


Frmula general para la media
miento para obtener la media y, adems ,representarlo en notacin de forma ms
compacta. Se inicia por designar a la variable aleatoria con la letra mayscula X. En
este tjemplo X representa a la variable aleatoria de edad. Los valores especficos
para una variable aleatoria se representan con la letra minscula x. Para referirse al
primero, al segundo, al tercer valor, y as sucesivamente, se aade un subndice a la
x. Por ejemplo, a partir de la tabla 1 .4. l se tiene:
X1

= 27,

X2

= 27, . . . ,

X 169

= 39

En general, un valor comn para la variable aleatoria se designa con x;, y el valor
final en una poblacin finita de valores, con xN, donde N es el nmero de valores en
la poblacin. Por ltimo, se utiliza la letra griega para simbolizar la media de la
poblacin. Ahora se puede escribir la frmula general para la media de una pobla
cin finita como sigue:
N

L X

= .!:'.!..._

(2.4. 1 )

2.:

significa que todos los valores para la variable se suman desde el


El smbolo
1
primero hasta e.l ltiro. A este smbolo L se le conoce como signo de sumatoria, y se
utiliza extensamente en este libro. Ct1ando por el contexto sea obvio cules son los
valores que se suman, los smbolos de arriba y de abajo del signo L se omiten.
La media de la muestra

Cuando se calcula la: media para una muestra de


valores, el procedimiento recin descrito requiere algunas modificaciones en la nota
cin. Se utiliza 3c para identificar a la media de la muestra, y n para indicar el nmero
de valores en la muestra. Por lo tanto, la media de la muestra se expresa como sigue:
(2.4.2)
n

EJEMPLO 2.4.2
En el captulo 1 se obtuvo una muestra aleatoria simple de 1 O individuos a partir de
la poblacin mostrada en la tabla 1.4. 1 . Ahora corrsponde calcular la edad media
de los 1 O individuos en la muestra.
Solucin: Las edades (vase la tabla 1 .4.2) de los 1 0 individuos de la muestra son:
x 1 = 42, x2 = 28, x3 = 28, x4 61, x5 3 1 , x6 = 23, x7 = 50, x8 = 34, x9 = 32,
x10 = 37. Al sustituir los datos de la muestra en la ecuacin 2.4.2 se obtiene:
n

2. X;
42 + 28 + + 37 366
x = .i:L._
=
= - = 36.6
n
10
10

38

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Propiedades de la media

La media aritmtica tiene ciertas propiedades,


algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes:
l. Es nica. Para un conjunto de datos existe-una y slo una media aritmtica.
2. Simplicidad. El clculo y comprensin de la media aritmtica son sencillos.
3. Puesto que todos y cada uno de los valores en d conjunto de datos entran en
el clculo de la media, sta es afectada por cada valor. Por lo tanto, los valores
extremos influyen sobre la media y, en algunos casos, pueden distorsionarla
tanto que llega a ser indeseable como medida de tendencia central.

A conti,nuacin se muestra un ejemplo de cmo los valores extremos pueden


afectar la media. Considere la siguiente situacin: cinco mdicos que trabajan en
cierta rea son llamados a declarar sus cobros por realizar cierto procedimiento.
Suponga que se reporta lo siguiente: $75, $75, $80, $80 y $280. El cobro medio
para los cinco mdicos es de $ 1 1 8, un valor que no es muy representativo del con
junto de datos. El nico valor atpico del conjunto tuvo el efecto de inflar la media.
La mediana

La mediana de un conjunto finito de valores es aquel valor que


divide al conjunto en dos partes iguales, de forma que el nmero de valores mayo
res o iguales a la mediana es i gual al nmero deyalores menores o i guales a sta. Si
el nmero de valores es impar, la mediana es el valor medio o central siempre y
cuando todas las variables sean arregladas eri orden de magnitud. Cuando el n
mero de valores en el conjunto es par, no existe un valor medio nico, sino que
existen dos valores medios. Eri tal caso, la mediana corresponde a la media de esos
dos valores centrales, cuando todos los valores son arreglados en orden de magni
tud. Es decir, la mediana del conjunto de datos .es la (n + 1 ) / 2-sima observacin,
cuando las observaciones han sido ordenadas. Por ejemplo, si se tienen 1 1 observa
ciones, la mediana es la ( 1 1 + 1 ) / 2 6-sima observacin ordenada. Si se tienen
1 2 observaciones, la mediana es la ( 1 2 + 1 )/2= 6.5-sima observacin ordenada y es
el valor que est entre la sexta y sptima observacin ordenada.

EJEMPLO 2.4.3
Encuentre la mediana de los datos contenidos en la tabla 2.2. 1 .
Solucin: En la tabla, los valores ya estn ordenados, de modo que slo se requiere
encontrar los qos valores medios. El valor medio es el (n + 1 )/2 =( 169+ 1 )/
2
1 70/2
85-simo. Contando desde el ms pequeo hasta el 85simo valor se observa que correspond al 3 1 . Por lo tanto, la edad me
diana de los 1 69 individuos es de 3 1 aos.

EJEMPLO 2.4.4
Obtenga ahora la edad mediana para los individuos de la muestra descrita en el
ejemplo 2.4.2.

2.5

ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

39

Solucin: Al arreglar las 1 O edades en orden de magnitud desde el valor ms pe


queo hasta el ms grande se obtiene 23, 28, 28, 3 1 , 32, 34, 37, 42, 50,
6 1 . Puesto que se trata de un nmero impar de valores, no existe slo un
valor central. Sin embargo, los dos valores del centro son 32 y 34, as que

la mediana es (32 + 34)/2 = 33.


_ Propiedades de la mediana
cuentran las sigu ientes:

Entre las propiedades de la mediana se en-

1. Es nica. Al igual que en el caso de la media, existe solamente una mediana


par} un conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que
s ocurre con la media.

La moda

La moda de un conjunto de valores es aquel valor que ocurre con


mayor frecuencia. Si todos los valores son diferentes, no hay moda. Por otra parte,
un conjunto de valores puede tener ms de una moda.

EJEMPLO 2.4.5
Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla 2.2. 1 .

Solucin: E l conteo d e las edades e n l a tabla 2.2. 1 revela que la edad 2 6 ocurre
con ms frecuencia (l l veces). La moda para esta poblacin de edades

es de 26.
Para ilustrar un conjunto de valores que tiene ms de una moda, considere un
laboratorio con diez empleados cuyas edades son: 20, 2 1 , 20, 20, 34, 22, 24, 27, 27
y 27. Se puede decir que estos datos tienen dos modas 20 y 27. Una muestra que
consista en los valores 1 O, 2 1 , 33, 53 y 54 no tiene moda, puesto que todos los
valores son diferentes.
La moda se puede utilizar para describir datos cualitativos. Por ejemplo, su
ponga que los pacientes de una clnica de salud mental durante un ao dado reci
bieron uno de los siguientes diagnsticos: retardo mental, sndrome cerebral
orgnico, psicosis, neurosis y trastornos de personalidad. El diagnstico que ocurre
con mayor frecuencia en el grupo de pacientes se denominara diagnstico modal.

2.5 ESTADSTICA DESCRIP11VA:


MEDIDAS DE DISPERSIN

G dispersin de un conjunto de observaciones se refiere a la variedad que muestran


stas. Una medida de dispersin conlleva informacin respecto a la cantidad total
de variabilidad presente en el conjunto de datos. Si todos los valores son i guales,
no hay dispersin, pero si no todos son i guales, entonces existe dispersin en los
datos. La magnitud de la dispersin es pequea cuando los valores, aunque dife
rentes, son cercanos entre s. La figura 2.5 . 1 muestra los polgonos de frecuencia

40

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Poblacin A

........

'

......

'

Poblacin B

''

FIGUBA 2.5. t
Dos distribuciones de frecuencias con igual
media pero diferente magnitud de dispersin.

para dos poblaciones que tienen medias iguales, pero diferente magnitud de varia
bilidad. La poblacin B, ms variable que la poblacin A, es ms dispersa. Si los
valores estn ampliamente esparcidos, la dispersin es mayor. Otros trminos sin
nimos de dispersin son: variacin, expansin y dispersin.
Una forma de medir la variacin en un
El rango o intervalo de variacin
conjunto de valores es calrulando el rango. ste es la diferencia entre el valor ms pe
queo y el ms grande en un conjunto de observaciones. Si se representa el rango como
R, el valor mayor como xv y el valor menor como xs, el rango se calrula como sigue:
(2.5. 1)
EJEMPLO 2.5.1
Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo 2.4.2.
Soh1cin:

Puesto que el individuo ms joven en la muestra tiene 23 aos y el ms


viejo tiene 61, el rango calculado es:
R

= 61 - 23

. 38

La utilidad de rango es limitada. El hecho de que toma en consider;acin slo dos


valores hace que sea una medida pobre de dispersin. Su ventaja principal es la
simplicidad de su clculo.
La variancia

Cuando los valores de un conjunto de observaciones se encuen


tran ubicados cerca de su media,la dispersin es menor que cuando estn esparcidos.
En consecuencia, se puede pensar intuitivamente que es posible medir la disper
sin en funcin del esparcimiento de los valores alrededor de su media. Esta med-

2.5

ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

41

cin se efecta mediante lo que se conoce como variancia. Por ejemplo, para calcu
lar la variancia de una muestra de valores, se resta la media de cada uno de los
valores individuales, las diferencias se elevan al cuadrado y despus se suman entre
s. Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la
media se divide entre el tamao de la muestra, menos 1 , para obtener la variancia
de la muestra . Si se asigna la letra s2 para simbolizar la variancia de la muestra, el
procedimiento descrito se expresa como sigue:
i=I
s-9 = -

--

n-1

(2.5.2)

EJEMPLO 2.5.2
. Calcule la variancia de las edades de los individuos estudiadas en el ejemplo 2.4.2.
Solucin: .
( 42 -36.6) 2 + (28 - 36.6) 2 + .. . + (37 36.6) 2

s2
=

1 1 96.399997

---

9
1 32.933333

9
Grados de libertad
La razn de dividir entre n - 1 , en lugar de entre n, como
hubiera de esperarse, es una consideracin terica conocida como grados de libertad.
En el clculo de la variancia, se puede decir que hay n - 1 grados de libertad. El
razonaminto es como sigue: la suma de las desviaciones de los valores individuales
con respecto a su media es igual a cero, hecho que puede demostrarse. Si se cono
cen los valores de n 1 de las desviaciones a partir de la media, entonces se conoce
el n-simo valor, ya que queda determinado automticamente debido a la restric
cin de que todos los valores de n se sumen a cero. Desde un punto de vista prcti
co, dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario
por razones del uso de la variancia de la muestra en los procedimientos de inferen
cia que se estudian posteriormente. El concepto de grados de libertad se tratar de
nuevo ms adelante. Los estudiantes interesados en profundizar en este aspecto
pueden consultar el artculo de Walker (2).
Cuando se calcula la variancia a partir de una poblacin finita de N valores, se
si gue el procedimiento recin descrito, excepto que se resta de cada x y se divide
entre N en lugar de N-1 . Si se asigna el smbolo cr2 para la variancia de una pobla
cin finita, la frmula es la s iguiente:

(2.5.3)

La variancia representa unidades al cuadrado, por lo


que no es una medida adecuada de dispersin si se pretende expresar este concep
to en trminos de las unidades originales. Para obtener la medida de dispersin en
unidades originales, simplemente se obtiene la raz cuadrada de la variancia. El

Desviacin estndar

42

CAPTULO 2

ESTADSTICA DESCRIPTIVA

resultado se llama desviacin estndar . En general, la desviacin estndar de una


muestra se obtiene mediante la siguiente frmula:
n

_l, ( X - X) 2

(2.5.4)
- n -1
La desviacin estndar de una poblacin finita se obtiene con la raz cuadrada
de la cantidad resultante de la ecuacin 2.5.3.

S 2'
'\Jl.

i=l
= --

La desviacin estndar es til como medida de


variacin en un determinado conjunto de datos. Sin embargo, cuando se quiere
comparar la dispersin de dos conjuntos de datos, la comparacin de las dos
desviaciones estndar puede dar un resultado equivocado. Esto puede ocurrir si
las dos variables involucradas tienen medidas en diferentes unidades. Por ejem
plo: se pretende conocer, para una poblacin dada, si los niveles de colesterol en
el suero, medidos en miligramos por cada 100 mi, son ms variados que el peso
del cuerpo, medido en libras o kilogramos.
Adems, aunque se utilice la misma unidad de medicin, las dos medias pue
den diferir bastante. Si la desviacin estndar de los pesos de los nios de primer
grado de primaria son comparadas contra la desviacin estndar de los pesos de
los estudiantes de preparatoria de reciente ingreso, se encontrar que esta ltima
es numricamente mayor que la anterior, debido a que los pesos mismos son mayo
res y no porque la dispersin sea mayor.
Lo que se necesita en situaciones como sta es una medida de variancia rela
tiva en lugar de una de variancia absoluta. Tal medida la constituye el coeficiente de
variacin, el cual expresa la desviacin estndar como un porcentaje de la media. La
frmula es como sigue:
El coeficiente de variacin

-=X

.
s
C.V. =
(100)

(2.5.5)

Se aprecia entonces que, como la media y las desviaciones estndar se expre


san en la misma unidad de medicin, la unidad de medicin se cancela al calcular
el coeficiente de variacin. Entonces se obtiene una medida independiente de la
unidad de medicin.
EJEMPLO 2.5.3
Los siguientes resultados corresponden a dos muestras formadas por varones:
Edad
Peso medio
Desviacin estndar

Muestra l

Muestra 2

25 aos
145 libras
10 libras

11 aos
80 libras
10 libras

El propsito es saber ul tiene mayor variabilidad, los pesos de individuos de 25


aos o los de 11 aos.

2.5

43

ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

Solucin: Una comparacin de las desviaciones estndar puede conducir a la con


clusin de. que las dos muestras tienen igual variabilidad. Sin embargo,
si se calculan los coeficientes de variacin, se obtiene para los sujetos de
25. aos de edad:

c.v. lQ_ (1 00) = 6.9


145

y para los de 1 1 aos de edad:

10
c.v. = (1 00) = 1 2.5

80

Si se comparan estos resultados, la impresin recibida es diferente.

El coeficiente de variacin tambin es til para comparar los resultados obte


nidos por diferentes personas que efectan investigaciones que involucran la mis
ma variable. Debido a que el coeficiente de variacin es independiente de la escala
de medicin, constituye una estadstica til para comparar la variabilidad de dos o
. ms variables medidas en escalas diferentes. Por ejemplo, podra utilizarse el coefi
ciente de variacin para comparar la variabilidad de los pesos de una muestra de
individuos cuyos P!:SOS se expresan en libras y la variabilidad de los pesos de otra
muestra, expresados en kilogramos.
Anlisispor computadora
Los paquetes de software para computadora pro
porcionan una variedad de posibilidades para el clculo de las medidas descripti
vas. En la fi gu ra 2.5.2 se muestra una impresin de las medidas descriptivas
disponibles en el paquete MINITAB. Los datos son las edades correspondientes al
ejemplo 2.4.2. Con los datos de la columna 1 , el procedimiento MINITAB se mues
tra en la fi gura 2.5.3.
En las salidas impresas Ql y Q3 son el primer y tercer cuartil, respectivamen
te. Estas medidas se describen ms adelante en este captulo.
TRMEAN significa media arreglada. La media arreglada se utiliza algunas ve
ces en lugar de la media aritmtica, como medida de tendencia central. Se calcula
despus de que algunos valores extremos son excluidos. Por lo tanto, la media arre
glada no tiene la desventaja de ser influenciada indebidamente por los valores ex
tremos como en el caso de la media aritmtica. El trmino SEMEAN si gnifica error
estndar de la medi,a. Esta medida, al igual que la media arreglada, se estudiar con
detalle en un captulo prximo. La fi gura 2.5.4 muestra, para los mismos datos, la
salida impresa de SAS que se obtiene al utilizar la instruccin PROC MEA.NS.

N
10
MIN
2 3 . 00

MEAN
36 . 60
MAX
61 . 00

MEDIAN
33 . 00
2 8 . 00

TRMEAN
35 . 25

STDEV
1 1 . 53

SEMEAN
3 . 65

Q3
44 . 00

FIGURA 2.5.2
La impresin de medidas descriptivas calculadas a partir de la muestra de
edades del ejemplo 2.4.2 con el paquete de software estadstico MINITAB.

44

CAPTULO 2

ESTADSTICA DESCRIPTIVA

Caja de dilogo:
Stat

Comandos de l sesin:

> Basic Statistics >

Descriptive Statistics

MTB > Describe C1

Teclear Cl en Variables. Elegir Tabular form bajo


Display options. Clic OK.
FIGURA 2.5.3
El procedimiento del paquete MINITAB para calcular las medidas descriptivas a partir de los datos del ejemplo 2.4.2.

Perce,itiles y cuartiles La media y la mediana son casos especiales de la


familia de parmetros conocidos como parmetros de localizacin. Estas medidas des
criptivas se llaman parmetros de localizacin porque pueden utilizarse para desig
nar ciertas posiciones sobre el eje horizontal cuando se elabora una grfica de la
distribucin de una variable. En ese sentido, los parmetros de localizacin "ubi
can" la distribucin sobre el eje horizontal. Por ejemplo, una distribucin con una
mediana de 100 se localiza a la derecha de una distribucin con una mediana de
50, en la grfica de las dos distribuciones. Otros parmetros de localizacin son los
percentiles y cuartiles. Se puede definir un percentil como si gue:
DEFINICIN
Dado un conjunto de n observaciones x 1 , x2, , xn, el
p-si,:,J.o percentil P es el valor de X, tal que p por ciento o
menos de las observaciones son menores que P y (100 - p)
por ciento o menos de las observaciones son mayores que P.
Los subndices en P sirven para distinguir un percentil de otro. El dcimo
percentil, por ejemplo, se desi gna como P10, el septuagsimo se expresa como P70,
y as sucesivamente. El percentil quincuagsimo es la mediana, y se designa como
P50 El vigsimo quinto percentil suele representar el primer cuartil, y se expresa
como Q1 Al quincuagsimo percentil (la mediana) se le conoce como segundo cuartil
o cuartil medio, denotado por Q2, y al septuagsimo quinto percentil se le llama tercer
cuartil, Q 3_
VARIABLE
EDADES

10

MEAN

STANDARD
DEVIATION

MINIMUM
VALUE

3 6 . 600 0 0 0 0 0 1 1 . 5 2 9 67 1 87 . 2 3 . 0 0 0 0 0 0 0 0 6 1 . 0 0 0 0 0 00 0
VARIANCE

c.v.

3 . 6 4 6 0 0 2 3 8 3 6 6 . 0 0.0 0 0 0 0 0 1 3 2 . 9 3 3 3 3 3 3 3

31 . 502

STD ERROR
OF MEAN

MAXIMUM
VALUE

SUM

FIGURA 2.5.4
Salida impresa de las medidas descriptivas c.alculadas a partir de la muestra de edades del ejemplo 2.4.2, con el paquete SAS.

2.5

45

ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

Cuando se pretende encontrar los cuartiles para el conjunto de datos, se uti


lizan las siguientes frmulas:
n+I ' .
. , ordenada
-- -es1ma ob servaoon
4
Q2 =

2(n + l)

n+I
.
= -- -s1ma observacin ordenada

Alnplitud del intercuarlil

Tal como se ha visto, el rango proporciona una medi


da no procesada (cruda) de la variabilidad presente en un conjunto de datos. La des
ventaja de la amplitud es el hecho de que sta se calcula a partir de dos valores, el ms
grande y el ms pequeo. Una medida similar que refleja la variabilidad entre el 50 por
ciento central de las observaciones en el conjunto de datos es la amplitud del intercuartil.
DEFINICIN
La amplitd del intercuartil (IQR) es la diferencia entre
el tercero y el cuarto cuartil, es decir:

(2.5.6)
Un IQR grande indica una magnitud mayor de variabilidad entre el 50 por ciento
central de las observaciones relevantes, y un IQR pequeo indica una magnitud peque
a de variabilidad entre las observaciones relevantes. Puesto que estas expresiones son
bastante vagas, es ms informativa la comparacin de la amplitud del intercuartil con
la magnitud del conjunto de datos completo. Se puede hacer la comparacin for
mando la razn del IQR con respecto a la amplitud (R) y multiplicando por 100. Es
decjr,. lOO(IQR/R) indica que el porcentaje de IQR es de toda la amplitud.
Grfica de caja con valores extrenws (box and whisker)

Un disposi
tivo visual muy til para comunicar la informacin contenida en un conjunto de
datos es la grfica de caja con valores extremos (algunas veces llamada slo boxplot).
Para la construccin de esta grfica se usan los cuartiles de un conjunto de datos, y
se siguen los cinco pasos que se mencionan a continuacin:
1: Representar a la variable de inters sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo iz
quierdo est alineado con el primer cuartil Q, y el extremo derecho del cua
dro quede alineado con el tercer cuartil Q3 .
3. Dividir el cuadro en dos partes con una lnea vertical que se alinee con la
mediana Q 2
4. Dibujar una lnea horizontal desde el extremo izquierdo del cuadro hasta el punto
en donde quede alineada con la medicin ms pequea en el conjunto de datos.
5. Dibujar otra lnea horizontal desde el extremo derecho del cuadro hasta el
punto donde se alinea con la medicin ms grande en el conjunto de datos.

46

CAPTULO 2

ESTADSTICA DESCRIPTIVA

TABIA 25.t
Dimett-os (cm) de sarcomas puros extirpados del pecho
de 20 mujeres
.::,

5.0

2.1
5.0

1 .2
5 .0

2.5

2.5

6.5

6.0

3.0
7.0

4.0
9.5

3.8
8.0

4.2
1 3.0

4.5

5.0

Fumrn: William C. Ptts, Virginia A Rojas, Michael J. Gaffey, Robert V. Rouse, Jos Esteban,
Henry F. Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasa
and Sarcomas of the Breast", AmericanJournal of Clinical Pathology, 95, 623-632.

El examen de la grfica para un conjunto de datos revela informacin respec


to a la magnitud de la dispersin, localizacin de la concentracin y simetra de los
datos.
El siguiente ejemplo ilustra la construccin de la grfica de caja con valores
extremos.
EJEMPLO 2.5.4
En una revista mdica de publicacin peridica, Pitts et al. (A-7) asegura que "los
carcinomas con metaplasia y sarcomas producidos dentro del seno son difciles de
diagnosticar y clasificar con precisin debido a sus variados patrones histolgicos y
a su rareza". En un intento por estudiar ms detalles de las caractersticas biolgi
cas, los autores investigaron una serie de sarcomas puros y carcinomas que exhiban
metaplasia. La tabla 2.5. 1 contiene ordenados en centmetros los dimetros de los
neoplasmas extirpados del pecho de 20 individuos con sarcomas puros.

Solucin: La medicin ms pequea y la ms grande son .5 y 1 3 .0, respectivamen


te. El primer cuartil es Q1 = (20 + 1 ) / 4 5.25-sima medicin, la cual
es 2.5 + (.25)(3.0 2.5) = 2.625. La mediana es Q 2 = (20 + 1) / 2 =
1 0. 5-sima medicin igual a 4.5 + (.5)(5.0 - 4.5) 4.75. El tercer cuartil
es Q 3 = 3(20 + 1 ) / 4 = 1 5.75-sima medicin igual a 6.0 + (.75)(6.5 6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 =
3.75. La amplitud es 1 2.5, y el IQR es 1 00(3.75/ 1 2.5) == 30 por ciento de
la amplitud. La caja de valores extremos resultante se muestra en la figu
11
ra 2.5.5.
Al examinar la figura 2.5.5 se observa que 50 por ciento de las mediciones estn
entre 2.6 y 6.4, los valores aproximados del primero y tercer cuartil, respectivamente.
La barra vertical dentro de la caja muestra que la mediana est cerca de 4.75.

10

Dimetro (cm)

FIGUR.\. 2.5.5

Caja de valores extremos del ejemplo 2.5.4.

11

12

13

14

2.5

ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

47

14
12

10

-
-o

'"'
E

6
4
2

FIGURA 2.5.6

Caja de valores extremos elaborada


con el paquete MINITAB a partir de la tabla 2.5. 1.

La lnea mayor a la derecha indica que la distribucin de dimetros est inclinada


hacia la derecha.
Muchos paquetes de software estadstico tienen. la capacidad para construir
grficas de caja con valores extremos. La figu ra 2.5.6 muestra una, construida con
MINITAB a partir de los datos de la tabla 2 .5 . 1 . Se colocan los datos en la columna
1, se renombra la variable con "Tumsize" (tamao del tumor), y se procede como
se muestra en la figu ra 2.5. 7. El asterisco en la figura 2.5.6 sirve para alertar que
hay un valor inusualmente mayor que los dems, llamado outlier (valor muy alejado),
el cual corresponde al melanoma de 13 cm de dimetro. La lnea superior en la
figura 2.5.6 se detiene en 9.5, y el valor ms grande no se considera que sea un
valor muy alejado. La figura 2.5.6 ejemplifica que la caja de valores extremos pue
de desplegarse tanto vertical como horizontalmente.
En el paquete SAS se utiliza la instruccin PROC UNIVARIATE para obtener
la grfica de valores extremos. Esta instruccin tambin produce otras medidas des
criptivas y desplegados, que incluyen grficas de tallo y hojas, medias, variancias y
cuartiles.
La grfica de caja con valores extremos, as
como la de tallo y hojas, son ejemplos de lo que se conoce como tcnicas de anlisis
de exploracin de datos. Estas tcnicas, populares debido al resultado del trabajo de
Tukey (3), permiten que el investigador examine datos de manera que stos revelen
tendencias y relaciones, identifiquen caractersticas nicas del conjunto de datos y
faciliten su descripcin y resumen.

Anlisis exploratorio de datos

Caja de dilogo:

Comandos de la sesin:

Stat
EDA Boxplot
Teclear Tumsze en Y.
En Data Display 1, seleccionar IQRange Box.
En Data Display 2, sekccionar Outlier Symbol.
Clic OK.

MTB > Boxplot


1
Tumsize 1 ;
SUBC > Box ;
SUBC > Symbol ;
SUBC > OUtlier .

>

FIGURA 2.5. 7

>

El procedimiento del paquete MINITAB para producir la figura 2.5.6.

48

CAPTUL0 2

ESTADSTICA DESCRIPTIVA

EJERCICIOS
Calcule para cada uno de los conjuntos de datos de los siguientes ejercicios, a) la media, b) la
mediana, c) la moda, d) la amplitud, e) la varianza, f) la desviacin estndar, g) el coeficiente
de variacin y h) la amplitud del intercuartil. Cada conjunto de datos debe considerarse
como una muestra. Para los ejercicios que se considere adecuado, prepare una grfica de caja
con valores extremos y estudie la utilidad que proporciona este dispositivo para'comprender
la naturaleza de los datos. Seleccione para cada ejercicio la medida de tendencia central que
pueda ser la ms apropiada para describir los datos. Establezca los razonamientos quejus
fican cada eleccin.
2.5.1

Treinta pacientes con limitaciones crnicas severas de respiracin son sujetos de estudio por
parte de Fernndez et al. (A-8), para invesgar la eficacia del tramiento para mejorar el inter
cambio de gases. Los siguientes valores representan la superficie corporal de los pacientes:
.2. 1 0
1.65

1 .74
1 .74

1.68
1.57

1 .83
2.76

1 .57
1 .90

1.71
1 .77

1.73

FUENTE: Enrique Fernndez, Paltiel Weiner, Ephraiin Meltzer, Mary M. Lutz, David
B. Badish y Reuben M. Cherniack, "Sustained Improvement in Gas Exchange After
Negative Pressure Venti.Iation for 8 Hours per Day on 2 Successive Days in Chronic
Airflow Limitation", American Revie.w of Respiratory Disease, 144, 390-394.

2.5.2

Los estudios de Dosman etal. (A 9) permiten concluir que la aspiracin de aire fro incrementa
la reacvidad bronquial al inhalar histamina en pacientes asmticos. Se estudiaron siete
pacientes asmtcos con edades entre 19 y 33 aos. Los valores de lnea de base (en litros por
minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes:
0

3.94

1 .47

2.06

2.36

3.74

3.43

3.78

FuENTE: J..A. Dosman, W. C. Hodgson y D. W. Cockcroft, "Effect ofColdAir on the


Bronchial Response to lnhaled Histamine in Patients with Asthma",American Review
ofRespiratory Disease, 144, 45-50.

2.5.3

A 17 paientes internados en los Aberdeen Teaching Hospitals, en Escocia, entre los aos de
1980 y mediados de 1988 se les diagnostic absceso heptico pigeno. Nueve pacientes
. murieron. En un artculo de la revista Age and Ageing, Sridharan et al. (A- 1 0) afirmaron que
"la elevada mortalidad por absceso heptico p igeno se debe; al menos en parte, a la falta de
sospecha clnica". Las 'edades de los individuos estudiados son las siguientes:
72
69 . 7 1
81
63
84
62
61
.78
76 84 67 86
87
76
69 64
FUENTE: G.V Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in the
Elderly", Age and Agei:ng, 19, 199-203. Cortesa de Oxford University Press.

2.5.4

Arinami et al. (A- 1 1) analizaron las respuestas auditivas del tallo cerebral en una muestra de
12 varones con retardo mental afectados por el s1drome de fragilidad del cromosoma X.
Los valores de IQ para cada individuo son los sigiientes:
17

22

17

18

17

19

34

26

14

33

21

29

FUENTE: Tadao Arinami, Miki Sato, Susumu Nakajima e Ikuko Kondo, "Auditory
Brain-stem Responses in the Fragile X Syndrome", American]ournal ofHuman Genetics,
43; 46-51 . Copyright" de la American Society of Human Genetics. Todos los dere
chos reservados. Publicacin de la Universidad de Chicago.

2.6
2.5.5

RESUMEN

49

En un artculo de la revista American Journal of Obstetrics and Gynecology, el doctor Giancarlo


Mari (A- 12) describi su estudio de la forma de ondas de la velocidad de flujo arterial san
guneo en la regin plvica y en las extremidades inferiores de fetos con crecimiento retarda do. En este artculo afirm que los datos preliminares sugieren que "el ndice de pulsaciones
de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas,
en tanto que el flujo ausente o retrgrado de la arteria umbilical parece que est ms
correlacionado con las consecuencias fetales adversas". Los siguientes valores representan
las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados:
24
26
27
28
28
28
29
30
30
31
32
32
33
33
34
34
35
35
35
36
FUENTE: Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms of the Pelvis and
Lower Extremities in Normal and Growth'Retarded Fetuses", American]ournal of
Obstetrics and Gynecology, 1 65, 143- 1 5 1 .

2.5.6

El objetivo del estudio de Kuhnz et al. (A- 1 3) es analizar ciertos parmetros farmacocinticos
bsicos en mujeres tratadas con anticonceptivos trifsicos de ingestin oral. Los pesos (en
kilogramos) de las 10 mujeres que participaron en el estudio son:
62
53
57
55
69
64
60
59
60
60
FUENTE: Wilhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y
Mariane Mahler, "Single and Multiple Administration of a New Triphasic Oral
Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and
Total Testosterone Levels in Serum", Americanjournal of Obstetrics and Gynecology,
1 65, 596-602.

2.5. 7
2.5.8
2.5.9
2.5.10
2.5. 1 1
2.5.12
2.5.13
2.5.14

Ver el ejercicio 2.3. 1 .


Ver el ejercicio 2.3.2.
Ver el ejercicio 2.3.3.
Ver el ejercicio 2.3.4.
Ver el ejercicio 2.3.5.
Ver el ejercicio 2.3.6.
Ver el ejercicio 2.3.7.
Stein y Uhde (A- 14) examinaron el estado dinmico del eje tiroideo-hipotalmico-pituitario
en trastornos de pnico mediante el estudio de las respuestas neuroendcrinas al protireln en
una muestra de pacientes con trastornos de pnico y una muestra de controles normales.
Entre los datos recolectados en estos individuos se encontraron puntuaciones de comporta
miento como las medidas por la escala de ansiedad de Zung (ZAS, siglas en ingls de Zung
Anxiety Scale). Los siguientes valores representan las puntuaciones de ZAS de los 26 indivi
duos con diagnstico de trastornos de pnico.
53 41 46
69
51
5 1 38
40 4 1 46
53 59 45
45
36
38 36 35
41
35 3 1
40
45 60 43
38
FUENTE: Utilizado con autorizacin de Thomas W Uhde, M. D.

Construya una grfica de valores extremos con estos datos.

2.6

RESUNIEN
En este captulo se examinan varios procedimientos estadsticos descriptivos que
incluyen organizacin de datos por medio de arreglo ordenado, distribucin de
frecuencias, distribucin de frecuencias relativas, histogramas y polgonos de fre-

50

CAPTULO 2

ESTADSTICA DESCRIPTIVA

cuencia. Se describen los conceptos de tendencia central y variacin, y junto con


ellos las medidas ms generales: media, mediana, moda, amplitud, variancia y des
viacin estndar. Se presenta el anlisis exploratorio de datos mediante grficas de
valores extremos y despliegue de tallo y hojas.
Se destaca la importancia que tiene el empleo de la computadora como he
rramienta para calcular las medidas descriptivas y elaborar varias distribuciones a
partir de grandes conjuntos de datos.

PREGUNTAS Y EJERCICIOS DE REPASO


l.

Defina los sguientes conceptos:


a) Despliegue de tallo y hojas
e) Percentil
e) Parmetro de localizacin
g) Arreglo ordenado
i) Distribucin de frecuencias relativas
k) Parmetro
m) Lmites correctos de intervalos de clase

h) Grfica de valores extremos


d) Cuartil
t) Anlisis exploratorio de datos
h) Distribucin de frecuencias
j) Estadstica
1) Polgono de frecuencia
n) Histograma

2.

Defina y compare las caractersticas de la media, la mediana y la moda.

3.

cules son las ventajas y limitaciones de la amplitud como medida de dispersin?

4.

Explique por qu se utiliza n

5.

cul es el propsito del coeficiente de variacin?

6.

cul es el propsito de la regla de Sturges?

7.

Qu otro nombre recibe el quincuagsimo percentil (cuartil central o segundo)?

8.

Describa, desde su propio campo de estudio, una poblacin de datos donde podra ser til
conocer la tendencia central y la dispersin. Obtenga los valores reales o realistas a partir de
esa poblacin y calcule la media, mediana, moda, variancia y desviacin estndar.

9.

Recolecte un conjunto de datos reales o realistas, en su campo de estudio para construir una
distribucin de frecuencias, una distribucin de frecuencias relativas, un histograma y un
polgono de frecuencia.

10.

Calcule la media, mediana, moda, variancia y desviacin estndar para los datos del ejercicio 9.

1 1.

Localice un artculo de una revista de su campo de estudio en el que se hayan calculado


medidas de tendencia central y dispersin.

12.

En el ejercicio 2.5 . 14 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de


26 individuos con trastornos de pnico que participaron en un estudio dirigido por Stein y
Uhde (A- 14). En ese estudio tambin se incluy a individuos sanos como controles (es decir,
individuos que no padecen trastornos de pnico). Los siguientes valores corresponden a las
puntuaciones de ZAS de 2 1 de estos individuos sanos.

1 para calcular la variancia.

26 28 34 26 25 26 26 30 34 28 25 26 3 1 25 25 25 25 28 25 25 25
FUENTE: Utilizado con autorizacin de Thomas W Uhde, M. D.

PREGUNTAS Y EJERCICIOS DE REPASO

51

a) Combine estos valores con las puntuaciones del ejercicio 2.5. 1 4 y elabore una grfica de
tallo y hojas.
b) Con base en la grfica de despliegue de tallo y hojas, describa en una palabra la naturaleza
de los datos.
e) Por qu luce as la grfica del inciso b?
d) Para la combinacin de datos de ZAS calcule: la media, moda, mediana, variancia y
desviacin estndar.
13.

Consulte el ejercicio 1 2 y calcule, slo para los 21 controles sanos, la media, moda, mediana,
variancia y desviacin estndar.

14.

Consulte el ejercicio 1 2 y calcule para los 26 individuos con trastornos de pnico: la media,
moda, mediana, variancia y desviacin estndar.

15.

cul de los conjuntos de puntuaciones de ZAS tiene ms variabilidad: el integrado por


individuos sanos y enfermos, el conjunto de control de individuos sanos o el conjunto de
pacientes con trastornos de pnico? cmo se justifica la respuesta?

1 6.

Analice el ejercicio 1 2. Qu medida de tendencia central considera ms adecuada para


describir los valores de ZAS, la media o la mediana? Por qu?

1 7.

Swif et al. (A- 1 5 ) realizaron un estudio sobre la presencia de importantes enfermedades psi
quitricas en portadores heterocigticos del gen causante del sndrome de Wolfram. De acuer
do con los investigadores, el sndrome de Wolfram es un sndrome neurodegenerativo
autosmico recesivo, en el que 25 por ciento de los individuos que son homocigticos para la
enfermedad tienen severos sntomas psiquitricos que los conducen a intentos de suicidio u
hospitalizacin psiquitrica. Entre los individuos estudiados se encontr a 543 parientes
consanguneos de los pacientes con sndrome de Wolfram. A continuacin se muestra una
distribucin de frecuencia de las edades de estos parientes consanguneos:

Edad
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99

Cantidad
55
93
1 13
90
85
73
29
5

Total

543

FUENTE: Ronnie Gorman Swift,


Diane O. Perkins, Charles L.
Chase, Debra B. Sadler y Michael
Swft, "Psychiatric Dsorders in 36
Families with Wolfram Syndrome",

Americanjoumal ofPsychatry, 148,


775-779.

Con base en estos datos, elabore una distribucin de frecuencias relativas, una distribucin
de frecuencias acumuladas y una distribucin de frecuencias relativas acumuladas.
1 8.

La motivacin de un estudio realizado por Roberts et al. (A- 1 6) fue su preocupacin sobre si las
recomendaciones vigentes de los requerimientos dieteticos de energa probablemente subesti
man el total de energa necesaria en varones adultos jvenes. Los sujetos del estudio fueron 1 4
varones adultosjvenes sanos d e peso corporal normal, quienes desarrollaban d e tiempo com
pleto ocupaciones sedentarias como estudiantes o ayudantes de laboratorio. Los siguientes
valores son el ndice de masa corporal (kg/m2) para los 14 individuos en la muestra:

-- -

52

CAPTULO 2

24.4
23.0

30.4
20.6

ESTADSTICA DESCRIPTIVA

2 1 .4
26.0

25. l

2 1 .3

23.8

20.8

22.9

20.9

23.2

21.1

FUENTE: Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the
Doubly Labeled Witer Method", Americanjournal of Clinical Nutrition, 54, 499-505.

a) Calcule media, moda, mediana, variancia, desviacin estndar y coeficiente de variacin.


b) Elabore una grfica de tallo y hojas.
e) Elabore una grfica de valores extremos.
d) Qu porcentaje de mediciones est dentro de una desviacin estndar de la media,
dentro de dos desviaciones estndar, y dentro de tres desviaciones estndar?
19.

Consulte el ejercicio 1 8 . Los siguientes son los pesos (kg) y estaturas (cm) de los 14 individuos de la muestra estudiada por Roberts et al. (A- 1 6):
Pesos:

83.9
59.7
Estaturas: 1 85
161

99.0
64.6
1 80
177

63.8
78.8
173
1 74

7 1 .3

65.3

79.6

70.3

69.2

56.4

66.2

88.7

1 68

1 75

1 83

1 84

1 74

1 64

1 69

205

FUENTE: Susan B. Roberts, Melvin B. Heyman, WilliamJ. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the
Doubly Labeled Water Method", Americanjournal ofClinical Nutrition, 54, 499-505.

a) Para cada variable, calcule media, mediana, variancia, desviacin estndar y coeficiente de
variacin.
b) Para cada variable, elabore un despliegue de tallo y hojas, y una grfica de valores
extremos.
e) Qu conjunto de mediciones tiene mayor variabilidad, peso o estatura? Qu bases tiene
su respuesta?
20.

La siguiente tabla muestra la distribucin de edades de los casos de cierta enfermedad re


portada durante un ao en un estado en particular:
Edad

Nmero de casos

5-14
1 5-24
25-34
35-44
45-54
55-64

5
10
1 20
22
13
5

Total

1 75

Para estos datos elabore una distribucin de frecuencias acumuladas, una distribucin de
frecuencias relativas, una distribucin de frecuencias relativas acumuladas y un histograma.
21.

Nombre los tres sinnimos d e variacin (variabilidad).

22.

Como parte de un proyecto de investigacin, los investigadores obtuvieron los siguientes


datos sobre los niveles sricos de perxido lpido (SLP, por las siglas en ingls de serum lipid

PREGUNTAS Y EJERCICIOS DE REPASO

53

peroxide), a partir d e los informes de laboratorio d e una muestra d e 1 0 individuos adultos


que reciban tratamiento para la diabetes mellitus: 5.85, 6.17, 6.09, 7.70, 3. 1 7, 3 .83, 5. 1 7 ,
4.3 1 , 3.09, 5 .24. Calcule la media, mediana, variancia y desviacin estndar.
23.

Los siguientes valores corresponden a los niveles de SLP que se obtuvieron de una muestra
de 10 adultos aparentemente sanos: 4.07, 2.7 1 , 3.64, 3.37, 3.84, 3.83, 3.82, 4.2 1 , 4.04, 4.50.
Calcule para estos datos la media, mediana, variancia y desviacin estndar. Compare los
resultados con los del ejercicio 22. Qu es lo que sugieren estos resultados con respecto a
los niveles de SLP entre los pacientes con y sin diabetes mellitus? Estos resultados proveen
suficientes bases para tomar accin mdica? Explique su respuesta.

24.

A continuacin se muestran las edades de 48 pacientes internados de urgencia en un hospital. Elabore una grfica de tallo y hojas. cmo describira la forma de estos datos?
63
46
23
27

32
43
25
17
25.

23.9
53.7
23.1
38.9
4 1 .3

35
12
21
22

54
13
17
23

38
16
13
61

53
16
30

55

42
31
14
34

51
30
29
42

42
28
16
13

48
28
28
26

29.6
38.3
29.0
20.3
20.9

Mtodo 1
34.4 56.6
28.5 22.8
30. l 33.9
28.4 35 .5
46. 1 35.0

22.5
44.8
39.7
22.8
46. 1

29.7
4 1 .6
45.3
54.7
22. 1

23.2
3 1 .6
34.6
24.2
23.7

Mtodo 2
56.2 30.2
24.6 49.8
4 1 . 3 34. 1
2 1 . 1 40.7
35.7 29.2

27.2
22.6
26.7
39.8
27.4

21.8
48.9
20. 1
2 1 .4
23.2

Exprese con palabras las siguientes propiedades de la media de la muestra:


a)
b)
e)

27.

57
53
22
24

Se compararon dos mtodos para colectar sangre para estudios de coagulacin. Los siguien
tes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en ingls), de 30
pacientes en cada uno de los dos grupos. Elabore una grfica de valores extremos a partir de
cada conjunto de mediciones. Compare las dos grficas. Jndican alguna diferencia en l a
distribucin d e los valores d e APTr para ambos mtodos? Qu mtodo tiene mayor me
diana? Compare el IQR del mtodo 1 con el IQR del mtodo 2. Para cul mtodo es el IQR
un mayor porcentaje de R?
20.7
3 1 .2
24.9
22.9
52.4

26.

33
61
23
21

:, (x x)2 = un mnimo

nx = I, x
:, (x - x)

Un maestro de estadstica indica a sus alumnos en el primer da de clases que se aplicaran


cinco exmenes durante el curso. Con las puntuaciones de cada examen para cada estudian
te, el profesor calcula una medida de tendencia central que servir como calificacin final

CAPTULO 2

54

ESTADSTICA DESCRIPTIVA

del curso del estudiante. Antes de tomar el primer examen se debe elegir si se quiere que la
calificacin sea la media o la mediana de las cinco calificaciones de los exmenes. cul
escogera el lector si fuera uno de los alumnos? por qu?
28.

Considere los siguientes intervalos de clases para elaborar una distribucin de frecuencias de los
niveles sricos de colesterol de los individuos que participaron en una campaa de deteccin:
c) 50-75
h) 50-74
75-99
75- 1 00
1 00- 1 24
1 00- 125
1 25-149
125-150
150- 1 7 5
150- 1 74
175-199
1 75-200
200-225
200-224
225-250
225-249
etc.
etc.
Qu intervalo de clase ser el ms conveniente para el objetivo? por qu? Establezca espe
cficamente por qu los otros dos son menos convenientes.
En un examen de estadstica se pidi a los estudiantes que elaboraran una distribucin de
frecuencias de los niveles de creatina en la sangre (unidades/litro) para una muestra de 300
individuos sanos. La media es de 95 y la desviacin estndar es de 40. Los estudiantes utili
zaron las si guientes amplitudes de los intervalos de clase:
a) 1
h) 5
d) 1 5
e) 1 0
f) 25
e) 20
a) 50-74
75-99
1 00- 149
1 50- 1 74
175-199
200-249
250-274
etc.

29.

30.
31.
32.

Comente la conveniencia de utilizar estas amplitudes.


D un ejemplo, relacionado con ciencias de la salud, de una poblacin de mediciones para lo
cual la media sea una medida de tendencia central mejor que la mediana.
D u n ejemplo, relacionado con ciencias de l a salud, de una poblacin d e mediciones para
lo cual la mediana sea una medida de tendencia central mejor que la media.
Indique para las siguientes variables cul puede ser mejor medida de tendencia central: la
media, mediana o moda, y explique su respuesta.
a) Ingreso anual de las enfermeras tituladas en el Sureste.
h) Diagnstico de pacientes atendidos en el departamento de urgencias del hospital princi
pal de la ciudad.

33.

34.

35.

e) Pesos de los jugadores de basquetbol de la escuela preparatoria.


Consulte el ejercicio 2.3. 1 1 y calcule: media, mediana, variancia, desviacin estndar, pri
mer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grfica de valores extre
mos. La media, moda y mediana son iguales? Si no, explique por qu. Analice los datos en
trminos de variabilidad. Compare el IQR con la amplitud. Qu sugieren las comparacio
nes respecto a la variabilidad de las observaciones?
Consulte el ejercicio 2.3. 1 2 y calcule: media, mediana, variancia, desviacin estndar, pri
mer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grfica de valores extre
mos. La media, moda y mediana son iguales? Si no, explique por qu. Analice los datos en
trminos de variabilidad. Compare el IQR con la amplitud. Qu sugieren las comparacio
nes respecto a la variabilidad de las observaciones?
Thilothammal et al. (A- 1 7) realizaron un estudio para determinar la eficacia de la vacuna
BCG (bacillus-Calmette-Gurin) para prevenir la meningitis tuberculosa. Entre los datos

BIBLIOGRAFA

55

recolectados en cada individuo est l a medicin del estado nutricional (peso real expresado
como porcentaje del peso esperado para cada estatura real). La siguiente tabla muestra los
valores de los estados nutricionales para los 107 casos de estudio.
73.3 54.6
85.4
82.4
92.3
55.5 68.3
76.5
76.9 1 00.0 65.9
80.5 7 1 .0
56.8 80.6
72.2
74.0
83.0 72.3 1 00.0
50.4 66.0
64.5
79.6
55.7
67.3
88.7
76.5 99.6
50.9 7 1 .0
72.7
64.8 74.0
66.3
79.3
72.6 80.7
72.4
78. 1
74.0 72.7
96.0
65.9 73.3 1 09.0
65.7
84.4
72.8 73.6
70.0 77.4
73.8
73.6
72.0 97.5 1 30.0 68. 1
70.0
76.4
79.6
59.7 89.6
50.5
86.4
76.9 74.6
64. 1
88.2
90.9 70.5
67.7
73.0
76.9
70.5
63.4 58.8
55.0
74.0
76.9 78. 1
68.6
7 1 .4 84.6 123.7 93.7
73.2
80.0
45.6 92.5
84.0
65.6 6 1 .3
66.3
80.2 76.9
77.5 76.9
70.0
60.6 59.0
84.7 78.2
9 1 .9
FUENTE: Utilizada con autorizacin del
67.5 76.9
82.6
doctor N. Thilothammal.
a) Para estos datos, calcule las siguientes medidas descriptivas: media, mediana, moda,
variancia, desviacin estndar, amplitud, primer cuartil, tercer cuartil e IQR.
b) Elabore las siguientes grficas: histograma, polgono de frecuencia, tallo y hojas, y valores
extremos.
e) Analice los datos en trminos de variabilidad. Compare el IQR con la amplitud. Qu
sugiere la comparacin respecto a la variabilidad de las observaciones?
d) Qu proporcin de mediciones est dentro de una desviacin estndar de la media, en
dos desviaciones estndar de la media y en tres desviaciones estndar de la media?
e) Qu proporcin de mediciones es menor que 1 00?
f) Qu proporcin de mediciones es menor que 50?

BIBUOGRAI<iA
l.
2,
3.
A-1.
A-2.

Bibliografa de metodologa
H. A. Sturges, "Toe Choice of a Class Interval" ,Journal ofthe American Statistical Association,
21 , 65-66.
Helen M. Walker, "Degrees of Freedom", Thejournal ofEducational Psychology, 31, 253-269.
John W. Tukey, Exploratory Data Analysis, Addison-Wesley, Reading, MA.
Bibliografa de aplicaciones
Silvio M. Veronese y Marcello Gambacorta, "Detection of Ki-67 Prolife:ration Rate in Breast
Cancer", American]ournal of Clinical Pathology, 95, 30-34.
Nizar N. Jarjour, William ]. Calhoun, Lawrence B. Schwartz y William W. Busse, "Elevated
Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with
Increased Airway Obstruction", American Review ofRespiratory Disease, 144, 83-87.

56

CAPTUL0 2

A-3.
A-4.
A-5.
A-6.
A-7.
A-8.

A-9.
A-10.
A-1 1 .

A-12.

A-13.

A-14.

A-15.

ESTADSTICA DESCRIPTIVA

Peter M. Ellis, Graham W. Mellsop, Ruth Beeston y Russell R. Cooke, "Platelet Tritiated Imipramine
Binding in Patients Suffering from Mania",Journal ofAjfective Disorders, 22, 105-1 1 O.
Helen Herrman, Patrick McGorry, Jennifer Milis y Bruce Singh, "Hidden Severe Psychiatric
Morbidity in Sentenced Prisoners: An Australian Study", American journal of Psychiatry, 1 48,
236-239.
Erik Skjelbo, Theonest K. Mutabingwa, lb Bygbjerg, Karin K. Nielsen, Lars F. Gram y Kim
Brl')sen, "Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the
S-Mephenytoin Oxidation in Tanzanians", Clinical Pharmacology & Therapeutics, 59, 304-3 1 1 .
Henrik Schmidt, Poul Erik Mortensen, S0ren Lars F0lsgaard y Esther A. Jensen, "Autotrans
fusion After Coronary Artery Bypass Grafting Halves the Number of Patients N eeding Blood
Transfusion", Annals of Thoracic Surgery, 61, 1 1 78- 1 1 8 1 .
William C . Pitts, Virginia A. Rojas, Michael J . Gaffey, Robert V. Rouse, Jos Esteban, Henry F.
Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasia and
Sarcomas of the Breast", Americanjournal of Clinical Pathology , 95, 623-632.
Enrique Femndez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, David B. Badish y Reuben
M. Chemiack, "Sustained Improvement in Gas Exchange After Negative Pressure Ventilation
for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation", American Review of
Respiratoiry Disease, 144, 390-394.
]. A. Dosman, W. C. Hodgson y D. W. Cockcroft, "Effect ofCold Air on the Bronchial Response
to Inhaled Histamine in Patients with Asthma", American Review of Respiratory Disease, 1 44,
45-50.
G. V. Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in the Elderly", Age
and Ageing, 19, 199-203.
Tadao Arinami, Miki Sato, Susumu Nakajima e Ikudo Kondo, "Auditory Brain-stem Responses
in the Fragile X Syndrome", American]ournal of Human Genetics, 43, 46-5 1 .
Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities
in Normal and Growth-Retarded Fetuses", American journal of Obstetrics and Gynecology, 1 65,
1 43- 1 5 1 .
Welhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y Marianne Mahler, " Sin
gle and Multiple Administration of a New Triphasic Oral Contraceptive to Women:
Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum",
American]ournal of Obstetrics and Gynecology , 1 65, 596-602.
t>4urray B. Stein y Thomas W. Uhde, "Endocrine, Cardiovascular, and Behavioral Effects of
Intravenous Protirelin in Patients with Panic Disorder", Archives ofGeneral Psychiatry, 48, 148-156.
Ronnie Gorman Swift, Diane O. Perkins, Charles L. Chase, Debra B. Sadler y Michael Swift,
"Psychiatric Disorders in 36 Families with Wolfram Syndrome", Americanjournal ofPsychiatry,
118, 775-779.

A-16.

Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vemon R.
Young, "Dietary Energy Requirements ofYoung Adult Men, Determined by Using the Doubly
Labeled Water Method", Americanjournal of Clinical Nutrition, 54, 499-505.

A-17.

N. Thilothammal, P. V. Krishnamurthy, Desmond K. Runyan y K. Banu, "Does BCG Vaccine


Prevent Tuberculous Meningitis?", Archives of Disease in Childhood, 74, 1 44-147.

Potrebbero piacerti anche