Sei sulla pagina 1di 15

Calcular la varianza y la desviacin estndar para los datos del ejemplo 3.

Solucin: En primer lugar debemos hallar la suma de los cuarenta valores y


la suma de sus cuadrados:

y ahora, segn la frmula que acabamos de obtener:

ESCUELA TCNICA SUPERIOR DE NUTICA Y MQUINAS NAVALES /


NAUTIKAKO ETA ITSASONTZI MAKINETAKO GOI ESKOLA TEKNIKOA

NOCIONES PRELIMINARES DE MATEMTICAS

9. ESTADSTICA DESCRIPTIVA

9.1 Unidades estadsticas y caracteres.

. Se llaman unidades estadsticas o individuos a los componentes de


una determinada poblacin de datos centro del estudio estadstico.

Cada uno de los individuos de la poblacin puede describirse segn


uno o varios caracteres.
Cada uno de los caracteres estudiados puede presentar dos o
ms modalidades. Las modalidades son las diferentes situaciones
posibles del carcter, y deben ser al mismo
tiempo, incompatibles y exhaustivas.

Ejemplo 1:

El personal de una empresa (unidades estadsticas), del cual puede


ser realizado un estudio estadstico de su edad, sexo, antigedad,
sueldo, etc. (caracteres). Por ejemplo, de la antigedad podra
subdividirse en "menos de tres aos", "entre tres y diez aos" y "ms
de diez aos" (modalidades).

Ejemplo 2:

La totalidad de barcos fabricados en un determinado periodo de


tiempo (unidades estadsticas), de la que se hace un estudio del
material de fabricacin, capacidad, modalidades de uso, etc.
(caracteres). Por ejemplo, en cuanto a las modalidades de uso pueden
ser: transporte y mercancas.

* Carcter cualitativo y cuantitativo.

Un caracter se dice cualitativo si sus diversas modalidades no son


expresables numricamente (por ejemplo: sexo, profesin...).

Un caracter se dice cuantitativo si sus diversas modalidades se


expresan numricamente (por ejemplo: sueldo, edad, ...). A este
nmero se le llama variable estadstica.

NOTA: Nosotros en este tema nos limitaremos a tratar nicamente


caracteres cuantitativos.

Una variables estadstica se llama discreta si sus valores son


nmeros aislados (por ejemplo, nmeros enteros como sucede en el
caso de "nmero de hijos", pues nadie tiene 1,57 hijos ).

Una variable estadstica se llama continua si sus valores pueden


ser cualquier nmero (por ejemplo, el "tamao de una pieza").

9.2 Distribuciones estadsticas de una carcter.

Consideremos una poblacin estadstica de n indivduos descrita


segn el carcter C, cuyas k modalidades son:

C1, C2, ... , Ci, ... , Ck


Se designa por ni el nmero de individuos que presentan la modalidad
Ci , y se la llama "frecuencia absoluta" de la modalidad Ci.

Por otra parte, se llama "frecuencia relativa" o simplemente


"frecuencia" de la modalidad Ci a la proporcin:

Como las modalidades son a la vez incompatibles y exhaustivas, la


suma de las frecuencias absolutas es igual a la poblacin total, y la
suma de las frecuencias es igual a la unidad, es decir:

Cuando la variable estadstica es continua, las modalidades del


carcter son las clases de valores posibles definidas por los extremos
de clase. Por ejemplo, si designamos por eo, ..., ei, ..., ek los elementos
de clase, tal como se muestra en la grfica:

entonces la clase n i estar definida por el intervalo:

* Marca de la clase n i viene definida por:

* Distancia entre las marcas de las clases n i y n i+1 viene definida


por:

* Amplitud de la clase n i viene definida por:

* Frecuencia relativa acumulada: es la proporcin de observaciones


cuyos valores son menores o iguales al lmite superior de la clase, o,
en forma equivalente, menores que el lmite inferior de la siguiente
clase.
Una observacin: La cantidad de clases a emplear para clasificar los
datos en un conjunto estn en ntima dependencia del total de
observaciones de ste. Si la cantidad de observaciones es
relativamente pequea, la cantidad de clases a emplear ser cercana a
5. Si existe una cantidad sustancial de datos, la cantidad de clases debe
encontrarse entre 8 y 12, aunque generalmente no suele superarse a
15.

Ejemplo 3:

De acuerdo con los datos publicados en la revista Sea men's en su


nmero de febrero de 1980, las cuotas anuales de 40 compaas para
un seguro de $25.000 por marino incluido en la tripulacin son las
siguientes:

$ 82 - 85 - 86 - 87 - 87 - 89 - 89 - 90 - 91 - 91 - 92 - 93 - 94 - 95 - 95 -
95 - 95 - 95 - 97 - 98 - 99 - 99 - 100 - 100 - 101 - 101 - 103 - 103- 103
- 104 - 105 - 105 - 106 - 107 - 107 - 107 - 109 - 110 - 110 - 111

Como la diferencia entre los valores extremos es 111 - 82 = 29, al


decidir -por ejemplo- utilizar 6 clases, el intervalo de cada clase ser
aproximadamente de $5. Para establecer los lmites de cada clase, hay
que considerar la unidad ms cercana con respecto a la cual se miden
las observaciones. En este caso se va a redondear al dolar ms
cercano. Con estos datos podemos establecer la siguiente tabla:

Agrupamiento y frecuencias absolutas y acumuladas del ejemplo 3

Lmites de Marca de Frecuencia Frec. Frec. relativa


Frecuencia, fi
clase clase relativa fi /n acumulada acumulada

82-86 84 3 3/40 = 0,075 3 3/40 = 0,075

87-91 89 7 7/40 = 0,175 10 10/40 = 0,250

92-96 94 8 8/40 = 0,200 18 18/40 = 0,450

97-101 99 8 8/40 = 0,200 26 26/40 = 0,650

102-106 104 7 7/40 = 0,175 33 33/40 = 0,825

107-111 109 7 7/40 = 0,175 40 40/40 = 1,000

Totales 40 1,000

9.3 Representacin grfica de las distribuciones

Aunque una tabla estadstica encierra toda la informacin


disponible, para realizar una sntesis visual de los datos es
recomendable pasarla a forma grfica. El principio de la
representacin de los caracteres es la proporcionalidad de las reas
con las frecuencias absolutas. Se pueden utilizar diagramas de
sectores, o de rectngulos (denominado histogrma) . Tambin se
pueden representar las frecuencias acumuladas, dando lugar a la
denominada curva de distribucin, denotada por F(x).

Representacin grfica por sectores de los datos del ejemplo 3.

Histograma de los datos del ejemplo 3.

Curva de distribucin de los datos del ejemplo 3.

Otra caracterstica grfica til de un conjunto de datos, es


la distribucin de frecuencia relativa acumulativa u ojiva. Se trata de
una poli-lnea que se obtiene trazando en el eje vertical la frecuencia
relativa acumulada (ltima columna de la tabla) de cada clase y en el
eje horizontal el lmite inferior de la clase siguiente, y uniendo con
segmentos los puntos consecutivos as obtenidos.

El principal uso de la distribucin acumulativa es lo que


comnmente se conoce como cuantles.

En una distribucin de frecuencia relativa acumulativa se


define cuantl como el valor bajo el cual se encuentra una determinada
proporcin de los valores de la distribucin. El valor del cuantl se lee
en la direccin opuesta, en el eje horizontal, a la proporcin
correspondiente deseada sobre el eje vertical. El cuantl ms comn es
el percentl. Por ejemplo, qo.2 es el valor bajo el cual se encuentra el
20% de los valores de la distribucin, y qo.9 es el valor bajo el cual se
encuentra el 90% de los valores de la distribucin, tal como se aprecia
en la grfica adjunta.

9.4 Descripcin numrica de una variable estadstica.

Para todo conjunto de datos hay dos medidas destacables: la


localizacin de su centro, y su variabilidad. La tendencia central de
un conjunto de datos es la disposicin de stos para agruparse ya sea
alrededor del centro o de ciertos valores numricos.

La variabilidad de un conjunto de datos es la dispersin de las


observaciones en el conjunto.

* Caractersticas de tendencia central:

Se llama mediana al valor de la variable estadstica que divide en


dos bloques iguales a los individuos de la poblacin, suponiendo que
estn ordenados por valor creciente del carcter.

Si la cantidad de observaciones es un nmero impar, la mediana es el


valor de la observacin que se encuentra a la mitad del conjunto
ordenado. Si la cantidad de observaciones es par, la mediana es la
media aritmtica de las dos observaciones que se encuentran en la
mitad del conjunto ordenado.

Para datos agrupados, la mediana es aquel valor que divide en dos


partes iguales la distribucin de frecuencia relativa. La frmula en este
caso viene dada por:

Mediana = L + c(j/fm)

donde L es el lmite inferior de la clase donde se encuentra la


mediana, fm es la frecuencia de esa clase, y j es la cantidad de
observaciones en esta clase que son necesarias para completar un total
de n/2.

Se llama moda de una variable estadstica al valor del carcter que


tiene mayor frecuencia. En el caso de que haya varios valores
compartiendo la frecuencia mxima esta moda puede tener una
utilidad muy limitada.

Para el caso de datos agrupados, la moda es el punto medio de la


clase que presenta una mayor frecuencia.

Se llama media de una variable estadstica, denotada por a la suma


ponderada de los valores posibles por sus respectivas frecuencias:

Cuando la variable estadstica es contnua, es decir, los datos estn


agrupados, los valores xi son las marcas de clase de cada uno de los
intervalos.

Ejemplo 4:

Calcular las tres medidas de tendencia central para el ejemplo 3.

Solucin: Teniendo en cuenta que eran 40 observaciones, se obtiene


que: la mediana es la medida de los dos valores correspondientes a las
observaciones 20 y 21, despus de haberlas ordenado en orden
creciente, es decir: (98+99)/2 = 98,50.

La media en este caso es:

En cuanto a la moda es 95, el valor que ms se repite, con una


frecuencia de 5 observaciones.

* Caractersticas de tendencia central:

Se denomina varianza de una variable estadstica, y se denota por s


al promedio del cuadro de las distancias entre cada observacin y la
media:
Se llama desviacin tpica de una variable estadstica, s, a la raz
cuadrada positiva de la varianza:

Para ciertos casos, tanto en en la frmula de s como en la de s,


podemos expresar el recorrido del ndice i entre 1 y n, en lugar de
entre 1 y k, por ejemplo, para la varianza podemos poner:

De aqu podemos extraer otra frmula muy empleada, para ello


desarrollamos el cuadrado:

y por tanto, la desviacin tpica (o desviacin estndar) puede


expresarse tambin:

Ejemplo 4:

Calcular la varianza y la desviacin estndar para los datos del


ejemplo 3.

Solucin: En primer lugar debemos hallar la suma de los cuarenta


valores y la suma de sus cuadrados:
y ahora, segn la frmula que acabamos de obtener:

Para datos agrupados la varianza y la desviacin tpica pueden


calcularse de forma aproximada mediante las siguientes expresiones:

Ejemplo 5:

Calcular los valores aproximados de la varianza y la desviacin


estndar para los datos del ejemplo 3 considerndolos como
agrupados.

Solucin: Con los datos del ejemplo 3 podemos establecer la


siguiente tabla (NOTA: En xi se coloca el punto medio de la clase):

xi fi xi fi.xi
21
84 3 7056
168
55
89 7 7921
447
70
94 8 8836
688
78
99 8 9801
408
75
104 7 10816
712
83
109 7 11881
167
384
Total 40 590

Ahora establecemos las siguientes cantidades:

Por lo tanto, tenemos:

Se llama desviacin media al promedio de los valores absolutos de


la diferencia entre cada observacin y la media de las observaciones.
La desviacin media viene dada por:

Para datos agrupados, el valor aproximado de la desviacin media se


expresa:

Ejemplo 6:

Hallar la desviacin media para los valores no agrupados del


ejemplo 3.

Solucin: Solamente tenemos que considerar la expresin para la


desviacin media, que en este caso es:
D.M = 264,2/40 = 6,61

La desviacin mediana es el promedio de los valores absolutos de las


diferencias entre cada observacin y la mediana de stas. La
desviacin mediana viene dada por:

El recorrido, R, de las observaciones en un conjunto de datos es la


diferencia entre el valor ms grande y el ms pequeo del conjunto.

El recorrido intercuantil es la diferencia entre los percentiles 75-avo


y 25-avo.
El recorrido interdecil es la diferencia entre los percentiles 90-avo y
10-avo (dcimo).

* Resumen de las medidas numricas descriptivas para el ejemplo 3.

Medida Datos no Datos


numrica agrupados agrupados
Medida 97,90 97,75
Mediana 98,50 98,25
Moda 95,00 96,50
Varianza 61,015 61,217
Desv.
7,81 7,82
estndar
Desv.
6,61 6,63
media
Desv.
6,60 6,57
mediana
Recorrido 29,0 ---
Rec.
--- 12,50
intercuantil
Rec.
--- 22,00
interdecil

Ejercicios para el alumno:

1. Los siguientes datos son los tiempos, en minutos, necesarios para


que 50 clientes de un banco comercial lleven a cabo una transaccin
bancaria:

2,3 0,2 2,9 0,4 2,8


2,4 4,4 5,8 2,8 3,3
3,3 9,7 2,5 5,6 9,5
1,8 4,7 0,7 6,2 1,2
7,8 0,8 0,9 0,4 1,3
3,1 3,7 7,2 1,6 1,9
2,4 4,6 3,8 1,5 2,7
0,4 1,2 1,1 5,5 3,4
4,2 1,2 0,5 6,8 5,2
6,3 7,6 1,4 0,5 1,4

a) Construir una distribucin de frecuencia relativa.


b) Construir una distribucin de frecuencia relativa acumulada.
c) Con los resultados del apartado (b), determinar los recorridos
intercuantil e interdecil.
d) Con los datos agrupados, calcular: media, mediana, moda,
desviacin estndar, desviacin media y desviacin mediana.
e) Verificar los resultados del apartado (d) calculando las mismas
medidas para los datos no agrupados.

2. La demanda diaria, en unidades de un cierto producto, durante 30


das de trabajo es:

38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56

a) Construir la distribuciones de frecuencia relativa y de frecuencia


relativa acumulada
b) Con la distribucin acumulada, determinar los tres cuantiles.
c) Calcular la media, mediana, moda, desviacin estndar,
desviacin media y desviacin mediana, empleando tanto los datos
agrupados como los no agrupados, y comparar los dos conjuntos de
resultados.

3. Los siguientes datos agrupados representan los pagos por


almacenamiento para los 50 ms grandes detallistas durante el ao
1979.

Lmites de clase Frecuencias


1,10 - 1,86 4
1,87 - 2,63 14
2,64 - 3,40 11
3,41 - 4,17 9
4,18 - 4,94 7
4,95 - 5,71 1
5,72 - 6,48 2
6,49 - 7,25 2

a) Construir el grfico de la distribucin de frecuencia relativa


acumulada.
b) Con los resultados del apartado (a), determinar los recorridos
intercuantil e interdecil.
c) Calcular: media, mediana y moda.
d) Calcular la varianza, desviacin estndar, desviacin media y
desviacin mediana.

4. La siguiente informacin agrupada representa el nmero de


puntos anotados por equipo y por juego en la Liga Nacional de Ftbol
Americano durante la temporada de 1973:

Grupo Frecuencia
0-3 27
4-10 66
11-17 91
18-24 70
25-31 57
32-38 34
39-45 16
46-52 3

a) Construir el grfico de la distribucin de frecuencia relativa


b) Calcular: media, mediana y moda.
c) Calcular la varianza, desviacin estndar y desviacin media.

5. Se seleccionaron 20 bateras aleatoriamente de un proceso de


fabricacin , y se llev a cabo una prueba para determinar la duracin
de stas. Los siguientes datos representan el tiempo de duracin en
horas para las 20 bateras:

52,5 62,7 58,9 65,7 49,3


58,9 57,3 60,4 59,6 58,1
62,3 64,4 52,7 54,9 48,8
56,8 53,1 58,7 61,6 63,3

a) Calcular: media y mediana.


b) Determinar desviacin estndar, desviacin media y desviacin
mediana.
c) Determinar los recorridos intercuantil e interdecil.

Otras pginas sobre Estadstica Descriptiva en Internet:

- Introduccin a la Estadstica Descriptiva (desde la Universidad


Catlica de Valparaso - Chile)

- Introduccin a la Estadstica Descriptiva (desde AulaFcil)

- Conceptos bsicos de Estadstica (desde CICA)

- Comprensin y uso de la Estadstica (por Fernando Valdes -


Universidad Romulo Gallegos)
- Estadstica Descriptiva y Probabilidades (por Mara Jos Japn &
Jos Garca)

- Curso de Estadstica Descriptiva (desde la Universidad de


Antioqua - Colombia)

- Curso de Estadstica (por Victor Larios desde la UNEQ - Mjico)

- Descriptive Statistics Introduction (by Jay Hill teacher from the


UIUC)

Potrebbero piacerti anche