Sei sulla pagina 1di 10

Apuntes Alumnos

Samantha Reid C.

25 de marzo de 2019

1. Medidas descriptivas cuantitativas


En estadı́stica existen dos tipos de medidas:

La tendencia central es la disposición de estos para agruparse (para agruparse del centro o
de ciertos valores numéricos)

La variabilidad es la dispersión de las observaciones en el conjunto.

A su vez, la mayorı́a de estas tienen fórmulas dependiendo su los datos están agregados o des-
agregados. Nos referimos a datos no agregados cuando se presentan ”en bruto” o sin tabulación,
en cambio nos referimos a datos agregados cuando estos datos se presentan en una tabla tabulada.

A continuación se establecen las medidas por tipo:

Tendencia central:

• Media (*)
• Mediana (*)
• Moda (*)
• Cuartiles, Deciles y Percentiles (*)

Variabilidad:

• Recorrido
• Recorrido intercuantil y/o interdecil.
• Desviación media (*)
• Varianza (*)
• Desviación estándar (*)
• Desviación mediana (*)
• Coeficiente de variación

(*) Indica que tiene fórmula tanto para datos no agregados como agregados.

1
1.1. Fórmulas para datos no agregados
1. Media:
n
X
x̄ = xi /n
i=1

2. Mediana:

Primero, SIEMPRE ordenar de manera creciente (de menor a mayor).


Si n es impar: Es el valor que se encuentra justo a la mitad.
Si n es par: Se toma el promedio aritmético de los valores de las dos observaciones que
se encuentran a la mitad del conjunto.
TRUCO: si agregamos un valor más a la muestra (es decir, n + 1) y lo dividimos por
2 y el valor nos da exacto, significa que ese es la celda del dato que corresponde (si da
inexacto, significa que esta entre esos dos valores, por lo que hay que sacar promedio).

3. Moda:

Es el valor que presenta mayor frecuencia.


Puede existir más de una moda, una única moda (unimodal) o ausencia de moda.

4. Cuartiles:

C1 : Corresponde al 25 % de los datos (corresponde al valor (n + 1)/4)


C2 : Corresponde al 50 % de los datos (es la mediana!)
C3 : Corresponde al 75 % de los datos (corresponde al valor 3 ∗ (n + 1)/4)
En general estos siguen la misma regla que la mediana (es decir, si n es impar es justo el
número que esta al 25 %, 50 % o 75 % de los datos, y si es n par, se realiza un promedio
aritmético de los valores contenidos entre las observaciones).

5. Desviación media:
n
P
|xi − x̄|
i=1
D.M. =
n
6. Varianza:
n
(xi − x̄)2
P
i=1
s2 = σ 2 =
n−1
7. Desviación estándar: v
u n
uP
u (xi − x̄)2
s = σ = i=1
t
n−1

8. Desviación mediana:
n
P
|xi − M ediana|
n=1
D.M d. =
n

2
1.2. Fórmulas para datos agregados
1. Media:
k
X
x̄ = ni mi /n
i=1

2. Mediana:
( n2 − Fi−1 )
M ed = LIi +
ni
3. Moda:
(ni − ni−1 )
LIi + c
(ni − ni−1 ) + (ni − ni+1 )
Esta fórmula solo sirve si se cuenta con intervalos de misma longitud.

4. Cuartiles:
( kn
4 − Fi−1 )
LI + c
ni
Donde:

C1 : Si k = 1.
C2 : Si k = 2.
C3 : Si k = 3.

5. Desviación media:
k
P
ni |mi − x̄|
i=1
D.M. = k
P
ni
i=1

6. Varianza:
n
ni (mi − x̄)2
P
2 2 i=1
s =σ =
n−1
7. Desviación estándar: v
u n
uP
n (m − x̄)2
t i=1 i i
u
s=σ=
n−1

8. Desviación mediana:
n
P
ni |mi − M ediana|
n=1
D.M d. =
n

3
1.3. Fórmulas para ambos tipos de datos
1. Recorrido: Diferencia absoluta entre el menor de todos los elementos y el mayor de todos los
elementos.

2. Recorrido intercuantil:
C3 − C1
C3−1 =
2
3. Coeficiente de variación:
σ
C.V =

Si se quiere expresar como porcentaje, se multiplica por 100:
σ
C.V. = ∗ 100( %)

4
1.4. Ejercicios
1.4.1. Ejercicio con datos no agregados:
se presentan las ventas, en miles de dólares, de 20 vendedores de una compañı́a de calculadoras.

40.2 29.3 35.6 88.2 42.9


26.9 28.7 99.8 35.6 37.8
44.2 32.3 55.2 50.6 25.4
31.7 36.8 45.2 25.1 39.7

A partir de estos, calcule todas las medidas vistas en el curso.

Solución: Primero, se procede a ordenar los datos de manera creciente, ya que nos va a servir
para calculos posteriores, resultando:

25.1 25.4 26.9 28.7 29.3


31.7 32.3 35.6 35.6 36.8
37.8 39.7 40.2 42.9 44.2
45.2 50.6 55.2 88.2 99.8

1. Media:
x̄ = (25,1 + 25,4 + 26,9 + ... + 55,2 + 99,8)/20 = 42,56

2. Mediana: Como n es par, sacamos promedio entre los valores de la celda 10 y 11 ((n + 1)/2 =
10,5)
36,8 + 37,8
M ediana = = 37,3
2
3. Moda: El valor que más se repite es 35,6

4. Cuartiles:

C1 : Está comprendido entre la celda 5 y 6, ya que: ((n + 1)/4 = 5,25:


29,3 + 31,7
= 30,5
2
C2 : 37.3 (se repite el mismo que el de la mediana).
C3 : Está comprendido entre la celda 15 y 16, ya que (3 ∗ (n + 1)/4 = 15,75:
44,2 + 45,2
= 44,7
2
5. Desviación media:
|25,1 − 42,56| + |25,4 − 42,56| + ... + |88,2 − 42,56| + |99,8 − 42,56|
D.M ed. = = 12,819
20

6. Varianza:
n
((25,1 − 42,56)2 + (25,4 − 42,56)2 + ... + (88,2 − 42,56)2 + (99,8 − 42,56)2
P
i=1 7195, 768
s2 = = = 378,72
19 19

7. Desviación estándar: √ p
s= s2 = 378,72 = 19,46

5
8. Recorrido:
R = |25,1 − 99,8| = 74,7

9. Recorrido intercuantil:
C3 − C1 44,7 − 5,25 39,45
C3−1 = = = = 19,73
2 2 2

10. Desviación mediana:


|25,1 − 37,3| + |25,4 − 37,3| + ... + |88,2 − 37,3| + |99,8 − 37,3| 236,4
D.M ed. = = = 11,82
20 20

11. Coeficiente de variación:


19,46
C.V. = ∗ 100( %) = 45,72( %)
42,56

6
1.5. Ejemplo para datos agregados
La siguiente información agrupada representa el número de puntos anotados por equipo y por
juego en la Liga Nacional de Fútbol durante la temporada de 2007:

Lı́mites de estructura de la clase Frecuencia


0-3 27
4 - 10 66
11 - 17 91
18 - 24 70
25 - 31 57
32 - 38 34
39 - 45 16
46 - 52 3

A partir de esto, calcule todas las medidas vistas en el curso.

Solución: Primero, se procede a colocar columnas anexas, que nos serán útiles para los siguientes
cálculos:

Lı́mites de estructura de la clase mi ni Ni ni m i ni m2i


0-3 1.5 27 27 40.5 60.75
4 - 10 7 66 93 462 3234
11 - 17 14 91 184 1274 17836
18 - 24 21 70 254 1470 30870
25 - 31 28 57 311 1596 44688
32 - 38 35 34 345 1190 41650
39 - 45 42 16 361 672 28224
46 - 52 49 3 364 174 7203
Suma (Σ) - 364 - 6878.5 173765.75

1. Media:
6878,5
x̄ = = 18,90
364
2. Mediana: Primero, ubicamos N/2 = 182 en la tabla de frecuencias acumuladas (el valor que
esté contenido, sin importar si este es mayor. En este caso, nos ubicamos en el intervalo 11-17.
 
182 − 93
M ediana = 11 + 7 = 17,8462
91

3. Moda: Se ubica la clase que tenga una mayor frecuencia absoluta. En este caso corresponde
al intervalo 11-17.
 
91 − 66
M oda = 11 + 7 = 11,94
(91 − 66) + (91 + 70)

7
4. Cuartiles:

C1 = Primero vemos donde está la clase contenida en N/4 = 91. En este caso está dentro
del intervalo 4-10.  
91 − 27
C1 = 4 + 7 = 10,79
66
C2 =Mismo valor que mediana, en este caso 17,85
C3 =Se ve donde está la clase contenida en 3N/4 = 273. Este valor está contenido dentro
del intervalo 25-31.  
273 − 254
C3 = 24 + 7 = 26,3
57
5. Recorrido: R = 52 − 0 = 52

6. Recorrido Intercuantil:
C3 − C1 26,3 − 10,79
C3−1 = = = 7,76
2 2

7. Desviación media:
27|1,5 − 18,9| + 66|7 − 18,9| + ... + 16|42 − 18,9| + 3|49 − 18,9| 3374,1
D.M. = = = 9,269
364 364

8. Varianza: Existen dos formas:

Forma 1: Utilizar la fórmula directamente:


27(1,5 − 18,9)2 + ... + 3(49 − 18,9)2 43953,83
s2 = = = 121,084
364 − 1 363

Forma 2: Ocupar la sexta columna de la tabla modificada, ocupando la siguiente fórmula:


2
2 Σni m2i − (ΣnN
i mi )
173765,75 − (6875,5)2 /364 173765,75 − 129869,51
s = = = = 120,92
N −1 363 363

(*) De ambas formas se llega al mismo valor. Si existe una pequeña diferencia, se debe a
un error de arrastre por parte de las cifras significativas.

9. Desviación estándar: √
s= s2 = 11,003

10. Desviación Mediana:


27|1,5 − 17,85| + 66|7 − 17,85| + ... + 16|42 − 17,85| + 3|49,17,85| 3369,9
D.M ed. = = = 9,258
364 364

11. Coeficiente de variación:


11,003
C.V. = ∗ 100 % = 58,22 %
18,9

8
Tabla de resumen: Se presentan los resultados en la siguiente tabla:
Tendencia Central Variabilidad
Media 18.9 Recorrido 52
Moda 11.94 Rec. Intercuantil 7.76
C1 10.79 Desv. Media 9.269
C2 17.85 Desv. Mediana 9.258
C3 26.3 Varianza (s2 ) 121
Desv. Estándar (s) 11
C.V. 58.22 %

Como estamos trabajando con puntos extremos (entre 0 puntos y 52 puntos), se mide mejor
la tendencia central con la mediana que con la media, ya que cada dato influye en la media en
cuanto a magnitud (media) en cuanto a cantidad de datos (mediana). Este fenómeno se puede
ver en el siguiente gráfico:

Aquı́ se puede ver que los datos se tienden a ”agrupar” a la derecha (es decir, están sesgados
a la derecha), por lo que la mediana podrı́a reflejar con un poco más de exactitud que la media.
El rango nos da una impresión de la magnitud de los datos. En este caso el rango es de 52,
por lo que es bastante elevado (considerando el contexto, el cual es puntos de un partido de
fútbol).
El rango intercuantil representa la cantidad de dispersión en la mitad central de los datos.
Es decir, existe una distancia de 7.76 puntos entre el Cuartil 1 y 3, y en esa distancia se
concentran el 50 % de los datos.
La desviación media y mediana nos indican cómo están de dispersos los datos con respecto
a la media y mediana. Estos valores son mejores indicadores cuando la muestra tiene puntos
extremos.
La varianza mide la dispersión de los datos con respecto a la media. Sin embargo, como estas
desviaciones están al cuadrado, pueden ser engañosas, por lo que siempre se trabaja más con
la desviación estándar.
La desviación estándar también indica la dispersión de los datos, siendo más útil ya que esta
también está en la misma unidad de medida (es decir, la desviación estándar de los puntos es
11 número de puntos anotados).

9
El Coeficiente de Variación indica un valor elevado (¿50 %), lo cual significa que se cuenta
con una elevada dispersión en los datos. Este valor toma más validez cuando se comparan dos
muestras unidimensionales (especialmente si tienen distintas unidades).

10

Potrebbero piacerti anche