Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadísticos de variabilidad
Entropía
k
H = − ∑ f i * log 2 ( f i )
i =1
donde...
fi : referencia la frecuencia relativa o proporción de cada modalidad i
log2 : logaritmo en base 2
Total 20 1
[ ]
H = − (0,5 * log 2 (0,5)) + (0,1 * log 2 (0,1)) + (0,4 * log 2 (0,4)) = 1,36
Existen dos reformulaciones o alternativas al modelo que acabamos de ver, dependiendo bastante
de la idiosincrasia de los investigadores la aplicación de unas u otras. La primera alternativa se basa en
utilizar los logaritmos naturales:
k
H = − ∑ f i * ln( f i )
i =1
k
H = − ∑ f i * log 3 ( f i )
i =1
1
Amplitud total, recorrido o rango
AT = M - m
donde ...
M: referencia el valor mayor de la variable
m: señala el valor más pequeño de la variable
Por ejemplo, supongamos que tenemos la serie de valores ordenados: 3, 12, 14, 18, 26
AT = 26 - 3 = 23
Si los valores correspondiesen a una variable continua la operación se basaría en manejar sus
límites reales, con lo cual la solución sería:
AT = 26,6 -2,5 = 24
Amplitud semi-intercuartil
donde...
Q3: Percentil 75 o cuartil 3
Q1: Percentil 25 o cuartil 1
Desviación media
Aplicada a partir de variables cuantitativas, es la media de las diferencias absolutas entre los
valores de la variable y su media:
∑ i =1
Xi − X
DM =
n
Si los datos de partida están agrupados en intervalos compuestos, la fórmula a utilizar es:
∑F
i =1
i Xi − X
DM =
n
Varianza y desviación típica
n 2
∑ (X
i =1
i − X)
Sx =
2
n
2
Si los datos de partida están agrupados en intervalos compuestos, la formula a utilizar es:
n 2
∑ F (X
i =1
i i − X)
Sx =
2
n
donde...
Fi: Frecuencia absoluta del intervalo.
Xi: Punto medio del intervalo.
Existen reformulaciones cuya finalidad es facilitar el cálculo manual, entre ellas podemos ver la
siguiente:
∑X
i =1
i
2
2
Sx 2 = − X
n
o bien...
2
n
⎛ n ⎞
n*∑ Xi − ⎜ ∑ Xi ⎟
2
i =1 ⎝ i =1 ⎠
Sx =
2
n
Al estar expresado en unidades cuadráticas generalmente es un estadístico con resultados
elevados, por lo cual se prefiere usar la versión lineal correspondiente (desviación típica). Este se obtiene
simplemente calculando la raíz cuadrada de la varianza:
SX = SX 2
La forma más frecuente de encontrar denotado este estadístico es con la letra “S” si se refiere a
datos muestrales, mientras si se refiere a la población se suele usar la letra griega “sigma”(F).
Propiedades básicas
S y 2 = Sx 2 * k 2
S y = S x *| k |
- Si se modifica una simple puntuación automáticamente se alteran los resultados del estadístico.
- La varianza se expresa en unidades cuadráticas y la desviación típica en la misma unidad que
los datos originales.
Coeficiente de variación
3
Este estadístico debe ser utilizado para comparar la variabilidad de dos o más conjuntos de datos,
y cuando la mera comparación de los estadísticos varianza o desviación típica no es admisible. Y esto
ocurre, cuando bien los rangos son sensiblemente distintos (ej: notas y CI) o bien cuando teniendo el
mismo rango las medias son sensiblemente distintas.
La forma de eliminar estas dificultades es manejando la siguiente expresión:
Sx
CVx =
X
Sx
CVx = *100
X
Propiedades básicas.
-Puede dar un resultado negativo en la medida que una media puede ser negativa. No obstante en esta
situación se tomará el valor absoluto del resultado.
-Si a la variable se le suma una constante k el valor del estadístico disminuye. Esto es así, porque al sumar
una constante a una variable se modifica el promedio pero no la dispersión.
-Si le restamos una constante k el valor del estadístico aumenta.
-Si le multiplicamos una constante se mantiene, ya que el producto afecta tanto al promedio como a la
dispersión en la misma magnitud
Tipos de puntuaciones
Puntuación directa
Puntuación diferencial
xi = X i − X
En general la información aportada nos indica si un valor concreto está por encima de la media
(valor positivo), es inferior (valor negativo) o coincide con ella (valor nulo).
Puntuación típica
4
Zx, Zy , ...), de esta forma las puntuaciones típicas para una variable X la podríamos denotar como el
resultado de operar:
Xi − X x
Z xi = = i
Sx Sx
Como se puede ver una puntuación típica nos señala el número de desviaciones típicas a que se
encuentra una puntuación respecto a su promedio (PIR 1999, preg. 43; autoeval. 12) (PIR 2001, preg.
127; autoeval. 17). Dicho de otra forma, la magnitud de la distancia respecto al centro de la distribución
de la variable medido en desviaciones típicas (PIR 1999, preg. 53; autoeval. 14).
Estadísticos de forma
Asimetría
Nos indica en que posición de la variable se encuentran la mayoría de los casos, bien en el
extremo inferior (asimetría positiva),
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Asimetría positiva
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Asimetría negativa
5
o bien en el centro (simétrica).
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Simétrica
∑ (X − X)
n
3
i
i =1
As =
n * Sx 3
Un valor de asimetría mayor que 1, en valor absoluto, indica generalmente una distribución que
difiere de manera significativa de la simetría. Cuando la distribución es simétrica y unimodal media,
mediana y moda coinciden, aunque no siempre se cumple que la coincidencia de los tres estadísticos
implique simetría.
Curtosis
70
60
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Leptocurtica 6
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Platocurtica
50
40
30
20
Frecuencia
10
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Mesocurtica
∑ (X − X)
n
4
i
i =1
K= −3
n * Sx 4
La curva normal
Como regla general una distribución normal se aplica a variables cuantitativas continuas y
cumple el modelo que podemos formalizar mediante la siguiente integral:
+∞ ⎛ 1 X −μ ⎞ 2
1 *⎜ ⎟
∫
−∞σ * 2 * π
* e 2 ⎝ σ ⎠
=1
Por supuesto, existen infinidad de curvas normales, dependiendo de sus parámetros básicos de
promedio y dispersión, lo cual plantea problemas serios a la hora de comparar resultados de estudios con
distintas distribuciones. Con objeto de unificar el modelo se suele aplicar no sobre las puntuaciones
directas, sino sobre las típicas, de forma tal que ahora lo podemos formalizar como:
7
+∞ Z 2
1
F ( Zi ) = ∫
−∞ 2 *π
*e 2 = 1
que es lo que se conoce como curva normal unitaria. En todo caso no es necesario aplicar en cada caso la
formulación pues existen tablas que nos permiten dada una proporción encontrar su puntuación típica y a
la inversa.
o lo que es los mismo, el porcentaje de casos entre el centro de la distribución y 1Z=15,87%, siendo la
misma cantidad respecto a -1Z.
Por otra parte, podemos deducir que fuera del área se encuentra el resto de los casos que
representan el 68,26%, que distribuidos de forma simétrica significa que desde menos infinito a -1Z el
porcentaje será del 34,13%, y el mismo porcentaje desde 1Z a más infinito.
- El porcentaje de casos entre -2Z y 2Z se encuentra el 95,44
o lo que es los mismo, el porcentaje de casos entre el centro de la distribución y 2Z=47,72%, siendo la
misma cantidad respecto a -2Z.
El resto de los casos fuera del área de distribución representará el 4,56%, que significa que desde
-2Z a -infinito existe el 2,28% y desde 2Z a más infinito la misma cantidad.
8
- El porcentaje de casos entre -3Z y 3Z es el 99,74
o lo que es los mismo, el porcentaje de casos entre el centro de la distribución y 3Z=49,87%, siendo la
misma cantidad respecto a -3Z.
El resto de los casos fuera del área de distribución representará el 0,26%, que significa que desde
-3Z a -infinito existe el 0,13% y desde 3Z a más infinito la misma cantidad.
- Por último, el porcentaje de casos entre -0,5Z y 0,5Z es del 38,3%, o lo que es lo mismo el área
fuera de esos límites es del 61,7%. (PIR 1999, preg. 40;autoeval. 11)
PT = Z*S + X
donde:
PT: es la puntuación transformada.
S: es la desviación típica de la nueva escala.
X : es la media de la nueva escala.
9
Análisis exploratorio de datos
25 3 11 32 24 47 12 5 31 9 12 32 16 25 28 33 13 20 31 19 20 34 18 23 24 25 29 26
55 44 46 36 40 45 36 44 43 54 38 39 43 2 54
En primer lugar lo primero que debe realizarse es ordenar de forma ascendente las puntuaciones
anteriores:
2 3 5 9 11 12 12 13 16 18 19 20 20 23 24 24 25 25 25 26 28 29 31 31 32 32 33 34
36 36 38 39 40 43 43 44 45 46 47 54 54 55
A continuación se construye el área de los tallos, que vamos a construir en un primer momento
de amplitud 10:
0
1
2
3
4
5
Y después rellenamos la zona de las hojas, con las unidades correspondientes de los valores:
10
0 2359
1 1223689
2 344555689
3 1122346689
4 334567
5 445
Posteriormente, se suele completar en la parte izquierda del diagrama con las frecuencias:
Por supuesto, podemos utilizar otra amplitud del intervalo, por ejemplo 5, con lo cual
obtendríamos un diagrama como este:
Donde el signo - indica que la hoja toma valores entre 0 y 4 y el signo + que la hoja toma valores entre 5
y 9.
Diagrama de cajas
11
CI
Frecuencia
Válidos 80,00 1
90,00 2
100,00 3
110,00 2
120,00 1
Total 9
Estadísticos
CI
Percentiles 25 90,0000
50 100,0000
75 110,0000
120
110
100
90
80
70
60
50
40
30
20
10
0
N= 9
CI
Como puede verse los extremos de la gráfica representan el valor menor y mayor de la
distribución, los límites de la “caja” corresponden a los centiles 25 y 75 y la línea interior de la caja
representa el valor de la mediana. Cuanto más alta sea la gráfica mayor es la dispersión de la distribución
y cuanto más alejada del centro de la caja esté la línea de la mediana mayor será la asimetría.
Supongamos que la puntuación más baja no es 80, sino 60, con lo cual la tabla de frecuencias es:
CI
Frecuencia
Válidos 60,00 1
90,00 2
100,00 3
110,00 2
120,00 1
Total 9
12
130
120
110
100
90
80
70
60 1
50
40
30
20
10
0
N= 9
CI
Nótese como el segmento inferior ha desaparecido, y aparece ahora una “O” identificador de la
puntuación “outlier” (atípica) asociada al valor 60. El segmento inferior no se dibuja por coincidir el
siguiente valor, una vez eliminado el caso del valor atípico, con el percentil 25 que es la base de la caja.
Los limites a partir de los cuales los valores comienzan a ser considerados como puntuaciones
atípicas se obtienen al operar:
Li = Q1 - (AI * 1,5)
Ls = Q3 + (AI * 1,5)
donde...
Ls = Area superior a partir de la cual un valor pasa a ser un dato atípico
Li = Area inferior de los valores atípicos
AI = Q3-Q1
Por lo cual la puntuación 60 esta en el área de valores atípicos, siendo representado en el gráfico
por el símbolo “O”.
CI
Frecuencia
Válidos 30,00 1
90,00 2
100,00 3
110,00 2
120,00 1
Total 9
lo cual no afecta como en el caso anterior a los cuartiles, pero si al diagrama como podemos ver a
continuación:
13
140
120
100
80
60
40
20
0
N= 9
CI
donde el símbolo “*” referencia el valor 30 como extremo. Este nuevo tipo de valor se obtiene a partir de
delimitar el área de puntuaciones extremas, de acuerdo a la expresión:
Li = Q1 - (AI * 3)
Ls = Q3 + (AI * 3)
donde...
Ls = Area superior a partir de la cual un valor pasa a ser un dato extremo
Li = Area inferior de los valores extremos
AI = Q3-Q1
Referencias bibliográficas
Autoevaluación
1.- Suponiendo los resultados de los estadísticos de asimetría y curtosis, identifica que combinación de
valores se alejan más de la distribución de normalidad.
a.- 1; 0,5
b.- 0,3; 0,2
c.- 1; 1
d.- 1,5; 1,5
e.- 0,75; 1
2.- Suponiendo que la media y la desviación típica de una muestra normal son 60 y 10 respectivamente,
calcular la moda de la muestra:
a.- 10
b.- 60
c.- 70
d.- 0
e.- no se puede calcular, pues falta la mediana.
14
3.- Si tenemos una variable que se distribuye entre los valores 1 y 100, identifica que par de valores
(Media y Desviación típica) es el correcto:
a.- 50; -5
b.- 0; 30
c.- 100; 30
d.- 50; 0
e.- 40; 20
4.- Si tenemos una variable que se distribuye normalmente con media 50 y desviación típica 10,
identifica que valor es que corresponde a una Z de 2:
a.- 50
b.- 30
c.- 70
d.- 10
e.- 20
5.- Si a las puntuaciones de una variable X le multiplicamos siempre la cantidad 3, entonces su nueva
desviación típica será:
a.- Sx+3
b.- Sx*3
c.- Sx/3
d.- 1/Sx
e.- Sx
1 134
2 3355557
3 1244
4 36
5 1
entonces la moda será:
a.- 25
b.- 5555
c.- 20
d.- 11
e.- 44
8.- En una variable con distribución normal sabemos que la puntuación directa 20 corresponde con el
centil 25, y que la amplitud semiintercuartílica vale 5, ¿cuál es el valor de la moda de dicha distribución?
a.- 25
b.- 20
c.- 30
d.- 50
e.- no se puede determinar
9.- Dadas las siguientes variables con su correspondiente media y desviación típica
Variables X1 X2 X3 X4 X5
Media 60 3 500 30 6
Desv. Típica 20 1 100 12 3
15
¿cuál es la de mayor variabilidad relativa?
a.- X1
b.- X2
c.- X3
d.- X4
e.- X5
10.- Dada la variable X con media 50 y varianza 16, ¿qué puntuación típica le corresponde a un sujeto
con una puntuación diferencial de -2?
a.- 0
b.- (-0,5)
c.- 0,5
d.- 48
e.- (-2)
11.- (PIR 1999, preg. 40) Si P(z<-0,5) = 0,3085 y P (z<0,5) = 0,6915, ¿qué porcentaje de una población
con distribución normal puede esperarse que obtenga puntuaciones comprendidas entre z = -0,5 y z = 0,5?
a.- 1,0000
b.- 0,6915
c.- 0,5000
d.- 0,3830
e.- 0,3085
12.- (PIR 1999, preg. 43) Una puntuación típica igual a 2 indica que la puntuación directa
correspondiente:
a.- Se separa de la media dos unidades
b.- Se separa de la media dos veces el valor de la desviación típica
c.- Es el doble de la media
d.- Se separa de la media dos unidades en valor absoluto
e.- Es menor que la puntuación media
13.- (PIR 1999, preg. 44) La unidad de medida en que se expresa el coeficiente de variación es:
a.- La misma en la que están expresados los datos
b.- La de los datos al cuadrado
c.- Aquella en la que viene expresada la desviación típica
d.- Aquella en la que viene expresada la media y la desviación típica
e.- En ninguna
15.- (PIR 2001, preg. 114) Se tiene una variable Xi, con un número de personas en la muestra igual a n, se
tipifica cada valor de Xi en su correspondiente valor zi. ¿Cuánto vale la media de las puntuaciones típicas,
z ?:
a.- z =1
b.- z=n
c.- z=0
d.- z= X
e.- z = Sx
16
16.- (PIR 2001, preg. 121) Se tiene una variable Xi, con un número de personas en la muestra igual a n, se
tipifica cada valor de Xi en su correspondiente valor zi. ¿Cuánto vale la varianza de las puntuaciones
típicas, S2z?:
a.- S2z = 1
b.- S2z = n
c.- S2z = 0
d.- S2z = X
e.- S2z = S2X
17.- (PIR 2001, preg. 127) Un alumno obtiene en un test una puntuación típica igual a -0'25 (zi = -0'25).
¿Qué significa este dato?:
a.- Que deja por debajo de sí al 25% de los valores de ese test en la muestra estudiada
b.- Que deja por debajo de sí al 75% de los valores de ese test en la muestra estudiada
c.- Que el valor directo de esa puntuación es el de la media multiplicada por 0'25
d.- Que la posición relativa de esa puntuación es de 0'25 desviaciones típicas por debajo de la
media
e.- Que la posición relativa de esa puntuación es de 0'25 desviaciones típicas por encima de la
media
Respuestas correctas
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
d b e c b a a a e b d b d d c A d
17