Sei sulla pagina 1di 69

Estadstica Descriptiva

Marcelo Rodrguez
Ingeniero Estadstico - Magster en Estadstica
Universidad Catlica del Maule
Facultad de Ciencias Bsicas
Metodologa de Investigacin
4 de septiembre de 2012
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 1 / 69
Introduccin a la Estadstica Descriptiva
Una vez desarrollado el plan de muestreo y generados los datos es
necesario organizarlos, presentarlos y resumirlos adecuadamente con el
objetivo de obtener informacin, la que nos servir como apoyo a la
toma de decisiones.
Existen tres formas de resumir los datos; organizacin mediante tablas,
grcos y medidas descriptivas.
La organizacin de datos consiste en determinar qu unidades de
anlisis pertenecen a qu atributos de la variable bajo estudio,
estableciendo para ello las frecuencias con las que estas unidades
pertenecen a esos atributos.
Una vez realizada esta organizacin se procede a la presentacin de los
datos organizados a travs de tablas o cuadros y de grcos
estadsticos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 2 / 69
Organizacin de Datos
Denicin (Clase)
Una clase o categora es uno de los posibles atributos que puede tener
una unidad de anlisis que es caracterizada a travs de una variable.
Denicin (Intervalo de clase)
Este atributo pasa a denominarse intervalo de clase cuando la variable es
continua o clase cuando sta es no es continua. Por simplicacin,
cualquiera sea el tipo de variable, nos referiremos a estas categoras como
clase. Es imprescindible que estas clases sean excluyentes o disjuntas, ya
que de esta forma no existe ambigedad en la clasicacin de las unidades
de anlisis.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 3 / 69
Organizacin de Datos
Supongamos que se desea estudiar una variable que esta agrupada en k
clases excluyentes, digamos c
1
, c
2
, . . . , c
k
.
Denicin (Frecuencia Absoluta)
Corresponde al nmero de unidades de anlisis que pertenecen a la clase c
i
y se denota por n
i
, (i = 1, . . . , k), donde
k

i=1
n
i
= n.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 4 / 69
Organizacin de Datos
Denicin (Frecuencia Relativa)
Corresponde al porcentaje de unidades de anlisis que pertenecen a la clase
c
i
y se denota por f
i
, (i = 1, . . . , k), donde

k
i=1
f
i
= 100. Entonces,
f
i
=
n
i
n
100.
Denicin (Frecuencia Relativa Acumulada)
Corresponde al porcentaje acumulado de unidades de anlisis que
pertenecen a las clases c
1
, c
2
, . . . , c
k
y se denota por F
i
, (i = 1, . . . , k),
donde
F
i
=
i

j=1
f
j
.
As, F
1
= f
1
y F
k
= 100.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 5 / 69
Tabla Estadstica para variables cualitativas
Una tabla estadstica es una tabla de frecuencias, de cada clase. En el caso
que la variable sea cualitativa sera de la siguiente forma.
Porcentaje
Clases Frecuencia (n
i
) Porcentaje (f
i
) Acumulado (F
i
)
c
1
n
1
f
1
F
1
c
2
n
2
f
2
F
2
.
.
.
.
.
.
.
.
.
.
.
.
c
k
n
k
f
k
F
k
= 100
Total n 100
Se puede tambin utilizar para variables discreta con un bajo rango de
variabilidad.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 6 / 69
Ejemplo de un problema estadstico
Recuerde el problema donde un investigador realiza un estudio, con el
objetivo de identicar las caractersticas fsicas de 27 estudiantes,
seleccionados al azar, de la Universidad Catlica del Maule. Las variables
son: gnero (0 mujer, 1 hombre), estatura (cm), peso (kg), longitud de pie
(cm), longitud de brazo (cm), anchura de la espalda (cm), dimetro del
crneo (cm), longitud entre la rodilla y el tobillo (cm). Puede descargar los
datos desde http://bit.ly/medifis.
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
genero 0 1 0 0 0 0 0 1 1 0 0 1 0 1 1 1 1 0 0 0 1 1 0 1 0 1 0
estatura 159 164 172 167 164 161 168 181 183 158 156 173 158 178 181 182 176 162 156 152 181 173 155 189 170 170 168
peso 49 62 65 52 51 67 48 74 74 50 65 64 43 74 76 91 73 68 52 45 80 69 53 87 70 67 56
lpie 36,0 39,0 38,0 37,0 36,0 38,0 39,0 43,0 41,0 36,0 36,0 40,0 36,0 42,0 43,0 41,0 42,0 39,0 36,0 34,0 43,0 41,0 36,0 45,0 38,0 40,0 37,5
lbrazo 68,0 73,0 75,0 73,0 71,0 71,0 72,5 74,0 79,0 68,5 68,0 79,0 68,0 75,0 83,0 83,0 78,0 72,0 67,0 66,0 76,0 74,0 67,0 82,0 73,0 77,0 70,5
aespalda 42,0 44,0 48,0 41,5 44,5 44,0 41,0 50,0 47,5 44,0 46,0 48,0 43,0 50,0 51,0 53,0 48,0 44,0 36,0 40,0 49,0 48,0 43,0 53,0 45,0 46,5 48,0
dcraneo 57,0 55,0 58,0 58,0 54,0 56,0 54,5 60,0 59,5 57,0 58,0 56,5 55,0 59,0 57,0 59,0 58,0 59,0 56,0 55,0 57,0 56,0 56,0 61,0 56,0 58,0 60,0
lrodtob 40,0 44,0 44,0 44,0 40,0 42,0 43,0 47,0 47,0 41,0 41,0 47,0 39,0 45,0 43,0 43,0 45,0 42,0 41,0 38,0 46,0 44,0 38,0 52,0 43,0 44,5 40,0
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 7 / 69
Ejemplo de una tabla de frecuencia en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 8 / 69
Ejemplo de una tabla de frecuencia en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 9 / 69
Ejemplo de una tabla de frecuencia en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 10 / 69
Ejemplo de una tabla de frecuencia en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 11 / 69
Grcos Estadsticos de frecuencias: Barra Simple
Representa distribuciones de frecuencias de variables cualitativas o discretas
con bajo rango de variabilidad. Es un conjunto de rectngulos adyacentes
(con un espacio entre ellos). En el eje horizontal deben ir las clases y en el
eje vertical las frecuencias o los porcentajes.
Gnero
Masculino Femenino
P
o
r
c
e
n
t
a
j
e
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
44,44%
55,56%
Pgina 1
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 12 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 13 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 14 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 15 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 16 / 69
Organizacin de Datos: Mtodo para crear los intervalos de
clases
Paso 1: Contar el nmero n de datos.
Paso 2: Calcular el rango (R),
R = max min,
donde min y max corresponden a los valores mnimos y
mximos de los datos, respectivamente.
Paso 3: Escoger el nmero de clases (intervalos). Se sugiere ,el entero
ms prximo de la regla de Sturges, dada por
k = 1 + 3, 3 log(n),
donde log() es el logaritmo en base 10. Tambin el
investigador puede elegir el nmero de clases segn
especicaciones propias.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 17 / 69
Organizacin de Datos: Mtodo para crear los intervalos de
clases
Paso 4: Calcular la amplitud (A)
A =
R
k
.
Paso 5: Para determinar los extremos de la primera clase (intervalo)
se debe tomar como lmite inferior el valor min y como lmite
superior el valor min +A. Este sera c
1
Paso 6: Para obtener las restantes clases (c
j
), se suma sucesivamente
A al lmite inferior, donde el lmite inferior de las sucesivas
clases corresponder a lmite superior de la clase anterior.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 18 / 69
Tabla Estadstica para variables cuantitativas
Finalmente, si la variable bajo estudio es cuantitativa continua (o discreta
con un alto rango de variabilidad), entonces el esquema de tabla anterior
sufre un leve modicacin que est relacionada con la creacin de los
intervalos de clases. En este caso, la tabla es el siguiente:
Intervalos de Marca de Frecuencia Porcentaje Porcentaje
Clase clase (m
i
) (n
i
) (f
i
) Acumulado (F
i
)
c
1
= [min; min +A[ m
1
n
1
f
1
F
1
c
2
= [min +A; min +2A[ m
2
n
2
f
2
F
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
k
= [min +(k 1)A; max] m
k
n
k
f
k
F
k
Total n 100
Donde la marca de clase i-sima (m
i
) corresponde al promedio del intervalo
i-simo (i = 1, ..., k).
Observacin
Si desea crear los datos (aproximadamente) con esta tabla, repita la m
i
tantas veces como lo indique la n
i
.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 19 / 69
Grcos Estadsticos de frecuencias: Histograma
Se usa para variables continuas o discretas con alto rango de variabilidad.
Es un conjunto de rectngulos adyacentes. En el eje horizontal deben ir los
intervalos (clases) y en el eje vertical las frecuencias o los porcentajes.
Peso
100 90 80 70 60 50 40
F
r
e
c
u
e
n
c
i
a
5
4
3
2
1
0

Media = 63,89
Desviacin
tpica = 12,801
Pgina 1
El histograma anterior representa el grco distribucional de los pesos de
los alumnos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 20 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 21 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 22 / 69
Ejemplo de un grco de barra en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 23 / 69
Medidas de Resumen
Estas medidas estadsticas resumen al conjunto de datos, tambin se les
denomina estadsticos. Estas medidas se clasican en medidas de posicin,
dispersin y forma.
(Medidas de Posicin)
Entregan la posicin relativa que poseen los individuos dentro de la
distribucin y se subdividen en dos:
a) Las medidas de tendencia central, que tienden a ubicarse en el centro
de la distribucin, entre las cuales se encuentran:
La media o promedio aritmtico.
La mediana o valor del centro.
La moda, o valor ms frecuente.
b) Los percentiles, que tienden a ubicarse en distintas partes de la
distribucin de la variable, entre los que se encuentran:
Los cuartiles (dividen al conjunto en cuatro partes iguales).
Los deciles (dividen al conjunto en 10 partes iguales).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 24 / 69
Medidas de tendencia central: Media
Denicin (Media)
La media o promedio aritmtico de un conjunto de n datos digamos
x
1
, x
2
, . . . , x
n
, viene dado por:
x =
n

i=1
x
i
n
.
Denicin (Media Recortada al 5%)
Es el promedio de los datos sin considerar el 5% ms pequeo, ni el 5%
ms alto.
El uso de la media es exclusivamente para variables cuantitativas.
La media puede ser afectado de manera desproporcionada por la
existencia de datos atpicos (fuera de lo comn).
La media recortada al 5%, comnmente no es afectada por valores
atpicos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 25 / 69
Medidas de tendencia central: Mediana
Denicin (Mediana)
Corresponde al valor central cuando las n observaciones se ordenan de
menor a mayor. Es decir, considere las siguientes observaciones
x
1
, x
2
, ..., x
n
, adems si ordenamos estas observaciones de menor a mayor
tenemos x
(1)
, x
(2)
, ..., x
(n)
, entonces la mediana sera
M
e
=
_
_
_
x
(
n+1
2
)
, si n es impar;
x
(
n
2
)
+x
(
n
2
+1)
2
, si n es par.
No se puede usar esta medida si la escala de medicin de la variables
es nominal.
Su clculo no es afectado por la existencia de datos atpicos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 26 / 69
Medidas de tendencia central: Moda
Denicin (Moda (M
o
))
Corresponde al valor o categora con ms alta frecuencia en los datos.
El uso de esta medida es para cualquier tipo de variable.
En el caso de variables cuantitativas, los datos pueden ser agrupados
en clases y la moda se dene como la marca de clase que tiene la
mayor frecuencia.
Puede existir ms de una moda en un conjunto de datos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 27 / 69
Medidas de tendencia central en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 28 / 69
Medidas de tendencia central en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 29 / 69
Medidas de tendencia central en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 30 / 69
Medidas de tendencia central en SPSS
El peso promedio de los estudiantes es 63,89 kg.
El 50% de los estudiantes tiene un peso inferior a 65 kg.
El peso ms frecuente es de 74 kg.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 31 / 69
Medidas de posicin: Los Percentiles
Denicin (Percentil )
Los percentiles cumplen con la condicin de superar a no ms del
(1 )100% de los datos y de ser superado, a los ms por el porcentaje
complementario de las observaciones.
Considere los siguientes datos ordenados de menor a mayor
x
(1)
, x
(2)
, ..., x
(n)
. Entonces,
P

= (1 d) x
(e)
+d x
(e+1)
.
Donde,
i = (n + 1),
e = parte entera de i,
d = i e.
Esta tcnica es la que utiliza IBM-SPSS.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 32 / 69
Medidas de posicin: Cuartiles
Denicin (Cuartiles)
Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual
tamao:
El cuartil 1 (Q
1
) marca la parte alta del primer cuarto de los datos,
corresponde al P
0,25
.
El cuartil 3 (Q
3
) marca la parte baja del ltimo cuarto de los datos,
corresponde al P
0,75
.
El cuartil 2 (Q
2
) corresponde a la P
0,50
= M
e
.
Metodologa para el clculo aproximado de Q
1
y Q
3
Paso 1: Ordene los datos de menor a mayor y encuentre la M
e
.
Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la
M
e
. Si n es impar incluya la mediana en ambas mitades.
Paso 3: Encuentre la mediana en ambas mitades, estas son Q
1
y Q
3
.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 33 / 69
Percentiles y cuartiles en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 34 / 69
Percentiles y cuartiles en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 35 / 69
Percentiles y cuartiles en SPSS
El 25% de los estudiantes tiene un peso inferior a 52 kg.
El 50% de los estudiantes tiene un peso inferior a 65 kg.
El 70% de los estudiantes tiene un peso inferior a 71 kg.
El 75% de los estudiantes tiene un peso inferior a 74 kg.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 36 / 69
Medidas de dispersin
Las segundas medidas estadsticas de resumen, las de dispersin, nos
entregan el grado de dispersin, variabilidad u homogeneidad que poseen
los datos dentro del conjunto, generalmente respecto de una medida de
tendencia central, entre las que se encuentran:
El rango o desviacin mxima
El rango intercuartil.
La varianza.
La desviacin estndar o tpica.
El coeciente de variacin.
Entre otras.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 37 / 69
Medidas de Dispersin: Rango y Rango Intercuartil
Denicin (Rango)
Corresponde a la diferencia entre el mayor y menor de los datos.
R = Mx Mn
Denicin (Rango Intercuartil)
Esta medida de variabilidad es resistente a valores atpicos y se concentra
en el 50% de los datos. Tambin llamado Amplitud Intercuartil.
RI = Q
3
Q
1
El uso de R y RI no es para variables nominales.
R es afectado por la existencia de datos atpicos.
RI no es afectado por la existencia de datos atpicos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 38 / 69
Medidas de Dispersin: Varianza
Denicin (Varianza)
La varianza de las observaciones x
1
, x
2
, ..., x
n
es
s
2
=
1
n 1
n

i=1
(x
i
x)
2
.
Esta mide las variaciones promedio que existen en los datos con respecto a
la media de la muestra.
Su calculo es afectado por la existencia de datos atpicos.
El uso de esta medida es exclusivamente para variables cuantitativas.
Esta medida no se puede interpreta, pues tiene unidades de medida al
cuadrado.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 39 / 69
Medidas de dispersin: Desviacin Estndar
Denicin (Desviacin estndar)
Se dene la desviacin estndar (tpica) como
s =

s
2
=

_
1
n 1
n

i=1
(x
i
x)
2
.
Su calculo es afectado por la existencia de datos atpicos.
El uso de esta medida es exclusivamente para variables cuantitativas.
Se interpreta como la cantidad de desviaciones promedio de los datos
con respecto a la media.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 40 / 69
Medidas de dispersin en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 41 / 69
Medidas de dispersin en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 42 / 69
Medidas de dispersin en SPSS
El peso mnimo fue de 43 kg
El peso mximo fue de 91 kg
Existe una desviacin de 12,8 kg con respecto al peso promedio.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 43 / 69
Medidas de Dispersin: Coeciente de variacin
Denicin (Coeciente de variacin)
Corresponde a una medida de dispersin relativa a la media. Esta dada por
CV =
s
x
100%
No depende de la unidad de medida.
x > 0.
til para comparar variabilidad entre grupos.
Mientras ms pequeo es el valor del CV ms homogneos (parecidos
entre si) son los datos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 44 / 69
Relacin entre el promedio y la desviacin estndar
Denicin (Regla emprica )
Para un conjunto de datos (n
grande) que tienen un histograma
simtrico, con forma de campana,
los intervalos, que se presenta a
continuacin, contienen
aproximadamente los siguientes
porcentajes de los datos.
Intervalo Porcentaje
[x s; x +s] 68, 27%
[x 2s; x + 2s] 95, 45%
[x 3s; x + 3s] 99, 73%
Normal
3 2 1 0 -1 -2 -3
F
r
e
c
u
e
n
c
i
a
1.250
1.000
750
500
250
0
Regla emprica
Media = 0 y Desviacin Estndar =1.
Pgina 1
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 45 / 69
Intervalo de Conanza del 95% para la verdadera media
poblacional (para muestras grandes)
Denicin (Intervalo de Conanza para )
Intervalo de Conanza del 95% para la verdadera media poblacional
(para muestras grandes sobre 30), se dene como
_
x 1, 96
s

n
; x + 1, 96
s

n
_
Se dene el error de estimacin como 1, 96
s

n
y adems del error tpico
de la media como
s

n
.
Por ejemplo, en el caso del peso, sabemos que: x = 63, 89, s = 12, 801 y
n = 27. Entonces, con un 95% de conanza se espera que el verdadero
peso promedio este contenido en el intervalo [59,06;68,72]. Considerando
que el error de estimacin es de 4,83.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 46 / 69
Medidas de Forma
Denicin (Sesgo)
ndice que expresa el grado de asimetra de la distribucin de los datos
(histograma). La asimetra positiva indica que los valores ms extremos se
encuentran por encima de la media. La asimetra negativa indica que los
valores ms extremos se encuentran por debajo de la media. Su formula es
sk =
_
n
(n 1)(n 2)
_
_

_
n

i=1
(x
i
x)
3
s
3
_

_
.
Si sk = 0, entonces la distribucin es simtrica.
Si sk < 0, entonces la distribucin es asimtrica negativa.
Si sk > 0, entonces la distribucin es asimtrica positiva.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 47 / 69
Medidas de Forma: Relacin Entre Promedio y la Mediana
Distribucin Simtrica (No Sesgada):
x = M
e
Distribucin Asimtrica Positiva, :
M
e
< x
Distribucin Asimtrica Negativa:
x < M
e
Una distribucin es simtrica si la mitad izquierda de su distribucin es
la imagen de su mitad derecha.
La asimetra es positiva o negativa en funcin de a qu lado se
encuentra la cola de la distribucin.
La media tiende a desplazarse hacia las valores extremos (colas).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 48 / 69
Medidas de Forma: Error tpico del sesgo
Denicin (Error tpico del sesgo)
Es la desviacin tpica de la distribucin muestral del ndice de asimetra, el
cual permite tipicar el valor del ndice de asimetra e interpretarlo como
una puntuacin z. ndices tipicados mayores que 1,96 en valor absoluto
permiten armar que existe asimetra (positiva o negativa, dependiendo del
signo del ndice). Su formula es
e
sk
=

6n(n 1)
(n 2)(n + 1)(n + 3)
.
Si,

sk
e
sk

1, 96, entonces la distribucin de los datos es simtrica.


mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 49 / 69
Resumen de los datos: Coecientes de apuntamiento
Denicin (Curtosis)
ndice que expresa el grado en que una distribucin acumula casos en sus
colas en comparacin con los casos acumulados en las colas de una
distribucin normal con la misma varianza. Su formula es
k =
_
n(n + 1)
(n 1)(n 2)(n 3)
_
_

_
n

i=1
(x
i
x)
4
s
4
_

_
n(n 1)
2
(n 2)(n 3)
_
.
Si k > 0, entonces la distribucin es ms puntiagudas (Leptocurtica)..
Si k = 0, (proximos a cero) entonces indican semejanza con la curva
normal.
Si k < 0, entonces la distribucin es ms aplanada (Mesocurtica).
.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 50 / 69
Medidas de Forma: Error tpico de la curtosis
Denicin (Error tpico de la curtosis)
El error tpico del ndice de curtosis, el cual puede utilizarse para tipicar el
valor del ndice de curtosis y poder interpretarlo como una puntuacin z..
ndices mayores que 1,96 en valor absoluto permiten armar que la
distribucin se aleja de la distribucin normal. Su formula es
e
k
=

24n(n 1)
2
(n 3)(n 2)(n + 3)(n + 5)
.
Si,

k
e
k

1, 96, entonces la distribucin de los datos es como la normal.


Dependiendo del signo de k, se identica si es platicurtica o mecocurtica.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 51 / 69
Medidas de forma en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 52 / 69
Medidas de forma en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 53 / 69
Medidas de forma en SPSS
Con respecto a la asimetra: La distribucin de los pesos, puede
considerarse como simtrica, pues |0, 187/0, 448| = 0, 417 < 1, 96.
Con respecto a la curtosis: La distribucin de los pesos, tiene curtosis
como la normal, pues | 0, 658/0, 872| = 0, 755 < 1, 96.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 54 / 69
Identicacin de Datos Atpicos: Mtodo de la puntuacin z
Denicin (Mtodo de la puntuacin z:)
Si consideramos la regla emprica, sabemos que aproximadamente el 100%
de los datos est en el intervalo [x 3s; x +3s]. Es muy improbable que un
dato est fuera de este intervalo, y en caso que fuese, ste se llamara un
dato atpico. Es decir, un dato es no atpico si
x
i
[x 3s; x + 3s]
x
i
x
s
[3; 3]

x
i
x
s

3
Si consideramos la transformacin z
i
=
x
i
x
s
, entonces un dato x
i
es
atpico si |z
i
| > 3.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 55 / 69
Mtodo de la puntuacin z en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 56 / 69
Mtodo de la puntuacin z en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 57 / 69
Mtodo de la puntuacin z en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 58 / 69
Identicacin de Datos Atpicos: Mtodo de Tukey
Denicin (Mtodo de Tukey:)
Considere las siguientes barreras (bisagras),
Barrera Interior Inferior: BII = Q
1
1, 5RI
Barrera Interior Superior: BIS = Q
3
+ 1, 5RI
Barrera Exterior Inferior: BEI = Q
1
3RI
Barrera Exterior Superior: BES = Q
3
+ 3RI
Identique los datos en este diagrama
[
. .
Potencial
[BEI [
. .
Posible
No atpico
..
[BII BIS] ] BES]
. .
Posible
]
. .
Potencial
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 59 / 69
Identicacin de Datos Atpicos: Diagrama de Caja
Denicin (Diagrama de caja)
El diagrama de caja, entrega informacin sobre
centralidad, dispersin y la forma de la distribucin de los datos,
identica valores atpicos
y es til para comparar dos distribuciones.
(Procedimiento para realizar esta grca)
Paso 1: Los bordes de la caja se representan por Q
1
y Q
3
, se debe
trazar una linea vertical que atraviese la caja en la M
e
.
Paso 2: Trazar lneas desde los bordes de la caja hasta los valores
adyacentes (el menor y mayor de los datos no atpicos).
Paso 3: Marque los posibles valores atpicos con o y los potenciales
con .
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 60 / 69
Identicacin de Datos Atpicos: Diagrama de Caja
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 61 / 69
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 62 / 69
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 63 / 69
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 64 / 69
Diagrama de caja en SPSS
El diagrama muestra que no debera existir datos atpicos, pues todos los
datos estn contenidos en el intervalo BII = Q
1
1, 5 RI = 19 y
BIS = Q
3
1, 5 RI = 107.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 65 / 69
Anlisis comparativo en SPSS
Realice un estudio comparativo entre los pesos, segn el gnero.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 66 / 69
Anlisis comparativo en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 67 / 69
Anlisis comparativo en SPSS
Error tp. Estadstico
Media
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Intervalo de confianza
para la media al 95%
Media
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Intervalo de confianza
para la media al 95%
Femenino
Masculino
Peso
1,232 ,068
,637 ,602
12
29
91
62
8,614
74,205
74,00
74,00
79,72
68,78
2,487 74,25
1,121 -1,321
,580 ,427
16
27
70
43
8,967
80,400
52,00
55,50
60,57
50,63
2,315 55,60
Gnero Gnero
Descriptivos
Pgina 1
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 68 / 69
Anlisis comparativo en SPSS
Gnero
Masculino Femenino
P
e
s
o
100
90
80
70
60
50
40
Pgina 1
Interprete cada uno e los elementos (cuando corresponda) de la salida
computacional. Compare ambos grupos.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 04/09/2012 69 / 69

Potrebbero piacerti anche