Sei sulla pagina 1di 32

Estadstica descriptiva

Definiciones

La estadstica descriptiva se emplea


para describir un universo o como
primer paso para el anlisis inferencial
de una muestra
La estadstica inferencial se emplea
para inferir conclusiones hacia una
poblacin a partir de los datos
obtenidos de una muestra de poblacin

Definicin de la estadstica

Es la ciencia que se ocupa del


estudio de los fenmenos
aleatorios

Qu es un fenmeno
aleatorio

Es un fenmeno sobre el cual no se


tiene certeza (no hay una ley); ser
atropellado al cruzar la calle, tener xito
si se compra un billete de lotera,
comprar un vehculo que falle al primer
ao de uso, etc.
Un fenmeno sobre el que se tiene
certeza se llama un fenmeno
determinstico; la ley de la gravedad
permite calcular con certeza cunto se
demorar un objeto en caer; cunta
agua desplazar un objeto sumergido
de un cierto tamao, etc

Niveles de medicin de
variables

Caractersticas de una
variable

Debe ser medible


Debe variar en la poblacin

Niveles de medicin y tipo


de variables

El nivel de medicin y la forma en


que sern medidas las variables
depende del nivel de detalle que
se desee en el anlisis

Tipos de variables

Categricas (tambin llamadas


cualitativas, de cadena o de texto)
hacen referencia a la presencia o
ausencia de una cualidad
Numricas hacen referencia a un
nmero que significa cantidad
Otros tipos de variables
telfonos, fechas, horas.

Niveles de medicin

Categricas

Nominal (cualidades sin orden jerrquico)

Binomial (dos posibles cualidades)


Multinomial (ms de dos posibles cualidades)

Ordinal (cualidades con orden jerrquico)

Numricas

De intervalo (el cero no es absoluto, no hay


proporcionalidad en la escala)
De razn (el cero es absoluto, hay
proporcinalidad en la escala)

Implicaciones para el
anlisis

30% fuman y 70% no fuman (Pregunta A


cunto fuman los que fuman?)
10% fuman ms de 5 paquetes da, 20%
fuman de 1 a 5 paquetes da, 70% no fuma
(Pregunta B del grupo intermedio son ms los
que fuman 5 paquetes que los que fuman 1?)
Resultados de la escala 0 10%, 1 12%, 2 25%,
etc
Nmero de cigarrillos que fuma a diario
permite responder las preguntas A y B,
generar un promedio y calcular estadsticas
ms sofisticadas

Medidas de tendencia
central

Sirven para describir en dnde se


localiza el centro de los datos

Media aritmtica, media o promedio


Media recortada
Mediana
Moda

Media
n

Media

i 1

Se afecta por los valores extremos

Ejemplo promedio de notas


= (4 + 4,2 + 4,5 + 3,5)/4= 4,05
Ejemplo promedio de notas con un valor extremo
= (4 + 4,2 + 4,5 + 3,5 + 1)/5= 3,44

Mediana I

Es el valor bajo y por encima del cual est el


50% de los datos y por encima del cual est el
50% restante de los datos
No se afecta por los valores extremos; es
similar a la media si los datos no son
asimtricos
Si el nmero de datos es par la mediana est
en el promedio entre el valor de la mitad y el
que est inmediatamente despus

Ejemplo: Edades ordenadas de 10 personas


20, 23, 25, 28, 32, 38, 46, 47, 48, 49

0,5*10= 5
resulta entre el valor que est en la quinta y la sexta
posicin (32+38)/2=35

Mediana II

Si el nmero de datos es par, la


mediana est en el valor que
corresponde a la posicin central ms
uno

Ejemplo: Edades ordenadas de 11 personas


20, 23, 25, 28, 32, 38, 46, 47, 48, 49, 52

0,5*11= 5,5
la mediana correspondera al valor que esta en la
posicin 5 ms uno es decir en la sexta posicin
38

Medidas de dispersin

Sirven para describir cmo se


dispersan los datos alrededor del
centro

Recorrido
Mnimo
Mximo
Desviacin estndar
Varianza
Percentiles

Mnimo, mximo, recorrido

Mnimo es el valor mnimo en los


datos ordenados
Mximo es el mximo valor en los
datos ordenados
Recorrido resulta de restar el
mximo menos el mnimo

Desviacin estndar
n

d .e.

x media
i 1

n 1

Ejemplo promedio de notas (media=4,05)


d.e.= raiz cuadrada ((4-4.05)2 + (4,2-4,05)2 + (4,54,05)2 + (3,5-4,05)2 /3) = 0,42

Se puede interpretar intuitivamente como cunto


varia en promedio cada dato con respecto a la
media

Percentiles

Percentil 25

25% de los datos estn por debajo de


este valor y 75% de los datos estn
por encima de este valor

Se calcula igual que la mediana

Medidas de dispersin
relativa
Coeficiente de variacin
CV=d.e./media
Ejemplo cules datos varan mas con
respecto a la media: la edad o el
ingreso de los alumnos?
Edad 30, 32, 35, 36, 38, 39, 40
Ingresos 1.5, 2, 2.3, 2.8, 3.5, 3.9, 4.7
CV edad= 3,68 / 35,71 = 0,10
CV ingresos=1,13 / 2,95 = 0,38

Otras medidas de resumen

Proporciones: El 30% de la poblacin


son hombres

a
3
proporcin

0,3
a b 3 7

Razones: Por cada mujer hay 0,42


hombres

a 3 0,42(hombres)
razn
1(mujer)
b 7

Estadsticas vs. nivel de


medicin

Estadsticas vs. nivel de


medicin

Grficos descriptivos

Tipos de grficos
descriptivos

Araas
Barras (ordenadas, apiladas)
Lneas
Pasteles
Histogramas
Boxplot (cajas y bigotes)
Puntos dispersos

Araas

Variables binomiales,
multinomiales u
ordinales con las
mismas categoras de de
respuesta
Describen varios
aspectos en una sola
grfica; son una buena
manera de resumir.
Por el tipo radial, resultan
engaosas dado que es
ms amplia el rea al
final de la araa que al
principio

Barras no apiladas

Variables
multinomiales
ordenando por
frecuencia
Variables ordinales
ordenando segn
categoras de
respuesta
Permiten mostrar de
manera rpida el
aspecto ms
relevante y en
ocasiones destacan
ms si son

Barras apiladas

Variables
multinomiales,
ordinales o
binomiales que
tengan las mismas
categoras de
respuesta
Describen varios
aspectos en una sola
grfica; son una
buena manera de
resumir

Lneas

Usualmente se
emplean para
describir variables
numricas de
razn con una
secuencia
temporal
Implican una
secuencia
ininterrumpida en
el tiempo

Pasteles

Utilidad similar a
la de las barras
no apiladas
Nunca deberan
tener ms de 7
categoras

Histograma

Se emplea para
variables
numricas
medidas a nivel
de razn
Muestra
rpidamente la
distribucin de la
poblacin

Grfico de cajas

Es un grfico muy
potente; resume
de manera muy
rpida y eficiente
datos numricos

Grficas vs. nivel de


medicin

Potrebbero piacerti anche