Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DISTRIBUCIONES DE FRECUENCIAS
EJEMPLO FRECUENCIA RELATIVA.
Se encuestaron a 30 familias sobre el nmero de camas que posean al interior
de la vivienda, obteniendo los siguientes datos.
X
i
(N de camas)
f
i
f
r
(Proporcin)
f
r
(Porcentaje)
0 2 0,067 6,7%
1 4 0,133 13,3%
2 6 0,200 20,3%
3 7 0,233 23,3%
4 5 0,167 16,7%
5 3 0,100 10,0%
6 3 0,100 10,0%
Total 30 1,00 100,0%
DISTRIBUCIONES DE FRECUENCIAS
OTROS TIPOS DE DE FRECUENCIAS.
Frecuencia absoluta acumulada. Para variables cuantitativas o de tipo
cualitativa ordinal, es posible tambin calcular la frecuencia absoluta acumulada
que puede ser definida como el nmero de veces en que un valor menor
(mayor) o igual que alguno determinado ha aparecido en la muestra. Se denota
por F
i
Frecuencia relativa acumulada. De igual forma, es posible calcular la
frecuencia relativa acumulada que al igual que la frecuencia anterior es el nmero
de veces en que un valor menor (mayor) o igual que alguno ha aparecido en la
muestra, expresado en proporciones. Lo denotamos por Fr
i
.Tambin podemos
expresarlo en forma de porcentaje acumulado.
F
=f
1
+f
2
+f
3
++f
n
F
r
=f
r1
+ f
r2
+ f
r3
+ +f
rn
Utilizando los datos de las 30 familias que respondieron sobre el nmero de
camas que posean al interior de la vivienda, se obtiene lo siguiente.
DISTRIBUCIONES DE FRECUENCIAS
OTROS TIPOS DE DE FRECUENCIAS. EJEMPLOS.
X
i
(N de camas)
f
i
F
i
f
r
(Proporcin)
F
r
f
r
(Porcentaje)
Porcentaje
acumulado
0 2 2 0,067 0,067 6,7% 6,7%
1 4 6 0,133 0,200 13,3% 20%
2 6 12 0,200 0,400 20,3% 40%
3 7 19 0,233 0,633 23,3% 63,3%
4 5 24 0,167 0,800 16,7% 80%
5 3 27 0,100 0,900 10,0% 90%
6 3 30 0,100 1,000 10,0% 100%
Total 30 1,00 100,0%
ESTADSTICOS DESCRIPTIVOS
ANLISIS DE VARIABLES CUANTITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Kuby, Patricia. H. (2008). Estadstica elemental: lo esencial.
V
a
r
i
a
b
l
e
s
c
u
a
n
t
i
t
a
t
i
v
a
s
Medidas de
posicin
Medidas de
tendencia central
Medidas de
tendencia no
central
Medidas de
dispersin o
variacin
Medidas de
forma
ESTADSTICA DESCRIPTIVA
ANLISIS DE VARIABLES CUANTITATIVAS (INTERVALO/RAZN)
V
a
r
i
a
b
l
e
s
c
u
a
n
t
i
t
a
t
i
v
a
s
Medidas de
posicin
Medidas de
tendencia central
Media
Mediana
Moda
Medidas de
tendencia no
central
Cuartiles
Percentiles
Deciles
Medidas de
dispersin o
variacin
Rango
Varianza
Desviacin
Estndar
Coeficiente de
variacin
Medidas de
forma
Asimetra
Curtosis
MEDIDAS DE TENDENCIA CENTRAL
QU ENTENDEMOS POR TENDENCIA CENTRAL?
Una medida de tendencia central es aquel valor que se localiza en el centro o a la
mitad de un determinado conjunto de datos. En general, los estadsticos de
tendencia central proporcionan una estimacin de una puntacin que puede
ser tpica, comn o normal.
Para determinar el centro de una determinada distribucin de datos, existen
determinadas medidas de tendencia central. Entre estas podemos mencionar la
media, mediana, moda y la mitad de rango.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS LA MEDIA ARITMTICA.
Desventajas
Como vimos en el ejemplo de los ingresos mensuales, la media puede verse
distorsionada por valores extremos (mximos o mnimos) o sesgos en la
distribucin. Cuando sucede esto, es preferible la utilizacin de este estadstico
con otros como la mediana o la moda.
Ventajas
Entre las ventajas de la media se cuenta que en su clculo se involucran la
totalidad de los valores de la distribucin.
Por otra parte, a diferencia de otras medidas como la moda, es nica para una
distribucin determinada.
Se presenta como una buena forma de analizar la totalidad de los datos ya que
es el centro de gravedad de la distribucin.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MEDIANA.
Desventajas
No utiliza la totalidad de los valores de para su clculo, por lo que es
insensible a los valores de las puntuaciones de una distribucin
Al depender del nmero de casos de la distribucin, cualquier cambio en el
tamao de la muestra puede afectar este estadstico.
Ventajas
No es sensible a valores extremos, por lo que permite trabajar en
distribuciones de frecuencias con algn sesgo o con la existencia de valores
extremos.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MODA.
Desventajas
A diferencia de la media, en una determinada distribucin de frecuencias puede
existir ms de una moda.
Al igual que la mediana, no utiliza todos los valores disponibles sino que solo
algunos (el que ms se repite)
Ventajas
Al igual que la mediana, en su identificacin no influyen los valores extremos por
lo que no es sensible a los sesgos de la distribucin.
MEDIDAS DE DISPERSIN
LA DESVIACIN ESTNDAR
La desviacin estndar describe la forma en que las puntuaciones de una
variable de intervalo/razn se dispersan por la distribucin en relacin con la
puntuacin media (Ritchey et al, 2002: 140). En otras palabras, la desviacin
estndar de datos muestrales es un tipo de desviacin promedio de los valores con
respecto de la media.
MEDIDAS DE DISPERSIN
LA DESVIACIN ESTNDAR CMO INTERPRETARLA?
Para interpretar la desviacin estndar debemos tener algunas consideraciones
previas, entre estas Triola (2009) seala las siguientes:
1. La desviacin estndar se presenta como una medida de dispersin o variabilidad de
los valores de una variable determinada con respecto a la media (siempre se deben
interpretar conjuntamente).
2. Los valores posibles de la desviacin estndar siempre sern positivos, nunca
negativos. Si se obtiene un valor de desviacin estndar igual a cero significa que los
valores de los datos son el mismo nmero.
3. Valores grandes de desviacin estndar implica que existe mayor cantidad de
variacin.
4. Al ser una medida respecto de la media, al igual que esta es sensible a los datos
extremos, por lo que cambiar drsticamente si se incluyen valores extremos.
5. Las unidades de la desviacin estndar sern las mismas que los datos originales, es
decir, minutos, aos, kilogramos, puntos de evaluacin, etc.
Las medidas de posicin nos permiten describir la posicin de un dato
especfico en relacin al resto de los otros datos de la distribucin de
datos. En particular, este tipo de medidas nos permiten visualizar una
distribucin de puntuaciones como fraccionada o fracturada en grupos que
estn arriba y debajo de una puntuacin.
Los llamados cuantiles son puntuaciones que separan una fraccin de los casos de
una distribucin (Ritchey, 2002:59). Estos refieren a la divisin de la distribucin
en grupos (partes) de igual tamao, es decir, con igual porcentajes de casos.
Los ms conocidos son los cuartiles, deciles, deciles y percentiles
MEDIDAS DE POSICIN
QU ES UNA MEDIDA DE POSICIN? QU SON LOS CUANTILES?
MEDIDAS DE FORMA
QU SON LAS MEDIDAS DE FORMA?
Como vimos anteriormente, los valores de la media, mediana y moda nos
permiten conocer la forma de la distribucin, en especfico si la distribucin
posee algn sesgo o es simtrica. Recordemos que una distribucin simtrica es
una en la cual los valores de la media, mediana y moda coinciden, as como
tambin la cantidad de datos a la izquierda es igual a la derecha.
En especfico, las medidas de forma nos proporcionan informacin numrica
sobre la forma de la distribucin, su simetra y su apuntamiento o curtosis.
Principalmente, nos informan si es que la distribucin de datos analizada se
acerca o aleja de una distribucin normal (Campana de Gauss).
?
MEDIDAS DE FORMA
ASIMETRA O DEFORMACIN
En una distribucin simtrica (o normal) la cantidad de observaciones de la
variable se encuentran igualmente repartidas, es decir, tanto al lado izquierdo
como derecho de la distribucin se encuentra la misma proporcin de
observaciones. Sin embargo, existen distribuciones que no ocurre tal situacin,
por lo que reciben el nombre de distribuciones asimtricas.
La asimetra de una distribucin puede calcularse de dos formas, una es con la
medida de asimetra de Fisher o con la medida de asimetra de
Pearson. Cuyas frmulas son:
Medida de Fisher Medida de Pearson
3
3
*
) (
s n
x x
AS
i
s
Moda x
AS
MEDIDAS DE FORMA
ASIMETRA O DEFORMACIN CMO LA INTERPRETAMOS?
AS<0 AS=0 AS>0
MEDIDAS DE FORMA
CURTOSIS O COEFICIENTE DE APUNTAMIENTO
La curtosis mide hasta qu punto las observaciones de la variable se acumulan
en la parte central de la distribucin de los datos. Al igual que con la asimetra, la
distribucin de comparacin es la distribucin normal, en especfico nos
interesa saber si la distribucin es muy achatada o puntiaguda. Las
distribuciones pueden tomar la forma de una distribucin:
Mesocrtica (concentracin normal)
Leptocrtica (gran concentracin)
Platicrtica (baja concentracin)
La forma de clculo es mediante la siguiente frmula:
3
*
) (
4
4
s n
x x
K
i
MEDIDAS DE FORMA
CURTOSIS O COEFICIENTE DE APUNTAMIENTO. FORMAS.
K>0 K=0 K<0
Ms apuntada que lo
normal
Normal Menos apuntada que lo
normal
TABLAS DE CONTINGENCIA
ANLISIS BIVARIADO DE VARIABLES CUALITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial. Captulo N3
Agresti, A., & Franklin, C. A. (2007). Statistics: the art and science of learning from data. Captulo N3
Weiss, N. A. (2011). Elementary Statistics. Captulo N12.3
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
Las tablas de contingencia buscan describir la relacin entre dos variables
cualitativas. A estas se le conocen tambin como tablas de doble entrada, tablas
cruzadas o tablas de frecuencia conjunta. Al ser una tabla bidireccional, involucra
dos dimensiones o dos variables que se encuentran cruzadas.
B
1
B
2
B
J
A
1
n
11
n
12
n
1j
A
2
n
21
n
22
n
2j
A
I
n
i1
n
i2
n
ij
Distribucin conjunta o
distribucin condicional
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
La tabla muestra dos variables, en las filas (horizontales) se encuentra la variable
A y en las columnas (verticales) la variable B. En las celdas representadas por n
ij
se indican el nmero de observaciones que presentan las caractersticas tanto de
la variable A y la variable B.
En general, las celdas pueden contener la frecuencia absoluta o relativa del cruce
entre las filas y las columnas.
Lo que nos interesa conocer es: existe relacin entre las variable A y la variable
B? hay asociacin entre estas variables?
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 0 8 141 54
C2 2 37 180 84
C3 6 135 447 247
D 9 176 323 168
E 17 137 242 110
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
En su construccin, las tablas de contingencia generalmente ubican la variable
independiente en las filas y la variable dependiente en las columnas. Sin
embargo, esto puede quedar a criterio del investigador privilegiando la lectura e
interpretacin adecuada de la tabla.
Otro punto a considerar, es la existencia de los totales en las tablas de
contingencia. Que indican el total fila y de columna.
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz
No Muy
Feliz
Bastante
Feliz Muy Feliz
NSE ABC1 0 8 141 54 203
C2 2 37 180 84 303
C3 6 135 447 247 835
D 9 176 323 168 676
E 17 137 242 110 506
Total 34 493 1333 663 2523
Distribucin marginal
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA? LOS PORCENTAJES!
Sin embargo, para una mejor lectura e interpretacin de los datos debemos
pensar proporcionalmente por lo que las tablas de contingencia se
construyen con la frecuencia relativa, es decir, con porcentajes en cada una de las
celdas. Estos pueden ser solicitados:
Por fila
Por columna
Por el total
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% del total
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 ,3% 5,6% 2,1% 8,0%
C2 ,1% 1,5% 7,1% 3,3% 12,0%
C3 ,2% 5,4% 17,7% 9,8% 33,1%
D ,4% 7,0% 12,8% 6,7% 26,8%
E ,7% 5,4% 9,6% 4,4% 20,1%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Por total
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA? LOS PORCENTAJES!
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% dentro de NSE
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 3,9% 69,5% 26,6% 100,0%
C2 ,7% 12,2% 59,4% 27,7% 100,0%
C3 ,7% 16,2% 53,5% 29,6% 100,0%
D 1,3% 26,0% 47,8% 24,9% 100,0%
E 3,4% 27,1% 47,8% 21,7% 100,0%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% dentro de EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Total NADA FELIZ
NO MUY
FELIZ
BASTANTE
FELIZ MUY FELIZ
NSE ABC1 1,6% 10,6% 8,1% 8,0%
C2 5,9% 7,5% 13,5% 12,7% 12,0%
C3 17,6% 27,4% 33,5% 37,3% 33,1%
D 26,5% 35,7% 24,2% 25,3% 26,8%
E 50,0% 27,8% 18,2% 16,6% 20,1%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Por fila
Por columna
DIAGRAMA DE DISPERSINY CORRELACIN
ANLISIS BIVARIADO DE VARIABLES CUANTITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial. Captulo N3
Ritchey, F. J., & Coso Martnez, E. R. (2002). Estadsticas para las ciencias sociales: El potencial de la imaginacin
estadstica. Captulo N14 y 15
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Para el caso de las variables cuantitativas, al igual que con las variables
cualitativas debemos definir una variable dependiente y otra variable
independiente. As, las variables cuantitativas son presentadas en pares
ordenados (x,y) donde x es la variable dependiente (o de entrada) e y la
variable dependiente (o de salida).
Sin embargo cmo presentamos estos pares ordenados de mejor forma?
Mediante un diagrama de dispersin que es una grfica de todos los pares
ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de
entrada, x, se localiza en el eje horizontal, y la variable de salida, y, se localiza en el eje
vertical (Johnson et al, 2008)
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Fuente: Elaboracin propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
I
n
g
r
e
s
o
d
e
l
t
r
a
b
a
j
o
(
E
j
e
Y
)
Edad (Eje Y)
Ingreso del trabajo segn Edad
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Fuente: Elaboracin propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
I
n
g
r
e
s
o
d
e
l
t
r
a
b
a
j
o
(
E
j
e
Y
)
Edad (Eje Y)
Ingreso del trabajo segn Edad
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Lo que buscamos vislumbrar mediante el diagrama de dispersin es la
existencia de alguna relacin entre estas variables, en especfico si es que existe
correlacin entre la variable dependiente y la variable independiente, la cual
puede ser entendida como el cambio sistemtico en las puntuaciones de dos
variables de intervalo/razn (Ritchey, 2002:511).
En especfico, buscamos correlacin lineal, es decir, una relacin lineal entre las
dos variables. Esta puede ser medida mediante el coeficiente de correlacin
lineal, pero tambin puede presentarse grficamente, analizando en detalle los
diagramas de dispersin.
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN. TIPOS DE CORELACIN.
Correlacin positiva
perfecta
Correlacin negativa
perfecta
Correlacin positiva
baja
Correlacin positiva
media
No hay correlacin No hay correlacin
ANLISIS BIVARIADO
CORRELACIN LINEAL QU TIPOS DE CORRELACIN LINEAL PODEMOS ENCONTRAR?
Segn Ritchey et al (2002), los tipos de correlacin lineal presentados
anteriormente pueden ser definidos como:
Correlacin positiva. Un incremento en x se relaciona con un incremento en y. En
especfico, cuando x se incrementa, y tiene la tendencia a incrementarse.
Correlacin negativa. Un incremento en x se relaciona con una reduccin en y.
Conforme se incrementa x, y tiene una tendencia de disminuir.
Ausencia de correlacin. Un incremento en x no se relaciona con las puntuaciones
de y. O sea, cuando aumenta x, las puntuaciones de y varan de forma aleatoria.
ANLISIS BIVARIADO
COEFICIENTE DE CORRELACIN R DE PEARSON
Si bien en el diagrama de dispersin podemos ver la existencia de correlacin
lineal indicada principalmente por lo estrechamente que se acumulen los datos
en torno a una recta lineal. Mediante el coeficiente de correlacin
bivariado r de Pearson (simbolizado como r si es muestral y si es
poblacional), el que mide la estrechez del ajuste de las coordenadas x,y con
respecto a la recta de regresin. El grado al que las desviaciones de las puntuaciones
de las medias de X eY tienen a fluctuar conjuntamente (Ritchey et al, 2002: 519).
ESTADSTICA DESCRIPTIVA
MS ALL DE LAS TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRFICAS
Recuerda que siempre debes:
1. Leer los datos que resultan de tus anlisis estadsticos (ya sea los
porcentajes, estadsticos descriptivos u otros). Lelos con atencin y sin
apresurarte.
2. Analzalos, es decir, determina si existen tendencias, porcentajes
mayoritarios y si existe un patrn en los datos. Fjate en cmo varan.
3. Interprtalos, intenta darles sentidos bajo la luz de la teora (sociolgica,
poltica, econmica, etc), tambin puedes ligarlo al contexto actual de la
sociedad. Sin embargo, no debes sobreinterpretar los datos, o sea, no debes
sacar conclusiones apresuradas respecto de los datos. Utiliza la imaginacin
sociolgica
SOCIOLOGA E INVESTIGACIN SOCIAL:
EN RESUMEN