Sei sulla pagina 1di 76

RECORDANDO LA ESTADSTICA DESCRIPTIVA

Mtodos Cuantitativos Avanzados


Nincen Figueroa
Carra de Ciencia Poltica
Universidad Diego Portales
nincen.figueroa@mail.udp.cl
Segundo semestre, 2014
ESTADSTICA Y CONSTRUCCIN DE DATOS
ALGUNOS CONCEPTOS BSICOS
Bibliografa para esta sesin:
Ritchey, F. J., & Coso Martnez, E. R. (2002). Estadsticas para las ciencias sociales: El potencial de la imaginacin estadstica.
Captulo N2
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial.
RECOLECCINY ANLISIS DE LOS DATOS
Definir los
objetivos de la
investigacin
DEFINIR LA
VARIABLE Y LA
POBLACIN DE
INTERS
DEFINIR EL
ESQUEMA PARA
RECOLECTARY
MEDIR LOS DATOS
ANLISIS
DESCRIPTIVO, O
INFERENCIAL DE
LOS DATOS
Conclusiones
del anlisis
estadstico
Muestreo, tipo de encuesta,
operacionalizacin de las
variables, etc.
Uso de software (SPSS,
Stata, R, SAS)
Lectura e interpretacin
de los datos.
Publicacin de los resultados
ALGUNOS CONCEPTOS BSICOS
RECORDATORIO:
QU ES LA ESTADSTICA?
Para Ritchey et al (2002) el campo de la estadstica es un conjunto de
procedimientos para reunir, medir, clasificar, codificar, computar, analizar y resumir
informacin numrica adquirida sistemticamente (1)
La estadstica implica aprender una nueva manera de ver las cosas, adquirir una
visin de la realidad basada en el anlisis cuidado de hechos, en lugar de reacciones
emocionales ante experiencias aisladas (2)
RECORDATORIO:
QU ES LA ESTADSTICA?
Descriptiva:
Nos informa la cantidad de observaciones registradas y la frecuencia en las que
ocurre un fenmeno social determinado que presenta variabilidad. Nos permite
sistematizar, recoger, ordenar y presentar datos para as poder descubrir o
describir las posibles regularidades que se presentan. Datos muestrales.
Inferencial:
Nos permite extraer conclusiones sobre las relaciones matemticas entre las
caractersticas de un grupo de personas u objetos. Posibilita mostrar relaciones
de causa-efecto, as como probar hiptesis y teoras cientficas. Inferir, significa
sacar conclusiones sobre algo (Ritchey et al, 2002). Conclusiones sobre la
poblacin
DOS CAMPOS DE ACCIN ESTADSTICA
POBLACINY MUESTRA:
DEFINICIN
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Poblacin o universo (N)
Muestra (n)
Grupo grande de personas de inters
particular que deseamos estudiar y
entender (Ritchey et al, 2002)
Subgrupo pequeo de la poblacin, la
muestra se observa y se mide y despus se
utiliza para obtener conclusiones sobre la
poblacin (Ritchey et al, 2002)
POBLACINY MUESTRA:
DEFINICIN
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Poblacin o universo (N)
Muestra (n)
Es la coleccin, o conjunto, de individuos,
objetos o eventos cuyas propiedades sern
analizadas (Johnson, 2008)
Es el subconjunto de una poblacin
(Johnson, 2008)
POBLACINY MUESTRA:
EJEMPLOS ENCUESTA UDP 2013
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Poblacin o universo (N)
Muestra (n)
Poblacin de 18 aos y ms, residentes en 86
comunas de 20.000 habitantes de todas las
regiones, excluyendo Aysn del General Ibez
y Magallanes. Representa al 84,6 % de la
poblacin urbana y al 73,6% de la poblacin del
pas.
Se entrevist cara a cara a 1200
personas
POBLACINY MUESTRA:
EJEMPLOS ENCUESTA NACIONAL DE ESTRATIFICACIN 2009
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Poblacin o universo (N)
Muestra (n)
El universo del estudio corresponde a la
poblacin mayor de 18 aos, residente en el
territorio chileno, la que alcanza a 11.965.990
de personas.
El tamao muestral final a nivel de
hogares fue de 3.365 casos
POBLACINY MUESTRA:
EJEMPLOS SEXTA ENCUESTA INJUV 2006
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Poblacin o universo (N)
Muestra (n)
El universo de este estudio est compuesto por
jvenes, mujeres y hombres, de entre 15 a 29 aos,
pertenecientes a todos los niveles
socioeconmicos, residentes en todas las regiones
del pas, en zonas urbanas y rurales. Segn las
proyecciones de poblacin del INE para junio del
ao 2009, este universo era de
4.208.399 personas.
El tamao de la muestra fue de 7.570
casos
POBLACINY MUESTRA:
TIPOS DE MUESTRA
Como se seal, la muestra es un subconjunto de la poblacin que sirve para
representarla. En ese sentido, es una parte de la poblacin que nos suministra
informacin sobre esta, lo anterior porque en ocasiones el tamao de la
poblacin es demasiado grande para abarcarlo por lo que se recurre a
muestrear.
MUESTRA REPRESENTATIVA:
Muestra en la que todos los segmentos de la poblacin estn incluidos en la muestra en sus
proporciones correctas respecto a la poblacin (Ritchey et al, 2002)
MUESTRA NO REPRESENTATIVA:
Muestra en la que algunos segmentos de la poblacin estn representados en exceso o con
defecto en la muestra (Ritchey et al, 2002)
MUESTRAY MARCO MUESTRAL:
DEFINICIONES
MARCO MUESTRAL
Refiere a la lista de lo elementos que conforman a la poblacin de la que posteriormente se
obtiene la muestra.
MUESTREO PROBABILSTICO
Son muestras en que los elementos a seleccionar se obtienen con base a la probabilidad de
ser elegido, es decir, cada elemento tiene una determinada probabilidad de ser elegido.
MUESTREOALEATORIO
Es uno de los mtodos ms comunes de las muestras probabilstica. Todos los elementos de
la poblacin tienen la misma probabilidad de ser elegidos.
MUESTREO INTENCIONAL
Las muestras son elegidas con base en el hecho de que son tpicas
MUESTRAY MARCO MUESTRAL:
TIPOS DE MUESTREO PROBABILSTICO
Muestra aleatoria
simple
Es uno de los mtodos ms comunes
de las muestras probabilstica. Todos
los elementos de la poblacin o del
marco muestral tienen la misma
probabilidad de ser elegidos para su
inclusin en la muestra. El
procedimiento consiste en enumerar
los elementos y seleccionarlos
aleatoriamente mediante una tabla de
nmeros al azar o con nmeros
aleatorios generados por computador.
Muestra sistemtica
Las muestras sistemticas determinan
las unidades seleccionadas de la
muestra mediante la aplicacin de un
intervalo de seleccin en las unidades
que configurar el marco muestra. El
intervalo (K) se determina segn el
nmero de casos de la poblacin (N) y
de la poblacin (n) mediante la frmula
K=N/n.
MUESTRAY MARCO MUESTRAL:
TIPOS DE MUESTREO PROBABILSTICO
Muestra estratificada
proporcional
Este tipo de muestreo se aplica cuando
las unidades de la poblacin se
distribuyen segn ciertos factores
(estratos) que pueden influir en
nuestro estudio y que queremos
asegurar un nmero mnimo de
individuos de cada tipo.
En cada estrato se elige una muestra al
al azar siguiendo el mismo
procedimiento que se utiliza en el
m.a.s.
Muestra por
conglomerados
El muestreo por conglomerados es
aquella muestra en la cual las unidades
de muestreo se presentan en grupos
de forma natural.
Este tipo de muestra se selecciona con
el procedimiento usado en la muestra
aleatoria simple o mediante la
aplicacin de un intervalo, como en la
muestra sistemtica
MUESTRAY MARCO MUESTRAL:
TIPOS DE MUESTREO PROBABILSTICO. EJEMPLO ENCUESTA UDP 2013
MUESTRAY MARCO MUESTRAL:
TAMAO MUESTRAL
Existen frmulas especficas para calcular el tamao de una muestra cuando
disponemos de alguna informacin como la a) medida estadstica principal sobre
la cual se focalizar el anlisis de la encuesta (proporciones, medios aritmticos,
etc.); b) nivel del anlisis (global, en subgrupos); c) magnitud del error que se
pretende tengan los valores calculados en la muestra; y d ) probabilidad que esos
valores o estimaciones tengan el error muestral deseado.
z= valor de sigma para la probabilidad solicitada
p= estimacin del valor de la proporcin en el universo
q=1-p
e
2
=error muestral
POBLACINY MUESTRA:
EL ERROR ESTADSTICO
ERROR
ESTADSTICO:
Es el grado de
imprecisin de los
procedimientos que
utilizamos para
recolectar y
procesar la
informacin.
ERROR DE
MUESTREO:
Es la imprecisin o
variacin que
resulta por no
observar a todos
los sujetos de la
poblacin y hacerlo
a travs de una
muestra.
ERROR DE
MEDICIN:
Inexactitud debido
a inconsistencias o
problemas en los
instrumentos de
medicin.
POBLACINY MUESTRA:
PARMETROY ESTADSTICO
PARMETRO
Valor o clculo numrico que resume mediciones o datos de todos los
sujetos de una poblacin.
Ejemplo: Nmero de hijos nacidos vivos del CENSO 2002
ESTADSTICO O ESTADGRAFO
Valor o clculo numrico que resume mediciones o datos de todos los
sujetos de una muestra.
Ejemplo: Nmero de hijos nacidos vivos de la CASEN 2009
VARIABLES YVARIABILIDAD
Al realizar investigacin, siempre se espera que haya variacin del fenmeno
estudiado. Por ejemplo, si se mide la edad est ir cambiando a lo largo de la
poblacin, nos encontraremos con personas que tienen 5, 18 o aos. El anlisis
estadstico tiene por objetivo medir la variabilidad de los datos.
Variable (o variable de respuesta)
Es una caracterstica o propiedad de inters con cada elemento individual de una
poblacin o muestra.
Es una caracterstica observable que vara entre los diferentes individuos o elementos
de una poblacin.
Dato
Valor de la Variable asociado a un elemento de una poblacin o muestra.
CLASIFICACIN DE VARIABLES SEGN NIVEL DE MEDICIN
V
a
r
i
a
b
l
e
Cualitativas
Nominal
Ordinal
Cuantitativa
Intervalos
De razn
Nivel de medicin
Identifica las propiedades de medicin de la variable y determina el tipo de operaciones
matemticas (suma, multiplicacin, etc) que puede usarse apropiadamente con dicho nivel, as
como las formulas estadsticas que utiliza para probar las hiptesis tericas (Ritchey et al,
2002: 43)
TIPOS DE VARIABLES:
VARIABLES CUALITATIVAS
Las variables cualitativas, tambin denominadas de atributos o categricas son
variables que clasifican o describen elementos de una poblacin. Sus valores
no se pueden asociar a un nmero y no se pueden realizar operaciones
algebraicas con ellas, ya que carecen de sentido.
Nominales, solo indican una diferencia en categora, clase, calidad o tipo. No indica un
orden entre las categoras.
Ordinales, designan categoras, pero tienen la propiedad adicional de permitir clasificar
las categoras desde la mayor hasta la menor, de la mejor a la peor, de la primera a la
ltima. Sus valores se pueden ordenar.
TIPOS DE VARIABLES:
VARIABLES CUANTITATIVAS
Las variables cualitativas, tambin denominadas numricas son variables que
cuantifican un elemento de una poblacin. Se pueden realizar operaciones
algebraicas con ellas, ya que tienen sentido en sus resultado.
Intervalos, tienen las caractersticas de las variables antes mencionadas y adems una
unidad numrica de medicin definida. La diferencia entre dos valores de datos
cualesquiera tiene un significado. Los datos en este nivel no tienen punto de partida
desde cero (donde nada de la cantidad este presente)
Razn, poseen las caractersticas de las variables de intervalo y un punto cero
verdadero que significa ausencia de atributo o ninguno.
Nota: SPSS las denominar como variables escala.
TIPOS DE VARIABLES:
VARIABLES CUANTITATIVAS
Otra diferenciacin posible de hacer entre las variables cuantitativas o
numricas es la que se da entre variables discretas y variables continuas, es
decir, segn su escala de medicin.
Discretas, asumen un nmero finito de valores, en especfico, valores enteros.
No asume la totalidad de valores de un intervalo de la recta, sino que puntos
aislados.
Continuas, asumen una cantidad incontable de valores. Si entre dos valores,
son posibles infinitos valores intermedios, los valores observables de la
variable son nmeros reales (con decimales). Puede asumir cualquier valor a
lo largo de un intervalo de la recta.
TIPOS DE VARIABLES:
EJEMPLOS
Nivel de
medicin
Ejemplos Cualidades Operaciones matemticas
permitidas
Nominal Gnero, raza, preferencia
religiosa, estado civil
Clasificacin en dos
categoras, denominacin de
categoras
Conteo del nmero (es decir, frecuencia)
de cada categora de la variable,
comparacin de tamaos de categoras
Ordinal Rango de clase social,
preguntas de actitud y
opinin
Clasificacin de categoras,
ordenamiento de rangos de
categoras de bajo a alto
Todo lo anterior ms juicios de mayor
que, menor que, y clculos de diferencias
y promedios de rangos
Intervalo Temperatura, ndices
resumidos, escalas de
actitud y opinin
Todo lo anterior ms
distancias entre
puntuaciones tiene una
unidad fija de medida
Todo lo anterior ms operaciones
matemticas como suma, resta,
multiplicacin, divisin y races cuadradas
Razn Peso, ingresos, edad,
escolaridad, tamao de
poblacin
Todo lo anterior y un punto
cero real
Todo lo anterior ms el clculo de
razones significativas.
Cuadro Caractersticas de los cuatros niveles de medicin. Fuente: Ritchey et al, 2002.
CLASIFICACIN DE VARIABLES SEGN NIVEL DE MEDICIN
V
a
r
i
a
b
l
e
Categoras nombradas
No clasificada Nominal
Clasificada Ordinal
Puntuaciones
numricas
Puntaciones
clasificadas
Ordinal
Intervalo de medida
(unidad) determinado
Sin punto cero real Intervalo
Punto cero real Razn
TIPOS DE VARIABLES:
OTRAS FORMAS DE CLASIFICACIN
Segn Nivel de Abstraccin
Generales o Tericas, refieren a conceptos
Intermedias, refieren a dimensiones - subdimensiones
Empricas, refieres a indicadores
Segn la informacin recabada
Abiertas
Cerradas
Funcin en la investigacin
Independientes, variable que explica
Dependientes, variable que debe ser explicada por la o las variables
independientes
Perturbadoras, son variables de las cuales no tenemos control sobre ellas y
pueden ser confundidas como explicativas.
De control
Aleatorias
VARIABLES:
ALGUNAS CONSIDERACIONES
Los posibles valores de una variable suelen denominarse categoras
Ejemplo: Religin posee los valores 1) Catlica 2) Evanglico 3) Ninguna 4) Otra
Estas categoras pueden ser agrupadas en clases o grupos (intervalos)
Esos valores deben tener dos caractersticas esenciales:
Ser exhaustivos, es decir, los valores deben considerar todos los valores
que puede tomar la variable sin olvidar ninguno.
Ser excluyentes, los valores no pueden presentarse simultneamente en dos
categoras.
Siempre debemos tratar de recolectar a un nivel de medicin que nos
permita mayor informacin.
Posibles valores que
puede tomar el
indicador.
OPERACIONALIZACIN DE LAS VARIABLES:
DE LOS CONCEPTOS A INDICADORES
Proceso mediante el cual los conceptos tericos pasan a ser conceptos
empricos posibles de ser medidos y aprehendidos por instrumentos de
recoleccin de informacin. En especfico, es ir de un nivel de abstraccin
general a uno particular. Significa pasar de variables generales a indicadores.
VARIABLE O
CONCEPTO
DIMENSIONES INDICADORES ATRIBUTOS
reas, niveles o
caractersticas
generales de las
variables.
Referentes empricos
de la variable a ser
medida.
ANTES DE EMPEZAR, RECORDEMOS
CLASIFICACIN DE VARIABLES SEGN NIVEL DE MEDICIN
V
a
r
i
a
b
l
e
Cualitativas
Nominal
Ordinal
Cuantitativa
Intervalos
De razn
Nivel de medicin
Identifica las propiedades de medicin de la variable y determina el tipo de operaciones
matemticas (suma, multiplicacin, etc) que puede usarse apropiadamente con dicho nivel, as
como las formulas estadsticas que utiliza para probar las hiptesis tericas (Ritchey et al,
2002: 43)
REPRESENTACIONES GRFICAS
ANLISIS UNIVARIADO DE VARIABLES CUALITATIVAS
Bibliografa para esta sesin:
Ritchey, F. J., & Coso Martnez, E. R. (2002). Estadsticas para las ciencias sociales: El potencial de la imaginacin
estadstica.
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial.
REPRESENTACIONES GRFICAS
EJEMPLOS CASEN 2011
Un mal ejemplo de un grfico es
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
S. Pblico
FONASA
Grupo A
S. Pblico
FONASA
Grupo B
S. Pblico
FONASA
Grupo C
S. Pblico
FONASA
Grupo D
S. Pblico
FONASA no
sabe grupo
F.F.A.A. y del
Orden
ISAPRE Ninguno
(particular)
Otro sistema No sabe
REPRESENTACIONES GRFICAS
EJEMPLOS CASEN 2011
Un buen ejemplo de un grfico es
81.0
12.9
2.6 2.0
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
90.0
Sistema Pblico (FONASA) ISAPRE Ninguno (particular) F.F.A.A. y del Orden
P
o
r
c
e
n
t
a
j
e
SISTEMA PREVISIONAL AL QUE SE PERTENECE, 2011
a
(EN PORCENTAJES)
Fuente: Elaboracin propia en base a datos de Encuesta CASEN 2011.
a
La pregunta original es: s17. A qu sistema previsional de salud pertenece usted? La categora Otro Sistema y los No Sabe
GRFICOS PARA DATOS NOMINALES/ORDINALES:
GRFICOS DE TORTA O PASTEL
Un grfico de pastel es un crculo que se divide su punto central, donde cada
rebanada presenta la frecuencia proporcional de determinada categora de una
variable nominal/ordinal (Ritchey et al, 2002:80).
Nos permite develar de mejor forma el sentido relativo respecto del todo de las
categoras, es decir, nos permite de mejor manera ver la igualdad o desigualdad
entre las categoras de una variable.
Para interpretarlo, es bueno fijarse en las porciones ms grandes de la torta , o
sea, sealar las categoras con mayor frecuencia y comparar los tamaos entre
ellas.
GRFICOS PARA DATOS NOMINALES/ORDINALES:
GRFICOS DE TORTA O PASTEL. EJEMPLOS.
2.8
11.7
85.6
SITUACIN DE POBREZA, 2011
(EN PORCENTAJES)
Pobres extremos Pobres no extremos No pobres
Fuente: Elaboracin propia en base a datos de Encuesta CASEN 2011.
82.8
14.2
TENENCIA CONTRATO ENTRABAJO PRINCIPAL, 2011
a
(EN PORCENTAJES)
S, firm No tiene
Fuente: Elaboracin propia en base a datos de Encuesta CASEN 2011.
a
La pregunta original es: o17. En su trabajo principal, tiene contrato de trabajo
escrito?. Las categoras S, pero no ha firmado y No se acuerda o no sabe si no
firm contrato completan el 100%.
GRFICOS PARA DATOS NOMINALES/ORDINALES:
GRFICOS DE BARRAS.
Un grfico de barras se compone de una serie de barras verticales u horizontales
donde la longitud de la barra representa la frecuencia porcentual de una categora de
una variable nominal/ordinal (Ritchey et al, 2002:83).
Este tipo de grfico nos permite comparar las distintas categoras de mejor
manera, o sea, nos permite ver la competencia entre las categoras del grfico.
Para interpretarlo debemos observar la altura de las categoras de la variable, tal
como en el grfico de torta, desde el con mayor frecuencia (o porcentaje) hasta
las menores.
GRFICOS PARA DATOS NOMINALES/ORDINALES:
GRFICOS DE BARRAS. EJEMPLOS.
46.9
41.3
11.9
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
S, con subsidio
habitacional
No,slo con
recursos propios
No, la recibi de
herencia o traspaso
P
o
r
c
e
n
t
a
j
e
s
MODALIDAD COMPRAVIVIENDA, 2011
a
(EN PORCENTAJES)
Fuente: Elaboracin propia en base a datos de Encuesta CASEN 2011.
a
La pregunta original es: v10 Compr la vivienda con ayuda de algn
programa habitacional o subsidio del estado?
61.3
17.7
21.0
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
S, prepago S, contrato No
TENENCIA DETELFONO MVIL, 2011
a
(EN PORCENTAJES)
Fuente: Elaboracin propia en base a datos de Encuesta CASEN 2011.
a
La pregunta original es: r19 Tiene Ud. Telfono mvil en
funcionamiento y en uso?
GRFICOS PARA DATOS NOMINALES/ORDINALES:
UNA ADVERTENCIA CUIDADO CON LA ESCALAY LA PROPORCIN!
Es importante tener en consideracin la escala que se utiliza en los grficos y no
realizar ninguna distorsin. Si se hace implica problemas graves de interpretacin
y presentacin de los datos.
48.0
48.5
49.0
49.5
50.0
50.5
51.0
51.5
52.0
Hombre Mujer
P
o
r
c
e
n
t
a
j
e
s
SEXO DEL ENTREVISTADO, 2013
Fuente: Elaboracin propia en base a datos de Encuesta UDP2013.
Existe en realidad una diferencia tan pronunciada entre hombres y mujeres en la
muestra de la encuesta UDP?
DISTRIBUCIN DE FRECUENCIAS
ANLISIS DE VARIABLES CUALITATIVAS O CUANTITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Kuby, Patricia. H. (2008). Estadstica elemental: lo esencial.
Se encuestaron a 30 familias sobre el nmero de camas que posean al interior
de la vivienda, obteniendo los siguientes datos.
DISTRIBUCIONES DE FRECUENCIAS
EJEMPLOS. DISTRIBUCIN DE FRECUENCIAS NOAGRUPADA.
X
i
(N de camas)
f
i
0 2
1 4
2 6
3 7
4 5
5 3
6 3
Total 30
X representa a una variable, en el ejemplo
nmero de camas en la vivienda.
f es el n de veces que aparece el valor en la
muestra (frecuencia)
Frecuencia o frecuencia absoluta. La frecuencia que se present
anteriormente es la denominada frecuencia absoluta que representa el nmero de
veces que presenta un valor o una categora de una variable. Este tipo de
frecuencia se representa con f
i.
Frecuencia relativa. Representada por f
r
, la frecuencia relativa es aquella que
se expresa en trminos de porcentajes o proporciones respecto del total de
casos. Es decir, la frecuencia relativa expresa que proporcin del total representa
f
i.
Por ejemplo, si tenemos un total de n datos, la frecuencia absoluta (f
i
) de una
categora de una variable representar una proporcin f
r.
Para la realizacin del
clculo debemos considerar:
DISTRIBUCIONES DE FRECUENCIAS
TIPOS DE DISTRIBUCIN DE FRECUENCIAS.

DISTRIBUCIONES DE FRECUENCIAS
EJEMPLO FRECUENCIA RELATIVA.
Se encuestaron a 30 familias sobre el nmero de camas que posean al interior
de la vivienda, obteniendo los siguientes datos.
X
i
(N de camas)
f
i
f
r
(Proporcin)
f
r
(Porcentaje)
0 2 0,067 6,7%
1 4 0,133 13,3%
2 6 0,200 20,3%
3 7 0,233 23,3%
4 5 0,167 16,7%
5 3 0,100 10,0%
6 3 0,100 10,0%
Total 30 1,00 100,0%
DISTRIBUCIONES DE FRECUENCIAS
OTROS TIPOS DE DE FRECUENCIAS.
Frecuencia absoluta acumulada. Para variables cuantitativas o de tipo
cualitativa ordinal, es posible tambin calcular la frecuencia absoluta acumulada
que puede ser definida como el nmero de veces en que un valor menor
(mayor) o igual que alguno determinado ha aparecido en la muestra. Se denota
por F
i
Frecuencia relativa acumulada. De igual forma, es posible calcular la
frecuencia relativa acumulada que al igual que la frecuencia anterior es el nmero
de veces en que un valor menor (mayor) o igual que alguno ha aparecido en la
muestra, expresado en proporciones. Lo denotamos por Fr
i
.Tambin podemos
expresarlo en forma de porcentaje acumulado.
F

=f
1
+f
2
+f
3
++f
n
F
r
=f
r1
+ f
r2
+ f
r3
+ +f
rn
Utilizando los datos de las 30 familias que respondieron sobre el nmero de
camas que posean al interior de la vivienda, se obtiene lo siguiente.
DISTRIBUCIONES DE FRECUENCIAS
OTROS TIPOS DE DE FRECUENCIAS. EJEMPLOS.
X
i
(N de camas)
f
i
F
i
f
r
(Proporcin)
F
r
f
r
(Porcentaje)
Porcentaje
acumulado
0 2 2 0,067 0,067 6,7% 6,7%
1 4 6 0,133 0,200 13,3% 20%
2 6 12 0,200 0,400 20,3% 40%
3 7 19 0,233 0,633 23,3% 63,3%
4 5 24 0,167 0,800 16,7% 80%
5 3 27 0,100 0,900 10,0% 90%
6 3 30 0,100 1,000 10,0% 100%
Total 30 1,00 100,0%
ESTADSTICOS DESCRIPTIVOS
ANLISIS DE VARIABLES CUANTITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Kuby, Patricia. H. (2008). Estadstica elemental: lo esencial.
V
a
r
i
a
b
l
e
s

c
u
a
n
t
i
t
a
t
i
v
a
s
Medidas de
posicin
Medidas de
tendencia central
Medidas de
tendencia no
central
Medidas de
dispersin o
variacin
Medidas de
forma
ESTADSTICA DESCRIPTIVA
ANLISIS DE VARIABLES CUANTITATIVAS (INTERVALO/RAZN)
V
a
r
i
a
b
l
e
s

c
u
a
n
t
i
t
a
t
i
v
a
s
Medidas de
posicin
Medidas de
tendencia central
Media
Mediana
Moda
Medidas de
tendencia no
central
Cuartiles
Percentiles
Deciles
Medidas de
dispersin o
variacin
Rango
Varianza
Desviacin
Estndar
Coeficiente de
variacin
Medidas de
forma
Asimetra
Curtosis
MEDIDAS DE TENDENCIA CENTRAL
QU ENTENDEMOS POR TENDENCIA CENTRAL?
Una medida de tendencia central es aquel valor que se localiza en el centro o a la
mitad de un determinado conjunto de datos. En general, los estadsticos de
tendencia central proporcionan una estimacin de una puntacin que puede
ser tpica, comn o normal.
Para determinar el centro de una determinada distribucin de datos, existen
determinadas medidas de tendencia central. Entre estas podemos mencionar la
media, mediana, moda y la mitad de rango.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS LA MEDIA ARITMTICA.
Desventajas
Como vimos en el ejemplo de los ingresos mensuales, la media puede verse
distorsionada por valores extremos (mximos o mnimos) o sesgos en la
distribucin. Cuando sucede esto, es preferible la utilizacin de este estadstico
con otros como la mediana o la moda.
Ventajas
Entre las ventajas de la media se cuenta que en su clculo se involucran la
totalidad de los valores de la distribucin.
Por otra parte, a diferencia de otras medidas como la moda, es nica para una
distribucin determinada.
Se presenta como una buena forma de analizar la totalidad de los datos ya que
es el centro de gravedad de la distribucin.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MEDIANA.
Desventajas
No utiliza la totalidad de los valores de para su clculo, por lo que es
insensible a los valores de las puntuaciones de una distribucin
Al depender del nmero de casos de la distribucin, cualquier cambio en el
tamao de la muestra puede afectar este estadstico.
Ventajas
No es sensible a valores extremos, por lo que permite trabajar en
distribuciones de frecuencias con algn sesgo o con la existencia de valores
extremos.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MODA.
Desventajas
A diferencia de la media, en una determinada distribucin de frecuencias puede
existir ms de una moda.
Al igual que la mediana, no utiliza todos los valores disponibles sino que solo
algunos (el que ms se repite)
Ventajas
Al igual que la mediana, en su identificacin no influyen los valores extremos por
lo que no es sensible a los sesgos de la distribucin.
MEDIDAS DE DISPERSIN
LA DESVIACIN ESTNDAR
La desviacin estndar describe la forma en que las puntuaciones de una
variable de intervalo/razn se dispersan por la distribucin en relacin con la
puntuacin media (Ritchey et al, 2002: 140). En otras palabras, la desviacin
estndar de datos muestrales es un tipo de desviacin promedio de los valores con
respecto de la media.
MEDIDAS DE DISPERSIN
LA DESVIACIN ESTNDAR CMO INTERPRETARLA?
Para interpretar la desviacin estndar debemos tener algunas consideraciones
previas, entre estas Triola (2009) seala las siguientes:
1. La desviacin estndar se presenta como una medida de dispersin o variabilidad de
los valores de una variable determinada con respecto a la media (siempre se deben
interpretar conjuntamente).
2. Los valores posibles de la desviacin estndar siempre sern positivos, nunca
negativos. Si se obtiene un valor de desviacin estndar igual a cero significa que los
valores de los datos son el mismo nmero.
3. Valores grandes de desviacin estndar implica que existe mayor cantidad de
variacin.
4. Al ser una medida respecto de la media, al igual que esta es sensible a los datos
extremos, por lo que cambiar drsticamente si se incluyen valores extremos.
5. Las unidades de la desviacin estndar sern las mismas que los datos originales, es
decir, minutos, aos, kilogramos, puntos de evaluacin, etc.
Las medidas de posicin nos permiten describir la posicin de un dato
especfico en relacin al resto de los otros datos de la distribucin de
datos. En particular, este tipo de medidas nos permiten visualizar una
distribucin de puntuaciones como fraccionada o fracturada en grupos que
estn arriba y debajo de una puntuacin.
Los llamados cuantiles son puntuaciones que separan una fraccin de los casos de
una distribucin (Ritchey, 2002:59). Estos refieren a la divisin de la distribucin
en grupos (partes) de igual tamao, es decir, con igual porcentajes de casos.
Los ms conocidos son los cuartiles, deciles, deciles y percentiles
MEDIDAS DE POSICIN
QU ES UNA MEDIDA DE POSICIN? QU SON LOS CUANTILES?
MEDIDAS DE FORMA
QU SON LAS MEDIDAS DE FORMA?
Como vimos anteriormente, los valores de la media, mediana y moda nos
permiten conocer la forma de la distribucin, en especfico si la distribucin
posee algn sesgo o es simtrica. Recordemos que una distribucin simtrica es
una en la cual los valores de la media, mediana y moda coinciden, as como
tambin la cantidad de datos a la izquierda es igual a la derecha.
En especfico, las medidas de forma nos proporcionan informacin numrica
sobre la forma de la distribucin, su simetra y su apuntamiento o curtosis.
Principalmente, nos informan si es que la distribucin de datos analizada se
acerca o aleja de una distribucin normal (Campana de Gauss).
?
MEDIDAS DE FORMA
ASIMETRA O DEFORMACIN
En una distribucin simtrica (o normal) la cantidad de observaciones de la
variable se encuentran igualmente repartidas, es decir, tanto al lado izquierdo
como derecho de la distribucin se encuentra la misma proporcin de
observaciones. Sin embargo, existen distribuciones que no ocurre tal situacin,
por lo que reciben el nombre de distribuciones asimtricas.
La asimetra de una distribucin puede calcularse de dos formas, una es con la
medida de asimetra de Fisher o con la medida de asimetra de
Pearson. Cuyas frmulas son:
Medida de Fisher Medida de Pearson
3
3
*
) (
s n
x x
AS
i

s
Moda x
AS

MEDIDAS DE FORMA
ASIMETRA O DEFORMACIN CMO LA INTERPRETAMOS?
AS<0 AS=0 AS>0
MEDIDAS DE FORMA
CURTOSIS O COEFICIENTE DE APUNTAMIENTO
La curtosis mide hasta qu punto las observaciones de la variable se acumulan
en la parte central de la distribucin de los datos. Al igual que con la asimetra, la
distribucin de comparacin es la distribucin normal, en especfico nos
interesa saber si la distribucin es muy achatada o puntiaguda. Las
distribuciones pueden tomar la forma de una distribucin:
Mesocrtica (concentracin normal)
Leptocrtica (gran concentracin)
Platicrtica (baja concentracin)
La forma de clculo es mediante la siguiente frmula:
3
*
) (
4
4

s n
x x
K
i
MEDIDAS DE FORMA
CURTOSIS O COEFICIENTE DE APUNTAMIENTO. FORMAS.
K>0 K=0 K<0
Ms apuntada que lo
normal
Normal Menos apuntada que lo
normal
TABLAS DE CONTINGENCIA
ANLISIS BIVARIADO DE VARIABLES CUALITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial. Captulo N3
Agresti, A., & Franklin, C. A. (2007). Statistics: the art and science of learning from data. Captulo N3
Weiss, N. A. (2011). Elementary Statistics. Captulo N12.3
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
Las tablas de contingencia buscan describir la relacin entre dos variables
cualitativas. A estas se le conocen tambin como tablas de doble entrada, tablas
cruzadas o tablas de frecuencia conjunta. Al ser una tabla bidireccional, involucra
dos dimensiones o dos variables que se encuentran cruzadas.
B
1
B
2
B
J
A
1
n
11
n
12
n
1j
A
2
n
21
n
22
n
2j

A
I
n
i1
n
i2
n
ij
Distribucin conjunta o
distribucin condicional
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
La tabla muestra dos variables, en las filas (horizontales) se encuentra la variable
A y en las columnas (verticales) la variable B. En las celdas representadas por n
ij
se indican el nmero de observaciones que presentan las caractersticas tanto de
la variable A y la variable B.
En general, las celdas pueden contener la frecuencia absoluta o relativa del cruce
entre las filas y las columnas.
Lo que nos interesa conocer es: existe relacin entre las variable A y la variable
B? hay asociacin entre estas variables?
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 0 8 141 54
C2 2 37 180 84
C3 6 135 447 247
D 9 176 323 168
E 17 137 242 110
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA?
En su construccin, las tablas de contingencia generalmente ubican la variable
independiente en las filas y la variable dependiente en las columnas. Sin
embargo, esto puede quedar a criterio del investigador privilegiando la lectura e
interpretacin adecuada de la tabla.
Otro punto a considerar, es la existencia de los totales en las tablas de
contingencia. Que indican el total fila y de columna.
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz
No Muy
Feliz
Bastante
Feliz Muy Feliz
NSE ABC1 0 8 141 54 203
C2 2 37 180 84 303
C3 6 135 447 247 835
D 9 176 323 168 676
E 17 137 242 110 506
Total 34 493 1333 663 2523
Distribucin marginal
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA? LOS PORCENTAJES!
Sin embargo, para una mejor lectura e interpretacin de los datos debemos
pensar proporcionalmente por lo que las tablas de contingencia se
construyen con la frecuencia relativa, es decir, con porcentajes en cada una de las
celdas. Estos pueden ser solicitados:
Por fila
Por columna
Por el total
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% del total
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 ,3% 5,6% 2,1% 8,0%
C2 ,1% 1,5% 7,1% 3,3% 12,0%
C3 ,2% 5,4% 17,7% 9,8% 33,1%
D ,4% 7,0% 12,8% 6,7% 26,8%
E ,7% 5,4% 9,6% 4,4% 20,1%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Por total
ANLISIS BIVARIADO
QU SON LAS TABLAS DE CONTINGENCIA? LOS PORCENTAJES!
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% dentro de NSE
EN GENERAL, USTED DIRA QUE ES...?
Total Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 3,9% 69,5% 26,6% 100,0%
C2 ,7% 12,2% 59,4% 27,7% 100,0%
C3 ,7% 16,2% 53,5% 29,6% 100,0%
D 1,3% 26,0% 47,8% 24,9% 100,0%
E 3,4% 27,1% 47,8% 21,7% 100,0%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Tabla de contingencia NSE * EN GENERAL, USTED DIRA QUE ES...?
% dentro de EN GENERAL, USTED DIRA QUE ES...?
EN GENERAL, USTED DIRA QUE ES...?
Total NADA FELIZ
NO MUY
FELIZ
BASTANTE
FELIZ MUY FELIZ
NSE ABC1 1,6% 10,6% 8,1% 8,0%
C2 5,9% 7,5% 13,5% 12,7% 12,0%
C3 17,6% 27,4% 33,5% 37,3% 33,1%
D 26,5% 35,7% 24,2% 25,3% 26,8%
E 50,0% 27,8% 18,2% 16,6% 20,1%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Por fila
Por columna
DIAGRAMA DE DISPERSINY CORRELACIN
ANLISIS BIVARIADO DE VARIABLES CUANTITATIVAS
Bibliografa para esta sesin:
Johnson, R., & Romo Muoz, J. H. (2008). Estadstica elemental: lo esencial. Captulo N3
Ritchey, F. J., & Coso Martnez, E. R. (2002). Estadsticas para las ciencias sociales: El potencial de la imaginacin
estadstica. Captulo N14 y 15
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Para el caso de las variables cuantitativas, al igual que con las variables
cualitativas debemos definir una variable dependiente y otra variable
independiente. As, las variables cuantitativas son presentadas en pares
ordenados (x,y) donde x es la variable dependiente (o de entrada) e y la
variable dependiente (o de salida).
Sin embargo cmo presentamos estos pares ordenados de mejor forma?
Mediante un diagrama de dispersin que es una grfica de todos los pares
ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de
entrada, x, se localiza en el eje horizontal, y la variable de salida, y, se localiza en el eje
vertical (Johnson et al, 2008)
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Fuente: Elaboracin propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
I
n
g
r
e
s
o

d
e
l

t
r
a
b
a
j
o

(
E
j
e

Y
)
Edad (Eje Y)
Ingreso del trabajo segn Edad
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Fuente: Elaboracin propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
I
n
g
r
e
s
o

d
e
l

t
r
a
b
a
j
o

(
E
j
e

Y
)
Edad (Eje Y)
Ingreso del trabajo segn Edad
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN
Lo que buscamos vislumbrar mediante el diagrama de dispersin es la
existencia de alguna relacin entre estas variables, en especfico si es que existe
correlacin entre la variable dependiente y la variable independiente, la cual
puede ser entendida como el cambio sistemtico en las puntuaciones de dos
variables de intervalo/razn (Ritchey, 2002:511).
En especfico, buscamos correlacin lineal, es decir, una relacin lineal entre las
dos variables. Esta puede ser medida mediante el coeficiente de correlacin
lineal, pero tambin puede presentarse grficamente, analizando en detalle los
diagramas de dispersin.
ANLISIS BIVARIADO
DIAGRAMA DE DISPERSINY CORRELACIN. TIPOS DE CORELACIN.
Correlacin positiva
perfecta
Correlacin negativa
perfecta
Correlacin positiva
baja
Correlacin positiva
media
No hay correlacin No hay correlacin
ANLISIS BIVARIADO
CORRELACIN LINEAL QU TIPOS DE CORRELACIN LINEAL PODEMOS ENCONTRAR?
Segn Ritchey et al (2002), los tipos de correlacin lineal presentados
anteriormente pueden ser definidos como:
Correlacin positiva. Un incremento en x se relaciona con un incremento en y. En
especfico, cuando x se incrementa, y tiene la tendencia a incrementarse.
Correlacin negativa. Un incremento en x se relaciona con una reduccin en y.
Conforme se incrementa x, y tiene una tendencia de disminuir.
Ausencia de correlacin. Un incremento en x no se relaciona con las puntuaciones
de y. O sea, cuando aumenta x, las puntuaciones de y varan de forma aleatoria.
ANLISIS BIVARIADO
COEFICIENTE DE CORRELACIN R DE PEARSON
Si bien en el diagrama de dispersin podemos ver la existencia de correlacin
lineal indicada principalmente por lo estrechamente que se acumulen los datos
en torno a una recta lineal. Mediante el coeficiente de correlacin
bivariado r de Pearson (simbolizado como r si es muestral y si es
poblacional), el que mide la estrechez del ajuste de las coordenadas x,y con
respecto a la recta de regresin. El grado al que las desviaciones de las puntuaciones
de las medias de X eY tienen a fluctuar conjuntamente (Ritchey et al, 2002: 519).
ESTADSTICA DESCRIPTIVA
MS ALL DE LAS TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRFICAS
Recuerda que siempre debes:
1. Leer los datos que resultan de tus anlisis estadsticos (ya sea los
porcentajes, estadsticos descriptivos u otros). Lelos con atencin y sin
apresurarte.
2. Analzalos, es decir, determina si existen tendencias, porcentajes
mayoritarios y si existe un patrn en los datos. Fjate en cmo varan.
3. Interprtalos, intenta darles sentidos bajo la luz de la teora (sociolgica,
poltica, econmica, etc), tambin puedes ligarlo al contexto actual de la
sociedad. Sin embargo, no debes sobreinterpretar los datos, o sea, no debes
sacar conclusiones apresuradas respecto de los datos. Utiliza la imaginacin
sociolgica
SOCIOLOGA E INVESTIGACIN SOCIAL:
EN RESUMEN

Potrebbero piacerti anche