Sei sulla pagina 1di 11

ESTADISTICA: INTRODUCCION

AGRESTI Y FINLAY, METODOS DE ESTADISTICA PARA LAS CS SOCIALES


INTRODUCCION
Las observaciones recopiladas sobre las características de interés se denominan
colectivamente datos. Se utilizan diversos métodos como experimentos, encuestas,
observaciones. Las colecciones archivadas de datos existentes se denominan bases de
datos.
Estadística: consiste en un cuerpo de métodos para obtener y analizar datos. Provee
métodos para:

 Diseñar: planificar cómo recopilar datos para estudios de investigación.


 Describir: resumiendo los datos. Gráficos, tablas y nros ESTADISTICA DESCRIPTIVA.
 Inferir: haciendo predicciones basadas en los datos ESTADISTICA INFERENCIAL.
Población: totalidad de sujetos de interés para el estudio. Una muestra es el
subconjunto de la población sobre la cual el estudio recopila datos.
Un parámetro es un resumen numérico de la población. Una estadística es un resumen
numérico de los datos de la muestra.
Un archivo de datos tiene una fila para cada sujeto y una columna para cada
característica. Los métodos estadísticos son fáciles de aplicar a estos mediante Software
(Stata).

MORA Y ARAUJO, INTRODUCCION: EL ROL DE LA ESTADISTICA EN LA INVESTIGACION


SOCIAL
Hipótesis sustantiva: proposición que relaciona conceptos formulados en términos de
variables estableciendo algún tipo de nexo entre ellos.
Indicadores: conceptos de nivel observacional, variable que podemos medir
directamente.
Hipótesis auxiliares: conectan los términos de las proposiciones de distinto nivel de
abstracción (+ nivel de abstracción a observacional). Si son V la inferencia puede ser
correcta, si son F la inferencia no se puede realizar.
ESTADISTICA INFERENCIAL: a partir de la observación de una muestra de la población
se puede pasar inferencialmente a la población y afirmar las mismas proposiciones para
esta (generalización).

1 1) UNIVERSO HIPOTETICO (infinito):


Conjunto de unidades existentes y
2 posibles a las cuales se aplica la teoría.
2) UNIVERSO O POBLACION (finito):
Unidades que podrían haber sido
observadas.
3 3) MUESTRA: Unidades observadas.
Funciones ppales de la estadística en la investigación social (Kaplan):
1. Proporciona una formulación de las características abstractas del error de
medición y muestreo.
2. Permite poner a prueba hipótesis probabilísticas y establecer el grado de
confirmación de las mismas.
3. Brinda herramientas analíticas para manipular los datos.
Tests de significación estadística: funciones
a) Estimar la probabilidad de que una distribución en una muestra sobre una
variable dada refleje la distribución existente en la población.
b) Estimar la probabilidad de que las relaciones entre las variables en una
muestra no sean al azar.
Son necesarios en estudios que se interesan en la descripción de una población de la
realidad y aquellos que toman decisiones para producir cambios en la realidad.

CALDWELL,
CAP 1
Una variable es cualquier cosa que pueda adquirir una calidad o cantidad diferente, es
cualquier cosa que pueda variar. La información sobre diferentes variables se conoce
como datos (data). Cuando se reúnen los datos relativos a algunas variables específicas
hablamos de un conjunto de datos (data set), las piezas individuales de información se
denominan data points. Una distribución de datos es una lista de respuestas asociadas
con una variable particular en un conjunto de datos. Distribución de frecuencia: una
tabla o gráfico que indica cuántas veces aparece un valor en un conjunto de datos de
respuestas.
Niveles de medición:
 Nominal: descansa en un sistema de categorías. Las categorías tienen que ser
mutuamente excluyentes y deben ser colectivamente exhaustivas.
 Ordinal: aparece la noción de orden (mas que, menos que).
 Intervalo: noción de intervalos iguales.
 Ratio: propiedades de intervalo + tiene un punto cero conocido. Hablamos en
términos de proporciones o razones.
Una población (o universo) son todos los casos posibles que cumplen ciertos criterios,
cambia constantemente por lo tanto nunca se puede obtener una imagen totalmente
precisa de la población. Una muestra es una porción de una población.
Análisis estadístico:
1) E. DESCRIPTIVA: se usan para resumir o describir datos de muestras y
poblaciones, ej. media y rango.
2) E. INFERENCIAL: una estadística es una característica de una muestra y un
parámetro es una característica de la población. Utiliza estadísticas de la muestra
para hacer inferencias sobre los parámetros de la población, son los
procedimientos que utilizamos para "dar el salto" de una muestra a una
población.

DATOS CUANTITATIVOS
AGRESTI Y FINLAY, CAP 2: MUESTREO Y MEDICION
Las medidas deben ser validas (reflejar el concepto) y confiables (si se mide de nuevo la
rta es igual).
Variable: una característica q puede variar en valores entre sujetos en una muestra o
población. Los valores que puede tomar la variable forman la escala de medición. Tipos:
Categorías o números, Nro de niveles:
Cuantitativa: la escala de medición tiene valores numéricos. Medidas en una
escala de intervalos (distancia numérica). Discretas o continuas.
Categórica o Cualitativa: es un conjunto de categorías, difieren en calidad. Escala
nominal (sin orden) u ordinal (orden). Discretas.
Nro de valores en la escala de medición:
Discreta: sus posibles valores forman un conjunto de números separados. Nro
de hermanos.
Continua: puede tomar un continuo infinito de posibles valores de números
reales. Altura.

CEA D’ANCONA, EL USO DE FUENTES DOCUMENTALES Y ESTADISTICAS


Investigación primaria: el investigador analiza la info que el mismo obtiene.
Investigación secundaria: análisis de datos recabados x otros investigadores. Se
considera extensión y punto de partida de la primera. 3 variedades:
1. La revisión de investigaciones: preliminar esencial, proporciona una síntesis
del conocimiento existente sobre un tema determinado.
2. El metaanálisis: resumen de los rtados cuantitativos alcanzados en distintas
investigaciones. Se aplican técnicas de análisis estadístico (univariable, bi,
multi) para comprobar el nivel de significatividad estadística de los hallazgos.
3. El análisis secundario: análisis posterior de la info ya obtenida, facilita el
análisis comparativo y el de tendencias a lo largo del tiempo.
Fuentes de info secundaria:

Datos no publicados elaborados x organismos públicos y privados relativos a su


actuación.
Datos publicados x organismos públicos y privados: estadísticas e informes.
Investigaciones publicadas en libros y revistas.
Investigaciones no publicadas.
Evaluación y análisis de datos secundarios:
a) Fuentes de datos
b) Medidas utilizadas (representatividad de la muestra, % de rta, técnicas de
obtención de datos, técnicas analíticas)
c) Tiempo de recogida de los datos
d) Adecuación de los análisis y las conclusiones
Criterios esenciales de todo análisis documental (MacDonald y Tipton):
1) Autenticidad
2) Credibilidad de los datos y de la fuente consultada
3) Representatividad respecto al conjunto de documentos existentes
4) Significado aparente y profundo
Ventajas y desventajas de su uso:
V Precisa menos tiempo y recursos. Fácil acceso. Cubre amplios periodos de
tiempo. Ayuda al diseño y la realización de un estudio.
D No disponibilidad (difícil o restricción del acceso). No adecuación (info
inexistente o no se adecua a los objetivos de la investigación). Falta de control y
conocimiento del proceso de obtención de la info.

PIOVANI, LA OBSERVACION
Tipología Gold:
Grado de revelación

Involucramiento Participante Participante como


Grado de completo observador Commented [MP1]: Observación encubierta
participación Distanciamiento Observador como Observador
participante completo

Observación participante: presenciar de manera directa el fenómeno estudiado en su


ambiente natural, sin manipularlo. Modos pasivos de participación (escuchar y mirar) y
activos (conversar). Implica la comprensión de los significados construidos x los actores.
Ventajas: permite el acceso a las situaciones investigadas en toda su complejidad
y en el momento en que los acontecimientos suceden. Acercamiento a los puntos
de vista de los actores. Flexible permitiendo la redefinición a lo largo del proceso.
Limites: muchas cuestiones de interés no son pasibles de observación directa
(historia, cuestiones abstractas), se limita a un escenario (poca generalización),
mucho tiempo, alta dependencia de las cualidades personales del investigador,
cuestiones éticas. Reactividad. Commented [MP2]: Tendencia de los actores a modificar
sus comportamientos al saber que son observados.
Registro descriptivo de lo observado, notas teóricas o analíticas (inferencias), notas
metodológicas (sobre el proceso de investigación) Notas de campo.
INTRODUCCION A STATA
SCOTT LONG, El flujo de trabajo de Análisis de datos: Principios y práctica
WORKFLOW implica todo el proceso de análisis de datos. El principio fundamental de
replicabilidad debe guiar cada aspecto de este (ser capaz de justificar y reproducir sus
resultados). Un buen workflow facilita la replicación de los rtados.
4 pasos presentes en todo tipo de análisis de datos (dinámico):
1. Limpieza de datos: verificar que los datos sean precisos y que las variables estén bien
nombradas y debidamente etiquetadas.
Llevar los datos a Stata.
2. Ejecución de análisis: parte más simple, ajustar los modelos y calcular los gráficos y
tablas.
Do-files, data files, and log files.
3. Presentación de resultados: mover los rtados de Stata a la presentación y
documentar la procedencia de todos los hallazgos que se presenta.
4. Conservación del trabajo (protección de archivos): para evitar pérdidas, realizar
copias de seguridad, archivar (preservación a largo plazo).
Dentro de cada paso hay 4 tareas principales:
1) Planificar el trabajo: definir objetivos y estrategia analítica antes de poner datos en
Stata.
2) Organizar sus archivos y materiales: evitar buscar archivos perdidos o tener que
reconstruirlos.
3) Documentar lo que ha hecho: sin la documentación la replicación es prácticamente
imposible. Incluye un registro de investigación y codebooks que documentan los
conjuntos de datos (data sets) que crea y las variables que contienen.
4) Ejecutar el análisis: implica llevar a cabo tareas específicas dentro de cada paso.
Criterios para elegir el proceso adecuado:
Precisión (verificar si los rtados son correctos en c/ paso) – Eficiencia (que haga las cosas
lo más rápido posible sin sacrificar el precisión) – Sencillez (- errores) – Estandarización
(+ fácil ver cuando algo está mal) – Automatización (- errores) - Usabilidad (q refleje la
forma en q te gusta trabajar) – Escalabilidad (¿Qué tan bien funcionan los
procedimientos cuando se aplican a un problema mayor?)

ESTADISTICA DESCRIPTIVA UNIVARIADA


CALDWELL,
CAP 2
Medidas de resumen comunes utilizadas para describir datos.
MEDIDAS DE TENDENCIA CENTRAL: el propósito de estas es tener una idea sobre el
centro de una distribución.
1. LA MEDIA: se calcula sumando todos los puntajes en una distribución y
dividiendo la suma por el número de puntajes. Una de las propiedades de la
media es que es sensible a puntajes extremos.
x barra para media de la muestra (n)
mu para media de la población (N)
2. MEDIANA: es el punto que divide la distribución en mitades, no sensible a
puntajes extremos. Es una fórmula posicional, es decir, te señala la posición
de la mediana, no el valor. Los puntajes deben estar ordenados.
(N+1) / 2
3. MODA: respuesta que aparece con mayor frecuencia en una distribución.
Puede ser:
a. Bimodal (tiene 2 modas)
b. Unimodal (tiene 1 moda)
MEDIDAS DE VARIABILIDAD O DISPERSION: la medida en que los puntajes se
distribuyen en una distribución.
1. RANGO: es una declaración del puntaje más bajo y el puntaje más alto en una
distribución
2. DESVIACION DE LA MEDIA (VARIABILIDAD): Tiene que ver con cuán lejos se
desvía un puntaje individual de la media de la distribución. La suma de las
desviaciones es igual a 0.
Puntaje – Media = Desviación (neg: x debajo de la media y posit: x arri)
Para calcular la desviación media considero las desviaciones como valores absolutos
(todos posit), las sumo y divido por el numero de casos en la distribución Nos permite
ver la desviación promedio.
3. VARIANZA: resultado que obtenemos si calculamos las desviaciones de una
media, las elevamos al cuadrado, sumamos estas desviaciones al cuadrado y
dividimos por el nro de casos en la distribución. Límite: infla la magnitud de los
valores lo que hace que perdamos de vista las unidades de medida originales. Es
la desviación estándar al cuadrado.
s2 es la V de muestra
sigma2 es la V de la población
4. DESVIACION ESTANDAR: se obtiene cuando calculamos la raíz cuadrada de la
varianza (resuelve los limites).
s es la DE de una muestra Commented [MP3]: Para que refleje la DE de la población
sigma es la DE de la población cambiar la n en el denominador a n - 1.

Nos indica qué tan lejos se desvían las puntuaciones de la media (si hay más
variabilidad en una distribución la DE aumenta).
AGRESTI Y FINLAY, ESTADISTICAS DESCRIPTIVAS
DESCRIPCION DE DATOS CON TABLAS Y GRAFICOS:
DISTRIBUCION DE FRECUENCIAS Resume los recuentos de posibles valores o
intervalos de valores. Una F. RELATIVA reporta esta info utilizando porcentajes
(proporción x 100) o proporciones (nro de observaciones en una categoría / total de
observaciones).
GRAFICO DE BARRAS: usa barras sobre posibles valores para representar una
distribución de frecuencia para una variable categórica. Barras van separadas.
HISTORIOGRAMAS: cada intervalo (mutuamente excluyente) tiene una barra que
representa el nro de observaciones para v. cuantitativa. Forma de la
distribución:
a. Forma de U: los puntos más altos están abajo y los puntajes más altos están
cerca del medio. Indica una polarización en la variable entre dos conjuntos
de sujetos.
b. Forma de campana: indica que la mayoría de los sujetos tienden a cerca de
un valor central.
1. Simétrica
2. No simétrica: sesgada a la drcha o izquierda dependiendo donde la cola sea
más larga.
STEM-AND-LEAF PLOTS: representa cada observación por su dígito inicial (el
tallo) y por su último dígito (la hoja). V. cuantitativa. Si lo miramos de costado
tiene la misma forma q el historiograma.
DIAGRAMA DE CAJA: representa los cuartiles, los valores extremos y cualquier Commented [MP4]:
valor atípico.
DESCRIPCION DE DATOS CON MEDIDAS DE TENDENCIA CENTRAL:
MEDIA: útil solo para variables cuantitativas, se tira en la dirección de la cola más
larga de una distribución sesgada.
MEDIANA: escala ordinal, para distribuciones simétricas la media y la mediana
son idénticas, en las d. muy sesgadas se prefiere la mediana.
MODA: útil para todo tipo de datos.
DESCRIPCION DE DATOS CON MEDIDAS DE VARIABILIDAD:
RANGO
DESVIACION ESTANDAR: Según la regla empírica, para una distribución en forma
de campana es muy inusual que una observación caiga más de tres DE de la
media (si es mayor, entonces outlier).
REGLA EMPIRICA: para distribuciones forma campana

68% las observaciones caen dentro de una DE de la media, 95% caen


dentro de dos DE, y casi todas caen dentro de tres DE.
PROBABILIDAD
AGRESTI Y FINLEY, DISTRIBUCION DE PROBABILIDAD
Con una muestra aleatoria, la probabilidad de que una observación tenga un resultado
particular es la proporción de veces que ese resultado ocurriría en una secuencia muy
larga de observaciones. Reglas básicas:
1. P (no A) = 1 – P(A)
2. Si A y B son rtados distintos, entonces P (A o B) = P(A) + P(B)
3. Si A y B son independientes, entonces P (A y B) = P(A) x P(B)
Variables discretas rtados son un conjunto de valores separados. Asigna una
probabilidad a cada valor de la variable (0 o 1), la suma de todas da uno. El histograma
representa la distribución de probabilidad.
V. continuas rtados son un continuo infinito. Asigna probabilidades a los intervalos de
nros (0 o 1), la suma también da uno. El grafico es una curva continua lisa, el área debajo
de la curva en un intervalo representa la probabilidad de la variable en ese intervalo.
Parámetros que describen la DP:

 Media: describe el centro, es la suma de los posibles resultados de la variable


multiplicado por sus probabilidades.
 Desviación estándar: describe la variabilidad. Cuanto mas grande el nro de DE
más extendida la distribución.
DP NORMAL: es simétrica, forma de campana, y caracterizada por su media y su DE. La
probabilidad dentro de cualquier número particular de DE es 0,68 dentro de 1 DE, 0,95
dentro de 2 DE, 0,99 dentro de 3 DE. Cuando una variable tiene una distribución normal,
el 95% de las observaciones caen dentro de 2 DE de la media.
Puntaje Z es el nro de DE de la media, es la distancia entre una variable y la media en
unidades de DE. Si Z>0 el nro esta por encima de la media, Z<0 cae por debajo.
DP NORMAL ESTANDAR: es la DP normal con media igual a 0 y DE = 1. Si una variable
tiene una distribución normal, y si sus valores se convierten en puntajes z restando la
media y dividiendo por la desviación estándar, entonces los puntajes z tienen la
distribución normal estándar.

CALDWELL, LA CURVA NORMAL


Solución de problemas: sabemos la media, la DE, distribución normal, sabemos que el
68% de los casos caen en una DE por abajo o arriba de la media. Le sumo una DE a la
media para encontrar el limite superior, le resto una DE a la media para encontrar el
límite inferior.
Regla empírica: el 68% de los casos se encontrarían ± 1 desviación estándar de la media,
el 95% de los casos se encontrarían ± 2 desviaciones estándar de la media y más del 99%
de los casos se encontrarían ± 3 desviaciones estándar de la media.
El 32% de los casos bajo una curva normal se encontrarían más allá de un valor de ± 1 Commented [MP5]: 100% - 68%
desviación estándar de la media; el 5% ± 2 desviaciones estándar de la media y solo Commented [MP6]: 100% - 95%
1% del área debajo de la curva ± 3 desviaciones estándar de la media. Commented [MP7]: 100% - 99%

La curva normal estandarizada es una curva teórica porque se basa en un número


infinito de casos, por eso, la curva nunca toca la línea de base porque siempre hay más
casos a considerar. La media, mediana y moda comparten el mismo valor (=0) y la DE=1.
Tabla de áreas bajo la curva normal: nos da la cantidad de área bajo la curva que se
encontrará entre la media y los diferentes valores de Z.
Los valores Z son simplemente puntos a lo largo de la línea de base de una curva normal
estandarizada. Formula: (Valor X – media) / DE = Z ratio.
--------------------------------------------------------------------------------------------------------------

ESTADISTICA INFERENCIAL
D’ANCONA, LA SELECCIÓN DE LAS UNIDADES DE OBSERVACION: el diseño de la
muestra
- Definición de la población (unidades sobre las q se desea obtener info)
- Diseño de la muestra (selección de unidades concretas de esta población):
representatividad de la muestra:
o Tamaño de la muestra:
 Depende de los recursos económicos y plazos temporales disponibles
 Los diseños muestrales probabilísticos demandan un tamaño muestral
superior a los no probabilísticos (+ muestra, - error muestral)
 Cuanto más heterogénea la población, mayor la varianza poblacional
ergo necesita un mayor tamaño muestral
 En muestras pequeñas el error de muestreo aumenta, muestras más
grandes mayor precisión de la estimación ergo menor error muestral
 El nivel de confianza mas habitual es 2sigma (DE poblacional) que
supone un 95% de probabilidad de acertar en la estimación a partir de
los datos muestrales
ERROR MUESTRAL: grado de inadecuación entre las estimaciones muestrales y los
parámetros poblacionales. En su calculo intervienen:

El tamaño muestral: a medida que aumenta el tamaño, disminuye el


error muestral
La varianza poblacional: el error muestral se halla mas presente en
poblaciones heterogéneas que en universos homogéneos
Para aumentar el nivel de confianza hay que ampliar el tamaño muestra
ergo traerá la reducción del error muestral
Tipo de muestreo realizado: muestreo aleatorio estratificado genera un
menor error, MAConglomerados mayor error (- precisión de las
estimaciones)
TIPOS DE MUESTREO:
 M. PROBABILISTICO O ALEATORIO: se fundamenta en la aleatorización. Se adecua
a propósitos de estimación de parámetros y comprobación de hipótesis.
SIMPLE se asigna a cada unidad de observación un nro de identificación para
luego extraer aleatoriamente a los integrantes de la muestra.
SISTEMATICO listado de población, se elige la primera unidad de la muestra al
azar y el resto de los elementos se obtienen sumando el coeficiente de elevación
(N/n).
ESTRATIFICADO clasificación de las unidades de población en un nro de
estratos (según características similares), se determinan las muestras en c/
estrato (simple: = tamaño en c/e; proporcional: + población, + tamaño m;
optima: + heterogeneidad, + tamaño m)
POR CONGLOMERADOS secciona la población en grupos, muestra más
dispersa.
DE RUTAS ALEATORIAS se establece un itinerario q el entrevistador debe
seguir en la selección de las unidades muestrales.
 M. NO PROBABILISTICO: Se adecua a propósitos de indagación exploratoria,
estudios cuali.
POR CUOTAS elaboración de una matriz con las características básicas de la
población q se analiza, luego se calculan las proporciones relativas (cuotas) para
cada celda de la matriz.
ESTRATEGICO selección de las unidades mediante criterios subjetivos según
objetivos de investigación.
BOLA DE NIEVE las unidades van eligiéndose a partir de las referencias
aportadas x los sujetos a los q ya se ha accedido.
------------------------------------------------------------------------------------------------------------

TEOREMA CENTRAL DEL LIMITE


WHEELAN, El teorema del límite central: el James Lebron de las estadísticas
PPCIO BASICO: una muestra grande y adecuadamente extraída se parecerá a la
población de la que se extrae.
El teorema nos permite hacer las siguientes inferencias:
1. Si tenemos información detallada sobre alguna población, entonces podemos
hacer inferencias poderosas sobre cualquier muestra extraída adecuadamente
de esa población.
2. Si tenemos información detallada sobre una muestra adecuadamente extraída
(media y desviación estándar), podemos hacer inferencias precisas sobre la
población de la que se extrajo esa muestra.
3. Nos permite calcular la probabilidad de que una muestra particular fue extraída
de una población dada.
4. Si conocemos las características subyacentes de dos muestras, podemos inferir
si ambas muestras probablemente se tomaron de la misma población.
De acuerdo con el teorema del límite central, las medias muestrales para cualquier
población se distribuirán aproximadamente como una distribución normal alrededor de
la media poblacional.
El error estándar mide la dispersión de las medias muestrales. La desviación estándar
mide la dispersión en la población subyacente El error estándar es la desviación
estándar de las medias muestrales.
- error estándar grande las medias muestrales se extienden ampliamente
alrededor de la media de la población (población mas dispersa).
- error estándar pequeño medias muestrales agrupadas relativamente
apretadas (muestra más grande).
El teorema del límite central nos dice la probabilidad de que una media de muestra se
encuentre dentro de una cierta distancia de la media de la población:
a. Es relativamente improbable que una media muestral este a mas de 2 ES de la
media poblacional.
b. Es extremadamente improbable que este a 3 o más ES de la media poblacional.
Cuanto menos probable sea que se haya observado un resultado por casualidad, más
seguros podemos estar de suponer que algún otro factor está en juego.

Potrebbero piacerti anche