Sei sulla pagina 1di 26

UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE CIENCIAS ECONMICAS Y SOCIALES


ESCUELA DE SOCIOLOGA
DEPARTAMENTO DE ESTADSTICA

STADTICA

Prep. Edward Pacheco


Dic-2009

Introduccin

Los procesos estadsticos son herramientas cuantitativas y cualitativas


que permiten evaluar magnitudes de lo real. Por lo tanto diversas
ciencias tanto naturales como sociales toman como disciplina de apoyo
y complemento nociones estadsticas que de manera eficaz permitan la
evaluacin y descripcin de fenmenos mediante el clculo de
operaciones matemticas a travs de las cuales se puede caracterizar
y determinar los aspectos ms significativos de una poblacin o
muestra.

Origen de la Estadstica como Disciplina Cientfica

El Origen de la estadstica se remonta a los comienzos de la historia, ya desde


el cuarto milenio a.C. los chinos, griegos y egipcios realizaban censos de
poblacin y tabulaciones de las actividades agrcolas.

Las Primeras tentativas orientadas a sistematizar los diversos procedimientos


matemticos utilizados en esas civilizaciones surge en Alemania en el S. XVII,
influenciadas por el estudio de los juegos de azar y el clculo de
probabilidades.

La estadstica pese a su desarrollo, aparece en la modernidad alrededor de


1850, con la definicin derivada de la raz Status (Estado) ligado a la actividad
gubernamental abocada a conocer extensiones territoriales de cierta poblacin,
habitantes residentes en ella y cantidad de impuestos a obtener de ella.

El trmino estadstica proviene de la palabra italiana statista, utilizada por


primera vez por Gottfried Achenwell (1719-1772). Su uso fue difundido por Sir
Jhon Sinclair en su obra Statistal Account of Scotland (1719-1799), Informe
estadstico sobre Escocia.

La Estadstica en las Ciencias Sociales

Representa especficamente para la Sociologa, la realizacin de operaciones


con nmeros que expresan valores de mediciones para satisfacer ciertos
supuestos.

La estadstica expresa cierto estado del alma colectiva Durkheim. Por ello es
importante que el investigador social considere que no existe ningn sustituto
estadstico apropiado para una correcta conceptualizacin terica, base para
lograr un buen uso de las tcnicas estadsticas.

En trminos metodolgicos la operacionalizacin de conceptos surge como


fase de induccin de los mtodos estadsticos en la investigacin,
convirtindose en el paso intermedio que une la formulacin terica de un
problema y la medicin de variables.

Proporcionan al investigador social la posibilidad de resumir y extraer


informacin relevante de las mediciones observadas.

Para la aplicacin de tcnicas de medicin es de suma importancia la


definicin del tipo de variable, cuantitativa o cualitativa. As como sus niveles
de medicin; nominal, ordinal, intervalo y razn respectivamente.

Estadstica Descriptiva
La estadstica descriptiva suministra los instrumentos que
permiten el salto de las observaciones a la inferencia, siendo el
resumen de las observaciones el paso previo.
La Estadstica Descriptiva se dedica a expresar regularidades
propias de las observaciones conjunto de datos, a travs de
operaciones numricas para permitir la cuantificacin.

La Estadstica Descriptiva agrupa todas aquellas tcnicas y


procedimientos que permiten caracterizar una muestra y
poblacin, algunas de estas tcnicas son las medidas de
tendencia central, dispersin, posicin, regresin y
correlacin.

Algunos mtodos para organizar datos

Matriz de Datos
Es una forma de sintetizar la informacin recogida de la realidad para
investigar un problema y tratar de obtener conocimiento cientfico que
intente explicar dicho problema.
Composicin: Dimensin, Unidades, Valores.

Distribuciones de Frecuencias: tablas de datos referentes al nmero

de veces en las que se repite la categora de una variable que


graficado, refleja la forma de la distribucin construida.
Absolutas: Reflejan el nmero de observaciones del conjunto de datos
que cae en cada una de las clases.
Relativas: Permite expresar la frecuencia de cada valor con una fraccin
o porcentaje del total del nmero total de observaciones.

Proporciones: Son cocientes que indican la relacin existente


entre una cantidad y el total de las unidades consideradas.
Porcentajes: Permite estandarizar en relacin con el volumen
calculando el nmero de objetos que habra en una categora si
el total de los casos fuese 100.

Medidas de Tendencia Central


Lugar donde se centra el conjunto de datos de una distribucin particular
en la escala de valores.

Media: Es el valor tpico o promedio, representativo del conjunto de datos


considerados.
Ventajas: Toma en consideracin la realidad de todo el conjunto de
datos.
Desventajas: Puede verse afectada por valores extremos no
representativos del resto de los datos.
Mediana: Es un valor que divide la distribucin de datos en 2 partes iguales,
tal que, el conjunto de datos por encima de este sea igual al nmero de datos
por debajo de la misma.
Ventajas: Los valores extremos no afectan a la mediana tan
intensamente como a la media.
Desventajas: Ciertos procedimientos estadsticos que utilizan la mediana
son ms complejos que aquellos que utilizan la media, es por ello que, si
deseamos utilizar una estadstica de muestra para estimar un parmetro
de poblacin, la media es ms cmoda.
Moda: Es el valor que ms se repite en una distribucin de datos.
Ventajas: No se ve afectada por valores extremos dado que se escoge el
valor ms frecuente, puede emplearse an cuando existan clases de
extremo abierto.
Desventajas: Cuando los datos son multimodales resulta complejo
interpretar y comparar

Medidas de Dispersin
Son aquellas que permiten reflejar la distancia entre los valores de la variable con respecto al valor
central de la distribucin.

Medidas de Dispersin Absolutas


Son aquellas no comparables entre diferentes muestras

Amplitud o Rango: Nos ofrece una visin de donde a donde se expresan los datos. Es la diferencia
entre observaciones extremas.

Varianza: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media
aritmtica de la distribucin.
Desventajas: Sensibilidad con respecto a los valores extremos, sus unidades son al cuadrado
por ello es difcil de interpretar.

Desviacin Tpica: Refleja la distancia de cada valor con respecto a la media. Es la raz cuadrada de
la varianza.
Ventajas: Tiene las mismas unidades que la variable, es ms estable que el rango, toma en
consideracin el valor de cada dato.

Medidas de Dispersin Relativa


Son aquellas que nos permiten comparar muestras diferentes

Coeficientes de Variacin de Pearson: Nos permite comparar el grado de dispersin de muestras


cuyas unidades son diferentes o donde las medias son extremadamente desiguales.

Coeficiente de Variacin Medianal: Refleja el grado de dispersin de muestras diferentes con


respecto a la mediana.

Cuantiles
Son valores que dividen la distribucin en partes iguales, es decir; en intervalos
que comprenden el mismo nmero de valores.
Los cuantiles son las medidas de posicin que determinan mediante operaciones
matemticas la ubicacin de los valores, en la distribucin.

Cuartiles: Son los tres valores que dividen al conjunto de datos


ordenados en cuatro partes porcentualmente iguales.

Deciles: Son los nueve valores que dividen al conjunto de datos


en diez partes porcentualmente iguales.

Percentiles: Son las medidas ms utilizadas para propsitos de


ubicacin o clasificacin, dividen la sucesin en cien partes
porcentualmente iguales.

INFERENCIA ESTADSTICA
Rama de la estadstica que utilizando informacin a partir de
muestras de poblacin, se apoya en las teoras de la probabilidad
para realizar suposiciones, de que en determinado momento y
lugar, o bajos ciertas condiciones, sucedern fenmenos
especficos en menor mayor medida, sin tener la certeza de
ocurrencia de ellos.
Por lo tanto, se apoya en el clculo de probabilidades para atender
dos problemas fundamentales: La estimacin y La Contrastacin
de Hiptesis. En ambas realizamos inferencias acerca de las
caractersticas de poblacin.
Manejar la incertidumbre que acompaa toda accin social para la
toma de decisiones efectivas.

Trminologa bsica

Poblacin o Parmetro
Se refiere a la totalidad de posibles observaciones o elementos de la realidad que
se estn considerando en una situacin dada. Las caractersticas de una poblacin se
suelen tomar generalmente como sus parmetros (N, , ,).
Poblacin Finita: Indica que la poblacin tiene un tamao establecido o limitado.
Poblacin Infinita: Hace referencia a una poblacin en la que no es posible enumerar u
observar todos los elementos que la conforman.

Muestra o Estadstico
Es una porcin o parte de las observaciones o elementos tomados de una
poblacin dada. Toda caracterstica de una muestra suele llamarse por lo general
estadstica. (n, , s,).
Con reemplazo: Alude a la no incorporacin del elemento muestreado en la poblacin
despus de haber sido escogido, y antes de elegir al prximo.
Sin reemplazo: Indica que pronto agotaremos todos los elementos de la poblacin
Fraccin de muestreo: Porcin de la poblacin contenida en una muestra

Estimaciones
Conjunto de tcnicas que permiten dar un valor aproximado de un parmetro de una
poblacin a partir de los datos proporcionados por una muestra.
Estimacin puntual
La estimacin puntual utiliza solo un numero para estimar el parmetro de poblacin
desconocido. Sin embargo, es insuficiente debido a que slo tiene dos opciones: es
correcta o est equivocada.
Estimacin de intervalos
La estimacin de intervalo utiliza un rango de valores para estimar el parmetro de
poblacin desconocido.

Estimador

Se trata de un estadstico de la muestra utilizado para estimar un parmetro de la


poblacin.
Un Buen Estimador Debe Ser

Insesgado: La media de la distribucin muestral de las medias de la muestra tomadas de


la misma poblacin es igual a la media de la poblacin misma

Eficiente: Menor error y menor desviacin estndar de la distribucin muestral posible

Consistente: Si al aumentar la muestra se tiene casi la certeza de que el valor de la


estadstica se aproxima bastante al parmetro poblacional buscado

Suficiente: Si utiliza tanta informacin de la muestra que ningn otro estimador puede
extraer, tal que, proporcione la mayor informacin adicional acerca del parmetro de
poblacin que se est estimando

Estimaciones de intervalo de la media: muestras grandes


P (x- z /. n << x + z /. /n) = 1 -

Si n 30, el teorema del lmite central nos permite usar la distribucin normal como
distribucin de muestreo.

Cuando se conoce la desviacin estndar de la poblacin (). Si no se conoce la


desviacin estndar de la poblacin, podemos estimarla a partir de la desviacin
estndar de la muestra = s.
x
n

Si tenemos un tamao de poblacin finita sin reemplazo y nuestra muestra constituye


ms del 5% de la poblacin, aplicamos el factor de correccin para derivar el error
estndar. N-n
N-1

Estimaciones de intervalo de la proporcin: muestras grandes


P (p - z /. P.Q < P < p + z /. P.Q) = 1 -
n
n

Tericamente la distribucin binomial es la distribucin correcta a utilizar para estimar una


proporcin de poblacin. Sin embargo, a medida que aumenta (n) la distribucin binomial se
aproxima a la normal. Se recomienda que n.p cmo n.q sean al menos 5 cuando se aproxime
con la distribucin normal.
La media de la distribucin de muestreo de la proporcin de xitos p = P
El error estndar de la proporcin p P.Q
n

Estimaciones de intervalo con distribucin t de Student


P (x- t /. n << x + t /. /n) = 1 -

Si el tamao de muestra (n) 30, se desconoce la desviacin estndar de la poblacin (),


y la poblacin es normal aproximadamente normal.

Como primer paso debemos estimar la desviacin estndar de la poblacin () a partir de


la muestra (s). = s y calcular el Error estndar estimado de la media de poblacin x
n

Si tenemos un tamao de poblacin finita sin reemplazo y nuestra muestra constituye ms


del 5% de la poblacin, aplicamos el factor de correccin para derivar el error estndar.

Grados de libertad (): Los utilizamos cuando elegimos distribucin t para estimar una
media de poblacin. = n -1. Existe una distribucin t para cada tamao de muestra o
grado de libertad posible.

Contraste de Hiptesis
Una suposicin que hacemos con respecto a un parmetro de poblacin. Para probar la
validez de esta suposicin:
1. Recolectamos datos de muestra.
2. Producimos estadsticas mustrales.
3. Determinamos la diferencia entre nuestro valor hipottico y un parmetro hipottico de
poblacin. Mientras ms pequea la diferencia mayor ser la probabilidad de que
nuestro valor sea correcto.

Tipos de Hiptesis
Paramtricas: Hiptesis suceptibles de medicin y tratamiento estadstico con
referencia a un parmetro de poblacin preestablecido.
No Paramtricas: No tenemos parmetros, se trabaja con frecuencias esperadas y
observadas.

Sistema de Hiptesis
Hiptesis Nula (Ho): Simboliza la suposicin que deseamos probar. El principio es
rechazarla. Se llama nula porque tiene la igualdad, es decir; se reserva el cero y por tanto
es ms preciza. Su complemento es la hiptesis alternativa.
Hiptesis Alternativa (H): Simboliza el rechazo de nuestra suposicin (Ho) y
cumplimiento de algn otro evento. Su complemento es la hiptesis nula. Su funcin es
orientar el contraste de hiptesis, (>) mayor que (<) menor que.

Procedimiento Bsico para realizar el Contraste de Hiptesis


1. Formular la Hiptesis nula (Ho) y la Hiptesis alternativa (H)
2. Seleccionar el tipo de distribucin a usar o estadstico a contrastar en la prueba:
Tamao de muestra (n) es mayor que Se conoce la desviacin estndar de
(>) 30
la poblacin
Distribucin
normal

Distribucin t

Tamao de muestra (n) es 30 y Se conoce la desviacin estndar de


suponemos que la poblacin es normal la poblacin
o aprox. Normal.
Tamao de muestra (n) es 30 y No se conoce la desviacin estndar
suponemos que la poblacin es normal de la poblacin
o aprox. Normal a medida que
aumentan los grados de libertad ()

3. Seleccin del nivel de significacin: Consiste en decidir que criterio utilizar para
confirmar si se acepta o no Ho. No existe un nivel estndar para probar hiptesis, todo
depende de el error dispuesto a cometer. Los ms usados 1%, 2%, 5% y 10%.
Error tipo I: Rechazar la hiptesis nula cuando es cierta ()
1-
Error tipo II: Aceptar la hiptesis nula cuando es falsa ()

1-

Zt
/

Zt

4. Definicin de la regin de aceptacin o rechazo


Bilateral
Ho = Ho
H Ho

Se rechaza la hiptesis nula si la media de muestra es


mayor o menor que la media hipottica de poblacin

aceptacin
/

/
Ho

rechazamos

Unilateral
Ho = Ho
H < Ho

aceptacin
Se rechaza la hiptesis nula si la media de la muestra
es menor que la media hipottica de poblacin
Ho

rechazamos

aceptacin

Ho = Ho
H > Ho

Se rechaza la hiptesis nula si la media de la muestra es


mayor que la media hipottica de poblacin
Ho

rechazamos

5. Realizar los clculos correspondientes: Error estndar y estandarizacin del


estadstico de la muestra.
6. Interpretacin de los resultados y toma de desiciones.

Media

Contraste de Hiptesis: Prueba de una muestra.

1. Establecemos las hiptesis, tipo de prueba y nivel de significacin


2. Elegimos las distribucin apropiada.
Distribucin Normal:
Distribucin t Student:
Desconocemos de la poblacin
Desconocemos de la poblacin
Muestra 30
Muestra 30
3. Establecemos el nivel de significacin y tipo de error a cometer.
4. Definicin de la regin de aceptacin o rechazo.
x
5. Clculo del error estndar de la media
n
Como desconocemos de la poblacin asumimos que
siguiente manera:
Error estndar estimado de la media

= s entonces la frmula quedara de la

x
n

Si conocemos el tamao de la poblacin y la fraccin de muestro n / N es mayor a 0.05 aplicar el


factor de correccin para poblaciones finitas N-n
N-1
Estandarizamos los valores originales de x con la siguiente frmula para distribucin normal:
con la siguiente frmula para distribucin t: t x

Z x Ho

6. Interpretacin de los resultados y toma de decisiones

Proporcin
1. Establecemos las hiptesis, tipo de prueba y nivel de significacin
2. Elegimos las distribucin apropiada. La distribucin binomial es tericamente la apropiada para
trabajar con proporciones, porque los datos son discretos. Sin embargo, al aumentar la muestra, la
distribucin binomial se aproxima a la normal. Siempre que n.p y n.q cada una sea al menos 5, se
puede utilizar la distribucin normal como aproximacin a binomial.
3. Establecemos el nivel de significacin y tipo de error a cometer.
4. Definicin de la regin de aceptacin o rechazo.
5. Clculamos el error estndar de la proporcin p = PHo . QHo
y estandarizamos Z = p PHo
n
p

6. Interpretacin de los resultados y toma de desiciones

Contraste de Hiptesis: Prueba de dos muestras


Para estudiar dos poblaciones la distribucin que nos interesa es la

distribucin muestral de

la diferencia entre medias mustrales. sta se obtiene de la toma de muestras de distintas


poblaciones y de su diferencia con respecto a las dos medias.
Diferencia postiva: Si x > x Diferencia negativa: Si x < x
La media de la distribucin muestral de la diferencia entre las medias mustrales se denota x - x .
Si las medias muestrales son de la misma poblacin entonces se anulan, de acuerdo al teorema del lmite
central.
La desviacin estndar de las diferencias entre medias mustrales, se conoce como error estndar

de la diferencia entre medias.

x-x () ()
n + n

Si no conocemos las dos desviaciones estndar de la poblacin, estimamos el error estndar utilizando
el mismo mtodo = s

x-x () ()
n + n

Prueba para diferencia entre dos medias: Muestras grandes


Si la muestra es 30 procedemos a estandarizar los valores con distribucin normal.
Z (x-x) (x - x )
x-x

Prueba para diferencia entre dos medias: Muestras


pequeas e independientes entre s

Cuando los tamaos de las muestras son 30, no se conoce de la poblacin y cada muestra
se eligi de manera independiente de otra, usamos la distribucin t student, pero con ciertos
cambios tcnicos:

1.

Como no se conoce de la poblacin debemos estimarla. Sabiendo que la muestra es pequea


y suponiendo que las desviaciones de poblacin son iguales ( = ), debemos usar un
promedio ponderado de las desviaciones de ambas muestras (s, s). El peso de cada muestra
son el nmero de grados de libertad (). Este promedio ponderado se le conoce como

estimacin conjunta de .

Sp

(n-1) . (s) + (n-1) . (s)


n + n - 2

2. Clculamos el error estndar estimado de la diferencia entre dos medias

muestrales

x-x Sp

.1
n

+ 1
n

Luego procedemos con la estandarizacin de las diferencias de las medias de la muestra

t (x-x) (x - x )
x-x

Prueba para diferencia entre dos medias: Muestras pequeas y


dependientes

El uso de muestras dependientes (o apareadas), permite llevar a cabo anlisis ms precizos,


porque permite controlar factores externos.

Se sigue el procedimiento bsico anterior de la prueba de hiptesis. Las nicas diferencias


consisten en:
1. Se emplea la misma frmula utilizada para el clculo del error estndar estimado de la
media para una sola muestra. = s
y estandarizamos t x
x

Conceptualmente, tenemos una muestra observada dos veces, es decir; dependientes.


2. Ambas muestras deber ser del mismo tamao.

Cundo tratar las muestras como dependientes o independientes?

Prueba entre proporciones: Muestras grandes


El procedimiento general a seguir es muy parecido al de comparacin de dos medias utilizando
muestras independientes. La nica diferencia importante se da en la forma de encontrar un
estimacin para el error estndar de la diferencia entre dos proporciones de muestra,
para ello es necesario utilizar las proporciones combinadas de xito de ambas muestras y obtener
una proporcin global estimada de xito en dos poblaciones.
Si la muestra es 30 usamos la distribucin normal para aproximar a la binomial.

Prueba de dos colas (bilateral)


1. Establecemos las hiptesis, tipo de prueba
2. Seleccionar el tipo de distribucin a usar o estadstico a contrastar en la prueba:
3. Establecemos el nivel de significacin y tipo de error a cometer.
4. Definicin de la regin de aceptacin o rechazo. En este caso es bilateral.
p- p p. q + p. q
5. Clculo del error estndar de la diferencia entre proporciones

n
n
Si no se conocen los parmetros de la poblacin, es necesario estimarlos
p- p p. q + p. q
a partir de la muestra, la frmula quedara:
n
Proporcin
poblaciones.

global

estimada

de

xito

en

dos

p n . p + n . p

Error estndar estimado de la diferencia entre dos proporciones


de muestra, usando estimaciones combinadas.

n
q1-p

n + n

p- p p. q + p. q
n

Estandarizamos la diferencia

Z (p- p) - (P- P )
p- p

Se anula si suponemos que no


hay diferencia entre las dos
proporciones de poblacin

Prueba de una cola (unilateral)


1. Establecemos las hiptesis, tipo de prueba. Con atencin a las referencias sobre una proporcin
><
2. Seleccionar el tipo de distribucin a usar o estadstico a contrastar en la prueba:
3. Establecemos el nivel de significacin y tipo de error a cometer.
4. Definicin de la regin de aceptacin o rechazo. En este caso es unilateral.
5. Clculo del error estndar estimado de la diferencia entre proporciones, para ello necesitamos
calcular la proporcin global estimada de xito. Luego proceder a estandarizar las proporciones
de muestra ( p- p)

Prueba de Independencia: Prueba Ji - cuadrada


Nos permite probar si ms de dos proporciones de poblacin pueden ser consideradas iguales.
Determinar si los atributos de una poblacin clasificada en categoras, son independientes entre s

Los datos vienen dados a partir de una tabla de frecuencias.


Partimos del principio de Independencia P (AB) = P ( a ) . P ( b)
1. Establecemos las hiptesis.
2. Seleccionar el tipo de distribucin a usar o estadstico a contrastar en la prueba. ()
3. Establecemos el nivel de significacin, si no viene dado.
4. Definicin de la regin de aceptacin y rechazo.
5. Calculamos la frecuencias esperadas para cada celda de la tabla de frecuencias
(fe) Total de filas x Total de columnas / Total general
6. Calculamos el estadstico Ji - cuadrado (fo - fe)
fe
7. Calculamos los grados de libertad (fila - 1) . (columna - 1)
Bosquejamos la distribucin y observamos si los criterios Son Independientes o No Independientes.

https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8
&ved=0CCIQFjAB&url=http%3A%2F%2Fwwwyyy.files.wordpress.com%2F2013%2F03%2F
presentacic3b3n-de-contraste-dehipc3b3tesis.ppt&ei=CvWhVInpL8GrgwTNxIHwDQ&usg=AFQjCNHyH5YuYyugPL0sWiBxt5QkTxiGQ&bvm=bv.82001339,d.eXY

Potrebbero piacerti anche