Estadística 2pp

Tema 10: TCNICAS INFERENCIALES
Cuando buscamos informacin acerca de una poblacin, pero slo disponemos de datos
de una muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa
poblacin. Los conceptos y tcnicas que satisfacen esta necesidad constituyen la Inferencia
Estadstica.
1. ESTIMACIN DE PARMETROS
Con Ia estimacin de parmetros deseamos estimar eI vaIor de ese parmetro, a
travs de un estadstico caIcuIado en Ia muestra. La inferencia en Ios distintos niveIes de
medicin se reaIizar a travs de P y .
Un estimador es un procedimiento expresado a manera de frmuIa por medio deI
cuI se obtiene un vaIor numrico denominado estimacin.
1.1. Estimacin intervaIar
Consta de dos puntos definidores de un intervalo (lmites de confiana!, que seg"n
nuestras estimaciones contienen el par#metro poblacional que nos interesa, e.d., podemos
estimar el par#metro $ dentro de un intervalo a y b, en el que a y b se obtienen de
observaciones de la muestra y podemos afirmarlo a un nivel de confiana determinado.
EI principaI objetivo de Ia estadstica inferenciaI consiste en precisar eI vaIor
desconocido de Ios parmetros pobIacionaIes a partir de Ios resuItados obtenidos en
muestras aIeatorias.
%racias a la teora del error muestral podemos resolver la discrepancia e&istente entre
valores muestrales y poblacionales. $ara ello construimos intervalos dentro de los cu#les para
un nivel de confiana prefi'ado podemos asegurar que se encontrar# el verdadero valor del
par#metro poblacional.
Estudiando eI estadstico obtenido en Ia muestra y su error tpico podemos
determinar por Ias propiedades de Ia curva normaI a qu distancia mxima se encontrar
eI verdadero vaIor; dicha distancia constituir eI intervaIo dentro deI cuaI podemos
asegurar que se encuentra eI vaIor pobIacionaI.
2. LA DISTRIBUCIN MUESTRAL
Una distribucin muestraI es una distribucin probabiIstica terica de estadsticos
pertenecientes a muestras, p.e. medias proporciones.
(e obtiene una distribucin muestral cuando se toman todas las muestras aleatorias
simples (cada una de ellas con al menos un elemento diferente! de tama)o * de una misma
poblacin, se calcula un estadstico por cada muestra (p.e. medias o proporciones! y se
distribuyen dic+os estadsticos alrededor del par#metro que estiman. E'., de una nacin se
coge una muestra de -... y se calcula la de edad, si repetimos con todas las muestras
posibles de -..., obtendremos una distribucin muestral de medias de edad.
2.1. EI teorema deI Imite centraI
Es muy importante en estadstica. La suma de gran cantidad de variables aleatorias
independientes siempre tiene una distribucin apro&imadamente normal. La distribucin de
dic+a suma ser# tanto m#s parecida a la normal cuanto mayor sea el n"mero de variables
aleatorias. El teorema central del lmite e&presa cuantitativamente la rapide de esta
convergencia.
Lo que nos dice el teorema es que las medias de las muestras aleatorias simples
e&tradas de una poblacin que se distribuye normalmente, dar#n lugar a una distribucin
muestral que tambin es normal, aunque * sea peque)o.
1.3. La Ley de Ios grandes nmeros
(eg"n esta ley la diferencia entre una poblacin dada y una muestra decrece conforme
aumenta el tama)o muestral.
/ partir de cierto tama)o muestral, el error muestral se +ace tan peque)o que un
aumento del tama)o muestral no compensara el incremento de los costos.
La importancia de esta ley es muy grande, ya que al ser la distribucin muestral la que se
utilia en las pruebas de significacin, ello quiere decir que cuando * es suficientemente
grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la
poblacin, pudiendo aplicar las propiedades de la curva normal, ya que la distribucin muestral
tiende a apro&imarse a la normalidad.
Gracias aI teorema deI Imite centraI y Ia Iey de Ios grandes nmeros podemos
afirmar que Ia distribucin de Ios estimadores en eI muestreo ser una distribucin
normaI.
3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIN
MUESTRAL
La tendencia central de una distribucin muestral se denomina valor esperado de un
estadstico y se representa por E(!.
(i el promedio o valor esperado de un estadstico es el par#metro que estima, entonces
se dice que el estadstico es un estimador no sesgado del par#metro. Cualquier diferencia que
se produca entre un estadstico concreto y su par#metro es atribuible por ello m#s bien a un
error aleatorio.
4. DISTRIBUCIONES MUESTRALES DE MEDIAS
La medida de error muestral que indica la magnitud de las desviaciones de los
estadsticos se denomina error tpico, para distinguirlo de otras desviaciones tpicas.
Segn Ia Iey de Ios grandes nmeros aI aumentar Ia muestra disminuye eI error
tpico, e.d, que aI aumentar N Ios estadsticos se agrupan con mayor proximidad
aIrededor de sus respectivos parmetros.
PROPIEDADES:
0. La distribucin muestral de medias se apro&ima a la curva normal (por el
teorema del lmite central y la ley de los grandes n"meros!. En la pr#ctica pensaremos que
n 1. para servirnos de las medidas de la curva normal.
-. /l ser una distribucin de frecuencias es posible calcular medidas de tendencia
central, variacin, etc.
1. La de una distribucin muestral de medias es igual a la verdadera de la
poblacin.
2. La es menor que la de la poblacin3 esto se debe a que tomamos valores
medios, eliminando los valores e&tremos.
$odemos decir que entre
0
45,-46
-
78,286
1
77,916
e.d., entre la m#s o menos una desviacin tpica de esa distribucin muestral de se
encontrar#n el 45,-46 de las medias muestrales de la distribucin muestral de medias.
$ara traba'ar ba'o la curva normal +ay que +ablar de unidades :, que se estandarian
para la distribucin muestral de medias,
& ; ;
: < ;;;;;; < : < ;;;;;;;;
(
< media muestral

< < media de poblacin o media de medias
= desviacin tpica de Ia distribucin muestraI de medias; error tpico de Ia

media.
4.1. ERROR TPICO DE LA
El investigador rara ve escoge m#s de 0 - muestras, que espera poder generaliar a
la poblacin, pues el procedimiento de completar una distribucin muestral de medias sera tan
costoso como analiar a casi todos los miembros de la poblacin.
*o se tiene pues un conocimiento real de la , pero s un buen mtodo para estimar la
desviacin tpica de la distribucin muestral de medias sobre la base de datos recogidos en una
sola muestra.
Con Ia ayuda deI error tpico podemos encontrar eI rango de vaIores de Ia ,
dentro deI cuI es probabIe que fIucte nuestra verdadera pobIacionaI.
Cuanto m#s peque)o sea el error tpico, m#s fiable es el estadstico. La cuanta del error
tpico depende del tama)o de la muestra3 al aumentar la muestra disminuye el error tpico <=
las muestras grandes engendran estadsticos m#s fiables que las peque)as.
A todo estadstico Ie corresponde una distribucin muestraI y un error tpico.
La media de una muestra es una estimacin insesgada de la media de la poblacin, e.d.,
la de la muestra puede ser mayor menor que la de la poblacin. (i se e&traen muc+as
muestras y se promedian sus medias, el resultado tiende a la media de la poblacin al
aumntar el tamano de la muestra.
* * * V E R F O R M U L A R I O P A R A E R R O R T P I C O
D E L A M E D I A * * *
4.2. INTERVALOS DE CONFIANZA
EI intervaIo de confianza se define como eI vaIor de Ias puntuaciones directas
entre Ias cuIes afirmamos, a un niveI de confianza dado, que se encuentra eI parmetro
que consideramos. EI intervaIo de confianza tiene un Imite inferior y un Imite superior,
que son Ios Imites de confianza.
(e +a convenido utiliar como intervalo de confiana los de 786, 78,286, 776 y
77,916, por medio de los cu#les se estima la media poblacional, sabiendo p.e. que +ay 78
oportunidades entre 0.. de estar en lo cierto y un 8 de equivocarse, e.d., el nivel de confiana
sera la parte de la distribucin muestral que yo tomo para +acer la estimacin.
/l realiar una estimacin pienso que la media muestral a travs de la cu#l +ago la
inferencia caer# en ese intervalo con un 786 de probabilidades, aunque s que +ay un 86 de
que quede fuera.
Cuanto m#s amplio sea el intervalo, tanto menos se acerca a dic+o par#metro, e.d., al
aumentar el nivel de confiana se sacrifica tambin en grado de precisin al se)alar la media
poblacional.
Estimaciones de Ia a partir de una soIa muestra
(eg"n la adaptacin de la distribucin muestral de la media a la curva normal, sabemos
que con un nivel de confiana de 776 y conociendo la , la verdadera media de la poblacin
no se apartar# de en m#s de -,85
.
(;! -,85
Como formulacin general de la estimacin de par#metros tendremos,

Estimador factor de confiabiIidad x error tpico deI estimador
Zo
P ( - Z
< < + Z
) = Nc Ns
:o
nos dar# la distancia m#&ima entre y . : depende del nivel de confiana
dado.
Conociendo el error tpico del estadstico en la distribucin muestral, el intervalo ser# el
producto del *c por dic+o error.
5. DISTRIBUCIN T DE STUDENT
Cuando las muestras son peque)as (n < 30) en la estimacin de medias deberemos
utiliar la distribucin t de (tudent, que depende del *s y de los grados de libertad. El intervalo
viene dado por,
t
t = Z
La distribucin t correspondiente se aseme'a muc+o a la distribucin normal, y veremos
que se aplica una distribucin t de la misma manera en la que se +ace con una distribucin
normal.
Caractersticas:
0. >ay una familia de distribucin t (una distinta para cada valor de n!.
-. Cada curva t es simtrica a los dos lados de ..
1. < .3
-
es algo superior a 0
2. el punto m#s alto de la curva viene dado por t < ..
8. ?ebe calcularse la puntuacin t para traba'ar con la distribucin t,
;
t < ;;;;;;;;

< ;;;;;;;
n
4. El #rea ba'o la curva es igual a 0.
9. $ara la estimacin intervalar la frmula ser#,
t
P ( - t
< < + t
) = Nc Ns
t
= error absoIuto; distancia mxima entre y .

Grados de Iibertad
El n"mero de grados de libertad de un estadstico es denominado generalmente por la
letra v. (e define como el n"mero de observaciones independientes en la muestra (e.d. el
tama)o muestral! menos el n@ de > par#metros de la poblacin que deben estimarse a partir de
las observaciones de la muestra.
v < gl < * ; >
v = gI = N-1 (para par#metros!
TabIas de distribucin t de Student
/parecen *s para 0 - colas, llamadas pruebas unilaterales o bilaterales. $ara
estimaciones de par#metros se utilian pruebas bilaterales. / la iquierda se sit"an gl (df!, que
son lo grados de libertad.
6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES
La proporcin es una frecuencia relativa,
n
$ < ;;;
*
La suma de todas las proporciones es igual a 03 cada proporcin es 0. El porcenta'e es
la proporcin A 0... $ < poblacin3 p < muestras.
Estimaremos proporciones igual que acabamos de estimar las medias.
Bodos los estadsticos, tanto las medias como las proporciones, tienen su propias
distribuciones muestrales3 lo dic+o para la distribucin muestral de medias vale para la
distribucin muestral de proporciones.
Cuc+as veces el investigador busca presentar una estimacin de una proporcin
poblacional con base en la proporcin que obtiene en una muestra aleatoria, p.e. Dcu#l es la
proporcin de los votos que ir#n a un partidoE
La distribucin muestraI de proporcin 'p' est caIcuIada con base en muestras
aIeatorias simpIes de tamao 'n', sacadas de una pobIacin en Ia que Ia proporcin
pobIacionaI es 'P'. Est distribuida normaImente si 'n' es grande.
(i e&traemos distintas muestras y calculamos su proporcin podemos realiar una
distribucin muestral de proporcin.
PROPIEDADES:
0. la media de la distribucin muestral de proporcin es igual a la proporcin poblacional
p < $
-. La distribucin muestral de proporcin es apro&imadamente normal si np nq = 8.
(i p < .,8. la distribucin es apro&imadamente normal si n = 1.. $ero si $ est# cerca
de . de 0 la distribucin muestral de proporcin tender# a tener un e&tremo m#s
largo a la iquierda o a la derec+a, y deber# aumentar para tener una apro&imacin a
la
curva normal. /l ser una distribucin de frecuencias podemos calcular entonces
tendencia central, variacin, etc.
1. $s 0 p 45, -46
$s - p 78,286
$s 1 p 77,916
Entre la proporcin muestral $s y 0 p, -p y 1 p se encuentran respectivamente el
45,-46, 78,286 y 77,916 de proporcin de esta distribucin muestral de proporcin.
8. >ay que estandariar las unidades :,
$s ; $
: < ;;;;;;;;
p
$s < proprocin muestral3 $ < proporcin poblacional
p = desviacin tpica de Ia distribucin muestraI de proporcin.
6.1. ERROR TPICO DE LA PROPORCIN
Es la desviacin tpica de esa distribucin muestral que nos da la fiabilidad del
estadstico. Cuanto menor sea, me'or ser# la estimacin.
* * * V E R F O R M U L A R I O P A R A E R R O R T P I C O
D E L A P R O P O R C I N * * *
4.2. INTERVALOS DE CONFIANZA
Estimador factor de confiabiIidad + error tpico deI estimador
P Zp
P(Ps - Zp < P < Ps + Zp) = Nc Ns
P (p - Zp < P < p + Zp) = Nc NS
?eber#n utiliarse en general muestras grandes para la estimacin de proporciones,
pues sino da unos intervalos e&cesivamente amplios que poco pueden decirnos como
informacin.
E S T A D S T I C A ( 2 p p )
Tema 1: PRUEBAS DE HIPTESIS - Teora
La inferencia estadstica se ocupa de Ia obtencin de concIusiones en reIacin a
un gran nmero de sucesos, en base a Ia observacin de una muestra obtenida de eIIos.
Los mtodos de la estadstica inferencial se)alan los procedimientos que se +an de
seguir para poder e&traer conclusiones v#lidas y fiables, a partir de la evidencia que
suministran las muestras.
Las pruebas estadsticas determinan cu#l +a de ser el tama)o de las diferencias
observadas para tener la seguridad de que representan diferencias reales en la poblacin de la
que +emos tomado la muestra.
0. Se trata de ver si Ia diferencia es debida aI azar o reaImente a que Ia dos
muestras provienen de dos pobIaciones diferentes.
-. Ftra parte de la estadstica inferenciaI es saber si un valor obtenido, p.e. una
proporcin a partir de una muestra pertenece realmente a una poblacin.
Estas dos pruebas de comparacin son las pruebas de +iptesis, que pueden ser,
A paramtricas: establecen un buen n"mero de restricciones sobre la naturalea de la
poblacin de la que se obtienen los datos, siendo los Gpar#metrosG los valores
numricos de la poblacin.
A aparamtricas: (o de Glibre distribucinG! no e&igen tantas restricciones sobre la
naturalea de la poblacin, ya que atienden m#s a la ordenacin de los datos que a su
valor numrico.
1. EL USO DE LAS PRUEBAS DE DECISIN ESTADSTICA EN LA INVESTIGACIN
SOCIAL
Los pasos est#ndar a seguir son,
1. FormuIacin de Ia hiptesis nuIa (H0) y de Ia hiptesis aIternativa (H1), que han
de ser excIuyentes entre s.
La >. es la +iptesis que se desea contrastar. (uele ser formulada con el deliberado
propsito de ser rec+aada para aceptar la >0.
La >0 es la proposicin operacional de la +iptesis de traba'o que desea contrastar el
investigador.
Las +iptesis pueden ser H, =, < o .
2. EIeccin de una prueba estadstica
>ay una gran variedad. La propia naturalea de los datos obtenidos en la fase emprica
de la investigacin indicar# si la prueba estadstica elegida +a de ser paramtrica o
aparamtrica.
En funcin de , $, muestras grandes o peque)as, nosotros partimos en principio de
datos aleatorios e independientes.
3. Especificacin de un niveI de significacin y de un tamao de muestras para
determinar Ia regin crtica.
El *s es un valor probabilstico muy peque)o, que se establece con anterioridad a la
obtencin del resultado. (u funcin es, se rechazar H0 en favor de H1 cuando Ia prueba
estadstica d Iugar a un vaIor cuya probabiIidad de que ocurra bajo H0 es iguaI o menor
que Ns. Los valores que se suelen utiliar son .,.8 y .,.0.
*unca se puede estar seguro al aceptar o rec+aar >., pues nos desenvolvemos en el
campo de las probabilidades. El elegir >. >0 comporta siempre un riesgo. (on dos las
posibilidades de cometer un error,
Bipo 0, se rec+aa >. cuando se deba de aceptar.
Bipo -, se acepta >0 cuando deba ser rec+aada.
El niveI de significacin indica la probabilidad de cometer el error Bipo I3 e.d., un valor
ba'o el cu#l se rec+aa la >. cuando de +ec+o es verdadera.
La probabilidad de cometer un error tipo 0 se llama riesgo de primera especie o riesgo .
El error tipo - se suele representar por , que siempre es desconocido y vara en relacin
inversa al valor . Es preferible, en lugar de disminuir y con ello aumentar , el aumentar el
tama)o de la muestra *. Esto conduce directamente a una disminucin de la probabilidad de
cometer .
4. EIeccin de una prueba estadstica para contrastar H0; determinar eI estadstico
apropiado.
5. Encontrar Ia distribucin muestraI de Ia prueba estadstica en eI supuesto de H0,
estabIeciendo Ias zonas de aceptacin o de rechazo.
E&isten tres tipos de distribucin de datos,
la distribucin de Ia pobIacin, caracteria la distribucin de los elementos de
una poblacin3
la distribucin de muestras3 caracteria la distribucin de los elementos de
una muestra.
la distribucin muestraI3 permite describir la conducta esperada de un
elevado n"mero de muestras aleatorias simples pertenecientes a una misma poblacin.
La distribucin muestral utiliza unidades que son medidas resumen de muestras
completas de valores, en lugar de valores individuales de caractersticas de casos nicos (se
realiza para todos los niveles de medicin). Una distribucin muestral es una distribucin
probabilstica terica de estadsticos - p.e. medias o proporciones - pertenecientes a muestras.
En la pr#ctica, se e&trae una muestra, se calcula el correspondiente estadstico y
apoy#ndose en diversos teoremas matem#ticos ya contrastados, se utilia el conocimiento
adquirido sobre la naturalea de la distribucin muestral para generaliar el correspondiente
par#metro de la poblacin.
Los errores tpicos por lo general miden la variacin aleatoria de la estadstica alrededor
de los par#metros que tratan de estimar, y su tama)o depende, en parte, de la muestra de la
que se calcula el estadstico.
2. ZONAS DE ACEPTACIN Y ZONAS DE RECHAZO.
PRUEBAS UNILATERALES Y PRUEBAS BILATERALES.
La regin de rechazo es una ona de la distribucin muestral. El resto de la distribucin
muestral que no es ona de rec+ao es ona de aceptacin.
La IocaIizacin de Ia regin de rechazo viene afectada por Ia naturaIeza de Ia H1, ya
que cuando dicha hiptesis predice Ia direccin de Ia diferencia hay que utiIizar una
prueba estadstica uniIateraI (H1 : pa < p / H1 : pa > p).
Si Ia H1 no indica Ia direccin de Ia diferencia que se predice, hay que utiIizar una
prueba estadstica biIateraI (H1 : pa = p / H1 : pa p).
Las pruebas estadsticas uni y bilateral difieren en la localiacin de la regin de rec+ao,
pero no en su tama)o,
A uniIateraI, 0 ona de aceptacin y 0 de rec+ao3 la ona de rec+ao se encuentra
totalmente en un e&tremo de la distribucin muestral.
A biIateraI, 0 ona de aceptacin y - de rec+ao3 la regin de rec+ao se localia a
ambos e&tremos de la distribucin muestral.
El tama)o de la regin de rec+ao viene dado por el nivel de significacin *s3 p.e. si *s
< .,.0 el tama)o de la regin de rec+ao es del 06 del espacio incluido ba'o la curva de la
distribucin muestral
* VariabIe nominaI, permite la clasificacin de los individuos u ob'etos en clases o
categoras meramente descriptivas ; estado civil, se&o, religin.
* VariabIe ordinaI3 adem#s de clasificar, ordena, seg"n se posea en mayor o menor
grado la caracterstica que se pretende medir ; nivel de estudios, grado de satisfaccin,
posicin ideolgica.
* VariabIe de intervaIo3 clasifica, ordena y adem#s especifica las distancias e&istentes
entre las distintas categoras ; edad, estatura, ingresos, renta per c#pita.
Tema 2: PRUEBAS DE HIPTESIS - Prctica
1. PRUEBAS DE HIPTESIS PARA UNA SOLA MUESTRA
(todos Ios niveIes de medicin - , P)
*ivel de medicin nominal $ (proporcinIporcenta'e!
*ivel de medicin ordinal $ (proporcinIporcenta'e!
*ivel de medicin intervalar (medias!
Bambin pueden +acerse estimaciones de 6 en el nivel de medicin intervalar, pues
todo lo que es v#lido para niveles de medicin inferiores es posible utiliarlo en los niveles
superiores, pero no a la inversa.
Las pruebas de +iptesis con una sola muestra no tienen e&cesivo inters3 nos interesa
m#s contrastar dos muestras de modo que, p.e. podamos determinar si en dos poblaciones el
6 de abstencin es o no similar.
Comenamos con la suposicin previa de un par#metro poblacional (, $!, y despus
recurrimos al estadstico de la muestra obtenida en forma aleatoria (, p! para decidir si la
suposicin acerca del par#metro poblacional es o no probable.
(eg"n el teorema deI Imite centraI, si +ipotticamente e&tra'eramos pares de muestras
de una poblacin normal, calcul#semos sus medias y a continuacin las rest#semos, la serie
de diferencias obtenidas se distribuira normalmente (tambin vale para subgrupos de una
misma poblacin.
En resumen, estas pruebas estadsticas se utiIizan principaImente para determinar
si Ios vaIores muestraIes se corresponden con Ia masa centraI de Ios datos de una
pobIacin o si por azar hemos tomado Ios ms extremos y por tanto, Ios menos
probabIes.
1.1. Medias y Proporciones
Comenaremos con una suposicin a priori del valor de la media de la poblacin.
?espus utiliamos la de la muestra, calculada a partir de una muestra obtenida de forma
aleatoria de una poblacin para decidir si es probable esta suposicin acerca de . (e trata de
contrastar los valores observados de una sola variable en una muestra en relacin con los
valores que toma dic+a variable en la poblacin.
(e pueden plantear distintas +iptesis alternativas,
>0, ($! un cierto valor >0, ($! H un cierto valor >0, ($! = un cierto
valor
Jecordemos que los pasos a seguir en la e'ecucin de las pruebas de +iptesis son,
0. $lanteamiento de las +iptesis >0 y >..
-. Bipo de prueba, unilateral o bilateral, en funcin del planteamiento de >0.
1. *ivel de confiana o nivel de significacin (*c o *s!.
2. C#lculo de la prueba.
8. :onas de aceptacin y rec+ao de la >..
4. Interpretacin
1.2. Distintas formas de aceptar o rechazar una hiptesis
(Z, t, probabiIidad y vaIor crtico)
K#lido para los tres niveles de medicin la aceptacin de +iptesis puede considerarse
como una admisin de que la +iptesis se encuentra raonablemente cercana a la situacin
real, y desde el punto de vista pr#ctico, puede tratarse como si representase una situacin real.
A. En trminos de Z y t
(e acepta >. si los valores obtenidos en el c#lculo de la prueba est#n en los lmites
establecidos como onas de aceptacin y se rec+aa en caso contrario. Los valores crticos de
: son,
unilateral bilateral
al *c de 786 0,428 786 L o ; 0,74
al *c de 776 -,11 776 L o ; -,85
Cuando las muestras son peque)as M:M se sustituye por MtM. Los valores de MtM se buscan
en las tablas de la distribucin t en funcin de,
prueba unilateral o bilateral
nivel de significacin o de confiana
grados de libertad.
B. En trminos de probabiIidad
Los lmites de aceptacin y rec+ao los da *c y *s, p.e.3 si +ay una probabilidad de 96
de que >. se de, dado el *c < 786 o *s < 86 podemos considerar que como 96 = 86
aceptamos >..
(i e&iste una probabilidad de que >. d un 16, es inferior a 86, por lo que se rec+aa la
>. y acepta >0. En definitiva, si es muy poca la probabilidad de que un >. se d, es que +ay
que aceptar >0.
En el caso de las pruebas bilaterales +ay que dividir en dos la *s, si se supone que la
probabilidad de : est# en los lmites indicados.
Bilateral
Unilateral
*ormalmente se suele traba'ar con *s < .,.8, lo que indica que el investigador est#
dispuesto a asumir un 86 de probabilidades de estar equivocado al rec+aar >..
2. PRUEBAS DE HIPTESIS PARA DOS MUESTRAS
%eneralmente se suelen realiar comparaciones entre dos o m#s muestras con el fin de
estudiar, p.e. si un segmento de la poblacin es m#s religioso que otro o tiene un mayor o
menor nivel de educacin. $ero adem#s podemos determinar si las diferencias observadas
entre dos muestras significan que las poblaciones de las que +an sido e&tradas son realmente
distintas entre s (< pruebas de +iptesis de dos muestras!.
El uso de esta +erramienta estadstica viene limitado por que,
Ias observaciones sean independientes y aIeatorias;
hayan sido extradas de una pobIacin normaI;
Ias varianzas muestraIes sean homogneas.
A. La prueba de Ia diferencia entre dos medias
Esta prueba consiste en esencia en comparar dos muestras aleatorias que se diferencian
con respecto a una variable, con el fin de contrastar +asta qu punto las diferencias observadas
se pueden considerar o no significativas.
$ara llevar a cabo las comparaciones se +a de calcular un cociente o ratio entre la
diferencia observada en las medias muestrales, y la diferencia que cabra esperar desde un
punto de vista aleatorio, lo que conduce a que se tenga que calcular una puntuacin tpica y un
trmino de error tpico.
B. La prueba de Ia diferencia entre dos proporciones
Cuando los datos vienen dados en 6 se convierten f#cilmente en proporciones
dividiendo por 0.. cuando se va a realiar una prueba de decisin estadstica.
%eneralmente slo se dispone de las proporciones muestrales p0 y p-, que son
estimaciones de las proporciones de las subpoblaciones de las muestras $0 y $-. $ara
conseguir
*0 p0 L *- p- *0 < n@ de casos de la primera muestra
p < ;;;;;;;;;;;;;;;;;;; *- < n@ de casos de la segunda muestra
*0 L *-
Tema 3: EL ANLISIS DE LA VARIANZA (3 muestras o ms)
Es una tcnica estadstica que se utilia para comparar medias observadas, bas#ndose
en el c#lculo de la variana entre medias, y sueIe utiIizarse cuando se somete a prueba una
reIacin entre una variabIe nominaI u ordinaI, y una variabIe de intervaIo o entre dos o
ms variabIes de intervaIo.
Si Ia diferencia entre Ias dos estimaciones es reIativamente pequea, se puede
atribuir aI azar y considerar a Ia pobIacin como homognea.
Si Ia diferencia es muy grande, se rechazar Ia H0 y se aceptar Ia H1, de que Ias
dos estimaciones de varianza se refieren a dos pobIaciones diferentes.
EI anIisis de varianza permite comparar simuItneamente Ios datos de todos Ios
grupos como un conjunto y determinar si Ias diferencias entre Ias medias de Ios
distintos grupos anaIizados son significativamente diferentes.
Los supuestos estadsticos son,
+an de ser muestras aleatorias simples3
los datos (intervalo! +an de distribuirse normalmente 3
las varianas de la poblacin deben ser iguales.
Kamos a considerar el caso m#s com"n de cmo comparar las medias de varias
muestras e&tradas aleatoriamente con una sola variable independiente.
E'emplo, Cuestra 0 , media salario 0.-....
Cuestra - , media salario 0-1....
Cuestra 1 , media salario 0......
* Varianza entre grupos: dispersin de Ias medias de Ios grupos respecto a Ia
media totaI.
* Varianza dentro de Ios grupos: dispersin de Ias puntuaciones en cada grupo
particuIar.
* Varianza totaI: dispersin de todos Ios vaIores individuaIes con independencia
deI
grupo aI que pertenecen.
La pregunta que debemos pIantearnos es si Ias diferencias observadas entre Ias
medias se deben aI azar o no.
La >. afirma que las diferencias que se puedan observar entre las medias de los grupos
son producto del aar,
>. , 0 < - < 1 ... < n
>0 , 0 - 1 ... n las diferencias s son significativas3 no se deben al aar
1. ANLISIS DE LA VARIANZA CON UN SLO FACTOR
El concepto de Ia suma de cuadrados (SC) est# en el centro del an#lisis de la variana
y representa el paso inicial para medir la variacin total, as como la variacin entre los grupos
y dentro de ellos.
La suma de cuadrados dentro de Ios grupos (Scd) nos da la suma de las desviaciones
de cada puntuacin con su media muestral elevadas al cuadrado,
(x)
2
SCd = [ (x
2
) - ------ ]
N
SCd = SCt - SCent
La suma de cuadrados entre Ios grupos (SCent) representa la suma de las
desviaciones de cada media muestral respecto de la media total llevadas al cuadrado,
(x)
2
(x totaI)
2
SCent = [ ------ ] - -------------
N N totaI
La suma totaI de Ios cuadrados (SCt), e.d., la suma de las desviaciones de cada
puntuacin con respecto a la media total elevadas al cuadrado, es igual a una combinacin de
sus componentes,
SCt = SCent + Scd
(x totaI)
2
SCt = x
2
totaI - ------------
N totaI
1.1. PASOS A SEGUIR EN EL CLCULO DE LA VARIANZA:
0. Establecer la >. y >0, que siempre ser#n iguales, >. , 0 < - < 1 ... < n
>0 , 0 - 1 ... n
-. Calcular la media de cada muestra
1. (uma total de cuadrados
2. (uma total de cuadrados entre los grupos
8. (uma total de cuadrados dentro de los grupos
4. %rados de libertad entre los grupos
gIent = K - 1 (N < n@ de grupos!
9. %rados de libertad dentro de los grupos
gId = NtotaI - K
gId = gIt - gIent
5. %rados de libertad para el total
gIt = N - 1
7. Estimacin de la variana entre grupos
SCent
Vent = --------
gIent
0.. Estimacin de la variana dentro de los grupos
SCd
Vd = -------
gId
00.Jan O
Vent
F = ------
Vd
uscar con gld ! glent el valor de " en las tablas.
0-.Interpretacin comparando nuestro valor O con el de las tablas.
Si F < 1 => H0 es cierta, Ias medias son iguaIes
Si F > 1 => acudir a tabIas para ver eI vaIor; H1 se acepta
Si Fc y Fe se acercan entre s y a Ia unidad es que H0 es cierta
Si Fe > Fc => Ias medias de Ios distintos grupos difieren entre s; H1
se
acepta.
Si Fe < Fc => Ias medias de Ios distintos grupos no difieren entre s;
Ias
diferencias son producto deI azar; se acepta H0.
Prueba F
La Ley (nedecor ofrece los valores de la distribucin muestral de O, con lo cual se puede
conocer para cada valor de O que se +a obtenido, el riesgo que se corre al rec+aar >..
2. EL ANLISIS DE VARIANZA POR RANGOS DE KRUSKAL-WALLIS
Es una prueba de estadstica que se utiIiza cuando se dispone de varias muestras
aIeatorias independientes y de una variabIe ordinaI.
$ermite contrastar si las diferencias que presentan los valores muestrales, significan
diferencias problacionales reales o variaciones al aar, como las que cabe esperar si se
e&tra'eran muestras aleatorias de una misma poblacin.
>. , las muestras provienen de la misma poblacin
>0 , las muestras no provienen de la misma poblacin.
En esta prueba se opera con rangos, en lugar de * observaciones.
12 Rj
2
H = ------ ------ - 3 (N + 1)
N(N+1) nj
J' < suma de los rangos en la columna '
n' < n@ de casos en la columna ' I * < n@ total de observaciones
Es un test no paramtrico y no e&ige que la forma de la distribucin de la poblacin sea
normal. Lo que necesita es que las muestras sean aleatorias y que los datos figuren ordenados
por rangos.
3. COMPARACIN MLTIPLE DE MEDIAS DE LA DSH DE TUKEY
Cuando en un an#lisis simple de variana la O es significativa, se puede afirmar que las
diferencias entre las medias de las muestras no son casuales y responden a la e&istencia de
una diferencia relevante. $ero lo que no nos dice es si todas las medias difieren
significativamente unas de otras. La F nos seaIa que aI menos dos de eIIas difieren, pero
no nos dice cuIes son.
Para averiguar esta diferencia podemos utiIizar Ia DSH siempre que Ia F haya dado
significativa (= hay que rechazar Ia H0) y que eI tamao de Ias muestras sea eI mismo.
$or el mtodo de BuPey comparamos la diferencia entre dos medias cualquiera con la
?(>.
Vd
DSH = q -----
n
q < un valor de la tabla a un *c dado para el n@ m#&imo de medias que se est#n
comprobando.
Kd < variana dentro de los grupos I n < n@ en cada grupo (es el mismo para cada grupo!
La ?(> toma en cuenta que la probabilidad de error se incrementa a medida que
aumenta el n"mero de medias que se est comprobando.
?ependiendo del valor de q, mientras mayor sea el n"mero de medias, m#s
GconservadoraG se volver# la ?(> en cuanto al rec+ao de la >..
Si DSH > que Ias diferencias entre Ias medias ==> diferencia significativa
Si DSH < que Ias diferencias entre Ias medias ==> diferencia no significativa
Si DSH crtico > DSH emprico => H0 correcta.
Las +iptesis para ?(> son, >. , 0 < - >0 , 0
-
>. , 0 < 1 >0 , 0
1
>. , - < 1 >0 , -
1
Tema 4: ESTADSTICA BIVARIABLE
1. DISTRIBUCIONES BIVARIABLES
$ermiten analiar las condiciones que influyen en la distribucin de una variable. /s, a
parte de estudiar la preferencia poltica del 0 al 0. y de iq. a dc+a., tambin se tiene en cuenta
el nivel educacin, religin, etc.
EscaIa izq-dcha. entre pobIacin segn niveI de educacin
EscaIa /lto Cedio Qa'o Botal
Iq. (0 ; 2 ! d0 d2 d9 Q0
Centro (8 ; 4! d- d8 d5 Q-
?c+a. (9 ; 0.! d1 d4 d7 Q1
n0 n- n1 *
(i se trata de porcenta'es esta tabla recibe el nombre de distribucin porcentual
bivariable, ya que permite e&aminar la distribucin porcentual de una variable dependiente
(ideologa! dentro de las diferentes categoras de otra variable independiente (nivel de
educacin!.
2. PRESENTACIN Y ANLISIS DE UNA TABLA BIVARIABLE
Cuando se puede distinguir entre variabIes, Ia dependiente se sita en fiIas y Ia
independiente en coIumnas.
/dem#s de los valores de las celdillas se suelen calcular dos subtotales, el de las filas
(ni0! y el de las columnas (n0'! y un total global (*!.
Cuando no es posible distinguir entre variable independiente y dependiente, la
colocacin en filas o columnas se +ace siguiendo la conveniencia del analista.
La distribucin porcentuaI bivariabIe presenta me'or los resultados para poder
comparar3 no slo se puede e&aminar directamente la distribucin global de una variable
dependiente, sino tambin las condiciones que se supone influyen en la manera en que se
distribuye dic+a variable. *os ayuda a e&plicar el nivel de alg"n tipo de fenmeno p.e. actitud
poltica ; religiosidad.
2.1. CIcuIo de porcentajes en una tabIa bivariabIe
Lo m#s +abitual es que las tablas refle'en en 6 en lugar de frecuencias absolutas, para
facilitar comparaciones numricas. Los porcenta'es se pueden calcular,
bien utiIizando eI totaI de Ias coIumnas como base
bien utiIizando eI totaI de Ias fiIas como base
bien utiIizando eI gIobaI como base.
DRu comparacin debe facilitarse, la de las cifras de las columnas o filas E Como regla
general aceptamos que los 6 deben calcularse en el sentido del factor GcausalG o de la variable
independiente, e.d., que los 6 de cada columna (variable independiente! deben sumar 0...
n0
6 < ;;;; & 0..
*
El contenido estadstico de las tres formas de calcular los 6 en una tabla es el mismo,
pero al calcular los porcenta'es en diferentes sentidos se ponen de manifiesto distintas
distribuciones y se ofrecen distintas comparaciones.
La tercera manera de relacionar los n"meros de cada celdilla con el total *. Esto nos
permite conocer cu#les son las categoras m#s o menos numerosas.
Las comparaciones en una tabla bivariable porcentual se realian mediante el e&#men
de las diferencias que se observan entre los porcenta'es. El valor resultante de la comparacin
diferencial entre dos celdillas de la misma fila y de diferentes columnas se denomina
(epsiln!3 tambin se denominan 6 de contraste.
Tema 5: CARACTERSTICAS DE UNA ASOCIACIN BIVARIABLE
En una clasificacin cruada de dos variables nuestro inters se centra sobre todo en el
conocimiento de la forma en que se distribuye la variable dependiente para las diferentes
categoras de la variable independiente o causal.
1. CARACTERSTICAS DE UNA ASOCIACIN BIVARIABLE
1. Existencia o ausencia de una asociacin
Existe asociacin entre dos variabIes cuando Ia distribucin de una variabIe difiere
de aIguna manera entre Ias diversas categoras de Ia segunda variabIe.
/s, e&iste una asociacin si al calcular los coeficientes la mayor parte de ellos son
diferentes a cero. /simismo,cuando todos los sean . no e&iste asociacin alguna entre las
variables.
2. Grado o fuerza de Ia asociacin
La nocin de grado o fuera de la asociacin entre dos variables est# relacionada con el
valor de los coeficientes o .
Cuando ambos vaIores son eIevados cabe habIar de un aIto grado de asociacin o
de una fuerte asociacin entre Ias variabIes, mientras que si Ios vaIores son pequeos
se trata de una asociacin dbiI.
3. Direccin de Ia asociacin
>ace falta como mnimo variables ordinales. Cuando en una tabla la tendencia de
variacin con'unta de ambas variables es que los valores altos de una variable se
correspondan con los valores altos de una segunda variable3 y que igual ocurra con los valores
ba'os, cabe +ablar de una asociacin positiva. /l revs, cuando los valores altos de la
primera variable se corresponden con los ba'os de la segunda, se dice que la asociacin es
negativa.
4. NaturaIeza de Ia asociacin
Es la forma general con la que se distribuyen los datos en la tabla. ?ic+a forma general
se describe mediante el e&#men de las distribuciones de los porcenta'es, pudindose +ablar de
distribuciones regulares o irregulares.
Jesulta de inters la asociacin IineaI, en la que los casos tienden a concentrarse en la
variable dependiente siguiendo una lnea recta.
2. LA OBTENCIN DE MEDIDAS DE ASOCIACIN ENTRE DOS VARIABLES:
INDEPENDENCIA ESTADSTICA Y ASOCIACIN PERFECTA
Es uno de los ob'etivos de la estadstica bivariable encontrar medidas que en un slo
ndice revelen la e&istencia de grado y direccin de la asociacin entre variables.
Una medida taI ha de poder variar a Io Iargo de una escaIa desde un vaIor mnimo
de no-asociacin a un vaIor mximo de mayor asociacin pasando por eI 0, que indicar
independencia estadstica.
Conviene que la medida de asociacin se encuentre estandariada p.e. +aciendo
coincidir sus valores lmites con el ;0 (asociacin perfecta negativa! y el L 0 (asociacin
perfecta positiva! con el . indicando independencia estadstica.
La medida m#s sencilla son los valores , que son las diferencias entre los valores
observados (fo! y los valores esperados (fe!,
subtotaI fiIa x subtotaI coIumna
fe = ------------------------------------------
N totaI
Los fe son los valores que cabra esperar en el caso de Gno asociacinG para cada casilla
y ver en qu medida se diferencian de los fo.
Cuanto mayor sea Ia diferencia entre Ios fo y fe, mayor ser Ia seguridad de que
existe asociacin.
La suma de todos los valores es deficiente, ya que depende en primer lugar del
tama)o de los valores esperados, y adem#s, los valores particulares se pueden neutraliar
entre s al sumar cantidades afectadas de signo contrario. Los valores y aparte de revelar la
e&istencia o no de una asociacin, no dan m#s significado, pues no +ay un valor m#&imo o
mnimo.
/ parte de la estandariacin, +ay dos caractersticas m#s, que debe tener una buena
medida de asociacin,
que el valor que se obtenga se pueda interpretar de la forma m#s intuitiva
posible3
que el significado del valor 0 ; la norma de la asociacin perfecta ; debe poder
ser definible.
(e dice que una tabla bivariable refle'a una asociacin perfecta cuando todos los casos
de la tabla se concentran en una diagonal, lo que significa que cada valor de una variable se
encuentra asociado a un slo valor de la segunda variable.
Asociacin perfecta positiva, la correspondencia se produce entre las mismas
categoras de ambas variables,
I II
I / .
II . Q
Asociacin perfecta negativa, la correspondencia se produce entre las categoras
opuestas de las dos variables,
I II
I . /
II Q .
E'., si se analia la tasa de divorcio seg"n ona rural, la asociacin perfecta sera si
todos los divorcios se concentrasen en las onas urbanas y en la rural no +ubiera ninguno.
Bodas las desviaciones respecto a esta distribucin son asociaciones no perfectas.
2.1. Coeficiente Q de YuIe
/? ; QC / Q
R < ;;;;;;;;;;; C ?
/? L QC
* vaIores nominaIes
* tabIas 2 x 2
* - 1 => asociacin perfecta negativa
* +1 => asociacin perfecta positiva
* 0 => independencia estadstica
3. MEDIDAS SIMTRICAS Y ASIMTRICAS DE ASOCIACIN
* medidas simtricas, ; no distinguen entre variable independiente o dependiente.
; refle'an slo la fuera y direccin de la relacin
; R de Sule, C de $earson, K de Cramer
* medidas asimtricas, ; requieren distincin entre variable independiente y
dependiente.
; est#n orientadas en general a la medicin de la capacidad e
influencia de una variable independiente para predecir los
valores de la variable dependiente.
; coeficiente Lambda, r+o (pearman
4. MEDIDAS DE ASOCIACIN BIVARIABLE EN FUNCIN DE LOS DISTINTOS
NIVELES DE MEDICIN DE VARIABLES
Las medidas de asociacin para variables nominales, ordinales y de intervalo responden
a diferentes criterios.
La distribucin con'unta entre dos variables suele presentarse en forma de 'tabIas de
contingencia', que consisten en cruzar en un cuadro Ios vaIores de dos variabIes,
apareciendo en cada casiIIa de Ia tabIa eI n de observaciones que renen a Ia vez Ios
dos vaIores de Ias variabIes que se cruzan en Ia casiIIa en cuestin.
Los coeficientes de asociacin nos ayudar#n a cifrar la relacin e&istente entre las
variables presentadas en la tabla de contingencia, cuantificando la intensidad y signo de la
asociacin. ?e ellos se puede e&traer la medida que confirma o ec+a por tierra las +iptesis.
Conviene resaltar que una cosa es la e&istencia de una fuerte asociacin o correlacin, y
otra bien distinta la e&istencia de una relacin causal.
5. MEDIAS SIMTRICAS DE ASOCIACIN PARA VARIABLES NOMINALES
Jecordemos que las medidas de asociacin que no distinguen entre variables
independientes o dependientes son las medidas simtricas.
1. Distribucin chi-cuadrado x
2
:
Las limitaciones del sumatorio de todos los valores como medida de asociacin se
supera en buena medida si, en lugar de sumar los se suman sus cuadrados (as desaparece
el problema de los signos!. (i luego se divide cada al cuadrado por el valor esperado para
cada celdilla, se controlan los efectos distorsionantes que se producen al considerar diferentes
n"meros de casos.
El trmino c+i;cuadrado se usa tanto para designar una tcnica estadstica para el
contraste de +iptesis, como para una distribucin muestral.
Esta medida de asociacin da lugar a unos valores Gde distribucin libreG, ya que no
dependen de condiciones especiales que deban cumplir los datos,
(fo - fe)
2
x
2
= ----------- = ------
fe fe
* variabIes nominaIes u ordinaIes
* siempre positivo
* no tiene un Imite superior
Test deI chi-cuadrado
Se trata de Ia prueba de independencia bsica para podernos asegurar Ia
existencia o inexistencia de asociacin entre Ias variabIes de Ia tabIa.
Rue &
-
tenga un valor distinto a . indica que e&iste asociacin, pero podemos
cuantificarla me'or si recurrimos a un coeficiente de asociacin estandariado.
0. >. , no +ay relacin entre las variables I >0 , s +ay relacin entre las variables
-. La prueba de &
-
es unilateral
1. *s < .,.8
2. Encontrar &
-
; posteriormente, para ver si este grado de asociacin es e&trapolable al
con'unto de la poblacin de la que e&tra'imos la muestra, realiamos el test del c+i;cuadrado.
5. Sera extrapoIabIe Ia asociacin observada para toda Ia pobIacin?
Se compara eI x
2
obtenido con eI de Ia tabIa, teniendo en cuenta que gI = (f-1) (c-1).
Si x
2
e > x
2
c => aceptamos H1; s es extrapoIabIe a Ia pobIacin.
Si x
2
e < x
2
c => aceptamos H0; eI grado de asociacin que habamos cuantificado es
apIicabIe sIo a Ia muestra utiIizada.
2. Coeficiente phi
&
-
&
-
-
< ;;;;;; < ;;;;
* *
* tabIas mismos tamao; 2 x 2, 4 x 4
* 1 => asociacin perfecta
3. Coeficiente de contingencia C
&
-
C < ;;;;;;;;;;
&
-
L *
* tabIas mismos tamao; 2 x 2, 4 x 4
* vaIor mximo 1 => asociacin perfecta
Tna ve +allado para una interpretacin correcta +a de compararse con el valor m#&imo
de C.
P ; -
Cma& < ;;;;;;; P < n@ de filas o columnas (el L ba'o!
P
Luego se divide CICma& y este es el valor que conviene e&plicar sobre su grado de
asociacin.
4. Coeficiente V de Cramer
&
-
K < ;;;;;;;;
* (P;0!
* Ia tabIa consta de distintos nmeros de fiIas y coIumnas
* 1 => asociacin perfecta
6. PRUEBAS DE HIPTESIS O TEST DE ASOCIACIN PARA LAS DISTINTAS
MEDIDAS DE ASOCIACIN NOMINAL
/dem#s de comprobar la e&istencia de una asociacin y de medir su fuera, se puede
estar interesado en contrastar la e&istencia de una asociacin en la poblacin de la que se +a
e&trado la muestra.
El coeficiente de asociacin representa tan slo el grado de la asociacin, mientras
que la prueba de significacin de dic+o coeficiente determina para un nivel de probabilidad
previamente establecido, si la asociacin e&iste igualmente en la poblacin de la que se +a
e&trado la muestra.
Tema 6: MEDIDAS ASIMTRICAS DE ASOCIACIN NOMINAL
>ay una asociacin positiva entre las variables nivel de ingresos y educacin cuando
p.e. el individuo / tiene m#s educacin que Q por lo que se puede predecir que el nivel de
ingresos tendr# el mismo orden.
1. MEDIDAS DE ASOCIACIN BASADAS EN EL CRITERIO DE "REDUCCIN
PROPORCIONAL DE ERROR" (RPE)
Las medidas del tipo J$E consisten en simples cocientes de la cantidad de error
cometido al predecir la variable dependiente en dos situaciones,
0. la prediccin se realia cuando slo se conoce la distribucin de la propia
variable dependiente3
-. la prediccin se realia cuando se dispone del conocimiento adicional de una
variable independiente y la forma en que la variable dependiente se distribuye dentro de la
variable independiente.
Las medidas de tipo J$E formulan la proporcin en que se puede reducir el error
cometido en la primera de las situaciones descritas, al utiliar la informacin que suministra la
segunda de las situaciones.
2. EI coeficiente Lambda ( coeficiente gamma)
Como tiene carcter asimtrico Io primero es decidir qu variabIe vamos a tomar
como dependiente o independiente. Mide Ia capacidad de una variabIe independiente en
Ia prediccin de Ios vaIores de Ia variabIe dependiente.
La frmula para Lambda se puede e&presar en trminos de la reduccin proporcional en
el error cometido al predecir la moda,
my - My Moy/x - Moy
x,y = -------------- = -------------------
N - My N - Moy
Coy < frecuencia modal entre los totales de las filas (los m#s altos!
CoyI& < la suma de los valores m#s altos de cada columna
* variabIes nominaIes u ordinaIes
* tabIas de todo tipo
* 1 - asociacin perfecta < todos los casos en cada categora de la variable
independiente se concentran en una "nica categora (la categora modal! de la variable
dependiente.
A 0 = cuando la informacin suministrada por la variable independiente no a)ade ning"n
valor predictivo adicional a la prediccin de la moda de la variable dependiente.
(i < .,.1 indica que el conocimiento de la distribucin de la actividad laboral (variable
independiente! slo puede reducirnos en un 16 el error de prediccin sobre la categora modal
del GacuerdoIdesacuerdoG frente a la gravedad de las drogas. *os vuelve a confirmar el ba'o
nivel de asociacin entre las dos variables.
(e puede calcular luego al revs, cambiando la variable independiente por la
dependiente.
2. MEDIDAS DE ASOCIACIN PARA VARIABLES ORDINALES
Si se trata de dos variabIes ordinaIes, Io que se pretende conocer es si eI
ordenamiento de Ios casos en una variabIe resuIta tiI para Ia prediccin deI orden de
Ios casos en Ia otra variabIe. (i no es "til la medicin de asociacin ser# ..
2.1. Coeficiente rho de Spearman
* variabIes ordinaIes
* rs = 0 => no existe una ordenacin sistemtica entre dos variabIes; aunque pueda
existir asociacin
* rs = -1 => ordenacin opuesta de Ios casos en Ias variabIes; reIacin inversa
* rs = +1 => acopIamiento perfecto de Ias dos ordenaciones; no tiene porqu ser
causaI
6d
2
rs = 1 - ------------
n (n2 - 1)
Si rsc rse => se rechaza H0 de Ia no asociacin en Ia pobIacin de Ias dos
variabIes.
Si rsc rse => se acepta H1.
Tema 7: MEDIDAS DE ASOCIACIN PARA VARIABLES DE
INTERVALO
/l estudiar el tipo de relacin e&istente entre dos variables de intervalo aparecen dos
conceptos que conviene diferenciar,
se trata de analiar el grado de correIacin (o grado de asociacin! entre las
dos variables, lo cual remite al estudio de la variacin con'unta de dos variables, su
intensidad y direccin3
aparece el problema de la regresin o prediccin de los resultados en una de
las dos variables, conocidos los resultados de la otra.
/l tratarse de variables de intervalo, la media aritmtica cobra gran valor, pues como
recordamos, la media puede utiliarse como valor predictivo, ya que una de sus propiedades es
que la suma de las desviaciones de cada puntuacin en relacin a la media es ..
1. ECUACIONES DE REGRESIN LINEAL
(iempre que se disponga de dos variables medidas al nivel de intervalo se debe tratar de
definir la funcin que relaciona a ambas variables, tratando de especificar la forma y el
significado de dic+a funcin.
La reIacin IineaI entre dos variabIes de intervaIo se da cuando a cada aumento
unitario de Ios vaIores de una variabIe se produce un incremento constante de Ios
vaIores de Ia otra. *o siempre el tipo de relacin e&istente entre dos variables es tan sencillo
como en este caso, y aparecen las relaciones curvilneas.
La ventaja principaI deI anIisis de regresin estriba en que resume en una
expresin simpIe gran cantidad de informacin y permite a Ia vez conocer o predecir Ios
vaIores que tomar Ia variabIe dependiente supuestos Ios vaIores de Ia independiente.
1.1. ReIacin entre dos variabIes estadsticas: ecuacin de una recta
En sociologa la mayor parte de las relaciones empricas conocidas son simples y de tipo
lineal. La ecuacin de una recta es,
y = a + bx
a < ordenada en eI origen3 indica el punto donde la recta de regresin corta el e'e de las
ordenadas o el valor de MyM cuando M&M vale .
b < coeficiente anguIar o pendiente de Ia recta3 representa la cuanta en que vara MyM
cuando M&M vara en una unidad.
Si b = positivo => Ia recta es creciente; 'x' crece 'y' crece
Si b = negativo => Ia recta es decreciente; 'x' decrece 'y' crece
Si b = 0 => no existe reIacin entre 'x' e 'y'.
Tna ve +allada la ecuacin de regresin se pueden predecir los distintos valores MyM
sustituyendo M&M por alg"n n"mero.
1.2. La ecuacin de regresin y eI ajuste por mnimos cuadrados.
Error tpico de Ia estimacin
Con los valores de M&M y las medias MyM en unos e'es, se obtendr# una representacin que
puede ser lineal o curvilnea, de las medias de MyM para cada valor de M&M en forma de una
ecuacin de regresin de MyM en M&M.
Estas ecuaciones de regresin son las GleyesG de la ciencia, ya que una ve conocida la
e&presin matem#tica que describe la forma y direccin de la lnea o curva de las medias, se
pueden realiar predicciones e&actas.
Aunque en reaIidad muchos datos se encuentran dispersos, eI conjunto de todos
eIIos se sueIe adaptar bastante bien aIrededor de Ia Inea de regresin. EI probIema
consiste en ajustar Ia Inea de regresin de taI forma que se ajuste Io mejor posibIe a Ios
datos.
$ara comprobar qu ecuacin predice con mayor e&actitud los valores de MyM en M&M se
sigue el criterio de estimacin de Ia varianza,
(S ; SM!
-
< (
-
y& < ;;;;;;;;;;;;;;
* ; -
SM < valor calculado de MyM aplicando la ecuacin de prediccin.
La ecuacin que realia la me'or prediccin es la Inea de regresin de mnimos
cuadrados de MyM en M&M, que se caracteria por +acer mnimo el error tpico de Ia estimacin
que es (e
-
. (e basa en que la suma de las desviaciones al cuadrado de las puntuaciones
alrededor de la recta es la m#s peque)a de todas las rectas consideradas.
$ara obtener la lnea de los mnimos cuadrados +ay que calcular a y b,
(&;&! (y ; y! (&y
b < ;;;;;;;;;;;;;;;;;;; < ;;;;;
(&;&!
-
(&
-
2. TEST DEL COEFICIENTE DE REGRESIN
(e utilia para comprobar la >. de si el coeficiente de regresin MbM de la ecuacin
obtenida con los datos de una muestra sacada al aar de una poblacin determinada, difiere
significativamente de los valores prefi'ados del coeficiente correspondiente en la poblacin.
Los pasos a seguir son los mismos que en cualquier prueba de +iptesis.
(e pueden usar indistintamente las dos siguientes frmulas,
b ;
0. t < ;;;;;;; *;- r
-
< coeficiente de determinacin
0 ; r
-
b ;
-. t < ;;;;;;; *;- (yI& < error tpico de estimacin
(yI&I(y
(e utilia la distribucin t de (tudent3 para gl < * ; - de manera unilateral si aparecen los
signos H o = y bilateral si aparece < o .
3. COEFICIENTE R DE CORRELACIN DE PEARSON
Los socilogos est#n muy interesados en encontrar variables que estn fuertemente
asociadas con otra variable dependiente. El an#lisis de regresin pasa a un segundo plano,
cediendo la prioridad al estudio del grado de asociacin o correlacin entre las variables.
* variabIes de intervaIo (simpIificar tabIas para cada fiIa con medias Xcmc x n : N)
* mide Ia cantidad de dispersin en reIacin a Ia ecuacin IineaI de mnimos
cuadrados
* r = -1 => asociacin perfecta negativa; 'x' crece 'y' decrece - b = negativo
* r = +1 => asociacin perfecta positiva; 'x' crece 'y' crece - b = positivo
* r = 0 => no es sIo ausencia totaI de reIacin, ya que 'x' e 'y' pueden estar
fuertemente asociadas de forma curviInea - b = 0
/ntes de calcular r es aconse'able representar en un sistema cartesiano los valores de M&M
e MyM, para ver si su distribucin se apro&ima a lo lineal o a lo curvilneo, y realiar un primer
e&#men visual del tipo de asociacin.
VER FOTOCOPIA ANEXA
3.1. Diversas frmuIas para eI cIcuIo de r
?e lo que se trata es de e&plicar el m#&imo posible de variacin (< suma de los
cuadrados de las desviaciones en relacin a la media!, siendo el cuadrado del coeficiente de
correlacin de $earson, r
2
, llamado coeficiente de determinacin, una e&presin del grado en
que la ecuacin de regresin lineal e&plica la variacin en la variable dependiente. r
2
e&presa la
rpe cometida al predecir los valores para la variable dependiente a partir de la ecuacin de
regresin.
/ partir de r se puede conocer tanto la direccin como el grado o fuera de la asociacin,
aunque es sensible a la presencia de unos pocos valores e&tremos en una o en la dos
variables. $or ello +ay que considerar la variabilidad total de M&M e MyM antes de realiar una
afirmacin acerca del grado de correlacin.
3.2. Interpretacin deI coeficiente de correIacin
r
2
es Ia proporcin de Ia variacin totaI en una variabIe que queda expIicada por Ia
otra. *o e&iste una interpretacin sencilla y directa para el propio coeficiente r3 p.e. si r < .,4
puede parecer que representa una buena correlacin, cuando en realidad slo se est#
e&plicando (.,4!
-
< .,14, e.d., el 14 6 de la variana. La correlacin con r .,1 slo e&plica una
peque)a proporcin de la variacin.
EI coeficiente r de Pearson es Ia mejor medida de Ia fuerza y direccin de Ia
asociacin, siendo una medida estandarizada de Ia covarianza por eI producto de Ias
varianzas.
0. >allar las medias de M&M e MyM
-. >ay varias frmulas para +allar b.
1. ?espus se puede +allar la recta de regresin de 'x' sobre 'y'
y = a + bx / a = y - bx
Bambin e&iste la recta de regresin de 'y' sobre 'x': x = a + b' y
2. Sa puede calcularse, r = b b'
(i r < .,2- esto indica que la relacin es moderadamente ba'a entre M&M e MyM.

8. r
-
< .,0942 ; slo el 09,426 de la variana con'unta es e&plicada por la variable
independiente.
La representacin gr#fica de & < a L bMy as como y < a L b& nos indica la correlacin,
no e&iste correlacin3 M&M e MyM no son variables independientes.
La correlacin perfecta se produce cuando ambas rectas se superponen y el #ngulo <
..
Correlacin dbil Correlacin fuerte
4. TEST PARA EL COEFICIENTE DE CORRELACIN R. IntervaIo R en Ia pobIacin
Cuando los pares de valores de las variables M&M e MyM pertenecen a una muestra aleatoria
e&trada de una poblacin determinada, el inters se puede centrar en la comprobacin de si
e&iste o no correlacin en la poblacin.
(e estudiar# la >. de no e&istencia de relacin lineal en la poblacin, lo que conduce a
la utiliacin de un an#lisis de variana para contrastar la +iptesis de r < ..
FrmuIa: r
t < ;;;;;;;;;; * ; -
0 ; r-
$ara * ; - grados de libertad (ver tablas de valores MrM a *s .,.8 y .,.0!
Estimacin deI intervaIo para eI coeficente R de Pearson
Ormula, : 0,74 ..............................*c < 78 6
: -,85 ..............................*c < 77 6
0
Error tpico del coeficiente : de Ois+er, < ;;;;;;;;
n ; 1
0. $asar valores de r a unidades : seg"n tablas.
-. (e traba'ar# con la unidad : para la creacin del intervalo seg"n frmulas indicadas.
1. (e volver# a transformar : en r seg"n tablas del punto0.
Tema 8: ELABORACIN DE LA RELACIN ENTRE DOS VARIABLES
/l comparar el tipo de relacin que aparece entre las dos variables originales en cada
una de las subpoblaciones definidas al introducir una o mas variables, se pueden e&traer
consecuencias interesantes acerca del efecto de tales variables en la relacin b#sica original.
Esta forma de an#lisis se denomina eIaboracin de la relacin entre dos variables, cuyo gran
metodlogo fue Laarsfeld.
La necesidad de introducir terceras variables en el estudio de la relacin entre dos
variables, se fundamenta en el car#cter multidimensional de muc+os fenmenos sociales.
Las variables sociolgicas se suelen presentar Gen bloqueG3 cada individuo o grupo social
puede describirse en trminos de un n"mero determinado de dimensiones. /s, al describir a
un individuo sobre el tipo de ocupacin en relacin a situacin familiar, conviene introducir otras
variables como nivel de educacin, religiosidad, etc.
1. LA INTERPRETACIN DE LAS RELACIONES ESTADSTICAS: UN EJEMPLO DE
ELABORACIN
Los resultados que aparecen al establecer relaciones significativas entre dos variables,
tienen un car#cter e&clusivamente descriptivo. $ero estos resultados no indican porqu ocurren
algunas cosas, p.e. porqu los m#s religiosos suelen ser m#s conservadores.
En lugar de especular introduciremos una tercera variable llamada variabIe de controI o
factor de prueba en la relacin bivariable original. Esto es en esencia la eIaboracin.
/s tratamos de saber si la relacin entre una variable independiente M&M y una
dependiente MyM se debe a la variable de control MBM. (i el valor de las nuevas relaciones
bivariables disminuyera sensiblemente sera una prueba de que MBM es en realidad la
GresponsableG de la relacin original entre M&M e MyM.
/s, p.e., si analiamos la intencin de voto de mu'eres y +ombres podemos decir que los
+ombres votan m#s a la iquierda. /l introducir el factor de prueba Mtraba'oIno traba'oM, se
producen unas nuevas tabIas condicionaIes o asociacin de contingencia.
HabIamos aI considerar una soIa variabIe de controI de tabIas condicionaIes de
primer orden; cuando son dos variabIes de controI, tabIas condicionaIes de segundo
orden, etc.
1.1. FrmuIa de recuento de LazarsfeId
AI introducirse T entre Ia reIacin XY se producen nuevas reIaciones y aparecen
dos tabIas condicionaIes que se simboIizan como (XY;T) y (XY;T') - reIaciones parciaIes.
Las reIaciones marginaIes son las relaciones entre B y la variable independiente M&M y la
dependiente MyM.
(eg"n Laarsfeld las nuevas relaciones resultantes al introducir B, pueden igualarse en
la relacin original del siguiente modo,
(XY) = (XY;T) (XY;T') (XT) (YT)
no es una suma aritmtica sino una ecuacin que GformaliaG las cone&iones mutuas
que se producen entre diversas relaciones.
Tna situacin interesante se da cuando el factor de prueba no est# relacionado con las
variables originales y las relaciones marginales valen .3 se trata de una ecuacin tipo P o
parciaI, porque la relacin original depende de las relaciones parciales,
a) (XY) = (XY;T) (XY;T') + (0) (YT)
b) (XY) = (XY;T) (XY;T') + (XT) (0)
La ecuacin tipo M o marginaI es cuando desaparecen las relaciones parciales y la
relacin original es igual a los trminos marginales3 depende de las relaciones marginales que
se establecen entre las tres variables3
(XY) = 0 + 0 + (XT) (YT)
2. EL PAPEL DE LA TEORA EN LA ELABORACIN DE RELACIONES ENTRE
VARIABLES
En la pr#ctica apenas encontramos casos puros de los tipos $ y C. Las diferencias entre
los tipos $ y C ponen de relieve que no todas las variables de control tienen el mismo
significado e interpretacin terica.
La teora es importante para seleccionar las relaciones originales y variables de control
m#s relevantes3 slo con 8 variables se puede +acer infinidad de tablas, por lo que es
fundamental definir las relaciones importantes.
Es importante el lugar que ocupa la variable de control,
variabIe antecedente, antecede a las variables independientes y
dependientes.
variabIe consecuente, sus efectos se producen despus de las variables
dependiente e independiente.
variabIe interviniente, act"a antes de la variable dependiente, pero despus
de la independiente.
La interpretacin terica de Ios resuItados ser diferente segn eI orden en eI que
acte Ia variabIe de controI aI incidir en Ia reIacin originaI.
3. MODELOS DE ELABORACIN
Los tres modelos de elaboracin m#s frecuentes en la investigacin social son,
1. La especificacin de una reIacin entre dos variabIes
Jesponde al tipo $ parcial de elaboracin. Biene lugar cuando se trata de conocer el
tama)o relativo de las relaciones parciales, con el fin de especificar las circunstancias ba'o las
cuales la relacin original es m#s o menos pronunciada.
En el caso tpico, la especificacin tiene lugar cuando al introducir la variable de control,
las relaciones condicionales que aparecen, aun sin alterar b#sicamente el sentido de la relacin
original, presentan unos resultados que varan de unas tablas a otras, revelando diversos
matices de la relacin original3 p.e. edad ; deporte ; B, nivel educativo.
2. La expIicacin de una reIacin entre dos variabIes
>ay casos en que Ia reIacin entre dos variabIes es faIsa, ya que no es significativa
sino que m#s bien se debe a una relacin accidental con una variable asociada3 aparece una
relacin asimtrica, que en realidad es simtrica. El socilogo cuando ve una relacin entre dos
variables se pregunta si realmente es significativa.
La e&plicacin es un tipo de elaboracin que pretende controlar los factores que invalidan
la relacin que sospec+amos es falsa. (er#n siempre raones tericas las que impulsen a
buscar terceras variables que al introducirse en la relacin original que creemos falsa crear#n
tablas condicionales en las que desaparecer# la relacin original. Ello se debe a que la variable
de control se encuentra asociada a las dos variables originales. /l mantener constante los
valores de la variable de control desaparece la relacin original. *o e&isten relaciones falsas,
sino interpretaciones falsas. $.e., inmigracin de las cigue)as L ni)os. (i introducimos la
variable ona ruralIurbana la relacin original desaparece. La variabIe interviniente es ajena.
3. La interpretacin de una reIacin entre dos variabIes
La introduccin de variables de control puede ofrecer otra venta'a terica, que es la de
contribuir a estabIecer secuencias causaIes. $or ello, cuando se encuentra una relacin
original significativa que no satisface tericamente, se producir# una interpretacin de dic+o
resultado, si se logra encontrar una tercera variable de car#cter interviniente, e.d., que sea
consecuencia de la variable independiente y determinante de la variable dependiente, que
altere el primer resultado, reduciendo sensiblemente la asimetra de la relacin original. En este
caso la variable interviniente no es a'ena, p.e. clase social ; intencin de voto ; B, inters por la
poltica.
4. VARIABLES SUPRESORAS Y VARIABLES TRANSFORMADORAS
Bambin resulta de inters comprobar si la falta de relacin entre dos variables es real o
se debe, por el contrario, a la e&istencia de una tercera variable que suprime la manifestacin
de una asociacin entre las dos variables originales <= variabIe supresora. p.e., control de
natalidad ; status socioeconmico B, ir o no a misa.
En el caso de la variabIe transformadora la introduccin del factor de prueba crea unas
tablas condicionales en la que el sentido de la relacin es de signo contrario al que tena la
relacin original. p.e. status socioeconmico ; centralismo B, poblacin inmigranteIoriunda.
Tema 9: EL ANLISIS MULTIVARIABLE EN LA INVESTIGACIN
SOCIOLGICA
El mtodo de elaboracin de la relacin entre dos variables que trata de solucionar los
problemas cuando se introduce una variable de control es pr#cticamente inviable cuando se
consideran los efectos de 1 o 2 variables de control.
%racias a los ordenadores se +a facilitado los comple'os c#lculos y en la actualidad se
efect"an tratamientos analticos con 8 o m#s variables. E&istan amplias encuestas sociales
que posteriormente eran tratadas a nivel bi y trivariable.
La ausencia de leyes sociales invariables es notoria y buena parte de la investigacin
social contin"a siendo de naturalea emprica, e&ploratoria o inductiva. El ordenador se utilia
para analiar, seleccionar, almacenar, clasificar y procesar datos sobre actitudes, opiniones,
valores y comportamientos que provienen de encuestas.
1. DEFINICIN DEL ANLISIS MULTIVARIABLE
(eg"n Nendall el rasgo m#s caracterstico es Gla consideracin de una serie MuM de
ob'etos en cada uno de los cuales se observan los valores de MpM variables. Es Ia rama de Ia
estadstica interesada en eI estudio de Ias reIaciones entre series de variabIes
dependientes y de Ios individuos que Ias sustentan".
Los ob'etos que se persiguen m#s importantes son,
0. (implificacin estructural
-. Clasificacin en grupos
1. /grupamiento de variables
2. /n#lisis de la interdependencia
8. /n#lisis de la dependencia
4. Construccin y contraste de +iptesis
Cualquier an#lisis simult#neo de m#s de dos variables forma parte del an#lisis
multivariable.
Biene varias venta'as sobre el an#lisis bivariable,
A economa en el almacenamiento de los datos3
A mayor consistencia en la inferencia estadstica3
A desarrollo de conceptos tericos m#s adecuados3
A mayor precisin y perspectiva conceptual.
Las tcnicas de an#lisis multivariable no son m#s que instrumentos que facilitan el
an#lisis de datos, pero poco pueden +acer por me'orar la calidad de los propios datos
sociolgicos.
2. NOCIONES ALGEBRAICAS ELEMENTALES EN LAS TCNICAS
MULTIVARIABLES
%eneralmente los datos suelen provenir de las encuestas, pero tambin pueden provenir
de cualquier otro tipo de fuentes primarias o secundarias, p.e. arc+ivos, censos.
La matriz generaI de datos es un cuadro con columnas y filas donde cada celdilla
contiene las respuestas. (e obtiene al distribuir la informacin en MnM filas y MmM columnas. La
regla convencional es incluir las variables en las columnas y las unidades individuales en filas.
El Igebra matriciaI se +a desarrollado con el ob'eto de representar en un lengua'e
sencillo y universal las operaciones que se realian con las matrices, dado que a veces
contienen un enorme n"mero de filas y columnas.
Las medidas resumen que se utilian en las matrices no son las medias de las variables,
sino las varianas y covarianas. / partir de la matri original se constituyen matrices de
varianzas y covarianzas, en las que los valores son covarianas.
Bambin se utilian matrices de correIacin, que no son otra cosa que matrices de
variana ; covariana estandariadas, e.d., en las que los valores de filas y columnas se +an
dividido por la desviacin tpica correspondiente.
3. CLASIFICACIN DE LAS TCNICAS DEL ANLISIS MULTIVARIABLE
%eneralmente se intenta expIicar variabIes, e.d., porqu una variable vara de la forma
en que lo +ace. La e&plicacin consiste en el +allago de un determinante o fuente, la variable
observada.
/ menudo +ay que referirse a variabIes no observadas, que en su forma m#s sencilla
se utilian cuando se supone que una variable observada est# sometida a error, y no es
perfectamente fiable. (e supone que +ay dos fuentes de error,
lo que se mide <= componente sistemtico
un componente aleatorio que se a)ade a lo que se mide <= componente de
error.
Ambos componentes son variabIes no observadas, pues no se conocen Ios
vaIores que toman. *tese que son construcciones tericas, pues surgen de una teora o de
una interpretacin de la variable observada.
El an#lisis multivariable se divide en dos grandes ramas,
tcnicas basadas en reIaciones de dependencia: establecen una distincin
entre las variables a e&plicar (< dependientes, endgenas! y las variables e&plicativas (<
independientes, e&genas!. Bienen por ob'eto establecer la relacin entre las variables
como base para realiar una prediccin.
tcnicas basadas en reIaciones de interdependencia: no establecen
diferenciacin. El ob'eto principal es el de organiar los datos de forma que sean m#s
mane'ables para el investigador y ofrecan una mayor comprensin global.
La denominacin de tcnicas R se basa en la correlacin entre variables y la tcnica Q
en la correlacin entre unidades u ob'etos. /s, una misma tcnica multivariable puede
emplearse en su versin J o R a una matri, cuyos valores son unidades o variables.

Estadística 2pp

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadística 2pp

Caricato da

Copyright:

Formati disponibili

Tema 10: TCNICAS INFERENCIALES

< media muestral

= desviacin tpica de Ia distribucin muestraI de medias; error tpico de Ia

Como formulacin general de la estimacin de par#metros tendremos,

= error absoIuto; distancia mxima entre y .

Potrebbero piacerti anche