Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Hasta ahora hemos estudiado sobre cada individuo de una poblacin el comportamiento de una variable X . En ocasiones se est interesado en el estudio simultneo de dos (o ms) variables, X e Y, con el n de observar una posible relacin entre ellas.
donde nij es la frecuencia absoluta del par (xi , yj ), es decir, el nmero de individuos que presentan el valor xi en X e yj en Y. La frecuencia relativa corre1
spondiente, fij , se calcula sin ms que dividir la frecuencia absoluta por el total de observaciones, N, nij fij = N Claramente,
p k X X i=1 j =1
nij
= N,
p k X X i=1 j =1
fij
= 1.
Ejemplo 2.1: 20 alumnos de la asignatura de Estadstica Aplicada a las C.C.S.S. se asignan los siguientes grados -de 1 a 10- de atractivo personal (GAPER) e inteligencia (GINTE): Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 GINTE 6 7 8 7 8 6 8 6 7 4 6 6 5 7 5 5 5 8 6 5 GAPER 6 8 8 8 9 7 10 6 8 5 5 4 3 7 8 5 2 9 5 5
En la tabla se observa ya una cierta relacin lineal entre ambas variables. Ejemplo 2.2. Pesos y alturas de los alumnos. ALTURA\PESO (1.55-1.65] (1.65-1.75] (1.75-1.85] (1.85-1.95] n.j (45-55] 3 (15 %) 1 1 0 5 (55-65] 1 4 (20 %) 0 0 5 (65-75] 0 3 1 1 5 (75-85] 0 1 4 0 5 ni. 4 9 (40 %) 6 1 N =20
Distribucin marginal de la variable Y : Anlogamente denotamos por n.j el nmero de individuos que presentan el valor yi en Y (independientemente del valor que presenten en X ), n.j =
k X i=1
por f.j la proporcin de individuos que presentan el valor yj , f.j = Lgicamente debe suceder que:
k X i=1
n.j N
ni.
k X i=1
p X j =1 p X j =1
n.j = N,
fi.
f.j = 1
donde fi/j es la proporcin de individuos que presentan el valor xi en X de entre los que presentan el valor yj en Y. Distribucin de Y condicionada al valor xi de X ( Y /X = xi ) : estudia el comportamiento de la variable Y sobre aquellos individuos que presentan el valor xi en X. La tabla de frecuencias presenta la siguiente forma: Y/X = xi y1 . . . yp nij ni1 . . . nip ni. fj/i = f1/i . . . fp/i 1 nij ni. ,
donde fj/i es la proporcin de individuos que presentan el valor yj en Y de entre los que presentan el valor xi en X.
Ejemplo 2.3: Distribucin marginal de la variable GINTE (datos del ejemplo 2.1) GINTE frec. abs. frec. rel. 4 1 0.05 5 5 0.25 6 6 0.3 7 4 0.2 8 4 0.2 N = 20 1 Ejemplo 2.4: Estudiamos el grado de atractivo personal (GAPER) sobre aquellos individuos que se asignan un grado de inteligencia inferior o igual a 5. Los resultados son: GAPER/GINTE 5 2 3 4 5 6 7 8 frec. abs. 1 1 0 3 0 0 1 6 frec. rel. 0.16 0.16 0 0.5 0 0 0.16 1
Observamos que el 82 % de los individuos con GINTE 5 presentan un GAPER 4. Ya advertamos una clara asociacin entre valores bajos y altos de ambas variables.
a)
10 8 6 4 2 0 0 2 4 6 8 10 12
b)
(X 1000) 1 0,8 0,6 0,4 0,2 0 0 2 4 6 8 10
c)
d)
En a) hay ausencia de relacin (independencia). En b) existe asociacin lineal positiva (varan en general en el mismo sentido). En c) existe asociacin lineal negativa (varan en sentido contrario). En d) existe fuerte asociacin, pero no lineal. Ejemplo 2.5: Diagrama de dispersin de (GAPER, GINTE), datos de ejemplo 2.1
10 8
GAPER
6 4 2 0 4 5 6 7 8
GINTE
Figura 1:
2.3.2 La covarianza
Es una medida de la asociacin lineal existente entre dos variables. Resume la informacin contenida en el diagrama de dispersin. Presenta la siguiente expresin: 6
PN
i=1 (xi
x)(yi y ) = N
PN Pk
i=1 xi yi
N Pp
xy
j =1 nij (xi
x)(yj y )
i=1
j =1 nij xi yj
xy
Si la covarianza est muy prxima a cero, no existe relacin entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociacin lineal positiva, y si es negativa, hay asociacin lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuanticar el grado de asociacin lineal ni comparar la asociacin existente entre distintos pares de variables. Para dar solucin a este problema se obtiene el coeciente de correlacin.
Ejemplo 2.6: Clculo de la covarianza y coeciente de correlacin de (GAPER, GINTE), datos de ejemplo 2.1 GAPER GINTE GAP ER,GINT E = Media 6.4 6.25 Desv. tpica 2.083 1.178
GAP ER,GINT E
6 6 + 7 8 + 8 8 + ... + 6 5 + 5 5 6,25 6,4 = 1,9 20 (datos sin tabular), 4 1 5 + 5 1 2 + ... + 8 2 9 + 8 1 10 6,25 6,4 = 20 = 1,9 (datos tabulados, tabla 2.2) 1,9 = 0,774 2,083 1,178
GAP ER,GINT E =
P Debemos encontrar a, b tal que la cantidad fij e2 ij sea mnima. De ah el nombre de ajuste por mnimos cuadrados. X X fij e2 fij (yj axi b)2 Min ij = M in
a,b a,b
x,y , 2 x
y ax,
de forma que Y =
x,y x,y x + ( y 2 x) 2 x x
es la recta de regresin de Y sobre X . Anlogamente se obtendra la recta de regresin de X sobre Y, X= x,y x,y y + (x 2 y ) 2 y y
Una forma de medir la bondad del ajuste y por lo tanto la abilidad de las estimaciones es mediante el coeciente de determinacin, R2 = 2 , o simplemente con el coeciente de correlacin. El coeciente de determinacin R2 toma valores entre 0 y 1; cuanto ms se aproxime a 1, mayor ser la asociacin lineal entre las variables, mejor ser por lo tanto el ajuste de la recta a la nube de puntos, y mayor abilidad tendrn las predicciones. Ejemplo 2.7: Recta de regresin de GAPER sobre GINTE (datos ejemplo 2.1) GAP ER = aGIN T E + b, donde a = 1,9 = 1,369 1,1782 b = 6,4 1,369 6,25 = 2,156 GAP ER = 1,369GIN T E 2,156 Para un individuo con GINTE=9 se predice un GAPER de aproximadamente 10.
Ejercicios
1. En un estudio sociolgico se postula que la actitud racista viene determinada fundamentalmente por el nivel de paro que en dicha sociedad existe. Para valorar esta armacin, el estudio proporciona los datos relativos a una muestra de 10 localidades, cuyos niveles de paro (en %) y racismo (medidos a partir de un ndice) son los siguientes: Paro Racismo 7.5 22 13 29 5 15 23.2 37.1 33 50 21 35 18 32 30 40 15 30.3 27 38
a. Calcula medidas de posicin central (media, mediana, moda) que resuman ambas variables. b. Qu variable presenta menor dispersin?. c. Estudiar el grado de asociacin lineal entre las variables. Muestran los datos que por trmino medio cuanto mayor sea la tasa de paro en la localidad, mayor ser su ndice de racismo?. Razona la respuesta. d. Qu valor de ndice de racismo se predice para una localidad con una tasa de paro del 20 % ?. Consideras able esta prediccin?. 2. Los siguientes datos corresponden a 10 familias de una determinada poblacin a las que se les han medido dos variables: Ingresos familiares (en miles de euros) y el No de miembros en la familia. Ingresos familiares 1,100 1,900 0,900 1,320 0,850 1,200 1,800 1,650 0,900 1,800 No miembros 1 4 2 3 2 2 3 3 2 4
a) Presentar una tabla de frecuencias para cada variable. En caso de haber alguna variable continua, agrupar sus datos en tres intervalos de igual amplitud. b) Calcular las medidas de tendencia (media, mediana, moda) que describan ambas variables. Utilizar los datos sin agrupar para calcular la media y mediana. c) Analizar la dispersin de ambas variables, decidiendo cual de ellas presenta valores ms homogneos entorno a su media.
10
d) Determinar la franja en la que se encuentra el 50 % central de los Ingresos de familias. Comentar los resultados. e) Predecir linealmente los Ingresos que tendra una familia de 5 miembros. Te parece able esta prediccin?. Razonar la respuesta en base al clculo de alguna medida o al diagrama de dispersin dado abajo.
Diagrama de dispersin
2 1,8
Ingresos
N miembros
3. Para el par de variables (PESO, ALTURA) de la tabla de datos de los alumnos: a) Obtn una tabla de doble entrada, agrupando las variables en intervalos. b) Obtn las distribuciones de frecuencias marginales. Calcula para cada variable la media, mediana, moda, desviacin tpica y coeciente de variacin. c) Qu variable es ms homognea entorno a la media?. d) Determina entre qu valores se encuentra el 50 % central de la variable peso. Cunto pesan como mucho el 25 % de los que menos pesan?. e) Estudia el grado de asociacin lineal entre ambas variables, y en caso de tener sentido dar la recta de regresin que explica el PESO en funcin de la ALTURA. f) Predice el peso que tendra un alumno con una alltura de 1.84 cm. En qu medida es able esta prediccin?. 4. Para las variables (EPMM=Edad de la mujer en su primer matrimonio, EMPN=Edad de la mujer en el nacimiento de su primer hijo) de la tabla de indicadores sociales de Andaluca: a) Representa el diagrama de dispersin. b) Estudia si existe relacin lineal entre ambas variables. En caso de haberla, cmo es por trmino medio, positiva o negativa?. c) Determina la recta de regresin que explica la edad de las madres en el nacimiento de su primer hijo (EMPN) en funcin de la de la edad de las mujeres en su primer matrimonio (EPMM). Estima la edad de las 11
madres en el nacimiento de su primer hijo en una localidad en las que la edad de las mujeres en su primer matrimonio es aproximadamente de 30 aos. Consideras able esta prediccin?. 5. El trabajador social de una residencia de ancianos se plantea la relacin posible entre el nivel cultural de los residentes y la prctica de la religin. Para resolver esta cuestin encuesta a los 200 internos, obtenindose los siguientes resultados: Nivel cultural alto Nivel cultural medio Nivel cultural bajo Practicante 20 40 60 No practicante 30 30 20
a) Estudia el nivel cultural de los ancianos que practican la religin. Para ello obtn la distribucin de frecuencias relativas correspondiente. b) Estudia el nivel cultural de los ancianos que no practican la religin. c) Estudia cmo se comporta la prctica de la religin en cada nivel cultural. d) Qu conclusiones pueden extraerse?
12