Sei sulla pagina 1di 7

BLOQUE 2 TEMA 7 RELACIN ENTRE VARIABLES : CORRELACIN Y REGRESIN En los procesos de investigacin en Educacin, en muchas ocasiones, nos interesa

a conocer la posible relacin que puede manifestarse entre dos ms variables. El concepto de correlacin Kerlinger (1985) afirma que la esencia de la ciencia son las relaciones entre variables , que pueden ponerse de manifiesto entre grupos, clases o conjuntos de objetos, pero que no cabe hablar de relaciones entre variables midiendo solamente a un individuo. Cuando conocemos la relacin entre variables, pueden llegar a formularse predicciones de los valores de una a partir de la otra. Las situaciones que pueden analizarse son varias: estudiar la relacin entre dos ms variables dentro de un mismo grupo de sujetos. con dos ms grupos comprobar la relacin entre ellos en una sola variable. estudiar una misma variable medida en dos momentos diferentes en una misma muestra. Una relacin simple entre dos series de datos se denomina correlacin entre dos variables. Nos indica la tendencia entre dos ms conjuntos de datos a variar de forma conjunta. Tenemos varias posibilidades: a) relacin perfecta positiva cuando al aumentar los valores de una de las variables, los valores de la otra lo hacen en la misma proporcin. Ver fig. 7.1 pg. 131. La correlacin se expresa como +1 b) relacin imperfecta positiva se la conoce como relacin directa de variables. A valores elevados de una variable le corresponden valores tambin altos de la otra; y a la inversa, los que puntan bajo coinciden en las dos variables. Ver fig. 7.2 pg. 131. La correlacin se sita entre los valores 0 y +1 c) relacin perfecta negativa se da una relacin inversa entre las variables, de tal forma que al aumentar los valores de una de ellas, los de la otra disminuyen y lo hacen en la misma proporcin. Ver fig. 7.3 pg. 132. La correlacin se expresa como -1 d) relacin imperfecta negativa llamada relacin inversa entre variables, lo que supone que las puntuaciones altas en una variable se corresponden con las bajas en la otra. Ver fig. 7.4 pg. 132. La correlacin se sita entre los valores 0 y -1 e) relacin nula o ausencia de relacin se da cuando dos variables son independientes una de la otra. Puede afirmarse que las puntuaciones de las dos variables se deben a factores aleatorios. La correlacin se expresa por 0. El coeficiente de correlacin simple y su interpretacin El valor del coeficiente nos marca el valor de la covariacin variacin conjunta de dos series de datos. Puede indicar una relacin directa entre variables (valores positivos) inversa (valores negativos), por loq eu su expresin se encuentra entre -1 y +1. Cmo se interpreta un coeficiente de correlacin?. Teniendo en cuenta tres aspectos: el tipo de variables que se relacionan: entre variables del mismo tipo, mayor correlacin. la variabilidad del grupo: a mayor variabilidad entre los grupos y dentro de ellos, mayor ser la correlacin. ante un coeficiente de 0,70, el obtenido en el grupo ms homogneo (menor variabilidad) se identifica con una mayor intensidad de la correlacin. la finalidad a la que se destina el coeficiente : si valoramos la fiabilidad de un instrumento de medida, las correlaciones deben superar el 0,85; mientras que un coeficiente de 0,60 es suficiente si valoramos la validez del instrumento. Se aceptan las interpretaciones de la tabla 7.1 pg. 134. Tambin podemos interpretarlo mediante el coeficiente de determinacin (d), que se interpreta como el porcentaje de varianza de una variable explicada por la otra:

= 2 100
Si rxy = 0,70 d = (0,70)2. 100 = 49 49% de varianza explicada. La eleccin de los diferentes coeficientes de correlacin depende de dos aspectos: el nivel de medida de las variables y la categora de las mismas. As, tenemos: INDICE Pearson rxy Coeficiente de contingencia C Spearman rs Biserial rb Biserial puntual rbp Tetracrica rt Phi NIVEL DE MEDIDA Intervalo Nominal Ordinal Intervalo Intervalo Intervalo Nominal CATEGORAS DE LAS VARIABLES Ambas continuas y normales Atributos, en dos ms categoras Continuas, por rangos Una continua y la otra dicotomizada Continua y dicotmica Ambas continuas y dicotomizadas Ambas dicotmicas por atributos (dos nicas categoras)

El coeficiente de correlacin de Pearson (rxy) Se utiliza cuando las dos variables que se relacionan son cuantitativas, medidas a nivel de intervalo, se distribuyen normalmente y estn linealmente relacionadas.

tpicas

.
= . = . . . 2 . 2

diferenciales

directas

. . 2

2
2

. .

directas

2 ()2 . 2 ()2

Para el clculo de estas frmulas se construye la siguiente tabla: Sujetos Var X Var Y X Y XY X Y x y xy

Ver ejemplo en tabla 7.2 pg. 136 El coeficiente de correlacin de Spearman (rs) En muchas de las variables que utilizamos frecuentemente en el campo educativo no es posible alcanzar unos niveles de medida muy precisos. Es entonces cuando hemos de recurrir a emplear los puestos que ocupan las puntuaciones en una serie ordenada. En medidas ordinales hemos de recurrir a los rangos. Para hacer la transformacin de las puntuaciones directas en rangos se siguen estos pasos:

se asigna el rango 1 a la posicin ms alta, rango 2 a la siguiente en descenso, 3 a la siguiente, y as hasta que el ltimo rango asignado coincida con N. cuando tengamos ms de una puntuacin similar, el rango se calcula mediante la de las posiciones que corresponderan a esos sujetos. el criterio de asignacin de rangos empleado en una de las variables, debe ser el mismo que en la otra, pues se trata de pares de puntuaciones que van asociadas y no son independientes.

6 2 = 1 3
Ver tablas 7.3 y 7.4 pgs. 138 y 139 Para el clculo se construye la siguiente tabla: Sujetos Var X Var Y

n nmero de sujetos. D diferencia de rangos posiciones que ocupa un mismo sujeto en dos variables distintas.

R(X)

R(Y)

Coeficiwente de contingencia (C) En el caso de variables de atributo nominales, es preferible utilizar la expresin grado de asociacin en vez de grado de correlacin. Se utiliza en aquellos casos en que se recogen datos de variables clasificadas en categoras, como ocurre con las tablas de contingencia, en las que se asignan sujetos a grupos y categoras en cada una de las variables. La frmula es : en la cual: = +

2 1

fo frecuencia observada que aparece en cada celdilla de la tabla de contingencia. fe frecuencia esperada terica que refleja el grado de asociacin. Las fe pueden calcularse mediante la frmula siguiente:

fe =

Debemos comenzar por calcular el valor de fe en cada una de las celdillas de la tabla de contingencia. Ver fig. 7.5 y 7.6 pg. 141 y 142. Seguidamente procedemos a calcular , que representa el grado de discrepancia que se manifiesta entre las frecuencias observadas empricas (fo) y las frecuencias esperadas aleatorias (fe). Para finalizar, se calcula el valor de C. Ver ejemplo en pgs.. 141 y 142. El coeficiente nunca alcanzar el valor de 1, y para su interpretacin se recurre al valor de Cmx., que solo es vlido su clculo cuando las tablas de contingencia sean cuadradas, es decir, el mismo nmero de filas que de columnas. Como comprobacin, la fo y la fe dentro de la misma fila columna, deben ser iguales. El coeficiente de correlacin biserial puntual (rbp) Cuando buscamos el grado de relacin entre una variable cuantitativa y otra autnticamente dicotmica , debemos recurrir al rbp. En realidad, es una extensin del coeficiente de correlacin de Pearson.

El numerador de ambas frmulas se toma en valores absolutos con el fin de evitar los valores negativos para la correlacin. Generalmente, los datos de la variable continua suelen agruparse en intervalos de clase, tal y como aparece en la tabla 7.7 pg. 144. Hemos de realizar unos clculos previos: de cada uno de los grupos y del total de sujetos. St del conjunto de puntuaciones. proporcin de cada uno de los grupos en relacin al total. finalmente, completar la siguiente tabla: Intervalo fp fq ft Xc Xcfp Xcfq Xcft Xcft

Xc marca de clase del intervalo p y q categoras de la variable dicotmica

s =

()

La rbp se utiliza en el anlisis de los elementos de pruebas objetivas, especialmente en aquellos casos en que la respuesta no admite nada ms que los valores de acierto error. En estos casos, el rbp es un ndice de la homogeneidad de tal elemento tem con la puntuacin global de la prueba. El corficiente phi () Se emplea cuando buscamos la existencia de relaciones entre dos variables dicotmicas, aunque de forma excepcional puede utilizarse en variables dicotomizadas. Una variable es dicotomizada cuando transformamos la variable continua a una escala de dos categoras, siendo muy frecuentemente el punto de dicotomizacin, la Md. Ver tabla 7.9 pg. 145

+ . + . + . +
Y p q

X p A C A+C

q B D B+D

A+B C+D total

Es la aplicacin a variables dicotmicas del coeficiente de Pearson. Su valor ser 1 (correlacin perfecta) cuando las frecuencias de las casillas de las diagonales positiva negativa sean nulas. en los dems casos se estudia su valor comparndolo con el valor del mx., muy importante como punto de referencia y de interpretacin: donde: 1 frecuencia marginal mayor de las cuatro = . 1 1 frecuencia marginal complementaria de esa misma variable frecuencia marginal mayor de la otra variable 1 frecuencia marginal complementaria de la anterior El valor hallado de no se puede interpretar como , sino que hemos de referirlo al valor mximo alcanzable con las frecuencias marginales que manejemos. Un ejemplo: X p q p A 21 B 42 63 Y q C 30 D 5 35 51 47 98

30 .42 21 .5 63 .35 .51 .47


35 63

=
51 47

1155 2299

= 0,502

= 0,555 .1,085 = 0,776

Tambin puede calcularse si disponemos de la distribucin de frecuencias de las variables. Veamos un ejemplo: X Sexo H:1 // M:0 0 1 0 0 1 1 0 1 0 0 0 1 =5 Y Selectividad Apto:1 // No Apto:0 0 1 1 0 1 0 0 1 0 1 0 1 =6

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12

. . . .

px proporcin de 1 en X 5/12 = 0,4167 qx proporcin de 0 en Y 7/12 = 0,5833 py proporcin de 1 en Y 6/12 = 0,50 qy proporcin de 0 en Y 1- py = 0,50 pxy proporcin de 1 tanto en X como en Y 4/12 = 0,33 =
0,33 0,4167 .0,50 0,4167 . 0,5833 . 0,50 . 0,50

= 0,507

X p q p A4 B2 6 Y q C1 D 5 6 5 7 12

Agrupando datos, tendramos que:

220

5 .7 .6 .6 5 6 7 6

18

6 35

3 35

= 0,507

max =

= 0,7142 = 0,845

Coeficiente de correlacin tetracrico (rt) Se emplea en aquellos casos en que las dos variables son de tipo cuantitativo y continuo, pero nos interesa dicotomizarlas, dividiendo las puntuaciones de cada variable en dos categoras y tomando como criterio de categorizacin generalmente la Md. Podemos entonces formalizar una tabla de contingencia de 2x2: Y - + A + en X; - en Y - A B B + en X; + en Y X + C D = C - en X; - en Y D - en X; + en Y En el numerador siempre el producto de la diagonal de igual signo, y en el denominador siempre el producto de la diagonal de signos distintos. En aquellos casos que BC < AD , buscaremos en las tablas el valor de (AD/BC) y al coeficiente resultante le pondremos un signo menos. Tambin hay un procedimiento numrico para hallar el valor de este coeficiente. Viene dado por la frmula: = Ver ejemplo resuelto en pgs.. 146 y 147. 180 . +

Coeficiente de relacin biserial (rb) Se utiliza cuando se trata de establecer la relacin que existe entre una variable cuantitativa y otra dicotomizada (una variable continua que ha sido dividida en dos categoras de forma artificial). La variable continua se presenta en escala de intervalo.

siendo Y la ordenada en el punto z en que se establece el cambio de categora y que se obtiene de las tablas con el valor de la proporcin de p (np/nt)100 Hemos de realizar unos clculos previos: de cada uno de los grupos y del total de sujetos st del total de puntuaciones proporciones de las dos categoras de dicotomizacin ( p y q) valor de Y en tablas de la curva normal Para efectuar los clculos, completamos la siguiente tabla: Intervalo fp fq ft Xc Xcfp Xcfq Xcft Xcft

Xc marca de clase del intervalo p y q categoras de la variable dicotmica

s =

()

Ver ejemplo 7.1 en pg 148 Tambin puede calcularse si disponemos de la distribucin de frecuencias sin agrupar en intervalos : X Tiempo de estudio (en min.) 20 25 30 16 10 40 18 50 43 49 Y Puntuaciones: suficiente = 1 Insuficiente=0 1 0 1 0 0 1 0 1 1 1

Sujeto 1 2 3 4 5 6 7 8 9 10

X2 400 625 900 256 100 1600 324 2500 1849 2401

1 0

1 . 0 . . 2

y 2 medias de X a las que se les asign un 1 y un 0 respectivamente. Sx desviacin tpica de las puntuaciones.
2 =

n1 y n0 nmero de 1 y de 0 en Y. Ntese que (n1 + n0 = n)

Y ordenada de la distribucin normal, en el punto donde se encuentra el porcentaje (n1/n)100 del rea bajo la curva.

Clculos previos:

n1 = 6 no = 4 n = 10
Para
1

1 6

232

0 = =

0 4

6 69

= 38,66

10955 10

30,10

189,49 = 13.76

10

4 301 10

= 17,25
= 30,10

100 60% de p, (q = 1- p = 40%), en tablas pg. 336, Y = 0,3867 (por aproximacin) = 38,66 17,25 6 .4 . = 1,555 .0,654 = 1,02 13,76 0,3867 .10 . 1000 10

El coeficiente rb puede ser menor que -1 y mayor que +1, en cuyo caso las puntuaciones X no se distribuyen normalmente o son fluctuaciones de muestreo cuando n es pequeo, como es nuestro caso del ejemplo. La regresin lineal simple La interpretacin de los coeficientes de correlacin se basa en la intensidad el grado de esa relacin, desde valores prximos a 0 hasta los cercanos a 1, que indica la mayor intensidad. Estos valores permiten conocer la varianza compartida, es decir, la parte de la variabilidad de una de ellas explicada por la otra. Para su clculo se eleva el valor del coeficiente al cuadrado y se multiplica por 100, obtenindose el llamado coeficiente de determinacin. Mediante este coeficiente de determinacin podemos estimar los valores de una variable conociendo los valores de la otra. es lo que conocemos como regresin lineal simple, cuya funcin principal nos permite la prediccin. Lo que pretendemos es predecir puntuaciones en una variable sin aplicar el instrumento de medida, simplemente conociendo la relacin de esa variable con otra y de la que tenemos los resultados de determinados sujetos. Obtenemos as una relacin positiva y prcticamente lineal, conocida como la lnea de regresin y que se emplea para llevar a cabo la prediccin estimacin de los valores de una variable Y (criterio) a partir del conocimiento de los valores de la otra variable X (predictora) con la que sabemos que mantiene un buen nivel de relacin. Estas son las frmulas de la regresin lineal:

Y= + .
en directas en diferenciales

Y=

. +

1 la que se pronostica; 2 la predictora Y puntuacin directa pronosticada en el criterio

ayx axy

media de las puntuaciones en el criterio media de las puntuaciones en el test rxy coeficiente de validez Sx y Sy desviaciones tpicas de las puntuaciones en el test y en el criterio, respectivamente Xi puntuacin directa del sujeto en el test.