Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Concepto
El establecimiento de una correlacin entre dos variables es importante, pero esto se considera un primer paso para predecir una variable a partir de la otra. (U otras, en el caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est muy relacionada con Y, ello quiere decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la prediccin. (Evidentemente si, X no est relacionada con Y, X no sirve como predictor de Y.)
Nota: Emplearemos los trminos regresin y prediccin como casi sinnimos. (La razn del uso del trmino regresin es antigua, y se ha mantenido como tal.)
Concepto (2)
El tema bsico en regresin (con 2 variables) es ajustar los puntos del diagrama de dispersin de las variables X e Y. Para simplificar, nos centraremos especialmente (por simplicidad) en el caso de que la relacin entre X e Y sea lineal. rendimiento
inteligencia
Claro est, el tema ahora es cmo conseguir cul es la mejor lnea que parece unir los puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el ms empleado comnmente, y el que veremos aqu, es el criterio de mnimos cuadrados.
Criterio de mnimos cuadrados: Es aquel que minimiza las distancias cuadrticas de los puntos con la lnea.
A es la ordenada en el origen (es donde la recta corta el eje Y) rendimiento B es la pendiente (observad que en el caso de las relaciones positivas, B ser positivo; en el caso de las relacin negativas, B ser negativo; si no hay relacin, B ser aproximadamente 0) inteligencia Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relacin lineal) la recta de regresin de Y sobre (a partir de) X.
Y Rendimiento (Y)
Y Y
n ' i 1 i i
Inteligencia (X)
2
sea mnimo
11 10
9 8
6 5
RENDIM
INTELIG
es mnimo
-Cada unidad de CI hace aumentar 015 la nota. -Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacara un -8.5
Ordenada origen
A Y BX
XY nXY B X nX
2 2
Pendiente
Nota: Tanto A como B se pueden obtener fcilmente en cualquier calculadora con opcin LR (Linear Regression)
Luego Y=-85+015X
Ordenada origen
a0
xy b x
2
IMPORTANTE: B=b Es decir, la pendiente en puntuaciones diferenciales es la MISMA que en puntuaciones directas
Pendiente
Ordenada origen
a 0
Pendiente
z z z
x 2 x
zy
IMPORTANTE: Como veremos, la pendiente en puntuaciones tpicas COINCIDE con el ndice de correlacin de Pearson
Modelo 1
Ord. y pendiente
Coeficientesa Coeficientes no estandarizados B Error tp. -8.500 11.324 .150 .107 Coeficientes estandarizad os Beta .703
(punt.tpicas)
Modelo 1
(Constante) INTELIG
t -.751 1.399
Observad que el ndice de corr.Pearson coincide con la pendiente expresada en puntuaciones tpicas.
Sabemos que
xy Bb x
2
sxy
xy n
2 x
rxy
sxy sx s y
2 sx
Se deduce que
xy Bb x x
2
xy
n sxy rxy sx s y r s y xy 2 2 2 sx sx sx n
En definitiva,
B b rxy
sy sx
sy
A Y rxy
sy sx
Evidentemente, la ordenada en el origen de la recta de regresin de Y sobre X ser 0 para puntuaciones diferenciales y tpicas (dado que las medias para las respectivas puntuaciones tanto en X como en Y sern 0 en tales casos).
Puntuaciones observadas
Puntuaciones predichas
Yi
Yi
Yi Yi
La cuestin ahora en cunto se reduce la varianza al emplear la recta de regresin de Y sobre X (es decir, teniendo X como predictor) en comparacin con el caso en que no tuviramos la recta de regresin
2 sy 2 ( Y Y )
En tal caso, dado el criterio de mnimos cuadrados, si tenemos datos en Y y carecemos de datos en X, nuestra mejor estimacin de Y ser su media
es mnimo
2 sy
2 sy .x
2 rxy 1
2 sy .x 2 sy
Cun buena es la prediccin de la recta de regresin? El coeficiente de determinacin como ndice de la bondad de ajuste de nuestro modelo (la recta de regresin)
Acabamos de mostrar que
2 rxy 1 2 sy .x 2 sy
2 rxy
Es el llamado coeficiente de determinacin y permite conocer cun bueno es el ajuste de la recta de regresin (o en general del modelo lineal). Est acotado entre 0 y 1.
Si todos los puntos del diagrama de dispersin estn sobre la recta (con pendiente 2 diferente de 0), entonces ser 0, y el coeficiente de determinacin ser 1 sy .x Cuanto ms se alejen los puntos de la recta de regresin, mayor ser el valor de 2 el valor del sy . x coeficiente de determinacin ser menor y menor.
Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto i-simo es igual a la puntuacin predicha para dicho sujeto ms un error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de prediccin son independientes, con lo que podemos sealar
2 2 2 sy sy s ' y. x
2 y
Varianza total de Y Varianza de las puntuaciones de Y predichas por el predictor X Varianza de los errores de prediccin (varianza no explicada por X)
2 sy '
2 sy .x
Y sabamos que
2 rxy 1
luego
2 rxy
2 2 sy sy .x
2 y
En definitiva, el coeficiente de determinacin mide la proporcin de la varianza de Y que est asociada/explicada por el predictor X
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de regresin de Y sobre X por el procedimiento de mnimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede ser influida por diferentes variables, resulta ms ecolgico examinar no ya cun bueno es un predictor X para predecir Y, sino ms bien tendremos varios predictores X1, X2, ...., para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso de la regresin mltiple. Hasta ahora tenamos
Y ' A BX
X1
criterio, variable a predecir, variable dependiente Variables predictoras
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
X 2 , X 3 ,...
Es importante que os deis cuenta que las ponderaciones B2, B3, ..., son anlogas a las que vimos en el caso de la recta de regresin.
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
Por ejemplo
B2 r12.3
s1.3 s2.3
Tales coeficientes representan cun importante es la respectiva variable predictora en la ecuacin de regresin.
Al igual que ocurra en la recta de regresin (fijaros que el caso de 1 predictor es un caso particular de la regresin mltiple), A representa el lugar donde el hiperplano de regresin mltiple corta el eje de la variable predicha. Por simplicidad, y dado que normalmente todo el proceso se hace mediante ordenador, no veremos las frmulas (ver el texto de Botella y otros, en el que est todo bien explicado)...pero ahora veremos unas puntualizaciones.
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
En puntuaciones diferenciales, recordad que A vala 0 en la recta de regresin; lo mismo se aplica en la ecuacin de regresin.
x1 ' b2 x2 b3 x3 ... bk xk
Y aplicando la misma lgica, el valor de los pesos es el mismo que el que tenamos en puntuaciones directas
b2 B2
b3 B3
etctera
R1.23 0 '904
Como en el caso de 1 predictor:
Coeficientesa Coeficientes no estandarizados B Error tp. 11.288 2.221 -1.139 .510 .365 .421 Coeficientes estandarizad os Beta -1.293 .502
R1.23
2
t 5.082 -2.233 .868 Sig. .037 .155 .477
s s
Modelo 1
2 ' x1 2 x1
Y ' A BX
O si se quiere expresar as
Y A BX (Y Y ')
Y A BX e
Observado = Predicho + Error estimacin
en trminos generales
Y B0 B1 X 1 e
La expresin general es
Y B0 B1 X 1 ... Bk X k e
Y: Variable dependiente X1, X2, ..., variables independientes (predictoras de Y) e: error aleatorio B1, B2, ..., son los pesos que determinan la contribucin de cada variable independiente.
El caso en el modelo lineal general es que en la parte izquierda de la ecuacin podemos tener no slo una variable dependiente, sino varias.