Sei sulla pagina 1di 6

REGRESIN

En estadstica la regresin lineal o ajuste lineal es un modelo


matemtico usado para aproximar la relacin de dependencia entre una
variable dependiente Y, las variables independientes Xi y un trmino
aleatorio. Este modelo puede ser expresado como:

donde:
Yt: variable dependiente, explicada o regresando.
X1, X2, , XP: variables explicativas, independientes o regresores.
1, B2, , BP: parmetros, miden la influencia que las variables
explicativas tienen sobre el regrediendo.
donde B0 es la interseccin o trmino constante, las B i (i > 0) son los
parmetros respectivos a cada variable independiente, y es el nmero
de parmetros independientes a tener en cuenta en la regresin. La
regresin lineal puede ser contrastada con la regresin no lineal.

Es la representacin de la relacin entre dos (o ms) variables a travs


de un modelo formal supone contar con una expresin lgico-
matemtica que, aparte de resumir cmo es esa relacin, va a permitir
realizar predicciones de los valores que tomar una de las dos variables
(la que se asuma como variable de respuesta, dependiente, criterio o Y)
a partir de los valores de la otra (la que se asuma como variable
explicativa, independiente, predictora o X).

Involucra el estudio la relacin entre dos variables cuantitativas. En


general interesa:
a) Investigar si existe una asociacin entre las dos variables
testeando la hiptesis de independencia estadstica.
b) Estudiar la fuerza de la asociacin, a travs de una medida de
asociacin denominada coeficiente de correlacin.
c) Estudiar la forma de la relacin. Usando los datos propondremos
un modelo para la relacin y a partir de ella ser posible predecir
el valor de una variable a partir de la otra.

En lo que respecta al papel que juegan las variables en el modelo la


aplicacin de un modelo predictivo supone que una de las 2 variables
adopta el papel de variable explicativa y la otra el de variable de
respuesta y es, por tanto, que se dice que las variables adoptan un rol
asimtrico.

El modelo de regresin lineal es el ms utilizado a la hora de predecir los


valores de una variable cuantitativa a partir de los valores de otra
variable explicativa tambin cuantitativa (modelo de regresin lineal
simple). Una generalizacin de este modelo, el de regresin lineal
mltiple, permite considerar ms de una variable explicativa
cuantitativa. Por otra parte, tal como se ver en un tema posterior, es
tambin posible incluir variables explicativas categricas en un modelo
de regresin lineal si se sigue una determinada estrategia en la
codificacin de los datos conocida como codificacin ficticia.

Su objetivo es investigar la relacin estadstica que existe entre una


variable dependiente (Y) y una o ms variables independientes (X 1, X2,
X3, ...). Para poder realizar esta investigacin, se debe postular una
relacin funcional entre las variables. Debido a su simplicidad analtica,
la forma funcional que ms se utiliza en la prctica es la relacin lineal.
Cuando solo existe una variable independiente, esto se reduce a una
lnea recta:

donde los coeficientes b0 y b1 son parmetros que definen la posicin e


inclinacin de la recta. (Ntese que hemos usado el smbolo especial
para representar el valor de Y calculado por la recta. Como veremos, el
valor real de Y rara vez coincide exactamente con el valor calculado, por
lo que es importante hacer esta distincin.)

El parmetro b0, conocido como la "ordenada en el origen," nos indica


cunto es Y cuando X = 0. El parmetro b1, conocido como la
"pendiente," nos indica cunto aumenta Y por cada aumento de una
unidad en X. Nuestro problema consiste en obtener estimaciones de
estos coeficientes a partir de una muestra de observaciones sobre las
variables Y y X. En el anlisis de regresin, estas estimaciones se
obtienen por medio del mtodo de mnimos cuadrados.

Cuando hay ms de una variable explicativa (modelo de regresin lineal


mltiple), se utiliza
un subndice para cada una de ellas, por ejemplo, para el caso de dos
variables explicativas:

Y = + X + X2

El modelo lineal relaciona la variable dependiente Y con K variables


explcitas Xk (k = 1,...K), o cualquier transformacin de stas que
generen un hiperplano de parmetros k desconocidos:

donde es la perturbacin aleatoria que recoge todos aquellos factores


de la realidad no controlables u observables y que por tanto se asocian
con el azar, y es la que confiere al modelo su carcter estocstico. En el
caso ms sencillo, con una sola variable explcita, el hiperplano es
una recta:

El problema de la regresin consiste en elegir unos valores determinados


para los parmetros desconocidos k, de modo que la ecuacin quede
completamente especificada. Para ello se necesita un conjunto de
observaciones. En una observacin i-sima (i= 1,... I) cualquiera, se
registra el comportamiento simultneo de la variable dependiente y las
variables explcitas (las perturbaciones aleatorias se suponen no
observables).

Los valores escogidos como estimadores de los parmetros k, son


los coeficientes de regresin sin que se pueda garantizar que
coincida n con parmetros reales del proceso generador. Por tanto, en:

Los valores i son por su parte estimaciones o errores de la perturbacin


aleatoria.

Correlacin:
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin
de una relacin lineal y proporcionalidad entre dos variables
estadsticas. Se considera que dos variables cuantitativas estn
correlacionadas cuando los valores de una de ellas varan
sistemticamente con respecto a los valores homnimos de la otra: si
tenemos dos variables (A y B) existe correlacin si al aumentar los
valores de A lo hacen tambin los de B y viceversa. La correlacin entre
dos variables no implica, por s misma, ninguna relacin casual.

La relacin entre dos variables cuantitativas queda representada


mediante la lnea de mejor ajuste, trazada a partir de la nube de puntos.
Los principales componentes elementales de una lnea de ajuste y, por
lo tanto, de una correlacin, son la fuerza, el sentido y la forma:

La fuerza extrema segn el caso, mide el grado en que la lnea


representa a la nube de puntos: si la nube es estrecha y alargada, se
representa por una lnea recta, lo que indica que la relacin es fuerte; si
la nube de puntos tiene una tendencia elptica o circular, la relacin es
dbil.
El sentido mide la variacin de los valores de B con respecto a A: si al
crecer los valores de A lo hacen los de B, la relacin es directa
(pendiente positiva); si al crecer los valores de A disminuyen los de B, la
relacin es inversa (pendiente negativa).
La forma establece el tipo de lnea que define el mejor ajuste: la lnea
recta, la curva monotnica o la curva no monotnica.

Existen diversos coeficientes que miden el grado de correlacin,


adaptados a la naturaleza de los datos. El ms conocido es el coeficiente
de correlacin de Pearson (introducido en realidad por Francis Galton),
que se obtiene dividiendo la covarianza de dos variables entre el
producto de sus desviaciones estndar.
Dados los valores muestrales de dos variables aleatorias e
, que pueden ser consideradas como vectores en un espacio
a n dimensiones, pueden construirse los "vectores centrados" como:

El coseno del ngulo alfa entre estos vectores es dado por la frmula
siguiente:

Pues COS() es el coeficiente de correlacin muestral de Pearson. El


coeficiente de correlacin es el coseno entre ambos vectores centrados:
Si r = 1, el ngulo = 0, ambos vectores son colineales
(paralelos).
Si r = 0, el ngulo = 90, ambos vectores son ortogonales.
Si r =-1, el ngulo = 180, ambos vectores son colineales de
direccin opuesto.
Ms generalmente: = arcos(r).
Por supuesto, desde el punto vista geomtrico, no hablamos
de correlacin lineal: el coeficiente de correlacin tiene siempre un
sentido, cualquiera sea su valor entre -1 y 1. Nos informa de modo
preciso, no tanto sobre el grado de dependencia entre las variables, sino
sobre su distancia angular en la hiperesfera a n dimensiones.
La Iconografa de las correlaciones es un mtodo de anlisis
multidimensional que reposa en esta idea. La correlacin lineal se da
cuando en una nube de puntos se encuentran o se distribuyen alrededor
de una recta.
La frmula de correlacin para dos series distintas con cierto desfase
"k", est dada por la frmula:
El coeficiente de correlacin muestral de una muestra es de hecho una
varible aleatoria, eso significa que si repetimos un experimento o
consideramos diferentes muestras se obtendrn valores diferentes y por
tanto el coeficiente de correlacin muestral calculado a partir de ellas
tendr valores ligeramente diferentes. Para muestras grandes la
variacin en dicho coeficiente ser menor que para muestras pequeas.
R. A. Fisher fue el primero en determinar la distribucin de probabilidad
para el coeficiente de correlacin.
Si las dos variables aleatorias que trata de relacionarse proceden de una
distribucin gaussiana bivariante entonces el coeficiente de
correlacin r sigue una distribucin de probabilidad dada por;

donde:
es la distribucin gamma
2F1 (a, b; c; z) es la funcin gaussiana hipergeomtrica.
Ntese que el valor esperado del coeficiente de correlacin
muestral r es:

por tanto, r es estimador sesgado de p. Puede obtenerse un estimador


aproximado no sesgado resolviendo la ecuacin:

Aunque, la solucin:

es subptima. Se puede obtener un estimador sesgado con mnima

varianza para grandes valores de n, con sesgo de orden buscando


el mximo de la expresin:

.
En el caso especial de que p = 0, la distribucin original puede ser
reescrita como:
donde B es la funcin beta.

Potrebbero piacerti anche