Sei sulla pagina 1di 16

ANLISIS DE REGRESIN Y CORRELACIN

5.1. REGRESIN LINEAL SIMPLE, CURVILNEA Y MLTIPLE.


REGRESIN LINEAL SIMPLE
En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que
modeliza la relacin entre una variable dependiente , las variables
independientes X, y un trmino aleatorio . Este modelo puede ser expresado
como:

Donde es variable dependiente, explicada o regresando.


: Es el valor de Y cuando X es igual a 0
: es el coeficiente de regresin que indica la pendiente de la recta de regresin

Ejemplo de una regresin lineal con una variable dependiente y una variable
independiente

Mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805, y
en dnde se inclua una versin del teorema de Gauss-Mrkov.
Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una
variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una
relacin funcional entre ambas variables que puede ser establecida por una
expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la
relacin lineal concierne al valor medio o esperado de la variable aleatoria,
estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor
x de la variable controlada se designa por Yx y, segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple


sera: si xi es un valor de la variable predictor a e Yi la variable respuesta que le
corresponde, entonces

Ei es el error o desviacin aleatoria de Yi

REGRESION LINEAL SIMPLE. ESTIMACION


Estimacin de los parmetros de la recta de regresin. El primer problema a
abordar es obtener los estimadores de los parmetros de la recta de
regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2,
Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un
individuo de la poblacin o variable Yi .
Una vez realizada la muestra, se dispondr de n pares de valores o puntos del
plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin,
denominado de los mnimos cuadrados, permite esencialmente determinar la recta
que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las
estimaciones de los parmetros de la recta de regresin obtenidas con este
procedimiento son:

Por tanto la recta de regresin estimada ser:

Por ejemplo: La recta de regresin representada corresponde a la estimacin


obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada
en un recinto cerrado e Y el ritmo cardaco de un vertebrado.

REGRESION CURVILINEA
Cuando las variables X e Y se relacionan segn una lnea curva, se habla de
regresin no lineal o curvilnea. Es una funcin de segundo grado la que se ajusta
lo suficiente a la situacin real dada.
La expresin general de un polinomio de segundo grado es:
Y =a+bX+cX2 donde a , b y c son los parmetros.

El problema consiste, por tanto, en determinar dichos parmetros para una


distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de las
ecuaciones normales de Gauss. Las ecuaciones normales son:
Y = na + b X + C X2 (1)
X Y = a X + b X2 + C X3 (2)
X2 Y = a X2 + b X3 + C X4 (3)
Para lo cual se necesita elaborar el cuadro con cada una de las variables que
aparecen en las ecuaciones normales y los resultados obtenidos en este
sustituirlos en ellas para encontrar los valores de las constantes.
Para encontrar los valores de las constantes utilizaremos matrices.
Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en
general, suelen ser nmeros ordenados en filas y columnas.
Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij
dispuestos en m filas y en n columnas. El orden de una matriz tambin se
denomina dimensin o tamao, siendo m y n nmeros naturales.
Las matrices se denotan con letras maysculas: A, B, C, ... y los elementos de las
mismas con letras minsculas y subndices que indican el lugar ocupado: a, b, c,
... Un elemento genrico que ocupe la fila i y la columna j se escribe aij . Si el
elemento genrico aparece entre parntesis tambin representa a toda la matriz :
A = (aij)
Al encontrar los valores de las constantes que buscamos sustituimos los valores
en la ecuacin de regresin curvilnea para obtener los resultados que buscamos.
Y poder estimar. Hacer las estimaciones correspondientes.
Algunas de las regresiones curvilneas son las siguientes

PARBOLA DE REGRESIN

En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente


a la situacin real dada.
La expresin general de un polinomio de segundo grado es:
Y=a+bX+cX2
Donde a , b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una
distribucin dada. Se seguir para ello, un razonamiento similar al que se hace en
el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste
de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de
las desviaciones con respecto a la curva de regresin sea mnima:

Donde y i son los valores observados de la variable dependiente, y


y *i

valores estimados segn el modelo;

Por tanto, D se puede escribir de la forma:

Para encontrar los valores de a , b y c que hacen mnima la expresin anterior, se


igualarn las derivadas parciales de D con respecto a dichos parmetros a cero y
se resolver el sistema resultante. Las ecuaciones que forman dicho sistema se
conocen, igual que en el caso de la regresin lineal simple, como ecuaciones
normales de Gauss.

REGRESIN HIPERBLICA
Cuando la dependencia entre las variables X e Y es de forma hiperblica, interesa
ajustar a la nube de puntos una funcin del tipo:

La funcin a minimizar ser:

Donde

Por lo tanto,

Para minimizar la expresin, se calculan las derivadas parciales respecto a los


parmetros a y b, igualando a cero:

En consecuencia, las ecuaciones normales sern:

FUNCIN EXPONENCIAL, POTENCIAL, Y LOGARTMICA


El problema de ajustar un modelo potencial, de la forma Y = A X b y uno
exponencial Y = A B X se reduce al de la funcin lineal, con solo tomar logaritmos.

REGRESIN LINEAL MLTIPLE.

La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o
ms variables independientes, que mejor prediga el valor de la variable
dependiente. Por ejemplo, se puede intentar predecir el total de facturacin
lograda por servicios prestados en una IPS cada mes (la variable dependiente) a
partir de variables independientes tales como: Tipo de servicio, edad, frecuencia
del servicio, tipo de usuario y los aos de antigedad en el sistema del usuario.

En la regresin lineal mltiple se utilizan ms de una variable explicativa;


esto nos ofrece la ventaja de utilizar ms informacin en la construccin del
modelo y, consecuentemente, realizar estimaciones ms precisas.

Al tener ms de una variable explicativa (no se debe de emplear el trmino


independiente) surgirn algunas diferencias con el modelo de regresin lineal
simple.
El Modelo de regresin lineal mltiple El modelo de regresin lineal mltiple
es idntico al modelo de regresin lineal simple, con la nica diferencia de que
aparecen ms variables explicativas:
Modelo de regresin simple:

Modelo de regresin mltiple:

5.2. CORRELACIN.

La correlacin es la forma numrica en la que la estadstica ha podido evaluar la


relacin de dos o ms variables, es decir, mide la dependencia de una variable
con respecto de otra variable independiente.
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una
relacin lineal y proporcionalidad entre dos variables estadsticas.
La correlacin trata de establecer la relacin o dependencia que existe entre las
dos variables que intervienen en una distribucin bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios
de la otra. En caso de que suceda, diremos que las variables estn
correlacionadas o que hay correlacin entre ellas.

Tipos de correlacin
1 Co rre la cin d irect a
La correlacin directa se da cuando al aumentar una de las variables la otra
aumenta.
La recta correspondiente a la nube de puntos de la distribucin es una recta
creciente.

2 Co rre la cin in ve rsa


La correlacin inversa se da cuando al aumentar una de las variables la otra
disminuye.
La recta correspondiente a la nube de puntos de la distribucin es una recta
decreciente.

3 Co rre la cin nu la
La correlacin nula se da cuando no hay dependencia de ningn tipo entre las
variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene
una forma redondeada.

Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de la nube
de puntos. Se pueden dar tres tipos:
1 . Co rre la ci n f ue rt e
La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.

2 . Co rre la ci n d bil
La correlacin ser dbil cuanto ms separados estn los puntos de la recta.

3 . Co rre la ci n n u la

5.3. REGRESIN Y CORRELACIN PARA DATOS AGRUPADOS.


REGRESIN PARA DATOS AGRUPADOS.
REGRESIN MNIMO-CUADRTICA
Consiste en explicar una de las variables en funcin de la otra a travs de un
determinado tipo de funcin (lineal, parablica, exponencial, etc.), de forma que la
funcin de regresin se obtiene ajustando las observaciones a la funcin elegida,
mediante el mtodo de Mnimos-Cuadrados (M.C.O.).
Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr
minimizando la expresin:

(yj - (xi ) ) 2. nij en el caso de la regresin de Y/X

(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y


Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de
las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos
obtenidos por la regresin de la media; de forma que la regresin mnimocuadrtica viene ser, en cierto modo, la consecucin de una expresin analtica
operativa para la regresin en sentido estricto.

CORRELACIN PARA DATOS AGRUPADOS


Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribucin de frecuencias y por ello nuestros clculos
sern ms laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al
menos una calculadora con regresin para datos agrupados.
De cualquier forma aqu tambin estamos evaluando numricamente si existe
relacin entre dos variables y lo haremos con la siguiente ecuacin.

En donde podemos encontrar k como el nmero de clases para la variable "y" y l


para el nmero de clases de "x".
Tambin podemos observar que hay varios tipos de "f" es decir, la que se
encuentra sola (sin subndice) que nos habla de las frecuencias celdares (cada
una de las frecuencias que se encuentran en la interseccin entre una columna y
un rengln) y las "f" con subndices que representan las frecuencias de cada una
de las variables.
Para entender el uso de esta formula usaremos un ejemplo:
Los resultados que se presentan en la siguiente tabla representan los pesos y las
estaturas de 48 alumnos entrevistados el "da Anhuac"

Marcas de clase de "x"


1.44 1.545 1.645 1.745 1.845 1.945
5

fy

fx y

fx y^2

178

7921

19

1035.5

56434.75

44.5

marcas 54.5

de clase 64.5

580.5

37442.25

74.5

521.5

38851.75

84.5

422.5

35701.25

94.5

378

35721

17

48

3116

212072

f x y

5380.77

de "Y"

fx

fx x

13.90 19.74 29.66 12.91 5.835


5
5
5

fx x^2 0

12

82.06

21.48 32.47 51.76 23.82 11.349 140.89


3225 23
5425 8175 075
82

Correlacin= 0.695

La sustitucin de la frmula es la siguiente:

Al interpretar nuestro resultado podemos concluir que si existe relacin entre el


peso y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlacin es negativo y lo que debemos


pensar es que la relacin de las variables involucradas en el calculo es inverso es
decir que en la medida que crece la variable independiente la variable dependiente
decrece:

5.4. CORRELACIN POR RANGOS.


La correlacin de Spearman, o por rango, se basa en reemplazar los valores
originales de ambas variables, por nmeros enteros positivos, comenzando por 1
en adelante, que correspondan a su ordenamiento de mayor de menor a mayor
magnitud. Para ello, lo valores reales de cada una de las variables son ordenados
de menor a mayor, por separado y reemplazados por rango.

Para calcular el coeficiente de correlacin de spearman o por rangos usamos la


siguiente expresin:

Donde
= coeficiente de correlacin de Spearman ( =rho)
= Cuadrado de la diferencia entre los rangos de X e Y
n =numero de parejas

La correlacin de Spearman es un excelente mtodo para cuantificar la relacin


entre dos escalas de valores discretos y/o con jerarqua (ordinales). Tambin es
una excelente opcin cuando los dos datos no tienen distribucin Normal
bivariante, especialmente si hay valores extremos.
El mtodo de Spearman permite calcular correlacin, pero solo entre dos
variables, este mtodo tampoco permite hacer regresin, es decir, no se puede
modelar la variable respuesta Y, con varios predictores en forma simultanea o ver
la influencia de un pre editor sobre otro. En este sentido, el mtodo es mucho
menos poderoso, que la regresin lineal o logstica.

5.5. COEFICIENTE DE CORRELACIN PARA DATOS NOMINALES.


Coeficiente de contingencia.
Este se aplica para variables nominales. Cuando los valores de dos
variables no pueden ser ordenados, sino que tienen que ser clasificados,
para determinar la relacin entre esas dos variables empleamos el
coeficiente de contingencia.

El coeficiente de contingencia posee una serie de caractersticas, estas son:


5.No existe relacin entre las variables, por tanto diremos que estas tendrn
una proporcin similar.
6. Se utiliza para evitar el efecto del tamao de la muestra.
7.En una tabla de dos filas por columna es recomendable realizar la
correccin de Yates.
Tambin este tipo de correlacin posee una serie de propiedades que
tenemos que tener en cuenta:
El coeficiente de contingencia C est comprendido entre 0 y 1.
El coeficiente C presenta el valor cero cuando la relacin entre las variables
es nula, pero nunca alcanza el valor 1. El mximo depender del nmero de filas y
columnas. qEl coeficiente C indica la intensidad de relacin entre las
variables que se estn midiendo.
qEl valor de C depende del nmero de filas y columnas de la tabla de
contingencia construido para su calculo.
qEl coeficiente C no es comparable a otros coeficientes de correlacin,
valores similares indicara diferentes grados de correlacin.

Ejemplo
Queremos determinar si existe relacin entre el sexo y la especialidad cursada
para los
alumnos que estudian Magisterio, a partir de los datos corre
spondientes a 349 alumnos de una escuela de Magisterio.
Distribucin conjunta de frecuencias para sexo y especialidad.

En primer lugar calcularemos el valor de X . Partiendo del supuesto de que


no
hay
relacin entre las dos variables, es preciso calcular las frecuencias
esperadas en
cada celdilla de la tabla. Por ejemplo, la proporcin de alu
mnos que estudian
ciencias tiene que ser similar a las alumnas que
estudian ciencias. Hombres 70/178=0,39, y alumnas 40/171=0,23.Por
esto

decimos que
cuando
con la siguiente frmula.

las variables son independientes se pueden calcular

fe = Frecuencias esperadas
ff = Frecuencia marginal de la fila
fc = Frecuencia marginal de la columna

Potrebbero piacerti anche