Sei sulla pagina 1di 37

1

Anlisis de
Regresin y Correlacin
Lic. Olga Susana Filippini
por
2

Muchas veces las decisiones se basan en la relacin entre
dos o ms variables.Ejemplos

Dosis de fertilizantes aplicadas y rendimiento del cultivo.

La relacin entre la radiacin que reciben los sensores con
la que se predicen los rendimientos por parcelas con los
rendimientos reales observados en dichas parcelas.

Relacin entre tamao de un lote de produccin y horas
hombres utilizadas para realizarlo.


Distinguiremos entre relaciones funcionales y relaciones
estadsticas
Introduccin
3
Relacin funcional entre dos
variables
Una relacin funcional se expresa mediante
una funcin matemtica.
Si X es la variable independiente e Y es la variable
dependiente, una relacin funcional tiene la forma:
Y=f(X)
Ejemplo 1

Parcela Dosis Rend.(kg/h)
1 75 150
2 25 50
3 130 260
4
Relacin funcional perfecta entre dosis y
rendimientos
0
50
100
150
200
250
300
0 20 40 60 80 100 120 140
Dosis
R
e
n
d
i
m
i
e
n
t
o
Rend.
Figura 1
Nota: Las observaciones caen exactamente sobre la lnea de
relacin funcional
5
Relacin estadstica entre dos
variables
A diferencia de la relacin funcional, no es una
relacin perfecta, las observaciones no caen
exactamente sobre la curva de relacin entre las
variables
Ejemplo 2

Lote de prod. Tamao del lote Horas hombre
1 30 73
2 20 50
3 60 128
4 80 170
5 40 87
6
Relacin estadstica entre tamao del lote y
horas hombre
0
20
40
60
80
1 00
1 20
1 40
1 60
1 80
0 1 0 20 30 40 50 60 70 80 90
Tamao del lote
H
o
r
a
s

h
o
m
b
r
e
Horas hombre
Figura 2
Nota: La mayor parte de los punto no caen directamente sobre
la lnea de relacin estadstica.
Esta dispersin de punto alrededor de la lnea representa la
variacin aleatoria
7
Figura 3
Coordenadas de puntos de control utilizados
para corregir la columna de los niveles
digitales de una imagen satelital
0
1000
2000
3000
4000
5000
6000
7000
0 2 4 6 8 10 12 14 16
Nota: se trata de un terreno rugoso donde varan notablemente
las condiciones de observacin del sensor, para corregir errores
geomtricos de la imagen, se aplican funciones de segundo
grado. Los datos sugieren que la relacin estadstica es de tipo
curvilnea.
8
Anlisis de Regresin: Es un procedimiento estadstico que estudia
la relacin funcional entre variables.Con el objeto de predecir una
en funcin de la/s otra/s.
Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas
para medir la intensidad de la relacin entre dos variables
Diagrama de Dispersin: Es un grfico que muestra la intensidad y el
sentido de la relacin entre dos variables de inters.
Variable dependiente (respuesta, predicha, endgena): es la
variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exgenas). Son
las variables que proveen las bases para estimar.
Regresin simple: interviene una sola variable independiente
Regresin mltiple: intervienen dos o ms variables independientes.
Regresin lineal: la funcin es una combinacin lineal de los
parmetros.
Regresin no lineal: la funcin que relaciona los parmetros no es
una combinacin lineal

Conceptos bsicos
9
Grfico de dispersin
Los diagramas de dispersin no slo muestran la
relacin existente entre variables, sino tambin resaltan
las observaciones individuales que se desvan de la
relacin general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
10
Coeficiente de correlacin
lineal
El Coeficiente de Correlacin (r)
requiere variables medidas en escala de
intervalos o de proporciones
Vara entre -1 y 1.
Valores de -1 1 indican correlacin perfecta.
Valor igual a 0 indica ausencia de correlacin.
Valores negativos indican una relacin lineal
inversa y valores positivos indican una relacin
lineal directa
11
Correlacin Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
12
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlacin Positiva Perfecta
13
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Ausencia de Correlacin
14
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlacin Fuerte y Positiva
15
Frmula para el coeficente de
correlacin (r) Pearson
[ ] ( ) ( ) [ ]
2
2 2 2
Y Y n ) X ( ) X ( n
) Y )( X ( ) XY ( n
= r


16
Modelos de Regresin
Un modelo de regresin, es una manera de
expresar dos ingredientes esenciales de
una relacin estadstica:
Una tendencia de la variable dependiente Y a
variar conjuntamente con la variacin de la o
las X de una manera sistemtica
Una dispersin de las observaciones alrededor
de la curva de relacin estadstica
17
Modelos de Regresin
Estas dos caractersticas estn implcitas en un
modelo de regresin, postulando que:
En la poblacin de observaciones asociadas con el
proceso que fue muestreado, hay una distribucin
de probabilidades de Y para cada nivel de X.
Las medias de estas distribuciones varan de manera
sistemtica al variar X.
18
Representacin grfica del
modelo de Regresin Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades
de Y para distintos valores de X
19
Anlisis de Regresin
Objetivo: determinar la ecuacin de regresin para
predecir los valores de la variable dependiente (Y)
en base a la o las variables independientes (X).
Procedimiento: seleccionar una muestra a partir de
la poblacin, listar pares de datos para cada
observacin; dibujar un diagrama de puntos para
dar una imagen visual de la relacin; determinar la
ecuacin de regresin.
20
Supuestos de Regresin Lineal
Clsica
Cada error est normalmente distribuido
con:
Esperanza de los errores igual a 0
Variancia de los errores igual a una
constante o
2
.
Covariancia de los errores nulas para todo
i=j
21
Proceso de estimacin de la regresin lineal simple
Modelo de regresin
y=|
0
+|
1
x+c
Ecuacin de regresin
E(y)=|
0
+|
1
x
Parmetros desconocidos
|
0
.|
1

Datos de la muestra
x

y
x
1


y
1

x
2


y
2

.

.
.

.
.

.
x
n


y
n



b
0
y

b
1
proporcionan estimados
|
0
y |
1
Ecuacin estimada de
regresin
y=b
0
+b
1
x
Estadsticos de la muestra
b
0
.b
1

22
Lneas posibles de regresin en la
regresin lineal simple
x
x
E
y
Seccin A
Relacin lineal positiva
Lnea de regresin
La pendiente |
1

es positiva
*
x
E
y
Seccin B
Relacin lineal negativa
Lnea de regresin
La pendiente |
1

es negativa
*
Seccin C
No hay relacin
E
y
Lnea de regresin
La pendiente |
1

es 0
*
Ordenada al origen |
0
*
23
Estimacin de la ecuacin de
Regresin Simple
Y= a + bX, donde:
Y es el valor estimado de Y para distintos X.
a es la interseccin o el valor estimado de Y cuando X=0
b es la pendiente de la lnea, o el cambio promedio de Y
para cada cambio en una unidad de X
el principio de mnimos cuadrados es usado para obtener a
y b:
b
n XY X Y
n X X
a
Y
n
b
X
n
=

=
( ) ( )( )
( ) ( )
E E E
E E
E E
2 2
24
Mnimos cuadrados - Supuestos
1. El modelo de regresin es lineal en los parmetros.
2. Los valores de X son fijos en muestreo repetido.
3. El valor medio de la perturbacin c
i
es igual a cero.
4. Homocedasticidad o igual variancia de c
i
.
5. No autocorrelacin entre las perturbaciones.
6. La covariancia entre c
i
y X
i
es cero.
7. El nmero de observaciones n debe ser mayor que
el nmero de parmetros a estimar.
8. Variabilidad en los valores de X.
9. El modelo de regresin est correctamente
especificado.
10. No hay relaciones lineales perfectas entre las
explicativas.
25
Estimacin de la variancia de los
trminos del error (o
2
)
Debe ser estimada por varios motivos
Para tener una indicacin de la variabilidad
de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la
funcin de regresin y la prediccin de Y.
La lgica del desarrollo de un estimador de
o
2
para el modelo de regresin es la misma
que cuando se muestrea una sola poblacin
La variancia de cada observacin Y
i
es o
2
, la
misma que la de cada trmino del error

26
Estimacin de la variancia de los
trminos del error (o
2
)
Dado que los Y
i
provienen de diferentes distribuciones
de probabilidades con medias diferentes que
dependen del nivel de X, la desviacin de una
observacin Y
i
debe ser calculada con respecto a su
propia media estimada Y
i
.
Por tanto, las desviaciones son los residuales



i i i
e = Y

Y -

= = =
= = =
n
i
n
i
i i
n
i
i i e
e ) bX a Y ( ) Y

Y ( SC
1 1
2 2
1
2
1
Y la suma de cuadrados es:
27
Estimacin de la variancia de los
trminos del error (o
2
)
La suma de cuadrados del error, tiene n-2 grados de
libertad asociados con ella, ya que se tuvieron que
estimar dos parmetros.
Por lo tanto, las desviaciones al cuadrado dividido por
los grados de libertad, se denomina cuadrados medios




Donde CM es el Cuadrado medio del error o cuadrado
medio residual. Es un estimador insesgado de o
2
2 2
2
1

=

=
n
e
n
SC
CM
i
n
i e
e
28
Anlisis de Variancia en el anlisis
de regresin
El enfoque desde el anlisis de variancia se basa en
la particin de sumas de cuadrados y grados de
libertad asociados con la variable respuesta Y.
La variacin de los Y
i
se mide convencionalmente
en trminos de las desviaciones

La medida de la variacin total Sc
tot
, es la suma de
las desviaciones al cuadrado

) Y Y (
i i


2
) Y Y (
i i
29
Desarrollo formal de la particin
Consideremos la desviacin

Podemos descomponerla en


T R E
(T): desviacin total
(R): es la desviacin del valor ajustado por la
regresin con respecto a la media general
(E): es la desviacin de la observacin con respecto
a la lnea de regresin

) Y Y (
i i

( ) ) Y

Y ( ) Y Y

( Y Y
i i i i
+ =
30
Desarrollo formal de la particin
Si consideremos todas las observaciones y elevamos al
cuadrado para que los desvos no se anulen


SC
tot
SC
reg
SC
er

(SC
tot
): Suma de cuadrados total
(SC
reg
): Suma de cuadrados de la regresin
(SC
er
): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se
obtienen los cuadrados medios del anlisis de
variancia.

( )
2 2
2

+ = ) Y

Y ( ) Y Y

( Y Y
i i i i
31
Coeficiente de Determinacin
Coeficiente de Determinacin, R
2
- es la
proporcin de la variacin total en la
variable dependiente Y que es explicada o
contabilizada por la variacin en la variable
independiente X.
El coeficiente de determinacin es el
cuadrado del coeficiente de correlacin, y
varia entre 0 y 1.
32

=
2
2
2
) y y (
) y y

(
R
o
c

Clculo del R
2
a travs de la
siguiente frmula
33
Inferencia en Regresin
Los supuestos que establecimos sobre los
errores nos permiten hacer inferencia sobre
los parmetros de regresin (prueba de
hiptesis e intervalos de confianza), ya que
los estimadores de |
0
y |
1
pueden cambiar su
valor si cambia la muestra.
Por lo tanto debemos conocer la distribucin
de los estimadores para poder realizar
prueba de hiptesis e intervalos de confianza

34
Ejemplo

Se desean comparar los rendimientos predichos a partir de la
informacin obtenida por 3 sensores sobre los rendimientos
reales por parcelas de lotes de maz. Los rendimientos (Y) y el
los rindes predichos de 4 sensores se presentan a continuacin
Qu sensor refleja mejor el rendimiento de esa zona?
Sensor 1 Sensor 4 Sensor 5 Rendimiento
0,0754 0,3083 0,1212 42,5846
0,0754 0,3083 0,1212 43,8576
0,0742 0,3327 0,1328 44,0082
0,0766 0,3327 0,1251 43,4989
0,0766 0,3297 0,1251 41,3327
0,0730 0,3205 0,1193 41,0313
0,0754 0,3114 0,1193 40,4802
0,0766 0,2901 0,1193 36,6735
0,0754 0,3449 0,1328 43,3535
0,0754 0,3480 0,1193 43,3180
0,0766 0,3480 0,1193 43,3143
0,0766 0,3419 0,1135 41,0042
0,0766 0,2840 0,1135 36,4908
0,0766 0,3053 0,1193 37,5931
0,0754 0,3266 0,1232 40,4556
0,0766 0,2840 0,1135 35,5595
0,0754 0,3358 0,1232 41,6400
0,0742 0,3419 0,1251 43,5951
35
Rendimiento
PRED_Rendimiento
0,078 0,092 0,107 0,121 0,135
B5
15,79
23,33
30,87
38,41
45,95
P
R
E
D
_
R
e
n
d
i
m
i
e
n
t
o
Ttulo
Rendimiento
PRED_Rendimiento
Y = 338.71*X - 4.87
R2 = 0.32

Descripcin Grfica y cuantitativa de la relacin entre
cada sensor y el rendimiento
36
Rendimiento
PRED_Rendimiento
0,22 0,26 0,30 0,34 0,37
B4
15,79
23,33
30,87
38,41
45,95
P
R
E
D
_
R
e
n
d
i
m
i
e
n
t
o
Ttulo
Rendimiento
PRED_Rendimiento
Y = 155.37*X 13.25
R2 = 0.57

37
Rendimiento
PRED_Rendimiento
0,071 0,076 0,081 0,087 0,092
B1
15,79
23,33
30,87
38,41
45,95
P
R
E
D
_
R
e
n
d
i
m
i
e
n
t
o
Ttulo
Rendimiento
PRED_Rendimiento
Y = -1004.34*X +112.24
R2 = 0.44

Potrebbero piacerti anche