Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIN
Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de
intervalo o razn, as tambin se puede comprender la relacin de dos o ms
variables y nos permitir relacionar mediante ecuaciones, una variable en relacin
de la otra variable llamndose Regresin Lineal y una variable en relacin a otras
variables llamndose Regresin mltiple.
Casi constantemente en la prctica de la investigacin estadstica, se encuentran
variables que de alguna manera estn relacionados entre s, por lo que es posible
que una de las variables puedan relacionarse matemticamente en funcin de otra
u otras variables.
La Regresin se define como un procedimiento mediante el cual se trata de
determinar si existe o no relacin de dependencia entre dos o ms variables. Es
decir, conociendo los valores de una variable independiente, se trata de estimar
los valores, de una o ms variables dependientes.
La regresin en forma grafica, trata de lograr que una dispersin de las
frecuencias sea ajustada a una lnea recta o curva.
y 0 1 x1 2 x 2
Ec.1
y 0 1 x1 2 x2 ... k xk
Ec. 2
ESTIMACION DE PARMETROS
El mtodo de mnimos cuadrados puede utilizarse para estimar los coeficientes de
regresin en la ecuacin 2. Supngase que se disponen n k observaciones, y djese
que Xij denote la observacin isima o el nivel de la variable Xj. Los datos aparecern
en la tabla 1.
Suponemos que el trmino del error en el modelo tiene E () = 0, V () = 2, y que los
(j) son variables aleatorios no correlacionados.
Podemos escribir el modelo, ecuacin 2, en trminos de las observaciones como:
y i 0 1 xi1 2 xi 2 k xik i
yi 0 j xij i
; con i 1, 2, , n
Ec. 3
i 1
L ei2
i 1
L y i 0 i xij
i 1
i 1
Ec, 4
n 0
0 xi1
i 1
n
1 xi1
2 xi 2
i 1
n
1 x
i 1
i1
i 1
n
i 1
2 xi1 xi 2 k
i 1
i 1
x
i 1
x
i 1
ik
i1 ik
x 2 ik
i 1
y
i 1
n
x
i 1
i1
yi
x
i 1
ik
yi
Ec. 5
Ntese que hay p = k + 1 ecuaciones normales, una para cada uno de los coeficientes de
regresin desconocidos. La solucin para las ecuaciones normales sern los estimadores
de mnimos cuadrados de los coeficientes de regresin.
Es ms simple resolver las ecuaciones normales s ellas se expresan en notacin de
matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afn al
desarrollo de la ecuacin 5. El modelo en trminos de las observaciones, ecuacin 4,
puede escribirse en notacin matricial como:
Y = X + ; donde:
y1
y
y 2
yn
1 x11
1 x
21
x
1 x n1
0
1
x1k
x12
x 22
x 2 k
xn 2
x nk
1
y 2
n
L ei2 y x y x
i 1
L y y x y yx xx
L y y 2 x y xx
Ec. 6
xx x y
Ec.7
xx x y
1
Ec.8
i 1
n
i 1
i1
xik
i 1
x
i 1
xik
i 1
i 1
n
n
xi1 xi 2 xi1 xik
i 1
i 1
n
n
2
x
x
x
ik
ik i 2
i 1
i 1
n
xi1
i1
xik xi1
i 1
xi 2
i 1
n
yj
i1
x
i 1
xik y j
i 1
y x
Ec. 9
y j xij ; con i 1, 2, , n
i 1
y
La diferencia entre la observacin Yi y el valor ajustado i es un residuo, digamos
ei y y
Ec. 10
para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para
abastecer una mquina vendedora de refrescos, con el nmero de latas que incluye la
misma, y la distancia del vehculo de servicio a la ubicacin de la mquina. Este modelo
se emple para el diseo de la ruta, el programa y el despacho de vehculos.
Ajustaremos el modelo de regresin lineal mltiple.
La matriz x y el vector Y para este modelo son:
1
1
1
1
1
1
1
1
1
1
x1
1
1
1
1
1
1
1
1
1
1
1
2 50
8 110
11 120
10 550
8 295
4 200
2 375
9.95
24.45
31.75
5.00
25.02
16.86
14.38
52
100
300
412
400
500
360
205
400
600
585
540
250
290
510
590
100
400
9.60
24.35
27.50
17.08
37.00
y 41.95
11.66
21.65
17.89
69.00
10.30
34.92
46.59
44.88
54.12
56.63
22.13
21.15
2
9
8
4
11
12
2
4
4
20
1
10
15
15
16
17
6
5
y 0 1 x1 2 x 2
La matriz x es:
1
11
10
11
12
20
10
15
15
16
17
50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400
La matriz xx es:
1
1 1 1
1
xx 2 8 5
50 110 400
1
2
8
50
110
400
206
8294
25
xx 206 2396
77177
8294 77177 3531848
Y el vector xy es:
9.95
1
1 1
695.81
24
.
45
7708.37
x y 2 8
5
50 110 400
258311.31
21.15
xx x y
Ec.8
1
206
8,294 695.81
25
0
206
2,396
77,177 7,708.37
1
8,294 77,177 3531,848 258,311.31
2
1
0 0.214653 0.007491 0.000340 695.81
0.007491 0.001671 0.000019 7,708.37
1
2 0.000340 0.000019 0.0000015 258,311.31
0 3.68835
2.77992
1
2 0.00373
3.68835
2.77992
0.00373
3.68835
2.77992
0.00373
110
305.79120
0.4103
26.33801
3.68835
2.77992
0.00373
11 120
333.59040
0.4476
34.71507
3.68835
2.77992
0.00373
10 550 1,528.95600
2.0515
33.53905
3.68835
2.77992
0.00373
8 295
820.07640
1.10035
27.02806
3.68835
2.77992
0.00373
4 200
555.98400
0.746
15.55403
3.68835
2.77992
0.00373
2 375 1,042.47000
1.39875
10.64694
3.68835
2.77992
0.00373
52
144.55584
0.19396
9.44215
3.68835
2.77992
0.00373
9 100
277.99200
0.373
29.08063
3.68835
2.77992
0.00373
8 300
833.97600
1.119
27.04671
3.68835
2.77992
0.00373
4 412 1,145.32704
1.53676
16.34479
3.68835
2.77992
0.00373
11 400
1,111.96800
1.492
35.75947
3.68835
2.77992
0.00373
12 500 1,389.96000
1.865
38.91239
3.68835
2.77992
0.00373
2 360 1,000.77120
1.3428
10.59099
3.68835
2.77992
0.00373
4 205
569.88360
0.76465
15.57268
3.68835
2.77992
0.00373
4 400
1,111.96800
1.492
16.30003
3.68835
2.77992
0.00373
20 600 1,667.95200
2.238
61.52475
3.68835
2.77992
0.00373
1 585 1,626.25320
2.18205
8.65032
3.68835
2.77992
0.00373
10 540
1,501.15680
2.0142
33.50175
3.68835
2.77992
0.00373
15 250
694.98000
0.9325
46.31965
3.68835
2.77992
0.00373
15 290
806.17680
1.0817
46.46885
3.68835
2.77992
0.00373
16 510 1,417.75920
1.9023
50.06937
3.68835
2.77992
0.00373
17 590 1,640.15280
2.2007
3.68835
2.77992
0.00373
6 100
277.99200
0.373
20.74087
3.68835
2.77992
0.00373
5 400
1,111.96800
1.492
19.07995
4 y
5
8 y
9
10
11
12 y
13
14
15
16 y
17
18
19
20 y
21
22
23
24 y
25
9.43469
53.14769
La tabla 3 muestra los valores ajustados de Y y los residuales. Los valores ajustados
y los residuales se calculan con la misma precisin que los datos originales.
Tabla 3: Observaciones, valores ajustados y residuos para el ejemplo 1.
No. De Obs.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
yi
yi
9.95
24.45
31.75
5
25.02
16.86
14.38
9.6
24.35
27.50
17.08
37
41.95
11.66
21.65
17.89
69
10.30
34.92
46.59
44.88
54.12
56.63
22.13
21.15
e yi yi
9.43469
26.33801
34.71507
33.53905
27.02806
15.55403
10.64694
9.44215
29.08063
27.04671
16.34479
35.75947
38.91239
10.59099
15.57268
16.30003
61.52475
8.65032
33.50175
46.31965
46.46885
50.06937
53.14769
20.74087
19.07995
yi2
-0.51531
1.88801
2.96507
28.53905
2.00806
-1.30597
-3.73306
-0.15785
4.73063
-0.45329
-0.73521
-1.24053
-3.03761
-1.06901
-6.07732
-1.58997
-7.47525
-1.64968
-1.41825
-0.27035
1.58885
-4.05063
-3.48231
-1.38913
-2.07005
99.0025
597.8025
1008.0625
25
626.0004
284.2596
206.7844
92.16
592.9225
756.25
291.7264
1369
1759.8025
135.9556
468.7225
320.0521
4761
106.09
1220.1049
2170,6281
2014.2144
2928.9744
3206.9569
489.7369
447.3225
25,977.83310
SS E y i y i
i 1
SS E ei
i 1
SS E ee
Al sustituir
e y y y x
SS E y y x y
, y considerando que
xx x y , queda:
Ec. 11
MS E
SS E
n p
Ec. 12
MS E
Ec. 13
2 para
el problema de la regresin
25
y y yi2 25,977.83310
y;
i 1
F1C1
2,566.3908135
21,428.651930
4
963.50118630
0
24,958.543930
2
695.81
7,708.37
258,311.31
x y
Por consiguiente la suma de cuadrados del error es:
SS E y y x y
SS E 25,977.8331 24,958.5439302
SS E 1,019.2891698
La estimacin de
2 es:
SS E 1,019.2891698
46.3313259
n p
25 3
10
matriz
de
covarianza
con
2 xx 1 .
Entonces
cada
una
de
las
estadsticas
jj
2
j 0, 1, , k
Ec. 14
C jj
Se distribuye como t con n p grados de libertad, donde
la matriz
xx
es el elemento jjsimo de
,y
C jj
100 1
% para el coeficiente de
j , j 0,1, , k es :
2
t / 2, n p C jj j t / 2, n p C jj
Ec. 15
1 en el
1 es 1 2.76046 ,
x
diagonal de
correspondiente a
1 es C11 0.001671
t
se obtuvo en el ejemplo 2 como 46.3313 ; / 2 , n p
y que el elemento de la
. La estimacin de
t 0.025, 22 2.074
11
2.20284 1 3.35699
1
x
01
x0 x02
x0 k
y la varianza de
y0
es:
y 0 x 0
Ec. 16 .
E y 0 E x0 x0 E y 0
V y 0 x0 xx x0 Ec. 17
100 1 % respecto a
de confianza del
1
la respuesta
y 0 t / 2, n p x0 xx x0 E y 0 y 0 t / 2, n p x0 xx x0 Ec. 18
1
12
3.68835
y0 x0 1 8 275 2.77992 26.95346
0.00373
x0 xx x0
La varianza de
y0
se estima mediante
0.214652616 0.007490914 0.000340389
2
1
x0 xx x0 46.33131 8 275 0.007490914 0.0016707631 0.000189178
0.000340389 0.000189178 0.000014958
F1C1
F1C2
F1C3
0.214653
-0.007491
-0.00034
-0.059928
0.013366
-0.00015134
-0.0936069 -0.052024 0.000411345
0.06111802 0.0461489 5
5
0.00226002
1
8
275
0.061118025
1
0.3691916
0.06112 0.04615 0.00226 8
0.62150715
275
0.313433575
2
y0 t / 2, n p x0 xx x0 E y0 y0 t / 2, n p x0 xx x0 Ec. 18
1
19.0499 E y0 34.8569
PREDICCIN DE NUEVAS OBSERVACIONES
Estimacin puntual de la observacin futura
y 0 x0
Ec. 16
y0
en el punto
13
y 0 t / 2 ,
n p
100 1
1 x0 xx x0 y0 y0 t / 2, n p 1 x0 xx x0 Ec. 19
1
Este intervalo de prediccin es una generalizacin del intervalo de prediccin para una
observacin futura en regresin lineal simple.
x0 1 8 275
y0 x0 26.95346
minutos.
x0 xx x0 0.313433575 .
Adems
en
el
ejemplo
calculamos
10.7745 y0 43.1323
Que es el intervalo de prediccin del 95%
PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL MLTIPLE
En problemas de regresin lineal mltiple, ciertos tipos de hiptesis respecto a los
parmetros del modelo son tiles al medir la suficiencia del modelo.
Prueba de Significacin de Regresin
La Prueba de Significacin de Regresin es para determinar si hay una relacin lineal
entre la variable dependiente y y un subconjunto de las variables independientes
x1 , x 2 , , x k
H 0 : 1 2 k 0
H 1 : 1 0
El rechazo de
x1 , x 2 , , x k
para cada j
H0 : j 0
Ec. 20
14
S yy
S yy SS R SS E
; y si
H0 : j 0
es
SS R
x k2
2
verdadera, entonces:
igual nmero de regresoras
SS R
xn2 k 1
2
,y
SS E y SS R
son independientes.
Tabla 4: Anlisis de varianza para la significacin de la regresin en la regresin
mltiple.
Fuente de
Variacin
Regresin
Error
o
residuo
Total
Suma
de
Cuadrados
SSR
SSE
Grados de
Libertad
k
n k-1
S yy
n - 1
SS R
MS R
k
F0
SS E
MS E
n k 1
Media
Cuadrtica
MSR
MSE
H0 : j 0
F0
MSR/MSE
, es calcular:
Ec. 21
F F
, k, n k 1
; y rechazamos H0 si 0
.
El procedimiento suele resumirse en una tabla de anlisis de varianza tal como la 4.
S yy yi2
i 1
i 1
SS E , en la ecuacin
2
y y
y
i 1
podemos
reescribir
la
15
ecuacin
SS E y y
y
i 1
x y
y
i 1
anterior, como:
Por tanto, la suma de cuadrados de la regresin es:
SS R x y
i 1
S yy y y
Ec. 22
SS E y y x y
i 1
SS E S yy SS R .
Ec. 24
S yy y y
y
i 1
695.81
25,977.8331
n
25
S yy 25,977.8331 19,366.06224 6,611.77086
SS R x y
y
i 1
695.81
24,958.54393
n
25
SS R 24,958.54393 19,366.06224 5,592.49169
Y,
SS E S yy SS R y y x y 6,611.77086 5,592.48169
SS E 1,019.28917
H 0 : 1 2 0
SS R
5,592.48169
MS R
2,796.240845
k
2
F0
60.35313668
SS E
MS E 1,019.28917 46.33132591
n k 1
(25 2 1)
.
16
F F
3.44
, k, n k 1
Puesto que 0
El tiempo de entre se relaciona con el volumen de entrega o con la distancia, o con
ambos. Sin embargo, notamos que esto no necesariamente implica que la relacin
encontrada es apropiada para predecir el tiempo de entrega como una funcin del
volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo.
Fuente de Suma
de
Variacin Cuadrados
Regresin 5,592.481
69
Error
o 1,019.289
residuo
17
Total
6,611.770
86
F F
, k,
Puesto que 0
hiptesis se rechaza
n k 1
Grados de Media
Libertad
Cuadrtica
2
2,796.2408
45
22
46.3313259
1
24
, es decir,
F0
60.353136
68
R2
SS R
SS
1 E
S yy
S yy
Ec. 28
R2
SS R 5,592.481683
0.84584
S yy
6,611.77086
ANLISIS RESIDUAL
17
residuos ms grandes 15
de una lnea central.
Los residuos estandarizados son
ej
ej
28.53095
46.3313
7.47525
46.3313
4.19
;y
1.09
,
La inspeccin de los datos no revela ningn error al colectar las observaciones 15 y 17,
o cualquier otra razn para descartar o modificar estos dos puntos.
18