Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Anlisis de la regresin
1. Sustento terico bsico
El modelo estadstico lineal
i ip p 2 i 2 1 i 1 0 i
x ... x x y + + + + + = , puede ser expresado
en la siguiente forma.
y = Xh + s (1)
El modelo en su forma matricial dado por la expresin (1), est conformado mediante la matriz y
vectores que a continuacin se presentan.
=
np 1 n
p 2 21
p 1 11
x x 1
x x 1
x x 1
L
M M M
L
L
X ,
=
n
2
1
y
y
y
M
y ,
=
p
1
0
M
b ,
=
n
2
1
M
La matriz X es de tamao n x (p+1) donde 1 p n + , el vector y es n x 1, el vector h es (p+1) x 1
y el vector s es n x 1. Donde n representa el nmero total de puntos experimentales, p representa
el nmero de parmetros
j
de las variables regresoras x
i1
, x
i2
, , x
ip
,
0
representa una constante
aditiva que al no existir efectos provocados por las variables regresoras, usualmente representa la
media de la variable respuesta y. El estimador del vector h en la expresin (1) siendo X'X de
rango completo r = p+1, (Sen & Srivastava, 1990) es el siguiente:
h
= (X'X)
-1
X'y (2)
La expresin (2) se obtiene al resolver la expresin (1) para I = s's utilizando mnimos
cuadrados. En el desarrollo de la expresin (2) se obtiene la expresin X
i
Xh
= X'y que es
llamada las ecuaciones normales de la regresin. En consecuencia, el estimador de la respuesta
y o tambin llamado modelo ajustado de la regresin tiene las siguientes 2 formas equivalentes
de ser presentado.
y = Xh
= X(X'X)
-1
X'y (3)
La matriz X(X'X)
-1
X' comnmente conocida como la matriz hat, es importante puesto que es
una matriz idempotente obtenida a partir de las variables regresoras del sistema de ecuaciones de
la regresin. La suma de cuadrados residuales SS
res
puede obtenerse mediante las siguientes
operaciones.
SS
cs
= s
i
s = (y - y)'(y - y) = (y - Xh
)'(y - Xh
)
SS
cs
= (y' - h
'X')(y - Xh
) = y
i
y - y
i
Xh
-h
i
X
i
y + h
i
X
i
Xh
= y
i
y - 2h
i
X
i
y + h
i
X
i
Xh
Por las ecuaciones normales de la regresin X
i
Xh
i
=
y'X(X'X)
-1
, la expresin para la suma de cuadrados residuales tiene las siguientes 2 formas
equivalentes de ser presentada.
SS
cs
= y
i
y - h
i
X
i
y = y'|I - X(X'X)
-1
X']y (4)
La matriz |I -X(X'X)
-1
X'] es idempotente de rango (n r), la matriz X(X'X)
-1
X' es de rango r
= p+1. En consecuencia, los grados de libertad de la suma de cuadrados residuales es: v
cs
= n -
p - 1.
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 2 de 13
1.1 Valores esperados de SS
res
y h
.
El valor esperado de la suma de cuadrados residuales es el siguiente: E(SS
cs
) = o
2
(n - p - 1).
El cuadrado medio residual es siempre un estimador insesgado de la varianza, dado por la
siguiente expresin.
CH
cs
= o
2
=
SS
rcs
n-p-1
(5)
El valor esperado del vector h
] = E|(X'X)
-1
X'y] = E|(X'X)
-1
X'(Xh + s)]
E|h
] = E|(X'X)
-1
(X'Xh + X's)] = E|(X'X)
-1
X
i
Xh + (X'X)
-1
X's] = h
La varianza-covarianza del vector h
) = E j[h
- E(h
) [h
- E(h
)
i
[ = o
2
(X'X)
-1
(6)
Nota: En el caso anterior de regresin, el rango de la matriz varianza-covarianza X
i
X es de rango
completo. En el caso ms general del ANOVA, la matriz X
i
X puede no ser de rango completo y
su inversa es matriz singular. Para este caso puede utilizarse los conceptos de pseudo-inversa,
inversa condicional o inversa generalizada y se debe reemplazar la expresin (X
i
X)
-1
por la
expresin (X
i
X)
c
que representa una inversa condicional de X
i
X. En consecuencia, las
expresiones (2), (3), (4) y (6) son modificadas por las expresiones (2a), (3a), (4a) y (6a) que son
las siguientes:
h
= (X'X)
c
X'y (2a)
y = Xh
= X(X'X)
c
X'y (3a)
SS
cs
= y
i
y - h
i
X
i
y = y'|I - X(X'X)
c
X']y (4a)
Co:(h
) = E j[h
- E(h
) [h
- E(h
)
i
[ = o
2
(X'X)
c
(6a)
La nota anterior tiene sentido en el caso de los diseos experimentales planificados, en los cuales
el investigador genera sus propios diseos y el ANOVA est fuertemente relacionado con los
efectos regresivos del diseo, tales como los modelos de metodologa de superficie de respuesta
(RSM).
2. Pruebas de hiptesis en la regresin
En el anlisis de la regresin es til tener presente pruebas estadsticas de hiptesis que nos
permitan inferir decisiones sobre los coeficientes h del modelo original. Estas decisiones influyen
en las aplicaciones del modelo ajustado de la regresin. Para llevar a cabo las pruebas estadsticas
de hiptesis, es necesario que los residuales o errores e
=
[
0
+ [
]
x
]
p
]=1
y varianza o
2
.
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 3 de 13
2.1 Prueba de hiptesis, significacin de la regresin
Esta prueba permite determinar si existe asociacin o efectos provocados por algn subconjunto
de las variables predictoras o regresoras de la matriz X que son las variables x
i1
, x
i2
, , x
ip
, en la
variable respuesta y. La prueba de hiptesis es:
E
0
: [
1
= [
2
= = [
p
= u (7)
E
1
: [
]
= u poro ol mcnos uno ] (7)
La prueba de hiptesis anterior, se resuelve con un anlisis de la varianza el cual la suma de
cuadrados totales SS
T
es particionado en la suma de cuadrados del modelo SS
reg
(regresin) y en
la suma de cuadrados residuales SS
res
(error).
SS
1
= SS
cg
+ SS
cs
(8)
Si H
0
es verdadera, el estadstico
SS
rcg
c
2
tiene una distribucin ChiCuadrada Central con p grados
de libertad (_
p
2
) donde el parmetro de no-centralidad se asume con valor cero z = u. Si H
0
es
falsa, el estadstico
SS
rcg
c
2
tiene una distribucin ChiCuadrada No-central con p grados de libertad
y parmetro de no-centralidad mayor de cero z > u (_
p,x
2
).
La suma de cuadrados totales SS
T
y la suma de cuadrados del modelo SS
reg
tienen las siguientes
expresiones.
SS
1
= (y
- y)
2 n
=1
= y
i
y -
(
i
n
i=1
)
2
n
= y
i
y -ny
2
(9)
SS
cg
= h
i
X
i
y -
(
i
n
i=1
)
2
n
= h
i
X
i
y - ny
2
(10)
La siguiente tabla 2.1, representa el anlisis de la varianza de la prueba de significacin de la
regresin.
Tabla 2.1, ANOVA de la prueba de significacin de la regresin
Fuente de variacin Sumas de cuadrados Grados de libertad Cuadrado medio Estadstico F
0
Regresin SS
reg
p CM
reg
= SS
reg
/p F
0
= CM
reg
/CM
res
Residual o Error SS
res
n p 1 CM
res
= SS
res
/(n-p-1)
Total SS
T
n 1
El estadstico F
0
utilizado en el ANOVA tiene el siguiente comportamiento. Si H
0
es verdadera,
tiene una distribucin F central con p grados de libertad en el numerador y (n p 1) grados de
libertad en el denominador, donde el parmetro de no-centralidad se asume con valor cero z = u.
Si H
0
es falsa, tiene una distribucin F no-central con p grados de libertad en el numerador, (n p
1) grados de libertad en el denominador y parmetro de no-centralidad mayor de cero z > u.
2.1.1 Los estadsticos R
2
para la calidad predictiva
En la prueba de significacin de la regresin, es importante obtener alguna medida de la calidad
predictiva del modelo utilizado en la regresin.
Una primera medida de la calidad predictiva del modelo utilizado es el llamado coeficiente de
determinacin R
2
o comnmente llamado estadstico R
2
, representado mediante la siguiente
expresin.
R
2
=
SS
rcg
SS
T
= 1 -
SS
rcs
SS
T
(11)
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 4 de 13
Sin embargo la expresin (11) anterior, es influenciada por el nmero de ensayos experimentales
n y el nmero de parmetros p que el investigador haya decidido utilizar. El estadstico R
2
tiende
a incrementarse cuando el investigador adiciona mayor nmero de parmetros p de variables
regresoras incluso cuando stas no sean significativas.
Una segunda medida de la calidad predictiva del modelo utilizado en la regresin es el llamado
coeficiente de determinacin ajustado R
ud]
2
o ms habitualmente llamado estadstico R
ud]
2
ajustado, el cual tiene la siguiente expresin.
R
ud]
2
= 1 - [
n-1
n-p-1
SS
rcs
SS
T
(12)
La expresin anterior (12), reduce la influencia de n y p que son decisiones del investigador. El
estadstico R
ud]
2
incluso tiende a disminuir si el investigador adiciona parmetros de variables
regresoras no significativas.
La tercera medida de la calidad predictiva del modelo utilizado en la regresin, es habitualmente
llamado estadstico R
PRLSS
2
de prediccin. Esta medida de la calidad predictiva del modelo
utiliza la suma de cuadrados del error en prediccin (PRESS, Prediction Error Sum of Squares).
La suma de cuadrados del error en prediccin PRESS es la variacin que se encuentra al hacer la
prediccin de la variable respuesta estimada y
()
a partir de una regresin obtenida de las (n 1)
observaciones restantes.
No obstante lo anterior, no es necesario hacer n regresiones para obtener el PRESS. Se puede
aprovechar la matriz hat para evitar hacer las n regresiones anteriores. Sea H = X(X'X)
-1
X' la
matriz hat, la cual sus elementos b
- y
()
) =
(
i
-
i
)
1-h
ii
=
c
i
1-h
ii
(13)
PRESS = c
()
2 n
=1
= [
c
i
1-h
ii
2
n
=1
(14)
R
PRLSS
2
= 1 -
PRLSS
SS
T
(15)
El error en prediccin dado por la expresin (13) obtiene una ponderacin del error original c
,
asociada a la i-sima observacin. Lo anterior permite elaborar diagnstico de influencia de la i-
sima observacin en el modelo, asociada a las (n 1) observaciones que generan la i-sima
prediccin. La razn de lo anterior, radica en el hecho de que la varianza-covarianza del vector
residual o error que contiene la matriz |I - X(X'X)
-1
X'] rara vez es diagonal, su expresin es la
siguiente.
Co:(s) = o
2
(I -H) (16)
En consecuencia, la varianza del i-simo residual es: I(c
) = o
2
(1 -b
2c
2
.
Por lo anterior, el ANOVA correspondiente tiene el siguiente comportamiento. Si H
0
es
verdadera, tiene una distribucin F central con p grados de libertad en el numerador y (n p 1)
grados de libertad en el denominador, donde el parmetro de no-centralidad se asume con valor
cero z = u. Si H
0
es falsa, tiene una distribucin F No-Central con p grados de libertad en el
numerador, (n p 1) grados de libertad en el denominador y parmetro de no-centralidad
z =
|
X(X
|
X)
-1
X
|
2c
2
.
2.2 Pruebas de hiptesis, significacin en los coeficientes de la regresin
Las expresiones (5) y (6) nombradas con anterioridad, plantean el estimador de la varianza o
2
y
la varianza-covarianza del vector de coeficientes estimados Co:(h
]
_c
2
c
]]
, la prueba es significativa cuando se
cumpla lo siguiente |t
0
| > to
2
,n-p-1
. El intervalo de confianza para cada uno de los coeficientes
del modelo es el siguiente.
[
`
]
- to
2
,n-p-1
o
2
c
]]
[
]
[
`
]
+ to
2
,n-p-1
o
2
c
]]
(19)
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 6 de 13
2.3 Residuales estandarizados y residuales studentizados
La expresin anterior (16) que representa la matriz varianza-covarianza del residual, contiene un
aspecto sutil que merece ser comentado.
En el momento en que el investigador asocia sus n puntos experimentales postulando un modelo
a ser probado crea la asociacin del espacio experimental ajustndose al modelo seleccionado
bajo la condicin de minimizacin de la suma de cuadrados residuales. Lo anterior hace que
exista correlacin entre los residuales originales c
) = o
2
(1 - b
).
Comnmente los residuales estandarizados tienen la expresin rc
=
c
i
c
, la variable aleatoria
rc
. Los residuales
estandarizados rc
slo son tiles para obtener una idea de los posibles puntos atpicos que se
encuentren en el espacio experimental original (es factible ser punto atpico cuando |rc
| > S).
Para un diagnstico ms adecuado de identificacin de puntos atpicos, se recomienda utilizar los
residuales studentizados los cuales tienen la expresin siguiente rs
=
c
i
c(1-h
ii
)
.
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 7 de 13
10
12.5
15
17.5
20
22.5
Y
e
x
p
-2 0 2 4 6 8
X
3. Ejemplos de utilizacin de la regresin
3.1 Ejemplo 1
En este ejemplo se desarrolla una simulacin de regresin simple (p = 1) utilizando el JMP. Los
parmetros de la simulacin son los siguientes: [
0
= 1u, [
1
= 2, para el residual o error se
genera un nmero aleatorio normal con p = u y varianza o
2
= u.u2 (en el JMP se utiliz
o = u.1414). Los resultados de la simulacin y la grfica de dispersin con trazado de lnea, se
presentan en la tabla 3.1 y figura 3.1 respectivamente.
Tabla 3.1 Figura 3.1
Ejemplo 1 Ejemplo 1
Resultados de la simulacin Grfica de dispersin y trazado de lnea
El modelo ajustado de la regresin es: Yest = 10.08661654177 + 1.983645295261 X
Bajo la opcin de clculo Bivariate Fit of Yexp by X del JMP, se enva la siguiente
informacin adicional.
Summary of Fit
RSquare 0.9989417737
RSquare Adj 0.9987301284
Root Mean Square Error 0.1527837691
Mean of Response 16.037552428
Observations (or Sum Wgts) 7
Analysis of Variance
Source DF Sum of Squares Mean Square F Ratio
Model 1 110.175762407 110.175762407 4719.887
Error 5 0.116714400 0.023342880 Prob >F
C. Total 6 110.292476808 <.0001
Parameter Estimates
Term Estimate Std Error t Ratio Prob>|t|
Intercept 10.08661654177 0.1041045905 96.89 <.0001
X 1.983645295261 0.0288734184 68.70 <.0001
Bajo la opcin Fit model del JMP se crea el modelo que se desea probar, permitiendo obtener
mayor informacin. La siguiente figura 3.2 muestra la ventana de creacin del modelo, se solicita
que se efecte por mnimos cuadrados estndares y presentacin de reporte Effect Screening.
X Y
exp
0 10.10347256470
1 12.07442135286
2 14.13334258070
3 16.09042006381
4 17.73868737416
5 19.97158529632
6 22.15093776033
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 8 de 13
Figura 3.2
Ejemplo 1
Ventana de creacin del modelo
En esta opcin del JMP se permite reportar mayor informacin y puede usted crear columnas
adicionales con la informacin interesante, tal como se muestra en la figura 3.3.
Figura 3.3
Ejemplo 1
Datos experimentales, modelo ajustado y residuales
En la figura 3.3 anterior, slo fue generada la columna re (residuales estandarizados) mediante el
editor de frmulas del mismo programa JMP. La informacin adicional que est opcin enva es
la siguiente.
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 9 de 13
Response Yexp
Actual by Predicted Plot
Effect Tests
Source Nparm DF Sum of Squares F Ratio Prob >F
X 1 1 110.175762407 4719.887 <.0001
Press
0.2265865145
Scaled Estimates
Continuous factors centered by mean, scaled by range/2
Term Scaled Estimate Plot Estimate Std Error t Ratio Prob>|t|
Intercept 16.03755242755 0.057746836769 277.72 <.0001
X 5.950935885782 0.086620255154 68.70 <.0001
Prediction Profiler
En forma alternativa se desarrollar manualmente con la ayuda del programa Matlab y Excel los
clculos efectuados por el JMP, slo con la finalidad de que el lector del presente trabajo
verifique los resultados generados.
La matriz de diseo de la variable regresora X, el vector de la respuesta y y el vector de
coeficientes estimados del modelo h
= (X'X)
-1
X
i
y = j
1u.u86616S4177
1.98S64S29S261
[
10
12.5
15
17.5
20
22.5
Y
e
x
p
A
c
t
u
a
l
10.0 12.5 15.0 17.5 20.0 22.5
Yexp Predicted P<.0001 RSq=1.00
RMSE=0.1528
Y
e
x
p
22.2561
9.81901
16.03755
X
06
3
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 10 de 13
La matriz C y la matriz H se presentan a continuacin.
C = j
u.46428S71428S71 -u.1u71428S714286
-u.1u71428S714286 u.uSS71428S71429
[
H =
l
l
l
l
l
l
l
u.46428S714 u.SS71428S7 u.2Suuuuuuu u.1428S714S u.uSS714286 -u.u71428S71 -u.178S71429
u.SS71428S7 u.28S714286 u.21428S714 u.1428S714S u.u71428S71 -u.uuuuuuuuu -u.u71428S71
u.2Suuuuuuu u.21428S714 u.178S71429 u.1428S714S u.1u71428S7 u.u71428S71 u.uSS714286
u.1428S714S u.1428S714S u.1428S714S u.1428S714S u.1428S714S u.1428S714S u.1428S714S
u.uSS714286 u.u71428S71 u.1u71428S7 u.1428S714S u.178S71429 u.21428S714 u.2Suuuuuuu
-u.u71428S71 -u.uuuuuuuuu u.u71428S71 u.1428S714S u.21428S714 u.28S714286 u.SS71428S7
-u.178S71429 -u.u71428S71 u.uSS714286 u.1428S714S u.2Suuuuuuu u.SS71428S7 u.46428S714
1
1
1
1
1
1
1
En la figura 3.4 se presentan los clculos individuales del error en prediccin (PRESS).
Figura 3.4
Ejemplo 1
Clculos individuales del error en prediccin (PRESS)
En la figura 3.5 se presentan: El ANOVA, el PRESS y los clculos de los estadsticos R
2
.
Figura 3.5
Ejemplo 1
Anova de la regresin, Press y valores de los estadsticos R
2
En la figura 3.6 se presentan los resultados de las pruebas de hiptesis para los coeficientes de la
regresin.
Figura 3.6
Ejemplo 1
Pruebas de hiptesis, coeficientes de la regresin
Los intervalos de confianza (expresin 18) de los coeficientes de la regresin al 95% son los
siguientes.
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 11 de 13
El nivel de significacin es o = u.uS, el estadstico t central utilizado tiene el valor de 2.57058.
Si se observa en la figura 3.3 la columna rs (residual studentizado), ninguno de los valores
absolutos es mayor que el valor 2.57058. Consecuencia de lo anterior, no esta presente algn
punto atpico.
La prueba estadstica de hiptesis para la regresin (figura 3.5) es significativa. Las pruebas
estadsticas de hiptesis para los coeficientes de la regresin (figura 3.6) son significativas.
Los estadsticos R
2
, obtienen buenos valores. El estadstico R
PRLSS
2
representa la proporcin en la
cual el modelo obtenido puede predecir los datos experimentales, en este ejemplo es de
99.7946%.
3.2 Ejemplo 2
Se requiere obtener una funcin de prediccin del calor especfico (Ce(Au), Kcal/(Kg*K)) del
metal oro (Au) en estado slido desde -200 C hasta 1000 C (el punto de fusin es 1063 C),
para ser utilizada en aplicaciones electrnicas. Se tienen 8 mediciones experimentales reportadas
por Kuzman Raznjevic (1976). La figura 3.7 presenta la grfica de dispersin, la variable
regresora temperatura (T en K) ha sido transformada a Tln = Ln T, adems presenta la lnea
proveniente de un ajuste de 3 grado.
Figura 3.7
Ejemplo 2
Grfica de dispersin y lnea de ajuste
El modelo ajustado de la regresin es:
Ce(Au) = -0.3762600406 + 0.2053130590 Tln - 0.0347597661 Tln^2 + 0.0019774443 Tln^3
La figura 3.8 presenta la informacin (Ce(Au)), por simplificacin de espacio tambin se presenta
la respuesta estimada (Ce(Au)e), la respuesta en prediccin Y(i), los residuales originales ei, los
elementos diagonales de la matriz H los cuales son hii y los errores en prediccin e(i).
0.02
0.025
0.03
0.035
0.04
C
e
(
A
u
)
4 4.5 5 5.5 6 6.5 7 7.5
Tln
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 12 de 13
Figura 3.8
Ejemplo 2
Datos experimentales, residual y error en prediccin
En la figura 3.9 se presentan: El ANOVA, el PRESS y los clculos de los estadsticos R
2
.
Figura 3.9
Ejemplo 2
Anova de la regresin, Press y valores de los estadsticos R
2
En la figura 3.10 se presentan los resultados de las pruebas de hiptesis para los coeficientes de la
regresin.
Figura 3.10
Ejemplo 2
Pruebas de hiptesis, coeficientes de la regresin
Los intervalos de confianza (expresin 18) de los coeficientes de la regresin al 95% son los
siguientes.
El nivel de significacin es o = u.uS, el estadstico t central utilizado tiene el valor de 2.77645.
Puede ser observada la columna rs en la figura 3.11, ningn punto atpico se presenta en esta
regresin. El modelo obtenido justifica el 97.39% la prediccin de los datos experimentales (ver
el valor de R
2
PRESS
en la figura 3.9).
LOJB Unidad de Ingenieras y Ciencias Qumicas Pgina 13 de 13
Figura 3.11
Ejemplo 2
Residuales Studentizados