Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Modelos de Regresin
Bogot, Colombia, Julio 19 al 23 de 2011
Javier Olaya1,a
1 Escuela de Ingeniera Industrial y Estadstica, Facultad de Ingeniera, Universidad del Valle, Cali,
Colombia
Resumen
Se ilustra el uso de las tcnicas de regresin no paramtrica para estimar curvas caractersticas
de contaminacin del aire de Cali debidas al Dixido de Nitrgeno NO2 . La estimacin en este caso
enfrenta el hecho inusual de contar con varias mediciones para cada valor de X, lo que dificulta tanto
la estimacin de la funcin de regresin como la estimacin de la varianza. Y desde luego la conduc-
cin de inferencias hereda estas dificultades. En general la literatura sobre estimacin no-paramtrica
de la funcin de regresin omite este opcin y asume que se dispone de n pares (xi , yi ) distintos. Se
exploran dos soluciones disponibles en la literatura, una propuesta por Bowman & Azzalini (1997) y
la otra por Eubank (1999). Se discute brevemente la posibilidad de utilizar las tcnicas de estimacin
de la funcin de regresin con un modelo de regresin funcional como el propuesto por Ramsay &
Silverman (2005).
Palabras clave: Respuestas mltiples, Contaminacin 1H, Estimacin de la varianza, Datos funcio-
nales.
Abstract
We illustrate the use of nonparametric regression techniques in order to estimate Calis air po-
llution typical curves. We investigate typical curves of contamination due to Nitrogen Dioxide NO2 .
We face the unusual fact of having multiple observations of the response at each design point, which
introduces some troubles on the regression function estimation, as well as on the variance estimation.
Inference results are also influenced. There are no many references about this kind of situation in the
literature, and it id assumed in general that one has available n distinct pairs (xi , yi ). We explore
two proposals, one due to Bowman & Azzalini (1997), and the other one to Eubank (1999). We
briefly discuss the possibility of using the estimation of the regression function through a functional
regression model as the one proposed by Ramsay & Silverman (2005).
Key words: Multiple responses, 1H contamination, Variance estimation, Functional data.
Agradecimientos
Estas notas han sido extradas del texto Suavizacin y regresin no paramtrica que el autor est
finalizando como parte de las actividades de su ao sabtico, en su calidad de profesor de la Universidad
del Valle. Mis agradecimientos a la Universidad del Valle. Gracias adems al Departamento Administrativo
de Gestin del Medio Ambiente (DAGMA) de Cali por facilitar el uso de sus datos.
a Profesor Titular. E-mail: olaya@univalle.edu.co
1
2 Javier Olaya
1. Introduccin
En el anlisis de regresin se asume en general que disponemos de observaciones de la variable de res-
puesta Y para n valores predeterminados de una variable independiente X. Las n observaciones bivariadas
disponibles, denotadas (x1 , y1 ), . . . (xn , yn ), siguen el modelo
yi = f (xi ) + i , i = 1, . . . , n (1)
Si nuestro propsito es estimar f en el Modelo (1), buscaremos construir estimadores lineales que
puedan escribirse en la siguiente forma general, que para un dado (al que llamaremos parmetro de
suavizacin) es una combinacin lineal de las observaciones yi , donde K(, xi ; ), i = 1, . . . , n es una
coleccin de funciones ponderadoras que dependen de los xi y de :
n
X
f (x) = K(x, xi ; )yi (3)
i=1
En la Ecuacin (3) la funcin K es una funcin simtrica y centrada en cero que tiene su mximo
en cero. A estas funciones se les llama funciones kernel y los estimadores lineales construidos con estas
funciones se les llama estimadores kernel.
Sin embargo, en algunos problemas se dispone de ms de una respuesta para cada valor de X. Aunque
hay muchas versiones de notacin para este caso, nos apoyaremos en la propuesta por Draper & Smith
(1998, pg. 49). Supongamos en particular que tenemos Pm m valores diferentes de X y que se dispone de
nj , j = 1, 2, . . . , m respuestas para cada xj , tales que j=1 nj = n. En tal caso nuestro Modelo (1) podra
re-escribirse como:
yju = f (xj ) + ju , u = 1, . . . , nj , j = 1, . . . , m (4)
Obsrvese que esta notacin tiene el valor agregado de reservar el contador i para las mediciones
individuales, que varan desde 1 hasta n.
Nuestro propsito es estimar f en el Modelo (4), para lo cual buscaremos construir estimadores lineales
que puedan escribirse en la siguiente forma general, que para un dado es una combinacin lineal de
las observaciones yju , donde K(, xj ; ), j = 1, . . . , m es una coleccin de funciones ponderadoras que
dependen de los xj y de :
m X nj
X
f (x) = K(x, xj ; )yju (6)
j=1 u=1
Esto significa que asignaremos el mismo peso en la estimacin de f a todos los yju asociados con xj , para
cada j.
Ejemplo 1.1 (NO2 en el centro de Cali ). La Red de Vigilancia (Monitoreo) de la Calidad de Aire
(RMCA) de Cali colecta informacin sobre varios contaminantes atmosfricos entre los cuales se encuentra
el Dixido de Nitrgeno NO2 , un contaminante primario que entre otros efectos acta como precursor de
Ozono (O3 ) troposfrico. Los equipos de la RMCA miden cada 10 segundos el nivel de NO2 en el aire,
pero reportan el promedio horario (conocido generalmente como contaminacin 1H), y el mnimo y el
mximo en una hora. De esta manera, cada da se dispone de un mximo de 24 observaciones, una para
cada hora del da. La Figura 1, izquierda, muestra los niveles 1H de NO2 entre los das mircoles 20 y
domingo 24 de enero de 2004 en una estacin en el centro de Cali. Las observaciones de cada da se han
separado con una lnea vertical discontinua.
Un primera mirada a la representacin de la Figura 1 (izquierda) parece indicar que en cada da se
produce un mximo en algn momento alrededor del medioda y que los das entre semana (mircoles,
jueves y viernes) tienen mnimos ms bajos y mximos ms altos que los das de fin de semana (sbado
y domingo).
Se desea encontrar el comportamiento diario del contaminante NO2 con fines de estimacin y, even-
tualmente, de pronstico. Para efectos de pronstico una primera aproximacin analtica ante un conjunto
de datos como este sera utilizar un anlisis de series temporales. Algunos anlisis previos con datos si-
milares no han sido muy exitosos en su propsito de ajustar un modelo eficiente de series de tiempo
(Barrientos et al. 2007), aunque desde luego hay an mucho por trabajar en este campo, incluida una
aproximacin no paramtrica a las series de tiempo.
En cuanto al estudio del comportamiento diario, una posibilidad analtica sera considerar cada da co-
mo un individuo que se observa a lo largo del tiempo, como en los casos de anlisis de datos longitudinales
(Diggle et al. 2002), o pensar los datos como datos funcionales que se asumen como realizaciones de un
proceso aleatorio con curvas suaves f (t) que se observan en tiempos discretos (Wang 2003). En este trabajo
exploraremos el uso de modelos clsicos de regresin no paramtrica (Takezawa 2006, Eubank 1999, Bow-
man & Azzalini 1997, Fan & Gijbels 1996, Simonoff 1996) bajo el esquema de modelos con respuestas
mltiples por punto de diseo. Consideremos la reorganizacin de los datos tal como se representan en la
Figura 1, derecha, en la que las observaciones de la hora j en cada uno de los das se han representado
como respuestas mltiples en la hora j de cada da. Todas las figuras y los clculos en este trabajo se
realizan con el lenguaje de libre distribucin R (R Development Core Team 2011).
100 100
80 80
60 60
1H NO2
1H NO2
40 40
20 20
0 20 40 60 80 100 120 0 5 10 15 20
OBSERVACIN HORA
Figura 1: Niveles 1H de NO2 entre los das mircoles 20 y domingo 24 de enero de 2004 en una estacin en el
centro de Cali. A la izquierda los datos tomados cronolgicamente. A la derecha los datos representados
como medidas repetidas.
Como ya hemos anotado, los das ordinarios lucen diferentes de los das de fin de semana (y podemos
aadir en este grupo los das festivos). En la Figura 2 hemos representado a la izquierda los das de
mircoles a viernes y a la derecha los das sbado y domingo. Puede observarse que el comportamiento
general, sin acudir a ninguna estrategia de suavizacin o de regresin, parece ser definitivamente diferente
para estos tipos de das. En general separaremos el anlisis para los das entre semana (das ordinarios)
y para los fines de semana y festivos (das festivos).
2
100 100
80 80
60 60
1H NO2
1H NO2
40 40
20 20
0 0
0 5 10 15 20 0 5 10 15 20
HORA HORA
Figura 2: Niveles 1H de NO2 entre los das mircoles 20 y domingo 24 de enero de 2004 en una estacin en el
centro de Cali. A la izquierda los datos de das entre semana. A la derecha los datos de das de fin de
semana.
de una respuesta para cada punto de diseo. En el ambiente de los modelos lineales paramtricos, este
problema est resuelto desde hace muchos aos (Draper & Smith 1966). Pero en el caso de la regresin
no paramtrica el problema es an fuente de discusin.
Funciones suaves
Asumiremos que la funcin f del Modelo (1) es una funcin cuadrado integrable (es decir definida
en el espacio L2 [0, 1]) que tiene dos derivadas continuas. Esta coleccin infinita de funciones cuadrado
integrables con dos derivadas continuas forma un espacio funcional al que denotaremos W22 [0, 1]. A las
funciones del espacio W22 [0, 1] las llamaremos funciones suaves y al proceso para encontrar una funcin
f en el Modelo (1) lo llamaremos suavizacin.
Supongamos ahora que existe una base de funciones {fj } 2
j=1 que permite generar el espacio W2 [0, 1]
y un conjunto de coeficientes {j }j=1 tales que la funcin f puede representarse usando la expansin
X
f= j f j (7)
j=1
lo que significa que los datos siguen un modelo lineal con infinitos coeficientes de regresin desconocidos.
Si los j decayeran a cero consistentemente a medida que se usan ms de ellos para representar f ,
entonces uno podra asumir que existe un entero tal que
. X
f= j f j
j=1
Pero este Modelo (9) luce tal como un modelo lineal, por lo que una posible solucin al problema de
la estimacin de f sera estimar los coeficientes {j }j=1 usando el mtodo de mnimos cuadrados, para
lo cual definiremos la matriz X = {fj (xi )}i=1,2,...,n; j=1,2,..., . Se sigue que el estimador de tendr la
forma general:
= (X T X )1 X T y (10)
con y = (y1 , y2 , . . . , yn )T .
Entonces nuestro estimador de f ser:
X
f (x) = j fj (x) (11)
j=1
100
80
60
1H NO2
40
20
0 5 10 15 20
HORA
Figura 3: Perfiles de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21 y viernes 22 de enero de
2004 en el centro de Cali
Para estimar f , Bowman & Azzalini (1997) proponen ajustar un modelo del tipo (1) usando como
nica respuesta para cada j la media yj de las nj mediciones asociadas con la hora xj , es decir,
nj
1 X
yj = yju . (13)
nj u=1
f = S y (14)
con y = (y1 , y2 , . . . , ym )T y S resultante de usar las funciones de pesos de la Ecuacin (6) para un
parmetro de suavizacin dado.
En esta solucin los autores asumen que los datos colectados en diferentes das pueden considerarse
independientes, mientas que los datos provenientes de cualquier da individual podran estar correlacio-
nados. Si adems la covarianza es estacionaria, entonces la estructura de dependencia de los ju tiene la
forma general
(
2 |uh| , si j = k
cov{yju , ykh } = cov{ju , kh } = (15)
0, si j 6= k
1 2
cov{yu , yh } = |uh| (17)
nj
Los autores sealan que la estructura de correlacin afecta la varianza del estimador, pero no la media,
por cuanto:
E[f ] = S f V ar[f ] = N 1 S V S T (18)
Se concluye entonces que el estimador f es sesgado, como lo son en general los estimadores en regresin
no paramtrica y que tanto el estimador como su sesgo y su varianza dependen de . As que la eleccin
del parmetro de suavizacin es crucial, aunque en modo alguno trivial. Para encontrar el ptimo, los
autores sugieren utilizar una estimacin de la funcin de autocorrelacin a partir de los residuales eju . Sin
embargo, Rice & Silverman (1991) y Wang (2003) sugieren que los mtodos tradicionales de validacin
cruzada que se basan en la idea de dejar-una-observacin-por-fuera no son tan adecuados en situaciones
como esta y que podra resultar ms adecuado dejar-un-individuo-por-fuera. Mayores detalles sobre la
seleccin de en esta propuesta pueden consultarse en Bowman & Azzalini (1997, Pg. 139) y Diggle
et al. (2002, Pg. 322).
Finalmente, Bowman & Azzalini (1997) no se detienen a estudiar cuidadosamente en el problema de
la estimacin de la varianza 2 , a pesar de su gran importancia para efectos de inferencia, por ejemplo
en la construccin de bandas de variabilidad. De hecho, los autores proponen estimar 2 utilizando la
Expresin (19) para k = 0.
m nj
1 XX
k = ej,u ej,uk , k = 1, 2, . . . , m (19)
n j=1 u=1
Pero la Expresin (19) para k = 0 no es ms que el promedio de la suma de cuadrados de los residuales,
estimador muy criticado porque no considera que los residuales dependen de . Una posible adaptacin
ha sido propuesta en algunos trabajos exploratorios (Pereira et al. 2007), acudiendo a los estimadores de
Rice (1984) y Gasser et al. (1986) de tal manera que se estima la varianza siguiendo las respuestas dentro
de cada da, como si estuvieran dispuestas en el orden cronolgico en el que son generadas, tal como se
ven a la izquierda en la Figura 1.
Para efectos ilustrativos hemos estimado la funcin de regresin con la funcin sm.rm del paquete sm
de R (Bowman & Azzalini 2010). Los resultados se ilustran en la Figura 4. Ntese que ni la nube de
puntos ni la de perfiles apoyan el supuesto de igualdad de varianzas.
100
100
80
80
60
60
1H NO2
NO2
40
40
20
20
0 5 10 15 20 0 5 10 15 20
Hora HORA
Figura 4: Curva suave ajustada a los datos de la contaminacin 1H de NO2 para los das mircoles 20, jueves
21 y viernes 22 de enero de 2004 en el centro de Cali, usando el estimador de Bowman-Azzalini. A la
izquierda se representa f sobre la nube de puntos. Y a la derecha, sobre los perfiles
3. La aproximacin de Eubank
Eubank (1999, Pg. 238) propone una solucin diferente, ms cercana a la idea de considerar los datos
como respuestas mltiples que como medidas repetidas. Su idea se basa en el uso de splines.
Wahba (1990, pg. viii) y Green & Silverman (2000, pg. 14) describen un spline mecnico como
una pieza metlica, plstica, de madera o de cualquier otro material flexible, que se ajusta a curvas
adaptndose a su forma y que permite dibujar curvas suaves. Segn estos autores, este tipo de herramienta
se utiliz en el pasado para delinear cascos de barcos y para planear curvas de carrileras. As que si fuera
posible tener un objeto matemtico que actuara como un spline mecnico que tuviera adems adecuadas
propiedades estadsticas, entonces podra utilizarse para ajustar curvas como las que nos proponemos en
esta seccin.
La versin ms sencilla de un objeto matemtico que se comporte como un spline mecnico es llamado
un spline cbico. Supongamos que tenemos un conjunto de nmeros reales x1 , . . . , xn en un intervalo [a, b],
tales que a < x1 < x2 < . . . < xn < b. Una funcin s definida en [a, b] es un spline cbico si cumple las
siguientes dos condiciones:
2. La cbicas se unen en los puntos xi de tal manera que s y sus dos primeras derivadas con continuas
en cada xi y por lo tanto en todo el intervalo [a, b]
en la suma convexa:
n
X Z 1
(1 q)n1 (yi f (xi ))2 + q f (x)2 dx
i=1 0
sobre todas las funciones f W22 [0, 1]. A este estimador f lo llamaremos un estimador spline de f .
De la Expresin (20) se sigue que si es muy grande, entonces la estimacin de la funcin de regresin
ser super-suavizada; lo contrario ocurre con un muy pequeo, que conduce a un estimador que interpola
los datos.
Eubank (1999) encuentra que la solucin a este problema de optimizacin es nica y corresponde al
estimador
Xn
f = i fj (21)
j=1
ecuaciones
(X T X + n)c = X T y (22)
donde X = {fj (xi )}i,j=1,2,...,n , con {fj }j=1,2,... una coleccin de funciones que forman una base de
R 1
W22 [0, 1], y = (y1 , y2 , . . . , yn )T y = { 0 fi (x)fj (x)dx}i,j=1,2,...,n .
Las funciones {fj }j=1,2,...,n forman una base del conjunto de splines naturales. Sezer (2009) sugiere
el uso de la siguiente base de splines cbicos naturales:
f1 (x) = 1
f2 (x) = x
fj+2 (x) = dj (x) dn1 (x), j = 1, 2, . . . , n 2 (23)
donde:
(x xj )3+ (x xn )3+
dj (x) =
xj xn
y la funcin (z)3+ es la funcin truncada:
(
z 3 , si z 0
(z)3+ =
0, si z < 0
Una solucin posible para manejar una situacin como la que se describe en el Modelo (1), pero en
presencia de heterocedasticidad, podra ser hallar f que minimice la suma
n
X Z 1
n1 wi (yi f (xi ))2 + f (x)2 dx (25)
i=1 0
para j = 1, 2, . . . , m.
El estimador f resultar de minimizar la suma
nj
m X Z 1
X
1
m s2j (yju 2
f (xj )) + f (x)2 dx (28)
j=1 u=1 0
o la suma
m
X Z 1
1
m 2
(yj f (xj )) + f (x)2 dx (29)
j=1 0
con wj = nj /s2j , j = 1, 2, . . . , m.
En este caso la matriz S ser
S = J A (J T J )1 J T (30)
donde J es una matriz m n que es diagonal por bloques, con nj unos en la diagonal del bloque j;
A = X(X T W X + m)1 J T W ; y W es la matriz diagonal de pesos wj = nj /s2j .
La matriz se define como
Z 1
= fj (x)fu (x)dx (31)
0 j,u=1,2,...,m
donde {fj }j=1,2,...,m es una base de splines cbicos naturales, por ejemplo la base (23) propuesta por
Sezer (2009).
Eubank (1999) no considera en su propuesta elementos tales como la estructura de dependencia de
los errores, por lo que se asume que las mediciones sobre los individuos son independientes, as como
las mediciones dentro de individuos. En nuestro Ejemplo 1.1, esto implicara que las mediciones de un
da a otro son independientes y que las mediciones de una hora a otra dentro de cada da son tambin
independientes.
La Figura 5 ilustra la estimacin de f basada en este procedimiento propuesto por Eubank, cuyo aporte
ms fuerte est en el uso de la medicin de la varianza muestral de la Ecuacin (27), que evidentemente
permite aproximar la estimacin de la varianza del modelo. Los supuestos de independencia deberan
estudiarse ms detenidamente.
100
80
60
1H NO2
40
20
0 5 10 15 20
HORA
Figura 5: Estimacin del comportamiento de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21
y viernes 22 de enero de 2004 en el centro de Cali, basada en la propuesta de Eubank
4. Regresin Funcional?
Otra alternativa analtica para este problema sera usar las ideas de Ramsay & Silverman (2005),
Ferraty & Vieu (2006) y Ramsay et al. (2010), entre otros, para ajustar a los datos un modelo de regresin
funcional. Es bien sabido que los estimadores kernel, como los que proponen usar Bowman & Azzalini
(1997), y los estimadores spline, que propone usar Eubank (1999), pueden verse como adecuaciones de
modelos ajustados con series de Fourier. De hecho, el nombre kernel parece deberse al kernel Dirichlet
del anlisis de series de Fourier. Este es uno de los objetivos de trabajo futuro con las bases de datos de
contaminacin ambiental.
En el caso del Ejemplo 1.1, en lugar de pensar que tenemos tres respuestas por cada punto de diseo,
podramos pensar que las observaciones de cada da provienen en realidad de datos funcionales que hemos
observado en puntos discretos. A los datos funcionales podramos denotarlos N O2i (x), i = 1, 2, 3. De esta
manera, N O21 (x) sera el dato funcional correspondiente a la contaminacin 1H de NO2 el da mircoles
20 de enero de 2004. Esta idea se asemeja a la de los perfiles de la Figura 3, en la que hemos unido las
observaciones con lneas rectas. De hecho, los perfiles podran ser considerados datos funcionales en s
mismos, con la limitacin de su falta de suavidad ya que su primera derivada ser cero en varios puntos.
De acuerdo con Ramsay & Silverman (2005), los objetivos del anlisis de datos funcionales son com-
partidos con otras ramas de la Estadstica, entre otros los siguientes:
Todos estos objetivos son vlidos para nuestro problema de la contaminacin, por lo que ciertamente
este tipo de anlisis luce adecuado para nuestro problema.
Una primera etapa del anlisis de datos funcionales es convertir los datos observados en una funcin
gi de tal manera que sea posible calcular g(x) para cualquier x, lo que se hara por interpolacin si las
respuestas fueran medidas sin error, o, ms comnmente, por suavizacin. La Figura 6
En realidad los datos disponibles para el anlisis de la contaminacin por NO2 en Cali son varias
decenas, por lo que la Figura 6 es solo una primera aproximacin grfica a un problema mucho ms
complejo. Es decir, el anlisis de esta informacin usando las tcnicas del anlisis funcional es an un
problema en curso.
100
80
60
1H NO2
40
20
0 5 10 15 20
HORA
Figura 6: Tres datos funcionales de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21 y viernes
22 de enero de 2004 en el centro de Cali
Referencias
Barrientos, A. F., Olaya, J. & Gonzalez, V. M. (2007), Un modelo spline para el pronstico de la demanda
de energa elctrica, Revista Colombiana de Estadstica 30(2), 187202.
Bowman, A. W. & Azzalini, A. (1997), Applied Smoothing Techniques for Data Analysis. The Kernel
Approach with S-plus Illustrations, Oxford.
Bowman, A. W. & Azzalini, A. (2010), R package sm: nonparametric smoothing methods (version 2.2-4),
University of Glasgow, UK and Universit di Padova, Italia.
Diggle, P. J., Heagerty, P., Liang, K.-Y. & Zeger, S. L. (2002), Analysis of Longitudinal Data, 2nd. edn,
Oxford.
Draper, N. R. & Smith, H. (1966), Applied Regression Analysis, John Wiley & Sons, New York, NY.
Draper, N. R. & Smith, H. (1998), Applied Regression Analysis, 3d. edn, John Wiley & Sons, New York,
NY.
Eubank, R. L. (1999), Nonparametric Regression and Spline Smoothing, second edn, Marcel Dekker, New
York, NY.
Fan, J. & Gijbels, I. (1996), Local Polynomial Modelling and Its Applications, Chapman & Hall/CRC.
Ferraty, F. & Vieu, P. (2006), Nonparametric Functional Data Analysis Theory and Practice, Springer.
Gasser, T., Sroka, L. & Jennen-Steinmetz, C. (1986), Residual variance and residual pattern in nonlinear
regression, Biometrika 73(3), 625633.
Green, P. J. & Silverman, B. W. (2000), Nonparametric Regression and Generalized Linear Models. A
Roughness Penalty Approach, Chapman & Hall/CRC, Boca Raton, FL.
Pereira, L. A., Paz, M. C. & Olaya, J. (2007), Estimacin de la varianza en regresin no-paramtrica:
El efecto de poseer mltiples observaciones por punto de diseo, in 17mo. Simposio de Estadstica,
Universidad Nacional de Colombia.
R Development Core Team (2011), R: A Language and Environment for Statistical Computing, R Foun-
dation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
*http://www.R-project.org/
Ramsay, J. O., Graves, S. & Hooker, G. (2010), Functional Data Analysis with R and MATLAB,
Springer.
Ramsay, J. O. & Silverman, B. W. (2005), Functional Data Analysis, 2nd. edn, Springer.
Rice, J. A. (1984), Bandwidth choice for nonparametric regression, The Annals of Statistics 12(4), 1215
1230.
Rice, J. A. & Silverman, B. W. (1991), Estimating the mean and covariance structure nonparametrically
when the data are curves, Journal of the Royal Statistical Society, Series B 53, 233243.
Sezer, A. (2009), Assesing the quality of the natural cubic spline approximation, Proceedings of the 8th
WSEAS International Conference on SYSTEM SCIENCE and SIMULATION in ENGINEERING
pp. 186190.