Sei sulla pagina 1di 12

XXI Simposio Colombiano de Estadstica

Modelos de Regresin
Bogot, Colombia, Julio 19 al 23 de 2011

Estimacin no paramtrica de la funcin de regresin en


problemas de respuestas mltiples por punto de diseo
Nonparametric estimation of the regression function on problems with multiple response
at each design point

Javier Olaya1,a
1 Escuela de Ingeniera Industrial y Estadstica, Facultad de Ingeniera, Universidad del Valle, Cali,
Colombia

Resumen
Se ilustra el uso de las tcnicas de regresin no paramtrica para estimar curvas caractersticas
de contaminacin del aire de Cali debidas al Dixido de Nitrgeno NO2 . La estimacin en este caso
enfrenta el hecho inusual de contar con varias mediciones para cada valor de X, lo que dificulta tanto
la estimacin de la funcin de regresin como la estimacin de la varianza. Y desde luego la conduc-
cin de inferencias hereda estas dificultades. En general la literatura sobre estimacin no-paramtrica
de la funcin de regresin omite este opcin y asume que se dispone de n pares (xi , yi ) distintos. Se
exploran dos soluciones disponibles en la literatura, una propuesta por Bowman & Azzalini (1997) y
la otra por Eubank (1999). Se discute brevemente la posibilidad de utilizar las tcnicas de estimacin
de la funcin de regresin con un modelo de regresin funcional como el propuesto por Ramsay &
Silverman (2005).
Palabras clave: Respuestas mltiples, Contaminacin 1H, Estimacin de la varianza, Datos funcio-
nales.

Abstract
We illustrate the use of nonparametric regression techniques in order to estimate Calis air po-
llution typical curves. We investigate typical curves of contamination due to Nitrogen Dioxide NO2 .
We face the unusual fact of having multiple observations of the response at each design point, which
introduces some troubles on the regression function estimation, as well as on the variance estimation.
Inference results are also influenced. There are no many references about this kind of situation in the
literature, and it id assumed in general that one has available n distinct pairs (xi , yi ). We explore
two proposals, one due to Bowman & Azzalini (1997), and the other one to Eubank (1999). We
briefly discuss the possibility of using the estimation of the regression function through a functional
regression model as the one proposed by Ramsay & Silverman (2005).
Key words: Multiple responses, 1H contamination, Variance estimation, Functional data.

Agradecimientos
Estas notas han sido extradas del texto Suavizacin y regresin no paramtrica que el autor est
finalizando como parte de las actividades de su ao sabtico, en su calidad de profesor de la Universidad
del Valle. Mis agradecimientos a la Universidad del Valle. Gracias adems al Departamento Administrativo
de Gestin del Medio Ambiente (DAGMA) de Cali por facilitar el uso de sus datos.
a Profesor Titular. E-mail: olaya@univalle.edu.co

1
2 Javier Olaya

1. Introduccin
En el anlisis de regresin se asume en general que disponemos de observaciones de la variable de res-
puesta Y para n valores predeterminados de una variable independiente X. Las n observaciones bivariadas
disponibles, denotadas (x1 , y1 ), . . . (xn , yn ), siguen el modelo

yi = f (xi ) + i , i = 1, . . . , n (1)

donde = (1 , . . . , n )T es un vector de errores aleatorios no correlacionados que tienen media cero y


varianza comn 2 y f es una funcin de regresin desconocida. Asumiremos que 0 x1 . . . xn 1.
Para efectos de presentacin de los resultados tericos, se acostumbra adems que los valores de X se
elijan de la siguiente manera:
xi = (2i 1)/2n, i = 1, 2, . . . , n (2)

Si nuestro propsito es estimar f en el Modelo (1), buscaremos construir estimadores lineales que
puedan escribirse en la siguiente forma general, que para un dado (al que llamaremos parmetro de
suavizacin) es una combinacin lineal de las observaciones yi , donde K(, xi ; ), i = 1, . . . , n es una
coleccin de funciones ponderadoras que dependen de los xi y de :
n
X
f (x) = K(x, xi ; )yi (3)
i=1

En la Ecuacin (3) la funcin K es una funcin simtrica y centrada en cero que tiene su mximo
en cero. A estas funciones se les llama funciones kernel y los estimadores lineales construidos con estas
funciones se les llama estimadores kernel.
Sin embargo, en algunos problemas se dispone de ms de una respuesta para cada valor de X. Aunque
hay muchas versiones de notacin para este caso, nos apoyaremos en la propuesta por Draper & Smith
(1998, pg. 49). Supongamos en particular que tenemos Pm m valores diferentes de X y que se dispone de
nj , j = 1, 2, . . . , m respuestas para cada xj , tales que j=1 nj = n. En tal caso nuestro Modelo (1) podra
re-escribirse como:
yju = f (xj ) + ju , u = 1, . . . , nj , j = 1, . . . , m (4)

En este caso nuestros valores de X seran elegidos as:

xj = (2j 1)/2m, j = 1, 2, . . . , m (5)

Obsrvese que esta notacin tiene el valor agregado de reservar el contador i para las mediciones
individuales, que varan desde 1 hasta n.
Nuestro propsito es estimar f en el Modelo (4), para lo cual buscaremos construir estimadores lineales
que puedan escribirse en la siguiente forma general, que para un dado es una combinacin lineal de
las observaciones yju , donde K(, xj ; ), j = 1, . . . , m es una coleccin de funciones ponderadoras que
dependen de los xj y de :
m X nj
X
f (x) = K(x, xj ; )yju (6)
j=1 u=1

Esto significa que asignaremos el mismo peso en la estimacin de f a todos los yju asociados con xj , para
cada j.
Ejemplo 1.1 (NO2 en el centro de Cali ). La Red de Vigilancia (Monitoreo) de la Calidad de Aire
(RMCA) de Cali colecta informacin sobre varios contaminantes atmosfricos entre los cuales se encuentra
el Dixido de Nitrgeno NO2 , un contaminante primario que entre otros efectos acta como precursor de
Ozono (O3 ) troposfrico. Los equipos de la RMCA miden cada 10 segundos el nivel de NO2 en el aire,
pero reportan el promedio horario (conocido generalmente como contaminacin 1H), y el mnimo y el
mximo en una hora. De esta manera, cada da se dispone de un mximo de 24 observaciones, una para

XXI Simposio de Estadstica (2011)


Regresin no paramtrica con medidas repetidas 3

cada hora del da. La Figura 1, izquierda, muestra los niveles 1H de NO2 entre los das mircoles 20 y
domingo 24 de enero de 2004 en una estacin en el centro de Cali. Las observaciones de cada da se han
separado con una lnea vertical discontinua.
Un primera mirada a la representacin de la Figura 1 (izquierda) parece indicar que en cada da se
produce un mximo en algn momento alrededor del medioda y que los das entre semana (mircoles,
jueves y viernes) tienen mnimos ms bajos y mximos ms altos que los das de fin de semana (sbado
y domingo).
Se desea encontrar el comportamiento diario del contaminante NO2 con fines de estimacin y, even-
tualmente, de pronstico. Para efectos de pronstico una primera aproximacin analtica ante un conjunto
de datos como este sera utilizar un anlisis de series temporales. Algunos anlisis previos con datos si-
milares no han sido muy exitosos en su propsito de ajustar un modelo eficiente de series de tiempo
(Barrientos et al. 2007), aunque desde luego hay an mucho por trabajar en este campo, incluida una
aproximacin no paramtrica a las series de tiempo.
En cuanto al estudio del comportamiento diario, una posibilidad analtica sera considerar cada da co-
mo un individuo que se observa a lo largo del tiempo, como en los casos de anlisis de datos longitudinales
(Diggle et al. 2002), o pensar los datos como datos funcionales que se asumen como realizaciones de un
proceso aleatorio con curvas suaves f (t) que se observan en tiempos discretos (Wang 2003). En este trabajo
exploraremos el uso de modelos clsicos de regresin no paramtrica (Takezawa 2006, Eubank 1999, Bow-
man & Azzalini 1997, Fan & Gijbels 1996, Simonoff 1996) bajo el esquema de modelos con respuestas
mltiples por punto de diseo. Consideremos la reorganizacin de los datos tal como se representan en la
Figura 1, derecha, en la que las observaciones de la hora j en cada uno de los das se han representado
como respuestas mltiples en la hora j de cada da. Todas las figuras y los clculos en este trabajo se
realizan con el lenguaje de libre distribucin R (R Development Core Team 2011).
100 100

80 80

60 60
1H NO2

1H NO2

40 40

20 20

0 20 40 60 80 100 120 0 5 10 15 20

OBSERVACIN HORA
Figura 1: Niveles 1H de NO2 entre los das mircoles 20 y domingo 24 de enero de 2004 en una estacin en el
centro de Cali. A la izquierda los datos tomados cronolgicamente. A la derecha los datos representados
como medidas repetidas.

Como ya hemos anotado, los das ordinarios lucen diferentes de los das de fin de semana (y podemos
aadir en este grupo los das festivos). En la Figura 2 hemos representado a la izquierda los das de
mircoles a viernes y a la derecha los das sbado y domingo. Puede observarse que el comportamiento
general, sin acudir a ninguna estrategia de suavizacin o de regresin, parece ser definitivamente diferente
para estos tipos de das. En general separaremos el anlisis para los das entre semana (das ordinarios)
y para los fines de semana y festivos (das festivos).
2

En el caso de la regresin no paramtrica con n valores xi diferentes y una respuesta yi asociada


con cada xi , se dispone de un buen nmero soluciones en la literatura, incluso cuando la respuesta no
es continua (Green & Silverman 2000). Pero en este caso nos interesa estimar la funcin de regresin
en el Ejemplo 1.1, que no encaja en la forma general del Modelo (1), debido a que disponemos de ms

XXI Simposio de Estadstica (2011)


4 Javier Olaya

100 100

80 80

60 60
1H NO2

1H NO2
40 40

20 20

0 0

0 5 10 15 20 0 5 10 15 20

HORA HORA
Figura 2: Niveles 1H de NO2 entre los das mircoles 20 y domingo 24 de enero de 2004 en una estacin en el
centro de Cali. A la izquierda los datos de das entre semana. A la derecha los datos de das de fin de
semana.

de una respuesta para cada punto de diseo. En el ambiente de los modelos lineales paramtricos, este
problema est resuelto desde hace muchos aos (Draper & Smith 1966). Pero en el caso de la regresin
no paramtrica el problema es an fuente de discusin.

Funciones suaves
Asumiremos que la funcin f del Modelo (1) es una funcin cuadrado integrable (es decir definida
en el espacio L2 [0, 1]) que tiene dos derivadas continuas. Esta coleccin infinita de funciones cuadrado
integrables con dos derivadas continuas forma un espacio funcional al que denotaremos W22 [0, 1]. A las
funciones del espacio W22 [0, 1] las llamaremos funciones suaves y al proceso para encontrar una funcin
f en el Modelo (1) lo llamaremos suavizacin.
Supongamos ahora que existe una base de funciones {fj } 2
j=1 que permite generar el espacio W2 [0, 1]

y un conjunto de coeficientes {j }j=1 tales que la funcin f puede representarse usando la expansin

X
f= j f j (7)
j=1

En tal caso, el Modelo (1) puede representarse como:



X
yi = j fj (xi ) + i , i = 1, 2, . . . , n (8)
j=1

lo que significa que los datos siguen un modelo lineal con infinitos coeficientes de regresin desconocidos.
Si los j decayeran a cero consistentemente a medida que se usan ms de ellos para representar f ,
entonces uno podra asumir que existe un entero tal que

. X
f= j f j
j=1

y por tanto que podramos escribir la aproximacin



. X
yi = j fj (xi ) + i , i = 1, 2, . . . , n (9)
j=1

XXI Simposio de Estadstica (2011)


Regresin no paramtrica con medidas repetidas 5

Pero este Modelo (9) luce tal como un modelo lineal, por lo que una posible solucin al problema de
la estimacin de f sera estimar los coeficientes {j }j=1 usando el mtodo de mnimos cuadrados, para
lo cual definiremos la matriz X = {fj (xi )}i=1,2,...,n; j=1,2,..., . Se sigue que el estimador de tendr la
forma general:
= (X T X )1 X T y (10)
con y = (y1 , y2 , . . . , yn )T .
Entonces nuestro estimador de f ser:

X
f (x) = j fj (x) (11)
j=1

que puede escribirse como


f = Sy (12)
T
con f = (f1 , f1 , . . . , fn ) y S = X (X T X )1 X T .
La matriz S luce tal como la matriz hat
(H) en los modelos lineales y juega el mismo papel en la estimacin de la funcin de regresin.
Pero esta solucin, que se usa para el Modelo (1) no parece adecuada para el Modelo (4) que se adeca
ms al Ejemplo 1.1.

2. La aproximacin de Bowman y Azzalini


Para ajustar una curva suave al conjunto de datos del Ejemplo 1.1, Bowman & Azzalini (1997, Pg.
137) los visualizan como un conjunto de perfiles de N individuos. En nuestro caso los individuos sern
los das (mircoles 20 de enero de 2004, jueves 21 de enero de 2004, etc.) y usando la notacin de Draper
& Smith (1998), tendremos nj mediciones a la hora xj para cada uno de los N das, con nj N . La
Figura 3 muestra los perfiles para los das laborales (mircoles a viernes) del Ejemplo 1.1.

100

80

60
1H NO2

40

20

0 5 10 15 20

HORA
Figura 3: Perfiles de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21 y viernes 22 de enero de
2004 en el centro de Cali

Para estimar f , Bowman & Azzalini (1997) proponen ajustar un modelo del tipo (1) usando como
nica respuesta para cada j la media yj de las nj mediciones asociadas con la hora xj , es decir,
nj
1 X
yj = yju . (13)
nj u=1

La funcin de regresin se estima de manera habitual usando un estimador lineal de la forma

f = S y (14)

XXI Simposio de Estadstica (2011)


6 Javier Olaya

con y = (y1 , y2 , . . . , ym )T y S resultante de usar las funciones de pesos de la Ecuacin (6) para un
parmetro de suavizacin dado.
En esta solucin los autores asumen que los datos colectados en diferentes das pueden considerarse
independientes, mientas que los datos provenientes de cualquier da individual podran estar correlacio-
nados. Si adems la covarianza es estacionaria, entonces la estructura de dependencia de los ju tiene la
forma general
(
2 |uh| , si j = k
cov{yju , ykh } = cov{ju , kh } = (15)
0, si j 6= k

donde 2 es la varianza del proceso y 0 = 1.


Si denotamos V la matriz m m de covarianzas de cada perfil yj , entonces sus entradas sern:

cov{yju , ykh } = Vju = 2 |uh| (16)

En este contexto, a diferencia de los modelos de series de tiempo, la funcin de autocorrelacin


{1 , 1 , . . .} se considera una componente de perturbacin, por lo que no se modela. De hecho, la operacin
de promediar los yju para cada xj preserva la funcin de autocorrelacin por cuanto:

1 2
cov{yu , yh } = |uh| (17)
nj

Los autores sealan que la estructura de correlacin afecta la varianza del estimador, pero no la media,
por cuanto:
E[f ] = S f V ar[f ] = N 1 S V S T (18)

Se concluye entonces que el estimador f es sesgado, como lo son en general los estimadores en regresin
no paramtrica y que tanto el estimador como su sesgo y su varianza dependen de . As que la eleccin
del parmetro de suavizacin es crucial, aunque en modo alguno trivial. Para encontrar el ptimo, los
autores sugieren utilizar una estimacin de la funcin de autocorrelacin a partir de los residuales eju . Sin
embargo, Rice & Silverman (1991) y Wang (2003) sugieren que los mtodos tradicionales de validacin
cruzada que se basan en la idea de dejar-una-observacin-por-fuera no son tan adecuados en situaciones
como esta y que podra resultar ms adecuado dejar-un-individuo-por-fuera. Mayores detalles sobre la
seleccin de en esta propuesta pueden consultarse en Bowman & Azzalini (1997, Pg. 139) y Diggle
et al. (2002, Pg. 322).
Finalmente, Bowman & Azzalini (1997) no se detienen a estudiar cuidadosamente en el problema de
la estimacin de la varianza 2 , a pesar de su gran importancia para efectos de inferencia, por ejemplo
en la construccin de bandas de variabilidad. De hecho, los autores proponen estimar 2 utilizando la
Expresin (19) para k = 0.
m nj
1 XX
k = ej,u ej,uk , k = 1, 2, . . . , m (19)
n j=1 u=1

Pero la Expresin (19) para k = 0 no es ms que el promedio de la suma de cuadrados de los residuales,
estimador muy criticado porque no considera que los residuales dependen de . Una posible adaptacin
ha sido propuesta en algunos trabajos exploratorios (Pereira et al. 2007), acudiendo a los estimadores de
Rice (1984) y Gasser et al. (1986) de tal manera que se estima la varianza siguiendo las respuestas dentro
de cada da, como si estuvieran dispuestas en el orden cronolgico en el que son generadas, tal como se
ven a la izquierda en la Figura 1.
Para efectos ilustrativos hemos estimado la funcin de regresin con la funcin sm.rm del paquete sm
de R (Bowman & Azzalini 2010). Los resultados se ilustran en la Figura 4. Ntese que ni la nube de
puntos ni la de perfiles apoyan el supuesto de igualdad de varianzas.

XXI Simposio de Estadstica (2011)


Regresin no paramtrica con medidas repetidas 7

100
100

80
80

60

60

1H NO2
NO2

40
40

20
20

0 5 10 15 20 0 5 10 15 20

Hora HORA
Figura 4: Curva suave ajustada a los datos de la contaminacin 1H de NO2 para los das mircoles 20, jueves
21 y viernes 22 de enero de 2004 en el centro de Cali, usando el estimador de Bowman-Azzalini. A la
izquierda se representa f sobre la nube de puntos. Y a la derecha, sobre los perfiles

3. La aproximacin de Eubank
Eubank (1999, Pg. 238) propone una solucin diferente, ms cercana a la idea de considerar los datos
como respuestas mltiples que como medidas repetidas. Su idea se basa en el uso de splines.
Wahba (1990, pg. viii) y Green & Silverman (2000, pg. 14) describen un spline mecnico como
una pieza metlica, plstica, de madera o de cualquier otro material flexible, que se ajusta a curvas
adaptndose a su forma y que permite dibujar curvas suaves. Segn estos autores, este tipo de herramienta
se utiliz en el pasado para delinear cascos de barcos y para planear curvas de carrileras. As que si fuera
posible tener un objeto matemtico que actuara como un spline mecnico que tuviera adems adecuadas
propiedades estadsticas, entonces podra utilizarse para ajustar curvas como las que nos proponemos en
esta seccin.
La versin ms sencilla de un objeto matemtico que se comporte como un spline mecnico es llamado
un spline cbico. Supongamos que tenemos un conjunto de nmeros reales x1 , . . . , xn en un intervalo [a, b],
tales que a < x1 < x2 < . . . < xn < b. Una funcin s definida en [a, b] es un spline cbico si cumple las
siguientes dos condiciones:

1. s es una cbica en cada uno de los intervalos (a, x1 ), (x1 , x2 ), . . . , (xn , b)

2. La cbicas se unen en los puntos xi de tal manera que s y sus dos primeras derivadas con continuas
en cada xi y por lo tanto en todo el intervalo [a, b]

A los puntos xi los llamaremos nodos.


Un spline cbico en [a, b] se llama un spline cbico natural si se satisface que las dos primeras derivadas
de s son iguales a cero en los puntos a y b. Estas condiciones las llamaremos condiciones de acotamiento
natural e implican que s es lineal en los dos intervalos extremos (a, x1 ) y (xn , b).
Por otra parte, es posible demostrar (Green & Silverman 2000) que dados unos valores yi , para un
conjunto dado de puntos x1 < x2 < . . . < xn en [a, b], existe un nico spline cbico natural que satisface
que s(xi ) = yi , i = 1, . . . , n.
Supongamos que deseamos utilizar un spline cbico natural para estimar f en nuestro Modelo (1).
Para lograrlo, seguiremos a Eubank (1999) y Green & Silverman (2000), quienes proponen la cantidad
R 1 2 2
0 f (x) dx como una medida natural de suavidad asociada con una funcin f W2 [0, 1]; al mismo
tiempo,
Pn una medida de bondad de ajuste de los datos al modelo es la suma de cuadrados del error
n1 i=1 (yi f (xi ))2 . Esto implica que una medida de la calidad de un estimador de f podra basarse

XXI Simposio de Estadstica (2011)


8 Javier Olaya

en la suma convexa:
n
X Z 1
(1 q)n1 (yi f (xi ))2 + q f (x)2 dx
i=1 0

con 0 < q < 1.


Si hacemos = q/(1 q), la eleccin del estimador de f es equivalente a elegir f que minimice la
suma:
Xn Z 1
1
n 2
(yi f (xi )) + f (x)2 dx (20)
i=1 0

sobre todas las funciones f W22 [0, 1]. A este estimador f lo llamaremos un estimador spline de f .
De la Expresin (20) se sigue que si es muy grande, entonces la estimacin de la funcin de regresin
ser super-suavizada; lo contrario ocurre con un muy pequeo, que conduce a un estimador que interpola
los datos.
Eubank (1999) encuentra que la solucin a este problema de optimizacin es nica y corresponde al
estimador
Xn
f = i fj (21)
j=1

donde = (1 , 2 , . . . , n ) es la nica solucin con respecto a c = (c1 , c2 , . . . , cn )T del sistema de


T

ecuaciones
(X T X + n)c = X T y (22)
donde X = {fj (xi )}i,j=1,2,...,n , con {fj }j=1,2,... una coleccin de funciones que forman una base de
R 1
W22 [0, 1], y = (y1 , y2 , . . . , yn )T y = { 0 fi (x)fj (x)dx}i,j=1,2,...,n .
Las funciones {fj }j=1,2,...,n forman una base del conjunto de splines naturales. Sezer (2009) sugiere
el uso de la siguiente base de splines cbicos naturales:

f1 (x) = 1
f2 (x) = x
fj+2 (x) = dj (x) dn1 (x), j = 1, 2, . . . , n 2 (23)

donde:
(x xj )3+ (x xn )3+
dj (x) =
xj xn
y la funcin (z)3+ es la funcin truncada:
(
z 3 , si z 0
(z)3+ =
0, si z < 0

En consecuencia, el vector de valores estimados es f = (f (x1 ), f (x2 ), . . . , f (xn ))T = S y, donde


tenemos que
S = X(X T X + n)1 X T (24)

Al estimador f de f definido en la Ecuacin (21) lo llamaremos un estimador spline. La eleccin


del parmetro de suavizacin se hace usualmente con el estimador de validacin cruzada generalizada
GCV, usando la matriz S definida en la Ecuacin (24).
La solucin f = S y basada en la matriz hat definida en la Ecuacin (24) presume que tenemos
una nica respuesta yi para cada xi y todos los supuestos del Modelo (1), en particular igualdad de
varianzas.

XXI Simposio de Estadstica (2011)


Regresin no paramtrica con medidas repetidas 9

Una solucin posible para manejar una situacin como la que se describe en el Modelo (1), pero en
presencia de heterocedasticidad, podra ser hallar f que minimice la suma
n
X Z 1
n1 wi (yi f (xi ))2 + f (x)2 dx (25)
i=1 0

con pesos positivos wi > 0, i = 1, 2, . . . , n. Si usamos wi = [var(yi )]1 , i = 1, 2, . . . , n, el estimador f


que minimice la suma (25) sera adecuado para el caso de un modelo heterocedstico.
Para el caso de un modelo homocedstico con respuestas mltiples, como sera el Modelo (4), se
debera minimizar la suma
m
X Z 1
1
n 2
nj (yj f (xj )) + f (x)2 dx (26)
j=1 0
Pm
con n = j=1 nj .
Si el Modelo (4) es heterocedstico, los ponderadores wj pueden asociarse con la varianza muestral s2j
definida como
nj
X
(nj 1)1 (yju yj )2 (27)
u=1

para j = 1, 2, . . . , m.
El estimador f resultar de minimizar la suma
nj
m X Z 1
X
1
m s2j (yju 2
f (xj )) + f (x)2 dx (28)
j=1 u=1 0

o la suma
m
X Z 1
1
m 2
(yj f (xj )) + f (x)2 dx (29)
j=1 0

con wj = nj /s2j , j = 1, 2, . . . , m.
En este caso la matriz S ser
S = J A (J T J )1 J T (30)
donde J es una matriz m n que es diagonal por bloques, con nj unos en la diagonal del bloque j;
A = X(X T W X + m)1 J T W ; y W es la matriz diagonal de pesos wj = nj /s2j .
La matriz se define como
Z 1 

= fj (x)fu (x)dx (31)
0 j,u=1,2,...,m

donde {fj }j=1,2,...,m es una base de splines cbicos naturales, por ejemplo la base (23) propuesta por
Sezer (2009).
Eubank (1999) no considera en su propuesta elementos tales como la estructura de dependencia de
los errores, por lo que se asume que las mediciones sobre los individuos son independientes, as como
las mediciones dentro de individuos. En nuestro Ejemplo 1.1, esto implicara que las mediciones de un
da a otro son independientes y que las mediciones de una hora a otra dentro de cada da son tambin
independientes.
La Figura 5 ilustra la estimacin de f basada en este procedimiento propuesto por Eubank, cuyo aporte
ms fuerte est en el uso de la medicin de la varianza muestral de la Ecuacin (27), que evidentemente
permite aproximar la estimacin de la varianza del modelo. Los supuestos de independencia deberan
estudiarse ms detenidamente.

XXI Simposio de Estadstica (2011)


10 Javier Olaya

100

80

60

1H NO2
40

20

0 5 10 15 20

HORA
Figura 5: Estimacin del comportamiento de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21
y viernes 22 de enero de 2004 en el centro de Cali, basada en la propuesta de Eubank

4. Regresin Funcional?
Otra alternativa analtica para este problema sera usar las ideas de Ramsay & Silverman (2005),
Ferraty & Vieu (2006) y Ramsay et al. (2010), entre otros, para ajustar a los datos un modelo de regresin
funcional. Es bien sabido que los estimadores kernel, como los que proponen usar Bowman & Azzalini
(1997), y los estimadores spline, que propone usar Eubank (1999), pueden verse como adecuaciones de
modelos ajustados con series de Fourier. De hecho, el nombre kernel parece deberse al kernel Dirichlet
del anlisis de series de Fourier. Este es uno de los objetivos de trabajo futuro con las bases de datos de
contaminacin ambiental.
En el caso del Ejemplo 1.1, en lugar de pensar que tenemos tres respuestas por cada punto de diseo,
podramos pensar que las observaciones de cada da provienen en realidad de datos funcionales que hemos
observado en puntos discretos. A los datos funcionales podramos denotarlos N O2i (x), i = 1, 2, 3. De esta
manera, N O21 (x) sera el dato funcional correspondiente a la contaminacin 1H de NO2 el da mircoles
20 de enero de 2004. Esta idea se asemeja a la de los perfiles de la Figura 3, en la que hemos unido las
observaciones con lneas rectas. De hecho, los perfiles podran ser considerados datos funcionales en s
mismos, con la limitacin de su falta de suavidad ya que su primera derivada ser cero en varios puntos.
De acuerdo con Ramsay & Silverman (2005), los objetivos del anlisis de datos funcionales son com-
partidos con otras ramas de la Estadstica, entre otros los siguientes:

Representar los datos para facilitar anlisis posteriores


Desplegar los datos para destacar varias de sus caractersticas
Estudiar fuentes importantes de patrones de comportamiento y variacin entre los datos
Explicar la variacin de una variable de respuesta a partir de informacin de una variable indepen-
diente

Todos estos objetivos son vlidos para nuestro problema de la contaminacin, por lo que ciertamente
este tipo de anlisis luce adecuado para nuestro problema.
Una primera etapa del anlisis de datos funcionales es convertir los datos observados en una funcin
gi de tal manera que sea posible calcular g(x) para cualquier x, lo que se hara por interpolacin si las
respuestas fueran medidas sin error, o, ms comnmente, por suavizacin. La Figura 6
En realidad los datos disponibles para el anlisis de la contaminacin por NO2 en Cali son varias
decenas, por lo que la Figura 6 es solo una primera aproximacin grfica a un problema mucho ms
complejo. Es decir, el anlisis de esta informacin usando las tcnicas del anlisis funcional es an un
problema en curso.

XXI Simposio de Estadstica (2011)


Regresin no paramtrica con medidas repetidas 11

100

80

60

1H NO2
40

20

0 5 10 15 20

HORA
Figura 6: Tres datos funcionales de la contaminacin 1H de NO2 para los das mircoles 20, jueves 21 y viernes
22 de enero de 2004 en el centro de Cali

Referencias
Barrientos, A. F., Olaya, J. & Gonzalez, V. M. (2007), Un modelo spline para el pronstico de la demanda
de energa elctrica, Revista Colombiana de Estadstica 30(2), 187202.
Bowman, A. W. & Azzalini, A. (1997), Applied Smoothing Techniques for Data Analysis. The Kernel
Approach with S-plus Illustrations, Oxford.
Bowman, A. W. & Azzalini, A. (2010), R package sm: nonparametric smoothing methods (version 2.2-4),
University of Glasgow, UK and Universit di Padova, Italia.
Diggle, P. J., Heagerty, P., Liang, K.-Y. & Zeger, S. L. (2002), Analysis of Longitudinal Data, 2nd. edn,
Oxford.
Draper, N. R. & Smith, H. (1966), Applied Regression Analysis, John Wiley & Sons, New York, NY.
Draper, N. R. & Smith, H. (1998), Applied Regression Analysis, 3d. edn, John Wiley & Sons, New York,
NY.
Eubank, R. L. (1999), Nonparametric Regression and Spline Smoothing, second edn, Marcel Dekker, New
York, NY.
Fan, J. & Gijbels, I. (1996), Local Polynomial Modelling and Its Applications, Chapman & Hall/CRC.
Ferraty, F. & Vieu, P. (2006), Nonparametric Functional Data Analysis Theory and Practice, Springer.
Gasser, T., Sroka, L. & Jennen-Steinmetz, C. (1986), Residual variance and residual pattern in nonlinear
regression, Biometrika 73(3), 625633.
Green, P. J. & Silverman, B. W. (2000), Nonparametric Regression and Generalized Linear Models. A
Roughness Penalty Approach, Chapman & Hall/CRC, Boca Raton, FL.
Pereira, L. A., Paz, M. C. & Olaya, J. (2007), Estimacin de la varianza en regresin no-paramtrica:
El efecto de poseer mltiples observaciones por punto de diseo, in 17mo. Simposio de Estadstica,
Universidad Nacional de Colombia.
R Development Core Team (2011), R: A Language and Environment for Statistical Computing, R Foun-
dation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
*http://www.R-project.org/
Ramsay, J. O., Graves, S. & Hooker, G. (2010), Functional Data Analysis with R and MATLAB,
Springer.

XXI Simposio de Estadstica (2011)


12 Javier Olaya

Ramsay, J. O. & Silverman, B. W. (2005), Functional Data Analysis, 2nd. edn, Springer.
Rice, J. A. (1984), Bandwidth choice for nonparametric regression, The Annals of Statistics 12(4), 1215
1230.

Rice, J. A. & Silverman, B. W. (1991), Estimating the mean and covariance structure nonparametrically
when the data are curves, Journal of the Royal Statistical Society, Series B 53, 233243.
Sezer, A. (2009), Assesing the quality of the natural cubic spline approximation, Proceedings of the 8th
WSEAS International Conference on SYSTEM SCIENCE and SIMULATION in ENGINEERING
pp. 186190.

Simonoff, J. F. (1996), Smoothing Methods in Statistics, Springer, New York, NY.


Takezawa, K. (2006), Introduction to Nonparametric Regression, Wiley.
Wahba, G. (1990), Spline Models for Observational data, CBMS-NSF Series, SIAM.
Wang, J.-L. (2003), Nonparametric regression analysis of longitudinal data.
*http://www.stat.ucdavis.edu/ wang/paper/EOB3.pdf

XXI Simposio de Estadstica (2011)

Potrebbero piacerti anche