Sei sulla pagina 1di 6

XIX Simposio Colombiano de Estadísti

a
Estadísti as O iales
Medellín Colombia, Julio 16 al 20 de 2009

Considera iones sobre té ni as de análisis por Mínimos


Cuadrados Par iales PLS y su aporte a la forma ión del
ingeniero de alimentos
Consideration about the analize the ni al whit partial least square PLS and their aport
the enginier aliment formation
1, a 2, b
Nelson Rodríguez , Guillermo Salaman a Grosso

1 Departamento de Estadísti a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia

2 Departamento de Quími a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia

Resumen
En la onstru ión de un modelo de regresión lineal múltiple basado en una matriz de datos X ,
de orden n × p, se pueden presentar dos problemas: multi olinealidad y alta dimensionalidad de sus
variables predi toras. En este trabajo se revisan dos metodologías relativamente similares y usadas en
la solu ión de estos problemas: (Wold 2001, Martens 2001) Regresión por Componentes Prin ipales
y Regresión por Mínimos Cuadrados Par iales. En te nología de alimentos, ha in ursionado de ma-
nera importante ombina el análisis de omponentes prin ipales y el análisis de orrela ión anóni o
(de Jong et al. 2001) ambos métodos transforman las variables predi toras en variables arti iales
llamadas omponentes o variables latentes, las uales son ortogonales y permiten ha er una redu -
ión de la dimensionalidad del espa io de variables predi toras. Luego usando solamente las variables
latentes se onstruye el modelo de regresión estimado.
Palabras lave : Regresión por mínimos uadrados par iales, Componentes Prin ipales, valida ión
ruzada, Clasi a ión supervisada.
Abstra t
In a multiple linear regressión model based on an n × p, data matrix two problems may arise:
multi olineality and high dimensional predi tor variables. In this work we evaluate two relatively
similar methodologies whi h are used to deal with these problems prin ipal omponents regression
and partial least squares regression.In food te hnology, it has emerged a ombination of prin ipal
omponents analysis and anoni al orrelation analysis. Both methods transform predi tor variables
into arti ial variables, also alled omponents or latent variables. They are orthogonal and allow us
to redu e the dimension of the predi tor variables spa e. Finally, by using only latent variables, we
build the estimated regression model.
Key words : Partial least squares regression, Prin ipal Components.

Té ni as
El análisis de omponentes prin ipales (PCA)

Es una té ni a que ha sido utilizada por mu ho tiempo para de redu ir la dimensionalidad. Sin
embargo, las primeras omponentes que se supone tienen la más alta variabilidad no ne esariamente
mejoran la predi ión uando se usa en regresión o en lasi a ión. (Mardia 1979)
a Profesor asistente. E-mail: nrariasut.edu. o
b Profesor titular. E-mail: salaman agrossogmail. om

1
2 Nelson Rodríguez & Guillermo Salaman a Grosso

Regresión por Mínimos Cuadrados Par iales ( Regresión PLS)

La regresión por mínimos uadrados par iales (regresión PLS, por sus siglas en inglés), fue introdu ida
por Herman Wold (1975) (Wold 2001, Wold et al. 2001) para ser apli ada en ien ias e onómi as y so iales.
Sin embargo gra ias a las ontribu iones de su hijo Svante Wold, (Wold et al. 1984) ha ganado popularidad
en el área de la quími a ono ida omo Chemometri s, en donde se analizan datos que se ara terizan
por mu has variables predi toras, on problemas de multi olinealidad, y po as unidades experimentales
en estudio.
La idea motivadora de PLS fue heurísti a, por este motivo algunas de sus propiedades son todavía
des ono idas a pesar de los progresos al anzados por Helland (1988), Hoskuldson (1988), Stone y Brooks
(1990) y otros. La metodología PLS generaliza y ombina ara terísti as del Análisis de Componentes
Prin ipales y Análisis de Regresión Múltiple (Draper & Smith 1981, Helland 2001). La demanda por esta
metodología y la eviden ia de que trabaja bien, van en aumento y así, la metodología PLS está siendo
apli ada en mu has ramas de la ien ia. En PLS, a diferen ia de Componentes Prin ipales, los datos de
entrada además de la matriz de predi toras X, deben ontener una matriz de respuestas Y.

X : matriz de variables predi toras, de orden n × p

Y : matriz de variables dependientes, de orden de n × p

Objetivos del PLS


• Para eliminar problemas de multi olinealidad de las variables predi toras que pueden ausar severos
errores de predi ión.

• Sele ión de variables o redu ión de la dimensionalidad, para disminuir el tiempo de estima ión
de la tasa de error de la fun ión lasi adora y a elerar el pro eso de predi ión.

• Para disminuir la arga omputa ional que se origina al onstruir y validar el lasi ador.

Regresión PLS univariado


Es el aso de apli a ión de regresión PLS, uando Y es un ve tor (q = 1). Puede ser visto omo
una transforma ión de las variables predi toras X , onsiderando su rela ión on el ve tor de respuestas
Y de orden n × 1, obteniéndose omo resultado una matriz de omponentes o variables latentes no
orrela ionadas, T = (T1 , . . . , Tp ) de orden n × p (Geladi & Kowalski 1986a) Se debe notar que esto
ontrasta on el Análisis de Componentes Prin ipales, en el ual las omponentes son obtenidas usando
sólo la matriz de predi toras X. El número de variables latentes T1 , . . . , Tk , donde k ≤ p, es determinado
generalmente por el método de valida ión ruzada dejando una observa ión afuera, también llamado
PRESS (Predi tion Sum of Squares). (Draper & Smith 1981, ?) La e ua ión de regresión estimada
tomará la siguiente forma:
yb = β0 + β1 T1 + β2 T2 + . . . + βk Tk

Sele ión del número de omponentes


El número de omponentes PLS ne esario para estimar un buen modelo de regresión, a partir del PLS
UNIVARIADO, se elige por el riterio de minimiza ión de la suma de uadrados de residuales.

XIX Simposio de Estadísti a (2009)


Mínimos Cuadrados Par iales PLS 3

Los métodos más usados

Estima ión del PRESS (Predi tion Sum of Squares) (Geladi & Kowalski 1986b, Wold et al. 1984): Es
un aso parti ular del método valida ión ruzada, onsiste de los siguientes pasos:

1. Estimar el modelo de regresión, ex luyendo la i-ésima observa ión, i = 1, 2, . . . , n

2. Cal ular la predi ión de la observa ión que no fue in luida: ybi ,i = 1, 2, . . . , n

3. Cal ular el residual orrespondiente: ei = yi − ybi , i = 1, 2, . . . , n


P
4. El PRESS promedio es al ulado por: 12 ni−1 e2i

Estima ión de la suma de uadrados de residuales por valida ión


ruzada (SCRv )
Es un método general de estima ión, onsiste de los siguientes pasos: (Qin 1998, Wold et al. 1984)

1. Permutar la muestra y dividirla en k partes; ada parte Vj , j = 1, . . . , k tiene aproximadamente


n/k observa iones. Los valores más usados de k son 3, 10 ó n; uando k = n, el ál ulo se llama
PRESS.

2. Estimar el modelo de regresión, ex luyendo una j-ésima parte (j = 1, . . . , k)

3. Con el modelo estimado al ular las predi iones de las observa iones, que no fueron in luidas para
estimar el modelo: ybij , j = 1, . . . , k, tal que xi ∈ Vj

4. Cal ular la suma de uadrados de residuales (SCR) orrespondiente:


X
SCRJ = (yij − ybij )2 j = 1, . . . , k
i:xii ∈Vj

P
5. El SCRv promedio es al ulado por: n1 kj−1 SCRj El número de omponentes PLS que minimiza
la suma de uadrados de residuales: Se elige de la siguiente manera:

• Con base en la matriz de predi toras X(n×p) y el ve tor de lases Y(n×1) , se halla la matriz de
omponentes o variables latentes T(n×p) .
• Estimar el promedio de la suma de uadrados de residuales PRESS o SCRVC del modelo de
regresión Y sobre las primeras h- omponentes T1 , . . . , Th Enton es PRESS (h),h = 1, . . . , p
• El número de omponentes PLS (h∗), que serán utilizados es obtenido por la siguiente regla:

h∗ = mı́n(h > 1 : P RESS(h + 1) − P RESS(h) > 0)

Regresión PLS multivariado


Es una generaliza ión de la regresión PLS univariado y se diferen ia de ésta porque aquí se tiene una
matriz de variables respuesta Y(n×q) , además de la matriz de predi toras X(n×p) , on q < p (Eri kson
et al. 1992). El propósito del PLS multivariado es en ontrar un onjunto de omponentes T1 , . . . , Tk , donde
k ≤ p , que rindan buenos modelos lineales para todas las variables respuesta Y. El modelo estimado es
de la siguiente forma:
ybj = βj0 + βj1 T1 + βj2 T2 + . . . + βjk Tk

XIX Simposio de Estadísti a (2009)


4 Nelson Rodríguez & Guillermo Salaman a Grosso

Clasi a ión
Es un problema de análisis multivariado que onsiste en asignar individuos u objetos en uno de G
grupos o lases. Para esto se ha e uso de una fun ión llamada lasi ador, la ual se onstruye on base
a los datos observados que onforman la muestra en estudio.

Hay dos tipos de problemas de lasi a ión (Mardia 1979)

: En este aso se dispone de un onjunto de Observa iones multivaria-


das, para las uales se ono en a priori las lases a las que pertene en, es de ir la variable respuesta está
denida.

: En este aso se dispone de un onjunto de observa iones multiva-


riadas, pero no se ono en las lases a las que pertene en.Aquí, no existe variable respuesta.

Ejemplo
Calibra ión espe tro métri a (Al iaturi et al. 1998, Al iaturi et al. 1996)

Suponga que tiene un pro eso quími o uyo rendimiento tiene 5 omponentes diferentes se usa un
instrumento para prede ir la antidad de estos omponentes basados en un espe tro on el n de alibrar
el instrumento se orre 20 ombina iones ono idas de 5 omponentes a través y se observa el espe tro
los resultados son 20 espe tros on sus antidades de omponentes aso iados.

Los PLS pueden ser usados para onstruir un modelo lineal predi tivo para las antidades de ompo-
nentes basados en el espe tro. Cada espe tro esta ompuesto de medidas de 1000 diferentes fre uen ias;
estos son los niveles de los fa tores y las respuestas son las antidades de los 5 omponentes

En el lado izquierdo de la tabla se muestran las varia iones individuales y a umuladas ontadas por
los 10 primeros fa tores del PLS; para ambos los fa tores y las respuestas. Note que los 5 fa tores del
PLS al ula para asi todos la varia ión en las respuestas, on el fa tor quinto al ulado para una por ión
regular. Esto da una fuerte indi a ión que los 5 fa tores PLS son apropiados para modelar las 5 antidades
de omponentes. El análisis de valida ión ruzada onrma esto: aunque el modelo on 9 fa tores PLS
logra el mínimo absoluto de la suma de los uadrados prede idos (PRESS) esto es insigni ante mejor
que el modelo on 5 fa tores.

Los fa tores PLS son al ulados omo iertas ombina iones lineales de las amplitudes espe trales, las
respuestas son prede idas linealmente basada en estos fa tores extraídos. Así, la fun ión lineal predi tiva
para ada respuesta es también una ombina ión lineal de las amplitudes espe trales. La traza para el
resultado predi tor de la primera respuesta es mostrada en la gura
Note que una predi ión PLS no esta aso iada on una úni a fre uen ia omo si fuera el aso donde
tratáramos de es oger fre uen ias optimas para prede ir ada respuesta. En lugar, la predi ión PLS es
una fun ión de todos los fa tores entrantes en este aso, las predi iones PLS pueden ser interpretadas
omo ontrastes entre bandas extensas de fre uen ias.

Metodología de trabajo
1. Lista de omponentes prin ipales on la propiedad de ortogonalidad extraídas por valida ión ru-
zada, que expliquen más del 70 % de la variabilidad total.

XIX Simposio de Estadísti a (2009)


Mínimos Cuadrados Par iales PLS 5

2. Matriz de orrela iones de las omponentes prin ipales para observar el grado de aso ia ión elimi-
nando problemas de multi olinealidad de las variables predi toras que pueden ausar severos errores
de predi ión.

3. Se determina la taza de error de lasi a ión por valida ión ruzada de ada uno de los lasi ado-
res por ejemplo el análisis dis riminante lineal. Existen otros lasi adores tales omo: Regresión
logísti a nominal (NLR), Regresión logísti a ordinal (OLR), Regresión logísti a (LR), aso multi-
variado. La obten ión de las mejores tasas de error por valida ión ruzada para ada onjunto de
datos depende de la metodología on que se generó las omponentes PLS y del lasi ador utilizado.

4. Se presenta el grá o de las dos y tres primeras omponentes PLS de ada uno de los onjuntos
de datos . Estas omponentes fueron generadas on ada una de las metodologías presentadas.
Los grá os de los datos tendrán que lograr una buena separabilidad de grupos on dos o tres
omponentes, la mejor separabilidad se logra por ejemplo on omponentes a partir del algritmo
MLRPLS.

5. Con la sele ión de las omponentes PLS, se plantea la regresión lineal múltiple para ada ompo-
nente ( ombina ión lineal de los datos originales) y los modelos ajustados que obtengan predi ión
que presenten un mejor R-ajustado serán los elegidos para prede ir mejores respuestas ne esarias
en los pro esos i investigativos.

6. En la parte omputa ional se utiliza la fun ión pr omp de el paquete R. y los módulos de pro-
grama ión del SAS, para desarrollar los algoritmos, para valida ión ruzada; una vez denidas las
omponentes prin ipales se utilizan los módulos de XLStat para PLS, Minitab y otro paquetes de
la preferen ia del investigador, para onstruir los modelos de regresión estimados para predi ión
que es el objetivo del trabajo.

1. Con lusiones
1. Las omponentes PLS presentadas son ortogonales entre sí. Esta ara terísti a es fundamental para
redu ir la dimensionalidad del espa io de predi toras y ser apli ados en la te nología de alimentos.

2. Las omponentes PLS generados a partir de las metodologías presentadas, son ombina iones li-
neales de las variables predi toras, así omo lo son las omponentes prin ipales y obtienen sus
pondera iones a partir de las variables predi toras y del ve tor de respuestas; mientras que las
omponentes prin ipales lo ha en sólo a partir de las variables predi toras.

Referen ias
Al iaturi, C. E., Es obar, M. E., De La Cruz, C. & Rin ón, C. (1998), `Predi ión de propiedades de
arbones minerales por espe tros opia infrarroja y regresión de omponentes prin ipales', Memorias
de las 10mas Jornadas Cientí o Té ni as de Ingeniería 2, QUI 40 QUI 45.
Al iaturi, C. E., Es obar, M. E. & Vallejo, R. (1996), `Predi tion of oal properties by derivative drift
spe tros opy', Fuel 34(4), 491499.

de Jong, S., Wise, B. & Ri ker, N. (2001), `Canoni al partial least squares and ontinuum power regres-
sion', J. Chemometri s 15(2), 85100.

Draper, N. & Smith, H. (1981), Applied Regression Analysis, Wiley, New York.

Eri kson, C. L., Lysaght, M. J. & Callis, J. B. (1992), `Relationship between digital ltering and multi-
variate regression in quantitative analysis', Anal. Chem. 64(24), 1155A1163A.

XIX Simposio de Estadísti a (2009)


6 Nelson Rodríguez & Guillermo Salaman a Grosso

Geladi, P. & Kowalski, B. R. (1986a), `An example of 2-blo k predi tive partial-least squares regression
with simulated data', Anal. Chim. A ta 185, 117.
Geladi, P. & Kowalski, B. R. (1986b), `Partial least squares regression: A tutorial', Anal. Chim. A ta
185, 1932.
Helland, I. S. (2001), `Some theoreti al aspe ts of partial least square regression', Chemom. Intell. Lab.
Syst. 58(2), 97107.
Mardia, K. V. (1979), Multivariable Analysis, A ademi Press, New York.
Martens, H. (2001), `Re ursive pls algorithms for adaptive data modeling', Chemom. Intell. Lab. Syst.
58, 8595.
Qin, S. J. (1998), `Relationship between digital ltering and multivariate regression in quantitative analy-
sis', Computers Chem. Eng. 22(4-5), 503514.
Wold, S. (2001), `Personal memories of the early pls development', Anal. Chim. A ta 2, 8384.
Wold, S., Ruke, A., Wold, H. & Dunn III, W. (1984), `The ollinearity problem in linear regression,
the partial least squares (pls) approa h to generalized inverses', SIAM Journal of S ienti and
Statisti al Computation 5(3), 735743.
Wold, S., Trygg, J., Berglund, A. & Antti, H. (2001), `Rsome re ent developments in pls modeling',
Chemom. Intell. Lab. Syst. 58(2), 131150.

XIX Simposio de Estadísti a (2009)

Potrebbero piacerti anche