Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
(1)
Donde
( ) ( ) , , x f y L es la discrepancia entre las respuestas medida y y la
respuesta
( ) , x f proporcionada por la mquina de aprendizaje, la meta sera
encontrar la funcin
( )
o
x f ,
que minimice el riesgo funcional
( ) R en la
situacin en donde la nica informacin disponible es el conjunto de
entrenamiento.
Para el caso de reconocimiento de patrones de dos clases, la tarea del
aprendizaje a partir de ejemplos puede ser formulada de la siguiente forma: Se
da un conjunto de funciones
{ } { } 1 , 1 : , :: +
n
f f
, y un conjunto de
ejemplos, es decir pares de patrones x
i
y etiquetas y
i
, (x
i
,y
i
), ...., (xl, yl), R
n
f
que proporciona el valor ms
pequeo posible del error promedio comprometido en los ejemplos
independientes tomados aleatoriamente de la misma distribucin , P, conocido
como el riesgo. Sin embargo, el riesgo - ( ) R - es desconocido , ya que P(x,y)
es desconocida; por lo tanto, se necesita un principio de induccin para la
minimizacin del riesgo. Uno de tales principios es llamado el principio
inductivo de la Minimizacin del Riesgo Emprico(ERM). Sin embargo, esta
aproximacin directa, que es minimizar el riesgo emprico:
( ) ( )
i i
l
i
emp
y x f
l
R
1
2
1 1
(2)
no garantiza un riesgo real pequeo si el nmero l de ejemplos de
entrenamiento es limitada. En otras palabras, un error ms pequeo sobre el
conjunto de entrenamiento, no necesariamente implica una habilidad de
generalizacin mayor( es decir un error ms pequeo sobre el conjunto
independiente de prueba). Para hacer lo mximo con una cantidad limitada de
datos, una novedosa tcnica estadstica llamada Minimizacin del Riesgo
Estructural ha sido desarrollada(Vapnik, 1995,1998). La teora de la
convergencia uniforme en probabilidad, desarrollada por Vapnik y
Chervonenkis(VC), provee cotas sobre la desviacin del riesgo emprico con
respecto al riesgo esperado. Esta teora muestra que es crucial restringir la
clase de funciones que la mquina de aprendizaje puede implementar a una
clase con una capacidad que resulte conveniente para la cantidad de datos de
entrenamiento disponibles.
Para y l > h, una cota VC, la cual se verifica con probabilidad
l
, tiene
la siguiente forma (Vapnik, 1995, 1998):
( ) ( )
l
h
l
h
R R
emp
,
_
,
_
+
+
4
log 1
2
log
(3)
El parmetro h es llamado la dimensin-VC( Vapnik-Chervonenkis) de un
conjunto de funciones y ella describe la capacidad de un conjunto de funciones
para representar el conjunto de datos. La dimensin VC es una medida de la
complejidad del clasificador y ella es a menudo proporcional al nmero de
parmetros libre en el clasificador
f
. Especialmente cuando
h
l
es pequeo,
un riesgo emprico pequeo no garantiza un valor pequeo en el riesgo real o
estructural. En este caso, con el fin de minimizar el riesgo real R( ), se debe
minimizar el lado derecho de la desigualdad en la ecuacin (3)
simultneamente sobre ambos trminos. Para hacer esto, se hace de la
dimensin VC una variable controlante. Por lo tanto, el principio general, el
cual se denomina principio inductivo de minimizacin del riesgo
estructural(SRM), fue motivado para minimizar el riesgo funcional, con
respecto a ambos trminos: el riesgo emprico y el intervalo de confianza.
(Vapnik y Chevonenkis, 1974). El trmino de confianza VC en la ecuacin (3)
depende de la clase de funciones elegidas, mientras que el riesgo emprico
depende de la funcin particular elegida por el proceso de entrenamiento. El
objetivo aqu es encontrar ese subconjunto del conjunto de funciones elegidas,
tal que la cota del riesgo para ese subconjunto sea mnima. Esto se hace
introduciendo una estructura que divida la clase completa de funciones en
subconjuntos anidados(Ver figura 1). SRM consiste en hallar ese subconjunto
de funciones que minimiza la cota sobre el riesgo real. Esto se hace
simplemente entrenando una serie de mquinas, una para cada subconjunto,
donde para un subconjunto dado, la meta de entrenamiento es simplemente
minimizar el riesgo emprico. Luego se toma la mquina para la cual la suma
del riesgo emprico y la confianza de VC sea mnima(Burges, 1998)
Figura 1: La cota del riesgo real es igual a la suma del riesgo emprico y el intervalo de
confianza.
3.2.2 MQUINAS DE SOPORTE VECTORIAL
Cristianini y Shawe-Taylor (Cristianini & Shawe-Taylor, 2000), definen a las
mquinas de soporte vectorial (MSV) como un sistema de aprendizaje que usa
un espacio de hiptesis de funciones lineales en una espacio de
caractersticas alto-dimensional, entrenado con un algoritmos de aprendizaje
tomado de la teora de la optimizacin que implementa un sesgo de
aprendizaje derivado de la teora del aprendizaje estadstico.
El fundamento del tema de las mquinas de soporte(SVM) ha sido
desarrollado principalmente por Vapnik y sus colaboradores(Vapnik 1995 &
1998) y los correspondientes mtodos SV estn ganado popularidad debido a
sus muchas caractersticas atractivas y el promisorio desempeo emprico. Su
formulacin incorpora el principio de Minimizacin del Riesgo
Estructural(SRM), el cual se ha demostrado que es superior al ms tradicional
principio de minimizacin del riesgo emprico(ERM) empleado por muchas
tcnicas de modelacin (Osuna, et al, 1997, Gunn, 1998). Esta es la diferencia
que proporciona a las SVM una habilidad mayor para generalizar, la cual es la
meta en aprendizaje estadstico.
3.2.2.1 CLASIFICACIN POR VECTORES DE SOPORTE
Considere el problema de separar el conjunto de vectores de entrenamiento
(x
1
, y
1
),...,(xl, yl), R
n
que pertenecen a dos clases separadas (yi={1,-1}). En
este problema la meta es separar los vectores de entrenamiento en dos clases
mediante un hiperplano.
( ) R b y R w b x w
n
+ , 0 (4)
Donde w y b son parmetros que se inducen a partir de los ejemplos
disponibles correspondientes a la funcin de decisin f(x)=sign(wx+b) tal que
ella se desempea bien sobre ejemplos no vistos, es decir que generaliza
bien.
Para el caso del espacio de entrada bidimensional como se muestra en la
figura (2), hay muchos posibles clasificadores lineales que pueden separar los
datos; pero hay slo uno que maximiza el margen( es decir, maximiza la
distancia entre el y el dato ms cercado de cada clase). Este clasificador lineal
es llamado el hiperplano de separacin ptima. Se ha demostrado, adems
que el hiperplano ptimo, definido como el que tiene el margen mximo de
separacin entre las dos clases, tiene la capacidad ms baja y minimiza la cota
sobre el riesgo real(Vapnik, 1979).
Figura 2: Hiperplano de separacin ptima para el caso bidimensional
El hiperplano (wx)+b=0 satisface las condiciones:
( ) 1 0 > +
i i
y si b x w
y
( ) 1 0 < +
i i
y si b x w
(5)
Combinando las dos expresiones en la ecuacin (5) y escalando w y b, con un
factor apropiado, una superficie de decisin equivalente se puede formular
como aquella que satisfaga la restriccin:
( ) [ ] l i b x w y
i i
,..., 2 , 1 , 1 +
Se puede demostrar que el hiperplano que separa ptimamente los datos en
dos clases es aquel que minimiza el funcional:
( )
2
2
w
w
(7)
Por lo tanto, el problema de optimizacin puede ser reformulado como un
problema de optimizacin no restringida, usando multiplicadores de Langrange
y su solucin estara dada por la identificacin de los puntos de silla del
funcional de Lagrange(Minoux, 1986), como sigue:
( ) ( ) [ ] { } 1
2
, ,
1
2
+
i i
l
i
i
y b x w
w
b w L (8)
Donde
i
l
i
i i
y
b
L
l
i
i i i
l
i
i i i
x y w x y w
w
L
1 1
0 0
Poniendo las expresin para w
o
en la ecuacin (8) resultar en la siguiente
forma dual de la funcin, que debe ser maximizada con respecto a las
restricciones
0
i
( ) ( )
j i j i
l
i
l
j
j i
l
i
i
x x y y W
1 1 1
2
1
( ) ( )
j i j i
l
i
l
j
j i
l
i
i
x x y y W
1 1 1
2
1
(9)
Encontrar la solucin de la ecuacin (9) para problemas el mundo real
usualmente requerir la aplicacin de tcnicas de optimizacin de
programacin cuadrtica(QP) y mtodos numricos. Una vez se halla la
solucin en la forma de un vector ( )
0 0
2
0
1
0
,..., ,
l
, el hiperplano de
separacin ptimo estar dado por:
soporte de vectores
i i i
x y w
0
0
y [ ]
s r
x x w b +
0 0
2
1
Donde x
r
y x
s
son cualesquiera vectores de soporte uno de cada clase. Los
clasificadores pueden ser, entonces construidos como:
( ) ( ) ( )
,
_
+ +
0
0
0 0
b x x y sign b x w sign x f
soporte de vectores
i i i
(10)
Solamente los puntos x
i
, que tienen multiplicadores de Lagrange
0
i
diferentes de cero son llamados Vectores de Soporte(SVs). Si los datos son
linealmente separables, todos los vectores de soporte estarn sobre el margen
y por lo tanto, el nmero de SV puede ser muy pequeo.
La solucin anterior slo se verifica para datos separables linealmente, y
todava debe ser ligeramente modificada para datos no separables linealmente
introduciendo un nuevo conjunto de variables
{ }
i
+
i
C
w
w
2
2
(11)
Sujeto a
( ) [ ]
i i i
b x w y + 1
, y
0
i
i=1,...,l
Donde C es un parmetro elegido a priori y que define el costo de la violacin
de la restriccin. El primer trmino en la ecuacin (11) proporciona una
minimizacin de la dimensin VC de la mquina de aprendizaje, minimizando
por lo tanto, el segundo trmino en la cota de la ecuacin (3). De otra parte, la
minimizacin en el segundo trmino de la ecuacin (11) controla el riesgo
emprico, el cual es el primer trmino en la ecuacin (3). Esta aproximacin, por
lo tanto, constituye una implementacin prctica de la Minimizacin del Riesgo
Estructural sobre el conjunto de funciones dado. Con el fin de resolver este
problema, el Lagrangiano se construye como sigue:
( ) ( ) [ ] { }
+ +
,
_
+
l
i
i i i i
l
i
i
l
i
i
y b x w C
w
b w L
1 1 1
2
1
2
, , (12)
Donde
i
y
i
,
_
+
0
0
b x x K y sign x f
soporte de vectores
i i i
(14)
Consecuentemente, todo lo que se ha derivado para el caso lineal es tambin
aplicable para un caso no lineal usando un kernel conveniente K en vez del
producto punto. Adems, usando diferentes funciones kernel, el algoritmo de
SV puede construir una variedad de mquinas de aprendizaje(ver figura 3),
algunas de las cuales parecen ser similares a arquitecturas clsicas.
Funciones de base radial, funciones polinomiales y ciertas funciones
sigmoideas son entre otras que proporcionan kernels aceptables y los
correspondientes mapeos son descritos como sigue:
El kernel simple polinomial: ( ) ( )
d
i i
x x x x K 1 ) , ( + , donde el
grado del polinomio d, es definido por el usuario.
Kernel de Funciones de Base Radial: ( )
2
,
i
x x
i
e x x K
, donde
l
i
i i emp
x f y
l
b w R
1
,
1
,
(15)
Con la funcin de prdida ms general con -zonas insensibles descrita como:
( )
( )
( )
;
'
forma otra de x f y
x f y si
x f y
,
,
;
(16)
El objetivo ahora es encontrar una funcin f(x, ), que tenga al mximo una
desviacin de con respecto a la salida observada y
i
para todos los datos de
entrenamiento, y al mismo tiempo es tan simple como sea posible. Esto es
equivalente a minimizar el funcional:
( ) ( )
+ +
i i
C
w
w
*
2
*
2
, ,
(17)
Donde C es un valor preespecificado y ,
*
son variables comodines que
representan las restricciones superiores e inferiores sobre las salidas del
sistema(ver figura 4). Como sigue:
( ) ( ) l i b x w y
i i
, , 2 , 1 + +
( ) ( ) l i y b x w
i i
, , 2 , 1
*
+ + (18)
0
*
i
y
0
i
+ +
l
i
l
i
i i i i i i i i
l
i
i i i
l
i
i i
b x w y b x w y C
w
L
1 1
* * * *
1 1
*
2
2
(19)
Se sigue a partir de los puntos de la condicin de puntos de silla que las
derivadas parciales de L con respecto a las variables primarias (w,b,
i
,
i
*)
tienen que desvanecerse en la optimalidad. Substituyendo los resultados de
esta derivacin en la ecuacin (17) se obtiene el problema de optimizacin
dual:
( ) ( ) ( ) ( )( )( )
j i j j
l
i
l
j
i i
l
i
i i i
l
i
i i
x x y W + + +
*
1 1
*
1
*
1
* *
2
1
,
(20)
Que tiene que ser maximizada sujeta a las restricciones:
i i
*
; C
i
*
0 y
C
i
0
para i=1,2,...,l
Una vez los coeficientes
*
i
y
i
*
(21)
Donde
[ ]
,
_
+
s r o o
x x w b
2
1
(22)
De nuevo, cuando la regresin lineal no sea apropiada, como en el caso de la
mayora de aplicaciones en ingeniera, un kernel de mapeo no lineal K se usa
para mapear los datos en un espacio de caractersticas de dimensin mayor
en donde se puede realizar la regresin lineal. Una vez se obtienen los valores
ptimos de
0
i
y
* 0
i
, entonces la funcin de regresin est dada por:
( )
0 0
b x w x f +
(23)
En donde
( ) ( ) x x K x w
i
soporte de vectores
i i
,
0 * 0
0
y
( ) ( ) ( ) [ ]
+
soporte de vectores
i s i r i i
x x K x x K b , ,
2
1
0 * 0
0
Babovic, V. and Keijzer, M. 2000 Genetic programming as a model induction
engine. Journal of Hydroinformatics. 2 (1), 35-60.
Burges, C.J.C., 1998, A Tutorial on Support Vector Machines for Pattern
Recognition, Data Mining and Knowledge Discovery, 2 (2), 121-167.
Dibike, Y. B. 2000 Machine Learning Paradigms for Rainfall-Runoff
Modelling, en The Proc. of the 3rd International Conference on
Hydroinformatics, Iowa City, USA.
Dibike, Y., Solomatine D. et al. 2001. Model Induction with Support Vector
Machines: Introduction and Applications. En ASCE Journal of Computing in
Civil Engineering, July 2001, vol. 15, No. 3, pp. 208-216
Gunn, S. 1998 Support Vector Machines for Classification and Regression.
ISIS Technica Report.
Jan A.K. and Dubes R.C. 1988 Algorithms for Clustering Data. Prentice Hall,
USA.
Koza, J.R., 1992 Genetic Programing: on the programming of computers by
natural selection, MIT, Cambridge, MA.
Mattera D. and Haykin S. 1999 Support vector machines for dynamic
reconstruction of a chaotic system. In Scholkopf et al, editors, Advances in
Kernel Methods Support Vector Learning, Cambridge, MA, MIT Press,
211-242..
Minoux, M. 1986 Mathematical Programing: Theory and Algorithms. John
Wiley and Sons.
Mukherjee, S. Osuna, E. and Girosi, F. 1997 Nonlinear prediction of chaotic
time series using support vector machine. In proceedings of the IEEE
Workshop on Neural Networks for Signal Processing 7, Amerlia Island, FL,
511-519.
Muller, K.R., Smola, A. Ratsch, G., Scholkopf, B., Kohlmorgen, J. and
Vapnik, V. 1997 Predicting time series with support vector machines. In
proceedings, International Conference on Artificial Neural Networks,
Springer Lecture Notes in Computer Science, page 999.
Norgaard, M., Ravn, O., Poulsen, N.K., and Hansen L.K. 2000, Neural
Networks for Modelling and Control of Dynamic Systems, Springer, London.
Norgaaad Lars. 2002. Journal of Chemometrics, Proceedings of the 7th
Scandinavian Symposium on Chemometrics. Volume 16, Issue 8-10 , Pages 482
489. John Wiley & Sons.2002
Osuna, E., Freund, R. and Girosi, F. 1997 An improved training algorithm for
support vector machines. In Proc. of the IEEE Workshop on Neural
Networks for Signal Processing VII, New York, 276-285.
Quinlan, J. R. 1986 Induction of decision trees. Machine Learning. 81-106.
Quinlan, J. R. 1992 C4.5: program for machine learning. Morgan Kaufmann.
Schalkoff, R.J. 1997 Artificial Neural Networks, McGraw-Hill, New York.
Scholkopf, B. 1997 Support Vector Learning, R. Oldenbourg, Munich.
Smola, A. 1996 Regression Estimation with Support Vector Learning
Machines, Technische Universitat Munchen.
Solomatine D.P. and Torres L.A. 1996 Neural network approximation of a
hydrodynamic model
in optimizing reservoir operation - Proc. 2nd Intern. Conference on
Hydroinformatics, Zurich, September 9-13, 201-206. TR-20 project
formulation hydrology 1965, USDA Soil Conservation Service (SCS), Central
Technical Service, Portland USA.
Tsoukalas, L.H. and Uhrig, R.E. 1997 Fuzzy and Neural Approaches in
Engineering. John Wiley and Sons, N.Y., 587.
Vapnik, V. 1995 The Nature of Statistical Learning Theory, Springer, New
York.
Vapnik, V. 1998 Statistical Learning Theory, Wiley, New York.
Vapnik, V., & Chervonenkis 1974 Theory of Pattern Recognition [in
Russian], Nauka, Moscow.
Watkins, C.J.C.H. and Dayan, P. 1992, Q-learning. Machine learning, 8, 279-
292.
Wilson, G. 1996 Reinforcement learning: A new technique for the real-time
optimal control of hydraulic networks. Proc. 2nd Int. Conference on
Hydroinformatics, Zurich, 9-13. September, 2, 893-900.
(Joel A. & Lim H., 2004) Amrit L. Goel & Hojung Lim. 2004. Support Vector
Machines and Their Applications in Systems Engineering, publicado en
Tutorial at the 8
th
IEEE International Symposium on High Assurance
Systems Engineering (HASE 2004) March 25 26, 2004, Tampa, Florida
Hurtado J. E., Henao R., Castellanos G. 2002. Clasificacin de Seales
Ssmicas por Medio de Onditas y Mquinas de Soporte Vectorial. Primer
Simposio Colombiano de Sismologa. INGEOMINAS. 2002
Carvajal J. L. & Branco J. W. 2005. Comparacin de Modelos de
Clasificacin Automtica de Patrones Texturales de Minerales Presentes en
los Carbones Colombianos. Dyna, Ao 72, Nro. 146, pp. 115-124. Medelln,
Julio de 2005. ISSN 0012-7353