Maquinas de Soporte Vectorial

FUNDACIN UNIVERSITARIA KONRAD LORENZ
FACULTAD DE MATEMTICAS E INGENIERAS

INGENIERA DE SISTEMAS
MQUINAS DE SOPORTE VECTORIAL
Por: Pervys Rengifo Rengifo
Leonardo Jimnez
El creciente desarrollo de la sociedad humana y las necesidades cada vez ms
imperiosas de optimizar los sistemas de diferente tipo, con el fin de satisfacer la
creciente demanda de bienes y servicios, ha desafiado a profesionales y
cientficos relacionados con todas las ramas del saber, para hallar
procedimiento operativos, que permitan resolver con xito los problemas
relacionados con la gestin y la preservacin de los recursos disponibles bajo
los principios de sostenibilidad ambiental y social. Estos retos, en general, no
pueden ser atacados con las tcnicas de modelacin clsicas, entre otras, por
alguna(s) de las siguientes razones:
Conocimientos y habilidades que exige su aplicacin.
No aprovechan todo el conocimiento disponible en los datos histricos
registrados.
Suposiciones que se hacen en cuanto a distribuciones de probabilidad y en
cuanto a la linealidad y estacionariedad de los procesos.
La mayora requiere una gran variedad y cantidad de datos registrados con
suficiente precisin(que en muchos casos se traduce en una imposibilidad
prctica)
Por otra parte, cuando de analiza el panorama actual de la sociedad moderna,
se pueden apreciar algunos hechos que pueden orientar mejores soluciones a
los problemas planteados:
Equipos de computacin con mayor capacidad y velocidad(computacin
molecular y quntica)
Los dispositivos para registrar informacin acerca de los sistemas son cada
vez ms sofisticados y eficientes, lo cual implica un incremento exponencial
en la cantidad y diversidad de informacin disponible, incluso en tiempo
real.
Complejidad creciente en los enfoques utilizados para el estudio de los
sistemas, debido a la interaccin de mltiples agentes y sistemas, la
variabilidad temporal y la no- linealidad reinante en ellos, sobre todo a
pequea escala, y el conflicto de objetivos que se persiguen. La tendencia
es hacia una visin integral (holstica) de los problemas (inter-multi-
transdisciplinariedad).
Creciente inters y necesidad en todas las disciplinas y profesiones de la
aplicacin de tcnicas de Minera de datos, Aprendizaje de mquinas,
Inteligencia Computacional, Computacin Suave, Sistemas Basados en el
conocimiento. Resultado: Integracin de los modelos computacionales
convencionales, modelos conducidos por datos (data driven models),
modelos, datos y procedimientos de inters tradicional de otras disciplinas y
ciencias, tecnologas de la informacin y de las comunicaciones (TIC).
Hibridacin de los enfoques: Hidroinformtica, ecohidrologa,
ecohidroinformtica, ecohidrulica, sistemas expertos neurodifuso
genticos.
Lo anterior, evidencia una clara tendencia a universalizar las tcnicas y
procedimientos que permitan abordar la complejidad de los sistemas y faciliten
la obtencin de resultados operativos tiles para resolver los problemas que se
presentan en la vida real. En este orden de ideas, y teniendo en cuenta que las
tcnicas de modelacin convencionales, slo funcionan adecuadamente para
problemas de complejidad muy restringida, las ingenieras y dems
profesiones relacionadas con la tecnologa, han renunciado, en algunos casos,
a la comprensin de los procesos en aras de obtener resultados prcticos
requeridos en el corto plazo, acogiendo diversas tcnicas de lo que se conoce
como computacin suave(softcomputing), en la cual se hace una renuncia
explcita al resultado preciso y exacto por otro que, a pesar de no ser tan
exacto y preciso, si es suficiente para alcanzar una solucin satisfactoria para
problemas de gran complejidad. Muchos de estos mtodos son catalogados
como cajas negras, debido a que, en general, cuando ellos se usan, no se est
interesado en conocer la estructura interna de los procesos que se modelan.
Esta idea tiene mucha similitud al proceso de toma de decisiones del ser
humano, en el cual las decisiones que se producen casi nunca son ptimas,
entre otras razones, debido a la incertidumbre y la difusividad de la informacin
que recibe y a las limitaciones de procesamiento y de tiempo.
Como se puede sospechar, el panorama actual ofrece una oportunidad nica
para la aplicacin y la integracin transversal de tcnicas de inteligencia
artificial en diferentes disciplinas y campos de investigacin. Esto ha dado
origen a una creciente formacin de profesionales de diferentes reas en
temticas relacionadas con la inteligencia computacional, que antes estaban
relegadas a los ingenieros informticos. Entre estas temticas se destacan las
Redes Neuronales Artificiales(ANN), los rboles de Decisin(AD), Mquinas de
Soporte Vectorial(MSV) y la Programacin Gentica(PG), que junto con
diferentes mtodos de bsqueda heurstica y meta heurstica como:
Quimiotaxis, Bsqueda Tab, Simulated Annealing(SA), Algoritmos genticos( y
otros relacionados como los algoritmos culturales y los algoritmos
inmunolgicos), GRASP, Ant Colony Optimization(ACO), Particle Swarm
Optimization(PSO) y con otras tcnicas estadsticas y de teora de sistemas de
control tradicionales, han conformado un paquete de herramientas tericas y
operativas. Estas tcnicas, relacionadas con el aprendizaje de mquina y la
minera de datos, se han convertido en herramientas indispensables para
resolver muchos problemas, que debido a su gran complejidad, antes era
imposible resolver en tiempos razonables.
Sin embargo, a pesar del xito relativo en aplicaciones prcticas en muchos
campos de las ciencias y la ingeniera, estas tcnicas han sido fuertemente
criticadas, ya que, la mayora de ellas, slo proveen resultados operativos y no
obtienen explcitamente la funcin que transforma las entradas en salidas, es
decir la funcin de transformacin que representa al sistema. No obstante, es
innegable que son un camino efectivo y eficiente para modelar los fenmenos
en situaciones en donde el conocimiento explcito de los subprocesos internos
no se requiere, como es el caso de muchas situaciones prcticas en ingeniera.
Como se puede suponer de la discusin anterior, la disponibilidad de sistemas
de aprendizaje confiables es de importancia estratgica, ya que hay muchas
tareas que no pueden ser resueltas por tcnicas de programacin clsica,
debido a que no existen modelos matemtico disponibles para los problemas
que implican. As por ejemplo, no se sabe como escribir un programa de
computador para realizar reconocimiento de caracteres escritos, a pesar de
que hay una gran cantidad de ejemplos disponibles. De esta forma, es natural
preguntarse, si un computador puede ser entrenado para reconocer la letra A
a partir de ejemplos, despus de todo, es la manera como los humanos
aprenden a leer.
Dada la creciente cantidad de datos para anlisis y la variedad y complejidad
de los problemas de anlisis de datos que son encontrados en los negocios, en
la industria, e investigaciones, resulta imprctico demandar la mejor solucin
todo el tiempo(es mejor una buena solucin en tiempo razonable que la mejor
solucin en un tiempo inaceptable). El sueo ltimo, es por supuesto tener
disponible algn agente inteligente que pueda preprocesar sus datos, aplicar
las tcnicas matemticas, estadsticas y de inteligencia artificial apropiadas y
luego proveer una solucin y una explicacin. El propsito de la minera de
datos, en este sentido, es usar las herramientas disponibles para analizar datos
y proporcionar soluciones parciales a un problema de negocios. En este
contexto muchos problema de ingeniera y dems ciencias aplicadas, pueden
asociarse con problemas de clasificacin y regresin. Estos problemas, como
puede suponerse, no son triviales y han demandado un gran esfuerzo, tanto
cientfico como tecnolgico.
Aunque existen muchas tcnicas alternativas para enfrentar problemas de
regresin y clasificacin, las mquinas de soporte vectorial han sido
desarrolladas como una herramienta robusta para regresin y clasificacin en
dominios complejos y ruidosos. Las MSV pueden ser usadas para extraer
informacin relevante a partir de conjunto de datos y construir algoritmos de
clasificacin o de regresin rpidos para datos masivos. Las MSV, aplicadas al
problema de clasificacin, mapean los datos a un espacio de caractersticas
alto-dimensional, donde se puede hallar ms fcilmente un hiperplano de
separacin. Este mapeo puede ser llevado a cabo aplicando el kernel, el cual
transforma implcitamente el espacio de entrada en un espacio de
caractersticas de alta dimensin. El hiperplano de separacin es calculado
maximizando la distancia de los patrones ms cercanos, es decir la
maximizacin del margen. Las MSV pueden ser definidas como un sistema
para el entrenamiento eficiente de mquinas de aprendizaje lineal en una
espacio de caractersticas inducido por un kernel, mientras respeta los
principios de la teora de la generalizacin y explota la teora de la
optimizacin(Crisitianini&Shave-Taylor, 2000)
Las dos caractersticas claves de las mquinas de soporte vectorial son:
La teora de generalizacin, la cual conduce a una eleccin de hiptesis
basada en principios tericos; y
Un kernel de funciones, que introduce no linealidades en el espacio de
hiptesis sin requerir explcitamente algoritmos no lineales.
Las Mquinas de Soporte Vectorial (MSV) han sido aplicadas con xitos en
muchos problemas de la vida real y en diversas reas: reconocimiento de
patrones, Regresin, Multimedia, Bioinformtica, Inteligencia artificial, etc.
Muchas tcnicas como rboles de decisin, redes neuronales, algoritmos
genticos, etc., han sido usadas en esas reas; sin embargo, lo que distingue a
las MSV es su slida fundamentacin matemtica la cual est basada es la
teora del aprendizaje estadstico. Adems, ms que la minimizacin del error
de entrenamiento (riesgo emprico, como es el caso de las redes neuronales),
la MSV minimizan el riesgo estructural que expresa una cota superior del error
de generalizacin, es decir la probabilidad de una clasificacin errnea sobre
ejemplos no vistos todava. Esto hace particularmente conveniente a las MSV
en muchas aplicaciones con datos dispersos, ya que ese nfasis especial de
las MSV sobre la habilidad de generalizacin hace de esta aproximacin
particularmente interesante para aplicaciones del mundo real con limitada
cantidad de datos de entrenamiento

Estudiar las mquinas de soporte vectorial es til en dos aspectos:
Es completamente satisfactoria desde el punto de vista terico: Las SVM
estn basadas en unas ideas hermosamente simples y proporciona una
clara intuicin de que el aprendizaje a partir de ejemplo hace sentido as.
A menudo presentan excelente desempeo en aplicaciones prcticas
Para cierto tipo de algoritmos, la teora del aprendizaje estadstico puede
determinar ms precisamente los factores que deben ser tenidos en cuenta
para un aprendizaje exitoso. Las aplicaciones del mundo real, sin embargo, a
menudo demandan el uso de algoritmos y modelos ms complejos, como las
redes neuronales, que son muy difciles de analizar tericamente. El algoritmo
de SVM logra las dos. Construye modelos que son lo suficientemente
complejos: ella contiene una gran clase de redes neuronales, redes de
funciones de base radial y clasificadores polinomiales como casos especiales.
Pero an es suficientemente simple para ser analizado matemticamente, ya
que se puede demostrar que corresponde a mtodos lineales en un espacio de
caractersticas alto-dimensional relacionado no linealmente con el espacio de
entrada. Adems aunque se pueden pensar como un algoritmo lineal en un
espacio alto-dimensional, en la prctica, no involucra ninguna computacin en
ese espacio alto-dimensional. Mediante el uso de kernels, todos los clculos
necesarios son realizados en el espacio de entrada. Esta es una caracterstica
peculiar del algoritmo de los mtodos SV. Se est tratando con algoritmos
complejos para reconocimiento de patrones no lineales, regresin, o extraccin
de caractersticas, pero para los propsitos del anlisis y algortmico, slo se
requiere trabajar con un simple algoritmo lineal.
Adems, los algoritmos basados en MSV, son diferentes de otros algoritmos
alternativos (tales como redes neuronales y programacin gentica) usados en
aprendizaje de mquina en muchos aspectos:
Ellos estn explcitamente basados en un modelo terico de aprendizaje
ms que sobre una analoga relajada con los sistemas de aprendizaje
natural u otras heursticas.
Ellos tienen garanta terica sobre su desempeo y tienen un diseo
modular que hace posible separar la implementacin y el anlisis de sus
componentes.
Ellos, adems, no son afectados por el problema de los mnimos locales,
debido a que su entrenamiento se basa en problemas de optimizacin
convexa.
Por otra parte, en la ltima dcada, una considerable comunidad de tericos e
ingenieros se ha formado alrededor de estos mtodos, y se han realizado
numerosas aplicaciones prcticas. Aunque la investigacin sobre las MSV no
ha concluido, ya son muchos los mtodos basados en ellas que aparecen en
el estado del arte de diversas tareas de aprendizaje de mquina. Su fcil uso,
su atractivo terico, y su notable desempeo han hecho de ellas una buena
eleccin para muchos problemas de aprendizaje computacional. Las
aplicaciones exitosas varan desde la categorizacin de textos y
reconocimiento de caracteres escritos hasta la clasificacin de datos de
expresiones de genes. En muchos aspectos, los ltimos aos han sido testigos
del surgimiento de un nuevo paradigma para el aprendizaje de mquina,
comparable a lo ocurrido en los aos 80s cuando la casi simultnea
introduccin de los algoritmos de rboles de decisin y de redes neuronales
revolucion la prctica en reconocimiento de patrones y minera de datos. En
unos pocos aos, una nueva comunidad se ha agrupado, involucrando miles de
investigadores e ingenieros, congresos y seminarios anuales, sitios web, y
libros. El tema de su investigacin: Las mquinas de soporte vectorial (MSV) y
otros mtodos basados en kernels (Norgaard L., 2002). Esto indica que las
MSV han evolucionado desde un concepto puramente acadmico soportado en
la teora del aprendizaje estadstico hasta convertirse en una tcnica popular
del aprendizaje de mquinas (Joel A. & Lim H., 2004).
En Colombia, la insercin real en esta tendencia es todava incipiente, pero ya
est tomando un fuerte impulso, aunque todava existe un desconocimiento
general sobre esta nueva concepcin de los modelos, por parte de los
investigadores y consultores. El campo especfico de las MSV se pudieron
identificar algunos autores tales como: Hurtado J. E, et al 2002 y Carvajal J. L.
& Branco J. W. 2005. Las causas posibles de esto, podran ser falta de
fomento e ilustracin de los procedimientos bsicos, falta de evidencia terica y
prctica de la efectividad operacional de ellas o falta de herramientas
conceptuales y computacionales.
La Facultad de ingeniera de la FUKL, tiene el firme propsito investigativo de
convertirse, en el largo plazo en protagonista en investigacin a nivel nacional,
por lo tanto las MSV, constituyen una oportunidad muy especial para continuar
en este proceso, debido a su gran potencial en aplicaciones reales, lo que dara
especial impacto a sus resultados dada la pertinencia del problema que se
ataca y el panorama actual no slo nacional, sino mundialmente.

En concordancia con todo lo expuesto anteriormente se propone:
Constituir un marco conceptual, que permita establecer claramente los
procedimientos involucrados en las aplicaciones ms comunes, de las
Mquinas de Soporte Vectorial en problemas de clasificacin y de
regresin.
Identificar problemas, que al resolverlos con Mquinas de Soporte
Vectorial, permitan ilustrar tanto los conceptos y procedimientos
fundamentales sugeridos en el marco conceptual, como la potencia de
esta tcnica en casos reales.
Disear e implementar un aplicativo que facilite el uso de las Mquinas
de Soporte Vectorial a problemas de regresin y clasificacin, que
incentive la aplicacin de esta tcnica a problemas de diferentes
contextos y disciplinas.
Con esta propuesta se busca pues, contribuir de forma efectiva a la
comprensin de los aspectos fundamentales de las Mquinas de Soporte
Vectorial, como tambin a la aplicabilidad prctica de este paradigma en la
solucin de problemas que involucren regresin o clasificacin. Esta
investigacin que se propone, que tiene el carcter de investigacin bsica,
podra generar toda una serie de investigaciones sobre aplicaciones y
potenciacin de las Maquinas de Soporte Vectorial como herramienta operativa
y de anlisis en ingeniera. Adems, si se hace una difusin adecuada dentro
del medio acadmico, en poco tiempo se podra tener investigaciones similares
dentro de otras disciplinas, que sin duda, valorarn la gran representatividad y
las impensadas posibilidades de las Maquinas de Soporte Vectorial.
Esta investigacin se constituira en una primera aproximacin a las Mquinas
de Soporte Vectorial que dara el soporte conceptual suficiente para iniciar
diferentes proyectos aplicados a casos especficos en donde se disponga de
datos histricos. En el futuro cercano podra conducir a la exploracin integral
de las diferentes formas y aplicaciones de las Mquinas de Soporte Vectorial, lo
cual podra conducir a consolidar una herramienta computacional que involucre
las diferentes tcnicas de estadstica multivariada y de inteligencia
computacional (Redes Neuronales, rboles de Decisin, Programacin
Gentica, Mtodos Bayesianos, etc.), para realizar minera de datos de forma
efectiva.
Es de anotar que la temtica que se aborda, adems de estar dentro de la
tendencia mundial en investigacin en ingeniera, y es altamente pertinente,
dado el estado actual del conocimiento y las inmensas posibilidades que
involucra en la solucin de problemas reales.
De esta forma, el problema que se propone abordar mediante esta
investigacin se puede formular as: A travs de las mquinas de soporte
vectorial se pueden construir modelos de regresin y de clasificacin de
buen desempeo en aplicaciones prcticas?
Esta pregunta est motivada en la inmensa potencialidad que muchos autores
han identificado en las Mquinas de Soporte Vectorial como paradigma de
modelacin, y la preocupacin por la actualizacin permanente que debe
caracterizar a un programa de ingeniera de sistemas y corresponde a un
convencimiento por parte de los proponentes de que esta tcnica tiene un
excelente desempeo en aplicaciones prcticas que involucran problemas de
clasificacin y/o de regresin, lo que da lugar a la hiptesis bsica con la cual
se inicia esta investigacin:
Las Mquinas de soporte vectorial son apropiadas para resolver
exitosamente problemas reales de regresin y clasificacin
La cual se soporta en las evidencias tericas y empricas reportadas por
investigadores de todo el mundo.
Con este proyecto y el anterior en esta lnea (Herramientas Conceptuales y
computacionales para la Aplicacin de Programacin Gentica en Regresin
Simblica) se empieza a consolidar un paquete de opciones en minera de
datos que permitiran en un futuro prximo hacer comparaciones entre las
diferentes tcnicas y paradigmas a la luz de aplicaciones prcticas especficas.
3.2 MARCO TERICO Y ESTADO DEL ARTE:
(Adaptado de Dibike Y., Solomatine D. et al, 2001)
El rpido avance el los sistemas de procesamiento de informacin en las
dcadas recientes, ha dirigido la investigacin en ingeniera hacia el desarrollo
de sistemas inteligentes que puedan evolucionar modelos de los fenmenos
naturales automticamente. En este sentido un amplio rango de tcnicas de
aprendizaje de mquina como rboles de decisin, redes neuronales
artificiales(ANNs), Mtodos Bayesianos, sistemas basados en reglas difusas y
algoritmos evolucionarios han sido exitosamente aplicados para modelar
diferentes sistemas relacionados con la ingeniera.
Como un resultado, el problema de la modelacin de datos empricos se ha
vuelto muy importante en aplicaciones de ingeniera. En tales circunstancias
se usa un proceso de induccin para construir un modelo del sistema
particular, a partir del cual se pretende deducir respuestas del sistema para
situaciones que an no han sido observadas. El desempeo de un modelo
como tal, por lo tanto, depende de la cantidad y calidad de las observaciones
usadas durante el proceso de aprendizaje del modelo. Sin embargo, en la
mayora de los casos el conjunto de datos no es tan grande y adems ha sido
constituido a partir de un muestreo no uniforme. Adems, debido a la
naturaleza alta-dimensional de muchos problemas, los datos forman slo una
distribucin dispersa en el espacio de entrada. El problema de la induccin es
entonces considerado como un problema de hallar una dependencia plausible
usando el nmero limitado de observaciones disponibles. Las necesidades
para tratar este problema han conducido a una considerable atencin en la
literatura cientfica en el uso de tcnicas de aprendizaje de mquina para
construir(o inducir) modelos
Una de las reas ms antiguas en la estimacin de dependencias a partir de
datos, es la estadstica, tal y como se puede evidenciar por los clsicos
modelos de regresin y clasificacin multivariadas. En los 1960s y los 1970
s, surgen nuevas tcnicas para el reconocimiento de patrones y el anlisis
de cluster, las cuales no estn a menudo, basados en la suposicin de
distribuciones estadsticas de buen comportamiento de proceso aleatorio
(jane y Duber 1988). Entre estas tcnicas estn los mtodos que intentan
imitar al cerebro humano y la percepcin como las redes neuronales y el
sistema difusos (Tsoukalas y Uhrig 1997, Solomatin y Torres, 1996),
Programacin gentica (Koza, 1992; Bavovic & Keijzer, 2000), rboles de
decisin (Quinlan 1986, 19992), y el aprendizaje reforzado (Watkins y Dayan
1992, Wilson 1996). Al mismo tiempo, la extensin de los principios de
induccin estadsticamente basados continu para dar origen a nuevos
mtodos , tales como aprendizaje bayesiano (Leonhard y Hsu 1999). Otro
desarrollo en esta rea estuvo asociado la investigacin realizada en 1960-
80s en el instituto Paa el Control de Problemas de la Academia de Ciencias
Rusa(Vapnick y Lerner 1963; Vapnick y Chervonenskis 1974; Vapnick 1979).
Mas tarde esos resultados iniciales fueron extendidos y generalizados para
proporcionar el tema conocido como Teora del aprendizaje
estadstico(Vapnick 1995, 1998),el cual sirve como una base para la tcnica de
las mquinas de soporte vectorial(SVM). La teora de Vapnick est basada en
slidos principios y permite la generalizacin y el hallazgo de elementos
comunes entre varia tcnicas , incluyendo el muy popular mtodo de las redes
neuronales y los sistemas difusos.
Aunque el uso de los mtodos SV en aplicaciones ha comenzado solo
recientemente, un considerable nmero de investigadores ha reportado ya
estados del arte del su desempeo en una variedad de aplicaciones en
reconocimientos de patrones, estimacin de regresin, y la prediccin de series
de tiempo. Para mencionar unos pocos ejemplos, Osuna et al(1997) aplic
SVM a la clasificacin de imgenes digitales para deteccin de rostros
humanos, mientras que Mukherjee et al.(1997) y Muller et al(1997) usaron
SVMs prediccin de series de tiempo no lineales. Mattera y Hykin(1999)
tambin ha reportado una aplicacin til de SVMs para la reconstruccin
dinmica de un sistema catico, y Dibike et al(2001) reportan aplicaciones en
anlisis de imgenes por clasificacin de caractersticas en datos de sensores
remotos y en la modelacin de transformaciones lluvia-escorrenta en tres
cuencas diferentes.
A continuacin se har una exposicin breve de los principales conceptos y
elementos tericos y procedimentales de las mquinas de soporte
vectorial(MSV)
3.2.1 TEORA DEL APRENDIZAJE ESTADSTICO
En la teora del aprendizaje estadstico( Vapnick, 1995,1998), el problema de
aprender una relacin entrada-salida a partir de un conjunto de datos es
generalmente visto como el problema de elegir , a partir de un conjunto dado
de funciones f(x, ), ( donde x R
n
es un vector aleatorio tomado
independientemente de una funcin de distribucin de probabilidad P(x), fija
pero desconocida y es un conjunto de parmetros) la que mejor aproxime
el valor de la salida y para todos los vectores de entrada x, de acuerdo a
una funcin de distribucin condicional P(y/x), tambin fija pero desconocida.
La seleccin de la funcin deseada est basada en un conjunto de
entrenamiento de l observaciones independientes e idnticamente distribuidas
(x
1
,y
1
),..,(xl, yl) tomados de acuerdo a P(x,y) =P(x)P(y/x)
Si se considera que el valor esperado de las prdidas debido a los errores de
clasificacin o estimacin, est dado por el riesgo funcional
( ) ( ) ( ) ( ) y x dP x f y L R , , ,

(1)
Donde
( ) ( ) , , x f y L es la discrepancia entre las respuestas medida y y la
respuesta
( ) , x f proporcionada por la mquina de aprendizaje, la meta sera
encontrar la funcin
( )
o
x f ,
que minimice el riesgo funcional
( ) R en la
situacin en donde la nica informacin disponible es el conjunto de
entrenamiento.
Para el caso de reconocimiento de patrones de dos clases, la tarea del
aprendizaje a partir de ejemplos puede ser formulada de la siguiente forma: Se
da un conjunto de funciones
{ } { } 1 , 1 : , :: +
n
f f

, y un conjunto de
ejemplos, es decir pares de patrones x
i
y etiquetas y
i
, (x
i
,y
i
), ...., (xl, yl), R
n

{-1,+1}, cada uno de ellos generado a partir de una distribucin de probabilidad

desconocida P(x,y) que contiene la dependencia subyacente. Lo que se
requiere ahora es aprender la funcin
f
que proporciona el valor ms
pequeo posible del error promedio comprometido en los ejemplos
independientes tomados aleatoriamente de la misma distribucin , P, conocido
como el riesgo. Sin embargo, el riesgo - ( ) R - es desconocido , ya que P(x,y)
es desconocida; por lo tanto, se necesita un principio de induccin para la
minimizacin del riesgo. Uno de tales principios es llamado el principio
inductivo de la Minimizacin del Riesgo Emprico(ERM). Sin embargo, esta
aproximacin directa, que es minimizar el riesgo emprico:
( ) ( )
i i
l
i
emp
y x f
l
R

1
2
1 1
(2)
no garantiza un riesgo real pequeo si el nmero l de ejemplos de
entrenamiento es limitada. En otras palabras, un error ms pequeo sobre el
conjunto de entrenamiento, no necesariamente implica una habilidad de
generalizacin mayor( es decir un error ms pequeo sobre el conjunto
independiente de prueba). Para hacer lo mximo con una cantidad limitada de
datos, una novedosa tcnica estadstica llamada Minimizacin del Riesgo
Estructural ha sido desarrollada(Vapnik, 1995,1998). La teora de la
convergencia uniforme en probabilidad, desarrollada por Vapnik y
Chervonenkis(VC), provee cotas sobre la desviacin del riesgo emprico con
respecto al riesgo esperado. Esta teora muestra que es crucial restringir la
clase de funciones que la mquina de aprendizaje puede implementar a una
clase con una capacidad que resulte conveniente para la cantidad de datos de
entrenamiento disponibles.
Para y l > h, una cota VC, la cual se verifica con probabilidad
l
, tiene
la siguiente forma (Vapnik, 1995, 1998):
( ) ( )
l
h
l
h
R R
emp
,
_
,
_
+
+
4
log 1
2
log

(3)
El parmetro h es llamado la dimensin-VC( Vapnik-Chervonenkis) de un
conjunto de funciones y ella describe la capacidad de un conjunto de funciones
para representar el conjunto de datos. La dimensin VC es una medida de la
complejidad del clasificador y ella es a menudo proporcional al nmero de
parmetros libre en el clasificador
f
. Especialmente cuando
h
l
es pequeo,
un riesgo emprico pequeo no garantiza un valor pequeo en el riesgo real o
estructural. En este caso, con el fin de minimizar el riesgo real R( ), se debe
minimizar el lado derecho de la desigualdad en la ecuacin (3)
simultneamente sobre ambos trminos. Para hacer esto, se hace de la
dimensin VC una variable controlante. Por lo tanto, el principio general, el
cual se denomina principio inductivo de minimizacin del riesgo
estructural(SRM), fue motivado para minimizar el riesgo funcional, con
respecto a ambos trminos: el riesgo emprico y el intervalo de confianza.
(Vapnik y Chevonenkis, 1974). El trmino de confianza VC en la ecuacin (3)
depende de la clase de funciones elegidas, mientras que el riesgo emprico
depende de la funcin particular elegida por el proceso de entrenamiento. El
objetivo aqu es encontrar ese subconjunto del conjunto de funciones elegidas,
tal que la cota del riesgo para ese subconjunto sea mnima. Esto se hace
introduciendo una estructura que divida la clase completa de funciones en
subconjuntos anidados(Ver figura 1). SRM consiste en hallar ese subconjunto
de funciones que minimiza la cota sobre el riesgo real. Esto se hace
simplemente entrenando una serie de mquinas, una para cada subconjunto,
donde para un subconjunto dado, la meta de entrenamiento es simplemente
minimizar el riesgo emprico. Luego se toma la mquina para la cual la suma
del riesgo emprico y la confianza de VC sea mnima(Burges, 1998)
Figura 1: La cota del riesgo real es igual a la suma del riesgo emprico y el intervalo de
confianza.
3.2.2 MQUINAS DE SOPORTE VECTORIAL
Cristianini y Shawe-Taylor (Cristianini & Shawe-Taylor, 2000), definen a las
mquinas de soporte vectorial (MSV) como un sistema de aprendizaje que usa
un espacio de hiptesis de funciones lineales en una espacio de
caractersticas alto-dimensional, entrenado con un algoritmos de aprendizaje
tomado de la teora de la optimizacin que implementa un sesgo de
aprendizaje derivado de la teora del aprendizaje estadstico.
El fundamento del tema de las mquinas de soporte(SVM) ha sido
desarrollado principalmente por Vapnik y sus colaboradores(Vapnik 1995 &
1998) y los correspondientes mtodos SV estn ganado popularidad debido a
sus muchas caractersticas atractivas y el promisorio desempeo emprico. Su
formulacin incorpora el principio de Minimizacin del Riesgo
Estructural(SRM), el cual se ha demostrado que es superior al ms tradicional
principio de minimizacin del riesgo emprico(ERM) empleado por muchas
tcnicas de modelacin (Osuna, et al, 1997, Gunn, 1998). Esta es la diferencia
que proporciona a las SVM una habilidad mayor para generalizar, la cual es la
meta en aprendizaje estadstico.
3.2.2.1 CLASIFICACIN POR VECTORES DE SOPORTE
Considere el problema de separar el conjunto de vectores de entrenamiento
(x
1
, y
1
),...,(xl, yl), R
n
que pertenecen a dos clases separadas (yi={1,-1}). En
este problema la meta es separar los vectores de entrenamiento en dos clases
mediante un hiperplano.
( ) R b y R w b x w
n
+ , 0 (4)
Donde w y b son parmetros que se inducen a partir de los ejemplos
disponibles correspondientes a la funcin de decisin f(x)=sign(wx+b) tal que
ella se desempea bien sobre ejemplos no vistos, es decir que generaliza
bien.
Para el caso del espacio de entrada bidimensional como se muestra en la
figura (2), hay muchos posibles clasificadores lineales que pueden separar los
datos; pero hay slo uno que maximiza el margen( es decir, maximiza la
distancia entre el y el dato ms cercado de cada clase). Este clasificador lineal
es llamado el hiperplano de separacin ptima. Se ha demostrado, adems
que el hiperplano ptimo, definido como el que tiene el margen mximo de
separacin entre las dos clases, tiene la capacidad ms baja y minimiza la cota
sobre el riesgo real(Vapnik, 1979).
Figura 2: Hiperplano de separacin ptima para el caso bidimensional
El hiperplano (wx)+b=0 satisface las condiciones:
( ) 1 0 > +
i i
y si b x w
y
( ) 1 0 < +
i i
y si b x w
(5)
Combinando las dos expresiones en la ecuacin (5) y escalando w y b, con un
factor apropiado, una superficie de decisin equivalente se puede formular
como aquella que satisfaga la restriccin:
( ) [ ] l i b x w y
i i
,..., 2 , 1 , 1 +
Se puede demostrar que el hiperplano que separa ptimamente los datos en
dos clases es aquel que minimiza el funcional:
( )
2
2
w
w
(7)
Por lo tanto, el problema de optimizacin puede ser reformulado como un
problema de optimizacin no restringida, usando multiplicadores de Langrange
y su solucin estara dada por la identificacin de los puntos de silla del
funcional de Lagrange(Minoux, 1986), como sigue:
( ) ( ) [ ] { } 1
2
, ,
1
2
+

i i
l
i
i
y b x w
w
b w L (8)
Donde
i
son los multiplicadores de Lagrange. El Lagrangiano tiene que ser

minimizado con respecto a w y b, es decir:
0 0
1

l
i
i i
y
b
L
l
i
i i i
l
i
i i i
x y w x y w
w
L
1 1
0 0
Poniendo las expresin para w
o
en la ecuacin (8) resultar en la siguiente
forma dual de la funcin, que debe ser maximizada con respecto a las
restricciones
0
i
( ) ( )
j i j i
l
i
l
j
j i
l
i
i
x x y y W

1 1 1
2
1

( ) ( )
j i j i
l
i
l
j
j i
l
i
i
x x y y W

1 1 1
2
1

(9)
Encontrar la solucin de la ecuacin (9) para problemas el mundo real
usualmente requerir la aplicacin de tcnicas de optimizacin de
programacin cuadrtica(QP) y mtodos numricos. Una vez se halla la
solucin en la forma de un vector ( )
0 0
2
0
1
0
,..., ,
l
, el hiperplano de
separacin ptimo estar dado por:
soporte de vectores
i i i
x y w
0
0

y [ ]
s r
x x w b +
0 0
2
1
Donde x
r
y x
s
son cualesquiera vectores de soporte uno de cada clase. Los
clasificadores pueden ser, entonces construidos como:
( ) ( ) ( )
,
_
+ +
0
0
0 0
b x x y sign b x w sign x f
soporte de vectores
i i i
(10)
Solamente los puntos x
i
, que tienen multiplicadores de Lagrange
0
i

diferentes de cero son llamados Vectores de Soporte(SVs). Si los datos son
linealmente separables, todos los vectores de soporte estarn sobre el margen
y por lo tanto, el nmero de SV puede ser muy pequeo.
La solucin anterior slo se verifica para datos separables linealmente, y
todava debe ser ligeramente modificada para datos no separables linealmente
introduciendo un nuevo conjunto de variables
{ }
i
que mide la cantidad en la

cual las restricciones son violadas( ver figura (2b)). Luego el margen es
maximizado, asumiendo una penalizacin proporcional a la cantidad de la
violacin de la restriccin. Formalmente se resuelve el siguiente problema:
Minimice
( ) ( )
+
i
C
w
w
2
2
(11)
Sujeto a
( ) [ ]
i i i
b x w y + 1
, y
0
i
i=1,...,l
Donde C es un parmetro elegido a priori y que define el costo de la violacin
de la restriccin. El primer trmino en la ecuacin (11) proporciona una
minimizacin de la dimensin VC de la mquina de aprendizaje, minimizando
por lo tanto, el segundo trmino en la cota de la ecuacin (3). De otra parte, la
minimizacin en el segundo trmino de la ecuacin (11) controla el riesgo
emprico, el cual es el primer trmino en la ecuacin (3). Esta aproximacin, por
lo tanto, constituye una implementacin prctica de la Minimizacin del Riesgo
Estructural sobre el conjunto de funciones dado. Con el fin de resolver este
problema, el Lagrangiano se construye como sigue:
( ) ( ) [ ] { }

+ +
,
_
+
l
i
i i i i
l
i
i
l
i
i
y b x w C
w
b w L
1 1 1
2
1
2
, , (12)
Donde
i
y
i
estn asociados con las restricciones en la ecuacin (11) y los

valores de
i
tienen que ser acotados como

C
i
0
. De nuevo, la solucin
de este problema se determina por los puntos de silla de este Lagrangiano de
forma similar para el caso de datos separables.
En el caso donde una frontera lineal sea definitivamente inapropiada( o cuando
la superficie de decisin es no lineal), el SVM puede mapear el vector de
entrada x, en un espacio de caractersticas alto-dimensional z, eligiendo un
mapeo no lineal a priori. Entonces la SVM construye el hiperplano de
separacin ptimo en este espacio ms alto-dimensional. En este caso, los
problemas de optimizacin de la ecuacin(20) se convierten en :
( ) ( )
j i j i
l
i
l
j
j i
l
i
i
x x K y y W

1 1 1
2
1

(13)
Donde K(x,y) es la funcin kernel que realiza el mapeo no lineal en el espacio
de caractersticas, y las restricciones permanecen sin cambio. La solucin de
la ecuacin anterior determina los multiplicadores de Lagrange, y un
clasificador que implementa en hiperplano de separacin ptima en el espacio
de caracterstica est dado por,
( ) ( )
,
_
+
0
0
b x x K y sign x f
soporte de vectores
i i i
(14)
Consecuentemente, todo lo que se ha derivado para el caso lineal es tambin
aplicable para un caso no lineal usando un kernel conveniente K en vez del
producto punto. Adems, usando diferentes funciones kernel, el algoritmo de
SV puede construir una variedad de mquinas de aprendizaje(ver figura 3),
algunas de las cuales parecen ser similares a arquitecturas clsicas.
Funciones de base radial, funciones polinomiales y ciertas funciones
sigmoideas son entre otras que proporcionan kernels aceptables y los
correspondientes mapeos son descritos como sigue:
El kernel simple polinomial: ( ) ( )
d
i i
x x x x K 1 ) , ( + , donde el
grado del polinomio d, es definido por el usuario.
Kernel de Funciones de Base Radial: ( )
2
,
i
x x
i
e x x K

, donde
es definido por el usuario

Kernel de redes Neuronales:
( ) ( ) ( ) c x x b x x K
i i
tanh ,
, donde
b y c son definidos por el usuario.
Figura 3: Arquitectura de las Mquinas de Soporte Vectorial
El otro caso surge cuando los datos estn en mltiples clases. Con el fin de
obtener una clasificacin de k-clases, se construye un conjunto de
clasificadores binarios f
1
,f
2
,...,f
k
, cada uno entrenado para separar una clase del
resto, y estos son combinados para llevar a cabo la multiclasificacin( en un
esquema de votacin) de acuerdo con la salida mxima, antes de aplicar la
funcin signo(Scholkopf, 1997)
3.2.2.2 REGRESION POR VECTORES DE SOPORTE
Las SVMs pueden ser aplicadas tambin a problemas de regresin mediante la
introduccin de una funcin de prdida alternativa que es modificada para
incluir una medida de distancia(Smola, 1996). Sea y la variable observada
que tiene valores reales, y sea f(x, ), A, un conjunto de funciones reales
que contiene la funcin de regresin f(x,
o
). Considerando el problema de la
aproximacin de un conjunto de datos {(x
1
,y
1
), (x
2
,y
2
),...,(xl,yl), xR
n
, yR) con
una funcin lineal, f(x,)=(wx)+b, la funcin de regresin ptima est dada que
minimiza el riesgo emprico:
( ) ( )

l
i
i i emp
x f y
l
b w R
1
,
1
,

(15)
Con la funcin de prdida ms general con -zonas insensibles descrita como:
( )
( )
( )

;
'

forma otra de x f y
x f y si
x f y
,
,
;
(16)
El objetivo ahora es encontrar una funcin f(x, ), que tenga al mximo una
desviacin de con respecto a la salida observada y
i
para todos los datos de
entrenamiento, y al mismo tiempo es tan simple como sea posible. Esto es
equivalente a minimizar el funcional:
( ) ( )

+ +
i i
C
w
w
*
2
*
2
, ,
(17)
Donde C es un valor preespecificado y ,
*
son variables comodines que
representan las restricciones superiores e inferiores sobre las salidas del
sistema(ver figura 4). Como sigue:
( ) ( ) l i b x w y
i i
, , 2 , 1 + +
( ) ( ) l i y b x w
i i
, , 2 , 1
*
+ + (18)
0
*
i
y
0
i
Figura 4: Precisin pre-especificada y una variable comodn en un problema de regresin

SV
Ahora la funcin de Lagrange es construida a partir de la funcin objetivo y las
restricciones correspondientes introduciendo un conjunto dual de variables,
como sigue:
( ) ( ) [ ] ( ) [ ] ( )

+ + + + + +
,
_
+ +
l
i
l
i
i i i i i i i i
l
i
i i i
l
i
i i
b x w y b x w y C
w
L
1 1
* * * *
1 1
*
2
2
(19)
Se sigue a partir de los puntos de la condicin de puntos de silla que las
derivadas parciales de L con respecto a las variables primarias (w,b,
i
,
i
*)
tienen que desvanecerse en la optimalidad. Substituyendo los resultados de
esta derivacin en la ecuacin (17) se obtiene el problema de optimizacin
dual:
( ) ( ) ( ) ( )( )( )
j i j j
l
i
l
j
i i
l
i
i i i
l
i
i i
x x y W + + +

*
1 1
*
1
*
1
* *
2
1
,
(20)
Que tiene que ser maximizada sujeta a las restricciones:

i i

*
; C
i

*
0 y
C
i
0
para i=1,2,...,l
Una vez los coeficientes
*
i
y
i
, son determinados a partir de la ecuacin

(20), los vectores deseados se pueden encontrar como:
( )
i
soporte de vectores
i i o
x w

*
, y por lo tanto,
( ) ( )( )
o i i i
b x x x f +

*
(21)
Donde
[ ]
,
_
+
s r o o
x x w b
2
1
(22)
De nuevo, cuando la regresin lineal no sea apropiada, como en el caso de la
mayora de aplicaciones en ingeniera, un kernel de mapeo no lineal K se usa
para mapear los datos en un espacio de caractersticas de dimensin mayor
en donde se puede realizar la regresin lineal. Una vez se obtienen los valores
ptimos de
0
i
y
* 0
i
, entonces la funcin de regresin est dada por:
( )
0 0
b x w x f +
(23)
En donde
( ) ( ) x x K x w
i
soporte de vectores
i i
,
0 * 0
0

y
( ) ( ) ( ) [ ]
+
soporte de vectores
i s i r i i
x x K x x K b , ,
2
1
0 * 0
0

Babovic, V. and Keijzer, M. 2000 Genetic programming as a model induction
engine. Journal of Hydroinformatics. 2 (1), 35-60.
Burges, C.J.C., 1998, A Tutorial on Support Vector Machines for Pattern
Recognition, Data Mining and Knowledge Discovery, 2 (2), 121-167.
Dibike, Y. B. 2000 Machine Learning Paradigms for Rainfall-Runoff
Modelling, en The Proc. of the 3rd International Conference on
Hydroinformatics, Iowa City, USA.
Dibike, Y., Solomatine D. et al. 2001. Model Induction with Support Vector
Machines: Introduction and Applications. En ASCE Journal of Computing in
Civil Engineering, July 2001, vol. 15, No. 3, pp. 208-216
Gunn, S. 1998 Support Vector Machines for Classification and Regression.
ISIS Technica Report.
Jan A.K. and Dubes R.C. 1988 Algorithms for Clustering Data. Prentice Hall,
USA.
Koza, J.R., 1992 Genetic Programing: on the programming of computers by
natural selection, MIT, Cambridge, MA.
Mattera D. and Haykin S. 1999 Support vector machines for dynamic
reconstruction of a chaotic system. In Scholkopf et al, editors, Advances in
Kernel Methods Support Vector Learning, Cambridge, MA, MIT Press,
211-242..
Minoux, M. 1986 Mathematical Programing: Theory and Algorithms. John
Wiley and Sons.
Mukherjee, S. Osuna, E. and Girosi, F. 1997 Nonlinear prediction of chaotic
time series using support vector machine. In proceedings of the IEEE
Workshop on Neural Networks for Signal Processing 7, Amerlia Island, FL,
511-519.
Muller, K.R., Smola, A. Ratsch, G., Scholkopf, B., Kohlmorgen, J. and
Vapnik, V. 1997 Predicting time series with support vector machines. In
proceedings, International Conference on Artificial Neural Networks,
Springer Lecture Notes in Computer Science, page 999.
Norgaard, M., Ravn, O., Poulsen, N.K., and Hansen L.K. 2000, Neural
Networks for Modelling and Control of Dynamic Systems, Springer, London.
Norgaaad Lars. 2002. Journal of Chemometrics, Proceedings of the 7th
Scandinavian Symposium on Chemometrics. Volume 16, Issue 8-10 , Pages 482
489. John Wiley & Sons.2002
Osuna, E., Freund, R. and Girosi, F. 1997 An improved training algorithm for
support vector machines. In Proc. of the IEEE Workshop on Neural
Networks for Signal Processing VII, New York, 276-285.
Quinlan, J. R. 1986 Induction of decision trees. Machine Learning. 81-106.
Quinlan, J. R. 1992 C4.5: program for machine learning. Morgan Kaufmann.
Schalkoff, R.J. 1997 Artificial Neural Networks, McGraw-Hill, New York.
Scholkopf, B. 1997 Support Vector Learning, R. Oldenbourg, Munich.
Smola, A. 1996 Regression Estimation with Support Vector Learning
Machines, Technische Universitat Munchen.
Solomatine D.P. and Torres L.A. 1996 Neural network approximation of a
hydrodynamic model
in optimizing reservoir operation - Proc. 2nd Intern. Conference on
Hydroinformatics, Zurich, September 9-13, 201-206. TR-20 project
formulation hydrology 1965, USDA Soil Conservation Service (SCS), Central
Technical Service, Portland USA.
Tsoukalas, L.H. and Uhrig, R.E. 1997 Fuzzy and Neural Approaches in
Engineering. John Wiley and Sons, N.Y., 587.
Vapnik, V. 1995 The Nature of Statistical Learning Theory, Springer, New
York.
Vapnik, V. 1998 Statistical Learning Theory, Wiley, New York.
Vapnik, V., & Chervonenkis 1974 Theory of Pattern Recognition [in
Russian], Nauka, Moscow.
Watkins, C.J.C.H. and Dayan, P. 1992, Q-learning. Machine learning, 8, 279-
292.
Wilson, G. 1996 Reinforcement learning: A new technique for the real-time
optimal control of hydraulic networks. Proc. 2nd Int. Conference on
Hydroinformatics, Zurich, 9-13. September, 2, 893-900.
(Joel A. & Lim H., 2004) Amrit L. Goel & Hojung Lim. 2004. Support Vector
Machines and Their Applications in Systems Engineering, publicado en
Tutorial at the 8
th
IEEE International Symposium on High Assurance
Systems Engineering (HASE 2004) March 25 26, 2004, Tampa, Florida
Hurtado J. E., Henao R., Castellanos G. 2002. Clasificacin de Seales
Ssmicas por Medio de Onditas y Mquinas de Soporte Vectorial. Primer
Simposio Colombiano de Sismologa. INGEOMINAS. 2002
Carvajal J. L. & Branco J. W. 2005. Comparacin de Modelos de
Clasificacin Automtica de Patrones Texturales de Minerales Presentes en
los Carbones Colombianos. Dyna, Ao 72, Nro. 146, pp. 115-124. Medelln,
Julio de 2005. ISSN 0012-7353

Maquinas de Soporte Vectorial

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Maquinas de Soporte Vectorial

Caricato da

Copyright:

Formati disponibili

FUNDACIN UNIVERSITARIA KONRAD LORENZ

FACULTAD DE MATEMTICAS E INGENIERAS

{-1,+1}, cada uno de ellos generado a partir de una distribucin de probabilidad

son los multiplicadores de Lagrange. El Lagrangiano tiene que ser

que mide la cantidad en la

estn asociados con las restricciones en la ecuacin (11) y los

tienen que ser acotados como

es definido por el usuario

Figura 4: Precisin pre-especificada y una variable comodn en un problema de regresin

, son determinados a partir de la ecuacin

Potrebbero piacerti anche