Sei sulla pagina 1di 13

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS

ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS

SEMINARIO DE TESIS

MAQUINAS DE SOPORTE VECTORIAL

PROFESOR: Ing. Alcántara Ramírez Manuel

ALUMNA: Vicuña Peña, Ximena Pierina Omayra 1425225133

CICLO: 2019-A

FECHA: Bellavista 13 de mayo del 2019


ÍNDICE
I. INTRODUCCION .................................................................................................................. 3
II. HISTORIA .............................................................................................................................. 3
III. DEFINICION .......................................................................................................................... 4
IV. PROBLEMAS DE CLASIFICACIÓN ................................................................................ 6
4.1. Caso Linealmente Separable ...................................................................................... 6
4.2. Caso no linealmente Separable .................................................................................. 8
4.3. Caso no linealmente separable con kernel ........................................................... 10
V. CONSIDERACIONES DE LAS MSV .............................................................................. 12
5.1. Fortalezas de las MSV ................................................................................................. 12
5.2. Debilidades de las MSV .............................................................................................. 12
VI. CRITICAS ............................................................................................................................ 12
VII. REFERENCIAS BIBLIOGRAFICAS ............................................................................... 13
I. INTRODUCCION

Una máquina de soporte vectorial es un sistema de aprendizaje automático que


permite resolver problemas de clasificación y regresión de manera muy eficiente y
que se posiciona por encima de otras técnicas tales como las redes neuronales. Las
MSVs están siendo utilizadas con éxito en diversas áreas de la informática e
Inteligencia artificia.(Betancourt, 2005)

Dentro de la tarea de clasificación, las MSVs pertenecen a la categoría de los


clasificadores lineales, puesto que inducen separadores lineales o hiperplanos, ya
sea en el espacio original de los ejemplos de entrada, si éstos son separables o
cuasi-separables (ruido), o en un espacio transformado (espacio de características),
si los ejemplos no son separables linealmente en el espacio original. Como se verá
más adelante, la búsqueda del hiperplano de separación en estos espacios
transformados, normalmente de muy alta dimensión, se hará de forma implícita
utilizando las denominadas funciones kernel. (Carmona Suárez, 2014)

II. HISTORIA

En épocas históricas, donde los intentos resultaban prematuros en relación a la


tecnología disponible, podemos considerar que el camino hacia la construcción de
máquinas inteligentes comienza en la Segunda Guerra Mundial, con el diseño de
ordenadores analógicos ideados para controlar cañones antiaéreos o para la
navegación. A partir de 1937 comienza el desarrollo de las primeras computadoras
como la Máquina de Turing hasta llegar a 1957 donde A. Newell, H. Simon y J. Shaw
presentaron el primer programa capaz de razonar sobre temas arbitrarios. Hacia
1960 John McCarthy, acuña el término de inteligencia artificial, para definir los
métodos algorítmicos capaces de simular el pensamiento humano en los
ordenadores.

Entre los métodos teóricos más utilizados están las Redes Neuronales Artificiales
(RNA). Las RNA se han integrado dentro de los métodos ya clásicos del análisis de
las relaciones cuantitativas entre la estructura y la actividad biológica u otras
propiedades. Constituyen una de las áreas de la inteligencia artificial que ha
despertado mayor interés en los últimos años. La razón principal es que
potencialmente son capaces de resolver problemas cuya solución por otros
métodos convencionales resulta extremadamente difícil dada su capacidad de
aprender. Estos modelos de aprendizaje se clasifican en: Híbridos, Supervisados,
No Supervisados y Reforzados. Dentro de los Supervisados se encuentra la técnica:
Máquinas de Soporte Vectorial (MSV). Las MSV son un paradigma aparte de la
Redes Neuronales, pero a pesar de tener similitudes están mejor fundamentadas
en la teoría y tienen mucho mejor capacidad de generalización. Las máquinas de
vectores soporte (SVM, del inglés Support Vector Machines) tienen su origen en los
trabajos sobre la teoría del aprendizaje estadístico y fueron introducidas en los años
90 por Vapnik y sus colaboradores. Aunque originariamente las MSVs fueron
pensadas para resolver problemas de clasificación binaria. (Jiménez & Rengifo,
2010)

En la actualidad, las Máquinas de Soporte Vectorial pueden ser utilizadas para


resolver problemas tanto de clasificación como de regresión. Algunas de las
aplicaciones de clasificación o reconocimiento de patrones son: reconocimiento de
firmas, reconocimiento de imágenes como rostros y categorización de textos. Por
otro lado, las aplicaciones de regresión incluyen predicción de series de tiempo y
problemas de inversión en general.

III. DEFINICION

Una Máquina de Soporte Vectorial es una nueva técnica de aprendizaje automático


que realiza la clasificación de clases. Ha mostrado un mejor desempeño que las
máquinas de aprendizaje tradicional. En primer lugar, una MSV mapea los datos de
entrada por medio de un kernel y lo lleva a un espacio dimensional mayor, donde
se busca encontrar un hiperplano que de una máxima separación. Esta función de
frontera, cuando es traída de regreso al espacio de entrada, puede separar los datos
en todas las clases distintas, cada una formando un agrupamiento. La solución del
hiperplano optimo (que maximiza la separación entre dos clases) es dada por la
combinación de pocos puntos que se conocen como vectores de soporte.
Actualmente las MSVs tienen muchas aplicaciones debido a su facilidad de trabajar
con imágenes como datos de entrada. (Betancourt, 2005)

Figure 1: La frontera de decisión debe estar tan lejos de los datos de


ambas clases

Algunas de las diversas áreas de aplicación de las MSVs son informática e


inteligencia artificial. Está basada en la Teoría de aprendizaje estadístico que
soluciona problemas de clasificación y regresión. Su éxito radica principalmente en
tres factores: su sólida fundamentación matemática, segundo minimiza el riesgo
estructural, es decir, disminuye la probabilidad de clasificación errónea en nuevos
ejemplos, principalmente cuando hay pocos datos de entrenamiento y por último,
su tercera ventaja es que puede hallar una solución rápida y eficiente al poseer
potentes herramientas y algoritmos.(Jiménez & Rengifo, 2010)

KERNEL

Las funciones kernel son funciones matemáticas que se emplean en las Máquinas
de Soporte Vectorial. Estas funciones son las que le permiten convertir lo que sería
un problema de clasificación no-lineal en el espacio dimensional original, a un
sencillo problema de clasificación lineal en un espacio dimensional mayor.(Smola &
Schölkopf, 2001)

IV. PROBLEMAS DE CLASIFICACIÓN

Entre las aplicaciones más relevantes de las MSV se encuentra la Clasificación, el


problema de la clasificación puede reducirse a examinar dos clases sin pérdida de
generalidad. En esta sección se hará una revisión de la teoría básica de las SVM
en problemas de clasificación.

4.1. Caso Linealmente Separable

Supongamos que nos han dado un conjunto S de puntos etiquetados para


entrenamiento como se aprecia en la Figura 2.

Figure 2: Caso linealmente separable

(y1, x1), . . ., (yi, xi) (1)

Cada punto de entrenamiento xi ∈ ℜN pertenece a alguna de dos clases y se le ha


dado una etiqueta yi ∈ {−1,1} para i = 1, … , l. En la mayoría de los casos, la
búsqueda de un hiperplano adecuado en un espacio de entrada es demasiado
restrictivo para ser de uso práctico. Una solución a esta situación es mapear el
espacio de entrada en un espacio de características de una dimensión mayor y
buscar el hiperplano óptimo allí. Sea z = 𝜑 (x) la notación del correspondiente vector
en el espacio de características con un mapeo 𝜑 de ℜN a un espacio de
características Z. Deseamos encontrar el hiperplano.

w⋅ z + b = 0 (2)

Definido por el par (w, b), tal que podamos separar el punto xi de acuerdo a la
función:

(3)

Donde w ∈ Z y b ∈ ℜ. Más precisamente, el conjunto S se dice que es linealmente


separable si existe (w, b) tal que las inecuaciones:

(4)

Figure 3: Hiperplanos de separación en un espacio bidimensional de un conjunto de


ejemplos separables en dos clases: (a) ejemplo de hiperplano de separación (b) otros
ejemplos de hiperplanos de separación, de entre los infinitos posibles.
Tal y como se puede deducir fácilmente de la Figura 3(b), el hiperplano que permite
separar los ejemplos no es único, es decir, existen infinitos hiperplanos separables,
representados por todos aquellos hiperplanos que son capaces de cumplir las
restricciones impuestas por cualquiera de las expresiones equivalentes. Sin
embargo, para el caso linealmente separable de S, podemos encontrar un único
hiperplano óptimo, para el cual, el margen entre las proyecciones de los puntos de
entrenamiento de dos diferentes clases es maximizado.

4.2. Caso no linealmente Separable

Si el conjunto S no es linealmente separable, violaciones a la clasificación deben


ser permitidas en la formulación de la SVM.

Figure 4: Caso no linealmente separable

Para tratar con datos que no son linealmente separables, el análisis previo puede
ser generalizado introduciendo algunas variables no-negativas ≥ 0 ξi de tal modo
que (4) es modificado a:

Los ξi ≠ 0 en (5) son aquellos para los cuales el punto xi no satisface (4). Entonces
el término ∑𝑙𝑖=1 𝜉𝑖 puede ser tomado como algún tipo de medida del error en la

clasificación.
El problema del hiperplano óptimo es entonces redefinido como la solución al
problema

(6)

Donde C es una constante. El parámetro C puede ser definido como un parámetro


de regularización. Este es el único parámetro libre de ser ajustado en la formulación
de la SVM. El ajuste de éste parámetro puede hacer un balance entre la
maximización del margen y la violación a la clasificación.

Buscando el hiperplano óptimo en (6) es un problema QP, que puede ser resuelto
construyendo un Lagrangiano y transformándolo en el dual

(7)

Donde 𝛼 = (𝛼1 , … , 𝛼𝑙 ) es una vector de multiplicadores de Lagrange positivos


asociados con las constantes en (5).

El teorema de Khun-Tucker juega un papel importante en la teoría de las SVM. De


acuerdo a este teorema, la solución 𝛼̅𝑖 del problema (7) satisface:

(8)

(9)

De esta igualdad se deduce que los únicos valores 𝛼̅𝑖 ≠ 0 (9) son aquellos que para
las constantes en (5) son satisfechas con el signo de igualdad. El punto xi
correspondiente con 𝛼̅𝑖 > 0 es llamado vector de soporte. Pero hay dos tipos de
vectores de soporte. Nos referimos a estos vectores de soporte como errores. El
punto xi correspondiente con 𝛼̅𝑖 = 0 es clasificado correctamente y está claramente
alejado del margen de decisión.

Figure 5: Aparición del parámetro de error ξi en el error


de clasificación.

Para construir el hiperplano óptimo w⋅ z + b, se utiliza

(10)

Y el escalar b puede ser determinado de las condiciones de Kuhn-Tucker (9).

La función de decisión generalizada de (3) y (10) es tal que

(11)

4.3. Caso no linealmente separable con kernel

Como no tenemos ningún conocimiento de 𝜑, el cálculo del problema (7) y (11) es


imposible. Hay una buena propiedad de la SVM la cual es que no es necesario tener

ningún conocimiento acerca de 𝜑. Nosotros sólo necesitamos una función K (·, ·)


llamada kernel que calcule el producto punto de los puntos de entrada en el espacio
de características Z, esto es

(12)
Figure 6: Idea del uso de un kernel para la transformación del espacio de los datos

Las Funciones que satisfacen el teorema de Mercer pueden ser usadas como
productos punto y por ende pueden ser usadas como kernels. Podemos usar el
kernel polinomial de grado d

(13)

Para construir un clasificador MSV.

Entonces el hiperplano no lineal de separación puede ser encontrado como la


solución de

(14)

Y la función de decisión es

(15)

(Betancourt, 2005)
V. CONSIDERACIONES DE LAS MSV

Las SVM son básicamente clasificadores para 2 clases.

Se puede cambiar la formulación del algoritmo QP para permitir clasificación


multiclase. Más comúnmente, los datos son divididos “inteligentemente” en dos
partes de diferentes formas y una SVM es entrenada para cada forma de división.
La clasificación multiclase es hecha combinando la salida de todos los
clasificadores. (Hsu & Lin, 2002)

5.1. Fortalezas de las MSV

 El entrenamiento es relativamente fácil.


 No hay óptimo local, como en las redes neuronales.
 Se escalan relativamente bien para datos en espacios dimensionales altos.
 El compromiso entre la complejidad del clasificador y el error puede ser
controlado explícitamente.
 Datos no tradicionales como cadenas de caracteres y árboles pueden ser
usados como entrada a la SVM, en vez de vectores de características.

5.2. Debilidades de las MSV

Se necesita una “buena” función kernel, es decir, se necesitan metodologías


eficientes para sintonizar los parámetros de inicialización de la SVM.

VI. CRITICAS

Clasificadoras las máquinas de soporte vectorial son muy eficientes desde diversas
perspectivas Por una parte se obtienen muy buenos resultados Aún con conjunto
de datos de entrenamiento muy pequeño. Además, el proceso de aprendizaje es un
proceso matemático que permite obtener siempre el mejor clasificado no tan sólo
un buen clasificador Cómo se obtiene en entrenamientos de redes neuronales.
VII. REFERENCIAS BIBLIOGRAFICAS

Betancourt, G. (2005). Las máquinas de soporte vectorial (SVMs). Scientia Et


Technica, 11(27), 67–72.

Carmona Suárez, E. J. (2014). Máquinas de Vectores Soporte (SVM). Dpto. de


Inteligencia Artificial, ETS de Ingeniería Inforática, Universidad Nacional de
Educación a Distancia (UNED), 1–25.

Hsu, C. W., & Lin, C. J. (2002). A comparison of methods for multiclass support
vector machines. IEEE Transactions on Neural Networks, 13(2), 415–425.
https://doi.org/10.1109/72.991427

Jiménez, L., & Rengifo, P. (2010). Al Interior de una Máquina de Soporte Vectorial.
Revista de Ciencias Universidad Del Valle, 14, 73–85.

Smola, A., & Schölkopf, B. (2001). Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond. In MIT Press
Cambridge, MA, USA.

Potrebbero piacerti anche