Sei sulla pagina 1di 7

Vectores de clasificación lineal y

Linear Support Vector Classifier


Naive Bayes Classifier
Yeni Elisabeth Romero González

Universidad Autónoma de Occidente


Cali, Colombia
yeni.romero@uao.edu.co

abstract – The learning of supervised machines or clasificación por vecino más cercano que era un
machine learning that have been studied during método simple y básico pero que al necesitar
the program of computational tools comes from respuestas más precisas se quedaban cortos. Por
the simple programming of finding intercept, ello en este documento va a condensar dos nuevos
where there are different types of classifiers métodos de clasificación uno se le conoce como
depending on the type of problem and the type of máquinas de vectores de soporte, (support vector
border classification by nearest neighbor that it machines) la otra clasificación de Naive Bayes
was a simple and basic method but that on the (Naive Bayes Classifier), partiendo de la
contrary, more precise answers fell short. construcción de vocabulario conceptual,
Therefore, this document tries to condense two conociendo su modelo matemático, algunas
new methods of classification of support vector aplicaciones y sus ventajas y desventajas.
machines, the other classification of Naive Bayes,
starting from the construction of conceptual 1. Conceptos básicos
vocabulary, knowing its mathematical model, 1.1. Support Vector Machines
some applications and its advantages and Es un tipo de clasificador que se utiliza en
disadvantages. sistemas de clasificación basados en Bag of words,
Keywords – linear, support, classifier, advantage en su formulación Support Vector Machines
corresponde a un clasificador binario y lineal, esto
Introducción quiere decir que puede distinguir únicamente entre
El aprendizaje de máquinas supervisada o dos clases o dos respuestas, donde existe una única
machine learning que se han venido estudiando frontera de separación entre dos clases
durante el programa de herramientas representada por una línea en ℝ2 y por un
computacionales viene desde la programación hiperplano en el caso general de ℝ𝑛 en el que la
sencilla de hallar intercepto, donde existen frontera de la clasificación es una recta en un
diferentes tipos de clasificadores en función del espacio bidimensional.
tipo de problema y del tipo de frontera
Extensiones clases, sino que lo hacen a partir de un conjunto
 Clasificación multiclase de entrenamiento.
 Conjuntos no separables linealmente Entonces la solución de un Support Vector
La formulación básica del método presenta que, si Machines se encuentra en el grupo de los modelos
se tienen dos clases, como se observa en la fig. 1 discriminativos, como ejemplos de este tipo de
y se quiere definir una frontera lineal entre ellas, modelos encontramos la regresión logística y las
no va a existir una única manera de generar un redes neuronales.
hiperplano de separación en un ejemplo de dos La característica principal de los support vector
clases y dos dimensiones, esto significa que se machine es que la solución se basa en margen
puede trazar líneas de separación entre las máximo quiere decir que al ser un clasificador
muestras de la clase 1 y muestras de las clase 2 lineal su solución va a ser un hiperplano que
haciendo caso a diferentes criterios. A manera particiona el espacio en dos regiones y que para el
general podemos decir que existen dos maneras de caso particular de dos dimensiones es una línea
atacar este problema en la disciplina del recta.
reconocimiento de patrones. La frontera de decisión de un SVM es un
hiperplano.

Fig. 1 conjunto de dos clases sin clasificar


Modelos generativos: estimación de la función de
Fig. 2 frontera de decisión
densidad como Naive Bayes, Fisher discriminant
La particularidad específica del SVM es que para
analysis, tratan de construir líneas de separación
calcular el hiperplano solución solo se debe tener
entre clases, en este caso se pueden presentar
en cuenta un número limitado de muestras en un
ejemplos que se trabajan con el Naive Based
conjunto de entrenamiento con propiedades
Modelos discriminativos: uso de conjunto de
concretas, y cuyas muestras se les denomina
entrenamiento sin necesidad de modelar la pdf,
vectores de soporte con la finalidad que cada una
como regresión logística, redes neuronales y
de las clases tenga un conjunto de vectores de
máquinas de vectores de soporte. Lo que hacen es
soporte.
tratar de clasificar muestras sin tener que generar
las funciones de densidad de probabilidad entre las
Hiperplano: se obtiene a partir de la solución de
un problema de optimización de imágenes,
distancia máxima entre hiperplanos que contiene
los vectores de soporte de ambas clases, con se
observa en la imagen anterior.
Una de las ventajas que presenta este método es
Fig. 3 vectores de soporte que debido a la aproximación de los vectores
soporte reduce el overfitting.
- Si se desplazan de sitio las muestras asociadas
a los vectores de soporte cambia la solución.
- Desventaja, si se desplaza el resto de muestras,
no cambia la solución.
- Sirve únicamente para clasificar conjuntos que
sean linealmente separables.
Fig. 4 vectores de soporte en cada frontera Para que el SVM pueda ser eficiente en conjuntos
Los vectores de soporte se eligen de manera que no linealmente separables, entonces:
la distancia entre los planos que los contienen se  Se relaja la condición del margen, implica
conoce como margen máxima y significa que se añadir una tolerancia de errores; esta tolerancia
ha encontrado la región más amplia del espacio de errores está controlada por las Slack
que separa a las dos clases, y que además está variables.
vacía de muestras.  Se transforma el espacio de características en
conjuntos no linealmente separable (kernel
trick).

1.2. Modelo matemático de Support


Vector Machine (SVM)
Se expresa a partir de un vector W, vector
ortogonal al hiperplano y de coeficiente de
Fig. 5 región definida hiperplanos soporte e hiperplano
intersección b, a partir de este, en un clasificador
solución
Como se puede observar en la fig. 5 la región que sea lineal y binario, las muestras positivas van

queda definida por dos hiperplanos por tanto la a ser aquellas que, cuando se aplica la formulación

región solución de un SVM es el plano intermedio del hiperplano obtiene un valor mayor a cero, y en

de la región. las muestras negativas un valor negativo de esta


manera la función de clasificación se puede 1.2.2. Modelo matemático del Support
expresar: Vector Machine
El objetivo es obtener w, b pertenecientes al
hiperplano solución: 𝒘𝑇 𝒙 + 𝑏 = 0
Se resuelve como un problema de optimización
cuadrática:
1
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝜑(𝒘) = 𝒘𝑇 𝒘
2
Fig. 6 muestra del modelo matemático Sujeto a: 𝑦, (𝒘𝑇 𝒙𝒊 + 𝑏) ≥ 1
Para la resolución de este tipo de problemas se
1.2.1. Clasificador SVM
plantea una función auxiliar conocida con el
𝑓(𝑥) = 𝑠𝑔𝑛(𝒘𝑇 𝒙 + 𝑏)
nombre de Lagrangiano.
Sgn= signo del hiperplano y la aplicación de la
𝐿(𝑥, 𝛼) = 𝑓(𝑥) + ∑𝑖 𝛼𝑖 𝑔𝑖 (𝑥) ∀𝛼𝑖 ≥ 0
fórmula que es el hiperplano medio.
Se construye a partir de sumar la función que se
𝒉+ → 𝒘𝒕 𝒙𝑗 + 𝑏 = +1
quiere optimizar y de las restricciones a las que
𝒉− → 𝒘𝒕 𝒙𝑗 + 𝑏 = −1
está sujeto el problema, multiplicada por unos
Son las fórmulas de hiperplanos paralelos al coeficientes alfa que son los multiplicadores de
hiperplano solución, se usa 1 y – 1 de forma Lagrange.
general.
𝐿(𝑥, 𝛼) = 𝑓(𝑥) + ∑𝑖 𝛼𝑖 𝑔𝑖 (𝑥) ∀𝛼𝑖 ≥ 0
La condición de clasificación del SVM va a Función a optimizar restricciones

implicar que todas las muestras que estén Multiplicadores de Lagrange

correctamente clasificadas van a tener que estar en La solución al problema de optimización se

la zona más allá del margen de cada clase, como obtiene de manera general minimizando el

se puede observar en el siguiente gráfico, Lagragiano con respecto a las variables de la

representado por las zonas en gris. función y después maximizando con respecto a los
multiplicadores alfa.
Cuando los conjuntos no son linealmente
separables se debe aplicar función kernel.

1.3. Clasificador Naive Bayes in


machine learning.
El clasificador Maive Bayes es un algoritmo
directo para la tarea de clasificación en conjuntos
de datos con millones de registros, ya que ofrece
Fig. 7 zonas clasificadas del SVM excelentes resultados para el análisis de datos
textuales como procesamiento de lenguaje natural, y luego se calcula la media y la varianza de cada
guiado por el teorema de Bayes predice clase.
probabilidades de membresía para cada clase 1 (𝑥𝑖 − 𝜇𝑦 )2
𝑃(𝑥𝑖 |𝑦) = exp (− )
particular, donde la clase de probabilidad mas alta 2𝜎𝑦2
√2𝜋𝜎𝑦2
se considera la más probable.

1.3.3. MultiNomial Naive Bayes


1.3.1. Teorema de Bayes
Se prefiere usar MultiNomial Naive Bayes en
Denominado así gracias al reverendo Thomas
datos distribuidos multinomialmente es un
Bayes quien descubrió que esta clasificación
algoritmo clásico estándar y se usa en la
funciona en probabilidad condicional.
categorización de texto, donde cada evento en la
Y está guiada por la siguiente fórmula.
clasificación representa una palabra en un
documento.
𝑃(𝐸|𝐻) ∗ 𝑃(𝐻)
(𝐻|𝐸) =
𝑃(𝐸)
Donde, 1.3.4. Bernoulli Naive Bayes

 P(H) es la probabilidad de que la hipótesis H Se usa en los datos que se distribuyen con las

sea verdadera. (probabilidad previa). distribuciones multivariadas de Bernoulli. Existen

 P(E) es la probabilidad de la evidencia. varias características

 P(H|E) es la probabilidad de la evidencia dado


1.3.5. Ejemplo
que la hipótesis es verdadera.
El path lab es un test de diagnóstico con dos
 P(H|E) es la probabilidad de la hipótesis dado
posibles resultados "positivo" o " negativo" que
que la evidencia está ahí.
garantiza que tiene una precisión del 99%.
También existen otros tipos de métodos Naive
- Si tiene la enfermedad, el test será
Bayes, entre las que se encuentran, Gaussian
positivo al 99%.
Naive Bayes, MultiNomial Naive Bayes y
- Si no tiene la enfermedad, el test será
Bernoulli Naive Bayes.
negativo en un 99%.
- Si el 3% de las personas tienen está
1.3.2. Gaussian Naive Bayes
enfermedad y el test es positivo, es
Se utiliza cuando los valores de los atributos son
probable que usted tenga la enfermedad?
continuos, se asume que los valores asociados con
Para resolver el problema anterior, hay que usar la
cada clase de distribuyen de acuerdo con
probabilidad condicional. Probabilidad de
Gaussian, es decir distribución normal.
personas que padecen la enfermedad y se denotará
Si en los datos, un atributo X contiene datos
con la letra D,
continuos. Primero se segmenta los datos por clase
La probabilidad de que la personas padezca de la Conclusión
enfermedad D, Para resolver un problema de optimización
𝑃(𝐷) = 0.03 = 3% cuadrática se puede usar multiplicadores de
La probabilidad que el test de positivo y que el Lagrange.
paciente tenga la enfermedad, La solución del SVM se puede expresar a partir
𝑃(𝑃𝑜𝑠 | 𝐷) = 0.99 = 99% del producto escalar entre vectores.
La probabilidad que la persona no sufra de la El clasificador Nive Bayes es una probabilidad
enfermedad D, que se usa para normalizar un resultado si se
𝑃(~𝐷) = 0.97 = 97% mantiene igual podrá ser eliminado y no afectará.
La probabilidad que el test de un resultado
Referencias Bibliográficas
positivo y que el paciente tenga la enfermedad,
𝑃(𝑃𝑜𝑟 |~𝐷) = 0.01 = 1%
[1] M. Y. Aguero P., «Estimadores norma Lp en

𝑃(𝐸|𝐻) ∗ 𝑃(𝐻) regresión lineal,» de Laboratorio de series de


(𝐻|𝐸) =
𝑃(𝐸) tiempo - FCM, Lima, PESQUIMAT, 1998, pp. 91-
102.
𝑃(𝑃𝑜𝑠|𝐷) ∗ 𝑃(𝐷)
𝑃(𝐷|𝑃𝑜𝑠) = [2] C. A. Peréz Montaña ,
𝑃(𝑃𝑜𝑠)
«https://www.youtube.com,» [En línea].
𝑃(𝑃𝑜𝑠) = 𝑃(𝐷, 𝑝𝑜𝑠) + 𝑃(~𝐷, 𝑝𝑜𝑠)
Available:
= 𝑃(𝑝𝑜𝑠|𝐷) ∗ 𝑃(𝐷) + 𝑃(𝑝𝑜𝑠|~𝐷) ∗ 𝑃(~𝐷)
https://www.youtube.com/watch?v=Sv5IJ1AjjSU.
= 0.99 ∗ 0.03 + 0.01 ∗ 0.97
[Último acceso: 19 02 2018].
= 0.0297 + 0.0097
= 0.0394 [3] M. Carrasco Carrasco y D. J. M. Muñoz Pichardo,
Ténicas de regularizacion en regresion:
(𝑃 (𝑃𝑜𝑠 | 𝐷) ∗ 𝑃 (𝐷)) implementacion y aplicaciones, Sevilla:
𝑃 (𝐷 | 𝑃𝑜𝑠) =
𝑃 (𝑃𝑜𝑠) Univesidad de Sevilla, 2016.
(0.99 ∗ 0.03)
= [4] T. Hastie, R. Tibshirani y J. Friedman, The
0.0394
= 0.753807107 elements of Statistical Learning, Stanford,
California: Springer, 2008.
Entonces las posibilidades de que el paciente [5] A. López Peña, «es.cousera.org,» Universidad
padezca una enfermedad es del 75%. Autónoma de Barcelona, 2018. [En línea].
Available:
https://es.coursera.org/learn/deteccion-
objetos/lecture/TCacZ/l2-4-a-regresion-logistica-
aprendizaje-i. [Último acceso: 21 02 2018].

https://es.coursera.org/learn/clasificacion-
imagenes/lecture/52lRD/support-vector-
machines-svm-conceptos-basicos

https://es.coursera.org/learn/probabilistic-
graphical-models/lecture/PTXfn/conditional-
independence

http://dataaspirant.com/2017/02/06/naive-bayes-
classifier-machine-learning/

https://machinelearningmastery.com/support-
vector-machines-for-machine-learning/

https://es.coursera.org/learn/python-machine-
learning/lecture/uClaN/linear-classifiers-support-
vector-machines

Cerebro, inteligencias y mapas mentales


Zoraida de montes
Neuro proceso de la enseñanza y del aprendizaje
Programación neurolingüística jazmin sambrano
Teoría y sinergia del conocimiento

Potrebbero piacerti anche