Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Aprendizaje de Máquina:
Clasificación con KNN
• Técnicas:
Similarity-
• k-NN (Nearest Neighbor).
Based
• k-means (competitive learning).
• Perceptron Learning.
• Multilayer ANN methods (e.g. backpropagation).
• Radial Basis Functions. Fence
and
• Decision Tree Learning (e.g. ID3, C4.5, CART).
Fill
• Bayes Classifiers.
• Center Splitting Methods.
• Rules (CN2)
• Pseudo-relational: Supercharging, Pick-and-Mix.
• Relational: ILP, IFLP, SCIL.
4
Similitud/Distancia
Un concepto importante en el aprendizaje supervisado
(clasificación) y no supervisado (segmentación) es el
concepto de similitud:
5
Similitud/Distancia
• Muchísimas formas de calcular la distancia:
• Distancia Euclídea:
7
kNN
En la figura siguiente, los puntos representan un
conjunto de vectores de dimensión 2. Estos pertenecen
a dos clases denominadas A y B. El orden de selección
de los vectores está indicado por los índices situados
al lado de cada punto. Los puntos 1 al 4 ya han sido
clasificados (en rojo), por consiguiente, el interés es de
clasificar los puntos restantes (a partir del 5, en azul).
Aplicar el método kNN para k = 3.
8
kNN
9
kNN
Solución
10
kNN
12
kNN
Solución
14
Clasificación
Dado el siguiente conjunto de entrenamiento
15
Clasificación
Indique el error de clasificar los siguientes puntos,
usando kNN, con k=3:
Punto Clase
(3,3) A
(5,1) B
(6,1) B
(5,3) A
(5,5) B
(4,6) A
16
Criterios para medir el desempeño de
un clasificador
Eficacia de la predicción: capacidad del modelo para predecir
correctamente la etiqueta de una clase o de nuevos datos
Velocidad: esto se refiere a los gastos de cálculo
involucrados en la generación y uso del modelo
Robustez: capacidad del modelo para hacer predicciones
correctas sobre datos ruidosos o datos con valores perdidos
Escalabilidad: capacidad de construir un modelo eficiente
dada una gran cantidad de datos
Interpretabilidad: nivel de comprensión y conocimiento que
17
La matriz de confusión
18
La matriz de confusión
19
Accuracy
20
La eficacia no es siempre suficiente
21
Medidas sensibles al desbalance
22
Ejemplo
Distribución original
23
Ejemplo
Distribución clasificada con error
24
Cálculo de medidas
25
Otros métodos de clasificación
26
Clasificación: Regresión Lineal
▪ Regresión Lineal
w0 + w1 x + w2 y >= 0
▪ Regresión calcula los wi a
partir de los datos con el
fin de minimizar el error
cuadrático para “ajustar”
los datos
▪ No es lo suficiente flexible
27
Clasificación: Árboles de Decisión
if X > 5 then azul
else if Y > 3 then azul
Y else if X > 2 then verde
else azul
2 5 X
28
Clasificación: Redes Neuronales
▪ Pueden seleccionar
regiones más complejas
▪ Pueden ser más precisas
▪ También pueden
sobreespecializar el
modelo – encontrar
patrones en un conjunto
randómico
29
Aplicación en desastre del Titatic
https://www.kaggle.com/c/titanic
30